vllm.models.deepseek_v4.attention ¶

DeepseekV4 MLA Attention Layer

_select_v4_sparse_impl ¶

_select_v4_sparse_impl() -> type[
    DeepseekV4SparseMLAAttentionImpl
]

Pick the platform-specific V4 sparse MLA impl class. Sole platform check.

Source code in vllm/models/deepseek_v4/attention.py

def _select_v4_sparse_impl() -> "type[DeepseekV4SparseMLAAttentionImpl]":
    """Pick the platform-specific V4 sparse MLA impl class. Sole platform check."""
    if current_platform.is_rocm():
        from vllm.models.deepseek_v4.amd.rocm import (
            DeepseekV4ROCMAiterMLASparseImpl,
        )

        return DeepseekV4ROCMAiterMLASparseImpl
    from vllm.models.deepseek_v4.nvidia.flashmla import (
        DeepseekV4FlashMLASparseImpl,
    )

    return DeepseekV4FlashMLASparseImpl