vllm.v1.worker.xpu_model_runner ¶

logger `module-attribute` ¶

logger = init_logger(__name__)

XPUModelRunner ¶

Bases: GPUModelRunner

A model runner for XPU devices.

Source code in vllm/v1/worker/xpu_model_runner.py

class XPUModelRunner(GPUModelRunner):
    """A model runner for XPU devices."""

    def __init__(
        self,
        vllm_config: VllmConfig,
        device: torch.device,
    ):
        with _torch_cuda_wrapper():
            super().__init__(vllm_config, device)
        # FIXME: To be verified.
        self.cascade_attn_enabled = False

    def _init_device_properties(self) -> None:
        self.num_sms = None

    def _sync_device(self) -> None:
        torch.xpu.synchronize()

cascade_attn_enabled `instance-attribute` ¶

cascade_attn_enabled = False

init ¶

__init__(vllm_config: VllmConfig, device: device)

Source code in vllm/v1/worker/xpu_model_runner.py

def __init__(
    self,
    vllm_config: VllmConfig,
    device: torch.device,
):
    with _torch_cuda_wrapper():
        super().__init__(vllm_config, device)
    # FIXME: To be verified.
    self.cascade_attn_enabled = False

_init_device_properties ¶

_init_device_properties() -> None

Source code in vllm/v1/worker/xpu_model_runner.py

def _init_device_properties(self) -> None:
    self.num_sms = None

_sync_device ¶

_sync_device() -> None

Source code in vllm/v1/worker/xpu_model_runner.py

def _sync_device(self) -> None:
    torch.xpu.synchronize()

_torch_cuda_wrapper ¶

_torch_cuda_wrapper()

Source code in vllm/v1/worker/xpu_model_runner.py

@contextmanager
def _torch_cuda_wrapper():
    class _EventPlaceholder:
        def __init__(self, *args, **kwargs) -> None:
            self.record = lambda: None
            self.synchronize = lambda: None

    try:
        # replace cuda APIs with xpu APIs, this should work by default
        torch.cuda.Event = torch.xpu.Event
        torch.cuda.Stream = torch.xpu.Stream
        torch.cuda.default_stream = torch.xpu.current_stream
        torch.cuda.current_stream = torch.xpu.current_stream
        torch.cuda.stream = torch.xpu.stream
        yield
    finally:
        # if anything goes wrong, just patch it with a placeholder
        torch.cuda.Event = _EventPlaceholder

vllm.v1.worker.xpu_model_runner ¶

logger module-attribute ¶

XPUModelRunner ¶

cascade_attn_enabled instance-attribute ¶

__init__ ¶

_init_device_properties ¶

_sync_device ¶

_torch_cuda_wrapper ¶

logger `module-attribute` ¶

cascade_attn_enabled `instance-attribute` ¶

init ¶