vllm.v1.outputs ¶

EMPTY_MODEL_RUNNER_OUTPUT `module-attribute` ¶

EMPTY_MODEL_RUNNER_OUTPUT = ModelRunnerOutput(
    req_ids=[],
    req_id_to_index={},
    sampled_token_ids=[],
    logprobs=None,
    prompt_logprobs_dict={},
    pooler_output=[],
    num_nans_in_logits=None,
)

PoolerOutput `module-attribute` ¶

PoolerOutput = Tensor | list[Tensor]

AsyncModelRunnerOutput ¶

Bases: ABC

Source code in vllm/v1/outputs.py

class AsyncModelRunnerOutput(ABC):
    @abstractmethod
    def get_output(self) -> ModelRunnerOutput:
        """Get the ModelRunnerOutput for this async output.

        This is a blocking call that waits until the results are ready, which
        might involve copying device tensors to the host.
        This method should only be called once per AsyncModelRunnerOutput.
        """
        pass

get_output `abstractmethod` ¶

get_output() -> ModelRunnerOutput

Get the ModelRunnerOutput for this async output.

This is a blocking call that waits until the results are ready, which might involve copying device tensors to the host. This method should only be called once per AsyncModelRunnerOutput.

Source code in vllm/v1/outputs.py

@abstractmethod
def get_output(self) -> ModelRunnerOutput:
    """Get the ModelRunnerOutput for this async output.

    This is a blocking call that waits until the results are ready, which
    might involve copying device tensors to the host.
    This method should only be called once per AsyncModelRunnerOutput.
    """
    pass

DraftTokenIds `dataclass` ¶

Source code in vllm/v1/outputs.py

@dataclass
class DraftTokenIds:
    # [num_reqs]
    req_ids: list[str]
    # num_reqs x num_draft_tokens
    draft_token_ids: list[list[int]]

draft_token_ids `instance-attribute` ¶

draft_token_ids: list[list[int]]

req_ids `instance-attribute` ¶

req_ids: list[str]

init ¶

__init__(
    req_ids: list[str], draft_token_ids: list[list[int]]
) -> None

KVConnectorOutput `dataclass` ¶

Source code in vllm/v1/outputs.py

@dataclass
class KVConnectorOutput:
    # [req_ids]
    finished_sending: set[str] | None = None
    finished_recving: set[str] | None = None
    kv_connector_stats: KVConnectorStats | None = None
    # IDs of externally computed KV blocks that failed to load.
    # Requests referencing these blocks should be rescheduled to recompute them
    invalid_block_ids: set[int] = field(default_factory=set)
    # Configuration describing how many finished sending/receiving
    # notifications should be expected for each request. This allows
    # handshake-based connectors like Nixl to update the KVOutputAggregator.
    # It captures a static setup info and should almost always remain constant
    # for a given connector after discovery. Default value entails no change.
    expected_finished_count: int = 0

    def is_empty(self):
        return (
            not self.finished_sending
            and not self.finished_recving
            and not self.kv_connector_stats
            and not self.invalid_block_ids
        )

expected_finished_count `class-attribute` `instance-attribute` ¶

expected_finished_count: int = 0

finished_recving `class-attribute` `instance-attribute` ¶

finished_recving: set[str] | None = None

finished_sending `class-attribute` `instance-attribute` ¶

finished_sending: set[str] | None = None

invalid_block_ids `class-attribute` `instance-attribute` ¶

invalid_block_ids: set[int] = field(default_factory=set)

kv_connector_stats `class-attribute` `instance-attribute` ¶

kv_connector_stats: KVConnectorStats | None = None

init ¶

__init__(
    finished_sending: set[str] | None = None,
    finished_recving: set[str] | None = None,
    kv_connector_stats: KVConnectorStats | None = None,
    invalid_block_ids: set[int] = set(),
    expected_finished_count: int = 0,
) -> None

is_empty ¶

is_empty()

Source code in vllm/v1/outputs.py

def is_empty(self):
    return (
        not self.finished_sending
        and not self.finished_recving
        and not self.kv_connector_stats
        and not self.invalid_block_ids
    )

LogprobsLists ¶

Bases: NamedTuple

Source code in vllm/v1/outputs.py

class LogprobsLists(NamedTuple):
    # [num_reqs x num_generated_tokens, max_num_logprobs + 1]
    logprob_token_ids: list[list[int]]
    # [num_reqs x num_generated_tokens, max_num_logprobs + 1]
    logprobs: list[list[float]]
    # [num_reqs x num_generated_tokens]
    sampled_token_ranks: list[int]
    # [num_reqs]
    # Used for slicing the logprobs in cases like speculative
    # decoding where the number of generated tokens may be
    # different for each request.
    cu_num_generated_tokens: list[int] | None = None

    def slice(self, start_req_idx: int, end_req_idx: int):
        if self.cu_num_generated_tokens:
            start = self.cu_num_generated_tokens[start_req_idx]
            end = self.cu_num_generated_tokens[end_req_idx]
        else:
            start = start_req_idx
            end = end_req_idx
        return LogprobsLists(
            self.logprob_token_ids[start:end],
            self.logprobs[start:end],
            self.sampled_token_ranks[start:end],
            self.cu_num_generated_tokens[start_req_idx:end_req_idx]
            if self.cu_num_generated_tokens
            else None,
        )

cu_num_generated_tokens `class-attribute` `instance-attribute` ¶

cu_num_generated_tokens: list[int] | None = None

logprob_token_ids `instance-attribute` ¶

logprob_token_ids: list[list[int]]

logprobs `instance-attribute` ¶

logprobs: list[list[float]]

sampled_token_ranks `instance-attribute` ¶

sampled_token_ranks: list[int]

slice ¶

slice(start_req_idx: int, end_req_idx: int)

Source code in vllm/v1/outputs.py

def slice(self, start_req_idx: int, end_req_idx: int):
    if self.cu_num_generated_tokens:
        start = self.cu_num_generated_tokens[start_req_idx]
        end = self.cu_num_generated_tokens[end_req_idx]
    else:
        start = start_req_idx
        end = end_req_idx
    return LogprobsLists(
        self.logprob_token_ids[start:end],
        self.logprobs[start:end],
        self.sampled_token_ranks[start:end],
        self.cu_num_generated_tokens[start_req_idx:end_req_idx]
        if self.cu_num_generated_tokens
        else None,
    )

LogprobsTensors ¶

Bases: NamedTuple

Source code in vllm/v1/outputs.py

class LogprobsTensors(NamedTuple):
    # [num_reqs x num_generated_tokens, max_num_logprobs + 1]
    logprob_token_ids: torch.Tensor
    # [num_reqs x num_generated_tokens, max_num_logprobs + 1]
    logprobs: torch.Tensor
    # [num_reqs x num_generated_tokens]
    selected_token_ranks: torch.Tensor

    def tolists(self, cu_num_generated_tokens: list[int] | None = None):
        return LogprobsLists(
            self.logprob_token_ids.tolist(),
            self.logprobs.tolist(),
            self.selected_token_ranks.tolist(),
            cu_num_generated_tokens,
        )

    def to_cpu_nonblocking(self) -> "LogprobsTensors":
        if self.logprob_token_ids.device.type == "cpu":
            return self
        return LogprobsTensors(
            self.logprob_token_ids.to("cpu", non_blocking=True),
            self.logprobs.to("cpu", non_blocking=True),
            self.selected_token_ranks.to("cpu", non_blocking=True),
        )

    @staticmethod
    def empty_cpu(
        num_positions: int, num_tokens_per_position: int
    ) -> "LogprobsTensors":
        """Create empty LogprobsTensors on CPU."""

        logprob_token_ids = torch.empty(
            (num_positions, num_tokens_per_position), dtype=torch.int32, device="cpu"
        )
        logprobs = torch.empty_like(logprob_token_ids, dtype=torch.float32)
        selected_token_ranks = torch.empty(
            num_positions, dtype=torch.int32, device="cpu"
        )
        return LogprobsTensors(
            logprob_token_ids=logprob_token_ids,
            logprobs=logprobs,
            selected_token_ranks=selected_token_ranks,
        )

logprob_token_ids `instance-attribute` ¶

logprob_token_ids: Tensor

logprobs `instance-attribute` ¶

logprobs: Tensor

selected_token_ranks `instance-attribute` ¶

selected_token_ranks: Tensor

empty_cpu `staticmethod` ¶

empty_cpu(
    num_positions: int, num_tokens_per_position: int
) -> LogprobsTensors

Create empty LogprobsTensors on CPU.

Source code in vllm/v1/outputs.py

@staticmethod
def empty_cpu(
    num_positions: int, num_tokens_per_position: int
) -> "LogprobsTensors":
    """Create empty LogprobsTensors on CPU."""

    logprob_token_ids = torch.empty(
        (num_positions, num_tokens_per_position), dtype=torch.int32, device="cpu"
    )
    logprobs = torch.empty_like(logprob_token_ids, dtype=torch.float32)
    selected_token_ranks = torch.empty(
        num_positions, dtype=torch.int32, device="cpu"
    )
    return LogprobsTensors(
        logprob_token_ids=logprob_token_ids,
        logprobs=logprobs,
        selected_token_ranks=selected_token_ranks,
    )

to_cpu_nonblocking ¶

to_cpu_nonblocking() -> LogprobsTensors

Source code in vllm/v1/outputs.py

def to_cpu_nonblocking(self) -> "LogprobsTensors":
    if self.logprob_token_ids.device.type == "cpu":
        return self
    return LogprobsTensors(
        self.logprob_token_ids.to("cpu", non_blocking=True),
        self.logprobs.to("cpu", non_blocking=True),
        self.selected_token_ranks.to("cpu", non_blocking=True),
    )

tolists ¶

tolists(cu_num_generated_tokens: list[int] | None = None)

Source code in vllm/v1/outputs.py

def tolists(self, cu_num_generated_tokens: list[int] | None = None):
    return LogprobsLists(
        self.logprob_token_ids.tolist(),
        self.logprobs.tolist(),
        self.selected_token_ranks.tolist(),
        cu_num_generated_tokens,
    )

ModelRunnerOutput `dataclass` ¶

Source code in vllm/v1/outputs.py

@dataclass
class ModelRunnerOutput:
    # [num_reqs]
    req_ids: list[str]
    # req_id -> index
    req_id_to_index: dict[str, int]

    # num_reqs x num_generated_tokens
    # num_generated_tokens is the number of tokens
    # generated in the current step. It can be different for
    # each request due to speculative/jump decoding.
    sampled_token_ids: list[list[int]]

    # [num_reqs, max_num_logprobs + 1]
    # [num_reqs, max_num_logprobs + 1]
    # [num_reqs]
    logprobs: LogprobsLists | None

    # req_id -> (token_ids, logprobs, ranks)
    # [prompt_len, num_prompt_logprobs]
    # [prompt_len, num_prompt_logprobs]
    # [prompt_len]
    prompt_logprobs_dict: dict[str, LogprobsTensors | None]

    # [num_reqs, hidden_size]
    pooler_output: list[torch.Tensor | None]

    kv_connector_output: KVConnectorOutput | None = None

    # req_id -> num_nans_in_logits
    num_nans_in_logits: dict[str, int] | None = None

kv_connector_output `class-attribute` `instance-attribute` ¶

kv_connector_output: KVConnectorOutput | None = None

logprobs `instance-attribute` ¶

logprobs: LogprobsLists | None

num_nans_in_logits `class-attribute` `instance-attribute` ¶

num_nans_in_logits: dict[str, int] | None = None

pooler_output `instance-attribute` ¶

pooler_output: list[Tensor | None]

prompt_logprobs_dict `instance-attribute` ¶

prompt_logprobs_dict: dict[str, LogprobsTensors | None]

req_id_to_index `instance-attribute` ¶

req_id_to_index: dict[str, int]

req_ids `instance-attribute` ¶

req_ids: list[str]

sampled_token_ids `instance-attribute` ¶

sampled_token_ids: list[list[int]]

init ¶

__init__(
    req_ids: list[str],
    req_id_to_index: dict[str, int],
    sampled_token_ids: list[list[int]],
    logprobs: LogprobsLists | None,
    prompt_logprobs_dict: dict[str, LogprobsTensors | None],
    pooler_output: list[Tensor | None],
    kv_connector_output: KVConnectorOutput | None = None,
    num_nans_in_logits: dict[str, int] | None = None,
) -> None

SamplerOutput `dataclass` ¶

Source code in vllm/v1/outputs.py

@dataclass
class SamplerOutput:
    # [num_reqs, max_num_generated_tokens]
    # Different requests can have different number of generated tokens.
    # All requests are padded to max_num_generated_tokens.
    # PLACEHOLDER_TOKEN_ID (-1 by default) is used for padding.
    sampled_token_ids: torch.Tensor
    logprobs_tensors: LogprobsTensors | None

logprobs_tensors `instance-attribute` ¶

logprobs_tensors: LogprobsTensors | None

sampled_token_ids `instance-attribute` ¶

sampled_token_ids: Tensor

init ¶

__init__(
    sampled_token_ids: Tensor,
    logprobs_tensors: LogprobsTensors | None,
) -> None

vllm.v1.outputs ¶

EMPTY_MODEL_RUNNER_OUTPUT module-attribute ¶

PoolerOutput module-attribute ¶

AsyncModelRunnerOutput ¶

get_output abstractmethod ¶

DraftTokenIds dataclass ¶

draft_token_ids instance-attribute ¶

req_ids instance-attribute ¶

__init__ ¶

KVConnectorOutput dataclass ¶

expected_finished_count class-attribute instance-attribute ¶

finished_recving class-attribute instance-attribute ¶

finished_sending class-attribute instance-attribute ¶

invalid_block_ids class-attribute instance-attribute ¶

kv_connector_stats class-attribute instance-attribute ¶

__init__ ¶

is_empty ¶

LogprobsLists ¶

cu_num_generated_tokens class-attribute instance-attribute ¶

logprob_token_ids instance-attribute ¶

logprobs instance-attribute ¶

sampled_token_ranks instance-attribute ¶

slice ¶

LogprobsTensors ¶

logprob_token_ids instance-attribute ¶

logprobs instance-attribute ¶

selected_token_ranks instance-attribute ¶

empty_cpu staticmethod ¶

to_cpu_nonblocking ¶

tolists ¶

ModelRunnerOutput dataclass ¶

kv_connector_output class-attribute instance-attribute ¶

logprobs instance-attribute ¶

num_nans_in_logits class-attribute instance-attribute ¶

pooler_output instance-attribute ¶

prompt_logprobs_dict instance-attribute ¶

req_id_to_index instance-attribute ¶

req_ids instance-attribute ¶

sampled_token_ids instance-attribute ¶

__init__ ¶

SamplerOutput dataclass ¶

logprobs_tensors instance-attribute ¶

sampled_token_ids instance-attribute ¶

__init__ ¶

EMPTY_MODEL_RUNNER_OUTPUT `module-attribute` ¶

PoolerOutput `module-attribute` ¶

get_output `abstractmethod` ¶

DraftTokenIds `dataclass` ¶

draft_token_ids `instance-attribute` ¶

req_ids `instance-attribute` ¶

init ¶

KVConnectorOutput `dataclass` ¶

expected_finished_count `class-attribute` `instance-attribute` ¶

finished_recving `class-attribute` `instance-attribute` ¶

finished_sending `class-attribute` `instance-attribute` ¶

invalid_block_ids `class-attribute` `instance-attribute` ¶

kv_connector_stats `class-attribute` `instance-attribute` ¶

init ¶

cu_num_generated_tokens `class-attribute` `instance-attribute` ¶

logprob_token_ids `instance-attribute` ¶

logprobs `instance-attribute` ¶

sampled_token_ranks `instance-attribute` ¶

logprob_token_ids `instance-attribute` ¶

logprobs `instance-attribute` ¶

selected_token_ranks `instance-attribute` ¶

empty_cpu `staticmethod` ¶

ModelRunnerOutput `dataclass` ¶

kv_connector_output `class-attribute` `instance-attribute` ¶

logprobs `instance-attribute` ¶

num_nans_in_logits `class-attribute` `instance-attribute` ¶

pooler_output `instance-attribute` ¶

prompt_logprobs_dict `instance-attribute` ¶

req_id_to_index `instance-attribute` ¶

req_ids `instance-attribute` ¶

sampled_token_ids `instance-attribute` ¶

init ¶

SamplerOutput `dataclass` ¶

logprobs_tensors `instance-attribute` ¶

sampled_token_ids `instance-attribute` ¶

init ¶