Skip to content

vllm deploy-是否支持gen-mode #11

@DAVID-Hown

Description

@DAVID-Hown

Claude给出的回答:gen_emb 需要 decode 循环(自回归生成 ......<gen_emb>),而 embedding 端点没有这个循环。两个端点是完全不同的代码路径。即使你把 gen_emb 的 prompt 发给 /v1/embeddings,vLLM 也只会做一次前向,直接对输入序列做 last-token pooling,取到的是 GEN_INSTRUCTION 末尾的 token,而不是经过推理后的 <gen_emb>。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions