Skip to content

[Question]: xllm 技术报告性能复现问题:与 vllm_ascend 最新版本实测结果不一致 #832

@w1ida

Description

@w1ida

❓ Describe the question

在阅读 xllm 技术报告时,注意到其中给出的性能数据相较 vllm_ascend 有明显优势。
但在我们近期的实测中,结果与报告结论存在一定差异,因此想请教是否是测试方法或配置理解存在问题。


1. 单卡性能对比测试说明

测试环境:

  • 硬件:Ascend 910B3,单卡
  • 模型:Qwen3-14B
  • 输入长度:1024
  • 输出长度:100
  • 数据集:random
  • 并发:40

xllm 测试结果:

  • 镜像:xllm-0.7.2-release-hb-rc2-arm
  • 输出吞吐量:约 420 tokens/s

vllm_ascend 测试结果:

  • 版本:v13.0
  • 输出吞吐量:约 579 tokens/s

在 xllm 测试中,尝试开启关闭以下选项,但对性能提升不明显:

  • enable_schedule_overlap
  • enable_multi_stream_parallel
  • enable_acl_graph

对应的 xllm 启动参数如下:

MODEL_PATH="/model1/Qwen3-14B"
MASTER_NODE_ADDR="127.0.0.1:9748"

/usr/local/bin/xllm \
  --model $MODEL_PATH \
  --devices="npu:0" \
  --port 18000 \
  --master_node_addr=$MASTER_NODE_ADDR \
  --nnodes=1 \
  --node_rank=0 \
  --max_memory_utilization=0.9 \
  --block_size=128 \
  --communication_backend="hccl" \
  --enable_prefix_cache=false \
  --enable_chunked_prefill=false \
  --enable_schedule_overlap=false \
  --enable_multi_stream_parallel=false \
  --enable_shm=true \
  --enable_acl_graph=true

想请教:

  • 上述配置是否符合技术报告中单卡 benchmark 的推荐设置?
  • 是否还有对 Qwen3-14B 更关键、但我们未开启的参数或运行模式?

2. 关于技术报告 Figure 14 多卡结果的理解

在技术报告的 Figure 14 中,xllm 在多卡场景下表现出较好的 scaling 效果。

Image

想确认: Figure 14 中的多卡测试,是否采用了 PD 分离(Prefill / Decode 分离) 的部署方式?

整体来看,我们非常认可 xllm 的架构设计和技术路线,希望能够对齐测试方法,
以便更准确地理解技术报告中的性能结论。感谢解答!

Metadata

Metadata

Assignees

No one assigned

    Labels

    questionFurther information is requested

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions