-
Notifications
You must be signed in to change notification settings - Fork 140
Open
Labels
questionFurther information is requestedFurther information is requested
Description
❓ Describe the question
在阅读 xllm 技术报告时,注意到其中给出的性能数据相较 vllm_ascend 有明显优势。
但在我们近期的实测中,结果与报告结论存在一定差异,因此想请教是否是测试方法或配置理解存在问题。
1. 单卡性能对比测试说明
测试环境:
- 硬件:Ascend 910B3,单卡
- 模型:Qwen3-14B
- 输入长度:1024
- 输出长度:100
- 数据集:random
- 并发:40
xllm 测试结果:
- 镜像:
xllm-0.7.2-release-hb-rc2-arm - 输出吞吐量:约 420 tokens/s
vllm_ascend 测试结果:
- 版本:v13.0
- 输出吞吐量:约 579 tokens/s
在 xllm 测试中,尝试开启关闭以下选项,但对性能提升不明显:
enable_schedule_overlapenable_multi_stream_parallelenable_acl_graph
对应的 xllm 启动参数如下:
MODEL_PATH="/model1/Qwen3-14B"
MASTER_NODE_ADDR="127.0.0.1:9748"
/usr/local/bin/xllm \
--model $MODEL_PATH \
--devices="npu:0" \
--port 18000 \
--master_node_addr=$MASTER_NODE_ADDR \
--nnodes=1 \
--node_rank=0 \
--max_memory_utilization=0.9 \
--block_size=128 \
--communication_backend="hccl" \
--enable_prefix_cache=false \
--enable_chunked_prefill=false \
--enable_schedule_overlap=false \
--enable_multi_stream_parallel=false \
--enable_shm=true \
--enable_acl_graph=true想请教:
- 上述配置是否符合技术报告中单卡 benchmark 的推荐设置?
- 是否还有对 Qwen3-14B 更关键、但我们未开启的参数或运行模式?
2. 关于技术报告 Figure 14 多卡结果的理解
在技术报告的 Figure 14 中,xllm 在多卡场景下表现出较好的 scaling 效果。
想确认: Figure 14 中的多卡测试,是否采用了 PD 分离(Prefill / Decode 分离) 的部署方式?
整体来看,我们非常认可 xllm 的架构设计和技术路线,希望能够对齐测试方法,
以便更准确地理解技术报告中的性能结论。感谢解答!
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
questionFurther information is requestedFurther information is requested