[Question]: xllm 技术报告性能复现问题：与 vllm_ascend 最新版本实测结果不一致

### ❓ Describe the question


在阅读 xllm 技术报告时，注意到其中给出的性能数据相较 vllm_ascend 有明显优势。
但在我们近期的实测中，结果与报告结论存在一定差异，因此想请教是否是测试方法或配置理解存在问题。

---

### 1. 单卡性能对比测试说明

**测试环境：**
- 硬件：Ascend 910B3，单卡
- 模型：Qwen3-14B
- 输入长度：1024
- 输出长度：100
- 数据集：random
- 并发：40

**xllm 测试结果：**
- 镜像：`xllm-0.7.2-release-hb-rc2-arm`
- 输出吞吐量：约 **420 tokens/s**

**vllm_ascend 测试结果：**
- 版本：v13.0
- 输出吞吐量：约 **579 tokens/s**

在 xllm 测试中，尝试开启关闭以下选项，但对性能提升不明显：
- `enable_schedule_overlap`
- `enable_multi_stream_parallel`
- `enable_acl_graph`

对应的 xllm 启动参数如下：

```bash
MODEL_PATH="/model1/Qwen3-14B"
MASTER_NODE_ADDR="127.0.0.1:9748"

/usr/local/bin/xllm \
  --model $MODEL_PATH \
  --devices="npu:0" \
  --port 18000 \
  --master_node_addr=$MASTER_NODE_ADDR \
  --nnodes=1 \
  --node_rank=0 \
  --max_memory_utilization=0.9 \
  --block_size=128 \
  --communication_backend="hccl" \
  --enable_prefix_cache=false \
  --enable_chunked_prefill=false \
  --enable_schedule_overlap=false \
  --enable_multi_stream_parallel=false \
  --enable_shm=true \
  --enable_acl_graph=true
````

想请教：

* 上述配置是否符合技术报告中单卡 benchmark 的推荐设置？
* 是否还有对 Qwen3-14B 更关键、但我们未开启的参数或运行模式？

---

### 2. 关于技术报告 Figure 14 多卡结果的理解

在技术报告的 **Figure 14** 中，xllm 在多卡场景下表现出较好的 scaling 效果。

<img width="1498" height="1364" alt="Image" src="https://github.com/user-attachments/assets/ae33c067-181e-41fd-87a1-7fbdb1ba9521" />

想确认： Figure 14 中的多卡测试，是否采用了 **PD 分离（Prefill / Decode 分离）** 的部署方式？

整体来看，我们非常认可 xllm 的架构设计和技术路线，希望能够对齐测试方法，
以便更准确地理解技术报告中的性能结论。感谢解答！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Question]: xllm 技术报告性能复现问题：与 vllm_ascend 最新版本实测结果不一致 #832

❓ Describe the question

1. 单卡性能对比测试说明

2. 关于技术报告 Figure 14 多卡结果的理解

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

[Question]: xllm 技术报告性能复现问题：与 vllm_ascend 最新版本实测结果不一致 #832

Description

❓ Describe the question

1. 单卡性能对比测试说明

2. 关于技术报告 Figure 14 多卡结果的理解

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions