Qwen3-32B
平衡性能与效率的主力模型,适合大多数生产场景
Dense32B128K context
bash
xw run qwen3-32bbash
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3-32b",
"messages": [{"role": "user", "content": "Hello"}]
}'Models
| 名称 | 量化 | 大小 | 引擎 | 平台 |
|---|---|---|---|---|
qwen3-32b | BF16 | ~64GB | MindIE | Ascend |
qwen3-32b:bf16 | BF16 | ~64GB | MindIE | Ascend |
qwen3-32b:i8 | W8A8 | ~32GB | MindIE | Ascend |
qwen3-32b:f8 | FP8 | ~32GB | MindIE | Ascend |
qwen3-32b:i4 | INT4 | ~16GB | MindIE | Ascend |
qwen3-32b:bf16:mlguider | BF16 | ~64GB | MLGuider | Ascend |
qwen3-32b:i8:mlguider | W8A8 | ~32GB | MLGuider | Ascend |
qwen3-32b:bf16:vllm | BF16 | ~64GB | VLLM | Ascend |
qwen3-32b:i8:vllm | W8A8 | ~32GB | VLLM | Ascend |
qwen3-32b:i4:vllm | INT4 | ~16GB | VLLM | Ascend |
qwen3-32b:bf16:vllm | BF16 | ~64GB | VLLM | MACA |
qwen3-32b:i8:vllm | W8A8 | ~32GB | VLLM | MACA |
qwen3-32b:bf16:sglang | BF16 | ~64GB | SGLang | Ascend |
简介
Qwen3-32B 是 Qwen3 系列中最受欢迎的 Dense 模型,32B 参数量在性能和推理效率之间取得了出色的平衡。支持思考模式与非思考模式切换,适合大多数企业级应用场景。
核心特性
- 双模式推理:思考模式用于复杂推理,非思考模式用于快速响应
- 出色性价比:32B 参数量,单机部署友好
- 全面能力:代码、数学、多语言、长文本综合能力强
- 生产就绪:经过大规模验证,稳定可靠

