Qwen3-30B
轻量 MoE 模型,30B 参数仅 3B 激活,高效推理
MoE30B / 3B active128K context
bash
xw run qwen3-30bbash
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3-30b",
"messages": [{"role": "user", "content": "Hello"}]
}'Models
| 名称 | 量化 | 大小 | 引擎 | 平台 |
|---|---|---|---|---|
qwen3-30b | BF16 | ~60GB | MindIE | Ascend |
qwen3-30b:bf16 | BF16 | ~60GB | MindIE | Ascend |
qwen3-30b:i8 | INT8 | ~30GB | MindIE | Ascend |
qwen3-30b:f8 | FP8 | ~30GB | MindIE | Ascend |
qwen3-30b:i4 | INT4 | ~15GB | MindIE | Ascend |
qwen3-30b:bf16:mlguider | BF16 | ~60GB | MLGuider | Ascend |
qwen3-30b:i8:mlguider | INT8 | ~30GB | MLGuider | Ascend |
qwen3-30b:bf16:vllm | BF16 | ~60GB | VLLM | Ascend |
qwen3-30b:i8:vllm | INT8 | ~30GB | VLLM | Ascend |
qwen3-30b:bf16:vllm | BF16 | ~60GB | VLLM | MACA |
qwen3-30b:i8:vllm | INT8 | ~30GB | VLLM | MACA |
简介
Qwen3-30B-A3B 是 Qwen3 系列的轻量级 MoE 模型,总参数量 30B,每个 token 仅激活 3B 参数。在保持较强能力的同时,大幅降低推理成本,适合资源受限或高吞吐场景。
核心特性
- 高效 MoE:30B 总参数,3B 激活,推理成本低
- 双模式推理:支持思考模式与非思考模式切换
- 资源友好:单卡可部署量化版本
- 多语言支持:继承 Qwen3 的 119 种语言能力

