Skip to content

Qwen3-30B

轻量 MoE 模型,30B 参数仅 3B 激活,高效推理

MoE30B / 3B active128K context
bash
xw run qwen3-30b
bash
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-30b",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

Models

名称量化大小引擎平台
qwen3-30bBF16~60GBMindIEAscend
qwen3-30b:bf16BF16~60GBMindIEAscend
qwen3-30b:i8INT8~30GBMindIEAscend
qwen3-30b:f8FP8~30GBMindIEAscend
qwen3-30b:i4INT4~15GBMindIEAscend
qwen3-30b:bf16:mlguiderBF16~60GBMLGuiderAscend
qwen3-30b:i8:mlguiderINT8~30GBMLGuiderAscend
qwen3-30b:bf16:vllmBF16~60GBVLLMAscend
qwen3-30b:i8:vllmINT8~30GBVLLMAscend
qwen3-30b:bf16:vllmBF16~60GBVLLMMACA
qwen3-30b:i8:vllmINT8~30GBVLLMMACA

简介

Qwen3-30B-A3B 是 Qwen3 系列的轻量级 MoE 模型,总参数量 30B,每个 token 仅激活 3B 参数。在保持较强能力的同时,大幅降低推理成本,适合资源受限或高吞吐场景。

核心特性

  • 高效 MoE:30B 总参数,3B 激活,推理成本低
  • 双模式推理:支持思考模式与非思考模式切换
  • 资源友好:单卡可部署量化版本
  • 多语言支持:继承 Qwen3 的 119 种语言能力

基于 Apache 2.0 许可发布