Qwen3-30B

轻量 MoE 模型，30B 参数仅 3B 激活，高效推理

MoE30B / 3B active128K context

CLIcURL

bash

xw run qwen3-30b

bash

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-30b",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

Models

名称	量化	大小	引擎	平台
`qwen3-30b`	BF16	~60GB	MindIE	Ascend
`qwen3-30b:bf16`	BF16	~60GB	MindIE	Ascend
`qwen3-30b:i8`	INT8	~30GB	MindIE	Ascend
`qwen3-30b:f8`	FP8	~30GB	MindIE	Ascend
`qwen3-30b:i4`	INT4	~15GB	MindIE	Ascend
`qwen3-30b:bf16:mlguider`	BF16	~60GB	MLGuider	Ascend
`qwen3-30b:i8:mlguider`	INT8	~30GB	MLGuider	Ascend
`qwen3-30b:bf16:vllm`	BF16	~60GB	VLLM	Ascend
`qwen3-30b:i8:vllm`	INT8	~30GB	VLLM	Ascend
`qwen3-30b:bf16:vllm`	BF16	~60GB	VLLM	MACA
`qwen3-30b:i8:vllm`	INT8	~30GB	VLLM	MACA

简介

Qwen3-30B-A3B 是 Qwen3 系列的轻量级 MoE 模型，总参数量 30B，每个 token 仅激活 3B 参数。在保持较强能力的同时，大幅降低推理成本，适合资源受限或高吞吐场景。

核心特性

高效 MoE：30B 总参数，3B 激活，推理成本低
双模式推理：支持思考模式与非思考模式切换
资源友好：单卡可部署量化版本
多语言支持：继承 Qwen3 的 119 种语言能力

下载源: ModelScope

Qwen3-30B

Models ​

简介 ​

核心特性 ​

Models

简介

核心特性