Qwen3-32B

平衡性能与效率的主力模型，适合大多数生产场景

Dense32B128K context

CLIcURL

bash

xw run qwen3-32b

bash

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-32b",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

Models

名称	量化	大小	引擎	平台
`qwen3-32b`	BF16	~64GB	MindIE	Ascend
`qwen3-32b:bf16`	BF16	~64GB	MindIE	Ascend
`qwen3-32b:i8`	W8A8	~32GB	MindIE	Ascend
`qwen3-32b:f8`	FP8	~32GB	MindIE	Ascend
`qwen3-32b:i4`	INT4	~16GB	MindIE	Ascend
`qwen3-32b:bf16:mlguider`	BF16	~64GB	MLGuider	Ascend
`qwen3-32b:i8:mlguider`	W8A8	~32GB	MLGuider	Ascend
`qwen3-32b:bf16:vllm`	BF16	~64GB	VLLM	Ascend
`qwen3-32b:i8:vllm`	W8A8	~32GB	VLLM	Ascend
`qwen3-32b:i4:vllm`	INT4	~16GB	VLLM	Ascend
`qwen3-32b:bf16:vllm`	BF16	~64GB	VLLM	MACA
`qwen3-32b:i8:vllm`	W8A8	~32GB	VLLM	MACA
`qwen3-32b:bf16:sglang`	BF16	~64GB	SGLang	Ascend

简介

Qwen3-32B 是 Qwen3 系列中最受欢迎的 Dense 模型，32B 参数量在性能和推理效率之间取得了出色的平衡。支持思考模式与非思考模式切换，适合大多数企业级应用场景。

核心特性

双模式推理：思考模式用于复杂推理，非思考模式用于快速响应
出色性价比：32B 参数量，单机部署友好
全面能力：代码、数学、多语言、长文本综合能力强
生产就绪：经过大规模验证，稳定可靠

下载源: ModelScope

Qwen3-32B

Models ​

简介 ​

核心特性 ​

Models

简介

核心特性