Qwen3-Next-80B

下一代 Qwen 模型，Hybrid Transformer-Mamba 架构，极致推理效率

NEWHybrid MoE80B / 3.9B active1M context

CLIcURL

bash

xw run qwen3-next-80b

bash

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-next-80b",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

Models

名称	量化	大小	引擎	平台
`qwen3-next-80b`	W8A8	~80GB	MindIE	Ascend
`qwen3-next-80b:bf16`	BF16	~160GB	MindIE	Ascend
`qwen3-next-80b:i8`	INT8	~80GB	MindIE	Ascend
`qwen3-next-80b:f8`	FP8	~80GB	MindIE	Ascend
`qwen3-next-80b:i4`	INT4	~40GB	MindIE	Ascend
`qwen3-next-80b:bf16:mlguider`	BF16	~160GB	MLGuider	Ascend
`qwen3-next-80b:i8:mlguider`	INT8	~80GB	MLGuider	Ascend
`qwen3-next-80b:bf16:vllm`	BF16	~160GB	VLLM	Ascend
`qwen3-next-80b:i8:vllm`	INT8	~80GB	VLLM	Ascend
`qwen3-next-80b:bf16:vllm`	BF16	~160GB	VLLM	MACA
`qwen3-next-80b:i8:vllm`	INT8	~80GB	VLLM	MACA
`qwen3-next-80b:bf16:sglang`	BF16	~160GB	SGLang	Ascend

简介

Qwen3-Next-80B-A3B 是 Qwen3-Next 系列的首个模型，采用创新的 Hybrid Transformer-Mamba 架构。总参数量 80B，每个 token 仅激活 3.9B 参数，实现了 10 倍的推理吞吐量提升。原生支持 262K 上下文，通过 YaRN 扩展可达 100 万 tokens。

核心特性

混合注意力：Gated DeltaNet + Gated Attention，超长上下文高效建模
高稀疏 MoE：极低激活率，大幅降低 FLOPs，保持模型容量
多 Token 预测 (MTP)：加速预训练和推理
稳定性优化：零中心 LayerNorm 等技术，训练更稳定

性能亮点

在下游任务上超越 Qwen3-32B，训练成本仅 10%
32K+ 上下文推理吞吐量提升 10 倍
RULER 基准测试：100 万 tokens 下达到 91.8% 准确率
复杂推理任务超越 Gemini-2.5-Flash-Thinking

下载源: ModelScope

Qwen3-Next-80B

Models ​

简介 ​

核心特性 ​

性能亮点 ​

Models

简介

核心特性

性能亮点