Skip to content

硬件支持

玄武CLI专为国产AI芯片设计,提供统一的跨硬件推理层抽象。

支持的平台

硬件平台支持型号支持操作系统驱动要求状态
华为昇腾 Ascend910BOpenEuler,UbuntuAscend HDK >= 25.2.0支持
华为昇腾 Ascend310POpenEuler,UbuntuAscend HDK >= 25.2.0支持
沐曦 MetaXC550UbuntuMACA >= 3.2.1.10支持

驱动安装与验证

玄武CLI依赖硬件厂商的官方驱动,请参考对应官网完成驱动的安装。通常服务器出厂就已经预装了驱动,您可通过以下命令进行验证:

验证驱动

bash
# 华为昇腾
npu-smi info

# 沐曦
mx-smi

看到设备列表即表示驱动正常。

多引擎架构

玄武CLI自动为模型和硬件组合选择最佳推理后端,以下是玄武CLI目前支持的推理引擎列表:

引擎支持硬件说明
MindIEAscend 910B
Acend 310P
华为官方维护的高性能推理引擎 更多介绍
vLLM-AscendAscend 910B
Ascend 310P
来自开源社区的优秀推理引擎,海外vLLM生态社区与华为社区共建 更多介绍
vLLM-MetaXMetaX C550来自开源社区的优秀推理引擎,海外vLLM生态社区与沐曦社区共建 更多介绍
MLGuider CommunityAscend 310P清昴智能自研引擎社区版 更多介绍
MLGuider Enterprisecustom清昴智能自研引擎企业版(需获取单独授权),提供更多芯片、模型的支持与更广的性能支持,更多信息请咨询清昴智能 更多介绍

用户无需手动选择引擎,玄武CLI将自动处理引擎的选择。可通过 xw lsxw ps 查看使用的引擎。

多 GPU 支持

玄武CLI原生支持多 GPU 推理和张量并行。

设备选择

玄武CLI server启动后,将建立全局资源池,模型运行时的硬件资源将自动从资源池中选择与调度,用户无需关注芯片底层的实现细节。

bash
# on 910b
xw run qwen2-32b # 将自动寻找两张设备并运行

用户仍然可以手动设置模型运行的设备号,来实现对硬件资源的精细化控制:

bash
# on 910b
xw run qwen2-32b --device 0,1 # 将采用用户指定的设备运行模型

张量并行

玄武CLI已提前完成大部分模型与机型的适配,会根据显卡型号、显存大小将大模型自动切分到多张卡:

bash
# on 910b
xw run qwen2-32b  # 无需添加任何参数,即可选用默认推荐的并行方式,在此平台上为tp=2

用户仍然可以手动设置模型运行的张量并行数,来实现对硬件资源的精细化控制:

bash
# 采用tp=1
xw run qwen2-32b --tp 1
# 采用tp=4
xw run qwen2-32b --tp 4

基于 Apache 2.0 许可发布