在人工智能飞速发展的大背景下,算力是关键支撑。为了实时提供灵活且强大的计算资源调配能力,昇腾 910B物理机以强劲的硬件性能为基础,搭配 DeepSeek 先进的算法框架,三者结合,将为 AI 研究与应用开拓更广阔的创新空间。本部署指南适配华为昇腾910B NPU硬件平台,集成MindIE 2.0推理引擎,能显著优化端到端推理性能。
一、环境准备
1.1 软硬件要求
组件类型 规格要求 数量
计算节点 华为Atlas 800T A2训练服务器 1台
NPU加速卡 昇腾910B-32 (单卡算力320TFLOPS) ≥4卡
本地存储 NVMe SSD ≥5.8TB (2*2.9T) 2块
内存 DDR4 ≥512GB -
管理节点 CTyunOS-23.01.2@GalaxyMaster-NPU24.1.rc2.1镜像
计算节点 CTyunOS-23.01.2@GalaxyCompute-NPU24.1.rc2.1镜像
1.2 存储配置
1.2.1 磁盘分区方案
将节点的nvme1n1和nvme0n1两块NVME盘分别挂载在/mnt/nvme1n1和/mnt/nvme0n1上。
$ lsblk
NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINTS
loop0 7:0 0 4.2G 1 loop
sda 8:0 0 446.6G 0 disk
├─sda1 8:1 0 122M 0 part
├─sda2 8:2 0 976.6M 0 part /boot/efi
├─sda3 8:3 0 1.9G 0 part /boot
└─sda4 8:4 0 443.6G 0 part
├─system-lv_swap 253:0 0 16G 0 lvm [SWAP]
└─system-lv_root 253:1 0 427.6G 0 lvm /
nvme1n1 259:0 0 2.9T 0 disk
└─nvme1n1p1 259:4 0 2.9T 0 part /mnt/nvme1n1
nvme0n1 259:1 0 2.9T 0 disk
└─nvme0n1p1 259:3 0 2.9T 0 part /mnt/nvme0n1
注意/mnt/nvme0n1:部署MindIE容器及运行日志
/mnt/nvme1n1:存储模型文件和mindie容器镜像(需确保755权限)
fix-1在华为原版镜像的基础上修复了回答问题结尾有end_of_sentence标记。
1.4 模型准备
将模型文件下载并保存在每个节点的/mnt/nvme1n1/model/ 目录下,这里以量化版DeepSeek-R1模型举例:
$ ll /mnt/nvme1n1/model/DeepSeek-R1-Distill-Llama-70B
total 137809304
-rwxr-x--- 1 root root 879 Mar 6 13:42 config.json
-rwxr-x--- 1 root root 181 Mar 6 13:42 generation_config.json
-rwxr-x--- 1 root root 1064 Mar 6 13:42 LICENSE
-rwxr-x--- 1 root root 8946552810 Mar 6 13:42 model-00001-of-000017.safetensors
...
-rwxr-x--- 1 root root 60337 Mar 6 13:42 model.safetensors.index.json
-rwxr-x--- 1 root root 18985 Mar 6 13:42 README.md
-rwxr-x--- 1 root root 3061 Mar 6 13:42 tokenizer_config.json
-rwxr-x--- 1 root root 9084480 Mar 6 13:42 tokenizer.json
注意可联系公有云事业部通过对等连接方式进行快速模型罐装。
二、服务管理
2.1 服务配置
2.1.1 核心参数设置
根据具体使用的模型,修改node.sh 中的内容:
export MODEL_DIR=/mnt/nvme1n1/model/DeepSeek-R1-Distill-Llama-70B
export MINDIE_IMG=mindie_2.0.T3-800I-A2-py311-openeuler24.03-lts-cthpc-fix-1.sif
其中:
- MODEL_DIR 为模型本地盘中的具体路径
- MINDIE_IMG为使用的mindie容器
设定服务启动主节点,修改config.json的内容:
...
"ServerConfig" :
{
"ipAddress" : "192.168.0.3",
"managementIpAddress" : "192.168.0.3",
...
将这里192.168.0.3 改为本机IP地址。
2.2 DeepSeek服务启动
仅需如下3条命令,即可启动服务(根据模型大小,启动服务需等待5-30分钟不等)
cd /mnt/nvme0n1/deepseek
sh run.sh
INFO: instance started successfully
查看log_ds目录下的out文件,当出现如下信息时,服务启动:
tail -f log_ds/webui_2025-03-20_16-09-26.out
Daemon start success!
2.3 查看DeepSeek状态
# 查看容器实例作业运行信息
apptainer instance list
2.4 DeepSeek服务停止
# 停止DeepSeek服务
apptainer instance stop app-mindie
三、运维验证
3.1 健康检查
检查项 验证命令 预期结果
NPU设备状态 npu-smi info 显示所有NPU状态为OK
容器运行状态 apptainer instance list app-mindie状态为running
服务端口监听 `netstat -tunlp|grep 8000` 8000端口处于LISTEN状态
3.2 关键路径对照表
容器镜像:/mnt/nvme0n1/deepseek≥20GB
模型文件:/mnt/nvme1n1/model/DeepSeek-R1-Distill-Llama-70B≥1.3TB
运行日志:/mnt/nvme0n1/deepseek/log_*每日约5GB
注意本方案通过CTYUN Galaxy-Master镜像兼容性测试,推荐使用华为Atlas 800T A2服务器(配置8*昇腾910B)获得最佳性能。