步骤一:创建GPU云主机
1. 进入创建云主机页面
a.点击天翼云门户首页的“控制中心”,输入登录的用户名和密码,进入控制中心页面。
b.单击“服务列表>弹性云主机”,进入主机列表页。
c.单击“创建云主机”,进入弹性云主机创建页。
2. 进行基础配置
a.基础配置
根据业务需求配置“计费模式”、“地域”、“企业项目”、“虚拟私有云”、“实例名称”、“主机名称”等。
b.选择规格。
此处选择"CPU架构"为"X86"、"分类"为"GPU型"、"规格族"为"GPU计算加速型pn8r"、"规格"为"pn8r.16xlarge.4"。
c.选择镜像
“镜像类型”选择“镜像市场”,在云镜像市场中选择预置了DeepSeek R1模型的DeepSeek-R1-32B-vLLM-Ubuntu22.04镜像。
d.设置云硬盘。
3. 网络及高级配置
设置网络,包括"网卡"、"安全组",这里,为安全和成本考虑,我们先不设置弹性IP,后续按需开放IP;设置高级配置,包括"登录方式"、"云主机组"、"用户数据"。
4. 确认并支付
步骤二:配置弹性负载均衡
现在,我们已经有了两台 Deepseek-R1-32B 服务器,接下来,我们利用弹性负载均衡构建一个可任意横向扩容的 Deepseek 集群。
1. 配置 vllm 服务
首先需要为所有服务器上的 vllm 服务配置相同的 --api-key。
服务的配置文件目录在 /var/vllm_service.env
我们将API_KEY 设置为想要的值。
然后重启服务。
systemctl restart vllm
2. 创建弹性负载均衡
我们参考弹性负载均衡官方文档进行服务创建。
a. 创建弹性负载均衡
在此例中,我们的Deepseek集群仅用于集群自带的 Open WebUI内网使用,不涉及外网通讯,因此 “网络类型” 选择 “内网”,如果你想将此集群暴露到外网,则选择外网。VPC和子网跟 Deepseek 服务器保持一致。
b. 创建监听器
完成网络负载均衡创建,接下来配置监听器,在负载均衡列表页,点击开始配置。
端口类型,选择 “HTTP”,端口填 8000。
进入下一步,创建健康检查。这里我们通过 HTTP 进行健康检查,返回码部分选择 2xx、3xx、4xx。
点击“立即创建”,完成创建。
c. 为监听器开通GPU云主机白名单
此时监听器列表中,我们可以看到访问Deepseek服务器的主机组地址为 “100.89.0.0/16”,我们需要在Deepseek集群的安全组中,为vllm端口配置此地址的白名单。
为Deepseek云主机所在的安全组新增规则,操作文档详见添加安全组规则帮助文档。
d. 为监听器添加后端云主机
选中主机,然后下一步。
设置端口为 “8000”。
点击确认即可完成配置。
e. 验证连通性
监听器页面,显示监控检查正常。
通过一台 Deepseek 服务器,测试负载均衡连通性。
步骤三:配置 UI 访问能力
为便于公网访问,我们选择一台DeepSeek服务器,利用DeepSeek服务器自带的Open WebUI进行交互。Open WebUI使用文档见Open WebUI 快速入门。
注意openai API地址为前面弹性负载均衡的地址,在本例中为 “http://10.0.0.8:8000/v1”,密钥为我们刚刚设置的 vllm 的 --api-key。