背景信息
ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。如果没有GPU硬件的话,也可以在CPU上进行推理,但是推理速度会更慢。
前期准备
- 已开通天翼云弹性容器实例服务。
- 天翼云容器镜像服务CRS或私有镜像仓库中已推送开源ChatGLM-6B镜像。
硬件需求
量化等级 | 最低GPU显存 | 无GPU情况下内存需求 |
---|---|---|
INT4 | 6GB | 32GB |
INT8 | 8GB | 暂未测试 |
FP16(无量化) | 13GB | 暂未测试 |
操作步骤
下面将介绍如何在ECI上快速部署ChatGLM-6B的CPU实例并进行推理。
- 通过天翼云弹性容器实例订购页面创建ECI实例。
- 根据上述硬件需求,配置合适的CPU,内存资源。
- 镜像选择开源ChatGLM-6B镜像,并指定镜像版本。
- 在容器设置中,配置启动命令 python3 web_demo.py、cpu。
- 提交订单,然后回到控制台页面等待ECI实例Running。