创建模型压缩任务
在菜单中选择模型压缩,进入模型压缩主任务界面,点击“创建压缩任务”按钮,进入新建压缩任务页面。由用户填写压缩任务所需的任务信息、模型信息、压缩配置、资源配置。
- 基本信息
填写压缩任务名称、压缩任务描述。
- 压缩配置
- 选择源模型: 此处支持选择用户希望压缩的模型,支持从『模型管理』中选择(不支持选择预置模型)。
- 模型创建方式:选择压缩后模型的保存方式,支持保存为已有模型新版本(默认为最新版本)或保存为新模型(默认V1版本)。
- 选择已有模型:同一模型各版本的基础模型需保持一致,已自动过滤不符合要求的模型。
- 压缩策略-量化压缩:WxAxCx中W、A、C分别代表模型权重(weight)、激活(activation)和键值缓存(kv cache),数字x代表模型压缩后相应部分的比特数。模型压缩过程后,高比特浮点数会映射到低比特量化空间,从而达到降低显存占用、提升推理性能等目的。 模型的推理性能收益均需要通过实际测试获得,表中策略类型仅做参考。
获取压缩结果
压缩任务运行完成后,压缩后的模型会自动保存到用户指定的模型管理中的位置。可以通过开发机挂载模型、或者下载模型来查看模型文件本身。压缩后的模型可以直接通过我的服务进行服务部署,部署为推理效果更优的大模型服务。