平台支持将用户精调后的模型发布为在线服务,同时也支持直接调用预置模型的在线服务。
- 点击【预置服务】,可查看目前平台预置的所有服务,目前可免费试用,每个模型免费试用上限为1万tokens。点击API文档,可以查看模型的调用方式。
- 点击【我的服务】,可以选择已有模型创建模型服务并进行服务管理。
-
部署我的模型
- 镜像环境选择支持:系统内置镜像、从JupyterLab/VSCode中制作的自定义镜像、容器镜像服务共享过来的镜像。
- 模型可选择智算资产-我的模型导入成功的模型。
- 代码包可选择在智算资产-我的代码包模块中已上传的一个代码包。
- 三方库配置支持选择三方库列表、requirements.txt文件目录,指定三方库列表,格式与requirements.txt一致,输入内容以换行符分隔。
- 输入环境变量。
- 输入镜像的启动运行命令,如python/mount/code/{codeid}/run.py(须提供OAI兼容的推理服务接口服务)。
- 选择资源部署信息,包括队列、资源规格和实例数量,系统会回显对应计费信息。
- 完成部署,并开始计费。
-
管理我的服务:在列表可查看模型是否部署成功,在操作列可进行模型查看、更新、停止、重启、修改、上下线、删除等操作。停止服务后计费也会停止,再次启动服务即可开通计费。
- 操作列点击【查看】可进入该服务的详情页,查看部署的模型列表、服务监控、配置历史、运行记录、事件日志、服务日志。
- 状态为运行中的模型服务可正常调用。需要使用location+modelId+appKey请求调用。
- 点击【查看】进入该服务的详情页,可查看该服务的API文档,通过详情页中的“modelId”和“接口地址”条目获取modelId和location。
- 创建或编辑服务组,选择对应服务并提交,通过服务组卡片上的“App Key”条目获取AppKey。
- 根据平台规范构造请求,调用对应服务,目前支持部署Chat类型的模型。
请求样例: curl --location '{$location}' \ --header 'Content-Type: application/json' \ --header 'Authorization: Bearer {$appKey}' \ --data '{ "model": "{$modelId}", "messages": [ { "role": "user", "content": [ { "type": "text", "text": "xxx" } ] } ] }'
-