基础数据集
基础数据集的存储方式包括普通存储和智算存储:
- 普通存储:提供ZOS存储,用于数据长期存储和备份。后台会自动将存储挂载到您的集群中。
- 智算存储:提供高性能并行文件系统 HPFS, 为模型开发和训练提供数据支持,如需使用开发机和训练任务功能,请提前将数据、模型、代码导入智算存储中。训练时需要与文件存储频繁交互,请确保存储状态可用且充足。后台会自动将存储挂载到您的集群中。
创建数据集
创建普通存储数据集:进入我的数据集模块,点击“基础数据集“菜单,选择“普通存储”,点击【+创建普通存储数据集】,填入数据集名称,配置可见范围、导入方式和使用方式后提交。
创建智算存储数据集:进入我的数据集模块,点击“基础数据集“菜单,选择“智算存储”,点击【+创建智算存储数据集】,填入所需信息后提交。
其中:
-
导入来源是从天翼云的ZOS进行导入。
-
ZOS存储路径是导入文件在ZOS中的目录地址,例如,https://nx4oss.ctyunxs.cn/xxx/yyy,其中https://nx4oss.ctyunxs.cn是 endpoint,xxx是bucket,yyy是文件夹。
-
数据源的AK、SK请参考https://www.ctyun.cn/document/10026735/10043863。
管理数据集
- 编辑数据集列表字段:数据集所有者可点击笔形标志,进行数据集名称、可见范围等字段的编辑。
- 加速到智算存储:普通存储类型的数据集导入成功后,可点击操作列【加速到智算存储】按钮,将当前数据集加速到智算存储类型下。
- 备份到普通存储:智算存储类型的数据集导入成功后,可点击操作列【备份到普通存储】按钮,将当前数据集备份到普通存储类型下。
- 查看数据集文件:数据集导入成功后,可点击操作列【查看文件】按钮,查看数据集中的文件列表。
- 删除数据集:数据所有者可以在数据导入成功或失败后,点击操作列【删除】按钮,删除对应数据集。
标注数据集
数据导入
进入我的数据集模块,点击【创建数据集】,录入数据集名称、数据类型、标注类型等。
- 本地数据导入:数据集操作列点击【导入数据】,导入方式选择“本地上传”或“上传压缩包”>导入方式“本地压缩包导入”。
- 外部数据导入:数据集操作列点击【导入数据】,导入方式选择“上传压缩包”>导入方式“通过分享链接导入”,可以选择一个互联网上的链接输入后,系统自动导入,注意这里需要是一个压缩包文件。
数据标注
对导入成功的数据,点击操作列【标注】进入标注页面,在标注详情页对数据进行微调和打标处理。
页面左侧可对导入数据内容进行修改和撰写。
- 指令微调数据标注:instruction、input、output是指令微调的3个字段,instruction代表指令要求,input代表指令输入,output代表模型根据指令和输入执行的结果。撰写完成点击【下一篇】按钮进行下一条数据的处理。
- Q&A对数据标注:Text、Query、Answer、Match、File、Similar-Question是Q&A对数据的6个字段,Text代表文件名称,Query代表查询问题,Answer代表问题对应的回答,Match代表查询条件与数据源中数据项的匹配结果,File代表处理数据位置,Similar-Question代表相似的问题。撰写完成点击【下一篇】按钮进行下一条数据的处理。
- 强化学习回复排序数据标注:无标注信息代表无任何标注和排序动作信息数据,有标注信息代表含相关度排序和安全度排序标注动作信息数据,无相关度排序是候选回复无相关排序动作数据,无安全度排序代表无安全度排序动作数据。撰写完成点击【下一篇】按钮进行下一条数据的处理。点击【恢复默认排序】可清除在线排序操作。
页面右侧您可对导入数据进行打标审核。
说明支持在线标注的模板:
INSTRUCTION TUNING(指令微调)
RL_RANGING(强化学习)
SINGLE_FIGURE_MULTIPLE_LABELS(单图多标签)
QUERY_AND_ANSWER (Q&A对)
VISUAL_QUESTION ANSWERING(视觉问答)
IMAGE_AND_TEXT_MATCHING(图文匹配)
FIGURE_UNDERSTANDING(图像理解)
数据管理
- 数据集推送到HPFS高速缓存:如果您希望训练过程中训练速度更快的话,可以选定数据集,点击【操作】,选择【推送到高速缓存】,该操作可将数据集从对象存储转存到并行文件系统中存储中进行加速。
- 数据集发布:针对文本类数据集,标注完成后,可以选定数据集,点击【发布】,完成发布后的数据集才能供后续的训练使用。
- 数据集共享:选定数据集,点击【操作】,选择【共享数据】生成共享口令,对方点击数据集管理页面【添加共享数据集】输入口令即可将您共享的数据集添加至数据集列表。
数据加速
平台通过Fluid等技术将数据从ZOS加速到本地缓存中,称为普通加速。是一种比HPFS更有性价比的数据加速方案,他只需要性价比极高的ZOS+智算平台提供的本地缓存即可完成数据吞吐量的提升。适用于规模中等的数据进行模型训练的场景。
前提条件是针对已【发布完成】的数据集,可以在操作中点击【普通加速】,即可将发布完成的数据从ZOS加速至本地缓存中,使用的时候可以更快、更近的读取数据,增加数据吞吐量。
点击【普通加速】后,数据会进入“普通加速”中的状态。
等加速数据集的状态完成会变成“普通加速”后,即可使用加速后的数据集。在模型精调中,选择对应数据集时即可看到【普通加速的标签】。