数据导入
进入我的数据集模块,点击【创建数据集】,录入数据集名称、数据类型、标注类型等。
- 本地数据导入:数据集操作列点击【导入数据】,导入方式选择“本地上传”或“上传压缩包”>导入方式“本地压缩包导入”。
- 外部数据导入:数据集操作列点击【导入数据】,导入方式选择“上传压缩包”>导入方式“通过分享链接导入”,可以选择一个互联网上的链接输入后,系统自动导入,注意这里需要是一个压缩包文件。
数据标注
对导入成功的数据,点击操作列【标注】进入标注页面。
- 在标注详情页对数据进行微调和打标处理。
- 页面左侧可对导入数据内容进行修改和撰写。
- 指令微调数据标注:instruction、input、output是指令微调的3个字段,instruction代表指令要求,input代表指令输入,output代表模型根据指令和输入执行的结果。撰写完成点击【下一篇】按钮进行下一条数据的处理。
- Q&A对数据标注:Text、Query、Answer、Match、File、Similar-Question是Q&A对数据的6个字段,Text代表文件名称,Query代表查询问题,Answer代表问题对应的回答,Match代表查询条件与数据源中数据项的匹配结果,File代表处理数据位置,Similar-Question代表相似的问题。撰写完成点击【下一篇】按钮进行下一条数据的处理。
- 强化学习回复排序数据标注:无标注信息代表无任何标注和排序动作信息数据,有标注信息代表含相关度排序和安全度排序标注动作信息数据,无相关度排序是候选回复无相关排序动作数据,无安全度排序代表无安全度排序动作数据。撰写完成点击【下一篇】按钮进行下一条数据的处理。点击【恢复默认排序】可清除在线排序操作。
- 页面右侧您可对导入数据进行打标审核。
说明支持在线标注的模板:
INSTRUCTION TUNING(指令微调)
RL_RANGING(强化学习)
SINGLE_FIGURE_MULTIPLE_LABELS(单图多标签)
QUERY_AND_ANSWER (Q&A对)
VISUAL_QUESTION ANSWERING(视觉问答)
IMAGE_AND_TEXT_MATCHING(图文匹配)
FIGURE_UNDERSTANDING(图像理解)
数据管理
- 数据集加速:如果您希望训练过程中训练速度更快的话,可以选定数据集,点击【操作】,选择【推送到高速缓存】,该操作可将数据集从对象存储转存到快速存储中进行加速。
- 数据集发布:针对文本类数据集,标注完成后,可以选定数据集,点击【发布】,完成发布后的数据集才能供后续的训练使用。
- 数据集共享:选定数据集,点击【操作】,选择【共享数据】生成共享口令,对方点击数据集管理页面【添加共享数据集】输入口令即可将您共享的数据集添加至数据集列表。