AI人工智能—数据标注的主要类型和标注注意事项-天翼云开发者社区

图像标注

图像标注是一个将标签添加到图像的过程。它可以为整个图像添加一个标签，也可以分别为图像内每组像素添加多个标签。

注意事项

1.在拉框标注或语义分割时，其标注对象就是将图像中所需标注类别分别进行框选/分割标注，框选之后每个框都会有一个对应的类别。

2.在被遮挡的情况下，遮挡部分需要脑补，但是不要脑补到图像外。

3.不遗漏框/打点数，不误标框/打点数，不多标框/打点数。

4.若出现图像较模糊无法标注的则不标。

文本标注

文本标注是对文本进行特征标记的过程，对其打上具体的语义、构成、语境、目的、情感等数据标签，通过标注好的训练数据，我们就可以教会机器如何来识别文本中所隐含的意图或者情感，使机器更加人性化的理解语言。

注意事项

1.同类标注属性，标注方式要保持一致。

2.在文字标注过程中，由于部分文字间隔近，若同页中有相同的元素，可以考虑隔行标注，避免标注都挤到一起。

3.标注标签的定义要细化到集体场景。

4.前期主观性的标签要具象化，明确好详细的标签边界。

5.同时标多个标签时，要避免漏标、错标、多标。

语音标注

语音标注主要是由标注员将听到的音频中的声音转写下来，并加上对应的标签。

语音标注的语种一般分为中文、方言、英文等。根据语音时长可以分为长语音和段语音，一般在三秒左右的语音分为短语音，其中语音的长短、声音质量、有无预打标结果，是否需要切割等因素都会有较大的影响语音转写的速度。

注意事项

1.确定是否包含有效语音；确定语音的噪声情况；确定说话人数量；确定说话人性别、确定是否有口音、有效语音内容转写。

2.整句话无法分辨出内容的，标为无效；背景噪音过大的，标为无效。

3.在语音标注中，除了被采集者的声音外，还可能听到其他的背景音，在一般情况下，这些都可以被当作杂音进行处理。

4.在前期语音清洗时，需要删去无效音频；在语音切割时，要保证有效音频前后静音两秒，截取时间过长或者过短都不符合语音数据标注规范。

5.语音标注的过程中的最好是使用降噪耳机，如果耳机质量不高在标注过程中，会产生很多的杂音不利于标注，容易出错。

3D点云标注

3D点云标注是在激光雷达采集的3D图像中，通过3D框将目标物体标注出来。目标物体包括车辆、行人、广告标志和树木等，供计算机视觉、无人驾驶等人工智能模型训练使用。

注意事项

1.标注类型具体如下图所示：

2.目标本身须全部被3D框包围，不漏点且不包含噪点。

3.若目标物体边界清晰，则3D框边界距离目标主体真实边界最多不能大于10cm。

4.若目标物体因扫描不全而导致点云缺失，需脑补缺失面边界，可按照以下数值标注：

5.若行人若带有背包、雨伞等物件，行人的3D框需包含这些小物件。

6.若行人距离过近时，行人框可能有一定程度的重叠，可正常标注。

7.要注意三视图是否贴合；注意正前方方向是否正确。

8.所有地面上的目标物体其3D标注框底部须贴合地面，不能高于地面或低于地面。

9.若目标物体距离过远导致目标所在区域点云稀少、没有地面点或者难以确定3D框下底面高度的情况时，可参考最近的地面点云线的高度和点云中距离最近的3D框来确定大致高度。

10.点云框要按照车辆行驶方向标注。

11.标注范围：100m半径范围。

12.场景中同一车辆、障碍物、行人多次出现时其属性ID 要保持一致。

13.若出现一些特殊⻋辆时，如扫水车、水泥罐⻋等，需要按照最大外接立方体的形状去标注出3D框。

14.若出现一辆⻋分成多个部分的情况，比如拖挂多节的卡⻋、多截的公交⻋等，需要将每一节⻋体分别标注3D框。

15.仅标注确定位置和形状的物体，通过图像和点云都无法判定的障碍物无需框注。

16.若目标为行人推自行⻋、推购物⻋、推婴儿⻋等场景时，行人与⻋应分别拉框标注。

17.注意不遗漏框，不误标框，不多标框，残影和杂点不需要标注。

18.注意标注方向需正确。

19.注意框要求紧密贴合点云，不可漏标点，外围边界不超过清晰点云边界的10cm位置，标注准确率在99%以上。

图像标注

图像标注是一个将标签添加到图像的过程。它可以为整个图像添加一个标签，也可以分别为图像内每组像素添加多个标签。

注意事项

1.在拉框标注或语义分割时，其标注对象就是将图像中所需标注类别分别进行框选/分割标注，框选之后每个框都会有一个对应的类别。

2.在被遮挡的情况下，遮挡部分需要脑补，但是不要脑补到图像外。

3.不遗漏框/打点数，不误标框/打点数，不多标框/打点数。

4.若出现图像较模糊无法标注的则不标。

文本标注

注意事项

1.同类标注属性，标注方式要保持一致。

2.在文字标注过程中，由于部分文字间隔近，若同页中有相同的元素，可以考虑隔行标注，避免标注都挤到一起。

3.标注标签的定义要细化到集体场景。

4.前期主观性的标签要具象化，明确好详细的标签边界。

5.同时标多个标签时，要避免漏标、错标、多标。

语音标注

语音标注主要是由标注员将听到的音频中的声音转写下来，并加上对应的标签。

注意事项

1.确定是否包含有效语音；确定语音的噪声情况；确定说话人数量；确定说话人性别、确定是否有口音、有效语音内容转写。

2.整句话无法分辨出内容的，标为无效；背景噪音过大的，标为无效。

3.在语音标注中，除了被采集者的声音外，还可能听到其他的背景音，在一般情况下，这些都可以被当作杂音进行处理。

4.在前期语音清洗时，需要删去无效音频；在语音切割时，要保证有效音频前后静音两秒，截取时间过长或者过短都不符合语音数据标注规范。

5.语音标注的过程中的最好是使用降噪耳机，如果耳机质量不高在标注过程中，会产生很多的杂音不利于标注，容易出错。

3D点云标注

注意事项

1.标注类型具体如下图所示：

2.目标本身须全部被3D框包围，不漏点且不包含噪点。

3.若目标物体边界清晰，则3D框边界距离目标主体真实边界最多不能大于10cm。

4.若目标物体因扫描不全而导致点云缺失，需脑补缺失面边界，可按照以下数值标注：

5.若行人若带有背包、雨伞等物件，行人的3D框需包含这些小物件。

6.若行人距离过近时，行人框可能有一定程度的重叠，可正常标注。

7.要注意三视图是否贴合；注意正前方方向是否正确。

8.所有地面上的目标物体其3D标注框底部须贴合地面，不能高于地面或低于地面。

10.点云框要按照车辆行驶方向标注。

11.标注范围：100m半径范围。

12.场景中同一车辆、障碍物、行人多次出现时其属性ID 要保持一致。

13.若出现一些特殊⻋辆时，如扫水车、水泥罐⻋等，需要按照最大外接立方体的形状去标注出3D框。

14.若出现一辆⻋分成多个部分的情况，比如拖挂多节的卡⻋、多截的公交⻋等，需要将每一节⻋体分别标注3D框。

15.仅标注确定位置和形状的物体，通过图像和点云都无法判定的障碍物无需框注。

16.若目标为行人推自行⻋、推购物⻋、推婴儿⻋等场景时，行人与⻋应分别拉框标注。

17.注意不遗漏框，不误标框，不多标框，残影和杂点不需要标注。

18.注意标注方向需正确。

19.注意框要求紧密贴合点云，不可漏标点，外围边界不超过清晰点云边界的10cm位置，标注准确率在99%以上。

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

AI人工智能—数据标注的主要类型和标注注意事项

AI人工智能—数据标注的主要类型和标注注意事项

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

AI人工智能—数据标注的主要类型和标注注意事项

AI人工智能—数据标注的主要类型和标注注意事项