ASR项目实战-数据-天翼云

ASR项目实战-数据

2024-04-17 08:21:15 阅读次数：44

使用机器学习方法来训练模型，使用训练得到的模型来预测语音数据，进而得到识别的结果文本，这是实现语音识别产品的一般思路。
本文着重介绍通用语音识别产品对于数据的诉求。

对数据的要求

训练集

测试集

获取数据的方法

训练集

可行的方法有：

采集开源训练数据集。这类数据通常用于研究，因此数据质量相对可控，唯一的问题在于数量较少，直白的说，用来写论文也许够用，但在工业强度下应用，则远远不满足要求。
采购商业数据。数据公司可以通过如下方式收集数据：
- 按照要求在指定的地域、寻找符合要求的人来录制语音数据。
- 采用转包的方式，将任务包交给当地有资质的公司来收集数据。
- 采用众包的方式，收集语音数据。
自行采集数据。类似数据公司的操作方式，可以有如下方式：
- 按照要求在指定的地域、寻找符合要求的人来录制语音数据。
- 采用众包的方式，收集语音数据。

难点在于：

交付周期长。收集数据的操作，从提出诉求到最终收到数据，中间耗时良久，进度基本不可控。
质量不可控。语音数据没有比较好的手段可以实现自动化检查，因此需要花费相当的人力来整理、清洗数据，剔除质量差或者不满足要求的数据。

测试集

可行的方法有：

客户提供带有标注的测试集。
客户提供测试集的获取方法，交付团队按照要求采集数据用于测试。
客户提供测试集的标准，交付团队按照要求自行准备数据。

注意：测试集用于验证模型的有效性，为保证公平性和有效性，测试集中的数据，绝对不允许作为训练集来使用。

参考资料

如何正确使用机器学习中的训练集、验证集和测试集？

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

ASR项目实战-数据

ASR项目实战-数据

对数据的要求

训练集

测试集

获取数据的方法

训练集

测试集

参考资料

相关文章

python四种抽样方法的使用：随机抽样、聚类抽样、系统抽样、分层抽样

Java中的机器学习模型集成与训练

Python机器学习19——常用六种机器学习的异常值监测方法(孤立森林，数据支持描述，自编码器，高斯混合，DBSCAN，LOF)

Python统计学13——回归的多重共线性、异方差、自相关的检验

Python统计学12——加权最小二乘

Python数据分析案例08——预测泰坦尼克号乘员的生存(机器学习全流程)

支持向量机算法之鸢尾花特征分类【机器学习】

文本情感分类

决策树结合网格搜索交叉验证的例子

Excel双样本T检验之异方差检验

作者介绍

最新文章

支持向量机算法之鸢尾花特征分类【机器学习】

常用的机器学习模型算法

推荐算法的介绍与应用

逻辑回归之ROC曲线的绘制

线性回归api深度介绍

热门文章

常用的机器学习模型算法

推荐算法的介绍与应用

线性回归api深度介绍

支持向量机算法之鸢尾花特征分类【机器学习】

逻辑回归之ROC曲线的绘制

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

支持向量机算法之鸢尾花特征分类【机器学习】

逻辑回归之ROC曲线的绘制

推荐算法的介绍与应用

线性回归api深度介绍

常用的机器学习模型算法