全部文章Ta的评论
- 相比小规模语言模型,LLM更需要高质量数据来预训练模型,并且它们的模型能力很大程度上依赖于预训练语料库及其清洗方式。本文将介绍一套大语言模型预训练数据的清洗流程:首先对数据进行预处理和语言分类,然后针对中英文及代码类数据的特点分别进行修正、过滤和去重,从而得到高质量训练数据。盖****飞2024-07-091650
- 大规模语言模型训练需要处理大量数据,其中数据重复问题是一个重要且挑战性的质量问题。重复数据不仅增加存储和处理成本,还可能导致模型泛化能力下降,以及潜在的安全风险。因此,开发自动化数据去重方法至关重要。目前,Minhash+LSH方法是处理大数据集中去重问题的常用技术。Minhash通过快速估计集合间的Jaccard相似度来减少不必要的比较,而LSH则通过分桶策略,只比较潜在相似度高的文档,从而提高计算效率。尽管Minhash+LSH方法有效,但它不能完全消除所有重复数据的风险,并且对数据质量和分布有一定的依赖性。未来的研究可能会集中在提高去重准确性、处理数据不均匀性和噪声以及确保数据安全性的方法上。盖****飞2024-05-213180
共 2 条
- 1
页
没有更多了
个人简介
暂未填写公司和职务
暂未填写个人简介
暂未填写技能专长
暂未填写毕业院校和专业
个人成就
共发表过 2 篇文章
文章获得 0 次赞同
文章被浏览 483 次
获得 0 人关注
个人荣誉查看规则
暂未获得荣誉