自然语言处理中文本的token和tokenization

自然语言处理中文本的token和tokenization

2024-05-28 08:41:37 阅读次数：44

人工智能，机器学习

自然语言处理中文本的`token和tokenization`

1.1 概念和工具的介绍

tokenization就是通常所说的分词，分出的每一个词语我们把它称为token。

常见的分词工具很多，比如：

jieba分词：https:///fxsjy/jieba
清华大学的分词工具THULAC：https:///thunlp/THULAC-Python

1.2 中英文分词的方法

把句子转化为词语
- 比如：我爱深度学习 可以分为[我，爱，深度学习]
把句子转化为单个字
- 比如：我爱深度学习的token是[我，爱，深，度，学，习]

版权声明：本文内容来自第三方投稿或授权转载，原文地址：https://blog.csdn.net/weixin_44799217/article/details/115036052，作者：IT之一小佬，版权归原作者所有。本网站转在其作品的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如因作品内容、版权等问题需要同本网站联系，请发邮件至ctyunbbs@chinatelecom.cn沟通。

上一篇：【内功心法】——函数栈帧的创建和销毁(C实现)

下一篇：考研数据结构之线性表（1.7）——练习题之编写一个将A和B中所有元素组成一个新的从小到大的有序顺序表C的算法，要求所有重复的元素只保留一个（C表示）

作者介绍

天翼云小翼

天翼云用户

文章

32268

阅读量

4695849

最新文章

python四种抽样方法的使用：随机抽样、聚类抽样、系统抽样、分层抽样

2025-04-09 09:16:56

Python测试开发初稿

2025-03-24 08:47:15

Java中的机器学习模型集成与训练

2024-11-19 09:36:19

Python机器学习19——常用六种机器学习的异常值监测方法(孤立森林，数据支持描述，自编码器，高斯混合，DBSCAN，LOF)

2024-10-24 07:45:52

Python统计学13——回归的多重共线性、异方差、自相关的检验

2024-10-18 09:52:58

Python统计学12——加权最小二乘

2024-10-18 09:52:34

热门文章

游戏编程之六游戏编程的特点

2024-09-25 10:13:46

游戏编程之十二资源管理

2023-02-15 08:38:56

数据处理，标注，分析“ModelArts人工智能应用开发指南” 学习分享

2023-08-02 07:14:21

Python NLP英文文本转小写

2023-04-18 14:16:58

一段比较简单的人工智能自动做模型的程序

2024-09-25 10:14:34

pytest源码目录概要分析

2024-04-24 09:23:22

热门标签

java Java python 编程开发开发语言代码算法线程 html Python C++ 数组 javascript c++ 元素

相关产品

弹性云主机

随时自助获取、弹性伸缩的云服务器资源

天翼云电脑（公众版）

便捷、安全、高效的云电脑服务

对象存储

高品质、低成本的云上存储服务

云硬盘

为云上计算资源提供持久性块存储

随机文章

（学习总结）如何使用ChatGPT API训练自定义知识库

一段比较简单的人工智能自动做模型的程序

Python统计学12——加权最小二乘

如何测试我们的数据质量？

Python数据分析案例08——预测泰坦尼克号乘员的生存(机器学习全流程)

Python NLP英文文本转小写