自然语言处理中文本的token和tokenization
1.1 概念和工具的介绍
tokenization
就是通常所说的分词,分出的每一个词语我们把它称为token
。
常见的分词工具很多,比如:
-
jieba分词:https:///fxsjy/jieba
-
清华大学的分词工具THULAC:
https:///thunlp/THULAC-Python
1.2 中英文分词的方法
-
把句子转化为词语
-
比如:
我爱深度学习
可以分为[我,爱, 深度学习]
-
-
把句子转化为单个字
-
比如:
我爱深度学习
的token是[我,爱,深,度,学,习]
-