利用jieba库进行词频统计-天翼云

利用jieba库进行词频统计

2023-02-24 08:40:10 阅读次数：176

0 引言

在读一篇文章和读一本经典名著时，我们常常想统计出来每个词汇出现的次数及该词汇的出现频率，其实我们可以利用Python中的第三方库jieba库来实现。

1 问题

通过对一篇文章和一本书中的词频统计，我们可以知道什么事物或是谁在该文章或该著作作者用了更多的文笔来提到和描述它，

2 方法

利用jieba库进行词频统计

encoding=’ANSI’:将打开的文本格式设为ANSI形式
read(size):方法从文件当前位置起读取size个字节，若无参数size，则表示读取至文件结束为止，它范围为字符串对象。
items = list（counts.items）:将counts中的元素存入items表格中。
key = lambda x:x[1]:等价于 def func(x):
return x[1]
reverse = True：列表反转排序，不写reverse = True 就是列表升序排列，括号里面加上reverse =True 就是降序排列！
{0:<10}{1:>5}:<表示左对齐，>表示右对齐，数字表示宽度,<10表示左对齐，并占10个位置，>5表示右对齐，占5个位置。

3 实验结果与讨论

通过实验、实践等证明提出的方法是有效的，是能够解决开头提出的问题。

代码清单 1

import jieba
txt = open("三国演义.txt", "r", encoding='ANSI').read()
words = jieba.lcut(txt)
counts = {}
for word in words:
 if len(word) == 1:
 continue
 else:
 counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(15):
 word, count = items[i]
 print ("{0:5}".format(word, count))

4 结语

使用jieba库对一段文本进行词频的统计是一件非常有意思的事，我们只需要使用这第三方库，就可以在不阅读文本的情况下，得到该文本的高频率词汇。但jieba库的作用远远不止于此，它更多的作用等着我们去挖掘。

活动

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

利用jieba库进行词频统计

利用jieba库进行词频统计

相关文章

Vue 中key属性的作用

LeetCode:151.翻转字符串里的单词

LeetCode：20. 有效的括号

LeetCode：344.反转字符串

Leetcode：242.有效的字母异位词

面试算法题 - 滑动窗口

热门面试算法题 43-45

算法题 49. 字母异位词分组，50. Pow(x, n)，51. N 皇后

C++算法：滑动窗口与双指针

C++ 读写文件（整行读写&VSCodeC++环境配置）

作者介绍

最新文章

Vue 中key属性的作用

LeetCode:151.翻转字符串里的单词

LeetCode：20. 有效的括号

LeetCode：344.反转字符串

Leetcode：242.有效的字母异位词

算法题 49. 字母异位词分组，50. Pow(x, n)，51. N 皇后

热门文章

python学习——使用MySQL

关于PyTorch继承nn.Module出现raise NotImplementedError的问题解决方案

python之转义字符

Demo | 神操作，SqlAlchemy用一行命令还原数据库！

groovy replace字符串替换

oracle字符串处理函数（部分）

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

使用StringBuffer反转字符串

(lintcode)第29题交叉字符串

shell 字符串操作

数据结构之插入排序

Mysql--函数

数据结构之队列、双端队列