TextRank基本介绍
TextRank论文:
Mihalcea, Rada, and Paul Tarau. “Textrank: Bringing order into text.” Proceedings of the 2004 conference on empirical methods in natural language processing. 2004.
PageRank论文:
Page, Lawrence, et al. The PageRank citation ranking: Bringing order to the web. Stanford InfoLab, 1999.
Textrank借助pagerank的思想,在文本摘要任务中,使用句子之间的相似度构建相似度矩阵,然后借助pagerank提取最重要的句子;在关键词提取的任务中,借助词共现矩阵,提取最重要的关键词。
代码案例
from jieba.analyse import textrank
sentences_list: list = [
'优惠的政策和政府对产业发展的重视也吸引了更多医美企业来成都寻觅机遇。2018年成都医美机构的数量一度飙升至407家,较之前一年激增131家。',
'中国医学科学院整形外科医院也选择于2018年将首家京外分院——成都八大处医疗美容医院落地蓉城。不断增长的营收数据没有让人失望.',
'成都八大处医疗美容医院院长唐勇告诉记者,在因新冠肺炎疫情停业近40天的情况下,该院2020年的营收相比2019年仍实现了约30%的增长。'
'实际上,随着“颜值经济”不断走热,医美逐渐成为部分当代中国人的“刚需”,其中恢复期短、风险较低的轻医美最受欢迎。',
'出于对安全性、可靠性等因素的考虑,大量消费者自然而然地流动到医美资源集聚的城市“求美”,“医美旅游”悄然兴起。',
'成都头部医美机构之一、四川华美紫馨医学美容医院2020年整体营收约6亿元。该院总经理薛红介绍,医院每年治疗人数中约20%都是专程前来的外地消费者。',
'“尤其最近几年,这部分消费者数量增长很快,来自甘肃、青海、云南、贵州等各个省份的都有。”',
]
all_article = "".join(sentences_list) # 将所有的文本整合为一个大文本
keywords = textrank(all_article, topK=10, withWeight=True)
print('Text rank 结果展示:')
for word, weight in keywords:
print(word, ": ", str(weight))
输出结果为:
Text rank 结果展示:
成都 : 1.0
医院 : 0.9397766436283298
增长 : 0.563431645533499
美容 : 0.5377617779353221
医疗 : 0.5310057751855457
消费者 : 0.517195976152981
数量 : 0.3862206083934003
机构 : 0.38586109064238466
走热 : 0.35816682423324875
医美 : 0.35806280469524937