用几十行代码实现python中英文分词-天翼云

用几十行代码实现python中英文分词

2024-07-17 10:22:46 阅读次数：37

说到分词大家肯定一般认为是很高深的技术，但是今天作者用短短几十行代码就搞定了，感叹python很强大啊！作者也很强大。不过这个只是正向最大匹配，没有机器学习能力

注意：使用前先要下载搜狗词库

# -*- coding:utf-8 -*-
   
#写了一个简单的支持中文的正向最大匹配的机械分词,其它不用解释了，就几十行代码      import string
__dict= {}
   
def load_dict(dict_file='words.dic'):
    #加载词库，把词库加载成一个key为首字符，value为相关词的列表的字典
   
    words= [unicode(line,'utf-8').split()for linein open(dict_file)]
   
    for word_len, wordin words:
        first_char= word[0]
        __dict.setdefault(first_char, [])
        __dict[first_char].append(word)
      
    #按词的长度倒序排列
    for first_char, wordsin __dict.items():
        __dict[first_char]= sorted(words, key=lambda x:len(x), reverse=True)
   
def __match_ascii(i,input):
    #返回连续的英文字母，数字，符号
    result= ''
    for iin range(i,len(input)):
        if not input[i]in string.ascii_letters:break
        result+= input[i]
    return result
   
   
def __match_word(first_char, i ,input):
    #根据当前位置进行分词，ascii的直接读取连续字符，中文的读取词库
   
    if not __dict.has_key(first_char):
        if first_charin string.ascii_letters:
            return __match_ascii(i,input)
        return first_char
   
    words= __dict[first_char]
    for wordin words:
        if input[i:i+len(word)]== word:
            return word
   
    return first_char
   
def tokenize(input):
    #对input进行分词，input必须是uncode编码
   
    if not input:return []
   
    tokens= []
    i= 0
    while i <len(input):
        first_char= input[i]
        matched_word= __match_word(first_char, i,input)
        tokens.append(matched_word)
        i+= len(matched_word)
   
    return tokens
   
   
if __name__== '__main__':
    def get_test_text():
        import urllib2
        url
        text= urllib2.urlopen(url).read()
        return unicode(text,'gbk')
   
    def load_dict_test():
        load_dict()
        for first_char, wordsin __dict.items():
            print '%s:%s' % (first_char,' '.join(words))
   
    def tokenize_test(text):
        load_dict()
        tokens= tokenize(text)
        for tokenin tokens:
            print token
   
    tokenize_test(unicode(u'美丽的花园里有各种各样的小动物'))
    tokenize_test(get_test_text())

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

用几十行代码实现python中英文分词

用几十行代码实现python中英文分词

相关文章

python四种抽样方法的使用：随机抽样、聚类抽样、系统抽样、分层抽样

视频 | Python测试开发之调试print代码实例

python简单介绍及基础知识（一）

使用Python扩展PAM（part 2）

1行Python代码，把Excel转成PDF，python-office功能更新~

python性能测试之pyperformance

IronPython 与 c# 交互之导入Python模块的两种方法

如何把一个python列表(有很多个元素)变成一个excel表格的第一列？

如何在交互式环境中执行Python程序

Python统计list中特定元素的数量

作者介绍

最新文章

python四种抽样方法的使用：随机抽样、聚类抽样、系统抽样、分层抽样

python简单介绍及基础知识（一）

视频 | Python测试开发之调试print代码实例

使用Python扩展PAM（part 2）

1行Python代码，把Excel转成PDF，python-office功能更新~

IronPython 与 c# 交互之导入Python模块的两种方法

热门文章

Java学习之算术运算符两只老虎

Linux实用命令authconfig和authconfig-tui（备忘）

Python高级变量类型

python学习——面向对象编程

一个简单的http server，处理get和post请求，Python实现

Python数据库测试实战教程

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

使用ChatGPT实现可视化操作扫雷小游戏 【java代码实现】

`＜jsp:getProperty＞`动作和`＜jsp:setProperty＞`动作的使用在一个静态页面填写图书的基本信息，页面信息提交给其他页面，并且在其页面显示。要去将表单元素的值赋值给Java

[快学Python3]String(字符串)

次小生成树

04Python判断（if）语句

打印蛇形矩阵

使用ChatGPT实现可视化操作扫雷小游戏【java代码实现】