java版本结巴分词算法bug-天翼云

java版本结巴分词算法bug

2024-03-26 07:42:43 阅读次数：48

结巴分词的过程是：
1、根据dict.txt中的词库构建一棵trie树，这棵树的实例只有一个，采取单例模式。
2、每来一次分词构造，就顺着trie树进行分词，这将产生很多种结果，于是就生成了一个DGA，分词的有向无环图，终点是句子的左边或者右边（实际上应该分别以左边和右边为终点来做处理）。
3、利用动态规划，从句子的终点开始，到这算回去（这个在动态规划中很常见，概率dp）：对DGA中查找最大的概率的分词路径，路径上的词语就是分词结果。
4、返回分词结果。

bug1：在实现单例模式的时候，作者用的如下方法

public class WordDictionary{
    private static WordDictionary singleton;
    public static WordDictionary getInstance() {
        if (singleton == null) {
            synchronized (WordDictionary.class) {
                if (singleton == null) {
                    singleton = new WordDictionary();
                    return singleton;
                }
            }
        }
        return singleton;
    }
}

这种双重锁的方式，在并发场景下，是不安全的，为了避免java编译器对代码进行重排序，应该改为如下形式

private static volatile WordDictionary singleton;
public static WordDictionary getInstance() {
   if (singleton == null) {
        synchronized (WordDictionary.class) {
            if (singleton == null) {
                singleton = new WordDictionary();
                return singleton;
            }
        }
    }
    return singleton;
}

bug2：使用trie树对待分词句子建立DGA的时候采取递归建树，使得大量DictSegment和DictSegment[]堆积，对内存消耗特别严重。使用visual vm进行测试可以发现，将该分词加入到项目中一段时间后，在内存中可以看见DictSegment和DictSegment[]的占比非常高，如果老年代不够大，很有可能会引起OutOfMemory的异常

Hit match(char[] charArray, int begin, int length, Hit searchHit) {

        if (searchHit == null) {
            // 如果hit为空，新建
            searchHit = new Hit();
            // 设置hit的起始文本位置
            searchHit.setBegin(begin);
        } else {
            // 否则要将HIT状态重置
            searchHit.setUnmatch();
        }
        // 设置hit的当前处理位置
        searchHit.setEnd(begin);
        //设置起始字符为当前字典树的根节点
        Character   keyChar = new Character(charArray[begin]);
        //该keyChar对应的DictSegment
        DictSegment ds      = null;

        // 引用实例变量为本地变量，避免查询时遇到更新的同步问题
        DictSegment[]               segmentArray = this.childrenArray;
        Map<Character, DictSegment> segmentMap   = this.childrenMap;

        // STEP1 在节点中查找keyChar对应的DictSegment
        if (segmentArray != null) {
            // 在数组中查找
            DictSegment keySegment = new DictSegment(keyChar);
            int         position   = Arrays.binarySearch(segmentArray, 0, this.storeSize, keySegment);
            if (position >= 0) {
                ds = segmentArray[position];
            }

        } else if (segmentMap != null) {
            // 在map中查找
            ds = (DictSegment) segmentMap.get(keyChar);
        }

        // STEP2 找到DictSegment，判断词的匹配状态，是否继续递归，还是返回结果
        if (ds != null) {
            if (length > 1) {
                // 词未匹配完，继续往下搜索
                return ds.match(charArray, begin + 1, length - 1, searchHit);
            } else if (length == 1) {

                // 搜索最后一个char
                if (ds.nodeState == 1) {
                    // 添加HIT状态为完全匹配
                    searchHit.setMatch();
                }
                if (ds.hasNextNode()) {
                    // 添加HIT状态为前缀匹配
                    searchHit.setPrefix();
                    // 记录当前位置的DictSegment
                    searchHit.setMatchedDictSegment(ds);
                }
                return searchHit;
            }

        }
        // STEP3 没有找到DictSegment， 将HIT设置为不匹配
        return searchHit;
    }

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

java版本结巴分词算法bug

java版本结巴分词算法bug

相关文章

使用ZipEntry解压zip文件报错: java.lang.IllegalArgumentException: MALFORMED

java使用poi实现excel保护工作表实例代码（支持.xls和.xlsx）

Java实战之亲戚关系计算器（swing版）（3）——界面设计

java9系列第二篇-资源自动关闭的语法增强

Java实战之管家婆记账系统（15）——按备注条件查询界面及功能实现

总结java中文件拷贝剪切的5种方式-JAVA IO基础总结第五篇

S2-007 远程代码执行漏洞检测与利用

Pow(x, n)。实现 pow(x, n) ，即计算 x 的 n 次幂函数（即，x**n）。

Selenium Webdriver 3.X源码分析之核心代码common

算法题：剑指 Offer 18. 删除链表的节点（题目+思路+代码+注释）时空 O(N) O(1) 0ms击败100%、81%用户

作者介绍

最新文章

线性查找

课程表 III。 这里有 n 门不同的在线课程，按从 1 到 n 编号。

罗马数字转整数。

JAVA math包

java核心基础 --- 基础数据类型

二分查找算法案例

热门文章

Lc70_爬楼梯

算法-实现 出入栈，寻找最小值

冒泡排序法解析

从一个URL下载原始数据，基于byte字节

java156-序列化

字节输入流读数据 使用字节数组

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

Mybatis批量更新对象数据的两种方法

给定一个每一行有序、每一列也有序，整体可能无序的二维数组 ，在给定一个正数k，返回二维数组中，最小的第k个数。

Lc257_二叉树的所有路径

盛最多水的容器。

【21】合并两个有序链表 【LeetCode】

假设有一个源源吐出不同球的机器，只有装下10个球的袋子，每一个吐出的球，要么放入袋子，要么永远扔掉。

课程表 III。这里有 n 门不同的在线课程，按从 1 到 n 编号。

算法-实现出入栈，寻找最小值

字节输入流读数据使用字节数组

给定一个每一行有序、每一列也有序，整体可能无序的二维数组，在给定一个正数k，返回二维数组中，最小的第k个数。

【21】合并两个有序链表【LeetCode】