语法补全功能，比如“as soon as possible“，当我们识别到“as soon as“时, 基本即可判定用户需要键入“possible“。

2024-05-16 09:52:01 阅读次数：45

语法补全功能，比如"as soon as possible"，
当我们识别到"as soon as"时, 基本即可判定用户需要键入"possible"。
设计一个统计词频的模型，用于这个功能，
类似(prefix, next word)这样的二元组，
比如一个上面的句子"as soon as possible"，
有产生如下的二元组(as, soon, 1)、(as soon, as, 1)、(as soon as, possible, 1)。
意思是这一个句子产生了如下的统计：
当前缀为"as"，接下来的单词是"soon"，有了1个期望点；
当前缀为"as soon"，接下来的单词是"as"，有了1个期望点；
当前缀为"as soon as"，接下来的单词是"possible"，有了1个期望点。
那么如果给你很多的句子，当然就可以产生很多的期望点，同一个前缀下，同一个next word的期望点可以累加。
现在给你n个句子，让你来建立统计，
然后给你m个句子，作为查询，
最后给你k，表示每个句子作为前缀的情况下，词频排在前k名的联想。
返回m个结果，每个结果最多k个单词。

前缀树。本来想用rust编写，但实力有限，实在写不出。所以用go语言了。

代码用golang编写。代码如下：

package main

import (
	"fmt"
	"sort"
	"strings"
)

func main() {
	sentences := []string{"i think you are good", "i think you are fine", "i think you are good man"}
	k := 2
	ai := NewAI(sentences, k)
	for _, ans := range ai.suggest("i think you are") {
		fmt.Println(ans)
	}
	fmt.Println("=====")
	ai.fill("i think you are fucking good")
	ai.fill("i think you are fucking great")
	ai.fill("i think you are fucking genius")
	for _, ans := range ai.suggest("i think you are") {
		fmt.Println(ans)
	}
	fmt.Println("=====")
}

type TrieNode struct {
	word      string
	times     int
	nextNodes map[string]*TrieNode
	nextRanks []*TrieNode
}

func NewTrieNode(w string) *TrieNode {
	ans := &TrieNode{}
	ans.word = w
	ans.times = 1
	ans.nextNodes = make(map[string]*TrieNode)
	ans.nextRanks = make([]*TrieNode, 0)
	return ans
}

type AI struct {
	root *TrieNode
	topk int
}

func NewAI(sentences []string, k int) *AI {
	ans := &AI{}
	ans.root = NewTrieNode("")
	ans.topk = k
	for _, sentence := range sentences {
		ans.fill(sentence)
	}
	return ans
}

func (this *AI) fill(sentence string) {
	cur := this.root
	var next *TrieNode
	for _, word := range strings.Split(sentence, " ") {
		if _, ok := cur.nextNodes[word]; !ok {
			next = NewTrieNode(word)
			cur.nextNodes[word] = next
			cur.nextRanks = append(cur.nextRanks, next)
		} else {
			next = cur.nextNodes[word]
			next.times++
		}
		cur = next
	}
}

func (this *AI) suggest(sentence string) []string {
	ans := make([]string, 0)
	cur := this.root
	for _, word := range strings.Split(sentence, " ") {
		if _, ok := cur.nextNodes[word]; !ok {
			return ans
		} else {
			cur = cur.nextNodes[word]
		}
	}
	sort.Slice(cur.nextRanks, func(i, j int) bool {
		a := cur.nextRanks[i]
		b := cur.nextRanks[j]
		if a.times != b.times {
			return a.times > b.times
		} else {
			return a.word < b.word
		}
	})
	for _, n := range cur.nextRanks {
		ans = append(ans, n.word)
		if len(ans) == this.topk {
			break
		}
	}
	return ans
}

执行结果如下：

2022-05-14：语法补全功能，比如“as soon as possible“，当我们识别到“as soon as“时, 基本即可判定用户需要键入“possible“。设计一个统计词频的模型，

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

语法补全功能，比如“as soon as possible“， 当我们识别到“as soon as“时, 基本即可判定用户需要键入“possible“。

语法补全功能，比如“as soon as possible“， 当我们识别到“as soon as“时, 基本即可判定用户需要键入“possible“。

相关文章

Javaweb编程中的乱码问题

牛客网刷题(2)（Java之JDK目录、集合框架图、内存管理、对象生命周期、垃圾回收机制）

java中final的用法

Java的几种常用包

java使用JDBC方式操作mysql数据库示例

软件开发入门之Java 抽象类

使用ZipEntry解压zip文件报错: java.lang.IllegalArgumentException: MALFORMED

Java实战之亲戚关系计算器（swing版）（3）——界面设计

java使用poi实现excel保护工作表实例代码（支持.xls和.xlsx）

Java实战之管家婆记账系统（15）——按备注条件查询界面及功能实现

作者介绍

最新文章

java使用JDBC方式操作mysql数据库示例

基础—常用数据结构：列表、元祖、集合、字典、函数等（爬虫及数据可视化）

【python对比目录】对比AB目录判断修改的文件，将A修改的文件同步到B

如何求出两个字符串的最大公共子串长度？

给定一个字符串形式的数，比如“3421“或者“-8731“， 如果这个数不在-32768~32767范围上，那么返回“NODATA“

java实现php substr函数(截取字节)

热门文章

关于PyTorch继承nn.Module出现raise NotImplementedError的问题解决方案

取出一个实体中不为null的属性和属性值

字符输入流一个一个读数据

解决Hbase报错java.lang.IllegalStateException: The procedure WAL relies on the ability to hsync for....

python学习笔记（三）之元组

字符串截取

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

解决Hbase报错java.lang.IllegalStateException: The procedure WAL relies on the ability to hsync for....

字符缓冲输入流 BufferedReader java

批处理和数据库连接池

长字符串中检测短字符串的出现次数(四)

10.正则表达式匹配

ts重点学习19-元组笔记

语法补全功能，比如“as soon as possible“，当我们识别到“as soon as“时, 基本即可判定用户需要键入“possible“。

语法补全功能，比如“as soon as possible“，当我们识别到“as soon as“时, 基本即可判定用户需要键入“possible“。

给定一个字符串形式的数，比如“3421“或者“-8731“，如果这个数不在-32768~32767范围上，那么返回“NODATA“