searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

域名分类任务概述

2023-07-14 06:48:41
3
0

1. 域名分类应用简介

根据LocalDNS提供的域名所指向的首页以及二级页面内容进行分类判断,提供后续应用访问控制依据。

应用场景示例1:用户访问域名分类结果为非法--限制访问;

应用场景示例2:未成年访问域名分类结果为游戏--限制访问时长;

 

2. 常见分类模型

2.1 短文本分类

FastText:模型简单,训练速度快,支持多语言表达

TextCNN:利用CNN来提取句子中类似 n-gram 的关键信息,且结构简单,效果好

TextRNN:使用RNN更自然地处理语言,能处理更长的序列,此外减少了超参数的调节;结合RNN、CNN可进一步提高效果

TextRNN + Attention:Attention机制能给出每个词对分类结果的贡献,更直观、可解释

​ 总结:TextCNN的效果已经比较理想,TextRCNN对准确率提升有限。可先尝试TextCNN,再根据需要改进模型。

 

2.2 长文本分类

HAN:网络结构对应文章结构,且具有词级、句级的注意力

BERT:一般输入不超过512,语言表征能力和特征提取能力

ERNIE-Doc:最长支持2048模型输入;先粗读再精读,并加入了增强循环机制

​ 总结:一方面可以在预训练模型进行微调,快速实现长文本分类;另一方面可以尝试简单模型,测试低算力下的分类效果

 

2.3 文本审核

文本预处理:HTML代码解析(尽量保留页面内容)、文本归一化(还原变异文本,例如㊉㊚ -> 十男)

特征工程:加入HTML标签特征、文本数据增强(EDA、回译、语言生成等)

检测算法:DGCNN(没有RNN、Transformer,速度较快)等分类算法

总结:相比于文本分类,需要对原始内容进行更细致的预处理和特征工程,从而降低漏检率。

0条评论
0 / 1000
z****n
4文章数
0粉丝数
z****n
4 文章 | 0 粉丝
原创

域名分类任务概述

2023-07-14 06:48:41
3
0

1. 域名分类应用简介

根据LocalDNS提供的域名所指向的首页以及二级页面内容进行分类判断,提供后续应用访问控制依据。

应用场景示例1:用户访问域名分类结果为非法--限制访问;

应用场景示例2:未成年访问域名分类结果为游戏--限制访问时长;

 

2. 常见分类模型

2.1 短文本分类

FastText:模型简单,训练速度快,支持多语言表达

TextCNN:利用CNN来提取句子中类似 n-gram 的关键信息,且结构简单,效果好

TextRNN:使用RNN更自然地处理语言,能处理更长的序列,此外减少了超参数的调节;结合RNN、CNN可进一步提高效果

TextRNN + Attention:Attention机制能给出每个词对分类结果的贡献,更直观、可解释

​ 总结:TextCNN的效果已经比较理想,TextRCNN对准确率提升有限。可先尝试TextCNN,再根据需要改进模型。

 

2.2 长文本分类

HAN:网络结构对应文章结构,且具有词级、句级的注意力

BERT:一般输入不超过512,语言表征能力和特征提取能力

ERNIE-Doc:最长支持2048模型输入;先粗读再精读,并加入了增强循环机制

​ 总结:一方面可以在预训练模型进行微调,快速实现长文本分类;另一方面可以尝试简单模型,测试低算力下的分类效果

 

2.3 文本审核

文本预处理:HTML代码解析(尽量保留页面内容)、文本归一化(还原变异文本,例如㊉㊚ -> 十男)

特征工程:加入HTML标签特征、文本数据增强(EDA、回译、语言生成等)

检测算法:DGCNN(没有RNN、Transformer,速度较快)等分类算法

总结:相比于文本分类,需要对原始内容进行更细致的预处理和特征工程,从而降低漏检率。

文章来自个人专栏
阿辉的自然语言处理
4 文章 | 1 订阅
0条评论
0 / 1000
请输入你的评论
0
0