1. 域名分类应用简介
根据LocalDNS提供的域名所指向的首页以及二级页面内容进行分类判断,提供后续应用访问控制依据。
应用场景示例1:用户访问域名分类结果为非法--限制访问;
应用场景示例2:未成年访问域名分类结果为游戏--限制访问时长;
2. 常见分类模型
2.1 短文本分类
FastText:模型简单,训练速度快,支持多语言表达
TextCNN:利用CNN来提取句子中类似 n-gram 的关键信息,且结构简单,效果好
TextRNN:使用RNN更自然地处理语言,能处理更长的序列,此外减少了超参数的调节;结合RNN、CNN可进一步提高效果
TextRNN + Attention:Attention机制能给出每个词对分类结果的贡献,更直观、可解释
总结:TextCNN的效果已经比较理想,TextRCNN对准确率提升有限。可先尝试TextCNN,再根据需要改进模型。
2.2 长文本分类
HAN:网络结构对应文章结构,且具有词级、句级的注意力
BERT:一般输入不超过512,语言表征能力和特征提取能力
ERNIE-Doc:最长支持2048模型输入;先粗读再精读,并加入了增强循环机制
总结:一方面可以在预训练模型进行微调,快速实现长文本分类;另一方面可以尝试简单模型,测试低算力下的分类效果
2.3 文本审核
文本预处理:HTML代码解析(尽量保留页面内容)、文本归一化(还原变异文本,例如㊉㊚ -> 十男)
特征工程:加入HTML标签特征、文本数据增强(EDA、回译、语言生成等)
检测算法:DGCNN(没有RNN、Transformer,速度较快)等分类算法
总结:相比于文本分类,需要对原始内容进行更细致的预处理和特征工程,从而降低漏检率。