域名分类任务概述-天翼云开发者社区

1. 域名分类应用简介

根据LocalDNS提供的域名所指向的首页以及二级页面内容进行分类判断，提供后续应用访问控制依据。

应用场景示例1：用户访问域名分类结果为非法--限制访问；

应用场景示例2：未成年访问域名分类结果为游戏--限制访问时长；

2. 常见分类模型

2.1 短文本分类

FastText：模型简单，训练速度快，支持多语言表达

TextCNN：利用CNN来提取句子中类似 n-gram 的关键信息，且结构简单，效果好

TextRNN：使用RNN更自然地处理语言，能处理更长的序列，此外减少了超参数的调节；结合RNN、CNN可进一步提高效果

TextRNN + Attention：Attention机制能给出每个词对分类结果的贡献，更直观、可解释

总结：TextCNN的效果已经比较理想，TextRCNN对准确率提升有限。可先尝试TextCNN，再根据需要改进模型。

2.2 长文本分类

HAN：网络结构对应文章结构，且具有词级、句级的注意力

BERT：一般输入不超过512，语言表征能力和特征提取能力

ERNIE-Doc：最长支持2048模型输入；先粗读再精读，并加入了增强循环机制

总结：一方面可以在预训练模型进行微调，快速实现长文本分类；另一方面可以尝试简单模型，测试低算力下的分类效果

2.3 文本审核

文本预处理：HTML代码解析（尽量保留页面内容）、文本归一化（还原变异文本，例如㊉㊚ -> 十男）

特征工程：加入HTML标签特征、文本数据增强（EDA、回译、语言生成等）

检测算法：DGCNN（没有RNN、Transformer，速度较快）等分类算法

总结：相比于文本分类，需要对原始内容进行更细致的预处理和特征工程，从而降低漏检率。

1. 域名分类应用简介

根据LocalDNS提供的域名所指向的首页以及二级页面内容进行分类判断，提供后续应用访问控制依据。

应用场景示例1：用户访问域名分类结果为非法--限制访问；

应用场景示例2：未成年访问域名分类结果为游戏--限制访问时长；

2. 常见分类模型

2.1 短文本分类

FastText：模型简单，训练速度快，支持多语言表达

TextCNN：利用CNN来提取句子中类似 n-gram 的关键信息，且结构简单，效果好

TextRNN：使用RNN更自然地处理语言，能处理更长的序列，此外减少了超参数的调节；结合RNN、CNN可进一步提高效果

TextRNN + Attention：Attention机制能给出每个词对分类结果的贡献，更直观、可解释

总结：TextCNN的效果已经比较理想，TextRCNN对准确率提升有限。可先尝试TextCNN，再根据需要改进模型。

2.2 长文本分类

HAN：网络结构对应文章结构，且具有词级、句级的注意力

BERT：一般输入不超过512，语言表征能力和特征提取能力

ERNIE-Doc：最长支持2048模型输入；先粗读再精读，并加入了增强循环机制

总结：一方面可以在预训练模型进行微调，快速实现长文本分类；另一方面可以尝试简单模型，测试低算力下的分类效果

2.3 文本审核

文本预处理：HTML代码解析（尽量保留页面内容）、文本归一化（还原变异文本，例如㊉㊚ -> 十男）

特征工程：加入HTML标签特征、文本数据增强（EDA、回译、语言生成等）

检测算法：DGCNN（没有RNN、Transformer，速度较快）等分类算法

总结：相比于文本分类，需要对原始内容进行更细致的预处理和特征工程，从而降低漏检率。

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

域名分类任务概述

域名分类任务概述

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

域名分类任务概述

域名分类任务概述