基于机器学习的邮件检测-天翼云开发者社区

1.摘要

针对目前垃圾邮件泛滥，严重影响了人们的日常生活，提出一种基于机器学习的垃圾邮件检测方法。首先，采用开源中文垃圾邮件数据集TREC06C，其次，对数据集进行预处理，然后，采用Word2Vec和embedding层对处理后的数据样本进行分词嵌入，最后，采用卷积神经网络搭建垃圾邮件检测模型，实验表明，本文所提模型可完成垃圾邮件的有效检测。

2.算法实现

本文研究内容采用自制数据集，源于开源数据TREC06C，且数据预处理对后期模型训练意义重大，因此，本章将介绍数据采集、数据清洗、特征处理及归一化以及基于nltk分词的样本向量化。
数据采集

为保证本文研究的法律可行性，研究采用数据集开源数据TREC06C，采集样本为utf8文件，包括两个类别，垃圾邮件样本和正常样本，其中，垃圾邮件样本为utf8文件样本，正常样本为正常的utf8文件样本。其中的数量表示每一行代表一封邮件，垃圾邮件样本数量为5000行，如图3-1所示，正常样本数量为5000行，其中，垃圾邮件样本来源于部分企业在github开源的邮件数据，正常样本来源于部分开发人员开源的正常utf8代码文件。

数据清洗

（1）过滤字符
为了保证模型训练的稳定性，在数据清洗时去除所有的非中文字符，如图3-2所示，具体采用正则匹配的方式

（2）分词与词嵌入
为了训练Word2Vec模型，需要先对训练文本进行分词。这里为了方便起见，直接对每个中文字符进行分隔，最后采用word2vec模型将文本数据转换为embedding向量。如图3-3所示。

Python的中文分词库有很多，常见的有：jieba（结巴分词）、THULAC（清华大学自然语言处理与社会人文计算实验室）、pkuseg（北京大学语言计算与机器学习研究组）、SnowNLP、pynlpir、CoreNLP、pyltp。本文采用结巴分词，可以精确模式，试图将句子最精确地切开，适合文本分析；把句子中所有的可以成词的词语都扫描出来，速度非常快，但是不能解决歧义；在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。
特征对齐与数据集打乱
中文垃圾邮件数据集中，各个邮件存在长度不一的问题，为使得模型可以更好的收敛，因此，采用样本对齐的方式，将训练样本进行对齐操作，处理为同一维度，即最大邮件长度的维度。同时，为保证模型的泛化性，将数据集进行打乱

模型设计
基于机器学习的垃圾邮件检测方法采用卷积神经网络，包括卷积层、池化层、全连接层、激活函数、损失函数，其中，卷积层采用conv2d，池化层采用最大池化，激活函数采用relu激活函数和softmax激活函数，损失函数采用交叉熵损失函数，如图所示。