HTML
1、识别编码-减少乱码
2、ISO 10464-四字节,所以类型的字符
3、UTF-8-实现unicode,包含使用1个字节或3个字节来显示字符,中文使用三个字节
4、汉字编码
- GB2312-国标简体汉字6763-2字节
- BIG5-国标繁体汉字13053
- GBK-简繁字集21003
- GB18030-大一统字符集
5、识别编码
- content-type 如果是GB2312应该当做GBK处理
- 识别Meta标签
- 分析返回流的二进制格式
- 如果网页是gb2312,应该设置输入流的编码为GBK
- JuniversalCharDet 根据读入的字节流自动猜测页面或文件使用的字符集
6、网页去噪
- 去掉导航栏、底部的公司介绍、form/select/iframe/input/style等-敏感词监测爬虫不应该去掉
- 链接文字比率:链接数除以文字数
7、网页结构相似度计算
确定两个网页是否由同一个网页模板生成
- 从HTML编码字符串检测重复的模式
- 最长公共子序列
- 树编辑距离