实现搜索引擎之建立html文档索引-天翼云

实现搜索引擎之建立html文档索引

2024-04-03 09:23:22 阅读次数：50

HTML

1、识别编码-减少乱码
2、ISO 10464-四字节，所以类型的字符
3、UTF-8-实现unicode，包含使用1个字节或3个字节来显示字符，中文使用三个字节
4、汉字编码

GB2312-国标简体汉字6763-2字节
BIG5-国标繁体汉字13053
GBK-简繁字集21003
GB18030-大一统字符集

5、识别编码

content-type 如果是GB2312应该当做GBK处理
识别Meta标签
分析返回流的二进制格式
如果网页是gb2312，应该设置输入流的编码为GBK
JuniversalCharDet 根据读入的字节流自动猜测页面或文件使用的字符集

6、网页去噪

去掉导航栏、底部的公司介绍、form/select/iframe/input/style等-敏感词监测爬虫不应该去掉
链接文字比率：链接数除以文字数

7、网页结构相似度计算
确定两个网页是否由同一个网页模板生成

从HTML编码字符串检测重复的模式
最长公共子序列
树编辑距离

活动

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

实现搜索引擎之建立html文档索引

实现搜索引擎之建立html文档索引

HTML

相关文章

利用javascript做简单的算法

CSS基础之伪元素选择器（如果想知道CSS的伪元素选择器知识点，那么只看这一篇就足够了！）

vue中使用iframe嵌套html页面并传值到html

HTML+CSS练习小项目——百叶窗

如何利用JavaScript的arguments对象实现用代码打印调用栈的需求

使用ant执行Java代码

【测试】linux下C/C++代码覆盖率工具gcov、lcov

【规范】C/C++注释格式

textarea不解析html && div替代textarea

ThinkPHP的无限分类

作者介绍

最新文章

CSS基础之伪元素选择器（如果想知道CSS的伪元素选择器知识点，那么只看这一篇就足够了！）

vue中使用iframe嵌套html页面并传值到html

HTML+CSS练习小项目——百叶窗

如何利用JavaScript的arguments对象实现用代码打印调用栈的需求

使用ant执行Java代码

【测试】linux下C/C++代码覆盖率工具gcov、lcov

热门文章

Python：使用2to3将Python2转Python3

html+css实战183-购物车

html：canvas画布绘图简单入门

TypeScript-webpack配置

ajax乱码问题和异步同步问题

js中通过正则表达式验证邮箱是否合法

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

JavaScript中通过按回车键进行数据的录入

Vue学习之--------组件嵌套以及VueComponent的讲解（代码实现）

数据结构72-双向链表其他方法实现

html+css实战137-banner-布局

级联查询

html+css实战178-快捷导航布局