垂直搜索架构(爬虫部分) ------垂直爬虫-天翼云

垂直搜索架构(爬虫部分) ------垂直爬虫

2024-03-22 08:13:30 阅读次数：52

垂直爬虫的代码实现比较简单，主要是两方面：
1. 限定url，一般是通过正则匹配
2.限定内容，比如列表页面只要抓取详细页面的url，详细页面只要抓取特定内容，一般都是用css 选择器或者xpath的库取匹配内容

垂直爬虫的技术难点没有全网爬出那么多，主要要解决的是反爬的问题.
针对性的做几个项目的垂直爬虫，你就慢慢形成了你自己的垂直爬虫框架，有了自己的任务管理，数据集存储，基本的数据处理器，实现了一些通用的采集器，这样有新需求的时候就比较简单了，对于垂直采集来说就是设置设置URL规则，写些解析页面的脚本代码.

以上是自己写了几个垂直采集系统的经验之谈，欢迎一起探讨

--------------------------------------------------------------------------------------------------------------------------------------------------------------------

在垂直搜索的索引建立之前，我们需要到垂直网站上抓取资源并做一定的处理。垂直搜索与通用搜索不同之处在于，通用搜索不需要理会网站哪些资源是需要的，哪些是不需要的，一并抓取并将其文本部分做索引。而垂直搜索里，我们的目标网站往往在某一领域具有其专业性，其整体网站的结构相当规范(否则用户体验也是个灾难，想想东一篇文章西一篇文章基本没人会喜欢)，并且垂直搜索往往只需要其中一部分具有垂直性的资源，所以垂直爬虫相比通用爬虫更加精确。

通常把爬虫爬取资源分成三个步骤：url-crawling(链接抓取),detail-crawling(详情抓取),format&fusion(规整与聚合),以下是整体垂直搜索的架构及流程图：

垂直搜索架构(爬虫部分) ------垂直爬虫

初次爬取：

1.首先运营人员会选定需要抓取的目标网站，录入数据库的站源表sitelist，然后url crawler会读取出来存入map，并提出对应站点的正则解析规则。

2.根据事先制定的url列表页正则表达式，url crawler到列表页爬取列表并提取出来存入资源url表urllist，当中涉及一些列表页分页功能，具体视每个网站分页url规则而定。

crawler从数据库的资源url表读出urls及其资源页的xpath规则，存入一个同步的队列中(一般做法会将url做md5处理，用于去重，以免重复爬取相同url，浪费资源)，多线程下的每个爬虫程序将从此队列读取urls(若队列为空线程将进入等待)，然后爬取每个资源页，并根据xpath规则提取有价值的资源(xpath用法详见xpath解析)，并将提取的资源存入原始数据表originalresource。

4.format crawler从数据库原始数据表提取数据，进行进一步的规整、聚合(例如做一些资源分流下载服务器，会从目标网站爬取资源文件存入自己的文件服务器中)，最终存入规整内容表中。

5.现在资源就可以被线上应用使用了。

更新爬取：

1.根据每个站点设定的url失效时间，定期的从数据库抽取需要更新的资源url，加入步骤3的队列中，进行资源爬取，并比较一些能鉴别资源是否有更新的字段(例如应用软件资源，可比较版本号)。

2.爬取的资源更新到数据库中。

以上就是垂直爬虫的工作过程，为什么要分成三步走呢？这样能够将风险分化，不至于某个地方错了，必须整个重来。维护爬虫最耗费人工的地方就是当今网站的反爬虫策略已经日趋成熟，其实爬取资源的过程，就是与整个互联网形形色色的反爬虫策略做博弈的过程，这个会在之后的博客中详说。

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

垂直搜索架构(爬虫部分) ------垂直爬虫

垂直搜索架构(爬虫部分) ------垂直爬虫

相关文章

java8开发常用的日期操作，纯干货分享

Java反编译

使用shell脚本在Linux中管理Java应用程序

Java学习路线指南

初学Java,形参长度可变的方法(八)

初学Java,在构造器中调用另一个构造器(十)

初学Java,参数传递无引用传递(七)

初学Java,调用父类方法(十一)

初学Java,匿名内部类(二十)

初学Java,单例模式(十五)

作者介绍

最新文章

java8开发常用的日期操作，纯干货分享

Java反编译

使用shell脚本在Linux中管理Java应用程序

Java学习路线指南

初学Java,形参长度可变的方法(八)

初学Java,调用父类方法(十一)

热门文章

Java线程同步synchronized wait notifyAll

Java/Android Annotation注解/注入（二）

Android/Java判断字符串String是否为float浮点数或double类型

Java小数点数字和百分号数字之间的转换

Java的自带注解Annotation(一)

Java/Android Annotation注解/注入（三）

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

Java中有参构造方法的作用和无参构造方法的作用

Java设计模式：策略Strategy模式，以电影票折扣策略为例

Java学习之多个对象指向相同

Java 应用的限流策略：保护系统稳定性

Java String 构造方法中的内存分配

org.apache.ibatis.builder.IncompleteElementException: Could not find result map java.lang.Integer