searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

爬虫中常用的技巧(1)

2024-11-21 09:10:48
0
0

技巧一:随机暂停,迷惑反爬机制

高频率访问容易被网站识别为爬虫,所以我们要学会“劳逸结合”!使用 time.sleep()  函数,加上随机时间,让爬虫更像人类访问。

import time
import random

# 随机睡眠 0 到 5 秒
time.sleep(random.random() * 5)

技巧二: 伪装身份,User-Agent大法好

每个浏览器访问网站时都会带上 User-Agent 信息,我们可以使用 fake_useragent 库生成随机 User-Agent,伪装成浏览器访问。

from fake_useragent import UserAgent

ua = UserAgent()
headers = {'User-Agent': ua.random} 

# 将 headers 添加到请求中
response = requests.get(url, headers=headers)

0条评论
0 / 1000
王****际
43文章数
1粉丝数
王****际
43 文章 | 1 粉丝
原创

爬虫中常用的技巧(1)

2024-11-21 09:10:48
0
0

技巧一:随机暂停,迷惑反爬机制

高频率访问容易被网站识别为爬虫,所以我们要学会“劳逸结合”!使用 time.sleep()  函数,加上随机时间,让爬虫更像人类访问。

import time
import random

# 随机睡眠 0 到 5 秒
time.sleep(random.random() * 5)

技巧二: 伪装身份,User-Agent大法好

每个浏览器访问网站时都会带上 User-Agent 信息,我们可以使用 fake_useragent 库生成随机 User-Agent,伪装成浏览器访问。

from fake_useragent import UserAgent

ua = UserAgent()
headers = {'User-Agent': ua.random} 

# 将 headers 添加到请求中
response = requests.get(url, headers=headers)

文章来自个人专栏
pike
43 文章 | 1 订阅
0条评论
0 / 1000
请输入你的评论
0
0