searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

爬虫中常用的技巧(4)

2024-11-21 09:10:47
0
0

技巧七:OCR识别,攻克验证码难关

对于简单的验证码,可以使用 OCR 技术进行识别,例如 tesserocr 库。

from PIL import Image
import tesserocr

img = Image.open("captcha.png")
code = tesserocr.image_to_text(img)

技巧八:Headers 设置,模拟真实请求

除了 User-Agent,还可以设置 Referer、Cookie 等 Headers 信息,使请求更加真实。

headers = {
    'User-Agent': '...',
    'Referer': '...', 
    'Cookie': '...',
}

0条评论
0 / 1000
王****际
43文章数
1粉丝数
王****际
43 文章 | 1 粉丝
原创

爬虫中常用的技巧(4)

2024-11-21 09:10:47
0
0

技巧七:OCR识别,攻克验证码难关

对于简单的验证码,可以使用 OCR 技术进行识别,例如 tesserocr 库。

from PIL import Image
import tesserocr

img = Image.open("captcha.png")
code = tesserocr.image_to_text(img)

技巧八:Headers 设置,模拟真实请求

除了 User-Agent,还可以设置 Referer、Cookie 等 Headers 信息,使请求更加真实。

headers = {
    'User-Agent': '...',
    'Referer': '...', 
    'Cookie': '...',
}

文章来自个人专栏
pike
43 文章 | 1 订阅
0条评论
0 / 1000
请输入你的评论
0
0