爬虫(二)-天翼云

爬虫(二)

2024-10-09 09:14:35 阅读次数：24

模拟登录进行爬虫：

抓包分析:

如果显示您的连接不是私密连接，右键图标，属性，在位置那里打一个空格。添加 --test-type --ignore-certificate-errors

我们看到，马上开搞！

爬虫(二)

爬一下书架的藏书:

分析观察一下：

爬虫(二)

效果：

爬虫(二)

code:

import requests

headers = {
    'User-agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Mobile Safari/537.36',
}
session = requests.session()
#给登录的路由发包
session.post

res = session.get
res.encoding = "utf8"
data = res.json().get("data")
print(data)

etree解析：

爬虫(二)

import requests
from lxml import etree


headers = {
    'User-agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Mobile Safari/537.36',
}
session = requests.session()
#给登录的路由发包
session.post

res = session.get
res.encoding = "utf8"
data = res.json().get("data")

for bookDict in data:
    bookId = bookDict.get('bookId')
    res = requests.get
    res.encoding = 'utf-8'

    selector = etree.HTML(res.text)
    urls = selector.xpath('//dl[@class="Volume"]/dd/a')
    for url in urls:
        each_href = url.xpath("./@href")[0]
        print(each_href)
        each_title = url.xpath("./span/text()")[0].strip()
        print(each_title)

最终版本：

import requests
from lxml import etree


headers = {
    'User-agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Mobile Safari/537.36',
}
session = requests.session()
#给登录的路由发包
session.post

res = session.get
res.encoding = "utf8"
data = res.json().get("data")

for bookDict in data:
    bookId = bookDict.get('bookId')
    res = requests.get
    res.encoding = 'utf-8'

    selector = etree.HTML(res.text)
    urls = selector.xpath('//dl[@class="Volume"]/dd/a')
    for url in urls:
        each_href = url.xpath("./@href")[0]
        each_title = url.xpath("./span/text()")[0].strip()

        res = requests.get
        res.encoding = 'utf-8'
        each_html = res.text
        selector = etree.HTML(res.text)
        text = selector.xpath('//div[contains(@class,"content")]/div[@class="p"]/p[position()<last()]/text()')
        print(text)

写入本地的txt:

import requests
from lxml import etree
import os

headers = {
    'User-agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Mobile Safari/537.36',
}
session = requests.session()

def login():
   

    # 给登录的路由发包
    session.post
#拿到书架返回的数据
def get_books():
    res = session.get
    res.encoding = "utf8"
    data = res.json().get("data")
    return data

#给每一本书分类
def get_each_book(data):
    for bookDict in data:
        bookId = bookDict.get('bookId')
        bookName = bookDict.get('bookName')
        book_path = os.path.join("书房", bookName)
        if not os.path.exists(book_path):
            os.mkdir(book_path)
        get_chapter(bookName, bookId, book_path)

# 爬每一本书
def get_chapter(bookName, bookId, book_path):
    res = requests.get
    res.encoding = "utf8"
    selector = etree.HTML(res.text)
    urls = selector.xpath('//dl[@class="Volume"]/dd/a')
    for url in urls:
        each_href = url.xpath("./@href")[0]
        each_title = url.xpath("./span/text()")[0].strip()
        res = requests.get
        res.encoding = 'utf-8'
        each_html = res.text
        selector = etree.HTML(res.text)
        each_text = selector.xpath('//div[contains(@class,"content")]/div[@class="p"]/p[position()<last()]/text()')
        download(book_path, each_title, each_text)
        print("{}书的{}章节下载完成".format(bookName, bookId))

 #下载
def download(book_path, each_title, each_text):
    each_title = each_title + '.txt'
    each_path = os.path.join(book_path, each_title)
    with open(each_path, "w", encoding='utf-8') as fp:
        for line in each_text:
            fp.write(line + "\n")

login()
data = get_books()
folder_path = "书房"

if not os.path.exists(folder_path):
    os.mkdir(folder_path)

get_each_book(data)

活动

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

爬虫(二)

爬虫(二)

模拟登录进行爬虫：

写入本地的txt:

相关文章

面向对象1（30小时精通C++和外挂实战）

DNN学习平台（GoogleNet、SSD、FastRCNN、Yolov3）

深入浅出 Java 的最新技术发展与实战应用

深入探讨Java的最新技术：文本块和反射的现代应用

深入解析 Java 最新技术：模块化、虚拟线程与功能增强

JavaScript 拖拽与观察者模式的实现及应用

JavaScript 高级函数编程技巧

深入解析 Java 17 和 Java 21 新特性

JavaScript 实战案例解析

JavaScript 面试题解析与代码实践

作者介绍

最新文章

面向对象1（30小时精通C++和外挂实战）

深入浅出 Java 的最新技术发展与实战应用

深入探讨Java的最新技术：文本块和反射的现代应用

深入解析 Java 最新技术：模块化、虚拟线程与功能增强

JavaScript 拖拽与观察者模式的实现及应用

JavaScript 高级函数编程技巧

热门文章

CE修改器入门：查找共享代码

java自定义接口方法的参数自动注入，比如@UserId Long userId、@LoginedUser User user

使用layui弹框实现添加时，当添加成功之后如何进行关闭当前窗口刷新父页面的数据

app的简单创建

【前端】代码提交前的最后防线：使用Husky确保代码质量

规定1和A对应、2和B对应、3和C对应...26和Z对应，那么一个数字字符串比如"111”就可以转化为:"AAA"、"KA"和"AK"。给定一个只有数字字符组成的字符串str，请问有多少种转化结果？

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

一个象棋的棋盘，然后把整个棋盘放入第一象限，棋盘的最左下角是(0,0)位置，那么整个棋盘就是横坐标上9条线、纵坐标上10条线的区域。

java geotool构建地理点线面

Java中的线程同步详解

java生成4位随机数工具类代码

什么是最小生成树

顶级建议：开发者和ChatGPT如何成为最好的朋友