[快学Python3]HTTP处理 - urllib模块-天翼云

[快学Python3]HTTP处理 - urllib模块

2024-05-13 08:43:07 阅读次数：39

概述

urllib是python最基础、最核心的HTTP协议支持库，诸多第三方库都依赖urllib，所以urllib是必须掌握的HTTP库。

掌握了urllib有利于：

深入理解http协议
可以更好的学习和掌握第三方http库
快速的开展基于http的接口测试
快速进入爬虫学习之路

urllib组成

我们一起看下urllib由哪些模块或类构成：

urllib.request
用于构建http请求
urllib.response
用于处理http响应值的类
urllib.parse 用于url处理
urllib.error
用于错误处理
urllib.robotparser
用于处理robot.txt文件

爬取数据实例

下面我们基于豆瓣网的API来看看代码实例

豆瓣网API网址：https:///wiki/?title=guide

下面的实例演示了如何使用豆瓣网的API 进行数据爬取，从而演示urllib的强大能力。

请勿使用下述代码持续爬取数据

# -*- coding:utf-8 -*-

__author__ = '苦叶子'

import urllib.request
import csv
import codecs

if __name__ == "__main__":
    print("urllib爬取豆瓣网数据示例")
    print("搜索下关键字： Python")

    url = "https:///v2/book/search?q=python"
    response = urllib.request.urlopen(url)

    # 将bytes数据流解码成string
    ebook_str = response.read().decode()

    # 将string转换成dict
    ebook_dict = eval（ebook_str)

    #print(ebook_dict)
    #print(type(ebook_dict))
    count = ebook_dict["count"]    
    total = ebook_dict["total"]

    with codecs.open('books.csv', 'w', 'utf-8') as csvfile:
        spamwriter = csv.writer(csvfile, delimiter=',',
                                quotechar='|', quoting=csv.QUOTE_MINIMAL)
        spamwriter.writerow(["书名", "作者", "描述", "出版社", "价格"])
        # 写书信息        
        for book in ebook_dict["books"]:
            spamwriter.writerow([book["title"], 
                ",".join(book["author"]), 
                book["summary"], 
                book["publisher"], 
                book["price"]])
            


        # 从第2页开始，获取其他书籍信息        
        # 这段代码采集了大量数据，容易被封IP，所以注释了
        """
        for start in range(1, int(total / count) + 1):
            url = "https:///v2/book/search?q=python&start=%d" % start
            try:
                response = urllib.request.urlopen(url)
            except:                
                print("别老爬别人的数据，要爬也别太快，会被封IP的")  
                break


            # 将bytes数据流解码成string
            ebook_str = response.read().decode()

            # 将string转换成dict
            ebook_dict = eval（ebook_str)

            # 输出书籍信息
            for book in ebook_dict["books"]:
                spamwriter.writerow([book["title"], 
                ",".join(book["author"]), 
                book["summary"], 
                book["publisher"], 
                book["price"]]) 
        """    
        print("总计搜索了 %d 本书的信息" % total)

请勿使用上述代码持续爬取数据

对于其他的接口，这里就不再演示。

基本功能实例

下面我们演示下urllib基本功能实例，例如如何获取返回码等等基本信息。

# -*- coding:utf-8 -*-

__author__ = '苦叶子'

import urllib.request

if __name__ == "__main__":    
    print("urllib基本实例")

    url = "http://"

    # 访问下百度
    response = urllib.request.urlopen(url)    

    # 打印下状态码
    print(response.status)    
    
    # 打印下状态码对应的可读性文字说明，例如在http协议里，200 对应 OK
    print(response.reason)    
    
    # 打印下请求返回的header
    print(response.headers)    
    
    # 打印下请求返回的数据
    print(response.read().decode("utf-8"))

上述仅仅是urllib的基本功能，还有更强大的功能，我们后续再分享。

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

[快学Python3]HTTP处理 - urllib模块

[快学Python3]HTTP处理 - urllib模块

概述

urllib组成

爬取数据实例

基本功能实例

相关文章

java使用JDBC方式操作mysql数据库示例

Java的几种常用包

java中final的用法

牛客网刷题(2)（Java之JDK目录、集合框架图、内存管理、对象生命周期、垃圾回收机制）

Javaweb编程中的乱码问题

软件开发入门之Java 抽象类

使用ZipEntry解压zip文件报错: java.lang.IllegalArgumentException: MALFORMED

python四种抽样方法的使用：随机抽样、聚类抽样、系统抽样、分层抽样

视频 | Python测试开发之调试print代码实例

python简单介绍及基础知识（一）

作者介绍

最新文章

Java的几种常用包

Javaweb编程中的乱码问题

软件开发入门之Java 抽象类

python四种抽样方法的使用：随机抽样、聚类抽样、系统抽样、分层抽样

视频 | Python测试开发之调试print代码实例

python简单介绍及基础知识（一）

热门文章

JAVA__接口的作用

Java学习之算术运算符两只老虎

Linux实用命令authconfig和authconfig-tui（备忘）

Python高级变量类型

排序算法Java版-归并排序算法

python学习——面向对象编程

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

主函数和子函数中使用多线程的区别

设计模式(Python语言)----观察者模式

05Python循环

解决pandas读取文件报错ValueError: Invalid file path or buffer object type: ＜class ‘tuple‘＞

springmvc源码之HandlerAdapter处理适配器

二十三种设计模式-----归纳篇(JAVA)