【Python】使用urllib模块实现网页内容读取，读取指定URL的网页内容-天翼云

【Python】使用urllib模块实现网页内容读取，读取指定URL的网页内容

2025-02-27 09:35:36 阅读次数：1

题目👇

使用urllib模块实现网页内容读取，读取指定URL的网页内容

知识补充👇

在Python3版本内置模块中提供了urllib模块，实质上是一个HTTP请求库，可以提供一些爬虫的基础操作，主要包含urllib.request、 urllib.response、urllib.parse三部分。

urllib库子模块
urllib.request 请求模块（常用）
urllib.error 异常处理模块（常用）
urllib.parse url解析模块（常用）
urllib.robotparser 解析robots.txt协议（每个网页本地都会有robots.txt协议，这里规定了本网页哪些内容可以爬取，哪些内容不可以爬取，是一个纯纯的“君子协定”，不让爬不代表不能爬）

另外，因为操作上比较繁琐，urllib库在实际爬虫应用并不多，相比之下request库的应用更为普遍。

urllib库子模块
urllib.request	请求模块（常用）
urllib.error	异常处理模块（常用）
urllib.parse	url解析模块（常用）
urllib.robotparser	解析robots.txt协议（每个网页本地都会有robots.txt协议，这里规定了本网页哪些内容可以爬取，哪些内容不可以爬取，是一个纯纯的“君子协定”，不让爬不代表不能爬）

思路分析👇

按照本题的要求，我们只需要爬取网页源码，需要用到urllib库里的requset.urlopen()创建请求对象，成功后就可以用read()方法来读取网页源代码，将其解码并打印出来即可，最后用close()关闭连接，完成操作。

代码示例👇

#coding:utf-8
#author:Mitchell
#task:网页内容读取，读取指定URL的网页内容

#加载urllib的请求库
import urllib.request
#用urlopen()创建urllib连接对象
fp = urllib.request.urlopen(r'http://')
#read()可以读取网页超文本源代码，也就是HTML代码
#参数为指定读取内容大小，无参数默认全部文本
#需要解码，否则会直接返回十六进制编码字符串
print(fp.read().decode())
#关闭连接对象
fp.close()

版权声明：本文内容来自第三方投稿或授权转载，原文地址：https://blog.csdn.net/Mitchell_Donovan/article/details/121577913，作者：Mitch311，版权归原作者所有。本网站转在其作品的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如因作品内容、版权等问题需要同本网站联系，请发邮件至ctyunbbs@chinatelecom.cn沟通。

活动

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

【Python】使用urllib模块实现网页内容读取，读取指定URL的网页内容

【Python】使用urllib模块实现网页内容读取，读取指定URL的网页内容

相关文章

ES6中Module的使用场景

mysql索引结构，各自的优劣---------＞事务的基本特性和隔离级别

python之import语句的用法

【epoll】epoll的水平触发和边沿触发，及为什么边沿触发必须使用非阻塞？

Python 中 -m 的典型用法、原理解析与发展演变

Java 通用配置（三）用户配置实现

python爬虫 - GET和POST分别对爬取的网页状态的影响以及常见网页状态码（200、401、402、404等等）

【Linux】Linux内核学习--- 学习中

webpack进阶-环境变量

不懂Express？你的Node.js之旅少了点啥

作者介绍

最新文章

mysql索引结构，各自的优劣---------＞事务的基本特性和隔离级别

python之import语句的用法

Python 中 -m 的典型用法、原理解析与发展演变

Java 通用配置（三）用户配置实现

C++ 读写文件（整行读写&VSCodeC++环境配置）

深入探索Vue.js 3中基于Composition API的动态组件开发

热门文章

Python零基础入门-6 模块和包

驱动开发：内核取应用层模块基地址

【实用软件测试教程】5-集成测试

Python快速读取文件中指定的一行或多行

Python 中的文件处理与系统模块详解

ansible 批量配置cisco 交换机---接口篇

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

python之import语句的用法

【Maven】—— SSM分模块开发

探索Java模块系统：从Jigsaw到模块化应用

C语言之字符逆序

Python文件操作太简单？你可能忽略了这些关键技巧！

关于软件测试那些事儿