Python模块学习————2、urllib、urllib2学习

2024-07-18 10:17:44 阅读次数：32

什么是urllib

urllib是python提供的一个用于操作URL的模块，在python2.x中有URllib库，也有Urllib2库，在python3.x中Urllib2合并到了Urllib中，我们爬取网页的时候需要经常使用到这个库。

升级合并之后，模块中包的位置变化的地方比较多。在此，我们总结并为大家列举一些常见的位置变动，方便之前用python2.x的朋友在使用python3.x的时候可以快速的掌握，其他的在用到的时候再具体为大家讲解。

常见的变化有：

python2.x中使用import urllib2——————对应的，在python3.x中会使用import urllib.request,urllib.error。

在python2.x中使用import urllib——————对应的，在python3.x中会使用import urlli.request，urllib.error

在python2.x中使用import urlparse—————对应的，在python3.x中会使用import urllib.parse

在python2.x中使用import urllib2——————对应的，在python3.x中会使用import urllib.request，urllib.error

在python2.x中使用urllib2.urlopen——————对应的，在python3.x中会使用import urllib.request.urlopen

在python2.x中使用urllib.quote——————对应的，在python3.x中会使用import urllib.request.quote

在python2.x中使用cookielib.CoolieJar——————对应的，在python3.x中会使用Http.CookieJar

在python2.x中使用urllib2.Request————对应的，在python3.x中会使用urllib.request.Request。

以上是对urllib相关模块中从python2.x到python3.x的常见的一些变动，如果之前使用的是python2.x版本或者在网上阅读关于python2.x的代码，可以根据以上对应关系写出python3.x程序

urllib与urllib2函数库使用说明

（1）def urlopen(url,data=None,proxies=None)

参数说明：

url：需要打开的网址（必须符合URL规范）

data：向指定的URL发送的数据字符串，Get或者POST都可以，但是必须符合标准格式，格式为：

key1=value1&key2=value2.................

proxies:代理服务器地址字典，如果未指定，在window平台上则根据IE的设置不支持需要验证的代理服务器。

返回值说明：urlopen返回一个类文件对象，该类文件有如下方法：

read(),readline(),readlines(),fileno(),close()：这些方法的使用方式与文件对象完全一样；

info()：返回一个httplib.HTTPMessage对象，表示远程服务器返回的消息；

getcode():返回HTTP状态码。如果是HTTP请求，200表示请求成功完成，404表示资源不存在或未找到。

代码实例：

#encoding:utf-8
import urllib
baidu=urllib.urlopen('http://')
print "http header:\n",()
print 'http status:\n',baidu.getcode()
print 'url:\n',baidu.geturl()
for i in baidu:
    print(i)
baidu.close()

（2）def urlretrieve(url, filename=None, reporthook=None, data=None)

参数说明：

url:符合URL规范的字符串

filename:本地文件路径的字符串，从URL返回的数据将保存在该文件中，如果设置为None则生成一个临时文件。

reporthook：一个函数引用，当连接上服务器、以及相应的数据库传输完毕的时候会触发该函数，我们可以利用这个函数来显示当前的下载进度等等。我们可以任意定义该函数的行为，只需要保证函数有三个参数：

第一个参数：为目前为止传递的数据块数量

第二个参数：为每个数据块的大小，单位为byte

第三个参数:为文件总的大小（某些时候可能为-1）

data:向指定的URL发送的数据字符串，Get和Post都可以，但是必须符合标准格式:

key1=value1&key2=value2..........

函数返回值：返回一个元组（filename,headers）,filename为参数总的filename，header为从服务器传回来的MIME的类型。

实例：

#encoding:utf-8
import urllib
def do(a,b,c):
    """回调函数
    @a: 已经下载的数据块
    @b: 数据块的大小
    @c: 远程文件的大小
    """
    per = 100.0 * a * b / c    
    if per > 100:    
        per = 100    
    print '%.2f%%' % per
url='http://'
local="I:\python\StoreData\hello.html"
urllib.urlretrieve(url,local,do)

（3）其他函数

urllib.quote(string[, safe])：对字符串进行编码。参数safe指定了不需要编码的字符;

urllib.unquote(string) ：对字符串进行解码；

urllib.quote_plus(string[,safe]) ：与urllib.quote类似，但这个方法用'+'来替换' '，而quote用'%20'来代替' '

urllib.unquote_plus(string) ：对字符串进行解码；

urllib.urlencode(query[, doseq])：将dict或者包含两个元素的元组列表转换成url参数。例如字典{'name': 'dark-bull', 'age': 200}将被转换为"name=dark-bull&age=200"

urllib.pathname2url(path)：将本地路径转换成url路径；

urllib.url2pathname(path)：将url路径转换成本地路径；

import urllib
data = 'name = ~a+3'

data1 = urllib.quote(data)
print data1  # result: name%20%3D%20%7Ea%2B3
print urllib.unquote(data1)  # result: name = ~a+3

data2 = urllib.quote_plus(data)
print data2  # result: name+%3D+%7Ea%2B3
print urllib.unquote_plus(data2)  # result: name = ~a+3

data3 = urllib.urlencode({'name': 'dark-bull', 'age': 200})
print data3  # result: age=200&name=dark-bull

data4 = urllib.pathname2url(r'd:/a/b/c/23.php')
print data4  # result: ///D|/a/b/c/23.php
print urllib.url2pathname(data4)  # result: D:/a/b/c/23.php

urllib、urllib2代码实战测试

（1）简单读取网页信息

#coding:utf-8
import  urllib
response=urllib.urlopen
print response.read()

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

Python模块学习————2、urllib、urllib2学习

Python模块学习————2、urllib、urllib2学习

什么是urllib

urllib与urllib2函数库使用说明

urllib、urllib2代码实战测试

相关文章

python四种抽样方法的使用：随机抽样、聚类抽样、系统抽样、分层抽样

视频 | Python测试开发之调试print代码实例

python简单介绍及基础知识（一）

使用Python扩展PAM（part 2）

1行Python代码，把Excel转成PDF，python-office功能更新~

IronPython 与 c# 交互之导入Python模块的两种方法

python性能测试之pyperformance

Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较

一篇文章教会你Python中三种简单函数的使用

一篇文章带你剖析Python 字节流处理神器struct

作者介绍

最新文章

python四种抽样方法的使用：随机抽样、聚类抽样、系统抽样、分层抽样

python简单介绍及基础知识（一）

视频 | Python测试开发之调试print代码实例

使用Python扩展PAM（part 2）

1行Python代码，把Excel转成PDF，python-office功能更新~

IronPython 与 c# 交互之导入Python模块的两种方法

热门文章

Java学习之算术运算符两只老虎

Linux实用命令authconfig和authconfig-tui（备忘）

Python高级变量类型

python学习——面向对象编程

一个简单的http server，处理get和post请求，Python实现

Python数据库测试实战教程

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

C语言简易程序设计————20、寻找完数

Python学习实验报告

从样本中抽样的Python技术

Python编程：Django入门及常见错误

180Echarts - 日历坐标系（Calendar Charts）

【Python】如何求得任意N个整数的最大值与最小值