用Python扒一个网页需要多长时间?告诉你,分分钟就扒一个下来,扒网页其实根据URL获取网页信息,然后将网页中的HTML代码返回给我们就可以了,下面代码介绍如何使用Urllib库来扒一个网页。

1、由于我们要开发一个爬虫程序,真个程序可能包含很多模块,我们需要建个目录来保存这些模块。首先建立spider目录,然后打开VSCode。打开这个目录。然后新建spider.py。

2、敲如下代码:

import urllib.request
         
response = urllib.request.urlopen("https://www.baidu.com")
html = response.read()
print (html)

这里用的是Python 3.x。2.x的请自行查找。

3、按F5,调试程序,没错,就几行代码就够了。调试返回如下结果。



4、分析一下代码:

response = urllib.request.urlopen("http://www.baidu.com")

首先我们调用的是urllib库里面的urlopen方法,传入一个URL,这个网址是百度首页,协议是HTTP协议,当然你也可以把HTTP换做FTP,FILE,HTTPS 等等,只是代表了一种访问控制协议,urlopen一般接受三个参数,它的参数如下:

urlopen(url, [data],[timeout])


第一个参数url即为URL,第二个参数data是访问URL时要传送的数据,第三个timeout是设置超时时间。

第二三个参数是可以不传送的,data默认为空None,timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT

第一个参数URL是必须要传送的,在这个例子里面我们传送了百度的URL,执行urlopen方法之后,返回一个response对象,返回信息便保存在这里面。


html = response.read()

定义变量html带获取response对象read方法返回的内容。


print (html)

打印html变量。


好了,脖子疼的厉害,下次介绍使用urllib模块来GET和POST数据。