python爬虫如何爬取get请求的页面数据？（附代码）-Python教程-PHP中文网

本篇文章给大家带来的内容是关于python爬虫如何爬取get请求的页面数据（附代码），有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。

一.urllib库

urllib是Python自带的一个用于爬虫的库，其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse，在Python2中是urllib和urllib2。

二.由易到难的爬虫程序：

1.爬取百度首页面所有数据值

立即学习“Python免费学习笔记（深入）”；

#!/usr/bin/env python 
# -*- coding:utf-8 -*-
#导包
import urllib.request
import urllib.parse
if __name__ == "__main__":
    #指定爬取的网页url
    url = 'http://www.baidu.com/'
    #通过urlopen函数向指定的url发起请求，返回响应对象
    reponse = urllib.request.urlopen(url=url)
    #通过调用响应对象中的read函数，返回响应回客户端的数据值（爬取到的数据）
    data = reponse.read()#返回的数据为byte类型，并非字符串
    print(data)#打印显示爬取到的数据值。

#补充说明
urlopen函数原型：

urllib.request.urlopen(url, data=None, timeout=