python 实现简单爬虫功能python 实现简单爬虫功能 一,猎取整个页面数据 首先我们可以先猎取要下载图片的整个页面信息
getjpg
py #coding=utf8 import urllib def getHtml(url): page = urllib
urlopen(url) html = page
read() return html html = getHtml("http://tieba
com/p/2738151262") print html Urllib 模块提供了读取 web 页面数据的接口,我们可以像读取本地文件一样读取 www 和 ftp上的数据
首先,我们定义了一个 getHtml()函数: urllib
urlopen()方法用于打开一个 URL 地址
read()方法用于读取 URL 上的数据,向 getHtml()函数传递一个网址,并把整个页面下载下来
执行程序就会把整个网页打印输出
二,筛选页面中想要的数据 Python 提供了非常强大的正则表达式,我们需要先要了解一点 python 正则表达式的知识才行
假如我们百度贴吧找到了几张美丽的壁纸,通过到前段查看工具
找到了图片的地址,如:src=”http://imgsrc
com/forum
jpg”pic_ext=”jpeg” 修改代码如下: import re import urllib def getHtml(url): page = urllib
urlopen(url) html = page
read() return html def getImg(html): reg = rsrc="(
jpg)" pic_ext imgre = re
compile(reg) imglist = re
findall(imgre,h