Chrome|Python爬虫实例｜爬取动态生成的网页内容

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

前面分享过《初学者必备｜Python环境安装、第三方库的下载安装方法?》，今天分享一个Python爬取网页中动态生成的内容的方法。
关键词：爬取动态生成的网页内容

一、简单类型：网页内容可直接获取

这种情况相对比较简单，爬取步骤：
1、用urllib.request库直接获取网页源码
2、用re库解析出需要的网页内容
3、对解析出的内容进行相关操作，比如下载

实例：爬取某贴吧中的图片，下为贴吧的部分截图

获取网页源码的源码：网页代码较大，建议不要打印。

右键，查看网页源代码，找到图片的地址，用re的正则表达式解析所有的图片地址。

技巧：可以在图片上右键，复制图片地址

在网页源代码页面用Ctrl+F调出搜索窗口，粘贴地址就可以快速定位到图片的地址处。
通过对比发现，网页中的图片地址都有统一的前缀和统一的后缀，如下图：

这个时候就可以用正则表达式获取地址了，正则表达式相对比较复杂，初学者只需要理解二点就可以了， 1、（）内是要获取的内容，（）左边是内容的前缀，（）右边是内容的后缀。 2、.+？代表任意内容

最后一步，逐个下载获取的图片。

部分爬取结果：

源码：
import urllib.request

import re
url=\"http://tieba.baidu.com/p/2256306796\" #网址

page=urllib.request.urlopen(url) #获取网页

html=page.read() #获取网页源码

# 解析jpg图片url的正则表达式

jpgReg = re.compile(r'<img.+?src=https://mparticle.uc.cn/"(.+?\\.jpg)\" width')
# 注：这里最后加一个'width'是为了提高匹配精确度
# 解析出jpg的url列表