
文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

前面分享过《初学者必备|Python环境安装、第三方库的下载安装方法?》 , 今天分享一个Python爬取网页中动态生成的内容的方法 。
关键词:爬取动态生成的网页内容
一、简单类型:网页内容可直接获取
这种情况相对比较简单 , 爬取步骤:
1、用urllib.request库直接获取网页源码
2、用re库解析出需要的网页内容
3、对解析出的内容进行相关操作 , 比如下载
实例:爬取某贴吧中的图片 , 下为贴吧的部分截图
获取网页源码的源码:网页代码较大 , 建议不要打印 。
右键 , 查看网页源代码 , 找到图片的地址 , 用re的正则表达式解析所有的图片地址 。
技巧:可以在图片上右键 , 复制图片地址
在网页源代码页面用Ctrl+F调出搜索窗口 , 粘贴地址就可以快速定位到图片的地址处 。
通过对比发现 , 网页中的图片地址都有统一的前缀和统一的后缀 , 如下图:
这个时候就可以用正则表达式获取地址了 , 正则表达式相对比较复杂 , 初学者只需要 理解二点就可以了 , 1、()内是要获取的内容 , ()左边是内容的前缀 , ()右边是内容的后缀 。 2、.+?代表任意内容
最后一步 , 逐个下载获取的图片 。
部分爬取结果:
源码:
import urllib.request
import re
url=\"http://tieba.baidu.com/p/2256306796\" #网址
page=urllib.request.urlopen(url) #获取网页
html=page.read() #获取网页源码
# 解析jpg图片url的正则表达式
jpgReg = re.compile(r'<img.+?src=https://mparticle.uc.cn/"(.+?\\.jpg)\" width')
# 注:这里最后加一个'width'是为了提高匹配精确度
# 解析出jpg的url列表
- Python|十年质保、3400MB/S!279元买512GB NVMe高速固态硬盘
- 格力电器|不要再说Python难了,按照这个学习路线,四周速成Python
- Chrome|ROG游戏手机6规格泄露 首发骁龙8+ Gen 1配18GB LPDDR5内存
- Python|华为再造新车!问界M7揭下外企的遮羞布,余承东:超越百万豪车
- Python|OPPO A96可以升级ColorOS 12了,我看谁还说入门机只管生不管养?
- Python|什么是二级分销模式?分销商城小程序开发源码解析
- Python|iPhone手机哪里买比较靠谱?记住这五个渠道可避免上当受骗
- Chrome|2022旗舰投影仪|大眼橙X20入手体验
- Python|个个都是真品质,2000元左右换机,不要错过这三款手机!
- 谷歌Chrome浏览器103正式版发布
