
文章图片

接下来我们会通过几篇文章整理并总结有关于python爬虫的相关知识 , 主要包括爬取网页、解析数据以及异步爬取的方法等内容 。
1.在用Python爬取数据的时候 , 我们通常用什么来爬取数据?
通常相对简单的爬取数据的方法是通过requests模块进行的 。
2.requests模块怎么用?
我们在进行爬取数据之前 , 需要先通过pycharm来安装requests模块 。
第一步 , 导入requests模块:
import requests
第二步 , 获取requests所需要的参数:
① url 。 需要爬取的网页地址
②get或者post请求 。 可以通过所需爬取的网页中的headers中的Request Method进行判断 。
③是否带有参数 。 我们同样通过所爬取的网址或者headers中是否携带参数 。
④UA伪装 。 通过headers中-User-Agent获取 。
⑤获取响应数据 。
第三步 , 爬取数据 。
以爬取豆瓣电影 Top 250该网页为例 , 我们要爬取该网页的数据 , 首先进行几个简单的参数获取:
url地址很容易获取到 , 通过查看Request Method , 我们知道该网页发送的是get请求;获取的响应类型是文本类型 , 因此代码书写如下:
import requests
url='https://movie.douban.com/top250'
headers={
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML like Gecko) Chrome/94.0.4606.81 Safari/537.36'
response=requests.get(url=urlheaders=headers).text
print(response)
【Python|Python爬虫知识梳理大全(一)!】
- 土星环比恐龙还要年轻?这些宇宙冷知识很少有人知道
- excel|pandas读取Excel知识点合集来了!赶紧进来看看!
- Python|十年质保、3400MB/S!279元买512GB NVMe高速固态硬盘
- 格力电器|不要再说Python难了,按照这个学习路线,四周速成Python
- 自媒体|做自媒体,日入3K,必备的几个知识点,小白一定要懂
- Python|华为再造新车!问界M7揭下外企的遮羞布,余承东:超越百万豪车
- Python|OPPO A96可以升级ColorOS 12了,我看谁还说入门机只管生不管养?
- 开源软件|广州蓝景技术分享 — 前端新手入门必学知识
- Python|什么是二级分销模式?分销商城小程序开发源码解析
- |怪不得你的手机会越用越卡,原来是这个开关没关闭,涨知识了
