如何使用python爬取网页动态数据

我们在使用python爬取网页数据的时候，会遇到页面的数据是通过js脚本动态加载的情况，这时候我们就得模拟接口请求信息，根据接口返回结果来获取我们想要的数据。

以某电影网站为例：我们要获取到电影名称以及对应的评分

首先我们通过开发者模式，找到请求该页面的接口信息

另外，为了能模拟浏览器访问接口信息，我们需要获取到请求头部信息

获取到以上信息，我们就可以通过python的requests库来模拟访问接口啦

1、导入requests库

import requests

2、定义请求参数信息

url = "https://movie.douban.com/j/search_subjects"
header = {
          "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:82.0) Gecko/20100101 Firefox/82.0",
          }
param = {"type": "movie", "tag": "最新", "sort": "recommend", "page_limit": "20", "page_start": "0"}

3、获取请求的json对象

ret = requests.get(url, params=param, headers=header)
js = ret.json()
print(js)

4、根据翻页信息，我们知道"page_start"这个参数是每20递增一次的，可以通过定义变量使用for 循环来自动获取下一页信息，我们可以对以上代码进行优化。另外，为了防止请求过快，被当成恶意攻击，我们可以导入time模块，每次请求间隔2-3s

count = 0

for i in range(3):

　　param = {"type": "movie", "tag": "最新", "sort": "recommend", "page_limit": "20", "page_start": count}

　　time.sleep(random.uniform(2, 3))

　　ret = requests.get(url, params=param, headers=header)

　　js = ret.json()

　　for info in js["subjects"]:
　　　　rate, title = info["rate"], info["title"]
　　　　print(f"《{title}》的评分是：{rate}")

　　count += 20

这样我们就获取到想要的数据，不用挨个copy啦。我们可以把获取的数据写入到文件里永久保存，并进行整理。下次再分享

如何使用python爬取网页动态数据

如何使用python爬取网页动态数据的相关教程结束。

相关推荐

Linux系统怎么安装Python

利用python实现全屏爱心雨怎么实现

Python中如何使用requsets获取知乎最有价值的内容

如何利用python判断字母大小写

python在怎样进行函数文件处理

python的起源及语言特点是什么

热门推荐