爬虫实战(二)爬取Ajax数据

前言

我们这次主要实现对 Ajax 数据的爬取，网站链接为:https://spa1.scrape.center，该实例网站的数据是通过Ajax 完成的，页面的内容是通过JaveScrip渲染出来的，如下图所示：

我们这次爬取的数据包括电影的名称、封面、类别、上映日期、评分、剧情等信息。需要将数据爬取下来然后保存在 MongoDB 数据库中。

爬取过程

我们通过 requests 直接提取页面，在提取的结果中只有一点 HTML 内容，主要是一些 javascript和css文件，并没有观察到任何电影数据信息。遇到这种情况，说明我们看到的整个页面都是JavaScript渲染得到的，里面的电影数据一般是通过 Ajax 加载的，JavaScript在后台调用 Ajax 数据接口，得到数据之后，再对数据进行解析并渲染呈现出来。想要爬取这个页面数据，直接爬取 Ajax 接口，再获取数据就好了。

爬取列表页

我们分析列表页的 Ajax 接口逻辑，打开浏览器开发者工具，切换到 Network 面板，勾选 Preserve Log并切换到 XHR 选项卡，接着重新刷新页面，再点击第二页，这时可以观察到不仅页面上的数据发生了变化，开发者工具下方页监听到几个Ajax请求，如下图所示:

我们点开一个Ajax请求，其接口的请求

URL为: https://spa1.scrape.center/api/movie/?limit=10&offset=20，通过观察多个 Ajax 接口的参数，我们总结出这么一个规律，limit 一直为10，正好对应每页10条数据，offset 再依次变大，页数每加1，offset 就加10，因此其代表页面的数据偏移量。这样的话，我们只需要构造出所有页面的 Ajax 接口，就可以轻松获取所有页面的数据了。

我们先定义一个 scrape api 方法，这个方法用来实现对一个 Ajax 接口数据的获取，这是一个通用的方法，返回的内容为一个 JSON 字符串。

接着我们定义一个爬取列表页的方法:acrape index，它接收一个参数page，该参数代表列表页的页码。

这样我们就完成了列表页的爬取，每次发生 Ajax 请求都会得到 10 电影数据信息。

爬取详情页

虽然我们已经可以拿到每一页的电影数据,但是这项数据实际上还缺少一些我们想要的信息，如剧情简介等，所有需要进一步进入详情页来获取这些内容。以查看列表页同样的方法查看详情页调用的Ajax接口,可以发现详情页的接口URL为:

https://spa1.scrape.center/detail/40，后面的40为每部电影的id，接着，我们就定义一个详情页的爬取逻辑，定义一个scrape_detail 方法，它接收一个参数id，先构造一个真实的详情页 Ajax 请求的 URL，再直接调用 scrape api 方法传入这个url 即可。

保存数据

我们将数据保存在 MongoDB数据库中，具体代码如下:

最后定义一个总的调用方法main：

运行脚本,可以看到爬取成功,并成功存储数据,没有任何报错信息。

展开阅读全文

页面更新：2024-04-29

标签：数据爬虫实战接口定义参数页面方法内容列表电影信息

1 2 3 4 5

爬虫实战(二)爬取Ajax数据

前言

爬取过程

爬取列表页

爬取详情页

保存数据

优雅的不老女神-梅耶·马斯克

新规！房屋有贷款没还完也能“带押过户”，南宁、百色、贵港等市已推行

看人工智能如何改变建筑行业

孚能科技王瑀：碳酸锂价格有可能下降到10万元以下

有风声 ! 房地产税真的要来了?

方太、小米都入局，厨电新物种集成灶头部选手们下半场拼啥？

新能源汽车3月销量排行榜出炉！谁说失去补贴就没销量？

比亚迪3月销量再破20万辆，冠军版功不可没

三天逛展人次超7万各方点赞福州住房展销会

中长短三线副图讲解演示

神奇玻璃可智能调光变色太仓企业这款产品通过行业标准测试

共建医药健康生态圈推动中国医药高质量发展

湖南各市1-2月地方财政收入排名，株洲领先岳阳，郴州领先衡阳

中山和惠州，谁的发展潜力更大？

家乐福变小大卖场求生

这4种退烧方法，再着急也不能给娃用，严重可能导致肾衰竭！

大型SaaS系统的数据范围权限设计与实现！

两千字详解Java 8 中必知的4个函数式接口

象棋残棋怎么练习？掌握正确的方法，才能事半而功倍

工信部：将高质量建设大数据领域国家新型工业化产业示范

从“创客”到“闯客”，他立志用大数据帮助更多人

天玑9000VS骁龙7+Gen2，差距真就这么大，实测数据对比

Nature - 训练机器学习模型预测多组学数据并解析疾病

抽动症儿童的正确运动方式是什么?不同症状采取不同方

Qt框架从入门到项目：安装方法