Python-网络爬虫

这一节介绍webbrowser模块浏览网页

import webbrowser

python提供webbrowser模块,可以调用这个模块的open()方法打开指定网页!

Python——网络爬虫

下载网页信息使用requests模块

requests模块属于第三方模块,因此需要安装此模块才可以使用:

pip install requests

requests.get()方法内需放置欲下载网页信息的网址当参数,这个方法可以传回网页的HTML源文件。

Python——网络爬虫

由上述可知requests.get()方法传回的数据类型是Response对象!!!!!那什么是Response对象呢??

Response对象

Response对象有几个重要属性:

status_code如果值是requests.codes.ok,表示获得的网页内容成功。

Python——网络爬虫

text:网页内容。

Python——网络爬虫

Python——网络爬虫

下载网页失败的异常处理

有些网页由反爬虫机制,会造成网页下载失败。使用抛出异常可以处理类似问题。Response对象有raise_for_status()方法,可以针对网址正确但是后续文件名错误的状况产生异常处理。也可以预防错误网址!!!

Python——网络爬虫

展开阅读全文

页面更新:2024-05-14

标签:爬虫   模块   异常   对象   错误   网址   网页   方法   内容   信息   网络

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top