零基础三天学会Python爬虫（第一天）

一、Python-网络爬虫

1.网络爬虫是何物？

说到网络爬虫，然而它并不是一种爬虫~

而是一种可以在网上任意搜索的一个脚本程序。

有人说一定要解释网络爬虫到底是干什么用的。

尝试了很多种解释，最终归纳为一句话：

”你再也不必用鼠标一条一条的从网页上拷贝信息！“

一个爬虫程序将会高效并且准确的从网上拿到你希望得到的所有信息，省去下面的行为：

当然网络爬虫的真正意义不仅如此，由于它可以自动提取网页信息，使他成为了搜索引擎从万维网上下载网页的重要利器。

下面我们来介绍一下网络爬虫的正经定义：

网络爬虫（又被称为网页蜘蛛，网络机器人，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

网络爬虫 (web Spider)，Spider是蜘蛛的意思，实际上名字是很形象的，他们把互联网比喻成一个蜘蛛网，那么所谓的这个spider就在网上爬来爬去。这个网络蜘蛛是通过网页的链接地址来寻找网页的。

蜘蛛的主要行径：网页首页—>读取网页内容—>找到网页中其他的链接地址—>其他网页的

首页—>...

这样的循环下去，直到将这个网站上所有的网页都吃光（网页上所有的信息全部用蜘蛛得到）。

如果你敢把互联网比喻成一个网站，一定会有那么一个网络蜘蛛能够可以把整个互联网 的资源全部吃光！！！

显而易见，网络爬虫的基本操作就是住区网页。网页地址就是一个叫URL的东西，那么我们就要简单的处理一下URL。

2.URL初步概念

我们先来介绍一下浏览网页的基本过程，比如我们在浏览器地址输入一个网址。整个过程大致会发生以下步骤

本地浏览器（客户端）--->请求--->传智服务器（服务端）

本地浏览器（客户端）<---文件数据<---传智服务器（服务端）

本地浏览器客户（客户端）进行解析文件数据并且展现。

那么实际上浏览器用的是一种叫html标记的语言来进行解析的。

html标记语言：w3school 在线教程

ok，那么到底谁是URL呢，说了半天，传智播客官网-好口碑IT培训机构,一样的教育,不一样的品质它！就是URL！没错，就

是它！

我们给浏览器输入的地址，实际上就是一个url(Uniform Resource Locator) 统一资源定位符。

就是地址啦，搞学术的人非得弄的很高端。

明明是高利贷，他们非得说成p2p，明明是算命的，他们非得说成分析师~

URL的一般格式是： protocol:// hostname[:port] / path / [;parameters][?query]#fragment

基本上是由三部分组成：

协议(HTTP呀，FTP呀~~等等)
主机的IP地址(或者域名)
请求主机资源的具体地址（目录，文件名等）

其中:

第一部分和第二部分用 “://” 分割

第二部分和第三部分用 “/” 分割

1://2/3 —–> http://www.itcast.cn/channel/teacher.shtml#ac )定位符

下面看几个URL例子：http://xianluomao.sinaapp.com/ga

其中

协议http，

计算机域名xianluomao.sinaapp.com,

请求目录game

http://help.qunar.com/list.ht

其中协议http，

计算机域名help.qunar.com

文件list.html

网络爬虫的主要处理对象就是类似于以上的URL，爬虫根据URL地址取得所需要的文件内容，然后对它进一步的处理。

展开阅读全文

页面更新：2024-04-25

标签：爬虫首页蜘蛛浏览器地址网页文件基础程序网络信息

1 2 3 4 5

视频会员涨价又减配，这几个正版平台免费又好用

从去年底到现在，视频平台的会员制度多次被用户骂上热搜，会员费涨价、限制投屏、缩减登录设备等，种种行为都让消费者苦不堪言。即便如此，视频平台并没有因此收敛，反而是变本加厉。近日，爱奇艺又单方面下线了一项会员服务：此前

DXOMARK给出全球手机拍照排名，华为第一，苹果仅排名第四

DXOMARK对华为 Mate 50 Pro 进行了严格的 DXOMARK Camera 测试，以从最终用户的角度衡量其在照片、视频和缩放质量方面的性能。主要相机规格：主要：50MP 传感器，带 f/1.4 – f/4.0 可调光圈的 24mm 等效镜头，OIS超广角：13MP

调查｜超时收费，使用不便！智能快递柜如何走完最后一百米

赢利较低、使用率降低、服务不到位……智能快递柜能走完最后一百米吗？曾红极一时的智能快递柜遭遇冷落，诸多的不便，不但成了快递员和消费者眼中的“鸡肋”，使用率下滑，也让供应商难以维系高成本的投入，“撤柜”已悄然开始…

开门红，比亚迪又一次火遍欧洲！

如果说这个世界上的最亮眼新能源汽车龙头是谁？那么特斯拉和比亚迪无疑是最受关注的厂商。即便是特斯拉，在面对比亚迪的时候也不得不认真对待。早年间，马斯克对比亚迪的公开嘲讽，也在被比亚迪销量反超之后打脸。到了2023

地下工程电渗透防渗防潮技术理论研究

21世纪被普遍认为是人类开发和利用“地下空间”的世纪。然而，地下水渗漏、空间潮湿却是地下工程使用和维护管理过程中不可避免的难题，潮湿锈蚀混凝土钢筋、腐蚀机器设备、恶化空气质量等。目前，主要防水防漏技术有防水混

地球往事

50亿年前地球在宇宙诞生，奠定了地球产生的物质基础。地球作为一个行星起源于46亿年前的原始太阳星云。专家认为早期大陆分布于地球两极，后经大陆的漂移，撞击，分裂形成大洋和现今的各大陆。化石记载地球上最早在大约35亿年

工业互联网工程技术人员新职业培训教程正式出版

近日，由中国工业互联网研究院牵头组织编写的工业互联网工程技术人员新职业初级和基础知识培训教程已完成，由中国人事出版社出版发行。本教程是人社部专业技术人才数字技术工程师培训指定教程。2021年10月，人社部印发《专

中美德2022年GDP报：美国破25万亿美元，德国保4万亿，中国呢？

回顾2022年，可谓是不平凡的一年，俄乌局势升级、美国加息、全球通胀、中国防疫措施调整等，都深刻影响着全球经济走势。那么在过去的2022年，主要国家都取得了怎样一份成绩单？截至目前，已经有中国、美国和德国公布年度数据，接下

阿里巴巴辟谣新加坡建全球总部，杭州总部项目进入收官阶段

近日，位于杭州市余杭区未来科技城的阿里巴巴杭州全球总部项目正式进入收官阶段，将于2023年底全面建成并投入使用。阿里巴巴办公地：阿里西溪园区A区据了解，2013年阿里将全球总部落户到杭州余杭区未来科技城，并逐步启动西溪

互联网之父柳传志和联想不得不说的事

.1984年1月，柳传志与好友陈绍鹏一起在北京中关村创办了联想电脑公司，成为中国最早的电脑代工厂.1991年的“中国经济体制改革的一声惊雷”使联想电脑在1991年第一次获得了成功。当时，国内市场上使用的大多数计算机都是从

在宇宙中心创业的年轻人｜凤凰聚焦

Part1公元前1700年，商汤都城就建立在今天山东省曹县境内。这里诞生了元圣伊尹，道圣庄周，兵圣吴起，农圣范胜之等多位历史名人。曹县是农业大县，过去人们世代以种植小麦、玉米为主要收入来源。如今，借助农村互联网的发展，依靠

快讯！腾讯与西山居合开游戏公司拟注销

中国经济周刊-经济网讯天眼查App显示，近日，武汉西腾科技有限公司新增简易注销公告，公告期自1月14日至2月2日。该公司成立于2018年6月，法定代表人为吉征，注册资本6000万元人民币，经营范围含计算机软件的开发、批发兼零售；计

风险投资，国家兴衰的支柱：《风险投资史》读后感（下）

四、政府是现代市场经济的一部分关于政府应该在风险投资行业发展中应该扮演怎样角色的话题其实是经济学中老生常谈的话题，其核心就是在现代社会，政府究竟如何定位。对此，大体来说有三类观点，分别代表左、中、右。极右的奥

2022年四季度华为手机销量同比增15% 预测称国内市场今年第二季度有望恢复

读创/深圳商报记者陈姝近日，Counterpoint Research发布了2022年第四季度中国智能手机市场的销量数据。根据报告显示，在消费者需求减弱、收入预期降低等多重不利因素影响下，大多数品牌销量都出现了不同程度的下滑。华为

上滑加载更多 ↓

零基础三天学会Python爬虫（第一天）

一、Python-网络爬虫

视频会员涨价又减配，这几个正版平台免费又好用

DXOMARK给出全球手机拍照排名，华为第一，苹果仅排名第四

调查｜超时收费，使用不便！智能快递柜如何走完最后一百米

开门红，比亚迪又一次火遍欧洲！

地下工程电渗透防渗防潮技术理论研究

地球往事

工业互联网工程技术人员新职业培训教程正式出版

最新！2022全球医疗器械企业TOP10，挑战者逆袭

中美德2022年GDP报：美国破25万亿美元，德国保4万亿，中国呢？

阿里巴巴辟谣新加坡建全球总部，杭州总部项目进入收官阶段

互联网之父柳传志和联想不得不说的事

在宇宙中心创业的年轻人｜凤凰聚焦

快讯！腾讯与西山居合开游戏公司拟注销

风险投资，国家兴衰的支柱：《风险投资史》读后感（下）

2022年四季度华为手机销量同比增15% 预测称国内市场今年第二季度有望恢复

摩根：C罗和我发信息说很喜欢沙特；挑战新联赛让他胜过梅

Olivia Culpo 在 NFC 冠军失利后向男友 Christian McC

滴滴程序员被亲戚鄙视：年薪八十万不如二本教书的

「基础科研」丁肇中与高能物理界的牛屎文化

私有ip地址是怎么分配的？

网络安全之Springboot heapdump信息泄露复现

网络舆情监测要从客户需求点出发有所侧重

微信小程序加价抢票始终显示“正在占座中” 火车乘客

谷歌裁员细节曝光：开源主管被裁，61岁程序员在线求职

邮报：切尔西声称是计算机故障导致齐耶赫转会文件未传送