零基础三天学会Python爬虫(第一天)

一、Python-网络爬虫

1.网络爬虫是何物?

说到网络爬虫,然而它并不是一种爬虫~

而是一种可以在网上任意搜索的一个脚本程序。

有人说一定要解释网络爬虫到底是干什么用的。

尝试了很多种解释,最终归纳为一句话:

”你再也不必用鼠标一条一条的从网页上拷贝信息!“

一个爬虫程序将会高效并且准确的从网上拿到你希望得到的所有信息,省去下面的行为:


当然网络爬虫的真正意义不仅如此,由于它可以自动提取网页信息,使他成为了搜索引擎从万维网上下载网页的重要利器。

下面我们来介绍一下网络爬虫的正经定义:

网络爬虫 (又被称为网页蜘蛛,网络机器人,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取 万维网 信息的 程序 或者 脚本 。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者 蠕虫。

网络爬虫 (web Spider),Spider是蜘蛛的意思,实际上名字是很形象的,他们把 互联网 比喻成一个 蜘蛛网 ,那么所谓的这个spider就在网上爬来爬去。这个网络蜘蛛是通过网页的链接地址来寻找网页的。

蜘蛛的主要行径: 网页首页—>读取网页内容—>找到网页中其他的链接地址—>其他网页的

首页—>...

这样的循环下去,直到将这个网站上所有的网页都吃光(网页上所有的信息全部用蜘蛛得到)。

如果你敢把互联网比喻成一个网站,一定会有那么一个网络蜘蛛能够可以把 整个互联网 的资源全部吃光!!!

显而易见,网络爬虫的基本操作就是住区网页。网页地址就是一个叫URL的东西,那么我们就要简单的处理一下URL。

2.URL初步概念

我们先来介绍一下浏览网页的基本过程,比如我们在浏览器地址输入一个网址。整个过程大致会发生以下步骤

本地浏览器(客户端)--->请求--->传智服务器(服务端)

本地浏览器(客户端)<---文件数据<---传智服务器(服务端)

本地浏览器客户(客户端)进行解析文件数据并且展现。

那么实际上浏览器用的是一种叫html标记的语言来进行解析的。

html标记语言 :w3school 在线教程

ok,那么到底谁是URL呢,说了半天, 传智播客官网-好口碑IT培训机构,一样的教育,不一样的品质 它!就是URL!没错,就

是它!

我们给浏览器输入的地址,实际上就是一个url(Uniform Resource Locator) 统一资源定位符 。

就是 地址 啦,搞学术的人非得弄的很高端。

明明是高利贷,他们非得说成p2p,明明是算命的,他们非得说成分析师~

URL的一般格式是: protocol:// hostname[:port] / path / [;parameters][?query]#fragment

基本上是由三部分组成:

  1. 协议(HTTP呀,FTP呀~~等等)
  2. 主机的IP地址(或者域名)
  3. 请求主机资源的具体地址(目录,文件名等)

其中:

第一部分和第二部分用 “://” 分割

第二部分和第三部分用 “/” 分割

  1. 1://2/3 —–> http://www.itcast.cn/channel/teacher.shtml#ac )定位符

下面看几个URL例子:http://xianluomao.sinaapp.com/ga

其中

协议http,

计算机域名xianluomao.sinaapp.com,

请求目录game

http://help.qunar.com/list.ht 

其中协议http,

计算机域名help.qunar.com

文件list.html

网络爬虫的主要处理对象就是类似于以上的URL,爬虫根据URL地址取得所需要的文件内容,然后对它进一步的处理。

展开阅读全文

页面更新:2024-04-25

标签:爬虫   首页   蜘蛛   浏览器   地址   网页   文件   基础   程序   网络   信息

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top