快手一面：讲一讲 Hadoop、Hive、Spark 之间的关系？

5G 时代，运营商网络不断提速，成本越来越低，流量越来越便宜。

给互联网、物联网、互联网+ 各个行业的高速发展创造了非常好的有利条件，同时也产生了海量数据。

如何做好数据分析，计算，提取有价值信息，大数据技术一直是一个热门赛道

今天我们就对 Hadoop、Hive、Spark 做下分析对比

Hadoop

Hadoop 称为大数据技术的基石。

由两部分组成，分布式存储（HDFS）和分布式计算（MapReduce）

快手一面：讲一讲 Hadoop、Hive、Spark 之间的关系？

HDFS 有两个关键组件：

1、NameNode

负责分布式文件系统的元数据（MetaData）管理，如：文件路径名、数据块的 ID 以及存储位置等信息，相当于操作系统中文件分配表（FAT）的角色

2、DataNode

负责文件数据的存储和读写操作，HDFS 将文件数据分割成若干数据块（Block），每个 DataNode 存储一部分数据块，从而将一个大文件分割存储在整个 HDFS 集群中

HDFS的高可用设计：数据存储故障容错、磁盘故障容错、DataNode故障容错、NameNode故障容错

MapReduce 既是一个编程模型，又是一个计算框架。

包含 Map 和 Reduce 两个过程。

计算过程：

首先，将输入的内容转换为 < key ， Value > 健值对
将相同的 key 集中在一起，形成 < key，List >
最后，将 List 进行归约合并，输出零或多个 < key ， Value >

public void map(Object key, Text value, Context context)

public void reduce(Text key, Iterable values, Context context )

转换成代码落地，分别继承 Mapper 和 Reducer 两个类，然后实现里面的两个默认方法，完成业务逻辑。

所有的复杂的业务全部抽象成 Map 和 Reduce 这两个函数计算，当我们面对复杂的具体业务功能通过 Map 和 Reduce 的多次自由组合，从而实现业务逻辑。

当然，上面的程序在分布式系统中需要引擎调度，该计算框架也称为 MapReduce

所以，MapReduce 即是编程模型，MapReduce 代码程序，也是调度分布式计算的引擎框架。

亮点：

数据不出门，算法满天跑。每次任务计算，只需要将对应的任务分发到数据所在的服务器上。避免大数据传输的性能损耗。
引入 shuffle 机制，将不同服务器的中间计算结果，通过 Partitioner 用 Key 的哈希值对 Reduce 任务数取模，分组路由到 Reduce 服务器上，进行合并计算
框架自带调度引擎

不足：

每次 Map 任务的计算结果都会写入到本地文件系统，速度会慢些
如果实现复杂的业务逻辑，通过 Map -- Reduce 的多次自由组合，开发成本还是有些大。

Tom哥有话说：

Hadoop 作为大数据框架的鼻祖，在海量数据处理方面确实让我们眼前一亮。

但是完美总是需要持续打磨，Hadoop在处理速度、开发门槛等方面有很多不足。慢慢的随着达尔文进化论，市场上开始百花齐放，各种优秀的大数据框架陆续出现。

Hive

大数据时代，数据分析师岗位非常多，这帮人擅长通过 SQL 来进行数据分析和统计。

SQL 方式操控数据简单、直接，比起 MapReduce代码，大大降低了编程难度，提升了开发效率。

快手一面：讲一讲 Hadoop、Hive、Spark 之间的关系？

Hive 通过执行引擎 Driver 将数据表的信息记录在 Metastore 元数据组件中（包含表名、字段名、字段类型、关联的HDFS文件路径）

运行过程：

通过 Hive 的命令行工具或 JDBC，提交 SQL 语句
Driver 将语句提交给编译器，进行 SQL解析、语法分析、语法优化等一系列操作，生成函数的 DAG（有向无环图）
根据执行计划，生成一个 MapReduce 任务作业
最后，提交给 Hadoop MapReduce 计算框架处理

快手一面：讲一讲 Hadoop、Hive、Spark 之间的关系？

Tom哥有话说：

Hive 可以直白理解为 Hadoop 的 API 包装，采用 SQL 语法实现业务，底层依然 Map Reduce 引擎来执行，但是转换逻辑被 Hive 作为通用模块实现掉了。

我们发现 Hive 本质上并没有什么技术创新，只是将数据库和 MapReduce 两者有效结合，但是却给上层的程序员提供了极大的开发便利。

虽然，在性能方面没有质的飞跃，但是由于开发门槛大大降低，在离线批处理占有非常大市场。

Spark

无论是 MapReduce 还是 Hive 在执行速度上其实是很慢的，但是没有比较就没有伤害，直到 Spark 框架的横空出现，人们的意识也发生了重大改变。

快手一面：讲一讲 Hadoop、Hive、Spark 之间的关系？

Spark 将大数据集合抽象成一个 RDD 对象，然后提供了转换、动作两大类算子函数，对RDD进行处理，并得到一个新的 RDD，然后继续后续迭代计算，像 Stream 流一样依次执行，直到任务结束。内部也是采用分片处理，每个分片都会分配一个执行线程。

传统的面向对象编程思路：

将一个数据集合作为入参传递给一个函数方法，经过运算，返回一个新的数据集合。然后将这个新的数据集合作为入参传递给下一个函数方法，直到最后计算完成，输出结果。

如果这个数据集有 1亿条，总共两次函数运算，每一个函数运算，都要遍历1亿次，那么总的时间复杂度是 2亿次。

函数式编程思路：

将数据集合转换成流，每个元素依次经过上面两个函数处理，最后得到一个新的结果集合。整个流程只需要遍历一趟，那么总的时间复杂度是 1亿次。

面对海量的数据以及较多的算子组合运算，这种性能累计提升还是非常明显的。

Spark 的一些亮点：

引入惰性计算，只有当开发者调用了 Actions 算子，之前的转换算子才会执行。
以 shuffle 为边界，将 DAG 切分多个阶段，一个阶段里的多个算子（如：textFile、flatMap、map）可以合并成一个任务，然后采用上面的函数编程思想处理数据分片
使用内存存储中间计算结果

快手一面：讲一讲 Hadoop、Hive、Spark 之间的关系？

借助这些亮点优化，Spark 比 MapReduce 运行速度快很多。上图是逻辑回归机器学习算法的运行时间比较，Spark 比 MapReduce 快 100 多倍

当然Spark 为了保留 Hive 的SQL优势，也推出了 Spark SQL，将 SQL 语句解析成 Spark 的执行计划，在 Spark 上执行。

Tom哥有话说：

Spark 像个孙猴子一样横空出世，也是有先天条件的。Hadoop 早期受内存容量和成本制约很大，但随着科技进步，到了Spark时期内存条件已经具备，架构思路也可以直接按照内存的玩法标准来设计。

有时候就是这样，赶上一个好时候，猪都能飞上天。要想成功，天时地利人和，缺一不可。

来源：https://mp.weixin.qq.com/s/B18HwyMHx-91_5ZyT4KXDQ

展开阅读全文

页面更新：2024-05-10

标签：组合快手算子分布式函数框架逻辑关系业务引擎文件数据

荣耀70系列官宣搭载天玑9000芯片，性能拉满，影像与性能大提升

荣耀70系列官宣5月30日发布，近日该机也在不断预热中，今天直接公布了荣耀70系列将会搭载定位高端旗舰的天玑9000芯片，性能直接拉满，此前在荣耀50系列、60系列性能的短板被弥补。天玑9000芯片是一款可以与骁龙8 Gen 1处理器

无缘全球500强，股价腰斩，陆金所难挽颓势

近日，美国证券交易委员会（SEC）再将11家中概股列入“预摘牌名单”，其中陆金所赫然在列。自上市以来至今，陆金所的股价已然腰斩，市值蒸发近600亿。同时，作为行业“标杆生”的陆金所也无缘2021“胡润世界500强”，颓势初显。陆金

你的 iPhone Pro 有激光雷达：你可以用它做 7 件很酷的事情

一些高端iPhone和iPad型号在设备背面的摄像头模块中集成了LiDAR扫描仪。这有效地为您的设备提供了一些独特而有趣的应用程序的 3D 扫描能力。激光雷达扫描仪有什么作用？LiDAR代表 Light D etection A nd Ranging ，但通

在澳大利亚发现的金字塔形状的古墓

你去过埃及金字塔吗?你知道埃及和南美洲不是唯一能看到金字塔的地方吗?如今，在波斯尼亚和克里米亚也发现了类似的设计。但谁会想到澳大利亚会有金字塔呢?它们确实存在——这些土丘过去被认为是自然物体，但现在研究人

晨起后喝一杯温水，等于喝细菌？很多人不明白，医生告诉你答案

水是人体中不可或缺的重要成分。正常成年人，体内大约有65%~73%的物质都是由水构成，除了供我们熟悉的血液之外，各组织各间隙之间的体液和积液其中也含有大量的水。人体一旦缺水，后果是很严重的。缺水1%-2%，感到渴；缺水5%，口干

人睡三觉，命比纸薄！这3种觉伤肝伤胃、越睡越短命

睡觉是每个人必须的一种生理需求，因为睡眠是一种人体生长的营养素，和运动饮食一样，是保证机体生长发育的必需品。如果没有良好的的睡眠，机体的能量积蓄、大脑功能的保护、机体的免疫，还有抗病能力都会受到伤害。每次我们一

晨吃一个水煮鸡蛋，几个月后会有什么变化？建议：肝不好的看看

作为生活当中最常见的食物——鸡蛋，征服了每个人的餐桌，鸡蛋的吃法多样，营养丰富，可谓是老少皆宜。一颗鸡蛋从头补到脚。鸡蛋富含优质蛋白质、脂肪、卵磷脂、多种维生素和铁、钙、钾等人体所需要的多种矿物质。鸡蛋是一种

最高级的养生，不是睡觉，不是锻炼，就一个字！

古语有云：“夫少者，多之所贵也。”意思是说，凡事以少为贵，少才能得到更多。杨绛也曾说：“简朴的生活、高贵的灵魂，是人生的至高境界。”大道至简，以简驭繁。多不如少，少的力量，让生活更有质量。少，是一个人最好的活法，也是最高级

身上有4个“长寿窝”！每天按一按，通经络、调气血、养心肺，早学早受益

很多爱美的女性都追求漂亮性感的“腰窝”，而注重养生的人则喜欢按摩身体的各种“窝”——眼窝、肘窝、腋窝……这样不仅能帮助缓解某些身体不适症状，还能起到保健强身的功效。1眼窝——安神明目现代人过于依赖电子产品，

你是“招蚊体质”吗？原来蚊子爱叮这5类人，希望你不在其中

“琪琪，你是什么血型啊？”“琪琪，你是什么血型啊？”“我是B型血，怎么啦？”“我听说B型血的人最爱招蚊子，马上就要到夏天了，你一定要小心，别被咬成马蜂窝。”夏天就要到了，蚊子又开始嗡嗡地乱飞，对于大多数人来说，夏天都是一个比较

今年最具破坏力小行星将于27日与地球“擦肩而过”

科技日报记者刘霞据美国趣味科学网站22日报道，据美国国家航空航天局（NASA）近地天体研究中心（CNEOS）称，一颗名为7335（1989 JA）的小行星将于5月27日与地球“擦肩而过”。它将是今年接近地球的小行星中最大也是最具破坏力的。小

全球首款i9 Evo认证笔记本电脑MateBook 16s i9版本亮相华为新品发布会

自今年4月官宣全面进军商用领域，并将“消费者业务”更名为“终端业务”后，华为加码在终端业务板块上的产品发布速度。5月23日晚间，华为召开MateBook系列新品发布会，推出全球首款i9 Evo认证笔记本电脑华为MateBook 16s i9

要想手机可以用五年不换，建议一步到位，目前这三款手机满足需求

要想手机可以用五年不换，建议一步到位，目前这三款手机满足需求第一款：iPhone13iPhone目前最新款手机，搭载A15处理器，在安卓手机芯片集体摆烂的情况下，A15强大的能耗比有着绝对性的优势，领先安卓近两代，对比上一代A14来说提升

自研芯片下放，中企正式官宣，美没料到，断供苦果来得这么快

美国对华为等中企的制裁无疑是把双刃剑，虽然它暂时阻碍了高科技中企的发展，但美企在无法自由出货的情况下，销量也会减少。更关键的是，从长远来看，这让我国市场彻底认清了掌握核心技术的重要性，在摒弃“买办”观念的同时，加

王成录的离开，会对华为鸿蒙造成什么影响？

王成录的离开，会对华为鸿蒙造成什么影响？华为在近几年的时间里，很好地诠释了什么叫“越是打压越成长”，迄今为止接连在通讯、芯片、系统等等领域，创造了属于中国科技的奇迹，鸿蒙系统、麒麟芯片、5G技术的诞生，也直接打破了欧

上滑加载更多 ↓

推荐阅读：

快手辟谣

董事长被带走调查？快手回应，已报案

数字化转型中的数据治理体系建设

1-4月浙江省电信业务收入、总量同比分别增长12.7%和24

河南四家村镇银行通过第三方机构兑付存款？官方：文件系伪

爱彼迎回应将关闭中国短租业务房东：对民宿从业者是毁

詹皇37062分现役得分王！那其他4项数据王是谁？魔兽前期积

神U天玑8100+顶级LCD屏组合，Redmi Note11T Pro首销特惠

楼市风向：房贷利率迎史上最大降幅！这次终于跟你有关系了

快手董事长宿华回应“被带走配合调查”：不信谣不传谣

友情链接：

更多：

本站资料均由网友自行发布提供，仅用于学习交流。如有版权问题，请与我联系，QQ：4156828

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top