手把手带你玩转HetuEngine：资源规划与数据源对接

本文分享自华为云社区《【手把手带你玩转HetuEngine】（三）HetuEngine资源规划-云社区-华为云》，作者： HetuEngine九级代言。

HetuEngine支持在服务层角色实例和计算实例两个维度进行资源规划，并且支持在高并发场景下通过启动多个计算实例进行负载分担和均衡，从而满足各种业务场景下的资源规划需求。

一、HetuEngine角色实例资源规划

HetuEngine能够通过服务层对计算实例进行服务化管理，服务层的角色实例包括HSBroker、HSConsole、HSFabric、QAS。

角色名	部署节点类型	推荐部署个数	关键GC参数默认值	功能
HSBroker	管理节点、控制节点	2	-Xms2G -Xmx2G	HetuEngine的服务管理，用作计算实例的资源管理校验，健康监控与自动维护等。
HSConsole	管理节点、控制节点	2	-Xms2G -Xmx2G	对外提供数据源信息管理，计算实例管理，自动化任务的查看等功能的可视化操作界面和RESTful接口。
HSFabric	管理节点、控制节点、数据节点	1（配置两个时支持高可用）	-Xms2G -Xmx2G	提供SQL统一访问入口及跨域（DC）高性能安全数据传输。
QAS	管理节点、控制节点	2	-Xms4G -Xmx4G	HetuEngine的自研模块，针对SQL执行历史记录提供自动感知、自动学习、自动诊断服务，提升在线SQL运维能力，自动加速在线SQL分析任务。

可以通过HetuEngine服务层配置对实例参数进行调整，如下图所示。

计算实例资源规划

HetuEngine的计算实例是一个运行在Yarn容器内的基于内存的计算引擎，它一般包含1~2个Coordinator和N个worker，其中Coordinator是管理节点，提供SQL接收、SQL解析、生成执行计划、执行计划优化、分派任务和资源调度等能力，如果需要计算实例支持高可用，必须部署两个Coordinator。Worker是工作节点，提供数据源数据并行拉取，分布式SQL计算等能力。从8.2.1版本开始，HetuEngine支持单租户多计算实例的形态。

Yarn的租户队列、HetuEngine计算实例、计算实例的Coordinator 和 Worker 之间的关系如下图所示：

Yarn资源池分配示意图（AM为Yarn的应用管理器）

HetuEngine支持在HSConsole界面对计算实例进行管理，并且能够对每个计算实例进行差异化配置，如下图所示

并且支持在创建计算实例的时候添加计算实例级别的自定义参数配置：

HetuEngine计算实例选型与内存配置建议

HetuEngine的计算实例作为SQL查询引擎，是一个纯内存的计算引擎。因此，从性能的角度考虑，需要给计算实例尽可能多的内存资源。

由于HetuEngine的计算实例是onYarn模式，Coordinator和Worker都是运行在Yarn的NodeManager节点上的。

coordinator & worker资源配置推荐

Coordinator建议部署的节点为2个，Worker按实际资源情况部署。

• Coordaintor和Worker的内存值配置要求为：

1. 要求yarn.scheduler.maximum-allocation-mb > coordaintor/worker容器内存 > JVM内存。

2. 建议yarn.scheduler.maximum-allocation-mb内存为节点物理内存的90%，coordaintor/worker容器内存比yarn.scheduler.maximum-allocation-mb，JVM内存为coordaintor/worker容器内存比大小的80%。

3. 建议一个节点启动一个conatiner的形式部署，避免产生内存碎片从未造成资源浪费。

4. coordaintor和worker+AM所用到的内存资源不能超出该租户的可使用最大内存资源。

• Coordaintor和Worker的CPU值配置要求为：

1. yarn.scheduler.maximum-allocation-vcores 大于coordaintor和worker的vcore。

2. 建议coordaintor和worker的vcore的值比yarn.scheduler.maximum-allocation-vcores的值少2~10个。

3. coordaintor和worker+AM所用到的core资源不能超出该租户的可使用最大core资源。

队列资源规划配置示例

计算实例规模估算

根据业务数据量大致估算计算实例worker的大小和数量

Yarn参数、计算实例内存配置

Yarn参数调整

调整yarn上container最大核数和最大内存相关参数以满足计算实例估算规模大小要求，在yarn服务级别进行修改

计算实例内存调整

HetuEngine的配置(建议CN和Worker配置保持一致)：
具体修改点如下图所示，在HSConsole页面，选择计算实例，点击"配置"，即可在弹出窗口按下图修改：

3. 高并发下多实例配置推荐

单HetuEngine计算实例的并发建议低于50，高并发场景下建议启动多个计算实例进行负载分担避免性能明显下降。HetuEngine支持两种方式启动多计算实例，一是单租户单实例的模式，二是单租户多实例的模式。

方式1：单租户单实例的部署模式。

可将资源分成多个资源池，每个租户独占一个资源池，每个租户启动一个计算实例的方式进行部署。例如将资源分成default、online、offline 3个资源池，分别给default、online、offline三个租户使用，每个租户启动一个计算实例，不同的业务将提交到不同的资源队列：

方式2：单租户多实例的部署模式。

320版本后，HetuEngine支持通过配置在单个租户内启动多个计算实例，如下图所示，不同的业务都提交到同一租户中的队列，HetuEngine能够自动实现单租户内的各个计算实例均衡负载。

二、HetuEngine数据源对接

HetuEngine能够支持跨源（多种数据源，如Hive，HBase，GaussDB(DWS)，Elasticsearch，ClickHouse等），跨域（多个地域或数据中心）的快速联合查询，尤其适用于Hadoop集群（FusionInsight MRS）的Hive、Hudi数据的交互式快速查询场景。本章将对HetuEngine的数据源对接能力与操作实践进行介绍。

数据源对接概述

当前HetuEngine数据源对接支持以下几种能力：

1.支持对接Hive、HBase、GaussDB(DWS)，Elasticsearch，ClickHouse、Hudi、IoTDB等多种数据源，并支持对接跨域HetuEngine

2.支持多种数据源的快速联合查询并提供可视化的数据源配置、管理页面，用户可通过HSConsole界面快速添加数据源，并进行差异化配置

3.数据源动态生效，无需重启计算实例

4.支持数据源下推

多数据源对接

当前版本HetuEngine支持对接的数据源如表1所示

表1 HetuEngine对接数据源一览表
HetuEngine模式	数据源	数据源模式	支持对接的数据源版本
安全模式	Hive	安全模式	MRS 3.x、FusionInsight 6.5.1
HBase	MRS 3.x
Elasticsearch	MRS 3.1.2及以后
HetuEngine	MRS 3.1.1及以后
GaussDB	GaussDB 200、GaussDB A 8.0.0及以后
Hudi	MRS 3.1.2及以后
ClickHouse	MRS 3.1.1及以后
IoTDB	MRS 3.2.0及以后
普通模式	Hive	普通模式	MRS 3.x、FusionInsight 6.5.1
HBase	MRS 3.x
Elasticsearch	MRS 3.1.2及以后
Hudi	MRS 3.1.2及以后
ClickHouse	MRS 3.1.1及以后
IoTDB	MRS 3.2.0及以后
GaussDB	安全模式	GaussDB 200、GaussDB A 8.0.0及以后

可视化数据源管理界面

HetuEngine能够支持多种数据源的快速联合查询并提供可视化的数据源配置、管理页面，用户可通过HSConsole界面快速添加数据源，并进行差异化配置。操作示例如下图所示

可以通过最下方“自定义配置”添加相应数据源的自定义配置

数据源动态生效

在HSConsole界面或者使用HSConsole Rest API对数据源的添加、配置、删除等操作支持动态生效，无须重启计算实例。

数据源动态生效时间默认为60秒。如需修改动态生效时间，在计算实例自定义配置添加如下参数，例如：

catalog.scanner-interval =120s

数据源计算下推

HetuEngine支持查询下推（pushdown），它能把查询，或者部分查询，下推到连接的数据源。这意味着特殊的谓词，聚合函数或者其它一些操作，可以被传递到底层数据库或者文件系统进行处理。查询下推能带来以下好处：

提升整体的查询性能。
减少HetuEngine和数据源之间的网络流量。
减少远端数据源的负载。

HetuEngine对查询下推的具体支持情况，依赖于具体的Connector，以及Connector相关的底层数据源或存储系统。

关注#华为云开发者联盟# 点击下方，第一时间了解华为云新鲜技术~

华为云博客_大数据博客_AI博客_云计算博客_开发者中心-华为云

展开阅读全文

页面更新：2024-03-17

标签：数据源华为租户资源手把手节点实例内存参数模式建议

1 2 3 4 5

手把手带你玩转HetuEngine：资源规划与数据源对接

一、HetuEngine角色实例资源规划

计算实例资源规划

HetuEngine计算实例选型与内存配置建议

coordinator & worker资源配置推荐

队列资源规划配置示例

计算实例规模估算

Yarn参数、计算实例内存配置

3. 高并发下多实例配置推荐

二、HetuEngine数据源对接

数据源对接概述

多数据源对接

可视化数据源管理界面

数据源动态生效

数据源计算下推

最强安卓智能表？OPPO Watch系列新品即将发布

用上了大模型的鸿蒙4，是我见过最有个性的一代

3D人脸识别安全更好用!萤石Y3000FVX 极光人脸视频锁双摄版体验

「原神枫丹攻略」传奇狩猎：8个传奇BOSS，10个隐藏成就

《伊苏X》试玩前瞻：「搭档模式」带来了前所未有的爽快体验

暗黑4经济系统崩盘，玩家豪掷300亿金买装备

DNF：进入“热搜榜”了！因大翅膀外观，玩家打困难团本被献祭

第一人称驾驶生存游戏《Pacific Drive》宣布跳票至2024年初发售

《博德之门3》Steam正式版销量曝光 2周售出270万套

无畏契约冠军赛：f0rsakeN精准四杀，PRX 2-1战胜LOUD

梦幻西游：175帮战女儿村，14+8硬件搭配，这才是封系香饽饽！

梦幻西游：天启组上演咒师阵容对决，谁才是阵容答案？

在《塞尔达传说：旷野之息》中，蒙眼通关需要多长时间？

“家长朋友圈炫耀花3万买公立幼儿园名额”，南昌当地通报

23张手绘插画，有了好的配色方案，简笔画也能很惊艳！

《伊苏X》试玩前瞻：「搭档模式」带来了前所未有的爽快

淄博烧烤的当下和未来：烧烤店多了千家，品牌输出采用直营

华为与中兴2023年上半年营收对比，我们需要华为也需要中

华为手机：不可忽视的nova系列，华为nova 12 Pro的惊艳亮

华为亮相第7届南博会展现助力数字云南建设新成果

国内首家透明仓模式的线下奢侈品二手寄卖空间，在闵行开

华为天才少年“稚晖君”再出发：发布人形机器人，成本将控

鸿蒙商标被抢先注册，华为上诉已失败，鸿蒙只有被迫改名一

华为HarmonyOS4来了，鸿蒙加速

浅谈华为手机的电池更换事宜