吴永明:企业数据治理痛点与阿里巴巴数据治理方案

导读:随着大数据的深入发展,数据越来越成为公司的重要资产,但围绕数据流的全链路管理工作细致且技术复杂,数据的治理越来越成为DT时代数据资产化、价值化的关键核心,该如何成体系地构建数据治理框架?今天将介绍阿里巴巴在数据治理上的一些实践和总结。主要包括以下两方面内容:


01

数据治理概念和需求层次

1. 数据治理的理论参考

数据以及数据领域经过多年的发展,行业已经沉淀了较为完善的理论体系,比如数据管理协会DAMA推出的数据十大职能领域、DCMM推出的数据管理能力成熟度评估,以及国内信通院推出的数据资产管理实践白皮书。这些指导标准,不但有利于产业发展的高度,同时也使得行业朝着更加规范、健康的方向发展。

吴永明:企业数据治理痛点与阿里巴巴数据治理方案

国际上的标准更加侧重于对完整的数据生命周期进行管理,而国内则更加注重从组织、制度、流程、技能角度,对数据进行不同视角下的解读和处理。

2. 数据治理的概念和需求层次

吴永明:企业数据治理痛点与阿里巴巴数据治理方案

在数据的管理过程中,要保证一个组织已经将数据转换成有用的信息,在这个过程中所需要的流程、工具就是数据治理的主要内容。

随着数据行业的发展,数据治理的内涵也逐步泛化,涵盖了更多的方面和层次,比如数据发现可用,数据及时稳定产出,数据质量保障,数据安全合规,数据生产的经济性等。对于企业的不同发展阶段,数据治理的需求也存在着差异。

--

02

企业数据治理痛点、阿里巴巴数据治理实践

1. 企业数据治理的典型痛点

随着国家数字化政策的引导和推动,企业越来越重视数据,但企业的数据治理成效方面依然进展缓慢,数据问题依旧存在,其中缺少系统化的工具平台支撑治理落地和效果展现是关键原因之一。

治理中的痛点有很多,往往是由于认识不足导致的,尤其是思维方式。信息技术的飞速发展,使得信息的架构已经从传统基于需求的IT架构发展为基于数据的DT架构,思维方式也需要相应地升级到围绕数据资产化、数据价值释放为核心的新模式。

2. 阿里巴巴数据治理新模式

吴永明:企业数据治理痛点与阿里巴巴数据治理方案

不同模式下思考和解决问题的方式存在着很大的区别,模式的改变主要包括以下三个方面:

基于DT架构的思维模式,结合数据发展的阶段不同,阿里巴巴形成了一套自己的数据治理模式:

吴永明:企业数据治理痛点与阿里巴巴数据治理方案

① 数据稳定性

阿里巴巴每天有千万级大数据计算任务产生海量数据,千万级任务的调度情况下,调度依赖关系复杂程度远超过人工处理程度,阿里推出了智能基线监控机制确保高优先任务高保障产出。

吴永明:企业数据治理痛点与阿里巴巴数据治理方案

② 数据质量治理

吴永明:企业数据治理痛点与阿里巴巴数据治理方案

数据质量直接影响数据价值和加工效率,高质量的数据对完整性、有效性、准确性、唯一性、一致性、合理性等特性有很高的要求。阿里巴巴将这些特性封装成灵活的规则,然后将规则应用到具体的任务,通过调度平台,进行规则巡检和规则执行,并对有问题的任务进行告警或者阻塞处理。其关键特点如下:

③ 数据规范治理

吴永明:企业数据治理痛点与阿里巴巴数据治理方案

数据在实现层面以表为单位进行,阿里巴巴围绕数据生产使用全生命周期,在指标体系设计、数据模型设计、数据处理任务开发、数据服务开放等环节的每个关键阶段都设计具体标准、流程及规范,同时抽象核心公共层,进行强管控:架构评审,发布管控,建设评估,持续改进。而对核心以外的部分,采取轻约束的方式推进。

④ 数据标准管理

数据的标准,主要是落实到开发层面的具体规范约束,比如制定各类数据实体(元素、码表、模型分层、模型等)的设计约束,规范每类业务实体包含的属性,属性是否必须,属性内容约束等规则。

具体如图所示:

吴永明:企业数据治理痛点与阿里巴巴数据治理方案

⑤ 数据安全治理

随着数据安全问题频发,人们对数据的安全意识越来越强烈,数据安全治理也越来越关键。阿里巴巴通过基础的数据分级、权限控制来达到规范安全使用数据的目的,并通过敏感数据发现与脱敏,与第三方协作时构建可信计算环境(即联邦建模),以及数据的风险审计来搭建数据安全的完整体系。

其中对数据的分类,面向阿里庞大的数据体量,使用人工的方式很不现实,阿里自建了一套自动的数据打标工具,集合人工调整的方式,更合理地管理数据的分类分级体系。

⑥ 数据成本治理

吴永明:企业数据治理痛点与阿里巴巴数据治理方案

通过设立组织大的成本目标,然后通过培养个人的成本意识,在数据的计算与存储、治理与运营层面建立具体目标去细化和落地,来推进数据治理方面的成本管理。比如阿里巴巴2020年成本治理的目标:数据成本增速不能超过业务增速。

3. 阿里巴巴数据治理的成功关键

吴永明:企业数据治理痛点与阿里巴巴数据治理方案

数据治理是一个非常庞大且细致的工作,阿里数据治理方面的成功主要源于上图三个方面。

DT时代的核心思维就是数据的资产化,阿里将数据的资产化以及围绕数据资产的价值的挖掘作为治理的核心目标。

从自上而下来看,站在全公司的高度来顶层设计,着手解决数据的管理问题,提供足够的授权和支持。

从下而上来看,通过构建强大的技术平台支撑和完善的运营体系两个方面促进治理的切实落地。

阿里构建了以数据管理团队负责人、业务线数据负责人、数据平台负责人为核心的虚拟数据治理小组,从组织上划分清洗数据治理的权责边界, 并且从管理办法、管理流程、技术规范及模板等建立起完整的数据治理制度保障。

吴永明:企业数据治理痛点与阿里巴巴数据治理方案

强大的平台能力支撑是治理落地的核心保障,技术的创新和演进是数据治理落地的坚实基础。阿里自研了DataWorks和MaxCompute两个平台,支撑全司的数据治理落地。

DataWorks:阿里自研的一站式大数据开发和治理平台,各类存储和计算引擎的上层操作系统,提供数据集成、数据开发、数据地图、数据质量、数据安全和数据服务等全方位的产品服务,帮助企业专注于数据价值的挖掘和探索。

MaxCompute:自研、全托管、EB级大数据存储和计算引擎,阿里自研的安全可靠、高效能、低成本、从GB到EB级别按需弹性伸缩的在线大数据计算服务,致力于海量结构化、半结构化数据的存储和计算服务,提供数据仓库的解决方案及分析建模服。

组织、制度、平台有了之后,推动数据治理落地最后一公里的治理运营是成功的关键因素。阿里巴巴构建了量化的治理的评价体系(健康分)、日常治理运营推送和专项整治活动密切结合。

吴永明:企业数据治理痛点与阿里巴巴数据治理方案

构建量化的数据治理评价体系,日常治理运营和专项整治相结合,促进治理工作持续落地改进。

今天的分享就到这里,谢谢大家。


分享嘉宾:吴永明 阿里云 高级技术专家

编辑整理:Taylor 东南数据实验室

出品平台:DataFunTalk


分享嘉宾:

吴永明:企业数据治理痛点与阿里巴巴数据治理方案


活动推荐:

吴永明:企业数据治理痛点与阿里巴巴数据治理方案


关于我们:

DataFun:专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章700+,百万+阅读,14万+精准粉丝。


欢迎转载分享评论,转载请私信。

展开阅读全文

页面更新:2024-05-18

标签:阿里巴巴   数据   阿里   企业   规则   核心   资产   需求   价值   方案   平台   吴永明

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top