数据的“敏捷制造”,DataWorks一站式数据开发治理范式演进

发布时间:2022年05月14日
       企业大数据技能开展至今, 历经了两次蜕变。第一次蜕变从开始的“小作坊”处理大数据问题, 到后来企业用各类大数据技能搭建起归于自己的“大渠道”, 经过渠道化的才能完结数据生产力的晋级。第2次蜕变让大数据从“大渠道”向“灵敏制作”的开发范式演进。在2021阿里云峰会上, 阿里巴巴集团副总裁、阿里云智能核算渠道事业部高档研究员贾扬清发布根据DataWorks的一站式大数据开发办理的渠道, 便是这个蜕变最好的佐证。
       值得一提的是, 诞生于2009年阿里巴巴集团内部的DataWorks, 不只见证了阿里巴巴十多年大数据几回蜕变开展, 更是阿里巴巴数据中台建造的最佳实践之一。现在DataWorks渠道可以支撑阿里巴巴内部上百个事务团队的数据事务建造, 每天安稳调度上千万数据处理使命。阿里巴巴每天有超越5万名职工在DataWorks上完结数据剖析、数据开发和数据办理作业。那么, DataWorks怎么让大数据向“灵敏制作”演进, 背面具有什么样的中心才能?在全链路数据服务—大数据与AI分论坛, DataWorks产品负责人黄博远透露了DataWorks中心的三个“ONE”才能。简略来讲, DataWorks以一站式的理念, 经过一条数据开发链路, 一套数据标准架构, 一套数据办理体系, 与大数据核算引擎结合, 让企业具有一站式的数据开发与办理才能。1、一条数据开发链路许多的企业开展到必定阶段今后都会面对这种状况:1)数据来自于不同地域的数据中心, 比方阿里云上有公共云、专有云, 关于企业来讲也有自己的私域, 一起又要服务企业外部的客户与协作同伴, 数据十分涣散。2)大数据的引擎百家争鸣,

挑选多样。不管是阿里自研的SaaS形式云数据仓库MaxCompute、交互式剖析Hologres和剖析型数据库AnalyticDB, 仍是开源的EMR、CDH、Flink、Elasticsearch等等, 品种极为丰厚, 咱们很难说哪一款产品是最好的, 关于企业来说这种技能选型是多样的, 按需的。3)数据与AI及运用怎么更好地结合?大数据加工处理完的数据还需要结合AI算法, 以服务化的办法给到数据运用, 怎么完结BI与AI一体化, 开释数据价值。
       针对以上痛点, DataWorks可以协助企业完结数据集成、数据开发、数据办理和数据服务, 将大数据全生命周期办理整合到一条完好链路中。首要满意企业在杂乱网络条件下, DataWorks完结近50种异构数据源的离线/实时的同步, 让企业更好地迈出大数据建造的“第一步”。其次, 它的底层对接了MaxCompute、EMR、CDH、Hologres、AnalyticDB、实时核算Flink版等大数据引擎, 让多种核算引擎的数据开发办理作业都可以在同一个渠道一站式的完结。最终, 大数据渠道加工好的数据集可以无缝对接到机器学习渠道中进行AI练习与在线猜测服务, 也可以经过数据服务以API办法给到BI、大屏等各类数据运用。2、一套数据标准架构关于企业而言, 数据绝不是简略地堆积在一起, 阿里巴巴经过数据中台建造, 标准了集团共同的数据标准架构, 将数据进行明晰的结构分层, 每一层又有清晰的规模与鸿沟。在贴源层, 企业将完结全域数据的会聚,

保存一切的原始数据。在整合层, 企业经过数据标准、数据建模等办法树立数据的标准体系。在汇总层, 企业将根据事务需求对数据进行汇总加工, 提炼公共的数据目标。在运用层, 面向前台事务运用构建数据集市, 为运用供给连绵不断的高质量数据服务。这一套架构自身不具有产品化才能, 但企业可以根据DataWorks, 快速仿制这套数据标准架构。3、一套数据办理体系企业怎么办理数据财物?怎么确保数据质量?怎么确保数据安全?怎么有效地操控本钱以及减少不必要糟蹋?这些问题都对数据办理提出了更高的要求。正常来讲, 各类数据办理作业经过人工的办法其实也可以完结, 可是阿里巴巴现在每天处理的数据超越1.7EB, 每天调度的使命数在千万级, 很难幻想靠人工来完结一切的办理作业。DataWorks将阿里巴巴十多年数据办理的实践沉积成产品化才能, 完好掩盖模型规划、数据质量办理、元数据办理、安全办理等贯穿数据加工处理和运用的全链路所需的办理才能。
       一个渠道, 就具有一套完好的体系化的才能。
       在分论坛现场, DataWorks全新发布数据建模产品, 让企业从事务视角进行数仓规划、数据标准界说、维度建模和数据目标规划, 用标准化的“图纸”辅导大数据“建造”作业, 提高企业数据中台建造的标准性和标准性, 大大下降企业数据中台建造门槛和本钱。一起DataWorks将继续加大与生态同伴协作, 推出具有不同职业特点和不同建模办法的数据建模类产品, 以支撑不同职业不同场景的数仓模型规划。DataWorks数据建模产品将于2021年7月敞开公测, 到时欢迎我们在阿里云官网查找“DataWorks”注册体会。除了数据建模外, DataWorks掩盖了数据同步、元数据、数据财物、数据质量、数据地图、使命运维、数据安全、数据剖析、数据服务等数据全生命周期的办理才能。事实上, DataWorks现已运用到各行各业的数字化转型中。在工业职业, DataWorks协助三一重工打通86个中心事务体系, 处理每月50PB的各类图画、视频、物联网数据, 建造业界场景最全的数据中台。在能源职业, DataWorks协助企业树立10余种数据中台运营标准,

完结四大场景50+目标产出, 标准数据办理流程, 提高数据可用率。在钢铁职业, DataWorks让数据在数据中台进行自在活动, 确保数据精确、按时、共同, 让企业归纳本钱减少1亿元。在互联网职业, 得物APP经过DataWorksOpenAPI构建全链路数据血缘, 自主研制全链路解析才能, 下线2万张表与近千个核算使命, 让企业本钱下降20%。未来企业的数字化转型将对数据的办理与剖析提出更高的要求,

DataWorks将协助企业快速构建数据中台, 经过全链路的数据办理供给高质量的数据底座, 让数据的“灵敏制作”成为企业数字化的“灵敏转型”。