什么是数据网格(Data Mesh)?

数据网格的起源源于Zhamak Dehghani 于 2019 年 5 月撰写的一篇论文。在这篇文章中,Thoughtworks 顾问描述了集中式、单体式和与域无关的数据平台的局限性。 

这些平台通常采用专有企业数据仓库的形式,其中包含“数千个无法维护的 ETL 作业、表格和报告,只有一小部分专业人员才能理解,从而导致对业务的积极影响未充分实现”,或复杂的数据湖根据 Dehghani 的说法,这些数据“由一个由超专业数据工程师组成的中央团队运营,这些工程师充其量只能支持一些研发分析”。后一种情况通常被称为“数据沼泽”,即各种数据停滞不前、未被利用并最终无用的数据湖。 

数据网格旨在通过专注于域驱动的设计来解决这些问题,并引导领导者走向“现代数据堆栈”,以实现元数据和数据管理的集中化和分散化之间的平衡。  

迄今为止,我读过的关于数据网格概念的最佳解释和实现之一是 L’Oréal CIO Francois Nguyen 的题为“走向数据网格”的由两部分组成的系列文章(第 1部分,第 2 部分)。  

如果您还没有阅读它,请停止一切​​并立即执行此操作。没有比实践者更好的指导了,他们将理论付诸实践,并在他们的数据之旅中报告真实世界的发现。Francois 的论文为数据网格如何指导您的数据团队的组成和组织提供了有用的指导。他博客的“Part Deux”提供了关于如何成功实施数据网格的真实、经过测试的技术指导。

请记住,数据网格不仅仅是技术架构;这是一种围绕数据所有权及其激活组织自己的方式。成功部署后,数据网格将成为基于六个关键原则的现代数据堆栈的基础。为了使您的数据网格正常工作,数据必须是 1) 可发现的、2) 可寻址的、3) 可信赖的、4) 自描述的、5) 可互操作的和 6) 安全的。  

在我看来,应该在数据网格概念中添加第七个维度:财务负责和财务准确。分布式和现代数据堆栈的最大挑战(和机遇)之一是将资源(和成本)真正分配给域。  

许多人会将此评论解释为“云成本更高”的论点。这不是我所指的。事实上,我认为不应孤立地评估成本。它应该与业务价值相关:如果您的公司可以通过投资于云中的现代(和负责任的)数据网格,从数据中获得成倍增长的价值,那么您应该进行更多投资。

该领域最大的问题不是缺乏数据或缺乏投资。他们一直在谈论缺乏价值。据埃森哲称,近 70% 的组织仍然无法从他们的数据中获得价值

不要被炒作分散注意力

如果您的最终目标是从数据中驱动“商业价值”,那么数据网格概念对您有何帮助?今年你最大的挑战之一可能是避免陷入有关数据网格的流行语狂热炒作中。相反,专注于使用数据网格作为实现最终目标的一种方式。 

有两个关键概念需要考虑:

数据网格不是开始

最近的一篇文章中,我的朋友 Andrew Brust 指出“分散是运营数据的自然状态”,并且“整个运营数据语料库应该是分散的。它是通过优化而不是无能来实现的。” 换句话说,您需要的数据应该处于分布式状态。它将在本地,它将在云中,它将在多个云中。询问您的团队:“我们是否清点了我们需要的所有数据?我们明白这一切在哪里吗?”  

请记住,根据 Dehghani 的原始论文,为了让您的数据网格正常工作,您的数据需要“可发现、可寻址、可信赖、自描述、可互操作且安全”。这假设在数据网格阶段之前有一个阶段。  

我有幸与许多数据领导者共度时光,我听到的关于那个阶段可能是什么的最好描述是沃达丰的 Johan Wibergh 和 Simon Harris 的“数据海洋”。数据海洋比内陆数据湖概念更广阔。它专注于安全地提供对数据团队可用的整个数据资产的全面可见性,以实现其潜力,而不必移动它。

数据网格不是终点

既然我们已经确定了数据网格需要一个数据基础才能成功运行,那么让我们来探索一下数据网格会引导您做什么。如果您的目标是从数据中产生价值,您如何实现数据网格的结果?这就是数据产品发挥作用的地方。  

我们知道数据的价值来自于它的使用和应用。我在这里指的不是简单的仪表板。我指的是智能且丰富的数据产品,它们触发行动以创造价值并保护您的员工和业务。考虑网络异常检测、银行账户欺诈预测或实时创建卓越客户体验的推荐引擎。广告

换句话说,虽然数据海洋是设置数据网格以取得成功所需的架构基础,但数据网格本身是使您的团队能够构建数据产品的组织模型。如果每家公司都是“数据公司”,它的货币就是它可以输出的“数据产品”,它的可重复性和可靠性。这是麦肯锡分析公司创造的“数据工厂”概念。

你应该担心什么?

当您全年阅读有关数据网格概念的更多信息时,您很可能会听到三种类型的人:门徒、干扰者和扭曲者。

”门徒派“会鼓励奉最初的论文为圭臬,如果你有问题,甚至直接联系 Dehghani本人。你也可以订购她即将出版的书。

干扰者将是专家或供应商,他们希望将“数据网格”的概念标记为一种时尚或旧趋势:“别看!” 他们会说,“这里没有什么新鲜事!” 当心。新鲜度与您当前的状态有关。回到起源,自己决定这个概念对你、你的团队和你的组织是否是新的。

扭曲者可能是供应商(软件、供应商、服务),他们将从 Dehghani 论文与其产品、解决方案或服务的直线中直接受益。小心。正如我的朋友 Eric Broda 在他的数据网格架构博客中所解释的那样,“没有单一的产品可以为您带来数据网格。”

我认为最好的解决方案是与从业者联系。那些将理论付诸实践并愿意分享他们的学习成果的领导者。

本文作者Bruno Aziza 是 Google Cloud 的数据和分析主管

第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom

   

除非注明,本站文章均为原创或编译,未经许可严禁转载。

相关文章:


关于作者