跳转到主要内容
如何解决“数据孤岛”,有效利用数据这一组织的战略资产?

如何解决“数据孤岛”,有效利用数据这一组织的战略资产?

2022年11月25日 25次秝妤

 

当前,很多组织的数据部门日常穷于应付各种需求,同时又面对不少抱怨:查找、组合和分析数据需要太多时间,用户对数据的正确性与时效性不满意,无法轻松回答跨域业务问题。最终导致一直在重复收集、管理和分发相似的不正确和冲突的数据,这些工作昂贵且费力,导致过多的IT成本和过高的复杂度,以及用户对数据资源缺乏信任。

 

数据是组织的战略资产,组织应该清楚地了解“数据的战略价值”以及如何释放和利用数据来产生积极的业务影响。企业需要善用这些数据特点来发挥最大价值,数据集成则在其中扮演了重要角色。

 

在此背景下,The Open Group论坛总监、Lacibus创始人兼负责人Chris Harding围绕《数据集成的技术标准》白皮书展开分享,通过专业视角的前沿解读,并结合自身实践,实现观点碰撞,阐释了如何解决数据集成层面的一系列问题。

 

让我们一起来回顾精彩时刻吧

福利放送时刻

 

以下为演讲精华实录:

 

非常荣幸能向各位进行分享。今天我将分别介绍数据集合的概念、当前数据集成的技术趋势,以及The Open Group在数据集成领域所做的工作。

 

什么是数据集成

 

首先,什么是数据集成,为什么它如此重要?

 

数据集成实际上是将来自不同来源的数据组合在一起,为用户提供统一的单一视图的过程,这是数据处理中最基本的事情之一。你从不同类型的数据中获取数据,需要创建一个单一的数据集,并给出单一的视图。

 

在这一过程中,你需要克服各种问题。比如,创建第一个数据集的人设定了一个特定的含义,而创建第二个数据集的人设定了一个稍微不同的含义,你就需要把这些数据进行组合,创建一个有用的、有意义的组合数据集。

 

 

其中,数据分析是很大的一个原因。常见的案例有3个:

 

各类活动开展。公司的管理层希望有一个统一的视图,能够展示整个公司正在开展的活动情况,为了提供这一视图,数据分析必须融合各个部门的数据。

 

兼并和收购。两个公司进行合并且都有自己的客户数据库,但合并后的公司需要有一个统一的数据库,就需要将两家公司的数据进行组合。显然,客户数据是数据组合的一个重要例子。

 

新型产品和服务的开发。公司通过将自身所拥有的信息,与其他地方获取的信息进行组合,来生产新产品。事实上,数据集成目前已经开始有一个相当大的市场。提供新型数据产品和服务是公司的首要任务,这一任务需要数据的集成。

 

数据集成的技术趋势

 
 

数据集成是一个很大的市场。一个数据显示,数据集成市场规模将在2026年增长到近200亿美元,增长率为11%;Gartner则简单预测了软件市场的规模,他们认为,软件市场在2020年已经超过了30亿美元。

 

很明显,不同的机构持有不同的观点,他们的数字可能无法直接比较。但这两家公司的数据都可以,这是一个很大的市场且一直在增长。

 

至于原因,我认为,云计算是其中的一个主要部分。Gartner谈到云计算是由解决混合数据集成的挑战这一需求所驱动的。

 

关于数据集成这一不断增长的市场,有哪些技术可以帮助公司解决数据集成所遇到的问题?

 

数据结构是一个重要的概念。数据结构的概念是公司可以让其应用程序统一访问不同类型的数据。这些数据可能是SQL、NoSQL和IoT数据,可能在云端,可能在本地,也可能从边缘传感器获得。但应用程序把它看作是有组织的统一数据结构,这种方法的一个特点是使用连续的自动分析来处理元数据,并组织数据。

 

因此,这有助于应用程序以统一的方式看到不同种类的数据,通过查看不同种类的元数据并创建数据视图,让应用程序访问数据而不需要知道数据的来源,以及结构和通过什么来提供。这是数据结构的其中一个关键概念。

 

另一个目前流行的概念是数据网格。这个概念最初是由Thought Works提出的。网上有关于数据网格的介绍:其基本概念是数据是一种产品。因此,正如任何一种被包装过的产品一样,需要关注的是高质量地交付。数据产品属于最了解数据并使用数据的团队所有。因此,这些团队负责提供高质量的数据。

 

数据通过自助数据平台提供给消费者,并由团队联合管理。因为很明显,虽然每个数据产品都是独立的,但是对其中一个数据产品的处理会影响到其衍生产品以及数据如何组合,或者其他与之相关的东西。

 

因此,需要对其进行治理,以确保所有产品都保持同步。原则是,产品所有者的团队共同合作,对数据产品进行治理。而成功实施的关键是,说服持有产品/数据的团队以产品形式来提供数据。如果你能建立一种企业文化,让团队做到这一点,这将是一个非常强大的方法。

 

与之相关,也可适用于其他类型的数据集成概念是DataOps(数据运维)。DevOps是开发和运营维护的总称,即通过一系列的活动来生产软件产品,从商店代码开始,到经过测试和产品交付结束。

 

近年来,持续集成和交付已经成为软件工程的一大特点。DataOps的理念是应用同样的数据生产原则,因而拥有数据管道,可以从数据产品中获取数据、衍生出其他数据产品,最终将其转化为能够被应用程序使用的形式。这也是一个不断发展的重要领域。

 

自然语言处理是另一个重要的趋势,从数据集成的角度来看,自然语言处理很重要。因为它意味着文本和语音记录可以与其他数据进行集成。事实上,这些技术正在不断发展,也可以开始集成图像和视频。

 

 

近年来,自然语言处理凭借着两种技术的应用,得到了极大发展。一种技术是对句子的分析以及识别这些句子中的命名对象;另一种是用词向量表示单词或句子。图中显示的是一个词向量的起点,它通常是一个较大的实数数组,这里代表了这个词的实数数组的起点,是一种较为低效的表示形式,但它的价值在于,带有所代表的词的某些含义。事实上,这些技术被应用于自然语言翻译程序。

 

最后,我要介绍的是知识图谱,用于在人们感兴趣的内容之间建立链接并从中推断出向顾客推销的潜在商品。

 

知识图谱是一种由它们之间的关系连接起来的网络概念,通常被营销应用程序和搜索引擎,用来提供与你搜索的内容相关的数据。它们是数据集成中一个强大的工具,因为它们不需要为数据假设特定的模式,可以被应用及合并来创建不同种类整合数据的合并知识图谱。

 

The Open Group相关工作

 

那么,The Open Group在数据集成方面做了哪些工作,又有哪些与数据集成相关?

 

我们的数据集成工作组进行了一项调查,旨在找出企业和解决方案架构师面临的问题,这一调查得到了来自架构论坛和企业架构师协会的积极回应。

 

根据调查,可以确定的主要问题有以下几个:

 

  • 做数据集成工作时,架构师很难得到支持。很多人抱怨说他们需要集成数据,但又无法让相关部门的专家对其进行介绍,很难从部门领导那里得到支持;或者他们想引进某种数据集成引擎,却无法得到企业的支持;

  • 不同数据格式和不同数据接口的技术层面的困难。因为数据的质量往往很差,如果将这些质量差的数据进行集成,你只会得到质量更差的数据;

  • 访问控制,特别是对个人身份信息的访问控制,如何以确保只有有访问权限的人才能看到它。

 

对于架构师来说,得到一个高质量的业务案例,在此基础上开发出高质量的业务架构,再向利益相关者、部门和公司解释他们需要进行配合的原因,这是一个常识。

 

基于此,TOGAF®标准可以帮助企业在第一时间开发一个良好的业务架构。你可以利用信息系统架构阶段,来解决数据格式和数据质量问题,虽然TOGAF®标准没有对此给出具体的建议,但它在ADM中给了一个方向。同样,你也可以使用技术架构来定义访问控制、基础设施和平台的其他方面。

 

开放敏捷架构O-AA™标准是The Open Group提出的相对较新的出版物,它的主要价值在于展示如何以敏捷的方式进行架构建设,引入了三个关键视角。

 

一个是客户体验的角度,从这个角度来看如何呈现你所产生的数据;一个是工作系统角度,这是处理生成集成数据的利益相关者的角度;最后是技术角度,类似于TOGAF®标准的技术架构,你在此规定数据平台和其他技术标准。

 

The Open Group最近制定的的一个标准是政府参考模型,是政府业务所产生、所需要的信息;医疗论坛已经承担了在美国产生的联合健康信息模型的管理任务;商用航空工作组已经为商用航空制作了一个参考模型,其中包括一个详细的数据模型;OSDU™论坛不仅仅是模型,而且还是一个平台,用于石油和天然气勘探数据的数据集成;Open Footprint™开放环境足迹论坛正在为全球排放数据制作一个详细的数据模型,这也是一个非常重要和主要的问题需要去解决;The Open Group还发布了IT4IT™标准3.0版本,描述了IT业务所需的信息。

 

要点总结

 
  • 正如最开始所讨论的,数据集成是一个巨大的且不断增长的市场;

  • 企业和解决方案架构师,在数据集成项目中面临着重大的问题;

  • 云计算使用人数增加是数据集成市场增长的重要原因;

  • 数据集成工作可能变得越来越困难;

  • The Open Group的很多领域材料可以帮助架构师在特定行业中进行数据集成;

  • TOGAF®标准和O-AA™标准提供了适用于两种数据集成的通用架构指导,但这也确实留下了一个空白。

 

数据集成工作组将通过制作一个关于如何在数据集成项目中使用The Open Group标准的指南来填补这个空白。这将成为The Open Group数据集成工作组的一部分。

 

#分享嘉宾

 
 
 
Chris Harding在担任The Open Group开放平台3.0论坛总监期间,成立了一家以虚拟数据湖和以数据架构为基础的公司。多年来,Chris一直在The Open Group任职,支持其成员在数据通信、目录互操作性、网络、面向服务的架构、云计算等领域的活动。他是《The Open Group指南:商业云计算》的主要作者,帮助制作了The Open Group的众多出版物,并撰写了多篇博文。他对企业架构一直持有极大兴趣,并作为TOGAF支持数字企业工作组的成员,参与了TOGAF®标准的早期开发。目前,他现在的主要重点是数据平台领域,关注了与此相关的几项行业信息,并参加了The Open Group数据集成工作组。
 

#关于发布物

 

 

在计算机和人工智能的推动下,数据结构、数据网格和数据操作等新兴技术得以发展。然而,数字组合标准为传统与敏捷企业架构以适应数字时代提供了坚实的框架,但它们并没有为数据集成提供具体指导,这一指南通过识别和描述相关标准,帮助架构师克服技术层面出现的挑战。挑战——数据集成项目通常是在高层级上进行构思;例如,“在与主要竞争对手合并后,我们将拥有一个庞大的合并客户群,我们将向其营销我们的产品”。这种简单的高层级陈述通常会省略提及技术架构师和数据架构师必须解决的一些难题。例如,主要竞争对手很可能与其将加入的团体采用不同的方式识别客户,并收集他们的不同信息。

 

进入微店购买