您的当前位置:首页 > 大数据

数据太多Hold不住?Hadoop数据治理来“救场”

2020-06-27 16:27:25
当LinkedIn还是一家规模较小的公司时,它从社交网站上获取的数据是如何被格式化和结构化的,似乎并没有人关注。

LinkedIn数据科学总监Yael Garten说:“你可以记录任何东西,然后访问它。 这样可以让数据科学家在分析应用程序上快速工作,而不必担心出现任何数据不一致的情况。”

但随着公司规模的扩大和数据量的增长,情况发生了变化。现在,人们看到了在LinkedIn的Hadoop环境中更好地管理数据的举措,所以数据在整个分析周期中都是标准化的。Garten解释道,“否则,当数百个团队发送数据和数百个团队消耗数据时,这就变成了一场噩梦。如果数据是无模式存储的,情况会更加糟糕,这是LinkedIn早期得到的一个教训。”

数据治理的工具

LinkedIn的Hadoop数据管理流程包括一个内部开发的系统,称为统一度量平台,有助于开发用于报告的统一度量数据。Garten提到一个数据模型审查委员会,评估模型是否能够成功地产生指定的数据。她还提到了另一个本土化的技术Dali,该技术为Hadoop数据集提供了一个通用的API,为数据生产商和用户提供数据。

Cleveland医学中心也将数据治理作为与大规模数据部署相关联的优先事项。商业智能的高级项目管理人员Eric Hixson说,去年,Cleveland的健康系统从传统的数据仓库架构扩展到包括Hadoop、高级分析软件、自助服务BI工具等技术上,并创建了一个正式的数据管理程序。

Hippson在一次演讲中表示,新架构以Gartner概述的逻辑数据仓库概念为基础,随着Cleveland诊所内部文化的转变,使卫生系统将数据驱动和使用位置分析作为竞争优势。数据治理举措旨在提升风险管理能力,提高数据质量和可用性。

一切都为了数据治理

去年12月,基于云计算的部署也推动了加州健身和营养产品制造商Beachbody公司Hadoop的数据治理流程。

Beachbody的数据执行总监Eric Anderson表示,大型数据系统在AWS云端运行,除了Hadoop之外,还包括Hive和Spark处理引擎。它使公司的数据科学家和分析师能够自助访问更多类型的数据,而不是从现有的Oracle数据仓库中获得数据,他们还可以访问更加敏感、细粒度更高的数据。“这些都是我们的治理挑战,” Anderson说。

他指出,数据治理和使用策略已经为数据湖平台的用户提供了文档记录。Anderson的团队还创建了一个数据目录,列出了系统中可用的内容,以及一个数据字典和另一个带有数据沿袭信息的文档。Anderson解释说,这些都发布在门户网站上,使该系统更加透明地呈现给用户。他补充说,在数据仓库环境中,文档比我们以前可能做的更多,这是一个中间步骤,因为需要处理的数据比较少。

越来越多的组织可能会发现,在未来的几年里,他们会在大数据和Hadoop数据治理方面采取类似的中间步骤。McKnight咨询集团总裁William McKnight在2017年亚特兰大企业数据世界大会上的主题演讲中表示,“数据量无穷无尽,我们可能会被它淹没,有效的数据管理变得越来越重要。”


电影123 http://www.dianying123.com