全文约3500字 阅读约5分钟
1)数据目录(Data Catalog)?
2)数据清单(Data Inventory)?
2.为何需要这些数据秘籍
3.数据秘籍之间的区别
4.创建数据秘籍的关键因素
-
数据获取:首先确定哪些元数据是相关的,找到这些相关数据所在的位置和存储的形式,确定如何捕获它们。通过了解数据的形状、结构、语义,来发展数据目录的形状和结构。尽量自动更新数据目录,几乎所有的数据库和数据存储都有工具,可以帮助您以所需的形状和语义提取元数据。通过数据沿袭,了解数据的来源和去向,为数据用户提供上下文。数据目录应支持各种数据类型,包括表和流数据。
-
分配数据所有者:捕获数据后,组织必须分配对该数据的所有权。赋予某人确保数据和文档完整和准确的责任,并为需要额外信息的数据用户提供了一个联系人。最重要的数据所有者,是数据管理员和技术所有者。数据管理员管理和解决与业务相关的查询;而技术所有者负责解决技术问题。
-
建立数据文档:一次性对所有数据进行编目通常是不可行的,所以需要一种切合实际的方法。首先对最重要的数据进行编目,然后是第二重要的数据,以此类推。
-
定期更新数据目录:数据集是不断变化的,所以识别这些变化并更新数据目录至关重要。理想情况下,这个过程应该是自动化的。
-
优化数据交互:数据目录是一种工具,使企业团队能够有效地与企业的数据交互。了解这些团队的需求并优化相关的标准和规范,为优化数据交互铺平道路。如标准化所有内部数据库、schema、字段、数据沿袭的文档格式。
数据清单是数据清点/盘点的成果。数据清单是集中化的元数据集合,它指示了组织收集和维护的所有数据集。该文档(或文档集合)精确定位每个数据集的位置及其包含的数据类型。
数据分析师使用数据清单来确定哪些数据可用以及如何访问它们。
数据管理员维护数据清单,并为每个数据集制定相关的数据访问策略。
-
数据资产名称
-
格式类型
-
与其他数据实体和资产的关系
-
参考数据
-
数据质量规则
-
元素数据资产层级
-
数据存储位置
-
质量指标代码
-
业务规则(数据质量验证和schema对象)
-
实体关系图
-
静态数据字典:不绑定到任何特定的数据库,因此必须手动更新。但手动过程更新的延迟,会导致数据字典中的元数据不同步。
-
动态数据字典:会随着它们所链接的数据存储库的增长而自动更新。建议组织实施动态数据字典,以确保所有数据字典保持更新和准确。
当您拥有跨多个数据字典且可供多个用户访问的数据时,最好有一个数据目录。数据目录将这些数据组织成简单、易于消化的形式,从而简化数据提取和处理。
数据目录有助于改进数据管理。它们提供组织中可用数据集的高层级类别信息,从而提供高层级洞察和分析。该资产使干系人能够有效地找到存储在不同位置的任何类型的相关数据集,例如数据湖、仓库和其他数据库。
3)为何需要数据字典?
数据字典可以防止数据冗余和歧义。当企业拥有被许多用户访问的大量的定量数据时,数据字典是必不可少的,因为它可以防止数据冗余和歧义。如果使用得当,数据字典可以提高效率。虽然准备这份文件可能需要一些时间,但长期的结果是值得的。
-
数据目录:提供了组织中所有可用数据的鸟瞰图以及在哪里可以找到这些数据。数据目录通过根据常规业务功能进行组织,例如了解潜在客户生成管道、管理采购和库存、跟踪客户消费习惯。虽然数据清单中的每个条目都是唯一的,但数据目录可以引用不同条目中的相同数据点。 -
数据清单:包含组织所有数据集的元数据(如每个数据点的位置和类型),使这些数据集本质上是可搜索的。它本质上是细粒度的,提供有关单个数据集的详细信息。数据清单中的每个条目都是唯一的。数据清单中包含的信息始终是唯一的,而一个数据集可能会出现在数据目录的多个条目中。因此,数据清单比数据目录更加细化和技术化。
-
数据目录:反映了组织中数据资产的整体概况。 -
数据字典:用于命名和定义数据资产,目的是防止数据冗余和歧义。
-
数据清单:详细说明了组织中可用的所有数据集,并显示所有相关元数据。 -
数据字典:定义了这些数据集的规则,指示了它们的正确格式、形状、schema。
原文始发于微信公众号(网络安全观):数据治理的三本数据秘籍
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论