如何构建数据目录:10 个关键步骤

admin 2023年2月26日17:30:55评论88 views字数 3358阅读11分11秒阅读模式
如何构建数据目录:10 个关键步骤

文末整理了6个G的数字化资料包,欢迎领取下载

作者:Grace  部分来源:Anne Marie Smith

全文共4457字,建议阅读12分钟
构建数据目录是许多 IT 和数据管理团队的一项重要举措,通常与数据治理和元数据管理计划一起完成。但是,企业不应在没有从业务用户获得输入并规划一系列其他步骤的情况下进行数据目录项目,这些步骤应该是流程的一部分。

在了解如何构建数据目录之前,让我们先定义数据目录是什么,并概述数据目录提供的关键功能,以及为什么它们已成为现代数据管理环境的核心组件。

01

什么是数据目录?

数据目录是一种管理和企业数据的中心化存储库,其中包含了所有数据资产的元数据信息,如数据表、字段、枚举、视图、报表等。数据目录提供了数据资产的全貌,包括数据资产的来源、格式、位置、安全性、访问控制和使用规则等信息。
数据目录可以为企业内部的各种业务用户提供方便的数据检索和共享功能,以支持更好的数据管理和决策。通过数据目录,用户可以了解到企业内部的数据资产,从而更好地利用这些数据资源。此外,数据目录还可以帮助企业合规性管理,确保数据合法和安全使用,避免违反法规和政策。
数据目录通常需要进行维护和更新,以确保数据资产的元数据信息及时、准确和完整。数据目录的更新可以由数据管理员或业务用户进行,具体取决于企业的数据治理策略和实践。

02

为什么数据目录很重要?

数据目录是企业数据管理和治理的核心工具之一,它具有以下几个重要作用:
  1. 统一数据视图:数据目录提供了企业数据资产的全貌,包括数据表、字段、枚举、视图、报表等元数据信息。这有助于企业内部的各种业务用户了解到数据资产的来源、格式、位置、安全性、访问控制和使用规则等信息,从而实现了数据的统一视图。
  2. 改善数据可发现性:数据目录可以帮助企业内部的各种业务用户更好地了解企业内部的数据资产,从而快速找到自己需要的数据。这有助于提高数据的可发现性,降低数据使用的时间和成本。
  3. 改进数据质量:数据目录可以帮助企业内部的各种业务用户了解数据资产的质量和完整性,从而更好地利用数据资源。此外,数据目录还可以帮助企业实现数据质量管理,以确保数据的完整性、准确性、一致性、可用性和时效性等方面的要求。
  4. 促进数据治理:数据目录是企业数据治理的核心工具之一,它可以帮助企业实现数据资产的标准化、分类和管理。此外,数据目录还可以帮助企业实现数据安全和合规性管理,以避免违反法规和政策。
  5. 支持数据分析:数据目录可以帮助企业内部的各种业务用户更好地了解数据资产,从而实现更好的数据分析和决策。此外,数据目录还可以帮助企业实现数据
  6. 可视化、数据挖掘和预测分析等高级分析功能。
如何构建数据目录:10 个关键步骤

03

构建数据目录的关键步骤

以此作为背景信息,以下是为企业规划和构建数据目录时要采取的 10 个主要步骤。

1、元数据管理对数据治理的价值

所有有效的数据治理计划都由业务和技术元数据管理提供支持。元数据为数据集的内容提供上下文,并提供使数据在整个企业中可用和可理解的信息。通过实施企业数据策略、实践和标准,正确管理元数据可帮助企业治理其数据,以提高据质量并提高运营效率。记录这些预期收益可以成为数据目录业务案例的一部分。

2、确定不同元数据工具的数据管理用途

尽管术语数据目录、业务术语表和数据字典有时可以互换使用,但它们不是一回事。业务术语表定义了整个企业中使用的业务术语,为理解它们提供了权威来源。数据字典提供有关数据的技术信息,其中可以包括数据类型、长度、有效值、默认值、与其他数据字段的关系、数据转换规则、业务规则和约束等属性的属性。字典支持使用物理元数据,其中包含有关数据驻留位置和存储方式的详细信息。业务词汇表侧重于数据管理的业务方面,而数据词典是技术数据管理员的领域。数据目录可以由业务和技术专员使用,因为它包含其他两个工具的各个方面。

3、为数据设计主题区域模型

有效的数据目录遵循数据的业务使用,而不仅仅是系统的技术实现。主题区域模型 (SAM) 为企业的数据及其中包含的业务概念定义不同的主题区域,向业务用户显示不受应用程序、文件或数据库约束的数据位置。SAM 将作为数据架构的基础,数据目录和业务术语表都应基于它。

4、构建数据词汇表

数据治理团队成员和业务数据专员应协作设计业务术语表,然后对其进行填充。一个企业应该有一个企业业务词汇表,而不是每个功能领域或更糟糕的应用程序的词汇表。适用于整个企业的强大业务词汇表是有效的数据管理和业务元数据管理的重要组成部分,它可以提供在数据目录中使用的内容。业务数据管理员需要参与创建词汇表,因为他们最了解其主题领域的数据及其相关的业务元数据。

5、构建数据字典

数据字典应包含每个数据表或文件及其所有元数据实体的说明和映射。然后,它成为将元数据拉入数据目录的基础。同样,业务数据管理员在这里是必不可少的,因为他们将按来源、概念和主题领域提供有关数据目录中要使用的业务元数据的指导。

6、从数据库和其他数据源中发现元数据

数据目录使用元数据来标识用户的数据表和文件。目录搜索公司的数据库和其他数据存储库,并将关联的元数据加载到其数据资产清单中。在企业开始构建数据目录之前,必须标识并记录元数据源。这是一个重要的步骤,与前两个步骤一样,要求企业有一个可靠的数据管理计划。在这种情况下,需要业务数据专员提供有关要使用的正确数据源的见解。

7、分析数据以向用户提供统计信息

这些配置文件是信息摘要,用于向数据目录的用户解释元数据。例如,数据库的配置文件通常包括表数、文件数和行数。在业务术语表中,数据概要分析将侧重于业务元数据以及业务数据管理员和用户在整个企业中的使用。

8、确定数据源之间的关系

发现跨多个数据存储的相关数据,并将该信息构建到数据目录中,以便用户可以了解关系。例如,数据分析师可能需要为分析应用程序整合客户数据。通过数据目录和数据字典,分析人员可能会发现五个不同系统中的五个文件包含相关数据。

9、捕获有关数据沿袭的信息

提取、传输和加载 (ETL) 工具用于从源系统中提取数据,对其进行转换和清理,然后将其加载到目标数据存储库中。在构建数据目录时,在 ETL 过程中收集的元数据包括数据沿袭文档,用于跟踪数据的来源、数据如何流经系统以及其他信息。数据沿袭可帮助业务用户了解目录中的数据资产,并使数据管理员和分析师能够通过检查数据流将数据错误追溯到源系统中的根本原因。

10、构建目录以供数据使用者使用

大多数数据库和文件系统都是为供 IT 使用而设计的。数据目录和业务术语表应该为数据使用者(如业务用户和数据分析师)以及技术人员设计。同样,它们的结构应基于您在此过程前面设计的主题区域模型。此外,这些工具应该可以通过PC,平板电脑和智能手机访问。相比之下,数据字典可以根据其内容的技术性质按功能领域和应用程序进行企业。

04

构建数据目录的最佳做法

构建数据目录、业务词汇表和数据字典,然后使用它们来收集、企业和策划元数据是应该涉及 IT 和业务团队的任务。这样做将确保元数据侧重于业务用户的需求,并在整个企业中实现一致的管理。
以下是企业应牢记的其他一些数据目录最佳做法:
  • 整合用户权限、使用情况监控、敏感数据标记以及其他数据安全和隐私保护。

  • 通过对数据进行评分和评论以及与其他目录用户聊天等功能实现协作。

  • 为最终用户制定培训计划,以确保他们熟悉数据目录并能够有效地使用它。

  • 创建一个流程,以便在数据资产和业务需求发生变化时使目录保持最新。
数据目录的有效规划、开发和实施可以将元数据管理引入业务运营,并通过更好地了解企业的数据资产并使人们更容易查找、访问和使用它们来提供持久的业务价值。

【END】

最后,我们整理了一份6个G的IT数字化资料合集,包含:14大行业100+名企的数字化转型案例、10+IT规划实践案例、9大名企CIO讲数字化建设、8大行业数字化经营之道精粹……  点击文末“阅读原文”立即下载文件!
往期精彩推荐

数据仓库模型全景

2022-12-06

如何构建数据目录:10 个关键步骤

详解数据仓库和数据集市:ODS、DW、DWD、DWM、DWS、ADS

2022-12-05

如何构建数据目录:10 个关键步骤

谈谈数据湖和数据仓库

2022-12-02

如何构建数据目录:10 个关键步骤

数据仓库与数据集市差别

2022-12-01

如何构建数据目录:10 个关键步骤

数据仓库面临问题及发展的趋势方向

2022-11-24

如何构建数据目录:10 个关键步骤

如何构建数据目录:10 个关键步骤

原文始发于微信公众号(商业智能研究):如何构建数据目录:10 个关键步骤

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2023年2月26日17:30:55
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   如何构建数据目录:10 个关键步骤https://cn-sec.com/archives/1573711.html

发表评论

匿名网友 填写信息