什么是数据目录?

数据目录是公司数据资产的清单,方便用户快速找到所需的信息。该目录主要是元数据,它提供有关其他数据的基本信息并描述其含义。如果结合数据管理和搜索工具,您就有了一个数据目录。

数据目录图

大数据时代,数据目录是数据管理的关键组成部分。处理数据的人员使用数据目录从组织的整个来源中搜索所需的数据资产,这些数据资产可能分散且难以处理。成功实施数据目录可以极大地提高数据分析的速度和质量,因为它们可以帮助用户快速找到所需的数据。

数据目录为组织提供了许多好处。首先,数据目录可以在正确的时间、正确的视图中以正确的格式为用户提供所有正确的来源,并具有适当的控制级别。数据目录可确保您在多云环境中拥有的所有不同来源的信息都能被找到,并且可立即使用。这意味着用户可以在实时环境中构建和部署模型。

除了为需要将数据用于业务目的的数据分析师提供上下文之外,数据目录还使元数据管理的自动化成为可能。这种自动化使数据目录成为组织中最受信任的单一数据源,使利益相关者可以根据需要协作整理和收集数据。

图书馆是用来描述数据目录的常见比喻。图书馆实际上是理想的比喻,因为它储备了信息资产(例如书籍),并且需要一个系统来整理所述信息资产。在这个比喻对象中,虽然书籍充当信息资产,但书名、作者、ISBN 和类型等有关图书的信息充当其元数据。为标明书籍、书籍位置和其他信息而维护的目录正是数据目录的工作原理。它使读者可以找到可用书籍的清单,根据自己的喜好进行整理,然后快速选择所需的书籍。

O'Reilly 报告:构建统一的数据基础架构
O'Reilly 报告:构建统一的数据基础架构
只有三分之一的企业发展成为数据驱动型组织。解决方案是什么?在这本电子书中找到答案!

对数据目录的业务需求

业务数据每天都在急剧增长。预计全球数据领域将从 2018 年的 33 泽字节(ZB)扩展到未来五年的 175 泽字节。这种规模的数据难以处理和查找。数据可以采用不同的存储技术以不同的格式存储在多个云提供商。数据质量可能会随着时间的推移而降低,因为数据具有保质期并且数据集总是在变化(您要添加新数据集、从现有数据集派生新数据集等)。您还有不同的用户类型,从数据科学家到开发人员再到业务用户,他们在数据方面都有不同的要求和技能。每当业务用户需要解决业务问题时,不可能总是依靠 IT 来构建新的解决方案。这就需要一种方法来管理所有这些情形。

数据目录是构建数据的关键步骤,要采用合乎逻辑且可查找利用的方式。由于数据目录可以在以下方面提供帮助,已成为组织的重要资产:

  • 为数据创建储存库,包括有关数据的质量、结构、使用情况和统计的信息
  • 用户在访问元数据和实际数据时远程协作处理数据
  • 通过经常自动进行自我更新,确保数据在整个数据领域中的准确性和一致性
  • 访问数据脉络并查看诸如数据源、修改和访问权限等信息
  • 以安全的方式与利益相关者共享数据资产
现代化您的数据和分析架构
现代化您的数据和分析架构
查看这 13 个使用案例,了解如何支持当今复杂的数据和分析局面。

数据目录的关键因素

可以通过多种方式创建数据目录,但要确保成功实施高效的数据目录,必须考虑以下因素。

连接器和管理工具

数据目录充当数据的单一信任点。连接器映射数据库中的物理数据集;因此,使用各种连接器来强化数据目录非常重要。由于元数据可以从多个来源(例如 Salesforce、SQL查询、商业智能数据集成工具)中获取,因此整理这些数据也很重要。验证和认证是提高数据目录效率并使数据治理成为可持续过程的重要流程。

自动化

数据目录的自动化使数据用户能够专注于关键流程,例如数据问题的验证和纠正。这提高了数据目录的速度和敏捷性,并丰富了组织内的数据集。

高效的搜索选项

搜索是数据目录的主要组成部分。强大的搜索功能为数据公民提供了广泛的选择选项,并提供了对数据的便捷访问。因此,使用几个参数进行一次性高级搜索非常重要。

脉络或生命周期跟踪

脉络让您了解所查看数据的生命周期。如果出现任何差异,数据用户可以使用数据目录轻松跟踪脉络,以找到问题并进行纠正。它还有助于了解组织中各种来源和数据类型之间的差异。

通用词汇表和数据词典

组织的数据是组织价值的重要组成部分,因此需要便于所有潜在的利益相关者都必须访问和易于理解。通常,数据目录由数据字典和词汇表组成。数据字典是有关目录中数据的所有元数据(通常存储在表中)的集合,包括含义、与其他数据的关系、来源、用法和格式。词汇表允许组织成员识别目录中使用的业务术语,并在整个公司中以相同的方式进行使用。

分析

数据分析是评估数据完整性、准确性、一致性和及时性的过程。基本上,数据分析决定了数据对解决业务问题的有用性。如果从多个数据源收集数据时,分析对于维护数据池非常重要。