¿Qué es un catálogo de datos?

Un catálogo de datos es un inventario de los activos de datos de una empresa para que los usuarios puedan encontrar la información que necesitan rápidamente. El catálogo consiste principalmente en metadatos que brindan información básica sobre otros datos y describen su contenido. Combinado con la gestión de datos y las herramientas de búsqueda, usted tendrá un catálogo de datos.

Diagrama de catálogo de datos

En la era de la Big Data, los catálogos de datos son un componente clave en la gestión de datos. Las personas que trabajan con datos utilizan catálogos de datos para buscar los activos de datos requeridos de la totalidad de las fuentes de una organización, que pueden estar dispersas y ser difíciles de explorar. Las implementaciones exitosas de catálogos de datos pueden marcar una gran diferencia en la velocidad y la calidad del análisis de datos porque ayudan a los usuarios a encontrar los datos que necesitan rápidamente.

Los catálogos de datos ofrecen una serie de beneficios para la organización. En primer lugar, un catálogo de datos puede brindar a los usuarios todas las fuentes correctas, en el formato correcto, en la vista correcta, en el momento correcto, con el nivel de control correcto. Los catálogos de datos aseguran que toda la información que tiene en todas sus diferentes fuentes en un contexto de múltiples nubes se pueda encontrar y se pueda consumir de inmediato, lo cual significará que los usuarios pueden construir e implementar modelos en un contexto en tiempo real.

Además de ofrecer el contexto a los analistas de datos que requieren utilizar los datos con fines comerciales, los catálogos de datos también permiten automatizar la gestión de metadatos. Esta automatización permite que el catálogo de datos se convierta en la fuente de datos más confiable de su organización, lo cual hará que las partes interesadas colaboren para seleccionar y recopilar los datos que necesitan.

Una biblioteca es una analogía común utilizada para describir los catálogos de datos. Una biblioteca demuestra ser la metáfora ideal, ya que almacena activos de información (como libros) y requiere un sistema para organizar dichos activos de información. En esta analogía, mientras que los libros actúan como activos de información, la información sobre el libro, como su título, autor, ISBN y género, actúan como sus metadatos. Un catálogo mantenido para identificar los libros, su posición y otra información es exactamente cómo funciona un catálogo de datos. Permite a los lectores encontrar la lista de libros disponibles, seleccionarlos según sus gustos y elegir los que necesitan rápidamente.

Informe O'Reilly: Creación de una infraestructura unificada de datos
Informe O'Reilly: Creación de una infraestructura unificada de datos
Solo un tercio de las empresas se convirtieron en organizaciones basadas en datos. ¿Cual es la solución? ¡Descúbralo en este libro electrónico!

Necesidades empresariales de un catálogo de datos

Los datos empresariales crecen enormemente todos los días. Se espera que la esfera de datos global se expanda de 33 Zettabytes (ZB) en 2018 a 175 ZB en los próximos cinco años. Los datos a esta escala son difíciles de manejar y navegar. Los datos se pueden almacenar en múltiples proveedores de nube, en diferentes formatos, con diferentes tecnologías de almacenamiento. La calidad de los datos podría degradarse con el tiempo, ya que los datos tienen una vida útil y los conjuntos de datos siempre están cambiando (usted está agregando nuevos conjuntos de datos, obteniendo nuevos conjuntos de datos de conjuntos de datos existentes, etc.). También tiene diferentes tipos de usuarios, desde científicos de datos hasta desarrolladores y usuarios comerciales, cada uno de los cuales tiene diferentes requisitos y conjuntos de habilidades cuando se trata de datos. No siempre puede depender de TI para crear una nueva solución cada vez que un usuario empresarial necesita resolver un problema empresarial, por lo que usted requiere una forma de gestionar estas cuestiones.

Un catálogo de datos es un paso clave para estructurar los datos de una manera lógica e ingeniosa. Puede resultar ser un activo importante para una organización, ya que tiene las siguientes ventajas:

  • Se puede crear un depósito para los datos, incluida la información sobre la calidad, la estructura, el uso y las estadísticas de los datos.
  • Los usuarios colaboran de forma remota en los datos a medida que acceden a los metadatos junto con los datos reales.
  • Aseguran que los datos sean precisos y coherentes en toda la esfera de datos actualizándose automáticamente y con frecuencia
  • Se puede acceder al linaje de datos y ver información como la fuente, las modificaciones y los accesos a los datos.
  • Se puede compartir activos de datos con las partes interesadas de manera segura.
Modernice su arquitectura de datos y análisis
Modernice su arquitectura de datos y análisis
Consulte estos 13 casos de uso para aprender cómo respaldar el complejo panorama actual de datos y análisis.

Factores clave de un catálogo de datos

Un catálogo de datos se puede crear de varias maneras, pero para garantizar la implementación exitosa de un catálogo de datos eficiente, son necesarios los siguientes factores.

Conectores y herramientas de conservación

Un catálogo de datos sirve como un único lugar de confianza para los datos. Los conectores mapean los conjuntos de datos físicos en su base de datos; por lo tanto, es importante contar con una amplia gama de conectores para reforzar el catálogo de datos. Dado que los metadatos se pueden recopilar de múltiples fuentes, como Salesforce, consultas SQL, inteligencia de negocio o herramientas de integración de datos, también es importante conservar estos datos. La validación y la certificación son procesos importantes que mejoran la eficiencia de un catálogo de datos y hacen que el gobierno de datos sea un proceso sostenible.

Automatización

La automatización en los catálogos de datos permite a los usuarios de datos centrarse en procesos cruciales como la validación y corrección de problemas de datos, lo cual mejorará la velocidad y la agilidad del catálogo de datos y enriquecerá los conjuntos de datos dentro de la organización.

Opciones de búsqueda eficientes

La búsqueda es el componente principal de un catálogo de datos. Una poderosa capacidad de búsqueda ofrecerá una amplia gama de opciones de selección a los usuarios de datos y ofrecerá un acceso adecuado a los datos. Por ello, es importante disponer de varios parámetros para realizar búsquedas avanzadas de una sola vez.

Seguimiento de linaje o ciclo de vida

El linaje ofrece un vistazo al ciclo de vida de los datos visualizados. En caso de discrepancias, los usuarios de datos podrán utilizar el catálogo de datos para rastrear fácilmente el linaje para localizar el problema y corregirlo. También ayudará a comprender la diferencia entre varias fuentes y tipos de datos en la organización.

Glosario universal y diccionario de datos

Los datos de una organización son una gran parte de su valor, por lo que deberán ser accesibles y fáciles de entender para todas las partes interesadas. Normalmente, un catálogo de datos se compone de un diccionario de datos y un glosario. El diccionario de datos es una colección de todos los metadatos (normalmente almacenados en tablas) sobre los datos de su catálogo, incluido el significado, las relaciones con otros datos, el origen, el uso y el formato. El glosario permite a los miembros de la organización identificar los términos comerciales utilizados en el catálogo y utilizarlos de la misma manera en toda la empresa.

Perfilaje (Profiling)

La elaboración de perfiles de datos es el proceso de evaluar la integridad, precisión, consistencia y puntualidad de sus datos. Básicamente, la creación de perfiles de datos determina la utilidad de los datos para resolver problemas comerciales, lo cual es importante para mantener su conjunto de datos al recopilar datos de múltiples fuentes de datos.