Was ist ein Datenkatalog?
Ein Datenkatalog ist eine Bestandsaufnahme der Daten-Assets eines Unternehmens, damit Benutzer die benötigten Informationen schnell finden können. Der Katalog besteht hauptsächlich aus Metadaten, die grundlegende Informationen über andere Daten liefern und beschreiben, worum es sich dabei handelt. Kombiniert mit Datenverwaltungs- und Suchtools erhalten Sie einen Datenkatalog.
Im Zeitalter von Big Data sind Datenkataloge ein wichtiger Bestandteil der Datenverwaltung. Personen, die mit Daten arbeiten, verwenden Datenkataloge, um nach erforderlichen Daten-Assets aus allen Quellen eines Unternehmens zu suchen, die verstreut und schwer zu überblicken sein können. Erfolgreiche Implementierungen von Datenkatalogen können einen großen Unterschied in der Geschwindigkeit und Qualität der Datenanalyse bewirken, weil sie den Benutzern helfen, die benötigten Daten schnell zu finden.
Datenkataloge bieten dem Unternehmen eine Reihe von Vorteilen. Erstens kann ein Datenkatalog Benutzern die richtigen Quellen im richtigen Format in der richtigen Ansicht zur richtigen Zeit mit dem richtigen Maß an Kontrolle bereitstellen. Datenkataloge stellen sicher, dass alle Informationen, die Sie in allen Ihren Quellen in einem Multi-Cloud-Kontext haben, gefunden werden können und sofort nutzbar sind. Das bedeutet, dass Benutzer Modelle in einem Echtzeitkontext erstellen und bereitstellen können.
Datenkataloge bieten nicht nur Kontext für Datenanalysten, die die Daten für Geschäftszwecke verwenden müssen, sondern ermöglichen auch die Automatisierung der Metadaten-Verwaltung. Durch diese Automatisierung wird der Datenkatalog zur einzigen vertrauenswürdigen Datenquelle in Ihrem Unternehmen, sodass die Stakeholder gemeinsam die Daten nach Bedarf kuratieren und auswerten können.
Eine Bibliothek ist eine gängige Analogie, die zur Beschreibung von Datenkatalogen verwendet wird. Eine Bibliothek erweist sich als ideale Metapher, da sie einen Vorrat an Informationswerten (z. B. Bücher) besitzt und ein System zur Organisation dieser Informationswerte benötigt. In dieser Analogie fungieren Bücher als Informationsressourcen, die Informationen über das Buch wie Titel, Autor, ISBN und Genre sind die Metadaten. Ein Katalog, der zur Identifizierung der Bücher, ihres Standortes und anderer Informationen verwaltet wird, entspricht genau der Funktionsweise eines Datenkatalogs. Er ermöglicht den Lesern, die Liste der verfügbaren Bücher zu finden, sie nach ihren Wünschen zu kuratieren und die gewünschten Bücher schnell auszuwählen.

Geschäftsanforderungen für einen Datenkatalog
Die Geschäftsdaten wachsen jeden Tag enorm. Es wird erwartet, dass sich die globale Datensphäre von 33 Zettabyte (ZB) im Jahr 2018 auf enorme 175 ZB in den nächsten fünf Jahren erweitern wird. Daten dieser Größenordnung sind schwer zu handhaben und zu navigieren. Daten können bei mehreren Cloud-Anbietern in unterschiedlichen Formaten mit unterschiedlichen Speichertechnologien gespeichert werden. Die Qualität der Daten kann sich im Laufe der Zeit verschlechtern, da die Daten eine Haltbarkeit haben und sich die Datensätze ständig ändern (Sie fügen neue Datensätze hinzu, leiten neue Datensätze aus vorhandenen Datensätzen ab usw.). Die verschiedenen Benutzertypen in Ihrem Unternehmen, von Data Scientists über Entwickler bis hin zu Geschäftsanwendern, haben jeweils unterschiedliche Anforderungen an die und Kompetenzen im Umgang mit Daten. Man kann sich nicht immer darauf verlassen, dass die IT jedes Mal eine neue Lösung entwickelt, wenn ein Geschäftsanwender ein Geschäftsproblem lösen muss. Sie brauchen eine Möglichkeit, das alles zu managen.
Ein Datenkatalog ist ein wichtiger Schritt zur Strukturierung von Daten in einer logischen Weise. Er kann sich als wichtiger Vermögenswert für ein Unternehmen erweisen, da er dabei helfen kann:
- ein Reservoir für die Daten, einschließlich Informationen zur Qualität, Struktur, Nutzung und Statistik der Daten zu erstellen
- Benutzern die Arbeit an den Daten aus der Ferne zu ermöglichen, da sie neben den eigentlichen Daten auch auf die Metadaten zugreifen
- durch häufige automatisierte Aktualisierungen sicherzustellen, dass die Daten in der gesamten Datensphäre korrekt und konsistent sind
- auf die Herkunft der Daten zuzugreifen und Informationen wie Quelle, Änderungen und Zugriffe auf die Daten anzuzeigen
- die Daten-Assets sicher mit Stakeholdern zu teilen

Wichtige Faktoren eines Datenkatalogs
Ein Datenkatalog kann auf verschiedene Arten erstellt werden. Um jedoch die erfolgreiche Implementierung eines effizienten Datenkatalogs zu gewährleisten, sind die folgenden Faktoren erforderlich.
Konnektoren und Kurationstools
Ein Datenkatalog dient als zentraler Vertrauensort für Daten. Konnektoren bilden die physischen Datensätze in Ihrer Datenbank ab. Daher ist es wichtig, über eine Vielzahl von Konnektoren zu verfügen, die den Datenkatalog ergänzen. Da Metadaten aus mehreren Quellen wie Salesforce, SQL-Abfragen, Business Intelligence oder Tools zur Datenintegration gewonnen werden können, müssen diese Daten ebenfalls kuratiert werden. Validierung und Zertifizierung sind wichtige Prozesse, die die Effizienz eines Datenkatalogs steigern und die Data Governance zu einem nachhaltigen Prozess machen.
Automatisierung
Durch die Automatisierung von Datenkatalogen können sich Datenbenutzer auf wichtige Prozesse wie die Validierung und Korrektur von Datenproblemen konzentrieren. Dies erhöht die Geschwindigkeit und Agilität des Datenkatalogs und bereichert die Datensätze innerhalb der Organisation.
Effiziente Suchoptionen
Die Suche ist die Hauptkomponente eines Datenkatalogs. Eine leistungsstarke Suchfunktion bietet Data Citizens eine Vielzahl von Auswahlmöglichkeiten und bietet bequemen Zugriff auf Daten. Daher ist es wichtig, mehrere Parameter zur Verfügung zu haben, mit denen erweiterte Suchen in einem Arbeitsgang durchgeführt werden können.
Rückverfolgung der Herkunft oder des Lebenszyklus
Die Rückverfolgung der Herkunft (Lineage) bietet einen Einblick in den Lebenszyklus der angezeigten Daten. Bei Unstimmigkeiten können Datenbenutzer den Datenkatalog verwenden, um die Herkunft einfach zu verfolgen, das Problem ausfindig zu machen und zu beheben. Das hilft auch dabei, die Unterschiede zwischen den verschiedenen Quellen und Datentypen im Unternehmen zu verstehen.
Universalglossar und Datenwörterbuch
Die Daten eines Unternehmens machen einen großen Teil seines Wertes aus. Daher müssen sie für alle potenziellen Stakeholder zugänglich und leicht verständlich sein. In der Regel besteht ein Datenkatalog aus einem Datenwörterbuch und einem Glossar. Das Datenwörterbuch ist eine Sammlung aller Metadaten (normalerweise in Tabellen gespeichert) zu den Daten in Ihrem Katalog, einschließlich Bedeutung, Beziehungen zu anderen Daten, Herkunft, Verwendung und Format. Das Glossar ermöglicht den Benutzern in einem Unternehmen, die im Katalog verwendeten Geschäftsbegriffe zu identifizieren und sie im gesamten Unternehmen auf dieselbe Weise zu verwenden.
Profilierung
Bei der Datenprofilierung werden Ihre Daten nach Vollständigkeit, Genauigkeit, Konsistenz und Aktualität bewertet. Grundsätzlich bestimmt die Datenprofilierung den Nutzen der Daten zur Lösung von Geschäftsproblemen. Dies ist wichtig für die Pflege Ihres Datenpools, wenn Sie Daten aus mehreren Datenquellen sammeln.