Qu'est-ce qu'un data catalog ?

Un data catalog est l'inventaire des actifs de données d'une entreprise créé pour permettre aux utilisateurs de trouver rapidement les informations dont ils ont besoin. Le catalogue est principalement constitué de métadonnées qui décrivent et fournissent des informations de base sur les autres données. Vous obtenez un data catalog en combinant des outils de gestion et de recherche de données.

Diagramme du data catalog

À l'ère du big data, les data catalogs sont un élément clé du data management. Les personnes qui travaillent avec les données utilisent les data catalogs pour rechercher les ressources de données nécessaires à partir de l'ensemble des sources de l'entreprise, qui peuvent être dispersées et difficiles à parcourir. La mise en œuvre réussie d'un data catalog peut faire une grande différence dans la vitesse et la qualité de l'analyse des données, car il aide les utilisateurs à trouver rapidement les données dont ils ont besoin.

Les data catalogs offrent un certain nombre d'avantages aux entreprises. Tout d'abord, ils peuvent donner aux utilisateurs toutes les sources dont ils ont besoin, dans le bon format, dans la bonne vue, au bon moment, et avec le bon niveau de contrôle. Les data catalogs garantissent que toutes les informations dont vous disposez à travers toutes vos différentes sources dans un contexte de clouds multiples puissent être trouvées et immédiatement consommables. Cela signifie que les utilisateurs peuvent construire et déployer des modèles dans un contexte en temps réel.

En plus d'offrir un contexte aux analystes de données qui doivent utiliser les données à des fins commerciales, les data catalogs permettent également d'automatiser la gestion des métadonnées. Cette automatisation permet au data catalog de devenir la source unique de données la plus fiable de votre entreprise, ce qui permet aux intervenants de collaborer pour conserver et récolter les données selon leurs besoins.

Une bibliothèque est une analogie couramment utilisée pour décrire les data catalogs. La métaphore de la bibliothèque est la plus adaptée, car cette dernière permet de stocker des actifs informationnels (tels que des livres) et nécessite un système pour organiser ces actifs informationnels. Dans cette analogie, les livres sont les actifs informationnels, tandis que les informations sur le livre, telles que son titre, son auteur, son ISBN et son genre, sont ses métadonnées. Le catalogue géré pour identifier les livres, leur position et d'autres informations associées fonctionne exactement de la même manière qu'un data catalog. Il permet aux lecteurs de trouver la liste des livres disponibles, de la trier selon leurs préférences et de choisir rapidement les livres dont ils ont besoin.

Rapport O'Reilly : Construire une infrastructure de données unifiée
Rapport O'Reilly : Construire une infrastructure de données unifiée
Seul un tiers des entreprises se sont transformées en organisations axées sur les données. Quelle est la solution ? Découvrez-la dans cet eBook.

Besoins commerciaux nécessitant un data catalog

Les données des entreprises augmentent énormément chaque jour. Il est attendu que la quantité de données mondiales passe de 33 zettaoctets (ZB) en 2018 à 175 ZB au cours des cinq prochaines années. Les données à cette échelle sont difficiles à gérer et à parcourir. Les données peuvent être stockées auprès de plusieurs fournisseurs de cloud, dans des formats différents, avec des technologies de stockage différentes. La qualité des données peut se dégrader au fil du temps, car elles ont une durée de vie limitée et les ensembles de données changent constamment (vous ajoutez de nouveaux ensembles de données, vous dérivez de nouveaux ensembles de données à partir d'ensembles de données existants, etc.) Vous avez également différents types d'utilisateurs, des scientifiques des données aux développeurs en passant par les utilisateurs professionnels, qui ont chacun des exigences et des compétences différentes en matière de données. Vous ne pouvez pas toujours compter sur l'informatique pour créer une nouvelle solution chaque fois qu'un utilisateur professionnel a besoin de résoudre un problème. Vous avez besoin d'un moyen de gérer tout cela.

Le développement d'un data catalog est une étape clé pour structurer les données d'une manière logique et ingénieuse. Cela peut s'avérer un atout important pour les entreprises, car les data catalog peuvent :

  • Créer un réservoir pour les données, y compris les informations sur la qualité, la structure, l'utilisation et les statistiques des données.
  • Permettre aux utilisateurs de collaborer à distance sur les données, en accédant aux métadonnées en même temps qu'aux données elles-mêmes.
  • Veiller à ce que les données soient exactes et cohérentes dans toute la sphère de données en se mettant à jour automatiquement et fréquemment.
  • Accéder à l'historique des données et visualiser des informations telles que la source, les modifications et les accès aux données.
  • Partager les ressources de données avec les parties prenantes de manière sécurisée.
Modernisez votre architecture de données et d'analyse
Modernisez votre architecture de données et d'analyse
Consultez ces 13 cas d'utilisation pour savoir comment prendre en charge le paysage complexe des données et des analyses d'aujourd'hui.

Facteurs clés d'un data catalog

Un data catalog peut être créé de plusieurs façons, mais pour garantir la mise en œuvre réussie d'un data catalog efficace, les facteurs suivants sont nécessaires.

Connecteurs et outils de conservation

Un data catalog sert de lieu de confiance unique pour les données. Les connecteurs mettent en correspondance les ensembles de données physiques dans votre base de données ; il est donc important de disposer d'un large éventail de connecteurs pour renforcer le data catalog. Étant donné que les métadonnées peuvent être récoltées à partir de sources multiples telles que Salesforce, des requêtes SQL, des outils de business intelligence, ou d'intégration de données, il est également important de conserver ces données. La validation et la certification sont des processus importants qui renforcent l'efficacité des data catalog et font de la data governance un processus durable.

Automatisation

L'automatisation des data catalog permet aux utilisateurs de données de se concentrer sur des processus cruciaux tels que la validation et la correction des problèmes de données. Cela permet d'améliorer la vitesse et l'agilité du data catalog et d'enrichir les ensembles de données au sein de l'entreprise.

Options de recherche efficaces

La recherche est la principale composante d'un data catalog. Une fonction de recherche puissante offre un large éventail d'options de sélection aux data citizens et permet un accès pratique aux données. Il est donc important de disposer de plusieurs paramètres permettant d'effectuer des recherches avancées en une seule fois.

Suivi de l'historique ou du cycle de vie

L'historique offre un aperçu du cycle de vie des données consultées. En cas de divergence, les utilisateurs de données peuvent utiliser le data catalog pour suivre facilement l'historique afin de localiser le problème et le corriger. Il aide également à comprendre la différence entre les diverses sources et types de données dans l'entreprise.

Glossaire universel et dictionnaire de données

Les données d'une organisation représentent une grande partie de sa valeur, elles doivent donc être accessibles et faciles à comprendre par toutes les parties prenantes potentielles. En général, un data catalog se compose d'un dictionnaire de données et d'un glossaire. Le dictionnaire de données est une collection de toutes les métadonnées (généralement stockées dans des tableaux) concernant les données de votre catalogue, y compris la signification, les relations avec les autres données, l'origine, l'utilisation et le format. Le glossaire permet aux membres de l'entreprise d'identifier les termes commerciaux utilisés dans le catalogue et de les utiliser de la même manière dans toute l'entreprise.

Profilage

Le profilage des données est le processus qui consiste à évaluer l'exhaustivité, l'exactitude, la cohérence et l'actualité de vos données. En fait, le profilage des données détermine l'utilité des données pour résoudre les problèmes de l'entreprise. Ce processus est important pour maintenir votre ensemble de données lorsque vous récoltez des données de sources multiples.