Cos'è un catalogo di dati?

Un catalogo di dati è un inventario delle risorse di dati di un'azienda che permette agli utenti di trovare velocemente le informazioni di cui hanno bisogno. Il catalogo è per lo più costituito da metadati che forniscono informazioni di base su altri dati e ne descrivono la natura. Unitamente alla gestione dei dati e agli strumenti di ricerca, si ha un catalogo di dati.

Diagramma del catalogo di dati

Nell'era dei big data, i cataloghi di dati sono una componente chiave nella gestione dei dati. Le persone che lavorano con i dati usano i cataloghi di dati per cercare le risorse di dati necessarie dalla totalità delle fonti di un'organizzazione, che possono essere sparse e difficili da ricercare. Le implementazioni riuscite dei cataloghi di dati possono fare una grande differenza nella velocità e nella qualità dell'analisi dei dati poiché aiutano gli utenti a trovare rapidamente i dati di cui hanno bisogno.

I cataloghi di dati offrono una serie di vantaggi all'organizzazione. In primo luogo, un catalogo di dati può dare agli utenti tutte le fonti giuste, nel formato giusto, nella giusta visualizzazione, al momento giusto, con il giusto livello di controllo. I cataloghi di dati fanno in modo che tutte le informazioni a disposizione in tutte le diverse fonti in un contesto multi-cloud possano essere trovate e siano immediatamente consumabili. Questo significa che gli utenti possono costruire e distribuire modelli in un contesto in tempo reale.

Oltre a offrire un contesto agli analisti di dati che devono utilizzare i dati per scopi aziendali, i cataloghi di dati permettono anche di automatizzare la gestione dei metadati. Questa automazione consente al catalogo di diventare la singola fonte di dati più affidabile nell'organizzazione, rendendo collaborativo per le parti interessate curare e raccogliere i dati secondo le loro necessità.

Una biblioteca è un'analogia frequentemente usata per descrivere i cataloghi di dati. Una biblioteca si dimostra la metafora ideale, in quanto fa scorta di risorse di informazioni (come i libri) e richiede un sistema per organizzare tali risorse. In questa analogia, mentre i libri fungono da patrimonio informativo, le informazioni inerenti al libro come il titolo, l'autore, l'ISBN e il genere fungono da metadati. Un catalogo mantenuto per identificare i libri, la loro posizione e altre informazioni è esattamente come funziona un catalogo di dati. Consente ai lettori di trovare l'elenco dei libri disponibili, curarlo secondo i loro gusti e scegliere quelli di cui hanno bisogno rapidamente.

Report O'Reilly: costruire un'infrastruttura di dati unificata
Report O'Reilly: costruire un'infrastruttura di dati unificata
Solo un terzo delle aziende si è evoluto in organizzazioni guidate dai dati. Qual è la soluzione? Scoprilo in questo eBook!

Esigenze aziendali per un catalogo di dati

I dati aziendali crescono enormemente ogni singolo giorno. Si prevede che la datasfera globale si espanderà da 33 Zettabyte (ZB) del 2018 a un enorme 175 ZB nei prossimi cinque anni. I dati su questa scala sono difficili da gestire ed esplorare. I dati possono essere memorizzati su più fornitori di cloud, in formati diversi, con tecnologie di archiviazione differenti. La qualità dei dati può degradarsi nel tempo poiché i dati hanno una durata di conservazione e i set di dati cambiano continuamente (si aggiungono nuovi set di dati, si ricavano nuovi set di dati da quelli esistenti, ecc.). Si hanno anche diversi tipi di utenti, dai data scientist passando per gli sviluppatori fino agli utenti aziendali, che hanno ciascuno requisiti e competenze differenti quando si tratta di dati. Non si può sempre dipendere dall'IT per costruire una nuova soluzione ogni volta che un utente aziendale ha bisogno di risolvere un problema aziendale. C'è bisogno di un modo per gestire tutto questo.

Un catalogo di dati è un passo chiave verso la strutturazione dei dati in un modo logico e pieno di risorse. Può rivelarsi una risorsa importante per un'organizzazione in quanto può aiutare a:

  • Creare un serbatoio per i dati, includendo informazioni sulla qualità, struttura, sull'uso e sulle statistiche dei dati
  • Gli utenti collaborano a distanza sui dati in quanto accedono ai metadati insieme ai dati veri e propri
  • Assicurare che i dati siano accurati e coerenti in tutta la datasfera aggiornandosi automaticamente e frequentemente
  • Accedere al lignaggio dei dati e visualizzare informazioni come l'origine, le modifiche e gli accessi ai dati
  • Condividere le risorse di dati con le parti interessate in modo sicuro
Modernizza la tua architettura di dati e analisi
Modernizza la tua architettura di dati e analisi
Dai un'occhiata a questi 13 casi d'uso per apprendere a supportare il complesso panorama odierno di dati e analisi.

Fattori chiave di un catalogo di dati

Un catalogo di dati può essere creato in vari modi, ma per assicurare il successo dell'implementazione di un catalogo di dati efficiente, sono necessari i seguenti fattori.

Connettori e strumenti di curatela

Un catalogo di dati serve come unico luogo di fiducia per i dati. I connettori mappano gli insiemi di dati fisici nel database; quindi è importante avere un'ampia gamma di connettori per rinforzare il catalogo di dati. Poiché i metadati possono essere raccolti da diverse fonti come Salesforce, query SQL, business intelligence o strumenti di integrazione dei dati, è importante curare anche questi dati. La convalida e la certificazione sono processi importanti che migliorano l'efficienza di un catalogo di dati e rendono la governance dei dati un processo sostenibile.

Automazione

L'automazione nei cataloghi di dati permette agli utenti dei dati di concentrarsi su processi cruciali come la convalida e la correzione dei problemi dei dati. Questo aumenta la velocità e l'agilità del catalogo di dati e arricchisce i set di dati all'interno dell'organizzazione.

Opzioni di ricerca efficienti

La ricerca è il componente principale di un catalogo di dati. Una potente capacità di ricerca offre una vasta gamma di opzioni di selezione ai cittadini dei dati e un comodo accesso ai dati. Pertanto, è importante avere diversi parametri disponibili per eseguire ricerche avanzate in un unico passaggio.

Tracciamento del lignaggio o del ciclo di vita

Il lignaggio offre uno sguardo sul ciclo di vita dei dati visualizzati. In caso di eventuali discrepanze, gli utenti dei dati possono usare il catalogo di dati per tracciare facilmente il lignaggio, localizzare il problema e correggerlo. Aiuta anche a comprendere la differenza tra varie fonti e tipi di dati nell'organizzazione.

Glossario universale e dizionario dei dati

I dati di un'organizzazione rappresentano gran parte del suo valore, quindi devono essere accessibili e facili da comprendere per tutti i potenziali soggetti interessati. Normalmente, un catalogo di dati è composto da un dizionario di dati e un glossario. Il dizionario di dati è una raccolta di tutti i metadati (di solito memorizzati in tabelle) riguardanti i dati nel catalogo, incluso il significato, le relazioni con altri dati, l'origine, l'uso e il formato. Il glossario permette ai membri dell'organizzazione di identificare i termini commerciali usati nel catalogo e usarli nello stesso modo in tutta l'azienda.

Profilazione

La profilazione dei dati è il processo di valutazione dei dati per completezza, accuratezza, coerenza e attualità. Fondamentalmente la profilazione determina l'utilità dei dati per risolvere i problemi aziendali. Questo è importante per mantenere il proprio bacino di dati quando si raccolgono dati da più fonti.