Cosa sono i dati non strutturati?

I dati non strutturati sono dati che mancano di una struttura o architettura identificabile. Questo significa che non sono conformi a un modello di dati predefinito e, di conseguenza, non sono adatti a un database relazionale tradizionale. Non avere una struttura facilmente identificabile li rende difficili da leggere per un programma di computer.

Diagramma di dati non strutturati

Oggi, la quantità di dati generati dalle grandi organizzazioni aziendali è stimata in rapida crescita, ad un tasso del 40-60% all'anno.

Da dove vengono i dati non strutturati?

Alcune fonti di dati non strutturati includono:

  • Pagine web
  • Video
  • Commenti degli utenti su blog e siti di social media
  • Memo
  • Report
  • Risposte ai sondaggi
  • Documenti (Word, PPT, PDF, testo)
  • Testi non strutturati
  • Trascrizioni delle chiamate al servizio clienti
  • Immagini su Internet (JPEG, PNG, GIF, ecc.)
  • Registri dei media

Questi dati sono memorizzati in database, registri delle transazioni, e-mail, registri vocali e così via. Di solito sono troppo poco strutturati, frammentati e sparsi per ricavarne intuizioni a colpo d'occhio. Semplicemente memorizzarli così come sono non serve ad alcuno scopo.

Se questi dati fossero resi coesivi attraverso i silos e facilmente accessibili all'interno di un'organizzazione, i loro modelli decodificati e le intuizioni estratte attraverso l'analisi dei dati potrebbero fornire alle parti interessate una grande quantità di informazioni preziose.

Una nuova forma emergente di dati non strutturati sono i dati macchina. Questi includono i file di registro da siti web, server, reti e applicazioni mobili che registrano una grande quantità di attività e dati sulle prestazioni. In maniera crescente le aziende stanno catturando e analizzando i dati dall'Internet of Things e dai dispositivi connessi, perfino dai sensori intelligenti sulle attrezzature di produzione.

Report O'Reilly: costruire un'infrastruttura di dati unificata
Report O'Reilly: costruire un'infrastruttura di dati unificata
Solo un terzo delle aziende si è evoluto in organizzazioni guidate dai dati. Qual è la soluzione? Scoprilo in questo eBook!

Memorizzazione di dati non strutturati: le sfide

Anche se accumulare dati non strutturati senza utilizzarli per l'analisi non serve a nessuno scopo pratico, neanche immagazzinarli è così semplice. Ci possono essere diversi problemi:

  • I dati non strutturati sono letteralmente dappertutto e occupano una grande quantità di spazio di archiviazione. Poiché porzioni significative sono sotto forma di file di grandi dimensioni come video, audio e immagini, occupano grandi fette del grafico a torta dello spazio di memoria.
  • Rispetto ai dati strutturati, con la loro architettura compatta e ordinata, i dati non strutturati costano molto di più da tenere in giro o mantenere.
  • A causa della loro mancanza di struttura e architettura, eseguire ricerche, cancellare porzioni o lanciare aggiornamenti nel sistema è spesso difficile.
  • Più grande è la quantità di dati non strutturati, più difficile diventa indicizzarli.

Come si possono conservare i dati non strutturati?

Ci sono alcuni metodi possibili per memorizzare i dati non strutturati:

  • Dovrebbero prima essere convertiti in un formato più facilmente gestibile. Extensible Markup Language (XML) è spesso il formato scelto.
  • Un Content Addressable Storage System (CAS) è usato per memorizzare dati non strutturati. Questo sistema memorizza i dati accedendo ai suoi metadati e assegnando un nome unico ad ogni elemento o oggetto memorizzato nei dati. L'oggetto è recuperabile in base al suo contenuto, non alla sua posizione.
  • I dati non strutturati possono essere immagazzinati in un sistema software e poi usati per mantenere i database relazionali. Alcuni sistemi di database relazionali danno la possibilità di usare il linguaggio SQL (Structured Query Language) per presentare query e mantenere il database.
  • Un Binary Large Object (chiamato anche BLOB) è un sistema praticabile per memorizzare dati non strutturati. Un grande oggetto binario è una raccolta di dati binari memorizzati come singola entità in un sistema di gestione di database. I grandi oggetti binari sono tipicamente immagini, audio o altri oggetti multimediali. A volte anche il codice binario eseguibile è memorizzato come un grande oggetto binario.

Svantaggi dei dati non strutturati

Gli svantaggi dei dati non strutturati sono chiari:

  • L'assenza di schema e struttura rende i dati non strutturati difficili da gestire, oltre ad essere ingombranti da archiviare.
  • Indicizzare i dati non strutturati non è solo difficile, ma lascia la porta aperta all'errore a causa di una struttura confusa e della mancanza di attributi predefiniti. Eseguire ricerche è un'attività piuttosto dolorosa, poiché i risultati della ricerca non sono abbastanza accurati da essere utili.
  • È anche estremamente difficile mantenere sicuri i dati non strutturati.

Estrarre informazioni da dati non strutturati

Come menzionato in precedenza, i dati non strutturati sono notoriamente difficili da etichettare, indicizzare e leggere. Non possono essere facilmente interpretati da algoritmi convenzionali. Le possibilità di errore sono alte. Di seguito sono elencate alcune strategie utili nell'estrazione di dati non strutturati per ricavarne informazioni utilizzabili:

  • Memorizzare i dati in un repository virtuale come Documentum permette di etichettarli automaticamente.
  • Esecuzione di vari strumenti di data mining.
  • La tassonomia o classificazione dei dati conferisce loro struttura e gerarchia. Questo semplifica il processo di ricerca con la sua logica intrinseca.
  • Attraverso l'uso di piattaforme applicative come l'elaborazione analitica online estesa (XOLAP), che è utile per estrarre informazioni da e-mail e documenti basati su XML.
  • Gli strumenti e le tecniche utilizzate sui dati non strutturati in ambienti di big data includono strumenti di analisi del testo. Questi cercano modelli, parole chiave e opinioni nei dati testuali ad un livello molto avanzato. Un'altra è la tecnologia di elaborazione del linguaggio naturale (NLP), un tipo di intelligenza artificiale che valuta il contesto e ricava il significato nel testo e nel discorso umano. Viene realizzata per mezzo di algoritmi di deep learning che utilizzano reti neurali per analizzare i dati.

Altre tecniche usate nell'analisi dei dati non strutturati possono includere il data mining o l'uso del machine learning e dell'analisi predittiva.

Modernizza la tua architettura di dati e analisi
Modernizza la tua architettura di dati e analisi
Dai un'occhiata a questi 13 casi d'uso per apprendere a supportare il complesso panorama odierno di dati e analisi.

Vantaggi dei dati non strutturati

I dati non strutturati non sono tuttavia privi di vantaggi. Alcuni dei suoi svantaggi possono diventare più favorevoli.

La mancanza di schema permette flessibilità

La mancanza di schema e architettura dei dati non strutturati li rende meno rigidi. Infatti, possono essere altamente flessibili. Questa flessibilità li rende scalabili e senza vincoli. I dati non strutturati sono portatili.

Fonte di informazione più ricca

L'eterogeneità delle fonti assicura che vengano catturati dati più ricchi nel loro formato non strutturato. Se analizzati correttamente, i dati non strutturati possono avere una varietà di applicazioni e offrire preziose intuizioni di business intelligence.

I dati non strutturati sono disponibili in molti formati

I set di dati possono essere mantenuti in una varietà di formati. La mancanza di una struttura di archiviazione uniforme offre ai team di analisi dei dati la libertà di analizzare e lavorare con tutti i dati disponibili senza doversi prima concentrare sul consolidamento e sulla standardizzazione. Questo pone le basi per analisi più ampie e complete di quelle che potrebbero essere possibili in un formato di dati più rigido.

Come i dati non strutturati sono diversi dagli altri tipi di dati

I big data contengono altri tipi di dati oltre a quelli non strutturati, cioè i dati strutturati e semistrutturati.

Dati strutturati

Questo è l'opposto dei dati non strutturati in ogni modo. I dati strutturati si presentano per un'analisi efficace in qualsiasi momento, essendo organizzati in un database o in un archivio formattato simile.

Il termine dati strutturati si applica tecnicamente a tutti i dati che possono essere memorizzati in un database. Riguarda tutti i dati che possono essere immagazzinati attraverso un linguaggio di query strutturato (SQL) in una tabella con righe e colonne. Tali strutture sono caratterizzate dalle loro chiavi relazionali e possono essere facilmente mappate in campi predefiniti. I dati strutturati sono il tipo più elaborato. È il modo più semplice e organizzato di gestire le informazioni. I dati relazionali sono un esempio di dati strutturati.

Il formato rigido dei dati strutturati li rende molto difficili da scalare. Un esempio potrebbero essere i dati delle transazioni nei sistemi finanziari e altre applicazioni aziendali. Nella maggior parte dei casi, di solito devono essere conformi a una data struttura per garantire la coerenza dei processi e delle analisi.

Dati semistrutturati

I dati semistrutturati sono informazioni che non appartengono a un database relazionale. Tuttavia, hanno ancora alcune proprietà organizzative che li rendono più facili da estrarre e analizzare rispetto ai dati puramente non strutturati. Per esempio, se vengono aggiunti tag di metadati, ci sono più informazioni e contesto su ciò che i dati contengono. I dati XML sono un esempio.

Secondo alcuni esperti di gestione dei dati, tutti i dati, anche quelli non strutturati, hanno un certo livello di struttura. Essi sostengono che la linea tra dati non strutturati e semistrutturati è sfocata. Dato che i dati non strutturati tendono a contenere una ricca serie di intuizioni che i data scientist possono utilizzare per strutturare meglio i loro modelli, l'importanza dei dati non strutturati non può essere sufficientemente evidenziata.