Cosa sono i dati non strutturati?
I dati non strutturati sono dati che mancano di una struttura o architettura identificabile. Questo significa che non sono conformi a un modello di dati predefinito e, di conseguenza, non sono adatti a un database relazionale tradizionale. Non avere una struttura facilmente identificabile li rende difficili da leggere per un programma di computer.
Oggi, la quantità di dati generati dalle grandi organizzazioni aziendali è stimata in rapida crescita, ad un tasso del 40-60% all'anno.
Da dove vengono i dati non strutturati?
Alcune fonti di dati non strutturati includono:
- Pagine web
- Video
- Commenti degli utenti su blog e siti di social media
- Memo
- Report
- Risposte ai sondaggi
- Documenti (Word, PPT, PDF, testo)
- Testi non strutturati
- Trascrizioni delle chiamate al servizio clienti
- Immagini su Internet (JPEG, PNG, GIF, ecc.)
- Registri dei media
Questi dati sono memorizzati in database, registri delle transazioni, e-mail, registri vocali e così via. Di solito sono troppo poco strutturati, frammentati e sparsi per ricavarne intuizioni a colpo d'occhio. Semplicemente memorizzarli così come sono non serve ad alcuno scopo.
Se questi dati fossero resi coesivi attraverso i silos e facilmente accessibili all'interno di un'organizzazione, i loro modelli decodificati e le intuizioni estratte attraverso l'analisi dei dati potrebbero fornire alle parti interessate una grande quantità di informazioni preziose.
Una nuova forma emergente di dati non strutturati sono i dati macchina. Questi includono i file di registro da siti web, server, reti e applicazioni mobili che registrano una grande quantità di attività e dati sulle prestazioni. In maniera crescente le aziende stanno catturando e analizzando i dati dall'Internet of Things e dai dispositivi connessi, perfino dai sensori intelligenti sulle attrezzature di produzione.

Memorizzazione di dati non strutturati: le sfide
Anche se accumulare dati non strutturati senza utilizzarli per l'analisi non serve a nessuno scopo pratico, neanche immagazzinarli è così semplice. Ci possono essere diversi problemi:
- I dati non strutturati sono letteralmente dappertutto e occupano una grande quantità di spazio di archiviazione. Poiché porzioni significative sono sotto forma di file di grandi dimensioni come video, audio e immagini, occupano grandi fette del grafico a torta dello spazio di memoria.
- Rispetto ai dati strutturati, con la loro architettura compatta e ordinata, i dati non strutturati costano molto di più da tenere in giro o mantenere.
- A causa della loro mancanza di struttura e architettura, eseguire ricerche, cancellare porzioni o lanciare aggiornamenti nel sistema è spesso difficile.
- Più grande è la quantità di dati non strutturati, più difficile diventa indicizzarli.
Come si possono conservare i dati non strutturati?
Ci sono alcuni metodi possibili per memorizzare i dati non strutturati:
- Dovrebbero prima essere convertiti in un formato più facilmente gestibile. Extensible Markup Language (XML) è spesso il formato scelto.
- Un Content Addressable Storage System (CAS) è usato per memorizzare dati non strutturati. Questo sistema memorizza i dati accedendo ai suoi metadati e assegnando un nome unico ad ogni elemento o oggetto memorizzato nei dati. L'oggetto è recuperabile in base al suo contenuto, non alla sua posizione.
- I dati non strutturati possono essere immagazzinati in un sistema software e poi usati per mantenere i database relazionali. Alcuni sistemi di database relazionali danno la possibilità di usare il linguaggio SQL (Structured Query Language) per presentare query e mantenere il database.
- Un Binary Large Object (chiamato anche BLOB) è un sistema praticabile per memorizzare dati non strutturati. Un grande oggetto binario è una raccolta di dati binari memorizzati come singola entità in un sistema di gestione di database. I grandi oggetti binari sono tipicamente immagini, audio o altri oggetti multimediali. A volte anche il codice binario eseguibile è memorizzato come un grande oggetto binario.
Svantaggi dei dati non strutturati
Gli svantaggi dei dati non strutturati sono chiari:
- L'assenza di schema e struttura rende i dati non strutturati difficili da gestire, oltre ad essere ingombranti da archiviare.
- Indicizzare i dati non strutturati non è solo difficile, ma lascia la porta aperta all'errore a causa di una struttura confusa e della mancanza di attributi predefiniti. Eseguire ricerche è un'attività piuttosto dolorosa, poiché i risultati della ricerca non sono abbastanza accurati da essere utili.
- È anche estremamente difficile mantenere sicuri i dati non strutturati.
Estrarre informazioni da dati non strutturati
Come menzionato in precedenza, i dati non strutturati sono notoriamente difficili da etichettare, indicizzare e leggere. Non possono essere facilmente interpretati da algoritmi convenzionali. Le possibilità di errore sono alte. Di seguito sono elencate alcune strategie utili nell'estrazione di dati non strutturati per ricavarne informazioni utilizzabili:
- Memorizzare i dati in un repository virtuale come Documentum permette di etichettarli automaticamente.
- Esecuzione di vari strumenti di data mining.
- La tassonomia o classificazione dei dati conferisce loro struttura e gerarchia. Questo semplifica il processo di ricerca con la sua logica intrinseca.
- Attraverso l'uso di piattaforme applicative come l'elaborazione analitica online estesa (XOLAP), che è utile per estrarre informazioni da e-mail e documenti basati su XML.
- Gli strumenti e le tecniche utilizzate sui dati non strutturati in ambienti di big data includono strumenti di analisi del testo. Questi cercano modelli, parole chiave e opinioni nei dati testuali ad un livello molto avanzato. Un'altra è la tecnologia di elaborazione del linguaggio naturale (NLP), un tipo di intelligenza artificiale che valuta il contesto e ricava il significato nel testo e nel discorso umano. Viene realizzata per mezzo di algoritmi di deep learning che utilizzano reti neurali per analizzare i dati.
Altre tecniche usate nell'analisi dei dati non strutturati possono includere il data mining o l'uso del machine learning e dell'analisi predittiva.

Vantaggi dei dati non strutturati
I dati non strutturati non sono tuttavia privi di vantaggi. Alcuni dei suoi svantaggi possono diventare più favorevoli.
La mancanza di schema permette flessibilità
La mancanza di schema e architettura dei dati non strutturati li rende meno rigidi. Infatti, possono essere altamente flessibili. Questa flessibilità li rende scalabili e senza vincoli. I dati non strutturati sono portatili.
Fonte di informazione più ricca
L'eterogeneità delle fonti assicura che vengano catturati dati più ricchi nel loro formato non strutturato. Se analizzati correttamente, i dati non strutturati possono avere una varietà di applicazioni e offrire preziose intuizioni di business intelligence.
I dati non strutturati sono disponibili in molti formati
I set di dati possono essere mantenuti in una varietà di formati. La mancanza di una struttura di archiviazione uniforme offre ai team di analisi dei dati la libertà di analizzare e lavorare con tutti i dati disponibili senza doversi prima concentrare sul consolidamento e sulla standardizzazione. Questo pone le basi per analisi più ampie e complete di quelle che potrebbero essere possibili in un formato di dati più rigido.
Come i dati non strutturati sono diversi dagli altri tipi di dati
I big data contengono altri tipi di dati oltre a quelli non strutturati, cioè i dati strutturati e semistrutturati.
Dati strutturati
Questo è l'opposto dei dati non strutturati in ogni modo. I dati strutturati si presentano per un'analisi efficace in qualsiasi momento, essendo organizzati in un database o in un archivio formattato simile.
Il termine dati strutturati si applica tecnicamente a tutti i dati che possono essere memorizzati in un database. Riguarda tutti i dati che possono essere immagazzinati attraverso un linguaggio di query strutturato (SQL) in una tabella con righe e colonne. Tali strutture sono caratterizzate dalle loro chiavi relazionali e possono essere facilmente mappate in campi predefiniti. I dati strutturati sono il tipo più elaborato. È il modo più semplice e organizzato di gestire le informazioni. I dati relazionali sono un esempio di dati strutturati.
Il formato rigido dei dati strutturati li rende molto difficili da scalare. Un esempio potrebbero essere i dati delle transazioni nei sistemi finanziari e altre applicazioni aziendali. Nella maggior parte dei casi, di solito devono essere conformi a una data struttura per garantire la coerenza dei processi e delle analisi.
Dati semistrutturati
I dati semistrutturati sono informazioni che non appartengono a un database relazionale. Tuttavia, hanno ancora alcune proprietà organizzative che li rendono più facili da estrarre e analizzare rispetto ai dati puramente non strutturati. Per esempio, se vengono aggiunti tag di metadati, ci sono più informazioni e contesto su ciò che i dati contengono. I dati XML sono un esempio.
Secondo alcuni esperti di gestione dei dati, tutti i dati, anche quelli non strutturati, hanno un certo livello di struttura. Essi sostengono che la linea tra dati non strutturati e semistrutturati è sfocata. Dato che i dati non strutturati tendono a contenere una ricca serie di intuizioni che i data scientist possono utilizzare per strutturare meglio i loro modelli, l'importanza dei dati non strutturati non può essere sufficientemente evidenziata.