Que sont les données non structurées ?
Les données non structurées sont des données qui manquent de structure ou d'architecture identifiable. Cela signifie qu'elles ne se conforment pas à un modèle de données prédéfini et que, par conséquent, elles ne sont pas adaptées à une base de données relationnelle classique. L'absence de structure facilement identifiable rend leur lecture difficile par les programmes informatiques.
Aujourd'hui, on estime que la quantité de données générées par les grandes entreprises augmente rapidement, à un rythme de 40 à 60 % par an.
D'où viennent les données non structurées ?
Parmi les sources de données non structurées, citons les :
- Pages Web
- Vidéos
- Commentaires des utilisateurs sur les blogs et les sites de réseaux sociaux
- Mémos
- Rapports
- Réponses aux enquêtes
- Documents (Word, PPT, PDF, Texte)
- Textes non structurés
- Transcriptions d'appels du service clientèle
- Images sur Internet (JPEG, PNG, GIFs, etc.)
- Journaux de presse
Ces données sont stockées dans des bases de données, des journaux de transactions, des e-mails, des enregistrements vocaux, etc. Elles sont généralement trop peu structurées, trop fragmentées et éparpillées pour qu'il soit possible d'en tirer des enseignements en un coup d'œil. Le simple fait de les stocker telles quelles sont ne sert à rien.
Si ces données étaient rendues cohérentes au-delà des silos et facilement accessibles dans l'ensemble de l'entreprise, si leurs modèles étaient décodés et si des informations étaient extraites par l'analyse des données, elles pourraient fournir aux parties prenantes un grand nombre d'informations précieuses.
Une nouvelle forme émergente de données non structurées est celle des données machine. Il s'agit notamment des fichiers journaux des sites Web, des serveurs, des réseaux et des applications mobiles qui enregistrent une grande quantité de données d'activité et de performance. Les entreprises capturent et analysent de plus en plus de données provenant de l'Internet des objets et des appareils connectés, même des capteurs intelligents sur les équipements de fabrication.

Stocker des données non structurées : les défis
Bien que l'accumulation de données non structurées sans les utiliser à des fins d'analyse ne serve aucun objectif pratique, leur stockage n'est pas si simple non plus. Plusieurs problèmes peuvent se poser :
- Les données non structurées sont littéralement omniprésentes et occupent une grande partie de l'espace de stockage. Comme une grande partie de ces données se présente sous la forme de fichiers volumineux tels que des vidéos, des fichiers audio et des images, elles occupent une grande partie de l'espace de stockage.
- Par rapport aux données structurées, dont l'architecture est compacte et soignée, les données non structurées coûtent beaucoup plus cher à conserver ou à entretenir.
- En raison de leur manque de structure et d'architecture, il est souvent difficile d'effectuer des recherches, de supprimer des parties ou de lancer des mises à jour dans le système.
- Plus la quantité de données non structurées est importante, plus il devient difficile de les indexer.
Comment stocker les données non structurées ?
Il existe plusieurs méthodes possibles pour stocker des données non structurées :
- Elles doivent d'abord être converties dans un format plus facile à gérer. Le langage eXtensible Markup Language (XML) est souvent le format de choix.
- Un système de stockage adressable par le contenu (Content Addressable Storage System, CAS) est utilisé pour stocker les données non structurées. Ce système stocke les données en accédant à leurs métadonnées et en attribuant un nom unique à chaque élément ou objet stocké dans les données. L'objet est récupérable en fonction de son contenu et non de son emplacement.
- Les données non structurées peuvent être stockées dans un système logiciel, puis utilisées pour la maintenance des bases de données relationnelles. Certains systèmes de bases de données relationnelles offrent la possibilité d'utiliser le langage de requête structuré (SQL) pour soumettre des requêtes et assurer la maintenance de la base de données.
- Un Binary Large Object (également appelé BLOB) est un système pratique pour le stockage de données non structurées. Un grand objet binaire est une collection de données binaires stockées comme une seule entité dans un système de gestion de base de données. Les grands objets binaires sont généralement des images, des fichiers audio ou d'autres objets multimédias. Parfois, même le code exécutable binaire est stocké comme un grand objet binaire.
Inconvénients des données non structurées
Les inconvénients des données non structurées sont clairs :
- L'absence de schéma et de structure rend les données non structurées difficiles à gérer, en plus d'être encombrantes à stocker.
- L'indexation des données non structurées n'est pas seulement difficile, elle laisse la porte grande ouverte aux erreurs en raison d'une structure floue et du manque d'attributs prédéfinis. L'exécution de recherches est une activité assez pénible, car les résultats de la recherche ne sont pas assez précis pour être utiles.
- Il est également extrêmement difficile de sécuriser les données non structurées.
Extraction d'informations à partir de données non structurées
Comme mentionné précédemment, les données non structurées sont notoirement difficiles à étiqueter, à indexer et à lire. Elles ne peuvent pas être facilement interprétées par les algorithmes conventionnels. Les risques d'erreurs sont élevés. Vous trouverez ci-dessous quelques stratégies utiles pour exploiter les données non structurées afin d'en extraire des informations exploitables :
- Le stockage des données dans un référentiel virtuel tel que Documentum permet de les étiqueter automatiquement.
- Exécution de divers outils de data mining.
- La taxonomie ou classification des données leur donne une structure et une hiérarchie. Cela simplifie le processus de recherche grâce à sa logique inhérente.
- Grâce à l'utilisation de plateformes d'application telles que le traitement analytique en ligne étendu (Extended Online Analytical Processing, XOLAP), qui permet d'extraire des informations des e-mails et des documents XML.
- Les outils et techniques utilisés sur les données non structurées dans les environnements de big data comprennent les outils d'analyse de texte. Ceux-ci recherchent des modèles, des mots-clés et des sentiments dans les données textuelles à un niveau très avancé. Une autre technologie est le traitement du langage naturel (Natural Language Processing, NLP), une sorte d'intelligence artificielle qui évalue le contexte et déduit le sens du texte et de la parole humaine. Cela se fait au moyen d'algorithmes de deep learning qui utilisent des réseaux neuronaux pour analyser les données.
D'autres techniques utilisées dans l'analyse des données non structurées peuvent inclure le data mining, ou l'utilisation du machine learning et l'analyse prédictive.

Avantages des données non structurées
Les données non structurées ne sont cependant pas sans avantages. Certains de ses inconvénients peuvent devenir plus favorables.
L'absence de schéma permet une certaine souplesse
L'absence de schéma et d'architecture des données non structurées les rend moins rigides. En fait, elles peuvent être très flexibles. Cette flexibilité les rend évolutives et sans contraintes. Les données non structurées sont portables.
Une source d'informations plus riche
L'hétérogénéité des sources permet de capturer des données plus riches dans leur format non structuré. Lorsqu'elles sont analysées correctement, les données non structurées peuvent avoir de nombreuses applications et offrir des informations précieuses en matière de business intelligence.
Les données non structurées se présentent sous de nombreux formats
Les ensembles de données peuvent être conservés dans une variété de formats. L'absence d'une structure de stockage uniforme permet aux équipes d'analyse de travailler avec toutes les données disponibles sans devoir d'abord les consolider et les normaliser avant de les analyser. Cela prépare des bases d'analyses plus larges et plus complètes que celles qui seraient possibles dans un format de données plus rigide.
En quoi les données non structurées sont-elles différentes des autres types de données ?
Les big data contiennent d'autres types de données en plus des données non structurées, à savoir des données structurées et semi-structurées.
Données structurées
C'est le contraire des données non structurées à tous points de vue. Les données structurées se présentent en permanence sous une adaptée à une analyse efficace, elles sont organisées au sein d'une base de données ou d'un référentiel formaté de façon similaire.
Le terme « données structurées » s'applique techniquement à toutes les données qui peuvent être stockées dans une base de données. Il s'agit de toutes les données qui peuvent être stockées au moyen d'un langage de requêtes structurées (SQL) dans un tableau comportant des lignes et des colonnes. Ces structures sont caractérisées par leurs clés relationnelles et peuvent facilement être mises en correspondance avec des champs prédéfinis. Les données structurées sont les plus traitées. C'est le moyen le plus simple et le mieux organisé de gérer des informations. Les données relationnelles sont un exemple de données structurées.
Le format rigide des données structurées rend leur mise à l'échelle très difficile. Les données de transaction des systèmes financiers et d'autres applications commerciales en sont un exemple. Dans la plupart des cas, elles doivent se conformer à une structure donnée pour garantir la cohérence des processus et des analyses.
Données semi-structurées
Les données semi-structurées sont des informations qui n'appartiennent pas à une base de données relationnelle. Elles possèdent toutefois certaines propriétés organisationnelles qui les rendent plus faciles à exploiter et à analyser que les données purement non structurées. Par exemple, si des balises de métadonnées sont ajoutées, il y a plus d'informations et de contexte que ce que les données contiennent. Les données XML en sont un exemple.
Selon certains experts en data management, toutes les données, même non structurées, présentent un certain niveau de structure. Ils affirment que la frontière entre les données non structurées et semi-structurées est floue. Étant donné que les données non structurées ont tendance à contenir un riche ensemble d'informations que les data scientists peuvent utiliser pour mieux structurer leurs modèles, on ne soulignera jamais assez l'importance des données non structurées.