Qu'est-ce que l'analyse de texte ?

L'analyse de texte combine un ensemble de techniques de machine learning, de statistiques et de linguistique pour traiter de grands volumes de textes non structurés ou de textes qui n'ont pas de format prédéfini, afin d'en tirer des informations et des modèles. Elle permet aux entreprises, aux gouvernements, aux chercheurs et aux médias d'exploiter l'énorme contenu à leur disposition pour prendre des décisions cruciales. L'analyse de texte fait appel à diverses techniques : analyse des sentiments, modélisation des thèmes, reconnaissance des entités nommées, fréquence des termes et extraction des événements.

Schéma de l'analyse de texte

Quelle est la différence entre le text mining et l'analyse de texte ?

Le text mining et l'analyse de texte sont souvent utilisés de manière interchangeable. Le terme « text mining » est généralement utilisé pour obtenir des informations qualitatives à partir de textes non structurés, tandis que l'analyse de texte fournit des résultats quantitatifs.

Par exemple, le text mining peut être utilisé pour déterminer si les clients sont satisfaits d'un produit en analysant leurs commentaires et les enquêtes. L'analyse de texte est utilisée pour obtenir des informations plus approfondies, comme l'identification d'un modèle ou d'une tendance à partir d'un texte non structuré. Par exemple, l'analyse de texte peut être utilisée pour comprendre un pic négatif dans l'expérience client, ou la popularité d'un produit.

Les résultats de l'analyse de texte peuvent ensuite être utilisés avec les techniques de data visualization pour une compréhension plus facile et une prise de décision rapide.

Quelle est la pertinence de l'analyse de texte dans le monde d'aujourd'hui ?

En 2020, environ 4,57 milliards de personnes auront accès à l'internet. Cela représente environ 59 % de la population mondiale. Parmi eux, environ 49 % sont actifs sur les médias sociaux. Une énorme quantité de données textuelles est générée chaque jour sous la forme de blogs, de tweets, de commentaires, de discussions de forum et d'enquêtes. En outre, la plupart des interactions avec les clients sont désormais numériques, ce qui crée une autre énorme base de données textuelles.

La plupart des données textuelles ne sont pas structurées et sont éparpillées sur le Web. Si ces données textuelles sont recueillies, rassemblées, structurées et analysées correctement, des connaissances précieuses peuvent en être tirées. Les organisations peuvent utiliser ces connaissances pour prendre des mesures qui améliorent la rentabilité, la satisfaction des clients, la recherche et même la sécurité nationale.

Avantages de l'analyse de texte

L'analyse de texte peut aider de diverses manières les entreprises, les organisations et les mouvements sociaux :

  • Elle aide les entreprises à comprendre les tendances des clients, les performances des produits et la qualité des services. Il en résulte une prise de décision rapide, une amélioration de la business intelligence, une augmentation de la productivité et une réduction des coûts.
  • Elle aide les chercheurs à explorer une grande quantité de littérature préexistante en peu de temps, en extrayant ce qui est pertinent pour leur étude. Cela permet de réaliser plus rapidement des percées scientifiques.
  • Elle aide à comprendre les tendances générales et les opinions de la société, ce qui permet aux gouvernements et aux organes politiques de prendre des décisions.
  • Les techniques d'analyse de texte aident les moteurs de recherche et les systèmes de recherche d'informations à améliorer leurs performances, offrant ainsi des expériences rapides aux utilisateurs.
  • L'analyse de texte aide à affiner les systèmes de recommandation de contenu pour les utilisateurs en catégorisant les contenus connexes.
Ebook d'analyse de texte
Nouvel e-book O'Reilly : Modern Analytics Platforms (Plateformes analytiques modernes)
Apprenez à mettre à niveau votre stratégie d'analyse et à obtenir une plus grande agilité commerciale, une meilleure évolutivité et des informations plus puissantes à partir de vos données.

Techniques et cas d'utilisation de l'analyse de texte

Il existe plusieurs techniques liées à l'analyse du texte non structuré. Chacune de ces techniques est utilisée pour différents scénarios d'utilisation.

Analyse de sentiments

L'analyse des sentiments est utilisée pour identifier les émotions évoquées par le texte non structuré. Le texte d'entrée comprend les commentaires sur les produits, les interactions avec les clients, les messages sur les médias sociaux, les discussions sur les forums ou les blogs. Il existe différents types d'analyse des sentiments. L'analyse de polarité est utilisée pour identifier si le texte exprime un sentiment positif ou négatif. La technique de catégorisation est utilisée pour une analyse plus fine des émotions : confusion, déception ou colère.

Cas d'utilisation de l'analyse des sentiments :

  • Mesurer la réaction des clients à un produit ou à un service
  • Comprendre les tendances de l'audience envers une marque
  • Comprendre les nouvelles tendances dans le monde de consommation
  • Prioriser les problèmes de service à la clientèle en fonction de leur gravité
  • Suivre l'évolution du sentiment des clients dans le temps.

Modélisation thématique

Cette technique est utilisée pour trouver les principaux thèmes ou sujets d'un volume massif de texte ou d'un ensemble de documents. La modélisation thématique identifie les mots-clés utilisés dans le texte pour identifier le sujet de l'article.

Cas d'utilisation de la modélisation thématique :

  • Les grands cabinets juridiques utilisent la modélisation thématique pour examiner des centaines de documents lors de litiges importants.
  • Les médias en ligne utilisent la modélisation thématique pour repérer les sujets tendances sur le Web.
  • Les chercheurs utilisent la modélisation thématique pour une analyse documentaire exploratoire.
  • Les entreprises peuvent déterminer lesquels de leurs produits ont du succès.
  • La modélisation thématique aide les anthropologues à déterminer les questions et les tendances émergentes dans une société à partir du contenu que les gens partagent sur le Web.

Reconnaissance d'entités nommées (NER)

La NER est une technique d'analyse de texte utilisée pour identifier des entités nommées telles que des personnes, des lieux, des organisations et des événements dans des textes non structurés. La NER extrait des substantifs du texte et détermine les valeurs de ces substantifs.

Cas d'utilisation de la reconnaissance des entités nommées :

  • La NER est utilisée pour classer le contenu des actualités en fonction des personnes, des lieux et des organisations qui y figurent.
  • Les moteurs de recherche et de recommandation utilisent les NER pour la recherche d'informations.
  • Pour les grandes chaînes de magasins, la NER est utilisée pour trier les demandes de service à la clientèle et les attribuer à une ville ou un point de vente spécifique.
  • Les hôpitaux peuvent utiliser les NER pour automatiser l'analyse des rapports de laboratoire.

Fréquence des termes - Fréquence inverse des documents

TF-IDF est utilisé pour déterminer la fréquence d'apparition d'un terme dans un grand texte ou un groupe de documents et donc l'importance de ce terme pour le document. Cette technique utilise un facteur inverse de fréquence de document pour filtrer les mots, articles, propositions et conjonctions qui apparaissent fréquemment mais qui ne sont pas pertinents.

Extraction d'événements

Il s'agit d'une technique d'analyse de texte qui constitue un progrès par rapport à l'extraction d'entités nommées. L'extraction d'événements reconnaît les événements mentionnés dans le contenu textuel, par exemple, les fusions, les acquisitions, les mouvements politiques ou les réunions importantes. L'extraction d'événements nécessite une compréhension avancée de la sémantique du contenu textuel. Les algorithmes avancés s'efforcent de reconnaître non seulement les événements, mais aussi le lieu, les participants, la date et l'heure le cas échéant. L'extraction d'événements est une technique bénéfique qui a de multiples usages dans différents domaines.

Cas d'utilisation de l'extraction d'événements :

  • Analyse des liens : il s'agit d'une technique permettant de comprendre « qui a rencontré qui et quand » par l'extraction d'événements à partir de la communication sur les médias sociaux. Elle est utilisée par les organismes chargés de l'application de la loi pour prédire les éventuelles menaces pour la sécurité nationale.
  • Analyse géospatiale : lorsque les événements sont extraits avec leurs emplacements, les informations peuvent être utilisées pour les superposer sur une carte. Ceci est utile pour l'analyse géospatiale des événements.
  • Surveillance des risques commerciaux : les grandes organisations font des affaires avec multiples entreprises partenaires et fournisseurs. Les techniques d'extraction d'événements permettent aux entreprises de surveiller le Web pour savoir si l'un de leurs partenaires, comme des fournisseurs ou les vendeurs, est confronté à des événements indésirables tels que des poursuites judiciaires ou des faillites.

Étapes de l'analyse de texte

L'analyse de texte est une technique sophistiquée qui implique plusieurs étapes préalables pour rassembler et nettoyer le texte non structuré. L'analyse de texte peut être réalisée de différentes manières. Voici un exemple de flux de travail modèle.

  1. Collecte de données : les données textuelles sont souvent éparpillées dans les bases de données internes d'une organisation, notamment dans les discussions avec les clients, les courriers électroniques, les commentaires sur les produits, les tickets de service et les enquêtes Net Promoter Score. Les utilisateurs génèrent également des données externes sous la forme d'articles de blog, de nouvelles, de critiques, de messages sur les médias sociaux et de discussions sur les forums Web. Si les données internes sont facilement disponibles pour l'analyse, les données externes doivent être recueillies.
  2. Préparation des données : une fois que les données textuelles non structurées sont disponibles, elles doivent passer par plusieurs étapes préparatoires avant que les algorithmes de machine learning puissent les analyser. Dans la plupart des logiciels d'analyse de texte, cette étape se déroule automatiquement. La préparation du texte comprend plusieurs techniques utilisant le traitement du langage naturel comme suit :
    • Tokenisation : au cours de cette étape, les algorithmes d'analyse de texte décomposent la chaîne continue de données textuelles en tokens ou en unités plus petites qui constituent des mots ou des phrases entières. Par exemple, les jetons de caractères peuvent être chaque lettre individuelle de ce mot : L-A-P-I-N. Ou bien, vous pouvez les décomposer en jetons de sous-mots : Lapin-e. Les jetons constituent la base de tout traitement du langage naturel. Cette étape élimine également tous les contenus indésirables du texte, y compris les espaces blancs.
    • Balisage des parties du discours : au cours de cette étape, une catégorie grammaticale (nom, verbe, adjectif et adverbe) est attribuée à chaque token des données.
    • Analyse syntaxique : l'analyse syntaxique est le processus de compréhension de la structure syntaxique du texte. L'analyse syntaxique des dépendances et l'analyse syntaxique des constituants sont deux techniques populaires utilisées pour obtenir la structure syntaxique.
    • Lemmatisation et stemming : ce sont deux processus utilisés dans la préparation des données pour supprimer les suffixes et affixes associés aux tokens et conserver sa forme de dictionnaire ou lemme.
    • Suppression des mots vides : il s'agit de la phase dans laquelle tous les tokens ont une occurrence fréquente mais n'ont aucune valeur dans l'analyse du texte. Cela inclut des mots tels que « et », « le », « la » et « a ».
  3. Analyse de texte : après la préparation des données textuelles non structurées, les techniques d'analyse de texte peuvent maintenant être utilisées pour obtenir des informations. Il existe plusieurs techniques utilisées pour l'analyse de texte. Les plus connues sont la classification et l'extraction de texte.

    Classification des textes : cette technique est également connue sous le nom de catégorisation ou balisage du texte. Au cours de cette étape, certaines balises sont attribuées au texte en fonction de sa signification. Par exemple, lors de l'analyse des commentaires des clients, des étiquettes telles que « positif » ou « négatif » sont attribuées. La classification du texte est souvent effectuée à l'aide de systèmes basés sur des règles ou des systèmes de machine learning. Dans les systèmes à base de règles, les humains définissent l'association entre un modèle de langage et une étiquette. « Bon » peut indiquer un avis positif, « mauvais » peut identifier un avis négatif.

    Les systèmes de machine learning utilisent des exemples passés ou des données de formation pour attribuer des étiquettes à un nouvel ensemble de données. Les données d'apprentissage et leur volume sont cruciaux, car des ensembles de données plus importants aident les algorithmes de machine learning à donner des résultats d'étiquetage précis. Les principaux algorithmes utilisés pour la classification de textes sont les machines à vecteurs de support (SVM), la famille d'algorithmes Naive Bayes (NB) et les algorithmes de deep learning.

    Extraction de texte : il s'agit du processus d'extraction d'informations reconnaissables et structurées à partir d'un texte d'entrée non structuré. Ces informations comprennent des mots-clés, des noms de personnes, de lieux et d'événements. Les expressions régulières sont l'une des méthodes simples d'extraction de texte. Cependant, il s'agit d'une méthode compliquée à gérer lorsque la complexité des données d'entrée augmente. Les champs aléatoires conditionnels (CRF) sont une méthode statistique utilisée dans l'extraction de texte. CRF est une méthode sophistiquée mais efficace pour extraire des informations essentielles d'un texte non structuré.

Que se passe-t-il après l'analyse de texte ?

Une fois que les méthodes d'analyse de texte sont utilisées pour traiter les données non structurées, les informations de sortie peuvent être transmises aux systèmes de data visualization. Les résultats peuvent alors être visualisés sous forme de graphiques, de tracés, de tableaux, d'infographies ou de tableaux de bord. Ces données visuelles permettent aux entreprises de repérer rapidement les tendances dans les données et de prendre des décisions.

Logiciel d'analyse de texte
Essai gratuit de TIBCO Data Science
Démocratisez, collaborez et rendez opérationnel le machine learning dans votre entreprise avec TIBCO Data Science.