Was ist Text-Analytik?
Text-Analytik kombiniert eine Reihe von Techniken des maschinellen Lernens, statistischen Techniken und sprachlichen Techniken, um große Mengen an unstrukturiertem Text oder Text zu verarbeiten, die kein vordefiniertes Format haben, um Erkenntnisse und Muster abzuleiten. Sie ermöglicht Unternehmen, Regierungen, Forschern und Medien, die ihnen zur Verfügung stehenden enormen Inhalte für wichtige Entscheidungen zu nutzen. Die Text-Analytik verwendet eine Vielzahl von Techniken – Sentiment-Analyse, Themenmodellierung, benannte Entitäten-Erkennung, Begriffshäufigkeit und Ereignisextraktion.
Was ist der Unterschied zwischen Text Mining und Text-Analytik?
Text-Mining und Text-Analytik werden oft als Synonym verwendet. Der Begriff Text Mining wird im Allgemeinen verwendet, um qualitative Erkenntnisse aus unstrukturiertem Text abzuleiten, während Text-Analytik quantitative Ergebnisse liefert.
Beispielsweise kann Text Mining verwendet werden, um festzustellen, ob Kunden mit einem Produkt zufrieden sind, indem sie ihre Bewertungen und Umfragen analysieren. Text-Analytik wird für tiefere Erkenntnisse verwendet, z. B. das Identifizieren eines Musters oder Trends aus dem unstrukturierten Text. Beispielsweise kann Text-Analytik verwendet werden, um einen negativen Anstieg des Kundenerlebnisses oder Beliebtheit eines Produkts zu verstehen.
Die Ergebnisse der Text-Analytik können dann mit Datenvisualisierungstechniken verwendet werden, um das Verständnis und die schnelle Entscheidungsfindung zu erleichtern.
Was ist die Relevanz von Text-Analytik in der Welt von heute?
Ab 2020 haben rund 4,57 Milliarden Menschen Zugang zum Internet. Das sind rund 59 Prozent der Weltbevölkerung. Davon sind etwa 49 Prozent der Menschen in den sozialen Medien aktiv. Jeden Tag wird eine enorme Menge an Textdaten in Form von Blogs, Tweets, Reviews, Forumsdiskussionen und Umfragen generiert. Außerdem sind die meisten Kundeninteraktionen jetzt digital, wodurch eine weitere riesige Textdatenbank entsteht.
Die meisten Textdaten verfügen über keine Struktur und sind im Internet verstreut. Wenn diese Textdaten korrekt gesammelt, zusammengestellt, strukturiert und analysiert werden, kann daraus wertvolles Wissen abgeleitet werden. Unternehmen können diese Erkenntnisse nutzen, um Maßnahmen zu ergreifen, die die Rentabilität, Kundenzufriedenheit, Forschung und sogar die nationale Sicherheit erhöhen.
Vorteile von Text-Analytik
Es gibt eine Reihe von Möglichkeiten, wie Text-Analytik Unternehmen, Organisationen und sozialen Ereignisbewegungen helfen kann:
- Den Unternehmen dabei helfen, Kundentrends, Produktleistung und Servicequalität zu verstehen. Dies führt zu einer schnellen Entscheidungsfindung, Verbesserung der Business Intelligence, erhöhter Produktivität und Kosteneinsparungen.
- Den Forschern dabei helfen, in kurzer Zeit eine Menge bereits vorhandener Literatur zu erforschen und zu extrahieren, was für ihre Studie relevant ist. Dies trägt zu schnelleren wissenschaftlichen Durchbrüchen bei.
- Beim Verständnis allgemeiner Trends und Meinungen in der Gesellschaft zu helfen, die Regierungen und politischen Gremien ermöglichen, Entscheidungsfindung zu gewährleisten.
- Text-Analytik-Techniken helfen Suchmaschinen und Informationsabrufsystemen, dabei ihre Leistung zu verbessern und bieten so schnelle Benutzererfahrungen.
- Verfeinerung von Empfehlungssysteme für Benutzerinhalte, indem Sie verwandte Inhalte kategorisieren.

Techniken und Anwendungsszenarien von Text-Analytik
Es gibt verschiedene Techniken zur Analyse des unstrukturierten Textes. Jede dieser Techniken wird für verschiedene Anwendungsszenarien verwendet.
Sentimentanalyse
Die Sentiment-Analyse wird verwendet, um die Emotionen zu identifizieren, die durch den unstrukturierten Text vermittelt werden. Der Eingabetext enthält Produktbewertungen, Kundeninteraktionen, Social-Media-Posts, Forumsdiskussionen oder Blogs. Es gibt verschiedene Arten von Sentiment-Analysen. Die Polaritätsanalyse wird verwendet, um festzustellen, ob der Text eine positive oder negative Stimmung ausdrückt. Die Kategorisierungstechnik wird für eine feinkörnigere Analyse von Emotionen verwendet - verwirrt, enttäuscht oder wütend.
Anwendungsszenarien der Sentiment-Analyse:
- Messung der Kundenreaktion auf ein Produkt oder eine Dienstleistung
- Verständnis von Publikumstrends zu einer Marke
- Verständnis neuer Trends im Verbraucherraum
- Priorisierung der Kundenservice-Probleme basierend auf dem Schweregrad
- Verfolgen Sie, wie sich die Kundenstimmung im Laufe der Zeit entwickelt
Themen-Modellierung
Diese Technik wird verwendet, um die wichtigsten Themen in einem riesigen Textvolumen oder einer Reihe von Dokumenten zu finden. Die Themenmodellierung identifiziert die Schlüsselwörter, die im Text verwendet werden, um das Thema des Artikels zu identifizieren.
Anwendungsszenarien der Themenmodellierung:
- Große Anwaltskanzleien verwenden Themenmodellierung, um Hunderte von Dokumenten in großen Rechtsstreitigkeiten zu untersuchen.
- Online-Medien verwenden Themenmodellierung, um Trend-Themen im Internet aufzunehmen.
- Forscher verwenden Themenmodellierung für die explorative Literaturrecherche.
- Unternehmen können feststellen, welche ihrer Produkte erfolgreich sind.
- Die Themenmodellierung hilft Anthropologen dabei, die aufkommenden Probleme und Trends in einer Gesellschaft basierend auf den Inhalten zu bestimmen, die Menschen im Internet teilen.
Eigennamenerkennung (Named Entity Recognition, NER)
NER ist eine Textanalyse-Technik, die zur Identifizierung benannter Entitäten wie Personen, Orte, Organisationen und Ereignisse in unstrukturiertem Text verwendet wird. NER extrahiert Substantive aus dem Text und bestimmt die Werte dieser Substantive.
Anwendungsszenarien der Eigennamenerkennung:
- NER wird verwendet, um Nachrichteninhalte basierend auf Personen, Orten und Organisationen zu klassifizieren.
- Such- und Empfehlungsmaschinen verwenden NER für den Informationsabruf.
- Für große Kettenunternehmen wird NER verwendet, um Kundendienstanfragen zu sortieren und sie einer bestimmten Stadt oder Verkaufsstelle zuzuweisen.
- Krankenhäuser können NER verwenden, um die Analyse von Laborberichten zu automatisieren.
Begriffshäufigkeit — Inverse Dokumenthäufigkeit
TF-IDF wird verwendet, um zu bestimmen, wie oft ein Begriff in einem großen Text oder einer Gruppe von Dokumenten vorkommt und daher die Bedeutung dieses Begriffs für das Dokument ist. Diese Technik verwendet einen Frequenzfaktor für inverse Dokumente, um häufig vorkommende, aber nicht aufschlussreiche Wörter, Artikel, Vorschläge und Konjunktionen herauszufiltern.
Ereignisextraktion
Dies ist eine Text-Analytik-Technik, die eine Weiterentwicklung der Extraktion der benannten Entität darstellt. Die Ereignisextraktion erkennt Ereignisse, die in Textinhalten erwähnt werden, z. B. Fusionen, Übernahmen, politische Schritte oder wichtige Treffen. Die Ereignisextraktion erfordert ein erweitertes Verständnis der Semantik von Textinhalten. Fortschrittliche Algorithmen bemühen sich, nicht nur Ereignisse, sondern auch den Veranstaltungsort, die Teilnehmer, das Datum und die Uhrzeit zu erkennen, wo immer zutreffend. Die Ereignisextraktion ist eine vorteilhafte Technik, die über mehrere Felder hinweg verwendet werden kann.
Anwendungsfälle der Ereignisextraktion:
- Linkanalyse: Dies ist eine Technik, um zu verstehen, „wer wen und wann getroffen hat“ durch Ereignisextraktion aus der Kommunikation über soziale Medien. Dies wird von Strafverfolgungsbehörden genutzt, um mögliche Bedrohungen für die nationale Sicherheit vorherzusagen.
- Raumbezogene Analyse: Wenn Ereignisse zusammen mit ihren Standorten extrahiert werden, können die Erkenntnisse verwendet werden, um sie auf einer Karte zu überlagern. Dies ist hilfreich bei der räumlichen Analyse der Ereignisse.
- Überwachung von Geschäftsrisiken: Große Organisationen beschäftigen sich mit mehreren Partnerunternehmen und Lieferanten. Mit Techniken zur Ereignisextraktion können Unternehmen das Internet überwachen, um herauszufinden, ob einer ihrer Partner, wie Lieferanten oder Anbieter, mit unerwünschten Ereignissen wie Klagen oder Insolvenz zu tun hat.
Schritte mit Text-Analytik
Text-Analytik ist eine ausgeklügelte Technik, die mehrere Vorstufen zum Sammeln und Reinigen des unstrukturierten Textes beinhaltet. Es gibt verschiedene Möglichkeiten zur Durchführung der Text-Analytik. Dies ist ein Beispiel für einen Modell-Workflow.
- Datenerfassung - Textdaten werden oft in den internen Datenbanken einer Organisation verstreut, einschließlich in Kundenchats, E-Mails, Produktbewertungen, Service-Tickets und Net Promoter Score-Umfragen. Benutzer generieren auch externe Daten in Form von Blogbeiträgen, Nachrichten, Rezensionen, Social-Media-Posts und Diskussionen im Webforum. Während die internen Daten für Analysen leicht verfügbar sind, müssen die externen Daten erhoben werden.
- Datenaufbereitung - Sobald die unstrukturierten Textdaten verfügbar sind, müssen sie mehrere Aufbereitungsschritte durchlaufen, bevor Algorithmen für maschinelles Lernen diese analysieren können. In den meisten Text-Analytik-Softwareprogrammen erfolgt dieser Schritt automatisch. Die Textaufbereitung umfasst verschiedene Techniken, die die Verarbeitung natürlicher Sprache verwenden, wie folgt:
- Tokenisierung: In diesem Schritt unterteilen die Text-Analytik-Algorithmen die kontinuierliche Zeichenfolge von Textdaten in Token oder kleinere Einheiten, aus denen ganze Wörter oder Phrasen besteht. Zum Beispiel könnten Zeichentoken jeder einzelne Buchstabe in diesem Wort sein: F-I-S-H. Oder Sie können nach Unterwort-Token aufschlüsseln: Fish-ing. Token sind die Grundlage der gesamten natürlichen Sprachverarbeitung. Dieser Schritt verwirft auch den gesamten unerwünschten Inhalt des Textes, einschließlich Leerzeichen.
- Part-of-Speech-Tagging: In diesem Schritt wird jedem Token in den Daten eine grammatische Kategorie wie Nomen, Verb, Adjektiv und Adverb zugewiesen.
- Parsing: Parsing ist der Prozess des Verständnisses der syntaktischen Struktur des Textes. Abhängigkeitsparsing und Konstituentenparsing sind zwei gängige Techniken, die verwendet werden, um syntaktische Strukturen abzuleiten.
- Lemmatisierung und Stammformreduktion: Dies sind zwei Prozesse, die bei der Datenaufbereitung verwendet werden, um die mit den Token verbundenen Suffixe und Affixe zu entfernen und ihre Wörterbuchform oder Lemma beizubehalten.
- Stoppwort-Entfernung: Dies ist die Phase, in der alle Token, die häufig auftreten, aber in der Text-Analytik keinen Wert haben. Dazu gehören Wörter wie „und“, „das“ und „ein“.
- Text-Analytik - Nach der Erstellung unstrukturierter Textdaten können nun Text-Analytik-Techniken durchgeführt werden, um Erkenntnisse abzuleiten. Es gibt verschiedene Techniken für Text-Analytik. Unter ihnen sind Textklassifizierung und Textextraktion am bekanntesten.
Textklassifizierung: Diese Technik wird auch als Textkategorisierung oder Tagging bezeichnet. In diesem Schritt werden dem Text basierend auf seiner Bedeutung bestimmte Tags zugewiesen. Bei der Analyse von Kundenrezensionen werden beispielsweise Tags wie „positiv“ oder „negativ“ zugewiesen. Die Textklassifizierung erfolgt häufig mit regelbasierten Systemen oder auf maschinellem Lernen basierenden Systemen. In regelbasierten Systemen definieren Menschen die Assoziation zwischen Sprachmuster und einem Tag. „Gut“ kann auf eine positive Bewertung hinweisen; „schlecht“ könnte eine negative Überprüfung identifizieren.
Systeme für maschinelles Lernen verwenden frühere Beispiele oder Schulungsdaten, um einem neuen Datensatz Tags zuzuweisen. Die Schulungsdaten und ihr Volumen sind entscheidend, da größere Datenmengen den Algorithmen des maschinellen Lernens helfen, genaue Tagging-Ergebnisse zu erzielen. Die wichtigsten Algorithmen, die bei der Textklassifizierung verwendet werden, sind Support Vector Machines (SVM), die Algorithmenfamilie von Naive Bayes (NB) und Deep-Learning-Algorithmen.
Text-Extraktion: Dies ist der Prozess des Extrahierens erkennbarer und strukturierter Informationen aus dem unstrukturierten Eingabetext. Zu diesen Informationen gehören Schlüsselwörter, Personennamen, Orte und Ereignisse. Eine der einfachen Methoden zur Text-Extraktion sind reguläre Ausdrücke. Dies ist jedoch eine komplizierte Methode, die beibehalten werden muss, wenn die Komplexität der Eingabedaten zunimmt. Conditional Random Fields (CRF) ist eine statistische Methode, die bei der Text-Extraktion verwendet wird. CRF ist eine ausgeklügelte, aber effektive Möglichkeit, wichtige Informationen aus dem unstrukturierten Text zu extrahieren.
Was passiert nach der Text-Analytik?
Sobald die Text-Analytik-Methoden zur Verarbeitung der unstrukturierten Daten verwendet wurden, können die Ausgabeinformationen an Datenvisualisierungssysteme zugeführt werden. Die Ergebnisse können dann in Form von Diagrammen, Plots, Tabellen, Infografiken oder Dashboards visualisiert werden. Mit diesen visuellen Daten können Unternehmen, Trends in den Daten schnell erkennen und Entscheidungen treffen.
