Was ist unüberwachtes Lernen?

Unüberwachtes Lernen ist eine der Möglichkeiten, wie maschinelles Lernen (ML) Daten „lernt“. Unüberwachtes Lernen hat unbeschriftete Daten, die der Algorithmus selbst verstehen muss. Bei überwachtem Lernen werden Datensätze beschriftet, sodass es einen Antwortschlüssel gibt, an dem die Maschine ihre Genauigkeit messen kann. Wenn maschinelles Lernen ein Kind war, das Fahrrad fahren lernt, ist überwachtes Lernen der Elternteil, der hinter dem Fahrrad läuft und es aufrecht hält. Unüberwachtes Lernen bedeutet, das Fahrrad zu übergeben, dem Kind auf den Kopf zu klopfen und „viel Glück“ zu sagen.

Diagramm für unüberwachtes Lernen

Ziel ist es, die Maschine einfach ohne Hilfe oder Aufforderungen von Data Scientists lernen zu lassen. Auf dem Weg dorthin sollte sie auch lernen, die Ergebnisse und Gruppierungen anzupassen, wenn es geeignetere Ergebnisse gibt. Dadurch kann die Maschine die Daten verstehen und so verarbeiten, wie sie es für richtig hält.

Unüberwachtes Lernen wird zur Erforschung unbekannter Daten verwendet. Es kann Muster enthüllen, die möglicherweise übersehen wurden, oder große Datensätze untersuchen, die für einen Menschen zu groß wären, um sie anzugehen.

Wie funktioniert unüberwachtes Lernen?

Um unüberwachtes Lernen zu verstehen, müssen wir überwachtes Lernen verstehen. Wenn ein Computer lernen würde, Früchte in einer überwachten Lernumgebung zu identifizieren, würden ihm Beispielbilder von Früchten gegeben werden, die beschriftet wurden. Dies nennt man Eingabedaten. Zum Beispiel würden die Beschriftungen sagen, dass Bananen lang, gebogen und gelb sind, Äpfel rund und rot sind, während eine Orange kugelförmig, wachsartig und orange ist. Nach ausreichender Zeit sollte die Maschine basierend auf diesen Deskriptoren sicher identifizieren können, welche Frucht welche ist. Wenn er zum Beispiel mit einem Apfel präsentiert wird, könnte er getrost sagen, dass er nicht orange gefärbt ist, daher ist er keine Orange, sondern auch, dass er nicht gelb und lang ist, daher ist er keine Banane. Er ist rund und rot, also ist es ein Apfel.

Im Gegensatz dazu gibt es unüberwachtes Lernen, wenn die Daten überhaupt nicht kategorisiert oder beschriftet werden. Die Maschine wird keine Ahnung von dem Konzept von Obst haben, daher kann sie die Objekte nicht beschriften. Sie kann sie jedoch nach ihren Farben, Größen, Formen und Unterschieden gruppieren. Die Maschine gruppiert die Dinge nach Ähnlichkeiten und findet versteckte Strukturen und Muster in unbeschrifteten Daten. Es gibt keinen richtigen oder falschen Weg und keinen Lehrer. Es gibt keine Ergebnisse, nur eine reine Analyse der Daten.

Unüberwachtes Lernen verwendet eine Reihe von Algorithmen, um Daten in breite Gruppen, Clustering und Assoziation einzufügen.

Testen Sie TIBCO Data Science - Kostenlose Testversion
Testen Sie TIBCO Data Science - Kostenlose Testversion
Demokratisieren, kooperieren und operationalisieren Sie maschinelles Lernen in Ihrem Unternehmen mit TIBCO Data Science.

Clustering-Algorithmen im unüberwachten Lernen

Clustering geschieht, wenn Objekte in Teilmengen gruppiert werden, die als Cluster bezeichnet werden. Dies ist eine der besten Möglichkeiten, sich einen Überblick über die Struktur Ihrer Daten zu verschaffen. Es wird einige ähnliche Eigenschaften in diesen Clustern geben. Diese Methode wurde entwickelt, um Gruppen mit den gleichen Eigenschaften zu haben und sie dann relevanten Clustern zuzuweisen.

Hierarchische Clusteranalysen

Dies geschieht, wenn der Computer Dinge gruppiert, die in einem Clusterbaum zusammenpassen. Alle Daten sind ein Cluster und zerfallen dann in immer kleinere Cluster. Die Daten gehören zu einer kaskadierenden Gruppe von Clustern von den allgemeinsten bis hin zu den spezifischsten und am engsten gruppierten. Das Endergebnis ist also, dass Sie sehen, wie verschiedene Untergruppen miteinander zusammenhängen oder wie weit sie voneinander entfernt sind.

K-Means-Clusteranalyse

Dieser Algorithmus teilt Daten in verschiedene Cluster auf, die in den Daten nicht beschriftet wurden. Die Entfernung zur Mitte des Clusters hängt von der Stärke der Assoziation ab. Datenpunkte können nur zu einem Cluster gehören. Ein größeres k bedeutet eine kleinere Gruppe mit mehr Granularität auf die gleiche Weise. Jedem Cluster wird eine Datenpunktbeschriftung zugewiesen.

Gaußsche Mischverteilungsmodelle

Basierend auf einer normalen Glockenkurvenverteilung werden Gruppen- Cluster bei normalen, erwarteten Dichten verteilt und zeigen Teilgesamtheiten in den Gesamtdaten an.

Unscharfe Cluster

Diese Cluster können sich überschneiden, daher kann jeder Datenpunkt zu so vielen Clustern gehören, wie relevant ist, im Gegensatz zur harten Clusteranalyse, bei der Datenpunkte nur zu einem Cluster gehören können. Dies ist das Venn-Diagramm der unüberwachten Lernwelt.

Die Clusteranalyse setzt Beziehungen zwischen Gruppen voraus und ist daher nicht immer der beste Weg zur Kundensegmentierung - dieser Algorithmus behandelt Datenpunkte nicht als Einzelpersonen. Sie müssen weitere statistische Methoden anwenden, um die Daten weiter zu analysieren.

Assoziation im unüberwachten Lernen

Im maschinellen Lernen erstellt der Algorithmus Regeln, die Assoziationen zwischen Datenpunkten finden. Es findet die Beziehungen zwischen Variablen und identifiziert Elemente, die tendenziell zusammen auftreten. Zum Beispiel kann die Korbanalyse in Supermärkten sehen, welche Gegenstände Menschen gleichzeitig kaufen - zum Beispiel Suppen und Brötchen. Oder, wenn Leute ein neues Zuhause kaufen, was werden sie wahrscheinlich auch neu kaufen? Dieser Algorithmus eignet sich hervorragend zur Identifizierung von Marketingmöglichkeiten.

Latente variable Modelle im unüberwachten Lernen

Die latente Variablenmodellierung zeigt die Beziehung zwischen beobachtbaren Variablen (oder manifesten Variablen) zu denen, die versteckt oder unbeobachtet sind (latente Variablen). Latente Variablenmodelle werden hauptsächlich zur Datenvorverarbeitung/-bereinigung verwendet, um die Funktionen in einem Datensatz zu reduzieren oder den Datensatz in mehrere Komponenten aufzuteilen.

Wann wird unüberwachte Schulung für unbekannte Trends und Muster bevorzugt?

Da die Maschine nicht weiß, dass es eine „richtige“ Antwort gibt, können Data Scientists mehr über die Daten auf der Grundlage der Informationen (d. h. ohne Voreingenommenheit des Wissenschaftlers) getroffen werden, mehr über die Daten zu erfahren. Algorithmen können interessante oder versteckte Strukturen in den Daten finden, die zuvor für Data Scientists nicht sichtbar waren. Diese versteckten Strukturen werden Merkmalsvektoren genannt.

Daten werden oft nicht mit Beschriftungen geliefert, daher erspart unüberwachtes Lernen einem Data Scientist, alles beschriften zu müssen, was eine zeitaufwändige und oft unüberwindbare Aufgabe sein kann. Algorithmen des unüberwachten Lernens ermöglichen auch komplexere Verarbeitungsaufgaben. Nochmal, keine Beschriftung bedeutet, dass komplizierte Beziehungen und Daten-Cluster abgebildet werden können. Keine Datenbeschriftung bedeutet keine vorgefassten Ideen und keine Voreingenommenheit.

Der beste Zeitpunkt, zur Nutzung des unüberwachten Lernens ist, wenn es keine bereits vorhandenen Daten zu bevorzugten Ergebnissen gibt. Unüberwachtes Lernen kann Funktionen identifizieren, die bei der Kategorisierung unbekannter Datensätze nützlich sein können. Zum Beispiel, wenn ein Unternehmen den Zielmarkt für ein brandneues Produkt bestimmen muss.

Unüberwachtes Lernen verwendet eine Technik, die als Dimensionalitätsreduzierung bezeichnet wird. Dies ist der Fall, wenn die Maschine davon ausgeht, dass viele Daten redundant sind und entweder Dimensionen entfernt oder gegebenenfalls einige Teile von Daten miteinander kombiniert. Die Datenkomprimierung führt zu Zeitersparnissen und Einsparungen bei der Rechenleistung.

Generative Modelle sind eine weitere Stärke des unüberwachten Lernens. Generative Modelle zeigen die Verteilung in den Daten. Dies ist der Zeitpunkt, an dem Daten überprüft und daraus neue Beispiele erstellt werden können. Zum Beispiel kann ein generatives Modell eine Reihe von Bildern erhalten und eine Reihe von darauf basierenden Bildern erstellen.