Was ist Überwachtes Lernen?
Überwachtes Lernen ist ein Zweig des maschinellen Lernens, eine Methode der Datenanalyse, die Algorithmen verwendet, die iterativ aus Daten lernen, damit Computer versteckte Erkenntnisse finden können, ohne explizit dazu programmiert zu werden, wo sie suchen sollen. Überwachtes Lernen ist eine von drei Methoden, wie Maschinen „lernen“: überwacht, unüberwacht und Optimierung.
Überwachtes Lernen löst bekannte Probleme und trainiert mit einem markierten Datensatz einen Algorithmus für die Ausführung bestimmter Aufgaben. Es verwendet Modelle, um bekannte Ergebnisse wie „Was ist die Farbe des Bildes?“ „Wie viele Personen sind auf dem Bild?“ „Welche Faktoren führen zu Betrug oder Produktfehlern?“ usw. vorherzusagen. Zum Beispiel könnte ein überwachter Lernprozess darin bestehen, Zweirad- und Vierradfahrzeuge aus ihren Bildern zu klassifizieren. Die Schulungsdaten müssten korrekt beschriftet sein, um festzustellen, ob es sich bei einem Fahrzeug um ein Zweirad oder ein Vierrad handelt. Mit überwachtem Lernen können Algorithmen aus historischen/Schulungsdaten „lernen“ und sie auf unbekannte Eingaben anwenden, um die richtige Ausgabe abzuleiten. Überwachtes Lernen verwendet Entscheidungsbäume, Random Forest und Gradient Boosting Machine zum Betrieb.
Im Gegensatz dazu ist unüberwachtes Lernen eine Art maschinelles Lernen, das verwendet wird, um neue Muster zu identifizieren und Anomalien zu erkennen. Die Daten, die in unüberwachte Lernalgorithmen eingespeist werden, sind unbeschriftet. Der Algorithmus (oder Modelle) versucht, die Daten selbst zu verstehen, indem er Merkmale und Muster findet. Eine Beispielfrage, die unüberwachtes maschinelles Lernen beantworten könnte, lautet: „Gibt es neue Betrugscluster oder Kaufmuster oder Fehlermodi?“ Unüberwachtes Lernen verwendet Clusteranalyse, Hauptkomponenten, Neuronale Netze und Support Vector Machines.
Die Optimierung, die dritte Art des maschinellen Lernens, findet die beste Lösung, selbst wenn komplexe Einschränkungen bestehen. Beispielsweise könnte die Optimierung die Frage „Was ist der optimale Weg zur Verfügung oder Zuweisung von Ressourcen oder Wartungsplan für die Ausrüstung?“ beantworten? Die Optimierung verwendet genetische Algorithmen, die auf Darwins Evolutionstheorie basieren.
Was ist die Klassifizierung im überwachten Lernen?
Es gibt zwei Hauptarten des überwachten Lernens: Klassifizierung und Regression. In der Klassifizierung wird ein Algorithmus darauf trainiert, Eingabedaten für diskrete Variablen zu klassifizieren. Während der Schulung erhalten Algorithmen Schulungseingabedaten mit einer Beschriftung „Klasse“. Schulungsdaten können beispielsweise aus den letzten Kreditkartenrechnungen einer Gruppe von Kunden bestehen, die mit der Beschriftung versehen sind, ob sie einen zukünftigen Kauf getätigt haben oder nicht. Wenn dem Algorithmus das Guthaben eines neuen Kunden vorgelegt wird, klassifiziert er den Kunden entweder in die Gruppe „wird kaufen“ oder „wird nicht kaufen“.
Was ist Regression im überwachten Lernen?
Im Gegensatz zur Klassifizierung ist die Regression eine Methode des überwachten Lernens, bei der ein Algorithmus darauf trainiert wird, eine Ausgabe aus einem kontinuierlichen Bereich möglicher Werte vorherzusagen. Beispielsweise würden Immobilien-Schulungsdaten den Standort, die Fläche und andere relevante Parameter zur Kenntnis nehmen. Die Ausgabe ist der Preis der spezifischen Immobilien.
In der Regression muss ein Algorithmus eine funktionale Beziehung zwischen den Eingabeparametern und der Ausgabe identifizieren. Der Ausgabewert ist nicht diskret wie in der Klassifizierung, sondern eine Funktion der Eingabeparameter. Die Richtigkeit eines Regressionsalgorithmus wird basierend auf der Varianz zwischen der genauen Ausgabe und der prognostizierten Ausgabe berechnet.

Praktische Anwendungen der Klassifizierung
Binäre Klassifizierung
Dieser Algorithmus klassifiziert Eingabedaten in eine von zwei möglichen Gruppen. Oft weist eine der Klassen auf einen „normalen/gewünschten“ Zustand hin, und die andere weist auf einen „abnormalen/unerwünschten“ Zustand hin. Zu den realen Anwendungen der binären Klassifizierung gehören:
Spam-Erkennung
Der Algorithmus erhält Beispiel-E-Mails, die während der Phase des überwachten Lernens als „Spam“ oder „kein Spam“ gekennzeichnet sind. Später, wenn der Algorithmus mit einer neuen E-Mail-Eingabe dargestellt wird, prognostiziert er, ob es sich bei der E-Mail um „Spam“ oder „kein Spam“ handelt.
Vorhersage der Kundenabwanderung
Der Algorithmus verwendet einen Schulungsdatensatz von Kunden, die vorher das Abonnement von einem Service gekündigt haben. Basierend auf der Schulung prognostiziert der Algorithmus, ob ein neuer Kunde das Abonnement basierend auf den Eingabeparametern kündigen wird oder nicht.
Vorhersage der Konvertierung
Der Algorithmus wird mit Käuferdaten trainiert und ob er den Artikel gekauft hat oder nicht. Anhand dieser Schulung prognostiziert der Algorithmus dann, ob ein neuer Kunde einen Kauf tätigen wird oder nicht.
Zu den wichtigsten Algorithmen für die binäre Klassifizierung gehören logistische Regression und Unterstützung von Vektormaschinen.
Mehrklassenklassifizierung
In der Mehrklassenklassifizierung wird der Schulungsdatensatz mit einer von mehreren möglichen Klassen gekennzeichnet. Im Gegensatz zur binären Klassifizierung wird ein mehrklassiger Algorithmus mit Daten trainiert, die in eine der vielen möglichen Klassen kategorisiert werden können. Zu den Anwendungen für die Mehrklassenklassifizierung gehören:
- Gesichtsklassifizierung: Basierend auf den Schulungsdaten kategorisiert ein Modell ein Foto und ordnet es einer bestimmten Person zu. Eine Sache, die Sie hier beachten sollten, dass es möglicherweise eine große Anzahl von Klassenbeschriftungen geben könnte. In diesem Fall Tausende von Menschen.
- E-Mail-Klassifizierung: Die mehrklassige Klassifizierung wird verwendet, um E-Mails in verschiedene Kategorien aufzuteilen – Soziales, Bildung, Arbeit und Familie.
- Die wichtigsten Algorithmen für die Klassifizierung mit mehreren Klassen sind Random Forest, Naive Bayes, Entscheidungsbäume, K-nächste Nachbarn und Gradient Boosting.
Multi-Label-Klassifizierung
Im Gegensatz zur binären und zur mehrklassigen Klassifizierung, bei der das Ergebnis nur eine mögliche Klasse hat, gehört die Ausgabe mit mehreren Beschriftungen zu einer oder mehreren Klassen. Das bedeutet, dass dieselben Eingabedaten möglicherweise in verschiedene Buckets klassifiziert werden. Zu den Anwendungen der Multi-Label-Klassifizierung gehören:
- Fotoerkennung: In Fällen, in denen Fotos mehrere Objekte wie ein Fahrzeug, ein Tier und Personen enthalten, kann das Foto in mehrere Beschriftungen fallen.
- Audio-/Video-Klassifizierung: Lieder und Videos passen möglicherweise in verschiedene Genres und Stimmungen. Multi-Label-Klassifizierung kann zur Zuweisung dieser mehreren Beschriftungen verwendet werden.
- Textkategorisierung: Es ist möglich, Artikel basierend auf ihrem Inhalt zu kategorisieren.
Unausgewogene Klassifizierung
Dies ist ein Sonderfall der binären Klassifizierung, bei dem im Schulungsdatensatz ein Ungleichgewicht der Klassen besteht. Die meisten Beispiele in den Schulungsdaten gehören zu einem Satz, und ein kleiner Teil gehört zum zweiten Satz. Leider funktionieren die meisten Algorithmen für maschinelles Lernen am besten, wenn es eine gleiche Aufteilung zwischen den Klassen gibt. Nehmen wir zum Beispiel in Ihren Schulungsdaten an und Sie haben 10.000 echte Kundentransaktionen und nur 100 betrügerische Transaktionen. Um die Genauigkeit auszugleichen, sind aufgrund des Ungleichgewichts der Daten spezialisierte Techniken erforderlich. Die Anwendungen einer unausgewogenen Klassifizierung könnten die folgenden sein:
- Betrugserkennung: Im markierten Datensatz, der für Schulungen verwendet wird, wird nur eine geringe Anzahl von Eingaben als Betrug bezeichnet.
- Medizinische Diagnostik: In einem großen Probenpool können solche mit einem positiven Krankheitsfall weit geringer sein.
Spezialisierte Techniken wie kostenbasierte Ansätze und Stichprobenbasierte Ansätze werden verwendet, um bei unausgewogenen Klassifikationsfällen zu helfen.
Praktische Anwendungen der Regression
Lineare Regression
Die lineare Regression im überwachten Lernen trainiert einen Algorithmus, um eine lineare Beziehung zwischen den Ein- und Ausgabedaten zu finden. Es ist das einfachste Modell, das verwendet wird, bei dem die Ausgänge eine linear gewichtete Kombination der Ausgänge darstellen. Die lineare Regression kann verwendet werden, um Werte innerhalb eines kontinuierlichen Bereichs (z. B. Umsatz, Preis - Prognose) vorherzusagen oder in Kategorien einzuordnen (z. B. Katze, Hund - logistische Regression). In den Schulungsdaten für die lineare Regression werden eine Eingabevariable (unabhängig) und eine entsprechende Ausgabevariable (die abhängige Variable) bereitgestellt. Aus den mitgelieferten beschrifteten Eingabedaten berechnet der Regressionsalgorithmus den Schnittpunkt und den X-Koeffizienten in der linearen Funktion. Zu den Anwendungen der linearen Regression können u. a. gehören:
Prognose: Eine der wichtigsten Anwendungen der linearen Regression ist die Prognose. Die Prognosen können unterschiedlicher Art sein. Unternehmen nutzen eine lineare Regression zur Prognose von Verkäufen oder dem Kaufverhalten ihrer Kunden. Es wird auch zur Vorhersage von Wirtschaftswachstum, Immobilienverkäufen und den Preisen von Rohstoffen wie Erdöl verwendet. Die lineare Regression wird auch zur Schätzung des optimalen Gehalts für einen neuen Mitarbeiter verwendet, basierend auf den historischen Daten der Gehälter.
Logistische Regression
Wird verwendet, um die Wahrscheinlichkeit zu ermitteln, dass ein Ereignis eintritt. Die Schulungsdaten haben eine unabhängige Variable und die gewünschte Ausgabe wäre ein Wert zwischen 0 und 1. Sobald der Algorithmus mit logistischer Regression trainiert wurde, kann er den Wert einer abhängigen Variablen (zwischen 0 und 1) basierend auf dem Wert der unabhängigen Variablen (Eingabe) vorhersagen. Die logistische Regression verwendet die klassische S-förmige Sigmoidfunktion. Bei der logistischen Regression im Kontext des überwachten Lernens schätzt ein Algorithmus die Beta-Koeffizient-Werte b0 und b1 aus den bereitgestellten Trainingsdaten.
Quoten = e^(b0 + b1 * X)
Zu den Anwendungen der logistischen Regression gehören:
- Bestimmung der Wahrscheinlichkeit: Eine der Hauptanwendungen der logistischen Regression besteht darin, die Wahrscheinlichkeit eines Ereignisses zu bestimmen. Die Wahrscheinlichkeit eines Ereignisses liegt zwischen 0 und 1, und das ist die Ausgabe einer logistischen Funktion. Algorithmen der logistische Regression im maschinellen Lernen können verwendet werden, um Wahlergebnisse, Wahrscheinlichkeiten für eine Naturkatastrophe und andere derartige Ereignisse vorherzusagen.
- Klassifizierung: Obwohl die logistische Regression eine kontinuierliche Funktion verwendet, befinden sich einige ihrer Anwendungen in der Klassifizierung. Es kann für Bildzerlegung und ähnliche Klassifikationsprobleme verwendet werden.
Polynome Regression
Die polynome Regression wird für einen komplexeren Datensatz verwendet, der nicht ordentlich in eine lineare Regression passt. Ein Algorithmus wird mit einem komplexen, beschrifteten Datensatz trainiert, der möglicherweise nicht gut unter eine lineare Regression passt. Wenn solche Trainingsdaten mit linearer Regression verwendet werden, kann dies zu einer Unteranpassung führen, bei der der Algorithmus die wahren Trends der Daten nicht erfasst. Polynome Regressionen ermöglichen eine größere Krümmung in der Regressionslinie und damit eine bessere Annäherung der Beziehung zwischen der abhängigen und der unabhängigen Variablen.
Tendenz und Varianz sind zwei Hauptbegriffe, die mit der polynomialen Regression verbunden sind. Tendenz ist der Fehler bei der Modellierung, der durch die Vereinfachung der Anpassungsfunktion auftritt. Varianz bezieht sich auch auf einen Fehler, der durch die Verwendung einer überkomplexen Funktion zur Anpassung an die Daten verursacht wird.
Die grundlegenden Schritte des überwachten Lernens
Zur Ausführung und Lösung eines Problems mit überwachtem maschinellen Lernen muss man:
- Die Art der Schulungsdaten auswählen: Der erste Schritt im überwachten Lernen besteht darin, zu bestimmen, was die Art der Daten ist, die für das Training verwendet werden soll. Im Falle einer Handschriftanalyse könnte dies beispielsweise ein einzelner Buchstabe, ein Wort oder ein Satz sein.
- Schulungsdaten erfassen und bereinigen: In diesem Schritt werden die Schulungsdaten aus verschiedenen Quellen gesammelt und einer strengen Datenbereinigung unterzogen.
- Ein Modell mit einem Algorithmus des überwachten Lernens auswählen: Wählen Sie basierend auf der Art der Eingabedaten und der gewünschten Verwendung entweder einen Klassifizierungs- oder Regressionsalgorithmus aus. Dies könnten Entscheidungsbäume, SVM, Naïve Bayes oder Random Forest sein. Die Hauptüberlegung bei der Auswahl eines Algorithmus ist die Schulungsgeschwindigkeit, die Speichernutzung, die Genauigkeit der Vorhersage neuer Daten und die Transparenz/Interpretierbarkeit des Algorithmus.
- Das Modell trainieren: Die Anpassungsfunktion wird durch mehrere Iterationen von Schulungsdaten fein abgestimmt, um die Genauigkeit und die Geschwindigkeit der Vorhersage zu verbessern.
- Vorhersagen treffen und das Modell auswerten: Sobald die Anpassungsfunktion zufriedenstellend ist, kann der Algorithmus neue Datensätze erhalten, um neue Vorhersagen zu treffen.
Das Modell neu optimieren und trainieren: Datenzerfall ist ein natürlicher Bestandteil des maschinellen Lernens. Daher müssen Modelle regelmäßig mit aktualisierten Daten umgeschult werden, um die Genauigkeit zu gewährleisten.