Qu'est-ce que le supervised Learning ?

Le supervised learning est une branche du machine learning, une méthode d'analyse des données qui utilise des algorithmes qui apprennent itérativement à partir des données pour permettre aux ordinateurs de trouver des informations cachées sans être explicitement programmés pour les chercher. Le supervised learning est l'une des trois méthodes de « formation » des machines : supervisé, non supervisé et par optimisation.

Schéma du supervised learning

Le supervised learning résout des problèmes connus et utilise un ensemble de données étiquetées pour former un algorithme à effectuer des tâches spécifiques. Il utilise des modèles pour prédire des résultats connus tels que « Quelle est la couleur de l'image ? », « Combien de personnes sont-elles présentes sur l'image ? », « Quels sont les facteurs à l'origine de la fraude ou des défauts du produit ? », etc. Par exemple, un processus de supervised learning pourrait consister à classer les véhicules à deux et quatre roues à partir de leurs images. Les données d'apprentissage doivent être correctement étiquetées pour identifier si un véhicule est un deux-roues ou un quatre-roues. Le supervised learning permet aux algorithmes d'« apprendre » à partir de données historiques ou d'apprentissage et de les appliquer à des entrées inconnues afin d'obtenir le résultat correct. Le supervised learning utilise des arbres de décision, des forêts aléatoires et des machines à boosting de gradient pour fonctionner.

En revanche, l'unsupervised learning est un type de machine learning utilisé pour identifier de nouveaux modèles et détecter des anomalies. Les données qui sont introduites dans les algorithmes d'unsupervised learning ne sont pas étiquetées. L'algorithme (ou le modèle) essaie de donner un sens aux données par lui-même en trouvant des caractéristiques et des modèles. Une question à laquelle le machine learning non supervisé pourrait répondre est la suivante : « De nouveaux groupes de fraude, de nouvelles habitudes d'achat ou de nouveaux modes de défaillance apparaissent-ils ? ». L'unsupervised learning utilise le regroupement, les composantes principales, les réseaux neuronaux et les machines vectorielles de soutien.

L'optimisation, le troisième type de machine learning, permet de trouver la meilleure solution même en présence de contraintes complexes. Par exemple, l'optimisation pourrait répondre à la question suivante : « Quelle est la meilleure route à prendre, quelle est la meilleure répartition des ressources ou quel est le meilleur échéancier d'entretien des équipements ? ». L'optimisation utilise les algorithmes génétiques, qui sont basés sur la théorie de l'évolution de Darwin.

Qu'est-ce que la classification dans le supervised learning ?

Il existe deux grands types de supervised learning : la classification et la régression. La classification consiste à former un algorithme à classer des données d'entrée sur des variables discrètes. Au cours de la formation, les algorithmes reçoivent des données d'entrée de formation avec une étiquette de « classe ». Par exemple, les données d'apprentissage peuvent être constituées des derniers relevés de carte de crédit d'un ensemble de clients, étiquetés selon s'ils ont effectué ou non un futur achat. Lorsque le solde de crédit d'un nouveau client est présenté à l'algorithme, celui-ci le classe dans le groupe des « acheteurs potentiels » ou des « non-acheteurs potentiels ».

Qu'est-ce que la régression dans le supervised learning ?

Contrairement à la classification, la régression est une méthode de supervised learning dans laquelle un algorithme est entraîné à prédire une sortie à partir d'une gamme continue de valeurs possibles. Par exemple, les données de formation sur l'immobilier prennent note de l'emplacement, du quartier et d'autres paramètres pertinents. Le résultat est le prix d'un bien immobilier spécifique.

Dans la régression, un algorithme doit identifier une relation fonctionnelle entre les paramètres d'entrée et la sortie. La valeur de sortie n'est pas discrète comme dans la classification, mais elle est une fonction des paramètres d'entrée. L'exactitude d'un algorithme de régression est calculée sur la base de la variance entre la sortie exacte et la sortie prédite.

Essai gratuit de TIBCO Data Science
Essai gratuit de TIBCO Data Science
Démocratisez, collaborez et rendez opérationnel le machine learning dans votre entreprise avec TIBCO Data Science.

Applications de la classification dans la vie réelle

Classification binaire

Cet algorithme classe les données d'entrée dans l'un des deux groupes possibles. Souvent, l'une des classes indique un état « normal/désiré », et l'autre indique un état « anormal/non désiré ». Les applications de classification binaire dans le monde réel incluent :

Détection des spams

L'algorithme reçoit des échantillons d'e-mails qui sont étiquetés comme « spam » ou « non spam » pendant la phase de supervised learning. Plus tard, lorsque l'algorithme reçoit un nouvel e-mail en entrée, il prédit si l'e-mail est un « spam » ou un « non spam ».

Prévision du taux de désabonnement

L'algorithme utilise un ensemble de données d'apprentissage sur des clients qui se sont désabonnés d'un service dans le passé. Sur la base de cette formation, l'algorithme prédit si un nouveau client mettra fin à son abonnement ou non, en fonction des paramètres d'entrée.

Prévision de conversion

L'algorithme est formé à l'aide de données sur les acheteurs, qui indiquent s'ils ont acheté l'article ou non. Ensuite, sur la base de cette formation, l'algorithme prédit si un nouveau client fera un achat ou non.

Les principaux algorithmes utilisés pour la classification binaire sont la régression logistique et les machines à vecteurs de support.

Classification multi-classes

Dans la classification multi-classes, l'ensemble de données d'apprentissage est étiqueté avec l'une des nombreuses classes possibles. Contrairement à la classification binaire, un algorithme multi-classes est formé avec des données qui peuvent être classées dans l'une des nombreuses classes possibles. Les applications de la classification multi-classes comprennent :

  • Classification des visages : sur la base des données d'apprentissage, un modèle catégorise une photo et l'associe à une personne spécifique. Il faut noter qu'il peut y avoir un grand nombre d'étiquettes de classe. Dans ce cas, il s'agit de milliers de personnes.
  • Classification des e-mails : la classification multi-classes est utilisée pour classer les e-mails dans différentes catégories, telles que sociale, éducation, travail et famille.
  • Les principaux algorithmes utilisés pour la classification multi-classes sont : forêt aléatoire, Naive Bayes, arbres de décision, K-nearest neighbors (les voisins les plus proches) et Gradient Boosting.

Classification multi-label

Contrairement à la classification binaire et multi-classe où le résultat n'a qu'une seule classe possible, la sortie multi-label appartient à une ou plusieurs classes. Cela signifie que les mêmes données d'entrée peuvent être classées dans différentes catégories. Les applications de la classification multi-labels incluent :

  • Détection de photos : dans les cas où les photos comportent plusieurs objets, comme un véhicule, un animal et des personnes, la photo peut être assignée plusieurs étiquettes.
  • Classification audio/vidéo : les chansons et les vidéos peuvent correspondre à différents genres et humeurs. La classification multi-label peut être utilisée pour attribuer ces étiquettes multiples.
  • Catégorisation de texte : il est possible de catégoriser les articles en fonction de leur contenu.

Classification déséquilibrée

Il s'agit d'un cas particulier de classification binaire, où il existe un déséquilibre des classes dans l'ensemble des données d'apprentissage. La plupart des exemples dans les données d'apprentissage appartiennent à un ensemble, et une petite partie appartient à l'autre ensemble. Malheureusement, la plupart des algorithmes de machine learning fonctionnent mieux lorsque la répartition entre les classes est égale. Par exemple, disons que dans vos données d'apprentissage, vous avez 10 000 transactions de clients authentiques et seulement 100 transactions frauduleuses. Pour égaliser la précision, des techniques spécialisées sont nécessaires pour ré-équilibrer les données. Les applications de la classification déséquilibrée peuvent être les suivantes :

  • La détection des fraudes : dans l'ensemble de données étiquetées utilisé pour la formation, seul un petit nombre d'entrées sont étiquetées comme étant des fraudes.
  • Les diagnostics médicaux : dans un grand nombre d'échantillons, ceux qui présentent un cas positif d'une maladie peuvent être beaucoup moins nombreux.

Des techniques spécialisées comme les approches basées sur les coûts et les approches basées sur l'échantillonnage sont utilisées pour aider à traiter les cas de classification déséquilibrée.

Applications de la régression dans la vie réelle

Régression linéaire

La régression linéaire dans le supervised learning apprend à un algorithme comment trouver une relation linéaire entre les données d'entrée et de sortie. Il s'agit du modèle le plus simple utilisé lorsque les sorties représentent une combinaison linéairement pondérée des sorties. La régression linéaire peut être utilisée pour prédire des valeurs dans une plage continue (par exemple, ventes, prix : prévisions) ou pour les classer en catégories (par exemple, chat, chien : régression logistique). Dans les données d'apprentissage pour la régression linéaire, une variable d'entrée (indépendante) et une variable de sortie correspondante (dépendante) sont fournies. À partir des données d'entrée étiquetées fournies, l'algorithme de régression calcule le point d'interception et le coefficient x de la fonction linéaire. Les applications de la régression linéaire peuvent inclure :

Prévision : l'une des applications les plus importantes de la régression linéaire est la prévision. Les prévisions peuvent être de différentes natures. Les entreprises utilisent la régression linéaire pour prévoir les ventes ou les comportements d'achat de leurs clients. Elle est également utilisée pour prévoir la croissance économique, les ventes immobilières et les prix des produits de base comme le pétrole. La régression linéaire est souvent aussi utilisée pour estimer le salaire optimal d'un nouvel employé, selon les données historiques des salaires.

Régression logistique

Elle est utilisée pour déterminer la probabilité qu'un événement se produise. Les données d'apprentissage comportent une variable indépendante, et la sortie souhaitée est une valeur comprise entre 0 et 1. Une fois l'algorithme formé avec la régression logistique, il peut prédire la valeur d'une variable dépendante (entre 0 et 1) en fonction de la valeur de la variable indépendante (en entrée). La régression logistique utilise la fonction sigmoïde en forme de S classique. Avec la régression logistique dans le contexte du supervised learning, un algorithme estime les valeurs des coefficients bêta b0 et b1 à partir des données de formation fournies.

probabilité = e^(b0 + b1 * X)

Les applications de la régression logistique comprennent :

  • La détermination de la probabilité : l'une des principales applications de la régression logistique consiste à déterminer la probabilité d'un événement. La probabilité de tout événement se situe entre 0 et 1, et c'est le résultat d'une fonction logistique. Les algorithmes de régression logistique dans le machine learning peuvent être utilisés pour prédire les résultats des élections, les probabilités d'une calamité naturelle et d'autres événements de ce type.
  • Classification : même si la régression logistique utilise une fonction continue, certaines de ses applications concernent la classification. Elle peut être utilisée pour la ségrégation d'images et pour des problèmes de classification connexes.

Régression polynomiale

La régression polynomiale est utilisée pour un ensemble de données plus complexe qui ne s'adapte pas parfaitement à une régression linéaire. Un algorithme est formé à l'aide d'un ensemble de données complexes et étiquetées qui peuvent ne pas bien s'adapter à une régression linéaire. Si de telles données de formation sont utilisées avec une régression linéaire, cela peut entraîner un sous-ajustement, c'est-à-dire que l'algorithme ne capture pas les véritables tendances des données. Les régressions polynomiales permettent une plus grande courbure de la ligne de régression et donc une meilleure approximation de la relation entre la variable dépendante et la variable indépendante.

Le biais et la variance sont deux termes principaux associés à la régression polynomiale. Le biais est l'erreur de modélisation qui se produit en simplifiant la fonction d'ajustement. La variance fait également référence à une erreur causée par l'utilisation d'une fonction trop complexe pour ajuster les données.

Les étapes de base du supervised learning

Pour exécuter et résoudre un problème en utilisant le machine learning supervisé, il faut :

  • Sélectionner le type de données de formation : la première étape du supervised learning consiste à déterminer quelle est la nature des données à utiliser pour la formation. Par exemple, dans le cas de l'analyse de l'écriture manuscrite, il peut s'agir d'une seule lettre, d'un mot ou d'une phrase.
  • Collecter et nettoyer les données de formation : au cours de cette étape, les données de formation sont collectées à partir de diverses sources et subissent un nettoyage rigoureux.
  • Choisir un modèle utilisant un algorithme de supervised learning : en fonction de la nature des données d'entrée et de l'utilisation souhaitée, choisissez entre un algorithme de classification ou de régression. Il peut s'agir d'arbres de décision, de SVM, de Naïve Bayes ou de forêt aléatoire. Les principaux critères de sélection d'un algorithme sont la vitesse d'apprentissage, l'utilisation de la mémoire, la précision de la prédiction sur de nouvelles données et la transparence/compréhensibilité de l'algorithme.
  • Former le modèle : la fonction d'ajustement est affinée par de multiples itérations de données de formation afin d'améliorer la précision et la vitesse de prédiction.
  • Faire des prédictions et évaluer le modèle : une fois que la fonction d'ajustement est satisfaisante, l'algorithme peut recevoir de nouveaux ensembles de données pour faire de nouvelles prédictions.

Optimiser et former à nouveau le modèle : la dégradation des données fait partie intégrante du machine learning. Par conséquent, les modèles doivent être régulièrement formés à nouveau avec des données rafraîchies pour garantir leur précision.