O que é aprendizagem supervisionada?

A aprendizagem supervisionada é um ramo do aprendizado de máquina, um método de análise de dados que usa algoritmos que aprendem iterativamente a partir dos dados para permitir que os computadores encontrem informações ocultas sem serem explicitamente programados para onde procurar. a aprendizagem supervisionada é um dos três métodos usados pelas máquinas para “aprender”: supervisionada, não supervisionada e com otimização.

Diagrama de Aprendizagem Supervisionada

A aprendizagem supervisionada resolve problemas conhecidos e usa um conjunto de dados rotulado para treinar um algoritmo para realizar tarefas específicas. Ela usa modelos para prever resultados conhecidos, como "Qual é a cor da imagem?" “Quantas pessoas estão na imagem?” “Quais são os fatores que levam à fraude ou aos defeitos do produto?” etc. Por exemplo, um processo de aprendizagem supervisionada poderia ser o de classificar veículos de duas e quatro rodas a partir de suas imagens. Os dados de treinamento teriam que ser rotulados corretamente para identificar se um veículo é de duas rodas ou de quatro rodas. A aprendizagem supervisionada permite que os algoritmos 'aprendam' a partir de dados históricos / de treinamento e os apliquem a entradas desconhecidas para derivar a saída correta. A aprendizagem supervisionada usa árvores de decisão, floresta aleatória e máquina de aumento de gradiente para operar.

Em contraste, a aprendizagem não supervisionada é um tipo de aprendizagem de máquina usado para identificar novos padrões e detectar anomalias. Os dados que são alimentados em algoritmos de aprendizagem não supervisionados não são rotulados. O algoritmo (ou modelos) tenta dar sentido aos dados por conta própria, encontrando recursos e padrões. Um exemplo de pergunta que a aprendizagem de máquina não supervisionada poderia responder é "Existem novos clusters de fraude ou padrões de compra ou modos de falha emergentes?" A aprendizagem não supervisionada usa clustering, componentes principais, redes neurais e máquinas de vetores de suporte.

Otimização, o terceiro tipo de aprendizado de máquina, encontra a melhor solução mesmo quando há restrições complexas. Por exemplo, a otimização poderia responder à pergunta "Qual é o melhor caminho a seguir ou alocação de recursos ou programação de manutenção de equipamentos?" A otimização utiliza algoritmos genéticos, que se baseiam na teoria da evolução de Darwin.

O que é classificação na aprendizagem supervisionada?

Existem dois tipos principais de aprendizagem supervisionada; classificação e regressão. A classificação é onde um algoritmo é treinado para classificar os dados de entrada em variáveis discretas. Durante o treinamento, os algoritmos recebem dados de entrada de treinamento com um rótulo de 'classe'. Por exemplo, os dados de treinamento podem consistir nas últimas faturas de cartão de crédito de um conjunto de clientes, identificadas se eles fizeram uma compra futura ou não. Quando o saldo de crédito de um novo cliente é apresentado ao algoritmo, ele classifica o cliente no grupo 'comprará' ou 'não comprará'.

O que é regressão na aprendizagem supervisionada?

Em contraste com a classificação, a regressão é um método de aprendizagem supervisionada em que um algoritmo é treinado para prever uma saída a partir de uma faixa contínua de valores possíveis. Por exemplo, os dados de treinamento imobiliário tomariam nota da localização, área e outros parâmetros relevantes. A produção é o preço do imóvel específico.

Na regressão, um algoritmo precisa identificar uma relação funcional entre os parâmetros de entrada e a saída. O valor de saída não é discreto como na classificação, em vez disso, é uma função dos parâmetros de entrada. A exatidão de um algoritmo de regressão é calculada com base na variação entre a saída precisa e a saída prevista.

Experimente o TIBCO Data Science - Teste Grátis
Experimente o TIBCO Data Science - Teste Grátis
Democratize, colabore e operacionalize o machine learning em sua empresa com a TIBCO Data Science.

Aplicações de classificação da vida real

Classificação binária

Este algoritmo classifica os dados de entrada em um dos dois grupos possíveis. Frequentemente, uma das classes indica um estado 'normal / desejado' e a outra indica um estado 'anormal / indesejado'. As aplicações do mundo real de classificação binária incluem:

Detecção de spam

O algoritmo recebe exemplos de e-mails marcados como 'spam' ou 'não spam' durante a fase de aprendizado supervisionado. Posteriormente, quando o algoritmo é apresentado com uma nova entrada de e-mail, ele prevê se o e-mail é 'spam' ou 'não é spam'.

Previsão de churn

O algoritmo usa um conjunto de dados de treinamento de clientes que cancelaram a assinatura de um serviço anteriormente. Com base no treinamento, o algoritmo prevê se um novo cliente encerrará a assinatura ou não com base nos parâmetros de entrada.

Previsão de conversão

O algoritmo é treinado com os dados do comprador e se ele comprou o item ou não. Então, com base nesse treinamento, o algoritmo prevê se um novo cliente fará uma compra ou não.

Os principais algoritmos usados para classificação binária incluem regressão logística e máquinas de vetores de suporte.

Classificação multiclasse

Na classificação de várias classes, o conjunto de dados de treinamento é rotulado com uma das várias classes possíveis. Em contraste com a classificação binária, um algoritmo multiclasse é treinado com dados que podem ser categorizados em uma das muitas classes possíveis. Os aplicativos para classificação multiclasse incluem:

  • Classificação de rosto: com base nos dados de treinamento, um modelo categoriza uma foto e mapeia para uma pessoa específica. Uma coisa a se notar aqui, pode haver um grande número de rótulos de classe. Nesse caso, milhares de pessoas.
  • Classificação de e-mail: a classificação de várias classes é usada para separar e-mails em várias categorias - social, educação, trabalho e família.
  • Os principais algoritmos usados para classificação multiclasse são Random Forest, Naive Bayes, Decision Trees, K-nearest neighbours e Gradient Boosting.

Classificação multi-rótulo

Ao contrário da classificação binária e multiclasse, em que o resultado tem apenas uma classe possível, a saída multiclasse pertence a uma ou mais classes. Isso significa que os mesmos dados de entrada podem ser classificados em diferentes segmentos. As aplicações da classificação multi-rótulo incluem:

  • Detecção de foto : nos casos em que as fotos têm vários objetos, como um veículo, animal e pessoas, a foto pode cair em vários rótulos.
  • Classificação de áudio / vídeo : músicas e vídeos podem se encaixar em vários gêneros e humores. A classificação de vários rótulos pode ser usada para atribuir esses rótulos múltiplos.
  • Categorização do texto : é possível categorizar os artigos com base no seu conteúdo.

Classificação desequilibrada

Este é um caso especial de classificação binária, onde há um desequilíbrio de classes no conjunto de dados de treinamento. A maioria dos exemplos nos dados de treinamento pertence a um conjunto e uma pequena parte pertence ao segundo conjunto. Infelizmente, a maioria dos algoritmos de aprendizado de máquina funciona melhor quando há uma divisão igual entre as classes. Por exemplo, digamos que em seus dados de treinamento você tenha 10.000 transações de clientes genuínas e apenas 100 fraudulentas. Para equilibrar a precisão, técnicas especializadas são necessárias devido ao desequilíbrio nos dados. As aplicações da classificação desequilibrada podem ser:

  • Detecção de fraude: no conjunto de dados rotulado usado para treinamento, apenas um pequeno número de entradas é rotulado como uma fraude.
  • Diagnósticos médicos: em um grande grupo de amostras, aqueles com um caso positivo de uma doença podem ser muito menos.

Técnicas especializadas, como abordagens baseadas em custos e abordagens baseadas em amostragem, são usadas para ajudar a lidar com casos de classificação desequilibrada.

Aplicações de regressão na vida real

Regressão linear

A regressão linear na aprendizagem supervisionada treina um algoritmo para encontrar uma relação linear entre os dados de entrada e saída. É o modelo mais simples usado onde as saídas representam uma combinação ponderada linearmente das saídas. A regressão linear pode ser usada para prever valores dentro de uma faixa contínua (por exemplo, vendas, preço - previsão) ou classificá-los em categorias (por exemplo, gato, cachorro - regressão logística ). Nos dados de treinamento para regressão linear, uma variável de entrada (independente) e uma variável de saída correspondente (a variável dependente) são fornecidas. A partir dos dados de entrada rotulados fornecidos, o algoritmo de regressão calcula a interceptação e o coeficiente x na função linear. As aplicações de regressão linear podem incluir:

Previsão: uma das aplicações mais significativas da regressão linear é a previsão. A previsão pode ser de diferentes naturezas. As empresas usam regressão linear para prever vendas ou o comportamento de compra de seus clientes. Também é usado para prever o crescimento econômico, vendas de imóveis e preços de commodities como o petróleo. A regressão linear também é usada para estimar o salário ideal para um novo funcionário, com base nos dados históricos dos salários.

Regressão logística

É usado para determinar a probabilidade de um evento acontecer. Os dados de treinamento terão uma variável independente e a saída desejada seria um valor entre 0 e 1. Uma vez que o algoritmo é treinado com regressão logística, ele pode prever o valor de uma variável dependente (entre 0 e 1) com base no valor da variável independente (entrada). A regressão logística usa a clássica função sigmóide em forma de S. Na regressão logística no contexto de aprendizagem supervisionada, um algoritmo estima os valores do coeficiente beta b0 e b1 a partir dos dados de treinamento fornecidos.

odds = e ^ (b0 + b1 * X)

As aplicações de regressão logística incluem:

  • Determinando a probabilidade: uma das principais aplicações da regressão logística é determinar a probabilidade de um evento. A probabilidade de qualquer evento está entre 0 e 1, e essa é a saída de uma função logística. Algoritmos de regressão logística em aprendizado de máquina podem ser usados para prever resultados eleitorais, probabilidades de uma calamidade natural e outros eventos semelhantes.
  • Classificação: Embora a regressão logística use uma função contínua, algumas de suas aplicações são na classificação. Ele pode ser usado para segregação de imagens e problemas de classificação relacionados.

Regressão polinomial

A regressão polinomial é usada para um conjunto de dados mais complexo que não se ajusta perfeitamente a uma regressão linear. Um algoritmo é treinado com um conjunto de dados rotulado e complexo que pode não se encaixar bem em uma regressão em linha reta. Se tais dados de treinamento forem usados com regressão linear, isso pode causar subajuste, onde o algoritmo não está capturando as verdadeiras tendências dos dados. As regressões polinomiais permitem mais curvatura na linha de regressão e, portanto, uma melhor aproximação da relação entre a variável dependente e independente.

Viés e variância são dois termos principais associados à regressão polinomial. Bias é o erro na modelagem que ocorre ao simplificar a função de ajuste. A variância também se refere a um erro causado pelo uso de uma função supercomplexa para ajustar os dados.

As etapas básicas da aprendizagem supervisionada

Para executar e resolver um problema usando aprendizado de máquina supervisionado, é necessário:

  • Selecione o tipo de dados de treinamento: A primeira etapa no aprendizado supervisionado é determinar qual é a natureza dos dados a serem usados para o treinamento. Por exemplo, no caso de análise de caligrafia, pode ser uma única letra, uma palavra ou uma frase.
  • Reúna e limpe os dados de treinamento: nesta etapa, os dados de treinamento são coletados de várias fontes e passam por uma limpeza de dados rigorosa.
  • Escolha um modelo usando um algoritmo de aprendizado supervisionado: Com base na natureza dos dados de entrada e no uso desejado, escolha um algoritmo de classificação ou regressão. Podem ser árvores de decisão, SVM, Naïve Bayes ou Floresta aleatória. A principal consideração ao selecionar um algoritmo é a velocidade de treinamento, uso de memória, precisão da previsão em novos dados e transparência / interpretabilidade do algoritmo.
  • Treine o modelo: a função de ajuste é ajustada por meio de várias iterações de dados de treinamento para melhorar a precisão e a velocidade da previsão.
  • Faça previsões e avalie o modelo: Uma vez que a função de ajuste é satisfatória, o algoritmo pode receber novos conjuntos de dados para fazer novas previsões.

Otimize e treine novamente o modelo: a redução de dados é uma parte natural do aprendizado de máquina. Portanto, os modelos devem ser regularmente retreinados com dados atualizados para garantir a precisão.