O que é aprendizagem não supervisionada?
O aprendizado não supervisionado é uma das maneiras pelas quais o aprendizado de máquina (ML) "aprende" os dados. O aprendizado não supervisionado possui dados não rotulados que o algoritmo deve tentar entender por conta própria. O aprendizado supervisionado é onde os conjuntos de dados são rotulados para que haja uma resposta com a qual a máquina pode medir sua precisão. Se o aprendizado de máquina fosse uma criança aprendendo a andar de bicicleta, o aprendizado supervisionado seria o pai correndo atrás da bicicleta segurando-a na vertical. Aprender sem supervisão é entregar a bicicleta, dar tapinhas na cabeça da criança e dizer 'boa sorte'.
O objetivo é simplesmente permitir que a máquina aprenda sem ajuda ou avisos de cientistas de dados . Neste percurso, ele ainda deve aprender a ajustar os resultados e agrupamentos quando houver resultados mais adequados. É permitir que a máquina entenda os dados e os processe como bem entender.
A aprendizagem não supervisionada é usada para explorar dados desconhecidos. Ela pode revelar padrões que podem ter sido perdidos ou examinar grandes conjuntos de dados que seriam demais para serem resolvidos por um ser humano.
Como funciona a aprendizagem não supervisionada?
Para entender a aprendizagem não supervisionada, temos que entender a aprendizagem supervisionada. Se um computador estivesse aprendendo a identificar frutas em um ambiente de aprendizado supervisionado, ele receberia imagens de exemplo de frutas que seriam rotuladas. Isso é chamado de dados de entrada. Por exemplo, os rótulos diriam que as bananas são longas, curvas e amarelas, as maçãs são redondas e vermelhas, enquanto uma laranja é esférica, com aparência de cera e da cor laranja. Depois de algum tempo, a máquina deve ser capaz de identificar com segurança qual fruta é qual, com base nesses descritores. Se apresentada uma maçã, por exemplo, poderia dizer com segurança que não é uma laranja, portanto não é uma laranja, mas também que não é amarela e comprida, portanto não é uma banana. É redonda e vermelha, então é uma maçã.
Em contraste, a aprendizagem não supervisionada ocorre quando não há categorização ou rotulação dos dados. A máquina não terá ideia do conceito de fruta, por isso não pode etiquetar os objetos. No entanto, pode agrupá-los de acordo com suas cores, tamanhos, formas e diferenças. A máquina agrupa as coisas de acordo com semelhanças, encontrando estruturas e padrões ocultos em dados não rotulados. Não existe caminho certo ou errado, e nenhum professor. Não há resultados, apenas uma análise pura dos dados.
A aprendizagem não supervisionada usa uma variedade de algoritmos para ajustar os dados em grupos amplos, agrupamentos e associações.

Algoritmos de cluster na aprendizagem não supervisionada
O Clustering ou agrupamento é quando os objetos são agrupados em subconjuntos chamados clusters. Esta é uma das melhores maneiras de obter uma visão geral da estrutura de seus dados. Haverá algumas características semelhantes nesses grupos. Este método é projetado para ter grupos com as mesmas características e, em seguida, atribuí-los aos clusters relevantes.
Agrupamento hierárquico
É quando a máquina agrupa coisas que vão juntas em uma árvore de cluster. Todos os dados são um cluster, então eles se dividem em clusters cada vez menores. Os dados pertencerão a um conjunto em cascata de clusters, desde os mais genéricos até os mais específicos e bem agrupados. Portanto, o resultado final é que você vê como os diferentes subgrupos se relacionam uns com os outros ou quão distantes eles estão.
Agrupamento de k-médias
Este algoritmo separa os dados em clusters distintos que não foram rotulados nos dados. A distância ao centro do cluster depende da força da associação. Os pontos de dados podem pertencer a apenas um cluster. Um k maior significa um grupo menor com mais granularidade da mesma maneira. Cada cluster é atribuído a um rótulo de ponto de dados.
Modelos de mistura gaussiana
Com base em uma distribuição normal da curva de sino, os agrupamentos de grupos são espalhados em densidades normais esperadas, mostrando subpopulações nos dados gerais.
Agrupamentos difusos
Esses clusters podem se sobrepor, portanto, cada ponto de dados pode pertencer a quantos clusters forem relevantes, em oposição ao agrupamento rígido, em que os pontos de dados só podem pertencer a um cluster. Este é o diagrama de Venn do mundo da aprendizagem não supervisionada.
O armazenamento em cluster pressupõe relacionamentos entre grupos e, portanto, nem sempre é a melhor forma de segmentação de clientes - esse algoritmo não trata os pontos de dados como indivíduos. Você precisa aplicar mais métodos estatísticos para analisar os dados mais detalhadamente.
Associação na aprendizagem não supervisionada
No aprendizado de máquina, o algoritmo cria regras que encontram associações entre pontos de dados. Ele encontra as relações entre as variáveis, identificando itens que tendem a ocorrer juntos. Por exemplo, a análise de cestas em supermercados pode ver quais itens as pessoas tendem a comprar ao mesmo tempo - sopa e pão, por exemplo. Ou, quando as pessoas compram uma casa nova, o que é provável que comprem também novo? Este algoritmo é excelente para identificar oportunidades de marketing.
Modelos de variáveis latentes na aprendizagem não supervisionada
A modelagem de variáveis latentes mostra a relação entre as variáveis observáveis (ou variáveis manifestas) e aquelas que estão ocultas ou não observadas (variáveis latentes). Modelos de variáveis latentes são usados principalmente no pré-processamento / limpeza de dados, para reduzir os recursos em um conjunto de dados ou dividir o conjunto de dados em vários componentes.
Quando o treinamento não supervisionado é preferido para tendências e padrões desconhecidos?
Como a máquina não sabe que há uma resposta "correta", permitir que as decisões sobre os dados sejam tomadas com base apenas nas informações (ou seja, sem preconceito do cientista) permite que os cientistas de dados aprendam mais sobre os dados. Os algoritmos podem encontrar estruturas interessantes ou ocultas nos dados que não eram visíveis anteriormente para os cientistas de dados. Essas estruturas ocultas são chamadas de vetores de recursos.
Os dados geralmente não vêm com rótulos, portanto, o aprendizado não supervisionado evita que o cientista de dados tenha que rotular tudo, o que pode ser uma tarefa demorada e muitas vezes intransponível. Algoritmos de aprendizagem não supervisionados também permitem tarefas de processamento mais complexas. Mais uma vez, nenhuma rotulação significa que relacionamentos complicados e clusters de dados podem ser mapeados. Sem rotulagem de dados significa sem ideias preconcebidas e sem preconceito.
O melhor momento para usar a aprendizagem não supervisionada é quando não há dados pré-existentes sobre os resultados preferidos. O aprendizado não supervisionado pode identificar recursos que podem ser úteis na categorização de conjuntos de dados desconhecidos. Por exemplo, se uma empresa precisa determinar o mercado-alvo de um novo produto.
O aprendizado não supervisionado usa uma técnica chamada redução de dimensionalidade. É quando a máquina assume que muitos dados são redundantes e remove dimensões ou combina algumas partes dos dados quando aplicável. A compressão de dados resulta em economia de tempo e economia de poder de computação.
Os modelos generativos são outro ponto forte da aprendizagem não supervisionada. Os modelos generativos mostram a distribuição dos dados. É quando os dados são revisados e novas amostras podem ser criadas a partir deles. Por exemplo, um modelo generativo pode receber um conjunto de imagens e criar um conjunto de imagens fabricadas com base nelas.