O que é Análise de Variância (ANOVA)?
A Análise de Variância ( ANOVA ) é uma fórmula estatística usada para comparar as variâncias entre as medianas (ou médias) de grupos diferentes. Diversos cenários usam ANOVA para determinar se há alguma diferença entre as medianas dos diferentes grupos.
Por exemplo, para estudar a eficácia de diferentes medicamentos para diabetes, os cientistas realizam projetos e experiências para explorar a relação entre o tipo de medicamento e o nível de açúcar resultante no sangue . A amostra da população é um conjunto de pessoas. Dividimos a amostra da população em vários grupos, e cada grupo recebe um medicamento específico por um período de teste. No final do período experimental, os níveis de açúcar no sangue são medidos para cada um dos participantes individuais. Em seguida, para cada grupo, o nível mediano de açúcar no sangue é calculado. ANOVA ajuda a comparar essas medianas de grupo para descobrir se eles são estatisticamente diferentes ou semelhantes.
O resultado da ANOVA é a 'estatística F'. Esta razão mostra a diferença entre a variância dentro do grupo e a variância entre os grupos, o que acaba por produzir um valor que permite concluir que a hipótese nula é suportada ou rejeitada. Se houver uma diferença significativa entre os grupos, a hipótese nula não é suportada e o F-ratio será maior.

Terminologia ANOVA
Variável dependente : Este é o item sendo medido que teoricamente é afetado pelas variáveis independentes.
Variável (is) independente (s) : são os itens que estão sendo medidos que podem ter um efeito na variável dependente.
Uma hipótese nula (H0) : É quando não há diferença entre os grupos ou médias. Dependendo do resultado do teste ANOVA, a hipótese nula será aceita ou rejeitada.
Uma hipótese alternativa (H1) : Quando teoricamente pensamos que existe uma diferença entre grupos e médias.
Fatores e níveis : Na terminologia ANOVA, uma variável independente é chamada de fator que afeta a variável dependente. O nível denota os diferentes valores da variável independente que são usados em um experimento.
Modelo de fator fixo : alguns experimentos usam apenas um conjunto discreto de níveis para fatores. Por exemplo, um teste de fator fixo testaria três dosagens diferentes de um medicamento e não consideraria nenhuma outra dosagem.
Modelo de fator aleatório : este modelo extrai um valor aleatório de nível de todos os valores possíveis da variável independente.
Qual é a diferença entre a ANOVA de um fator e a ANOVA de dois fatores?
Existem dois tipos de ANOVA.
ANOVA unilateral
A análise de variância unilateral também é conhecida como ANOVA de fator único ou ANOVA simples. Como o nome sugere, a ANOVA unilateral é adequada para experimentos com apenas uma variável independente (fator) com dois ou mais níveis. Por exemplo, uma variável dependente pode ser o mês do ano em que há mais flores no jardim. Haverá doze níveis. Uma ANOVA unilateral pressupõe:
- Independência: O valor da variável dependente para uma observação é independente do valor de quaisquer outras observações.
- Normalidade: O valor da variável dependente é distribuído normalmente
- Variância: a variância é comparável em diferentes grupos de experimentos.
- Contínuo: A variável dependente (número de flores) é contínua e pode ser medida em uma escala subdividida.
ANOVA Fatorial Completa (também chamada de ANOVA bidirecional)
ANOVA fatorial completo é usada quando há duas ou mais variáveis independentes. Cada um desses fatores pode ter vários níveis. ANOVA fatorial completo só pode ser usado no caso de um experimento fatorial completo, onde há uso de todas as permutações possíveis de fatores e seus níveis. Este pode ser o mês do ano em que há mais flores no jardim e depois o número de horas de sol. Esta ANOVA bidirecional não mede apenas a variável independente versus a independente, mas se os dois fatores afetam um ao outro. Uma ANOVA bidirecional assume:
- Contínua: Assim como na ANOVA unilateral, a variável dependente deve ser contínua.
- Independência: Cada amostra é independente de outras amostras, sem cruzamento.
- Variância: a variação dos dados entre os diferentes grupos é a mesma.
- Normalidade: As amostras são representativas de uma população normal.
- Categorias: as variáveis independentes devem estar em categorias ou grupos separados.
Por que a ANOVA funciona?
Algumas pessoas questionam a necessidade de ANOVA; afinal, os valores médios podem ser avaliados apenas olhando-se para eles. Mas ANOVA faz mais do que apenas comparar medianas.
Mesmo que os valores medianos de vários grupos pareçam ser diferentes, isso pode ser devido a um erro de amostragem e não ao efeito da variável independente na variável dependente. Se for devida a um erro de amostragem, a diferença entre as médias do grupo não tem sentido. A ANOVA ajuda a descobrir se a diferença nos valores médios é estatisticamente significativa.
A ANOVA também revela indiretamente se uma variável independente está influenciando a variável dependente. Por exemplo, no experimento de nível de açúcar no sangue acima, suponha que a ANOVA descubra que as médias dos grupos não são estatisticamente significativas e que a diferença entre as médias dos grupos se deve apenas a um erro de amostragem. Esse resultado infere que o tipo de medicamento (variável independente) não é um fator significativo que influencia o nível de açúcar no sangue.
Limitações da ANOVA
A ANOVA só pode dizer se há uma diferença significativa entre as medianas de pelo menos dois grupos, mas não pode explicar qual par difere em suas medianas. Se houver uma necessidade de dados granulares, a implantação de mais processos estatísticos de acompanhamento ajudará a descobrir quais grupos diferem em valor mediano. Normalmente, ANOVA é usada em combinação com outros métodos estatísticos.
A ANOVA também faz suposições de que o conjunto de dados está uniformemente distribuído, pois compara apenas as medianas. Se os dados não estiverem distribuídos em uma curva normal e houver valores anormais, ANOVA não é o processo correto para interpretar os dados.
Da mesma forma, ANOVA assume que os desvios padrão são iguais ou semelhantes entre os grupos. Se houver uma grande diferença nos desvios-padrão, a conclusão do teste pode ser imprecisa.
Como a ANOVA é usada na ciência de dados?
Um dos maiores desafios do aprendizado de máquina é a seleção dos recursos mais confiáveis e úteis que são usados para treinar um modelo. A ANOVA ajuda a selecionar os melhores recursos para treinar um modelo. ANOVA minimiza o número de variáveis de entrada para reduzir a complexidade do modelo. A ANOVA ajuda a determinar se uma variável independente está influenciando uma variável de destino.
Um exemplo de uso de ANOVA em ciência de dados é a detecção de spam de e-mail. Devido ao grande número de e-mails e recursos de e-mail, tornou-se muito difícil e com uso intensivo de recursos identificar e rejeitar todos os e-mails de spam. Os testes ANOVA e F são implantados para identificar recursos que foram importantes para identificar corretamente quais e-mails eram spam e quais não eram.
Perguntas que a ANOVA ajuda a responder
Mesmo que a ANOVA envolva etapas estatísticas complexas, é uma técnica benéfica para empresas por meio do uso de IA. As organizações usam ANOVA para tomar decisões sobre qual alternativa escolher entre as várias opções possíveis. Por exemplo, a ANOVA pode ajudar a:
- Compare o rendimento de duas variedades diferentes de trigo com três marcas diferentes de fertilizantes.
- Compare a eficácia de vários anúncios de mídia social nas vendas de um produto específico.
- Compare a eficácia de diferentes lubrificantes em diferentes tipos de veículos.
