분산 분석(ANOVA)이란 무엇인가요?

분산 분석 ( ANOVA )은 서로 다른 그룹의 평균(또는 산술평균)에서 분산값을 비교하는 데 사용되는 통계 공식입니다. 다양한 시나리오에서 이를 사용하여 서로 다른 그룹의 평균간에 차이가 있는지 확인합니다.

분산 분석(ANOVA) 다이어그램

예를 들어, 과학자들은 다양한 당뇨병 약물의 효과를 연구할 목적으로 약물 유형과 그에 따른 혈당 수치 사이의 관계를 설정하고 실험하여 조사합니다. 표본 집단은 사람들의 집합입니다. 샘플 모집단을 여러 그룹으로 나누고 각 그룹은 시험 기간 동안 특정 의약품을 투여받습니다. 시험 기간이 끝나면 각 대상자의 혈당 수치를 측정합니다. 그런 다음 각 그룹에 대해 평균 혈당 수치를 계산합니다. ANOVA는 이러한 그룹 평균을 비교하여 통계적으로 다른지 또는 유사한 지 알아내는 데 도움이 됩니다.

ANOVA의 결과는 'F 통계량'입니다. 이 비율은 그룹 내 분산과 그룹 간 분산 간의 차이를 보여주며, 궁극적으로 귀무 가설이 지지되거나 거부된다는 결론을 내릴 수있는 그림을 생성합니다. 그룹간에 유의한 차이가 있는 경우 귀무 가설이 지원되지 않으며 F 비율이 더 커집니다.

Spotfire를 사용한 시각화/차트
Spotfire를 사용한 시각화/차트
이 데모에서 Spotfire를 통해 데이터의 모든 측면을 얼마나 쉽게 시각화할 수 있는지 확인하십시오.

ANOVA 용어

종속 변수 : 독립 변수의 영향을 받는 것으로 설정할 수 있는 측정 항목입니다.

독립 변수 : 종속 변수에 영향을 미칠 수 있는 측정 항목입니다.

귀무 가설 (H0) : 그룹 또는 평균간에 차이가 없는 경우입니다. ANOVA 검정의 결과에 따라 귀무 가설이 수락되거나 거부됩니다.

대립 가설 (H1) : 그룹과 평균 사이에 차이가 있다는 가설이 있는 경우입니다.

인자 및 수준 : ANOVA 용어에서 독립 변수는 종속 변수에 영향을 미치는 인자라고 합니다. 수준은 실험에 사용되는 독립 변수의 서로 다른 값을 나타냅니다.

모수 인자 모델 : 일부 실험에서는 요인에 대해 이산 수준 집합만 사용합니다. 예를 들어, 모수 인자 검정에서는 약물의 세 가지 다른 용량을 검사하고 다른 용량은 고찰하지 않습니다.

변량 인자 모델 :이 모델은 독립 변수의 가능한 모든 값에서 변량 수준 값을 가져옵니다.

한 인자와 두 인자 ANOVA의 차이점은 무엇이나요?

ANOVA에는 두 가지 유형이 있습니다.

일원 분산 분석

일원 분산 분석은 단일 인자 ANOVA 또는 단순 ANOVA라고도 합니다. 이름에서 알 수 있듯이 일원 분산 분석은 수준이 두 개 이상인 독립 변수(인자)가 하나 뿐인 실험에 적합합니다. 예를 들어, 종속 변수는 정원에 꽃이 더 많은 달이 될 수 있습니다. 열두개의 수준이 있을 것입니다. 일원 분산 분석에서는 다음 가정을 설정합니다:

  • 독립성: 한 관측치에 대한 종속 변수의 값은 다른 관측치의 값과 무관합니다.
  • 정규성: 종속 변수의 값이 정규 분포를 따릅니다
  • 분산: 다양한 실험 그룹에서 분산이 비교가능합니다.
  • 연속성: 종속 변수(꽃 수)는 연속성이며 세분화할 수 있는 척도로 측정할 수 있습니다.

완전 요인 분산 분석(이원 분산 분석이라고도 함)

완전 요인 분산 분석은 두 개 이상의 독립 변수가 존재할 때 사용됩니다. 이러한 각 요인은 여러 수준을 가질 수 있습니다. 완전 요인 분산 분석은 요인 및 수준의 가능한 모든 순열을 사용하는 완전 요인 실험의 경우에만 사용할 수 있습니다. 이것은 정원에 더 많은 꽃이 피는 달이 될 수 있고 그 다음은 일조 시간입니다. 이 이원 분산 분석은 독립 변수 대 독립 변수 분산을 측정할 뿐만 아니라 두 요인이 서로 영향을 미치는지 여부를 측정합니다. 이원 분산 분석에서는 다음을 가정합니다.

  • 연속: 일원 분산 분석과 동일하며 종속 변수는 연속이어야 합니다.
  • 독립성: 각 샘플은 교차됨이 없이 다른 샘플과 독립적입니다.
  • 분산: 여러 그룹의 데이터 분산이 동일합니다.
  • 정규성: 표본은 정규 모집단을 나타냅니다.
  • 범주: 독립 변수는 별도의 범주 또는 그룹에 있어야 합니다.

ANOVA를 수행하는 이유는 무엇이나요?

어떤 사람들은 ANOVA의 필요성에 의문을 제기합니다. 결국 평균값은 보기만으로 평가할 수 있습니다. 그러나 ANOVA는 평균을 비교하는 것 이상을 수행합니다.

다양한 그룹의 평균값이 다른 것처럼 보이지만 이는 독립 변수가 종속 변수에 미치는 영향이 아니라 샘플링 오류 때문일 수 있습니다. 샘플링 오류로 인한 경우 그룹 평균 간의 차이는 의미가 없습니다. ANOVA를 사용하여 평균값의 차이가 통계적으로 유의한지 확인할 수 있습니다.

ANOVA는 또한 독립 변수가 종속 변수에 영향을 미치는지를 간접적으로 보여줍니다. 예를 들어, 위의 혈당 수준 실험에서는 ANOVA가 그룹 평균이 통계적으로 유의하지 않고 그룹 평균 간의 차이가 샘플링 오류 때문이라는 것을 발견했다고 가정합니다. 이 결과로 약물의 유형(독립 변수)이 혈당 수치에 영향을 미치는 중요한 요소가 아니라는 것을 추론하게 됩니다.

ANOVA의 한계

ANOVA는 최소 두 그룹의 평균간에 유의한 차이가 있는지 여부만 알 수 있지만 어떤 쌍에서 평균이 다른지는 설명할 수 없습니다. 세분화된 데이터에 대한 요구 사항이 있는 경우 추가 후속 통계 프로세스를 배포하면 평균값이 다른 그룹을 찾는 데 도움이 됩니다. 일반적으로 ANOVA는 다른 통계 방법과 함께 사용됩니다.

ANOVA는 또한 평균만 비교하기 때문에 데이터 세트가 균일하게 분포되어 있다고 가정합니다. 데이터가 정규 곡선 형태로 분포되어 있지 않고 특이치가 있는 경우 ANOVA는 데이터를 해석하는 데 적합한 프로세스가 아닙니다.

마찬가지로 ANOVA는 표준 편차가 그룹간에 동일하거나 유사하다고 가정합니다. 표준 편차에 큰 차이가 있으면 검정의 결론이 정확하지 않을 수 있습니다.

데이터 사이언스에서 ANOVA는 어떻게 사용되나요?

머신 러닝의 가장 큰 과제 중 하나는 모델을 학습하는 데 사용되는 가장 안정적이고 유용한 기능을 선택하는 것입니다. ANOVA는 모델 학습에 가장 적합한 기능을 선택하는 데 도움이 됩니다. ANOVA는 모델의 복잡성을 줄이기 위해 입력 변수의 수를 최소화합니다. ANOVA는 독립 변수가 목표 변수에 영향을 미치는지 확인하는 데 도움이 됩니다.

데이터 사이언스 에서 ANOVA 사용의 예는 이메일 스팸 감지입니다. 엄청난 수의 이메일과 이메일 기능으로 인해 모든 스팸 이메일을 식별하고 거부하는 것이 매우 어렵고 자원 집약적입니다. ANOVA 및 F-검정을 배포하면 어떤 이메일이 스팸인지 아닌지를 올바르게 식별하는 데 중요한 기능을 식별할 수 있습니다.

ANOVA를 사용하여 답변할 수 있는 질문

ANOVA는 복잡한 통계 단계를 포함하지만 AI를 사용하는 데 비해서는 비즈니스에 유익한 기술입니다. 조직은 ANOVA를 사용하여 가능한 많은 옵션 중에서 선택할 대안을 결정합니다. 예를 들어 ANOVA는 다음에 도움이 될 수 있습니다.

  • 세 가지 다른 비료 제품을 사용한 두 가지 다른 밀 품종의 수확량 비교.
  • 특정 제품의 판매에 대한 다양한 소셜 미디어 광고의 효과 비교.
  • 다양한 유형의 차량에서 다양한 윤활유의 효과 비교.
TIBCO Spotfire 사용해보기
TIBCO Spotfire 사용해보기-무료 평가판
시장에서 가장 완벽한 분석 솔루션인 TIBCO Spotfire를 사용하면 데이터에서 새로운 통찰력을 쉽게 발견할 수 있습니다.