히스토그램 차트란 무엇입니까?

히스토그램은 한 개 변수에 대한 몇 가지 데이터 포인트의 빈도 분포를 나타내는 데 사용되는 그래프입니다. 히스토그램에서는 종종 데이터를 다양한 "빈" 또는 "범위 그룹"으로 분류하고 해당 빈 각각에 속하는 데이터 포인트 수를 계산합니다.

히스토그램 차트 예시

히스토그램은 영국의 수학자 Karl Pearson이 발명했습니다. 히스토그램은 샘플 데이터의 분포를 그래프로 나타낼 수 있으므로 통계에서 특히 유용합니다.

다음 히스토그램 예시에서는 학생 시험 점수를 나타냅니다. 학생의 점수는 여러 범위로 분류됩니다. 각 막대의 높이는 해당 범위에 해당한 점수를 받은 학생 수를 나타냅니다.

학생 점수 히스토그램 예시

히스토그램 데모
Spotfire를 사용한 시각화/차트
이 데모에서 Spotfire를 통해 데이터의 모든 측면을 얼마나 쉽게 시각화할 수 있는지 확인하십시오.

히스토그램은 언제 사용해야 합니까?

데이터가 단일 독립 변수를 포함하는 경우

데이터가 고객의 연령과 같은 단일 변수에 종속되는 경우 히스토그램을 사용해야 합니다. 히스토그램을 통해 시청자는 종속 변수의 분포를 이해할 수 있습니다. 예를 들어, 연령에 따른 고객의 은행 잔고를 들 수 있습니다.

데이터에 연속 범위가 있는 경우

표본 데이터가 학생의 시험 점수와 같이 연속적인 범위를 나타내는 경우 히스토그램을 유용하게 사용할 수 있습니다. 데이터 범위에 상당한 간격이 있는 경우 히스토그램이 적합하지 않을 수 있습니다.

두 데이터 세트를 비교해야 하는 경우

히스토그램은 두 데이터 세트의 빈도 분포를 비교할 수 있는 훌륭한 도구입니다. 예를 들어, 다양한 연령대의 고객이 구매한 횟수 고려를 들 수 있습니다. 히스토그램을 사용하여 여러 스토어 전반에서 이런 데이터를 비교할 수 있습니다.

히스토그램의 주요 용도는 무엇입니까?

빈도 분포 분석

히스토그램은 특히 샘플 데이터의 빈도 분포를 분석하는 데 유용합니다. 통계적 실험에서 빈도 분포는 특정 범주(히스토그램 용어로 "빈")에 속하는 관측값의 수입니다.

아래 예시의 히스토그램은 다양한 연령대의 고객이 진행한 구매를 보여줍니다. 히스토그램은 구매 대비 연령대의 범위를 명확하게 보여줍니다. 히스토그램에 따르면 50~70대 고객이 가장 많이 구매했습니다.

고객 연령 히스토그램 예시

데이터 대칭성 분석

시청자는 히스토그램을 사용하여 빈도 분포의 특성을 분석할 수 있습니다. 일부 분포는 대칭적일 수 있습니다. 이것은 분포의 평균이 정확히 데이터 세트의 중간 값 주위에 있음을 의미합니다. 일부 다른 분포는 대칭이 아니지만 왼쪽 또는 오른쪽으로 치우쳐 있을 수 있습니다. 이것은 데이터의 평균 값이 데이터 범위의 시작 부분이나 끝 부분에 있음을 보여줍니다. 일부 데이터는 모든 빈에 거의 동일한 수의 데이터 포인트가 있는 균일한 분포를 갖습니다. 아래 그림은 몇 가지 샘플 히스토그램 분포를 보여줍니다.

히스토그램 분포 예시

시간 경과에 따른 변화 분석

히스토그램을 사용하면 시간이 지남에 따라 프로세스 결과가 어떻게 변하는지 분석할 수 있습니다. 예를 들어, 공장에서 교대조 동안 제조된 불량품의 수는 시간이 지남에 따라 변할 수 있습니다. 조직은 이 데이터를 사용하여 불량이 많은 시간을 확인하고 예방 조치를 취할 수 있습니다.

히스토그램을 사용하는 모범 사례는 무엇입니까?

제로 베이스라인 사용

히스토그램을 사용하는 동안 기본 값은 항상 제로여야 합니다. 각 막대의 높이는 범위의 샘플 수를 나타내므로 제로가 아닌 베이스를 사용하면 빈도 분포의 시각화가 왜곡됩니다.

올바른 수의 빈 선택하기

히스토그램을 생성할 때 한 가지 주요 결정 사항은 빈의 수입니다. 일반적으로 도구에는 빈 수를 정의하는 다른 알고리즘이 있습니다. 빈이 너무 많으면 데이터 분포가 거칠게 보입니다. 중요하지 않은 값(노이즈)도 표시될 수 있어 분석이 어렵습니다. 빈이 너무 적으면 히스토그램에 데이터에서 추론하기에 충분한 세부 정보가 빈약합니다. 히스토그램을 작성할 때 빈의 크기에 대해 어느 정도의 시행착오가 있을 수 있습니다.

동일한 빈 크기 사용

대부분의 히스토그램에는 동일한 크기의 빈이 있지만 이것이 필수 요구 사항은 아닙니다. 희소 데이터가 포함된 데이터 세트에서는 몇 개의 빈을 결합하는 것이 편리해 보일 수 있으며 결과적으로 빈 크기가 같지 않을 수 있습니다. 이로부터 히스토그램의 해석이 어려워집니다. 히스토그램의 전체 면적은 전체 데이터를 나타내고 각 막대는 해당 부분을 나타냅니다. 빈 크기가 같으면 막대의 높이를 보고 데이터 포인트의 빈도를 충분히 식별할 수 있습니다. 빈 크기가 같지 않으면 높이보다는 각 막대의 면적을 봐야 합니다. 일반적으로 면적보다 높이를 해석하는 것이 더 쉽기 때문에 동일한 빈 크기를 사용하는 것이 쉬운 해석을 위한 좋은 방법입니다.

언제 히스토그램을 사용하지 않아야 합니까?

데이터가 숫자가 아닌 경우

히스토그램은 연속 데이터 범위를 가진 숫자 변수의 그래픽 표현에 가장 적합합니다. 데이터가 성별이나 위치와 같은 숫자가 아닌 값으로 구성된 경우 히스토그램은 분명히 부적합한 것입니다. 이 경우 파이 또는 막대 차트를 사용할 수 있습니다.

표본 크기가 작은 경우

히스토그램은 샘플에 충분한 데이터 포인트가 있을 때 잘 작동합니다. 데이터 포인트가 너무 적으면 히스토그램에서 데이터 분포가 시각화되지 않습니다. 일반적으로 히스토그램은 20개 이상의 관측치가 있을 때 유용합니다. 데이터 포인트가 적을 때는 표준 확률도를 사용하는 것이 가장 좋습니다.

데이터에 큰 격차가 있는 경우

히스토그램은 샘플 데이터가 연속적일 때 가장 적합합니다. 히스토그램은 서로 다른 빈에 속하는 데이터 포인트를 나타내므로 데이터가 누락되거나 정의되지 않은 경우 그래프가 비효율적입니다.

히스토그램의 응용 분야는 무엇입니까?

파이 차트와 막대 차트는 데이터 시각화 도구이지만 히스토그램은 대부분 통계에 사용됩니다. 통계학자는 히스토그램을 사용하여 샘플 데이터를 더 잘 이해할 수 있습니다. 히스토그램은 종종 데이터의 다양한 통계적 속성을 탐색하는 데 사용됩니다.

가변성 시각화

유사한 평균 값을 가진 두 개의 데이터 세트가 있다고 가정해보겠습니다. 이 정보에서 데이터 세트는 비슷해 보입니다. 이러한 데이터를 히스토그램으로 표시하면 데이터의 가변성이 분명해집니다. 주요 데이터 포인트는 왼쪽 히스토그램에서 40-70 사이에 있는 반면 오른쪽에서는 20-100 사이에 거의 균등하게 분포되어 있습니다. 평균이 같더라도 히스토그램은 데이터 분산을 쉽게 시각화합니다.

데이터 분산 히스토그램 예시

이상치 식별

통계에서 이상치는 다른 데이터 포인트들과는 다른 비정상적인 거리에 있는 데이터 포인트입니다. 히스토그램은 이러한 이상치를 시각화하는 데 유용합니다. 이상치는 분리된 막대로 나타납니다. 이상치는 데이터의 이상 또는 일부 데이터 입력 오류로 인해 발생합니다.

다봉 분포 식별

통계에서 다봉 분포는 여러 피크가 있는 분포입니다. 예를 들어, 아래 히스토그램에는 두 개의 서로 다른 피크가 있습니다. 데이터 세트의 다봉 특성은 분포의 평균과 분산을 계산하여 쉽게 식별할 수 없습니다. 히스토그램을 사용하면 이러한 다봉 분포를 식별하는 데 도움이 됩니다.

확률 분포 함수의 적합성 평가

통계학자는 종종 히스토그램을 사용하여 확률 분포 함수의 적합성을 평가합니다. 히스토그램은 실제 샘플 데이터의 표시입니다. 적합 분포선은 표본 데이터 분포를 정확하게 예측할 수 있는 확률 분포 함수를 식별하려고 합니다. 통계학자들은 보통 히스토그램 위에 확률 분포 함수를 중첩하여 적합도를 평가합니다.

히스토그램 적합 분포선 예시

히스토그램 소프트웨어
TIBCO Spotfire 사용해보기-무료 평가판
시장에서 가장 완벽한 분석 솔루션인 TIBCO Spotfire를 사용하면 데이터에서 새로운 통찰력을 쉽게 발견할 수 있습니다.

히스토그램과 관련된 다른 차트는 무엇입니까?

막대 차트

데이터가 숫자가 아니거나 불연속적인 경우 막대 차트가 히스토그램보다 더 적합합니다. 예를 들어, 막대 차트는 다양한 고객 범주(손님, 신규 사용자 및 기존 사용자)의 구매를 표시하는 데 유용합니다. 이러한 범주는 숫자가 아닌 불연속적이기 때문입니다. 대조적으로 히스토그램은 고객의 연령(연속 및 숫자)에 대한 구매를 표시할 때 유용합니다.

라인핏

편차가 최소화된 데이터 포인트가 많은 경우 히스토그램은 데이터의 특성을 시각화하지 못할 수 있습니다. 이 경우 데이터의 특성을 시각화하는 데 라인핏이 더 적합합니다.

산점도

히스토그램과 라인핏은 독립 변수가 하나만 있는 경우에 유용합니다. 두 개의 독립 변수가 있는 경우, 산점도가 더 좋은 옵션입니다. 산점도에서 X축은 첫 번째 독립 변수를 나타내고 Y축은 두 번째 변수를 나타냅니다. 3개의 독립 변수가 있는 경우, 3D 산점도를 사용할 수 있습니다.