분산형 차트란 무엇입니까?
산점도라고도 하는 분산형 차트는 두 변수 간의 관계를 보여주는 차트입니다. 믿을 수 없을 정도로 강력한 차트 유형으로, 관측자가 다른 형태에서는 거의 볼 수 없는 관계나 동향을 즉시 이해할 수 있습니다.
그 기원은 명확치 않지만 현대의 분산형 차트는 17세기에 만들어진 르네 데카르트 직교 좌표계를 기반으로 합니다. 산점도는 과학에서 많이 사용되며 대부분 과학 저널과 출판물에서 사용됩니다.
분산형 차트는 통계 그래프 역사상 가장 다방면적이고 유용한 발명 중 하나로 알려져 있습니다. 이는 대담한 주장이지만 분산형 차트는 혼란스러운 데이터에 의미를 부여합니다. 시각화를 위한 도구 그 이상으로 발견을 위한 도구입니다.

분산형 차트는 어떻게 작동합니까?
대부분의 다른 그래프 또는 차트 유형과 마찬가지로 산점도에는 X축과 Y축이 있습니다. X는 독립변수를 표시하는 수평선이고 Y는 종속변수를 표시하는 수직선입니다. 두 축에 균일한 눈금을 만든 다음 두 좌표의 교차점을 나타내는 점에 표시 또는 점을 찍습니다.
분산형 차트에는 다음과 같은 다른 패턴들도 있습니다.
- 선형 또는 비선형: 선형-직선-상관관계는 데이터 포인트를 통해 형성될 수 있지만 비선형 상관관계는 곡선 관계를 나타낼 수 있습니다.
- 약함 또는 강함: 상관관계가 강할수록 점들이 더 가까워집니다. 약한 상관 관계에서는 데이터 포인트가 더 많이 분산됩니다.
많은 분산형 차트에서는 이러한 관계와 추세를 명확하게 표시하기 위해 추세선을 사용합니다. 차트에 추세선을 그려 추세의 방향과 강도를 강조할 수 있습니다.
분산형 차트의 모범 사례
분산형 차트에서 데이터가 왜곡되지 않고 정보를 명확하게 표시하도록 하는 몇 가지 간단한 팁이 있습니다.
Y축을 0에서 시작합니다. 데이터를 더 정확하게 표시하기 위해 눈금 아코디언이 필요한 경우가 있을 수 있지만 이러한 경우는 거의 없습니다. 아코디언이 필요한지 여부를 결정할 때 특별히 주의하십시오.
눈금을 두 축에 고르게 분산되도록 유지하십시오. 즉, 왜곡이 없게 하십시오.
이상값에 대해 신중하게 생각하십시오. 틀렸다고 의심할 만한 이유가 있거나, 그것들이 사용 목적에 가치를 더하지 않는다면, 그것들을 제외하는 것이 현명할 수 있습니다.
산점도를 사용하면 종종 더 적은 데이터가 아니라 더 많은 데이터와 변수를 포함하는 것이 더 좋습니다. 다른 차트 유형과 달리 올바르게 수행되면 분산형 차트는 더 많은 데이터와 혼동되지 않습니다. 더 관련성 높은 데이터를 쉽게 이해할 수 있는 방식으로 포함하려면 점에 크기와 색상 변형을 추가하는 것이 좋습니다.
추세선을 사용하십시오. 이러한 선은 일반적으로 소프트웨어에 의해 표시되지만 수동으로 추가할 수 있습니다. 이 선은 보는 사람에게 추세를 매우 명확하게 하는 데 도움이 됩니다. 그러나 두 개 이상의 추세선은 혼동될 수 있으므로 사용하지 마십시오.
분산형 차트를 사용해야 하는 경우
과학적 연구 외에도 기업이 분산형 차트를 사용하기로 결정할 수 있는 몇 가지 경우는 다음과 같습니다.
- 이상 징후를 식별
- 한 변수가 다른 변수에 어떤 영향을 미치는지 확인
- 상관 관계, 패턴, 추세 또는 관계 보기
부동산 중개업자는 평방 피트와 주택에 지불된 가격 사이의 관계를 확인하려고 할 수 있습니다. 이 간단한 분산형 차트는 위치, 최근의 개조 또는 정원의 크기와 같은 모든 변수를 드릴다운하여 표시하지 않을 수 있지만 여전히 구매자와 판매자에게 시장이 무엇을 하고 있는지 그리고 집이 규모에 맞을 수 있는 위치에 대한 아이디어를 줄 것입니다.
기업은 판매량과 다른 변수 사이에 관계가 있는지 확인하고자 할 수 있습니다. 날씨가 판매에 영향을 줍니까? 요일? 판매대에 있는 옷의 수는 어떻습니까? 옷이 더 많이 전시되어 있으면 더 많이 팔리나요?
분산형 차트의 이점
분산형 차트에는 여러 가지 이점과 장점이 있습니다.
관계를 명확하게 표시
이 차트는 틀림없이 두 변수 간의 관계를 보여주는 가장 좋은 차트입니다. 두 데이터 포인트 간의 관계를 보여줄 뿐만 아니라 데이터 세트에 대한 전체 패턴이나 추세를 보여줍니다.
만들고 이해하기 쉬움
인기가 많아서인지 산점도를 즉시 파악할 수 있습니다. 목적을 쉽게 인식할 수 있고 데이터는 소화하기 쉽습니다. 뿐만 아니라 분산형 차트를 만들려는 사용자도 차트를 쉽게 만들 수 있습니다.
데이터 범위 결정 가능
최대값과 최소값은 산점도에서 볼 수 있으며, 이는 전체 데이터 집합을 이해하는 데 중요합니다. 그러나 이상값은 혼란을 일으킬 수 있습니다.
분산형 차트의 단점
너무 많은 데이터를 가질 수 있음
너무 많이 표시된 산점도 관리도가 있으면 거대한 블롭에 불과하기 때문에 패턴을 보기 어렵습니다. 따라서 차트에는 가시적인 상관 관계 또는 패턴을 형성하기에 충분한 데이터가 필요하지만 데이터가 많을수록 유용성이 떨어지는 지점이 있습니다.
해결 방안
차트에서 가장 포인트가 많은 부분을 보여주는 히트맵이 도움이 될 수 있습니다. 다른 데이터 세트의 색상 코딩을 고려하십시오.
관계 없음
데이터에 패턴이나 연관이 있는 것처럼 보일 수 있는 경우가 있습니다. 그러나 키와 고양이 소유권은 관련이 있어 보일 수 있지만 아마도 그렇지 않을 것입니다.
해결 방안
관련이 없을 것 같은 변수를 표시하지 마십시오.
상관 관계가 인과 관계와 같지 않음
상관 관계가 인과 관계와 같지 않다는 것을 항상 기억하십시오. 상관 관계가 있다고 해서 둘 중 하나가 다른 하나를 발생시킨다는 의미는 아닙니다. 키가 큰 사람이 고양이를 더 많이 소유하는 것처럼 보일 수 있지만 키가 고양이 소유의 원인은 아닐 것입니다. 훨씬 더 논리적인 관계도 이에 굴복할 수 있습니다. 날씨가 추울 때 매출이 증가할 수 있지만 날씨 때문입니까, 아니면 그 상점이 고객들에게 제공하는 무료 핫초코와 같은 제3의 변수입니까?
해결 방안
상관 관계에 따라 인과 관계를 지정하지 마십시오.

분산형 차트의 대안
피쉬본 차트
피쉬본 다이어그램은 물고기 뼈대와 비슷합니다. "머리"가 문제이며 문제의 원인은 생선뼈와 마찬가지로 척추에서 나옵니다. 이것은 사람들이 인과 관계를 설정하는 데 사용하는 다른 기본 차트입니다. 그러나 이것은 산점도와 같은 양적 데이터를 사용하지 않으며 대신 유기적 브레인스토밍 세션에 가깝습니다. 서로 다른 프로세스를 위해 설계된 매우 다른 차트입니다. 원인과 결과가 있을 수 있지만, 이것이 관리도의 유사성의 한계입니다.