什麼是散佈圖?

散佈圖,也稱為散點圖,是顯示兩個變數之間關係的圖表。這是一種非常強大的圖表,可以讓讀者立即瞭解某種關係或趨勢,幾乎任何其他形式都無法做到的。

散佈圖/散點圖範例

它們的起源尚不清楚,但如今的散佈圖是以 17 世紀建立的 René Descartes 笛卡兒坐標系為基礎。散佈圖在科學領域被大量使用,大部分用於科學期刊和出版物。

散佈圖被認為是統計圖歷史上最萬能、最有用的發明之一,雖然這個主張可能言過其實,但散佈圖將令人困惑的資料變得有意義,它們不僅是一種視覺化工具,更是探索現象的一種工具。

散佈圖展示
利用 Spotfire 建立視覺化呈現/圖表
查看此演示,以了解 Spotfire 在進行可視化數據的各個方面有多麼容易。

散佈圖如何運作?

與大多數其他圖形或圖表類型一樣,散佈圖具有 X 軸和 Y 軸。 X 是帶有獨立變數的水平線,而 Y 是帶有相依變數的垂直線。兩個軸上都建立均勻刻度,然後在代表兩個坐標的交點處製作一個標記或點。

在散佈圖中還可以找到其他模式:

  • 線性或非線性:可以通過資料點形成線性(直接)相關,如果是非線性相關則可能顯示曲線關係。
  • 弱或強:相關性越強,點和點之間的距離就越近。相關性弱的話則是有較多散開的資料點。

為了清楚顯示這些關係和趨勢,許多散佈圖還會使用趨勢線,在圖表上繪製趨勢線以強調趨勢的方向和強度。

散佈圖的最佳實踐

有一些簡單的技巧可以確保您的散佈圖清晰地顯示資訊,並且不會使資料失真。

Y 軸從零開始。雖然在某些情況下可能需要使用折疊樣式以便更準確地呈現資料,但這些情況很少發生,在決定是否要用折疊樣式時必須非常小心。

在兩個軸上保持尺規均勻分佈,這意味著不會失真。

仔細考慮離群值。如果有理由懷疑它們是不正確的,或者它們沒有為您的工作增加價值,那麼排除它們可能是明智的選擇。

對於散佈圖,其中包含的資料和變數通常越多越好。與其他圖表類型不同,如果操作正確,散佈圖不會使更多資料混淆。可以考慮為每個點增加尺寸和顏色上的變化,以便更容易理解其所包含的更多相關資料。

使用趨勢線。軟體通常會繪製這些線條,儘管它們也可以手動新增。這些線條有助於讓讀者非常清楚看出趨勢,但是,建議趨勢線不要超過兩條,因為可能會造成混淆。

何時使用散佈圖

除了科學研究之外,有時企業可能會決定使用散佈圖:

  • 識別異常
  • 查看一個變數如何影響另一個變數
  • 查看相關性、模式、趨勢或關係

房地產經紀人可能希望瞭解平方英尺與房屋支付價格之間的關係,雖然這個簡單的散佈圖可能無法深入顯示所有變數,例如所在位置、裝潢新舊或花園大小,但它仍然可以使買賣雙方瞭解市場狀況,以及哪裡的房子可能符合市場規模。

企業可能想查看銷售量與其他變數之間是否存在關係。天氣會影響銷售嗎?星期幾?一個架子上應該放多少件衣服?如果展出的衣服更多,是否會賣出更多?

散佈圖的好處

散佈圖有多種好處和優勢。

清楚地顯示關係

這可以說是顯示兩個變數之間關係的最佳圖表,它不僅顯示兩個資料點之間的關係,還顯示資料集的整體模式或趨勢。

容易建立和理解

也許是因為它的受歡迎程度,散佈圖很快就被大眾理解了。它們的用途很容易識別,資料也很容易消化。不僅如此,對於那些想要製作散佈圖的人來說,它們很容易建立。

可以確定資料範圍

可以在散佈圖上看到最大值和最小值,這對於理解整個資料集很重要。不過,離群值可能造成混淆。

散佈圖的缺點

可能有太多資料

如果有一個過度繪製的散佈圖,可能會很難看出模式,因為它只是一個巨大的斑點。因此,雖然圖表需要足夠多的資料來形成可見的相關性或模式,但到了某個程度,更多的資料就變得不太有用。

解決方案

熱區圖可能會有所幫助,可以顯示圖表中最重要的部分。請考慮對不同的資料集進行顏色編碼。

沒有關係

有時資料似乎具有模式或關聯性,但是,雖然身高看起來和貓的所有權相關,但實際上它們可能沒有關聯。

解決方案

避免繪製不太可能相關的變數。

相關性不等於因果關係

永遠記住,相關性不等於因果關係。僅僅因為存在相關性,並不意味著是一個因素導致一個結果。雖然看起來高個子的人擁有更多的貓,但高個子不太可能是擁有貓的原因。有些更合乎邏輯的關係也可能屈服於此推論,例如天氣寒冷時銷售額可能會上升,但這是由於天氣原因,還是某些第三變數所造成,像是商店向顧客提供免費熱巧克力?

解決方案

不要根據相關性來理解因果關係。

散佈圖軟體試用
嘗試 TIBCO Spotfire - 免費試用
借助 TIBCO Spotfire(市場上最完整的分析解決方案),可以輕鬆地從數據中發現新見解。

散佈圖的替代品

魚骨圖

魚骨圖長得像魚骨,「頭」是問題所在,造成問題的原因從脊椎向外畫出,就像魚刺一樣。這是人們用來幫助建立因果關係的另一個主要圖表,然而,這並沒有像散佈圖那樣使用定量資料,而是更像一個有機的腦力激盪會議。它們是非常不同的圖表,專為不同的流程而設計。雖然可能存在因果關係,但這只限於可以看出圖表的相似性。