什麼是變異數分析(ANOVA)?

變異數分析ANOVA )是一種統計公式,用於比較不同組的均值(或平均值)之間的變異。一系列方案可用來確定不同組的均值之間是否存在差異。

變異數分析(ANOVA)圖

例如,為了研究各種糖尿病藥物的有效性,科學家進行了設計和實驗,以探索藥物類型與所產生的血糖水平之間的關係。樣本人口是一組人。我們將樣本人口分為多個組,每個組在試用期內均會接受特定的藥物。在試驗期結束時,對每個參與者的血糖水平進行測量。然後,為每個組計算平均血糖水平。變異數分析有助於比較這些組均值,以找出它們在統計上是否不同或相似。

變異數分析的結果是“ F 統計量”。該比率顯示了組內變異與組之間的變異,最終產生了一個數字,該數字可以得出支持或拒絕原假設的結論。如果組之間存在顯著差異,則不支持零假設,並且 F 比率會更大。

利用Spotfire創建可視化/圖表
利用Spotfire創建可視化/圖表
查看此演示,以了解 Spotfire 在進行可視化數據的各個方面有多麼容易。

變異數分析術語

因變量:從理論上講,這是受自變量影響的被測項目。

自變量:這些是可能影響因變量的被測量項目。

無效假設(H0) :這是指組或均值之間沒有差異的情況。根據 ANOVA 檢驗的結果,原假設將被接受或拒絕。

備選假設(H1) :從理論上講,組和均值之間存在差異。

因素和水平:在 ANOVA 術語中,自變量稱為影響因變量的因素。級別表示實驗中使用的自變量的不同值。

固定因子模型:某些實驗僅使用離散水平的因子集。例如,固定因子測試將測試三種不同劑量的藥物,而不查看任何其他劑量。

隨機因子模型:此模型從自變量的所有可能值中提取一個級別的隨機值。

一因素和兩因素變異數分析(ANOVA)有什麼區別?

有兩種類型的變異數分析(ANOVA)。

單向變異數分析(ANOVA)

變異數的單向分析也稱為單因素變異數分析或簡稱變異數分析。顧名思義,單向變異數分析適用於只有一個具有兩個或多個水平的自變量(因子)的實驗。例如,因變量可能是一年中的那些月份花園裡有更多花。將有十二個級別。單向方差分析假設:

  • 獨立性:一個觀察值的因變量值獨立於任何其他觀察值。
  • 正態:因變量的值呈正態分佈
  • 變異數:在不同的實驗組中變異數是可比較的。
  • 連續:因變量(花的數量)是連續的,可以按可細分的比例進行測量。

全因子變異數分析(也稱為雙向變異數分析)

當有兩個或多個自變量時,將使用全因子變異數分析。這些因素中的每一個都可以具有多個級別。全因數變異數分析只能在全因數實驗的情況下使用,在這種情況下,會使用因子及其水平的所有可能排列。這可能是一年中花園裡開滿鮮花的月份,或者是日照時數。這種雙向變異數分析不僅可以測量自變量,而且還可以衡量兩個因素是否相互影響。雙向方差分析假設:

  • 連續:與單向變異數分析相同,因變量應該是連續的。
  • 獨立性:每個樣本都獨立於其他樣本,彼此之間沒有穿越。
  • 變異:不同組之間的數據差異相同。
  • 常態:樣本代表普通人口。
  • 類別:自變量應位於單獨的類別或組中。

為什麼變異數分析可以起作用?

有人質疑是否需要變異數分析。畢竟,僅通過查看平均值就可以評估它們。但是,ANOVA所做的不只是比較方法。

即使各個組的平均值看似不同,這也可能是由於採樣誤差引起的,而不是由於自變量對因變量的影響。如果是由於採樣錯誤,則組均值之間的差異是沒有意義的。變異數分析有助於確定平均值差異是否在統計上有意義。

方差分析還間接揭示了自變量是否正在影響因變量。例如,在上述血糖水平實驗中,假設 ANOVA 發現組均值在統計上不顯著,並且組均值之間的差異僅是由於採樣誤差所致。該結果表明,藥物類型(獨立變量)不是影響血糖水平的重要因素。

變異數分析的局限

變異數分析只能判斷至少兩個組的均值之間是否存在顯著差異,但無法解釋那一配對的均值在方法上有所不同。如果需要詳細的數據,則部署進一步的跟踪統計過程將有助於找出平均值不同的組。通常,ANOVA 與其他統計方法結合使用。

ANOVA 還假設數據集是平均分佈的,因為它僅比較均值。如果數據沒有分佈在正態曲線上並且存在異常值,則 ANOVA 不是解釋數據的正確過程。

同樣,ANOVA 假設各組的標準偏差相同或相似。如果標準偏差相差很大,則測試結論可能不准確。

在數據科學中如何使用 ANOVA?

機器學習的最大挑戰之一是選擇用於訓練模型的最可靠和有用的功能。變異數分析有助於選擇最佳功能來訓練模型。變異數分析可以把輸入變量的數量減少到最少,從而降低模型的複雜性。變異數分析有助於確定自變量是否正在影響目標變量。

在數據科學中使用 ANOVA 的一個例子是電子郵件垃圾郵件檢測。由於電子郵件和電子郵件功能數量龐大,識別和拒絕所有垃圾郵件變得非常困難且佔用大量資源。變異數分析(ANOVA)和f-檢驗(f-test)被用于識別至關重要的特性,用於正確識別那些是垃圾郵件、那些不是垃圾郵件。

變異數分析可助於解答的問題

儘管 ANOVA 涉及複雜的統計步驟,但對於使用 AI 的企業來說,這是一項有益的技術。組織使用 ANOVA 來決定在許多可能的選項中選擇那個選項。例如,變異數分析可以幫助:

  • 比較三種不同肥料品牌下, 兩種不同小麥品種的產量。
  • 比較各種社交媒體廣告對特定產品銷售的有效性。
  • 比較不同潤滑劑在不同類型車輛中的功效。
嘗試 TIBCO Spotfire
嘗試 TIBCO Spotfire - 免費試用
借助 TIBCO Spotfire(市場上最完整的分析解決方案),可以輕鬆地從數據中發現新見解。