迴歸分析是什麼?

迴歸分析是一種統計方法,用於顯示兩個或多個變數之間的關係。此方法通常以圖形表示,用於測試相依變數與獨立變數之間的關係。相依變數通常隨著獨立變數而變化,而迴歸分析便是試圖回答哪些變數是影響這種變化的最重要因素。

迴歸分析圖

我們知道自己需要做出數據導向的決策,但是當有數百萬甚至數萬億個數據點時,您要從哪裡開始?幸運的是,人工智慧 (AI) 和機器學習 (ML) 可以獲取大量數據,並在數小時內完成解析,使數據更易於消化,之後再由分析師更仔細地檢驗從中發現的關係。

迴歸分析範例

在現實世界中,使用迴歸分析的場景可能看起來像這樣。

零售企業需要預測下個月的銷售數據(相依變數),但因為這個數字受到很多變數(獨立變數)的影響,像是天氣、新款式發表、競爭對手行為、店外人行道的維護工程等等,因此很難預測。

許多人可能有自己的看法,例如會計部的 Bob 或在銷售大廳工作十年的 Rachel,他們的看法就可能不同。但是迴歸分析是對所有可測量的變數進行分類,然後從邏輯上指出真正具有影響力的是哪些變數。分析會告訴您哪些因素會影響銷售額,以及變數之間如何相互作用。這有助於企業做出數據導向的更好決策。

在這個零售業務範例中,相依變數是銷售額,獨立變數是天氣、競爭對手行為、人行道維護和新款式發表。

迴歸線在迴歸分析中的使用

為了開始迴歸分析,數據科學家必須收集他們需要的所有變數相關數據,這可能包括事前相當長一段時間的銷售數據,以及同一時期的天氣數據,包括降雨量,然後處理這些所有數據並呈現在圖表中。

在分析中,Y 軸永遠是相依變數,即您要測試的內容,也就是本例中的銷售數字。X 軸則代表獨立變數,即降雨的英寸數。查看這個簡單假設的圖表時,您可以看到下雨時銷售額增加了,呈正相關。但它並沒有告訴您在特定的降雨量下,可以預期多少銷售額,除非您增加了迴歸線。

這是一條顯示最適配數據的線,可看出相依變數和獨立變數之間的關係。在此例中,您可以看到迴歸線與數據相交,直接了當地顯示對任意降雨量將發生什麼情況的預測值。

迴歸線使用公式來計算其預測值,Y = A + BX,Y 是相依變數(銷售額),X 是獨立變數(降雨量),B 是線的斜率,A 是 Y 軸與線相交的點。

數據科學中,精密程式可在一瞬間執行所有這些計算,以產生由數據驅動、高度準確的預測值。

/resources/ebook-download/become-data-science-superhero-6-easy-steps
你是哪個數據科學超級英雄?
下載這本電子書,了解成為數據科學家所需的六大技能。

多元迴歸

雖然每個迴歸只能有一個相依變數,但可以有多個獨立變數,這通常稱為多元迴歸。

這種迴歸方法允許統計學家識別變數之間的複雜關係,雖然結果會更複雜,但與簡單的單變數迴歸分析相比,它們可以產生更貼近事實的結果。在零售範例中,這可以顯示天氣、產品發表和競爭對手廣告,將對商店銷售帶來什麼影響。

什麼是誤差項?

迴歸分析不預測因果關係,只預測變數之間的關係。雖然很容易知道降雨量對於銷售數據有很明顯的影響,但沒有證據表明情況一定就是如此。獨立變數永遠沒辦法完美地預測相依變數。

誤差項是顯示您可以信任該公式準確性的數字,誤差項越大,代表迴歸線的準確性越低。如果誤差項是 50%,表示變數並不比憑運氣猜測更好。如果是 85%,則表示獨立變數影響相依變數的可能性很大,因此對結果準確性的影響也很大。

具有相關性不等於必然因果關係,有可能不是下雨導致銷售額增加,而是另一個獨立變數所導致。雖然變數之間似乎是連動的,但也有可能完全不是,只有透過執行多元分析,企業才能更清楚了解其中涉及的多項因素。在迴歸分析中,幾乎不可能預測直接的因果關係。

這就是迴歸分析通常要納入許多變數的原因,為了讓您更有可能找到銷售額增加或減少的實際原因。當然,包含多個獨立變數後可能會產生一組混亂的結果,但是優秀的數據科學家和統計學家,可以對這樣的數據進行分類後獲得準確的結果。

另一個可以提供幫助的因素是業務知識。商店可能會在降雨較多的日子銷售更多產品,但如果數據科學家與銷售人員交談,他們可能會發現,吸引更多人來購買的原因是雨天店裡會贈送免費咖啡。這樣一來,銷量增加的原因到底是下雨,還是免費咖啡?

從這裡可以得知,企業需要多做一些市場調查,詢問他們的客戶為什麼在特定某天購買東西,可能是咖啡吸引了他們,也可能是下雨讓他們留下來,然後他們就看到自己一直打算購買的產品。因此,銷量增加的原因是下雨,但您也需要考慮免費咖啡,在兩個因素缺少其一的情況下,將不會導致相同的結果。

公司如何使用迴歸分析?

通常,迴歸分析用於:

  • 嘗試解釋一個現象
  • 預測未來事件
  • 改善製造和遞送流程
  • 解決錯誤
  • 提供新見解

現象說明

這可能是為了試圖找到一個原因(變數),像是為什麼銷售總在一個月的某一天飆升?為什麼某個月的客服電話變多?或者為什麼人們只在某些日子延遲歸還租車?

做出預測

如果迴歸分析顯示人們是在某次促銷後購買更多產品,企業就可以準確決定要投放哪些廣告或使用哪些促銷手段。

迴歸分析中的預測值可以涵蓋各種情況和場景。例如,預測將有多少人看到某個廣告牌,可以幫助管理層判斷投資於該處廣告是否是一個好主意,以及在哪種情況下,這個廣告牌可帶來良好的投資回報?

保險公司和銀行大量使用迴歸分析的預測,像是有多少抵押貸款人會按時償還貸款?有多少投保人會發生車禍或家中遭竊?這些預測不僅可以進行風險評估,還可以預測最佳費用和保險費價格。

最佳化流程

在麵包店,餅乾的保存期限與烹飪時的烤箱溫度之間可能存在某種關係,此處的最佳化結果是最長的保存期限,同時保持餅乾的耐嚼品質。在客服中心,可能需要了解投訴量與等待時間之間的關係,以便他們可以培訓員工/僱用更多員工在特定的時間範圍內接聽電話,以儘可能提高客戶滿意度。當然,客戶電話數量會在一天內不斷變化,但這方法能進一步幫助管理層做出訓練員工和調整人手多寡的最佳決策。

解決錯誤

一位商店經理想到了一個好主意:延長營業時間將會增加銷售額。這位經理解釋說,畢竟每天多營業四小時,銷售額就會相應增加。但是延長商店營業時間並不一定等於利潤增加,您可以透過迴歸分析,得知這樣做的任何銷售額增長,可能都無法彌補這些銷售的背後成本,這種量化分析能為主管決策提供良好支持。

新見解

大多數企業擁有大量數據,但數據通常處於混亂狀態。使用迴歸分析後,這些數據可以提供過去可能未被注意到的變數之間的關係資訊。例如,如果您使用銷售點數據,您可能會發現一天中哪些時段的生意最好、需求高峰期、或是之前沒有注意到的高銷售日期。

迴歸分析的挑戰

具有相關性不等於必然因果關係,您可以看出任何兩個變數之間存在關係,但不能證明其中一個變數就是導致另一個變數結果的原因。有些人認為,當他們在迴歸分析中看到正相關時,這代表因果關係的明確標誌。然而,正如我們之前討論的,迴歸分析只用來顯示變數之間的關聯性,而不是因果關係。您必須小心使用,不要對現實生活中其實不存在的關係做出假設。

獨立變數可能是您無法控制的事物,例如,您知道下雨會增加銷量,但您無法控制天氣,那麼這個變數還重要嗎?您還有很多內部因素可以控制,如行銷、商店佈局、員工行為、特色和促銷活動,因此等待下雨並不是一個好的銷售策略。

GI:GO(垃圾進 = 垃圾出)

數據科學家的很大一部分職責是清理數據,這是因為唯有使用品質良好的數據才能獲得正確的計算結果。如果輸入的資訊是垃圾,那麼迴歸分析的結果也是垃圾。雖然統計和數據清理可以管理和控制一些不規則或不完善之處,但本質上數據必須夠準確,才能得到準確的預測結果。

另一個問題是忽略了誤差項。如果結果表明數據只能解釋 60% 的結果,那麼剩下的 40% 中可能還有其他重要資訊必須加以檢驗。你必須問自己:這個計算是否足夠準確、值得信賴,還是背後有更大的因素或變數在起作用?通常,您可以讓經驗豐富的經理或與業務相關人員檢查結果,當做一次完整性檢查。直覺和業務領域知識是很重要的,因為它可以確保不致遺漏任何內容或使用了錯誤屬性。