邏輯迴歸是什麼?

羅吉斯迴歸是一種統計模型,用於判斷事件發生的機率。它可顯示不同特徵之間的關係,然後計算某個結果的發生機率。

羅吉斯迴歸圖

羅吉斯迴歸用於機器學習 (ML) 可幫助建立準確預測,它類似線性迴歸,不同之處在於其目標變數不是圖形結果,而是二元的,數值為 1 或 0。

可測量變數有兩種類型,一種是解釋變數/特徵(欲測量的項目),另一種是反應變數/目標二元變數(即結果)。

例如,當試圖預測某位學生會考試及格或失敗時,唸書小時數是特徵,反應變數則有兩個值:及格或失敗。

羅吉斯迴歸有三種基本類型:

  1. 二元羅吉斯迴歸:這種迴歸的分類反應只有兩種可能結果。如上例所示:學生及格或失敗。
  2. 多元羅吉斯迴歸:這種迴歸的反應變數可以包含三個或更多變數,變數之間沒有排列順序。以預測餐廳的用餐者為例,用餐者是否更喜歡某種食物:蔬食、肉食或純素食。
  3. 順序羅吉斯迴歸:與多元迴歸一樣,可以有三個或更多變數,但是測量值依順序排列。以酒店評級為例,分為 1 至 5 等級。

羅吉斯迴歸所用的假設

在使用羅吉斯迴歸時,會做出某些假設。

  • 在二元羅吉斯迴歸中,因為反應變數必須是二元的,所以結果不是這個,就是另一個。
  • 期望結果應以反應變數的因子等級 1 表示,非期望結果以 0 表示。
  • 只能包含有意義的變數。
  • 獨立變數基本上必須相互獨立,應該幾乎沒有或不具多元共線性。
  • 勝算比和獨立變數之間必須是線性相關。
  • 羅吉斯迴歸僅適用於大量樣本。
你是哪個數據科學超級英雄?
你是哪個數據科學超級英雄?
下載這本電子書,了解成為數據科學家所需的六大技能。

羅吉斯迴歸的應用

羅吉斯迴歸可以用於幾個領域和方法,幾乎涵蓋所有醫學和社會科學的領域。

衛生保健

以創傷和醫學損傷嚴重度評級(TRISS)為例,世界各地都利用這個數據來預測受傷患者的死亡率。此模型以羅吉斯迴歸開發而成,使用諸如修正的創傷評分、損傷嚴重度評分、患者年齡等變數,來預測健康結果。這項技術甚至可用來預測某人患上某種疾病的機率,例如可以根據年齡、性別、體重和遺傳因素等變數,預測糖尿病和心臟病等疾病的發病率。

政治

羅吉斯迴歸也可用於預測選舉。民主黨、共和黨或獨立候選人會在美國執政嗎?這些預測是根據年齡、性別、居住地、社會地位、過往投票模式(解釋變數)等變數,產生投票結果預測(反應變數)。

產品測試

羅吉斯迴歸可用於工程中,預測測試中系統或原型產品的成敗。

行銷

羅吉斯迴歸可用於預測客戶詢價轉化為銷售的機率、訂閱開始或終止的機率,甚至是客戶對新產品系列的潛在興趣。

金融業

金融部門的應用以信用卡公司為例,信用卡公司使用羅吉斯迴歸來預測客戶未來遲繳的可能性,然後建立模型來判斷是否應該發行信用卡給客戶。該模型可以看出某位客戶是否會「違約」或「不違約」,這在銀行業中稱為「違約傾向模型」。

電子商務

電子商務公司大量投資於跨媒體廣告和促銷活動,很希望了解哪些活動最有效,以及最可能獲得潛在目標受眾響應的選項。此模型集將客戶分類為「反應者」或「非反應者」,所以此模型稱為「反應傾向模型」。

公司可以透過來自羅吉斯迴歸的見解來制定最佳策略,並減少支出和損失以實現業務目標。羅吉斯迴歸有助於大幅提高行銷活動的投資回報率 (ROI),從長遠來看,這對公司的獲利狀況很有利。

羅吉斯迴歸的優點和缺點

優點

因為羅吉斯迴歸非常有效率,也不需要大量運算資源,所以受到廣泛利用。它很容易解讀,不需要調整輸入特徵,也易於正規化,而且它所提供的輸出結果是經過良好校正的預測機率。

如同線性迴歸,當忽略與輸出變數無關的屬性和其關聯屬性時,羅吉斯迴歸的運作往往會更有效率。因此,特徵工程在羅吉斯迴歸和線性迴歸的表現方面,發揮著重要作用。

羅吉斯迴歸也很容易部署,訓練起來非常簡單,這就是它成為幫助衡量其他複雜演算法表現的重要基準的原因。

缺點

羅吉斯迴歸不能用於解決非線性問題,但不幸的是,當今許多系統都是非線性的。此外,羅吉斯迴歸並不是目前可用的最強大演算法,反倒有幾種替代方法可以建立更好和複雜的預測。

羅吉斯迴歸也嚴重依賴所呈現的數據,這表示,除非您已經識別出所有必要的獨立變數,否則輸出結果並不具價值。由於結果是離散的,因此羅吉斯迴歸只能用來預測分類結果,最終而言,它是一種長久以來已知容易擬合過度的演算法。