什麼是數據科學?
數據科學是一種多學科方法,通過融合分析方法、領域專業知識和技術來發現、提取和呈現數據中的模式。這種方法通常包括數據挖掘、預測、機器學習、預測分析、統計和文本分析等領域。隨著數據以驚人的速度增長,公司正在競相利用其數據中的洞見。然而,大多數機構都面臨缺乏專家來分析他們的大數據以尋找洞見和探索公司尚未找出的問題。為了實現數據科學的價值並將其貨幣化,組織必須將預測性洞察、預報和優化策略注入業務和運營系統。許多企業現在正在為其知識型員工提供平台,幫助他們開展自己的機器學習項目和任務。能夠從注入業務的大量數據中提取趨勢和機會,將為組織帶來競爭優勢。
數據科學包括描述性、診斷性、預測性和規定性能力。這意味著通過數據科學,機構可以使用數據來弄清楚發生了什麼、為什麼會發生、會發生什麼,以及他們應該對預期結果做什麼。
了解數據科學的工作原理
從概念上講,數據科學過程非常容易理解,包括以下步驟:
- 了解業務問題
- 收集和整合原始數據
- 探索、轉換、清理和準備數據
- 根據數據創建和選擇模型
- 測試、調整和部署模型
- 監控、測試、刷新和管理模型
了解業務問題
數據科學的過程始於了解業務用戶試圖解決的問題。例如,業務用戶可能想詢問並理解“我該如何增加銷售額?”或“什麼技術最適合向我的客戶銷售?”這些是非常廣泛、模棱兩可的問題,不會引發立即可研究的假設。數據科學家的工作是將這些業務問題分解為可研究和可檢驗的假設。例如,“我該如何增加銷售額?”可以分解為幾個較小的問題,例如“什麼條件導致銷售額增加?是促銷、天氣還是季節性因素?”、“我們如何根據約束優化我們的銷售?”和“每個商店明天/下週/下個月的銷售額可能是多少?”需要記住的重要一點是,人們需要了解需要做出的業務決策,並從那裡向後工作。如果您可以預測未來一小時/一天/一周/一個月的事情,您的業務流程將如何變化?
收集和整合原始數據
一旦理解了業務問題,下一步就是收集和集成原始數據。首先,分析師必須查看可用的數據。通常,數據將採用許多不同的格式和許多不同的系統,因此通常使用數據整理和數據準備技術將原始數據轉換為適用於將要使用的特定分析技術的可用格式。如果數據不可用,數據科學家、數據工程師和 IT 通常會合作將新數據帶入沙盒環境進行測試。
探索和準備數據
現在,我們可以探索數據。大多數數據科學從業者將使用數據可視化工具,將數據組織成圖形和可視化,以幫助他們查看數據中的一般模式、高級相關性和任何潛在的異常值。這也是分析師開始了解哪些因素可能有助於解決問題的時候。既然分析師對數據的行為方式和可能需要考慮的重要因素有了基本的了解,分析師將進行轉換、創建新特徵(也稱為變量)並準備數據以進行建模。
測試、調整和部署模型
這時大多數分析師會使用算法從輸入數據創建模型,並使用機器學習、深度學習、預測或自然語言處理(又名文本分析)等技術來測試不同模型。統計模型和算法應用於數據集,以嘗試根據輸入預測變量(例如,影響目標的因素)概括目標變量的行為(例如,您嘗試預測的內容)。
輸出通常是預測、異常和優化,可以顯示在儀表板或嵌入式報告中,或直接注入業務系統以在影響點附近做出決策。然後,在將模型部署到可視化或業務系統中之後,它們將用於對以前從未見過的新輸入數據進行評分。
監控、測試、刷新和管理模型
模型部署後,必須對其進行監控,以便在數據因現實世界事件行為變化而發生改變時對其進行更新和重新訓練。因此,機構必須制定模型運營策略來治理和管理對生產模型的更改。
除了將模型部署到儀表板和生產系統之外,數據科學家還可以創建可以從可視化或儀表板工具調用的複雜數據科學管道。通常,這些有一組縮減和簡化的參數和因素,可以由公民數據科學家進行調整。這有助於解決上述技能短缺問題。因此,公民數據科學家通常是業務或領域專家,可以選擇感興趣的參數並運行非常複雜的數據科學工作流,而無需了解其背後的複雜性。這使他們能夠測試不同的場景,而無需涉及數據科學家。
總之,數據科學家使用數據講述一個故事,然後提供企業可用於現實世界應用程序的預測性見解。使用的流程如下圖所示:
- 輸入數據
- 準備數據
- 應用機器學習
- 部署、評分和管理模型
- 輸出數據

數據科學過程中的關鍵步驟
業務理解
- 了解要做出的業務決策
- 確定做出決策所需的數據
- 意識到您的業務將如何因決策而發生變化
- 確定支持決策所需的架構
- 組建一個跨職能的技術和項目管理團隊
了解機器學習過程
- 數據採集與整合
- 數據探索、準備和清理
- 數據預先處理、轉換和特徵生成
- 模型開發和選擇
- 模型測試和調優
- 模型部署
了解模型操作和治理過程
- 模型存儲庫、文檔和版本控制
- 模型評分、API 框架和容器策略
- 模型執行環境
- 模型部署、整合和結果
- 模型監控、測試和更新
數據科學需要哪些技能?
業務技能:協作、團隊合作、溝通、領域專業知識/業務知識
分析技能:數據準備、機器學習、統計、地理空間分析、數據可視化
計算機科學/IT 技能:數據管道、模型部署、監控、管理、編程/編碼
誰在使用數據科學?
“隱藏人才”又名公民數據科學家:每天使用數據和分析,通過點擊式界面解決特定的業務問題。
“業務驅動”:專注於業務部門主導的計劃和改進業務運營。
“專家”:跨所有職能部門和業務部門解決問題,並與 IT 協作以實施機器學習模型。獲得高級管理層的支持和資金。
“熱點”:利用大量數據源解決新問題,使用機器學習建立原型解決方案,並大規模運行數據科學工作流。喜歡 R、Python、Scala、Hadoop 和 Spark 等工具。
“未開發的潛力”:想要加入,但未被支持或未接受培訓,或者未為擁有提供可重用模板技術的機構工作。
頂級數據科學任務
- 問題理解與分析
- 數據收集、數據準備/清理和基本探索性數據分析
- 模型開發和測試
- 模型部署、監控和治理
- 將調查結果傳達給業務決策者
數據科學解決了哪些挑戰?
以下是數據科學在不同行業面臨的挑戰示例:
能源業
數據科學主要用於能源領域,以優化勘探、生產和運營,同時預測以下需求:
- 預測設備故障
- 預測未來的石油量和價格
- 優化分佈
- 減少排放
- 分析地面成分
- 表徵儲層
金融保險
在金融和保險行業,數據科學主要側重於降低風險、檢測欺詐和優化客戶體驗。使用數據科學的一些例子是:
- 預測信用風險
- 檢測欺詐
- 分析客戶
- 管理投資組合風險
- 確定流失的可能性
- 符合 SOX、Basel II 等法規
衛生保健
醫療保健中的數據科學主要用於提高護理質量、改進運營和降低成本。
- 預測疾病風險
- 檢測欺詐性索賠
- 開出個性化的藥物劑量
- 分析圖像以檢測癌症
- 管理索賠
- 提高患者安全
- 確定誰的風險最大
製藥
製藥領域的數據科學主要用於確保安全性、產品質量和藥效,例如:
- 確定黃金批次
- 分析臨床試驗
- 追踪產品
- 分析穩定性和保質期
- 驗證報告和分析以確保合規性
- 分析製造過程、數據
製造業
在製造業中,數據科學有助於優化流程、提高質量和監控供應商。一些例子如下所示:
- 提高產量
- 減少廢料、返工和召回
- 檢測保修欺詐
- 遵守法規
- 預測和預防設備故障
數據科學家面臨的挑戰
無法訪問的數據
致辭人:
- 輕鬆地將來自多個不同來源的數據組合到一個虛擬數據層中
- 可視化操作、清理和轉換數據,使其為分析做好準備
- 使用內省和關係發現來理解和驗證模型構建的數據關係
臟數據
致辭人:
- 人工智能推動了視覺爭論,以自動提出轉換建議、去除異常值和清理數據
- 自動數據健康檢查以填充缺失值、刪除不重要的變量並為分析準備數據
- 跨不同來源大規模格式化和準備數據
有限的人才和專業知識
致辭人:
- 使用自動推薦和視覺洞察來理解複雜性
- 利用整個團隊的創造力,而不僅僅是幾個數據科學家,並在端到端的分析生命週期中進行協作
- 創建可由公民數據科學家運行的可重用參數化模板,以擴展機器學習
結果未被使用
致辭人:
- 簡化對運營系統的部署,以在影響點將機器學習嵌入到業務流程中
- 通過模型監控、再培訓和治理來操作數據科學
- 確保跨端到端分析生命週期的成功交接:數據管道、模型構建、評分和應用程序開發

解決數據科學挑戰
面向所有人的數據科學:通過自動化、可重用模板和跨職能團隊的通用協作框架,實現數據科學的民主化和協作
加速創新:使用原生算法、開源和合作夥伴生態系統快速構建新的、靈活的解決方案原型,同時確保治理
AnalyticOps:通過管道監控、管理、更新和治理系統地關注數據科學的運營,從而將數據科學的價值貨幣化
培訓:為公民數據科學家和其他想要學習數據科學實踐的人提供教育和培訓。
卓越中心:建立 CoE 以促進最佳實踐並促進創新和可重用性,以便可以在整個企業範圍內擴展數據科學