什麼是數據科學家?

數據科學家是一個需要一系列技術和基於領域的技能來管理和分析數據以解決業務問題的職業。他們中有數學家,有業務分析師,還有電腦科學家。一個好的數據科學家可以看到數據中的趨勢和模式,並且知道如何使用數據來產生有用的、可操作的結果。數據科學家處於現代企業的前沿。它改變了我們的工作方式。

數據科學家技能圖

數據科學家的歷史

2001 年,電腦學家 William S. Cleveland 寫了一篇文章“數據科學:擴展統計技術領域的行動計劃”。該文章介紹了數據科學作為應用統計學家的一門學科。那是 20 年前的事,從那時起,技術和商業世界發展迅速。

由於這是一條相對較新的職業道路,當前的數據科學家具有不同的背景和專業。許多數據科學家的職業生涯始於統計學家、數學家或數據分析師。但隨著電腦、人工智能 (AI) 和數據學習工具的普及,數據科學家的角色也發生了變化。數據科學家不再局限於 IT 部門;它們已成為整個業務不可或缺的一部分。由於其對業務的擴展和關鍵影響,數據科學家必定是具有邏輯、創新思維,且能夠將數據洞察轉化為業務戰略的人。

數據科學家需要什麼資格?

在過去的十年中,高等教育機構為數據科學家開發了專門的課程。那些希望在該行業工作的人可以獲得大量大學的數據科學學士或碩士學位。

數據科學家參加的課程通常包括統計建模、數據管理、數據可視化、機器學習、軟體工程、數據倫理、研究設計和用戶體驗。他們可能會學習 SQL、Python、Perl 和一系列其他編程語言,例如 R。他們還必須熟悉 Hadoop、Pig、Spark、Hive 和 MapReduce。

然而,隨著越來越多的開源軟體和商業化的數據科學工具的出現,人們今天學到的東西可能很快就會過時。因此,數據科學家需要保持敏捷,並繼續學習行業內的新技能和技術。

你是哪個數據科學超級英雄?
你是哪個數據科學超級英雄?
下載這本電子書,了解成為數據科學家所需的六大技能。

數據科學家需要的不僅僅是學位

優秀的數據科學家應該充滿好奇心,經常尋求新信息和新思維方式來應對業務挑戰。強烈的直覺和尋求證據的習慣也是數據科學家的優秀品質。他們需要有足夠的創造力,在沒有答案的地方找到答案,不斷尋找見解和結果。

數據科學家還需要對領域業務知識有深刻的認識。了解數據和編程是一回事,有洞察力並利用這些洞察力創建業務戰略是另一回事。他們應該看到業務的風險和機遇,並能夠使用數據為業務增長提供策略。在知道人們在某種天氣下會購買更多商品的情況下,但企業如何利用此類信息?數據科學家的角色是找出並回答這樣的問題,不斷將業務推向新的層次。

一個偉大的數據科學家還需要出色的溝通技巧。能夠向利益相關者和經理報告並清楚地解釋分析結果。能夠解釋數據不完整的地方,以及需要什麼來解決它。根據這些結果說明最佳的行動方案。新的程序和技術會發生變化,但始終需要能夠批判性地思考並擁有良好的定量的、特定領域的技能。

數據科學家是做什麼的?

數據科學家獲取數據,提出假設和推理,然後使用機器學習來檢測數據中的模式、關係和趨勢。在給定的任何一天,他們或許能夠:

  • 分析數據集
  • 清理數據
  • 構建儀表板和報告
  • 可視化數據
  • 進行統計推斷
  • 開發統計學習模型
  • 創建複雜的預測模型
  • 使用統計工具
  • 將分析結果傳達給利益相關者
  • 說服決策者

大型零售公司每天可以產生多達 40 PB 的數據。他們的數據科學家使用這些數據來預測一系列結果,包括人們何時何地購買某些商品。這使他們能夠計劃活動和銷售以獲得最大銷售額,對產品進行定價以便他們依舊獲得最大利潤,同時也促動最大數量的庫存。

數據科學家通常以團隊合作的方式挖掘大數據以獲取相關信息。他們還可以就應該收集什麼類型的數據、應該如何分析以及解釋的結果向管理層提出建議。 2017 年的一項研究表明,數據科學家 80% 的時間都花在了數據管理上。找到所需數據,清理和組織它。這使得他們只有 20% 的工作時間用於實際執行分析。然而,即使這種情況正在發生變化,隨著自動化機器學習和深度學習的出現,數據科學家發現他們有更多的時間進行分析,因為這些工具變得更加自動化並接管了大部分數據清理和組織,讓數據科學家有更多的時間進行分析。

為什麼數據科學家的角色如此重要?

對於企業來說,數據科學家是無價的。他們獲取數百萬甚至數十億個數據點,並將其轉化為關鍵信息,以預測可能挽救或發展機構的業務。按行業劃分的數據科學家的一些示例包括:

營銷優化

數據科學家是營銷的重要組成部分。例如,數據科學家可以生成一組觸發器提醒企業,他們的客戶處於高流失風險中。在市場營銷中,眾所周知,尋找新客戶的成本遠遠超過保留現有客戶的成本。數據科學家設置的觸發器允許公司介入並進行更改或與客戶交談以保留它們。

衛生保健

這是一個巨大的領域,為數據科學家提供了大量的機會。從以最佳水平管理名冊和人員配備,到確定哪些患者具有不遵守醫囑的高風險,數據科學家可以找到數以千計的機會來改善業務實踐和健康結果。

欺詐識別

通過使用數據科學家來識別欺詐風險,保險業和銀行業每年可節省數十億美元。例如,當客戶申請貸款時,會收集有關他們的許多數據點。該信息將被處理並與有關先前欺詐案件的已知信息進行比較。系統幾乎可以立即建議此人是否有風險。

如何成為數據科學家

如果你有一個邏輯大腦,可以處理數字,喜歡用電腦工作,並且對商業有敏銳的理解,那麼數據科學家的角色可能是你夢想的工作。

第一步是獲得電腦科學、統計學或相關領域的學士學位。該學位將使您具備以下技能:

  • 數學,特別是統計學
  • 編碼
  • 數據庫、數據湖和分佈式存儲
  • 數據清理技術
  • 數據可視化報告技巧

學士學位為您提供入門級知識,但隨著該領域的發展,將需要更高級別的資質或更多的專業知識。考慮獲得數據或相關領域的碩士學位,然後開始深入研究您感興趣的特定業務領域。

獲得資格後,下一步就是在感興趣的領域獲得經驗。醫療保健、營銷、政府或企業都為專業化提供了極好的前景。雖然可以教授數據科學家的技能,但了解數據與現實生活影響之間的關係需要業務經驗和時間。

數據科學軟體
嘗試 TIBCO Data Science - 免費試用
使用 TIBCO Data Science 在整個組織中實現機器學習的民主化、協作和操作。

數據科學家面臨的挑戰

部分由於這是一個新行業,數據科學家正面臨一些挑戰。這是一個男性主導的行業,與許多 STEM(科學、技術、工程和數學)職業一樣,女性在進入和維持職業生涯時有時會面臨額外的障礙。 2019 年,只有 18% 的數據科學家是女性。這種缺乏多樣性開始在該領域產生問題。算法是由人類創造的,容易受到偏見的影響。例如,在銀行業,作為一個單身女性對她們獲得貸款不利。然而,數據顯示,女性在償還貸款方面比男性要好。銀行可能會錯過最好的客戶,而女性可能會錯過財務安全和獨立性。擁有多元化的員工隊伍將有助於克服這些錯誤和偏見。

因為它是一個新的行業,使用一致的詞彙和實踐標準還在努力中。預計標準需要在利益相關者、數據科學家自己和立法者之間達成共識,但目前還沒有形成。

還推動了可以輕鬆解釋的可詮釋人工智能。思想領袖認為,預測不應該只是憑空得出的數字,而應該能夠追踪並輕鬆解釋機器學習模型背後的邏輯。

數據科學家的當前展望

與大多數 STEM 職業一樣,數據科學家是受到高度追捧和重視的員工。目前,缺乏具有適當分析技能的合格數據科學家。由於高於平均預算工資、快速增長的市場以及對其價值的更多理解,數據科學家的就業選擇非常好。 2018 年,數據科學家短缺 151,000 名,使其成為一個就業安全且需求不斷增長的領域。

特別是,正在鼓勵來自代表性不足的群體的人進入該領域。隨著一些大學為這些代表性不足的群體加入數據科學計劃提供獎勵,並且公司越來越認識到無偏見的結果需要多樣性,這是一個有吸引力且穩定的就業選擇。