什麼是公民數據科學家?

公民數據科學家是一種知識工作者。他們沒有接受過高級數學和統計學的正規培訓,但他們可以使用應用程序從數據中提取高價值的見解。公民數據科學家每天利用數據和分析,通過點擊式界面解決特定的業務問題。他們依靠工具從數據抽像等任務中抽像出大部分困難,並使建模和檢測數據模式的大部分工作自動化。

公民數據科學家圖

數字化轉型計劃影響了當今機構開展業務的方方面面。這些數據驅動的變化導致越來越多的商業領袖開始聘用公民數據科學家,以彌合當今市場上對數據和分析的需求與熟練數據科學家供應有限之間的差距。公民數據科學家能夠解決這種技能短缺問題。他們能夠在沒有統計分析背景的情況下使用高級的預測性分析來創建數據科學模型。

下載這本電子書,了解成為數據科學家所需的六大技能。
你是哪個數據科學超級英雄?
下載這本電子書,了解成為數據科學家所需的六大技能。

為什麼對公民數據科學家的需求不斷增長?

公民數據科學家這個角色的存在,是為了在不花費大量資金聘請訓練有素的數據科學家的情況下,從先進的分析技術中獲得更多收益。公民數據科學家是組織培養稀缺建模和分析技能的最佳機會,這將使他們能夠滿足緊迫的業務需求並將數據轉化為行動。如今,聰明的組織採用數據科學團隊,其中包括數據科學家和數據科學家的組合。然而,公民數據科學家的目標不是取代數據科學家,而是補充他們並填補在理解數據和業務方面的技能差距。

公民數據科學家的崛起

公民數據科學家的崛起可歸因於:

  1. 資產公民數據科學家的實力證明了這一點。對於專家數據科學家來說,他們是一種具有成本效益的選擇,更容易找到且聘用成本更低,但能夠補充這些數據科學家的工作。
  2. 非專家為何更容易理解數據科學這個領域。現代分析和商業智能( BI ) 工具使整個企業的用戶能夠參與並更好地理解數據。與增強分析和機器學習(ML) 相關的解決方案正在幫助公民數據科學家更輕鬆地完成曾經只有專家數據科學家才能完成的數據發現和分析任務。

如何授權公民數據科學家

在當今的互聯世界中,高級分析和機器學習變得越來越重要。

這些技術的推動價值依賴於機構在高級數據分析、機器學習和算法業務開發模型方面授權公民科學家。然後將這些模型交付業務線 (LOB) 經理和業務用戶,以使他們做出更好決策。

公民數據科學家是從高級分析投資中獲得最大價值的關鍵。他們的存在使得机构無需在專家數據科學家身上花費太多。經機構授權後,未經正式培訓的公民數據科學家也能夠從數據中提取有價值的見解。他們可以使用各種工具來降低數據科學任務的難度,例如用於數據準備、建模和模式識別的自動化工具。

組織可以通過人員、流程和技術的結合來增強公民數據科學家的能力

人們

大多數公民數據科學家的定義都足夠廣泛,包括 LOB 員工、業務分析師和商業智能 (BI) 員工,甚至 IT 員工。憑藉如此寬廣的範圍,公民數據科學家在分析師 Howard Dresner 所說的“信息民主”中發揮著重要作用,確保數據和分析結果在整個企業中共享。沒有 BI 和分析應用程序,公司就無法生存。數據科學家和其他數據專家本身並不重要,重要的是將有價值的信息交到企業和其他利益相關者手中。

過程

數據科學家和公民數據科學家更好地利用數據和分析的過程得到了一個關於整個組織的更深層次問題的支持:它是否有共享任何東西的過程?這在快速發展的公司中並不總是給定的,通過併購增長,或開始萎縮。如果文化從未接受或培養透明和共享的概念,那麼公司可能採取的任何用以使用軟件發布分析模型和他們收集的數據的流程來都不太可能成功。

一旦公民數據科學家挺身而出,並且數據科學家對他們進行了資格審查,分工的過程就開始了。

讓公民數據科學家參與進來的目標不是取代數據科學家,而是通過一組高級用戶來補充他們的工作,他們可以使用您的應用程序進行科學家剩餘的工作並填補任何技能空白。鑑於大數據最佳的運用需要編碼、統計、機器學習、數據庫管理、可視化技術的知識和行業特定知識,實現它的最佳方法是結合多種技能。至少,公民數據科學家在 LOB 知識領域提供了最大的價值,而在這方面,如果數據科學家為了學習這方面的知識而停下其他工作,這會是相當低效的。

一旦流程到位,隨著信息民主將更多數據交到更多人手中,數據科學家面臨的傳統障礙——包括上游的管理層和下游的員工——會開始減少。除了獲得在短期內增加收入或降低成本的分析結論之外,數據科學的作用在於以有益於塑造公司長期發展方向的方式應用這些分析結果。最順暢的方法是將受過訓練的數據科學家和公民數據科學家的努力聯繫起來。

在實踐中,數據科學家堅持他們接受過的高級分析和統計工作,為數據準備和建模創建工作流是有意義的。當這些工作流準備好測試或投入生產時,數據科學家使用您的分析軟件將它們推送給公民數據科學家,由他們運行並確保它們按設計工作。隨著時間的推移,公民數據科學家可以承擔更大的責任,使用您的應用程序修改工作流並創建自己的工作流。

技術

大多數分析師都會條件反射地使用電子表格程序來處理數字並得出有用的分析結果。直觀、值得信賴的行列格式具有直接意義,並且具有無限的靈活性。但是,無論是在協作、共享、組合不同的數據集、執行高級分析還是執行可重複的工作流方面,電子表格軟件最終都無以為繼。

數據科學家知道,將原始數學和統計數據強加給不擅長的人是徒勞的。我們的目標是將分析平台交到可以構建模型以供整個組織使用的人手中。每個分析平台都聲稱易於使用,但這還不夠。它必須足夠強大才能滿足數據科學家的需求,同時又必須足夠易於使用,讓整個企業中的非技術人員可使用自動化、可共享的工作流。