什麼是大數據?

大數據是指組織擁有的大量且不斷增長中的資料,這些資料無法使用傳統方法進行分析。大數據,包括結構化和非結構化資料類型,通常是組織執行分析和提取洞察見解的原料,可以幫助他們制定更好的業務策略。大數據不僅是技術處理和應用程式的副產品,更是當今最重要的資產之一。

大數據的組成可以包括傳統的結構化資料、非結構化或半結構化資料。其中一個非結構化且不斷增長的大數據例子是社交媒體使用者所產生的資料,處理此類資料需要一種與結構化資料不同的方法,並須結合專門的工具和技術。

大數據是當今資訊爆炸的副產品,商業和日常生活的所有領域都為大量湧現的大數據做出了貢獻:零售、房地產、旅遊、金融、社交媒體、甚至是科技等各行各業,涉及我們生活的所有層面,從生活步驟到財務歷史記錄,所有一切都是資料。

早在 2017 年,估計約有 38 億人(約佔世界人口 47%)正在使用網際網路,而在過去幾年裡,智慧型電子設備的數量和種類爆增且繼續增長中,使我們每日大約輸出 2.5 萬億位元的資料,而且這個數字還在不斷增加。

隨著使用網際網路的人數呈指數成長,資料也跟著永不止息地增長。

下列數據有助於大家進一步瞭解大數據的巨量規模,這是網路領域每分鐘都在發生的實況,計算一下就知道。

  • 天氣頻道收到 18,055,555 個預報請求
  • 人們使用 Skype 撥打 176,220 通電話
  • Instagram 使用者發佈 49,380 張照片
  • Netflix 使用者串流傳輸 97,222 小時的影片

大數據的特徵

大數據圖

普遍認為大數據有五個 V:

  1. Volume(規模性)
  2. Velocity(高速性)
  3. Variety(多樣性)
  4. Veracity(真實性)
  5. Value(價值性)

1. 規模性

如果我們將大數據視為一個金字塔,那麼規模性就是它的廣大基礎。全球公司所管理的資料量在 2012 年左右開始爆增,當時組織開始每天收到超過 300 萬條資料,根據 Antonio de Nebrija 大學的一位 MBA 教授指稱,從那時起,這一資料量估計每 40 個月就翻一倍。

2. 高速性

「高速性」一詞是指產生資料的速度。

大數據不僅是資料量可以視為一種資產,它流動的速度,即它的高速性,也同樣很重要。速度越接近即時,對於希望從中提取可操作和有價值資訊的公司而言,其競爭力就越大。

例如,在大型體育賽事開始 45 分鐘後,某食品配送公司必須決定是否要根據其銷售資料來購買 Google Ads 廣告位,否則幾個小時後,相同的資料將失去相關性。

推動這種即時資料需求的技術包括 RFID 標籤、智慧型計量和各種感應器。

3. 多樣性

多樣性是指公司可以從中獲取大數據的來源範圍及其可能出現的多種格式。資料來源可能包括智慧型手機、內部設備、社交媒體聊天、股票行情資料和金融交易資料等地方,這些來源與為何要收集該資料的業務性質特別相關。例如,一家零售公司必須關注使用者在社交媒體上對其最近推出的服裝系列的評論,而對一家製造公司來說,關注社交媒體的價值就不如前者高。

資料的多樣性還可以幫助組織瞭解客戶簡歷和對象特徵。例如,一家公司可能發現,不僅是知道有多少人打開電子郵件很有幫助,知道他們打開它的原因以及受眾特徵也非常有價值。

4. 真實性

真實性針對資料的品質和準確性提出了質疑,唯有乾淨的資料才是值得信賴的資料。組織想要信任他們的資料,就必須跨系統連接、清理和轉換這些資料,讓資料具有層次結構並釐清多重資料關聯,以便更加妥善控制這些資料。

5. 價值性

金字塔的頂端是價值,亦即從海量資料中提取可行業務見解的能力。

價值是指能夠預測將有多少新會員加入網站、有多少客戶將續保、預期可拿到多少張訂單等等。價值在於知道誰是最好的客戶,誰將在幾週或幾個月內從地圖上消失、永遠不再回來。

公司透過將大數據所提供的洞察資訊變現來獲取價值,不僅有助於更好地瞭解他們的客戶,還能持續提供更相關的產品來提高利潤。

大數據白皮書
現代化您的數據和分析架構
查看這 13 個用例,以了解怎樣支援當今複雜的數據和分析環境。

大數據的主要類型和來源

串流資料

這是來自物聯網和連接設備的資料,是按時間順序流入系統的資料,它可以從智慧型手機、穿戴裝置、智慧汽車、工業設備、醫療設備等眾多相連的小工具流入 IT 系統之中。串流資料的分析可能基於先進先出或連續處理模式,它會掃描資料以查看是否值得儲存起來進一步分析、或者可以安心地丟棄。

社交媒體資料:

每天在 Facebook、Instagram、YouTube 等社交媒體平台上以照片、圖像、GIFS、影片、語音、評論(純文字)和聲音檔案等形式進行的數百萬次互動,構成了社交媒體資料的全部內容。這對於銷售、提供支援、行銷活動尤其有價值。挑戰在於它主要是非結構化或半結構化的形式,因此需要先進行額外的處理後才能加以分析。

公開資料

這是指海量的開放資料來源,包括世界主要政府的 data.gov 入口網站,

其餘大數據則來自雲端、資料湖、廠商、供應商或客戶。

如何處理大數據

處理大數據首先要製定利用它的策略,下一步是識別和分類其來源、位置、系統、使用者和所有者、以及它的流入方式,然後建立一個基礎架構來儲存和管理這些資料,以便隨時進行分析,也就是促進資料驅動決策的最後一步。此通則可用來管理傳統的結構化資料集,也適用於非結構化和半結構化資料。

在製定大數據管理策略時,必須從業務增長和技術角度,全盤考慮目前和未來的業務目標,並像對待其他任何有價值的業務資產一樣來仔細處理大數據。

資料可以原地儲存在傳統的資料倉儲中,也可以儲存在近年來大肆流行的雲端儲存解決方案。這類解決方案更具經濟效益,並能提供一定程度的靈活性。在資料處理方面,當今可用的運算系統已具備存取如此大量資料所必需的速度、功能和敏捷性,另外,整合資料、確保品質控制、提供資料治理、為分析工具做好準備工作,也是必要的環節。

從大數據中提取最多價值的工具

大數據推動我們這個時代的進階分析工作,例如人工智慧。公司使用所收集資料的效率越高,從中挖掘出價值的潛力就越大。投資能夠管理和分析大量資料的軟體,尤其是即時資料,是大數據管理的重要一步。

MapReduce、BigTable、Hadoop:當要儲存大量資料、並確保採用更好或更有效的業務活動方式時,可以使用 Hadoop 和雲端分析之類的工具,它們有助於優化流程,進而帶來成本優勢。

此外,透過Hadoop 等結合了記憶體內分析的高速工具,有助於識別未曾開發的資源,亦即使用新近更新的資料來源來進行分析。對公司來說,捕捉和分析資料的速度,是促使他們快速做出決策的重要資產。

複雜的挑戰需要巧妙的解決方案。平台為公司提供簡單直覺的介面,確保即使是最不精通 IT 的人員也能輕鬆使用,以增強組織整體實力。此平台還應該能夠利用全方位的大數據來實現準確、即時的分析,一個成功的系統必定能夠處理來自不同來源的數 TB 資料叢集,並成功將其轉化為可提供有用見解和工作流程分析的儀表板。

O'Reilly 報告:建立整合的數據基礎設施
O'Reilly 報告:建立整合的數據基礎設施
只有三分之一的企業已發展成為數據驅動的機構。解決辦法是什麼?在這電子書尋找答案!

大數據分析:洞察

  • 大數據分析可以更深入瞭解目前的市場狀況、客戶的購買行為、產品的受歡迎程度等,從而優化製造或採購規劃。
  • 同樣地,大數據也可以幫助企業瞭解客戶喜歡什麼,付費客戶屬於哪個族群,然後想出獎勵和培養忠誠度的方法,以長期留住他們的客戶。
  • 讓客戶滿意,對企業的長久發展來說至關重要。若想管理客戶期望,並為各種客戶角色設計令人難忘且有效的行銷活動,那麼大數據提供的洞察見解就很有幫助。
  • 大數據分析也可以做為情緒量表,衡量消費者對您的品牌、服務或產品的感受,這對於管理品牌形象有很大幫助。大數據洞察力有助於提高網路知名度和受歡迎程度,並保持高收視率。
  • 大數據分析提供的洞察見解可幫助公司不斷創新和重新開發其產品,從而在競爭中保持領先地位。它也能幫助識別故障、問題、缺陷的根本原因。
  • 大數據可以提早識別異常模式、計算風險組合、攔截欺詐行為,以免造成嚴重損害。

處理大數據可以帶來長期好處

一旦組織在處理大數據所需的基礎設施上投入必要的時間和資源,他們就可以期待獲得以下好處:

  • 優化資源和庫存規劃
  • 更好的資產管理
  • 更直覺地瞭解客戶簡歷
  • 改善與客戶、供應商的關係
  • 縮短從訂單到交貨的時間
  • 更好地整合供應鏈
  • 更有效的策略規劃
  • 縮短解決供應鏈問題的反應時間
  • 改善客戶服務,縮短週轉時間

大數據如何影響各個部門:範例

教育領域的大數據

大數據在教育領域帶來重大變革,尤其是以下方面:

  • 創造更加客製化、動態、互動的學習和發展方案
  • 重新定義課程教材的範圍
  • 修改評分系統以提高準確性
  • 職業預測和諮詢

保險業的大數據

保險業不僅與想買人壽保險的個人有關,也與各種類型和規模的企業有關,因為人和組織具有一個共通點,也就是他們都很容易受到逆境、災難及其他不確定性的影響。因此,保險行業的資料可能具有多種格式,來自不同來源,並且可能隨時發生變化。

例如,如果客戶有興趣在某個國家/地區旅行時購買汽車保險,則保險公司可以收集和執行與該國家/地區相關的駕駛條件和道路安全等資料,然後相應地調整保費。他們還可以在提供保單給客戶購買之前,先收集該人員的駕駛安全記錄和相關因素。

除了這樣的風險評估,保險公司還可以使用大數據進行威脅對應,這意味著,他們可以計算特定客戶或公司可能遇到導致他們申請索賠的問題的不同可能性。

政府的大數據

事實證明,大數據對於世界各國政府尤其具有影響力。無論在地方層級,還是在國家和全球範圍,大數據都有助於解決複雜的問題,確保治理有效,並能影響重大事件。

大數據為收集和整理積累的資料帶來巨大的新機遇,能從資料中提取有用的見解,將為各種組織流程注入活力並拓展應用情境。