什麼是非結構化資料?
非結構化資料是缺乏可識別的結構或架構的資料,這意味著它不符合預先定義的資料模型,因此不適合用於主流關聯式資料庫,因為沒有易於識別的結構會使電腦程式難以讀取。
今天,大型商業組織產生的資料量估計以每年 40% 到 60% 的速度快速增長。
非結構化資料從何而來?
非結構化資料的來源包括:
- 網頁
- 影片
- 使用者在部落格和社交媒體網站上的評論
- 備忘錄
- 報告
- 調查回覆
- 文件(Word、PPT、PDF、純文字)
- 非結構化文字
- 客戶服務電話記錄
- 網際網路上的圖像(JPEG、PNG、GIF 等)
- 媒體日誌
這些資料儲存在資料庫、交易日誌、電子郵件、語音日誌等地方,通常過於非結構化、碎片化和分散,無法一目瞭然地獲得洞察見解,而簡單地按原樣儲存它又不具有任何用處。
如果能在各個孤島之間匯集這些資料,使它們可在整個組織內輕鬆存取、對其模式進行解碼、並以資料分析來提取洞察見解,那麼它可以為利益相關者提供大量有價值的資訊。
另一種新形式的非結構化資料是機器資料,包括來自記錄大量活動和性能資料的網站、伺服器、網路和行動應用程式的日誌檔案。公司越來越多地從物聯網和連接設備、甚至是製造設備上的智慧型感應器來捕捉和分析資料。

儲存非結構化資料:挑戰
儘管只儲存非結構化資料而不使用它進行分析是沒有任何實際用處的做法,但想要儲存它也不是那麼簡單的事,可能會產生幾個問題:
- 非結構化資料幾乎無處不在,並且佔用大量的儲存空間。其中有很大一部分是影片、音訊、圖像等大型檔案形式,它們佔據了儲存容量餅圖中的很大一塊。
- 與結構緊湊整潔的結構化資料相比,非結構化資料的保留或維護成本要高得多。
- 由於缺乏結構和體系架構,通常很難在系統中進行搜尋、刪除部分內容、或啟動更新。
- 非結構化資料量越大,為其建立索引就越困難。
如何儲存非結構化資料?
儲存非結構化資料有幾種可行的方法:
- 首先應將其轉換為更易於管理的格式,可擴展標記語言 (XML) 通常是首選格式。
- 以內容可尋址儲存系統 (CAS) 來儲存非結構化資料,此類系統透過存取其中繼資料、並為儲存在資料中的每個項目或物件分配唯一名稱來加以儲存,使得物件可根據其內容而非位置來進行檢索。
- 非結構化資料可以儲存在軟體系統中,再用於維護關聯式資料庫。一些關聯式資料庫系統可以選擇使用結構化查詢語言 (SQL) 來提交查詢和維護資料庫。
- 二進制大物件(也稱為 BLOB)是儲存非結構化資料的可行系統,二進制大物件是指在資料庫管理系統中被儲存為單一實體的二進制資料集,二進制大物件通常是圖像、音訊或其他多媒體物件,有時甚至連二進制執行檔也被儲存為二進制大物件。
非結構化資料的缺點
非結構化資料的缺點很明顯:
- 缺乏模式和結構,使得非結構化資料難以管理,而且儲存起來很麻煩。
- 檢索非結構化資料不僅困難,而且由於結構模糊和缺乏預先定義的屬性,會很容易產生錯誤。執行搜尋更是一項痛苦的活動,因為搜尋結果不夠準確,沒有任何助益。
- 此外,保持非結構化資料的安全也極其困難。
從非結構化資料中提取資訊
如前所述,眾所周知,非結構化資料難以標記、檢索和讀取,它不容易被傳統演算法解讀,出錯的機率很高。以下是一些有助於挖掘非結構化資料以提取可用資訊的策略:
- 將資料儲存在 Documentum 等虛擬儲存庫中,以便自動幫資料標記。
- 執行各種資料探勘工具。
- 將資料分類以賦予它結構和階層構造,利用固有的邏輯使搜尋過程簡化。
- 使用延伸線上分析處理 (XOLAP) 等應用程式平台,此類平台可從電子郵件和 XML 型文件中提取資訊。
- 在大數據環境中用於非結構化資料的工具和技術還包括文字分析工具,這些工具可以相當理想地搜尋文字資料中的模式、關鍵字和情感。另一種工具是自然語言處理 (NLP) 技術,這是一種評估情境脈絡、並從文字和人類語言中找出意義的人工智慧技術,透過使用神經網路來分析資料的深度學習演算法來實現。

非結構化資料的優勢
不過,非結構化資料並非完全沒有優勢。它的一些缺點可能反而變得更有利。
缺乏模式,帶來了靈活性
非結構化資料缺乏架構,因此不那麼僵化,事實上,它可以非常靈活。這種靈活性使非結構化資料更容易擴展且不受限制,而且是可攜的。
更豐富的資訊來源
資料來源的異質性可確保以非結構化格式捕捉到更豐富的資料,如果分析得當,非結構化資料可以有很多種應用,提供有價值的商業情報見解。
非結構化資料有多種格式
資料集可以用多種格式維護,由於缺乏統一的儲存結構,因此分析團隊能夠分析和處理所有的可用資料,而非首先專注於整合和標準化資料。與較嚴格的資料格式相比,這個特性為更廣泛、更全面的分析奠定了基礎。
非結構化資料與其他資料類型有何不同
大數據除了非結構化資料之外,還包含其他類型的資料,即結構化資料和半結構化資料。
結構數據
結構化資料在各方面都與非結構化資料相反。任何時候都可以進行有效分析,並可在資料庫或類似的格式化儲存庫中組織整理。
結構化資料在技術上適用於可以儲存在資料庫中的所有資料,它涉及可以透過結構化查詢語言 (SQL) 儲存在具有行和列的表格中的所有資料。這種結構的特點是它們的關聯鍵,很容易就能鏡射到預先設計的欄位中。結構化資料是最能被處理的類型,這是管理資訊的最簡單和有組織的方式,關聯資料便是結構化資料的一個例子。
結構化資料的剛性格式使其很難擴大規模,其中一個例子是金融系統和其他業務應用程式中的交易資料。在大多數情況下,它通常必須符合指定的結構,以確保流程和分析具有一致性。
半結構化資料
半結構化資料是與資料庫無關的資訊,然而,它仍然具有一些組織屬性,比純粹的非結構化資料更容易挖掘和分析。例如,如果添加了中繼資料標籤,便能獲得更多關於資料所含資訊和情境脈絡的訊息,XML 資料就是這樣一個例子。
根據一些資料管理專家的說法,所有資料,即使是非結構化資料,都有一定程度的結構。他們認為,非結構化資料和半結構化資料之間的界限很模糊。有鑑於非結構化資料往往蘊含豐富的見解,資料科學家可以利用這些洞察見解來更好地構建他們的模型,因此非結構化資料的重要性再怎麼強調也不過分。