什麼是資料目錄?

資料目錄是公司資料資產的清單,讓使用者可以快速找到所需的資訊。目錄主要是中繼資料,中繼資料可提供關於其他資料的基本資訊,描述這些資料是什麼。結合資料管理和搜尋工具,您就擁有一個資料目錄。

資料目錄圖

大數據時代,資料目錄是資料管理的關鍵組成部分。資料使用者可透過資料目錄從組織整體來源中搜尋所需的資料資產,這些資料可能極度分散且難以定位,因此成功實施資料目錄將對資料分析的速度和品質帶來重大影響,因為它們可以幫助使用者快速找到所需的資料。

資料目錄為組織提供許多好處。首先,資料目錄可以在正確的時間,以正確的格式、正確的視角、正確的控制級別,為使用者提供所有正確的資源。資料目錄有助於確保您可以找到並可立即使用在多雲環境中所有不同來源的全部資訊,這意味著使用者可以在即時環境下構建和部署其所需的模型。

除了為資料分析師提供資料脈絡以便將其用於業務目的之外,資料目錄還可以實現中繼資料管理的自動化。這種自動化能使資料目錄成為您組織中最受信任的單一資料來源,方便相關人員進行協作,根據實際需求來管理和收集資料。

「庫」(library) 是用於描述資料目錄的常見比喻,經證明,庫的理想比喻就是圖書館,因為它儲存了資訊資產(例如書籍),並且需要一套系統來整理所述的資訊資產。在這個類比中,書籍相當於資料資產本身,而有關書籍的資訊(例如書名、作者、ISBN 和類別)則是中繼資料。圖書目錄經維護後可以用來識別書籍、其位置和更多資訊,這正是資料目錄的運作方式,它允許讀者找到可用書籍清單,根據自己的喜好進行整理,並能快速選出他們需要的書籍。

O'Reilly 報告:建立整合的數據基礎設施
O'Reilly 報告:建立整合的數據基礎設施
只有三分之一的企業已發展成為數據驅動的機構。解決辦法是什麼?在這電子書尋找答案!

資料目錄的業務需求

業務資料每天都在急劇增長,預計全球資料領域將從 2018 年的 33 ZB,在五年內擴大到 175 ZB。這種規模的資料很難處理和定位,因為資料可以使用不同儲存技術、以不同格式儲存在多個雲端供應商處。此外,資料品質可能隨著時間推移而降低,因為資料具有時效性,而且資料集總是不斷變化中(新的資料集正在加入、現有的資料集可能衍生出新資料集等等)。您還擁有不同類型的使用者,從資料科學家到開發人員再到業務使用者,每個人在資料方面都有不同的要求和技能組合。每次當業務使用者需要解決業務問題時,您不能總是依賴 IT 來構建新的解決方案。您需要一種方法來管理所有這些需求。

資料目錄是整理資料的關鍵步驟,需要以符合邏輯的隨機應變方式進行整理。它已證明是組織的重要資產,因為它可以幫助:

  • 為資料建立一個儲存庫,內含有關資料品質、結構、使用情形和統計數據等資訊
  • 使用者可以存取中繼資料和實際資料,便於從遠端進行資料協作
  • 透過自動頻繁更新,確保資料在整個資料範疇內均準確且一致
  • 存取資料的處理歷程,便於查看資料的來源、修改和存取等資訊
  • 以安全的方式與相關人員共享資料資產
現代化您的數據和分析架構
現代化您的數據和分析架構
查看這 13 個用例,以了解怎樣支援當今複雜的數據和分析環境。

資料目錄的關鍵要素

雖然建立資料目錄的方法有很多,但要確保成功實施高效的資料目錄,以下是幾項必要條件。

連接器和管理工具

資料目錄充當資料的單一信任位置,連接器則用來對應資料庫中的實際資料集;因此,廣泛使用大量連接器來加強資料目錄是非常重要的。由於中繼資料可以從多個來源(例如 Salesforce、SQL 查詢、商業情報資料整合成工具)中獲取,因此管理這些資料也很重要。查驗和認證是提高資料目錄效率,同時持續進行資料治理的重要程序。

自動化

資料目錄的自動化使資料使用者能夠專注於關鍵流程,例如查驗和修正資料問題。這將提高資料目錄的速度和敏捷性,使組織內的資料集更加豐富。

高效的搜尋選項

搜尋功能是資料目錄的主要組成部分,而強大的搜尋功能可以為資料公民提供廣泛的搜尋選項,方便存取所需的資料。因此,擁有多個可用於一步驟執行進階搜尋的參數就非常重要。

處理歷程或生命週期追蹤

處理歷程是所查看資料的生命週期概覽,如果出現任何分歧,資料使用者可以使用資料目錄來輕鬆追蹤處理歷程,找出問題所在並加以修正。它還有助於瞭解組織中各種來源和資料類型之間的不一致。

通用詞彙表和資料字典

組織很大一部分價值來自於資料,因此資料必須讓所有潛在相關人員都能容易存取和理解。通常,資料目錄由資料字典和詞彙表二者組成。資料字典是有關目錄中資料的所有中繼資料的集合(通常儲存為表格形式),包括含義、與其他資料之間的關係、來源、用途和格式。詞彙表則允許組織成員識別目錄中使用的業務術語,並在整個公司內以相同的方式使用它們。

剖析

資料分析是用以評估資料的完整性、準確性、一致性和及時性的過程。基本上,對於解決業務問題來說,資料分析決定了資料的有用性。如果您是從多個資料來源收集資料,這個過程對維護資料集區就很重要。