什麼是資料品質?
資料品質是指資料符合其預期目的,當資料能夠準確地表示現實世界的構造時,它也被認為是高品質的資料。
若要理解這一點,您必須將資料視為承載階層結構的基石。在資料的基礎上,出現了資訊,即依照前後脈絡放置的資料;從可據以行動的資訊中能產生知識,應用該知識則會發展出智慧。品質差的資料會導致品質差的資訊,進而層層向上造成不良影響,最終導致糟糕的業務決策。
我們說,當資料符合預期目的並能表示真實世界的構造時,它被認為是高品質的資料。然而,這點在本質上可能歧異。
以使用公司產品的客戶的主要資料記錄為例,主要記錄中的資料可能已足夠用來向前述客戶開具帳單,但準確的地址和電話號碼等詳細資料或許並不適合讓客戶服務部門知道,這可能會導致業務問題。
在理想情況下,主要資料記錄應該可用於多種用途。為此,如果資料符合其預期目的、也可用於其他業務目標,則它需要與現實世界的使用狀態保持一致,而且這點應該在不過度消耗資源來收集資料的情況下達成。換言之,資料品質定義的兩個方面必須取得平衡。
人為錯誤是造成內容不正確、進而導致資料品質不佳的最大原因。修改品質差的資料非常耗時,需要付出巨大努力,也需要理想搭配人員、更好的流程、以及技術來執行。資料品質低劣的其他原因還包括部門之間缺乏溝通,以及沒有適當的資料策略。解決這些問題主要依賴主動管理。

資料品質的重要性
在整個企業的階層結構中,毫無疑問,高品質的資料有利於確保獲利能力。然而,仍然存在著該由誰來負責確保資料品質始終良好、以及如何在組織中為這些努力提供幫助等問題。資料品質需要在精微層次上進行測試,以瞭解其對企業的影響(正面或負面),這點可能非常困難做到。從以下範例中可以看出制定協議來確保資料品質的重要性:
- 對於企業中的行銷部門,重複的資料可能會導致行銷預算超支。例如,同一個資料庫收到的不同行銷素材或許只是其中一位潛在客戶的名稱略微不同,這不僅會使客戶感到沮喪,也會使整個客戶檔案的數量翻倍。
- 線上銷售部門可能正在提倡有關制定自助購買決策的議題,但由於現有資料庫中缺乏完整的產品資料,而且產品資料綜合了多家產品合作夥伴的內容,使得提升資料品質變成一項難以實施的任務。
- 對於企業的供應鏈部分,您可能希望實現流程自動化,但很難獲得可靠的位置資料,因為並非所有營運據點都採用相同的標準和精度來記錄位置資料。
- 對於依賴財務報告的部門,由於資料不一致、資料沒有更新、缺乏明確資料參數,單一問題可能會得出眾多答案。
前述所有問題都會對公司業務產生巨大的負面影響,使其難以實現業務目標,偏偏這些目標大多數在各種企業中都是共通的。
如果沒有良好的資料品質,企業:
- 將無法利用新的市場機會,這可能會損害他們的利潤並影響他們的成長趨勢。
- 將無法採取降低成本的措施,因為品質不佳的資料需要進行大量人工檢查和修正後才能使用,而缺乏完整且一致的資料,流程自動化就難以實現。
- 將無法滿足合規性要求,因為如果沒有高品質的資料,將越來越難以確保符合涵蓋隱私權和資料保護法規、以及健康和安全要求等方面在內的規範要求,在財務限制和指導方針等方面也同樣會受此影響。因此,擁有高品質的資料對於實現合規目標至關重要。
- 將難以對企業資料資產使用預測分析工具,這會影響短期和長期決策,使公司進展變得極其困難。面臨的挑戰包括資料重複、資料不完整、不一致、預測不準確等問題。

高品質資料的好處
投資於建立高品質資料的公司組織,能夠利用資料做出更好的業務決策。
高品質的資料有助於做出更好的決策
今天的市場自然是以消費者為中心,而有了高品質的資料,將幫助企業做出更好的決策。例如,如果資料分析顯示,人們通常在星期四比星期五花更多的時間在戶外購物和用餐,那麼企業可以選擇在星期四延長營業時間,或提供獨特的產品來推動業務發展。
更好的團隊協作
當一個組織的許多部門不斷存取相同的高品質資料時,結果是促成更好、更有效的溝通。這使得所有團隊成員更容易在優先順序、傳達訊息、品牌認知方面保持一致,而結合這些因素將能確保更好的業務結果。
更好地瞭解客戶
憑藉高品質的資料,公司能夠更好地評估客戶的興趣和要求,並從客戶需求的角度出發,推出更好的產品來幫助組織成長。之後,公司還可以根據消費者的願望和資料的直接反饋來創造行銷活動,而不僅是憑經驗進行猜測。
如何評估資料品質?
如果業務流程是以品質差的資料為運作基礎,組織將蒙受巨大損失,因此擁有者和管理者都必須瞭解如何評估資料的品質。此任務包括設定資料品質的評估指標和流程,公司需要努力使資料在客觀和主觀評估方面都得到很高的評價。如果企業想要提高資料品質,他們必須:
- 深入評估客觀和主觀的資料品質指標
- 分析結果並找出導致任何差異的原因
- 研究改進方法
主觀資料評估
主觀評估是指,組織會衡量利益相關者、分析師、收集者和其他各方對於資料品質的看法。如果任一個利益相關者根據他們收到的資料做出決策,卻發現該資料不準確或不完整,那麼他們的決策就會受到影響。在尋找資料品質漏洞時,務必要將這一點納入考量。
客觀資料評估
客觀的資料品質評估著眼於可衡量的指標,這些指標記錄在資料集中,可從兩個角度進行評估:
- 它在特定任務中的表現
- 將它當做一個可以獨立使用的指標型資料集
為了設定這些指標來評估客觀資料,組織可以根據業務原則來制定與其特定需求相符的關鍵績效指標 (KPI)。這些指標被稱為功能形式,以下三種方法可以衡量功能形式的品質:
- 簡單比率:這裡衡量的數據是期望結果的總數相較於可能的結果總數,其範圍通常介於 0 到 1 之間,1 代表最可喜的結果。完整性和一致性都可以用這個比率來衡量,問題是,這兩個維度都可以透過幾種不同的方法來衡量,所以組織必須制定使用準則,才能得出最佳的衡量結果。
- 最小值或最大值:用於處理多個資料品質變數,此函數形式以最小值做為保守數字,最大值做為較自由的數字。通常具體變數(如資料的準確程度)是以最小值標記,諸如及時性或/和可存取性等較大層面則由最大值表示。
- 加權平均值:做為最小值的替代方法,當組織試圖調查和理解每個變數對於方程式的影響力時,可以使用加權平均值。
一旦組織評估過所有客觀和主觀的資料品質指標,他們就可以繼續採取有助於簡化流程的措施。花時間查看流程然後做出主觀決策,通常是浪費時間的做法,除非所採取的行動是有效的、並能始終如一地貫徹執行。
如何提高資料品質
對於任何組織而言,想要提高資料品質,關乎正確搭配合格人員、智慧流程和準確技術,再加上於高階層次進行主動管理,將有助於大幅提升資料品質。
資料品質維度
在致力於提高資料品質的同時,主要任務是擴大資料品質維度的範疇。最受關注的維度是主要客戶資料的唯一性,因為資料庫經常出現重複情形,其中兩個或多個輸入行可能同時含有某個實體(即客戶)的相同資料。有許多方法可以確保資料不重複,像是控制進入點,以及針對已儲存在資料庫中的資料使用重複資料刪除技術。
在產品主要資料方面,唯一性維度並不是需要注意的大問題,反而更需要在意完整性。不完整的主要原因是,不同的產品類別會有不同的要求,而且並非所有這些要求都被記錄下來並確實滿足。在許多情況下,產品資料的規範要求與所在位置直接相關,例如度量衡單位,美國以英寸為長度測量單位,而世界其他地區則以公分為主。
處理來自不同位置的主要資料時,就伴隨著輸入範本不一致的問題。由於世界各地使用的格式有如此多的差異,可能會非常難以將輸入內容標準化。
交叉考量方面
在某些時候,位置領域和客戶領域會相交,因為不同使用案例的位置可能是使用不同的精度定位,因此精度維度變得很難維護。
為了順利進行這種交叉考量,瞭解客戶的需求就非常重要,可以根據這些需求與他們分享產品的相關細節,這將有助於交叉運用客戶和產品這兩個主要資料領域。
基本資料品質標準的六個主要維度
具體標準可能因專案而異,但基本條件應該保持不變。高品質的資料總是符合這六個基本標準。
- 全面性:查看需要填寫哪些基本欄位,才能使資料集被視為完整。在客戶資料庫中,姓名和地址絕對是必要欄位,但根據產品或服務的不同,性別可能並非必要。現在有越來越多人提出應去除先生/夫人/女士等稱謂,不僅是為了對那些不屬於任一類的人們更具包容性,也因為根本沒必要知道這些資訊。
- 一致性:確保任何資料的所有迭代,在任何報告、分析結果或正在製作和使用的電子表格中都是相同的。要找出不一致之處,因為就是這些不一致導致了資料品質不佳。好的軟體應該有助於消除或識別不一致之處。
- 準確性:一致性對於確保所有管道均只有一個奇異值是必要的,而另一方面,準確性則用來處理那些能反映資料所代表的現實的正確值。如果準確性是一個問題,那麼可以使用機器人輸入資料來消除人為錯誤。
- 格式:確保資料輸入格式一致,絕對是輸入資料時應滿足的必要條件。建立一個單一格式並堅持下去,即使是最微小的細節也不容錯過,比如製造年份,應該用美式還是英式日期格式?要全部大寫嗎?
- 時間範圍:任何資料的有效性是指,在資料被提取出來以供最終使用者使用的當下,資料的新鮮程度和相關性如何。當資料內容是最新狀態、決策者能在正確的時間取得使用、資料本身是與時俱進的最新版本時,就可以確保及時性。
- 完整性:這是判斷資料集是否符合組織制定的規則和標準的基礎,缺失數值將會破壞資料的有效性。
保證確實遵守這些維度,將為組織提供制定優質決策時必不可少的準確、高品質資料集。