什么是数据质量?
数据质量是指数据符合预期目的。当数据准确地展示现实世界的真实情况时,也会被认为是高质量的。
要理解这一点,你必须将数据视为层次结构的构建基石。在数据的基础之上,才能产生信息,也就是放在情境中的数据。可操作的信息生成了知识,而知识在应用时就发展成智慧。质量差的数据将导致信息质量不佳,会影响上面的层次结构,从而导致错误的业务决策。
当数据符合预期目的并表示现实世界的真实情况时,就被认为是高质量的。但是,这在本质上也可能是矛盾的。
以使用公司产品的客户的主数据记录为例。主记录中的数据可能足以向所述客户开具账单,但是缺少地址和电话号码的准确详细信息对于客户服务部门来说可能不是十分理想,这可能会造成业务问题。
理想情况下,主数据记录应有多种用途。为此,如果数据符合预期目的,并且也可以用于其他业务目标,那么必须与现实世界保持一致。这样做时应避免过多地需要资源来收集数据。换句话说,需要在数据质量定义的两个方面取得平衡。
人为错误导致数据质量不佳的头号原因。纠正低质量数据非常耗时,需要付出巨大的努力,并且需要理想的人员、更优流程和技术组合。数据质量低下的其他原因包括各部门之间缺乏沟通和数据战略不足。解决这些问题取决于主动管理。

数据质量的重要性
在整个企业的层次结构中,毫无疑问,高质量的数据有利于盈利。然而,问题仍然是谁负责确保数据质量始终保持良好,以及如何在一个组织内为这些付出提供资金。数据质量一定要测试到细微程度才能了解其对业务的正面或负面影响,这可能非常困难。从以下示例中可以看出制定协议以确保数据质量的重要性:
- 对于您企业的营销部门来说,数据重复的问题可能会导致营销预算超支。例如,同一数据库接收的营销材料可能与潜在客户名称略有不同。这不仅会令客户失望,而且会创建完整的双重客户档案。
- 在线销售部门可能正在推动制定自助购买决策的议程。但是,由于现有数据库中缺少完整的产品数据,以及产品合作伙伴之间联合使用产品数据的方式,数据质量可能是一项难以实施的任务。
- 对于企业的供应链部分,您可能希望实现流程自动化,但因为位置数据的相同标准和精确度无法适用于所服务的所有地点,很难获得可靠的位置数据。
- 对于依赖财务报告的部门来说,由于数据不一致、缺少最新数据或缺乏明确的数据参数,就会出现一个问题获得多种答案的情况。
所有这些因素加在一起,对整个企业产生了巨大的负面影响,使其难以实现业务目标。这些目标中的大多数在众多企业中都是很常见的。
如果没有良好的数据质量,企业:
- 将无法利用新的市场机会。这可能会损害他们的利润率并阻碍他们的发展轨迹。
- 将无法采取降低成本的措施。缺乏高质量的数据需要在使用之前进行大量的人工检查和纠正。如果没有完整且一致的数据,流程的自动化就会变得困难。
- 将无法满足合规性要求,因为缺乏高质量的数据将会使其难上加难。这些要求涵盖隐私和数据保护法规以及健康和安全要求等方面。它还涵盖了财务限制和准则的各个方面。拥有高质量的数据对于实现合规性目标至关重要。
- 在企业数据资产上使用预测分析工具时会遇到困难。这可能会影响短期和长期决策,使公司的进展变得极为困难。面临的挑战来自数据重复、数据不完整、不一致以及预测不准确等问题。

高质量数据的好处
投资创建高质量数据的组织能够利用数据做出更好的业务决策。
高质量的数据有助于做出更好的决策
当今的市场必然是以消费者为中心。有了高质量的数据,企业将能够做出更好的决策。例如,如果对数据的分析显示,人们在周四花在外面(购物和用餐)的时间开始越来越多,比平常周五的多,那么企业可以选择延长营业时间或提供独特的产品来推动业务发展。
更好的团队协作
当一个组织的许多部门能够持续访问相同的高质量数据时,结果是更好、更有效的沟通。这使所有团队成员更容易在优先级、对外信息以及品牌方面保持一致。这将共同确保更好的结果。
更好地了解客户
有了高质量的数据,公司就能够更好地评估客户的兴趣和要求。这有助于组织通过根据客户需求创造更好的产品来实现增长。然后,可以根据消费者的需求和来自数据的直接反馈来推动创建的营销活动,而不仅仅是基于有根据的猜测。
您如何评估数据质量?
如果业务流程基于质量差的数据,组织将遭受巨大损失,因此,所有者和管理者必须了解如何评估数据质量。此项任务包括设置评估数据质量的指标和流程。公司需要努力使其数据在客观和主观评估中都获得很高的排名。要提高数据质量,企业必须:
- 深入评估客观和主观的数据质量指标
- 分析结果并确定出现差异的原因
- 设法改进
主观数据评估
通过主观评估,组织可以衡量利益相关者、分析师、收集者和其他各方对数据质量的看法。如果任何利益相关者根据他们收到的数据做出决定,但发现决策不准确或不完整,那么他们的决策将受到影响。在寻找数据质量方面的漏洞时,必须考虑到这一点。
异议数据评估
客观的数据质量评估着眼于可测量的指标,这些指标记录在数据集中,然后从两个角度进行评估:
- 在特定任务中的表现
- 从基于指标、可以独立使用的数据集角度
要评设置这些估客观数据的指标,组织可以根据原则制定符合其特定需求的关键绩效指标 (KPI)。这些被称为功能形式。有三种方法可以衡量功能形式的质量:
- 简单比率:这里用可能的总结果来衡量预期结果总数。范围通常介于 0 和 1 之间,其中 1 是最优选的结果。完整性和一致性都可以用这个比率来衡量。这里的问题是,这两个维度都可以用几种不同的方式来衡量,组织需要制定标准才能制定出最佳衡量标准。
- 最小值或最大值:此函数形式用于处理多个数据质量变量,其最小值为保守数字,最大值为更宽松的数字。变量(如准确的数据级别)用最小值标记。诸如及时性或/和可访问性等方面用最大值表示。
- 加权平均值:用作最小值的替代方法,当组织试图调查和了解每个变量为方程式带来的价值时,可以使用这些加权平均值。
一旦组织评估了所有客观和主观的数据质量指标,他们就可以转而采取有助于简化流程的措施。除非所采取的行动有效且始终如一地执行,否则花时间审视流程并做出客观决策是浪费时间。
如何提高数据质量
对于任何组织而言,提高数据质量就是如何正确组合合格人员、智能流程和准确技术。所有这些,再加上主动的顶层管理,可以帮助大幅提高数据质量。
数据质量维度
在努力提高数据质量时,主要任务是努力扩大数据质量维度的范围。最受关注的维度是主客户数据的唯一性。该数据库经常存在重复问题,其中两个或多个输入行可能拥有一个实体(即客户)的相同数据。有许多方法可以确保数据不重复,比如在入口点以及对已存储在数据库中的数据采用重复数据消除技术。
就产品主数据而言,唯一性维度并不是一个需要解决的大问题。相反,这是完整性问题。缺乏完整性的主要原因是不同的商品分类会有不同的要求,而且并非所有要求都已填写。在许多情况下,产品数据的一致性与地点直接相关,例如单位度量。虽然美国的长度以英寸为单位,但世界其他地区的长度以厘米为单位。
处理位置的主数据会带来缺少一致的输入模板的问题。由于世界各地使用的格式各不相同,因此标准化输入可能非常困难。
取交集应注意的方面
在某一时刻,位置和客户领域会有交集,精度将难以维持。这是因为不同的用例对位置使用不同的精度维度。
要成功取得交集,必须要了解客户的愿望,根据这些愿望可以与他们共享产品的相关详细信息。这将有助于处理客户主数据域和产品主数据域的交集。
建立基础数据质量标准的六个主要维度
这些标准可能因项目而异,但基础通常应保持不变。高质量的数据将始终具有这六个基本标准。
- 全面性:研究需要填写哪些基本字段才能将数据集视为是完整的。对于客户数据库,姓名和地址是绝对必需的,但根据产品或服务的不同,性别可能不是必需的。越来越多的人提出了删除先生/夫人/女士,这不仅是为了对那些不属于任何一个类别的人更具包容性,还因为根本没有必要知道。
- 一致性:确保任何数据的所有迭代在制作和使用的任何报告、分析结果或电子表格中都是相同的。寻找不一致之处,因为这可能会导致未来的数据质量不佳。好的软件应该有助于消除或识别不一致之处。
- 准确性:一致性是确保所有渠道的单一值所必需的,而准确性是指这些值是正确的,并且反映了数据所代表的现实。如果准确性成问题,使用机器人输入数据可以消除人为错误。
- 格式:数据必须是在确保数据输入格式一致性的基础上输入的。创建一个单一的格式并一直采用,即使是制造年份这样最微小的细节。还比如美式或英式日期格式,全大写等。
- 时间范围:任何数据的有效性都在于数据被提取供终端用户使用时的时效性和相关性。如果数据是最新的,在适当的时间提供给决策者,并且是其最新版本,则可以确保及时性。
- 完整性:这是确定数据集是否符合组织设定的规则和标准。缺少值可能会破坏数据的有效性。
确保明确遵守这些维度将为组织提供准确、高质量且对质量决策不可或缺的数据集。