收藏本页 打印 放大 缩小
0

引发数据质量问题的根源性因素分析

发布时间:2017-01-06 09:57:58    作者:王晓刚    来源:中国保险报·中保网

□王晓刚

大数据的根基是数据,但数据质量是数据的生命,倘若数据质量出了问题,即使分析挖掘数据的工具再先进,在充满“垃圾”的大数据环境中也只能提取出毫无意义的“垃圾”信息,因此数据质量在大数据环境下显得尤其重要。由于大数据具有分散存贮、整合使用,分析处理的时间、空间复杂度高,以及数据整体及其关系协同呈现高价值的三大特征,数据质量往往难以保障。

如何确保组织获得高质量的数据?本文先从数据质量的概念入手,再介绍Yang W. Lee、Leo L.Pipino、James D.Funk、Richard Y.Wang等4位国际数据质量研究的先驱的研究成果,剖析引发数据质量问题的十大根源性因素。识别和杜绝这些根源性因素,对提高数据质量进而更好地应用大数据大有裨益。

一、数据质量的概念

数据质量与数据消费者的主观判断紧密相关,很难定义和测量,本文引用ISO9000质量管理体系对质量的定义,数据质量可定义为“数据的一组固有属性满足数据消费者要求的程度”,数据的固有属性包括如下3点:

真实性,即数据是客观世界的真实反映;及时性,即数据是随着变化及时更新的;相关性,即数据是数据消费者关注和需要的。

从数据消费者的角度看,高质量的数据需满足如下要求:

可得的,当数据消费者需要时能够获取到;及时的,当需要时,数据获得且是及时更新的;完整的,数据是完整没有遗漏的;安全的,数据是安全的,避免非授权的访问和操控;可理解的,数据是可理解和解释的;正确的,数据是现实世界的真实反映。

二、引发数据质量问题的十大根源性因素分析

引发数据质量问题的因素是多方面的,涉及组织的信息系统、组织架构、人、制度流程、企业文化等。下文将要介绍的十大根源性因素是Lee、Wang等人基于多家先进企业的数据质量案例归纳、分析和总结得出的,这些根源性因素都是非常常见的。

1.数据的多源性

当同一个数据有多个来源时,很可能会带来不同的值。在做数据库设计时,不建议多源储存和更新同一个数据,因为这样的话很难保证数据的诸多副本在被分别更新后仍然保持一致。组织内部多个数据采集流程独立运作,持续地产生不同的数据值。长效的解决措施是组织内使用统一的定义描述数据并使用一套最终产生一致数据的流程来采集、生产数据。

2.在数据产生过程中的主观判断

如果在数据的生成过程中包含主观判断的结果,那么会导致数据中含有主观的偏见因素。大量数据来自于数据采集者的录入,录入过程不可能消除主观判断,甚至有些数据完全依赖于主观判断。针对这个问题,可以采取长效措施:更好地、更广泛地训练数据采集者,丰富他们在业务领域的知识,并且明确告知他们有关主观判断的使用规范。

3.有限的计算资源

缺乏足够的计算资源会限制相关数据的可访问性。计算资源包括网络带宽、服务器存贮、计算能力等。可以通过技术升级来解决这一问题,同时兼顾数据消费者的预算来分配计算资源投入。

4.安全性和可访问性的权衡

数据的可访问性与数据的安全性、隐私和保密性本质上是矛盾的。对数据消费者而言,必须能够访问高质量的数据。同时,出于保护隐私、保密和安全性的考量,必须对访问设置权限。应该对所有的数据在首次采集时即制定明确的保护政策。

5.跨学科的数据编码

来自于不同专业领域的编码总是难以辨识和理解。在数据编码时,必须把完全理解数据编码所需的业务领域和专业知识准确地告诉数据消费者。在可能的情况下,对相同分类的不同代码应该相互映射。

6.复杂数据的表示方法

数据处理技术快速发展,已能够对文本、图像、视频等非结构化数据进行有效存储和访问,但要汇总、处理、分析这些数据仍然比较困难。在当前的技术背景下,对复杂数据进行编码是一个有效的手段,但长效的解决方案依赖于信息技术的进一步发展。

7.数据量

数据量过大会使数据消费者难以在合理的时间内获得所需的数据。在数据量大的情况下,提高访问效率对于数据管理者和数据消费者来说是一个巨大挑战。如果要长效解决这个问题,必须按照便于检索和使用的方式组织数据,这就需要准确地收集各种需求,并且权衡所需的额外存贮空间、查询时间和需要做出决策的速度。提高访问效能的方式之一是提供汇总数据。

8.输入规则过于严苛或被忽视

过于严苛的系统处理规则,或者说引入不必要的数据输入规则,可能会导致某些重要数据的丢失,或者产生错误的数据。这是因为数据采集者可能为了遵守这些规则,随意改变某个或某些字段的值,使之通过规则的审查,或者由于某些值无法输入对应的字段而丢弃整条记录。组织必须把采集数据作为业务流的一环,有必要采用类似于管理实物产品生产制造流程的方法来理解、记录和控制数据流程。

9.数据需求的改变

当数据消费者的任务和组织环境发生变化时,所谓“有用的”数据也随之改变。只有满足数据消费者需求的数据才是高质量的数据。作为长效的解决方案,需要规划数据流和系统的变化,并在数据需求的变化成为严重问题之前,预测数据消费者不断改变的需求。这要求我们持续地检查业务环境,落实岗位职责,积极地管理数据并使之匹配于数据需求。

10.分布式异构系统

对于分布式、异构的数据系统,如果缺乏适当的整合机制,会导致其内部出现数据定义、格式、规则和值的不一致。数据仓库是目前流行的一种分布式系统解决方案,按照统一标准抽取、整合若干已有的、独立开发的数据系统,减少前端的不可访问性。

三、总结

上文分别阐述了常见的引发数据质量问题的十大根源性因素,然而在实际工作中,数据质量问题是一个复杂问题,往往是多种因素综合作用的结果,识别这些因素和潜在问题的种种迹象,在数据质量出现问题之前就主动地制定出解决方案并采取行动,比在出现问题后采取补救措施效果更好、代价更小。