数据质量是数据治理中很重要的一个模块,有些公司做数据治理一开始就是侧重数据质量和数据合规,因为这两个都很重要,可以立刻有business value。\n \n什么是数据质量?\n数据质量是衡量数据在当前的企业流程或者运营中是否适用。同样的数据对一个项目来说是好的,可能对另外一个来说就很差。所以数据质量的好坏不是绝对的,而是相对的。\n为什么数据质量很重要?\n其实很简单,买个东西都要看一看质量好不好,买到质量好的一直用,买到质量差的用一用就要修或者扔了。数据也是一样,用到质量好的数据做个机器学习模型会很成功,要是用一堆质量差的数据要清洗处理,关键是质量太差了做出来的模型很可能没有用呀。Gartner曾经做过一个统计,质量差的数据会浪费公司6.25%的revenue。总结起来就是:\n提高决策能力,提高运营效率,增加市场营销或者销售活动的成功率,提高AI应用的成功率,降低监管风险等等。\n \n数据质量的衡量标准\n衡量数据质量大概有80多种不同的标准。常用的是以下几种:\n准确性Accuracy: 数据准确表示其所描述的真实实体(实际对象)真实值的程度。比如真实的是10,你拿的是9,那其实就还行,你要是拿的1,那就太差了\n完整性Completeness: 按要求数据被赋予数值的程度。比如本来应该有10个人,结果只有9个名字,那这个就不完整。\n一致性Consistency: 数据与其他特定上下文中使用的数据无矛盾的程度。比如当名字为翠花时性别必须为女,如果性别为男那就违反了一致性。\n时效性Timeliness: 数据从生成到可用的时间跨度可接受的程度。比如说预期是新数据一天就可用,结果第二天你并没有收到新数据,那这个就违反了Timeliness。\n唯一性Uniqueness: 数据值只出现一次的程度。比如说每个用户ID只能是独一无二的,如果有两个是一样的,那就违反了唯一性。\n有效性Validity: 数据值符合规定的程度。比如规定用户ID长度不能超过100,如果超过了就无效。\n \n如果有一个表需要做质量管理,那基本上就是跟相应的Data Owner或者懂这个表格的人聊一聊每个数据应该对应什么标准,把这些都记录下来用于之后的实施\n \n数据质量的实施\n这部分涉及到技术性的工作,有些公司是有自己开发的数据质量管理工具,有些是用市场现有的工具。简单来说就是根据上面的标准来进行写一段代码用以实时读取数据并且计算数据质量。\n \n#数据 #数据分析 #数据治理 #数据质量
发表评论
发表评论: