
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
大数据分析的前提就是从海量数据中提取我们需要的信息,而当数据量级上来之后,数据质量就是需要重点关注的一个问题了,而今天我们就通过案例分析来了解一下,大数据数据质量的概念。
1.什么是数据质量
说到数据质量,大家先涌到脑海的可能是数据内容质量。也就是说,怎么去保证数据内容的准确性,这是比较狭义的质量。质量其实还包括很多方面,比如说准确性、规范性、及时性和认可度,称为广义的质量。我们为广义的质量去做了一个产品,叫质量分。狭义的质量会影响业务的稳定性,比如说哪个数据出错了,比如说商家的GMV肯定是不能出错的,出错了会影响业务的稳定。而广义的质量会影响用户,且终会影响数据价值的挖掘。
2.内容质量校验
数据和任务强相关,因为数据是由任务加工产出的。所以,内容质量校验也和任务强相关,每个任务完成之后,我们都会对产出的数据做各种质量校验。
质量校验包括两个方面,预定义校验和自定义校验。预定义校验,我们系统自动执行的,不需要人工做任何的配置,包括数据量的波动、文件还有组件性的校验等等。自定义校验需要每个数据owner做一些配置,在我们系统上也支持了很多,比如说非空校验、数值范围校验、还支持自定义SQL校验。
质量校验的结果正常的话,下游任务就可以正常进行;如果是可接受的异常,这时候会触发邮件和企业微信的报警;如果是不可接受的异常,结果数据是有问题的,则阻断下游的任务执行以避免数据资源的浪费,同时触发电话报警,通知相关人去处理。
3.质量分
质量分包括:规范性、认可度、准确性以及及时性。规范性很好理解,比如名字规不规范,注释有没有填,必须的质量检验有没有配。认可度要关注数据的使用情况,包括下游依赖情况、搜索、收藏、关注的次数等等。准确性也比较好理解,就是数据的质量校验是不是经常出错,如果经常出错,这个数据可能就有一些问题,不值得信赖;还有数据的分区是不是连续的,是不是有缺失。及时性,我们会去关注数据的超时情况,还有deadline临近情况等等。
希望这辈子,最让你无悔的事情就是来达内学习!学习向来不是件易事,但无论过程多么艰难,希望你依然热爱生活,热爱学习!永远记得,达内将与你一同前行!现在扫码,立即领取万元课程礼包,助力0基础快速入行,为你梳理行业必备技能,全方位了解岗位发展前景!
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!更多内容请在707945861群中学习了解。欢迎关注“达内在线”参与分销,赚更多好礼。