课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
大数据功能主要涉及系统实现面向大数据分析应用的POSIX API,包括文件读取与访问控制,元数据操作,锁操作等功能;
大数据分析系统的POSIX语义不同,实现的文件系统API也不同,功能测试要覆盖到大数据系统涉及实现的API和功能点;
功能测试工作量大,应该重点考虑应用自动化测试方法进行,同时结合手动测试补充,自动化工具推荐ltp,fstest和locktests。
在多个节点上处理大数据的过程中,存在由于‘无用数据’和数据质量问题带来的各种问题。功能测试主要用以识别由于编码错误或节点配置错误带来的数据问题。
其包括以下几个阶段:
a.数据导入/预处理验证阶段
根据具体的应用背景和业务需求,各种数据源如网络日志,物联网,社会网络及互联网文本和文件等被按需加载到HDFS中待处理。在这个过程可能会由于不正确或不复制,存储而导致的错误数据,对于这种情况,可采用以下方式进行测试:
1.输入文件与源文件进行比对,保证数据的一致性;
2.根据数据需求来保证获取数据的准确性;
3.验证文件被正确的加载进HDFS,且被分割,复制到不同的数据节点中。
b.MapReduce数据输出验证阶段
当数据加载进行HDFS后,mapreduce开始对来自不同数据源的数据进行处理。在这个过程中可能会出现mapreduce处理过程中的编码问题,如在单一节点上运行正确,在多个节点上运行不正确的问题,包括不正确的聚合,节点配置,输出格式等。针对于这个阶段的问题,可采用以下验证手段:
1.验证梳理数据处理正常完成,输出文件正常得到;
2.在单个节点上验证大数据的业务逻辑,进
而在多节点上进行相同验证;
3.验证mapreduce处理过程的key/value对是否正确生产;
4.在reduce过程结束后验证数据的聚集合并是否正确;
5.通过源文件验证输出数据来保证数据处理正确完成;
6.按照大数据业务所需,验证输出数据文件格式是否符合要求。
c.验证大数据ETL到数据仓库
当mapreduce过程结束后,产生的数据输出文件将被按需移至数据仓库或其它的事务型系统.在此过程中,可能会由于不正确地应用转换规则,从HDFS中提取的数据不完全而带来问题。针对于这个阶段的问题可采用以下方法:
1.验证转换规则是否正确应用;
2.通过比较目标表数据和HDFS文件数据来验证是否有数据损坏;
3.验证目标系统数据加载是否成功;
4.验证目标系统的数据完整性。
d.验证分析报告
从数据仓库或者Hive中得到的数据,可通过报表工具得到分析报告;这个过程可能会产生报表定义不能达到要求的报表数据问题;在这个过程中可通过查询来验证报表是否满足业务要求。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!