课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
数据处理是我们在数据分析之前需要进行的一个基础环节,而今天我们就一起来了解一下,数据处理都包含了哪些内容,希望通过对本文的阅读,大家对于数据处理有更多的了解。
数据预处理的主要内容包括:
数据清洗;
数据集成;
数据转换;
数据规约;
数据清洗主要是删除原始数据中的无关数据,重复数据,平滑噪声数据,筛选掉与建模目的无关的数据,处理缺失值与异常值等。
缺失值处理
除了很明显的缺失值(单元格处无值)之外,还有一种隐形的缺失值,比如,你要分析一个人从2018年初到现在每个月的收入情况,加入某个月这个人完全没有收入,账单流水中是不会显示这种情况的,如果你想把对这些没有收入的月份进行缺失值处理的话,先你就要找出哪些月份不在账单流水中。那么请看下面这个链接中的文章吧,文章会给出2018年初到现在连续的日期,你只需要匹配一下就知道哪些月份不在账单中了。
处理缺失值的方法分为3类:删除、插补、不处理。
重复值处理
在Pandas中,.duplicated()表示找出重复的行,默认是判断全部列,返回布尔类型的结果。对于完全没有重复的行,返回False,对于有重复的行,一次出现的那一行返回False,其余的返回True。
与.duplicated()对应的,.drop_duplicates()表示去重,即删除布尔类型为True的所有行,默认是判断全部列
异常值处理
数据清洗过程中的异常值的处理,是选择剔除还是用其他值代替,需要视情况而定。有些异常值可能包含某些信息,需认真思考后采取处理方法。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。