
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
数据清洗和特征分类都是我们在做数据分析之前需要熟练掌握的数据分析知识,而本文我们就通过案例分析来简单了解一下,数据清洗和特征分类应用实践。
1、清洗标注数据
清洗标注数据的方法,主要是是数据采样和样本过滤。
数据采样:当模型不能使用全部的数据来训练时,需要对数据进行采样,设定一定的采样率;采样的方法包括随机采样,固定比例采样等。
样本过滤:包括结合业务情况进行数据的过滤和使用异常点检测算法,常用的异常点检测算法包括:偏差检测(聚类,近邻算法)等。
2、特征分类
根据不同的分类方法,可以将特征分为:
Lowlevel特征和Highlevel特征
稳定特征与动态特征。
二值特征、连续特征、枚举特征
Lowlevel主要指原始特征,通常不需要或者需要很少的人工处理和干预,例如文本中的词向量特征,图像特征中的像素点大小,用户id,商品id等。Highlevel特征是经过比较复杂的处理,结合部分业务逻辑或者规则、模型得到的特征,例如人工打分,模型打分等特征,可以用于较复杂的非线性模型。Lowlevel比较针对性,覆盖面小。长尾样本的预测值主要受highlevel特征影响。高频样本的预测值主要受lowlevel特征影响。
稳定特征是变化频率较少的特征,例如评价平均分,团购单价价格等,在较长时间段内数值都不会发生变化。动态特征是更新变化比较频繁的特征,有些甚至是实时计算得到的特征,例如距离特征,2小时销量等特征。或者叫做实时特征和非实时特征。针对两类特征的不同可以针对性地设计特征存储和更新方式,例如对于稳定特征,可以建入索引,较长时间更新一次,如果做缓存的话,缓存的时间可以较长。对于动态特征,需要实时计算或者准实时地更新数据,如果做缓存的话,缓存过期时间需要设置的较短。
二值特征主要是0/1特征,即特征只取两种值:0或者1,例如用户id特征:目前的id是否是某个特定的id,词向量特征:某个特定的词是否在文章中出现等等。连续值特征是取值为有理数的特征,特征取值个数不定,例如距离特征,特征取值为是0~正无穷。枚举值特征主要是特征有固定个数个可能值,例如今天周几,只有7个可能值:周1,周2,…,周日。在实际的使用中,我们可能对不同类型的特征进行转换,例如将枚举特征或者连续特征处理为二值特征。枚举特征处理为二值特征技巧:将枚举特征映射为多个特征,每个特征对应一个特定枚举值,例如今天周几,可以把它转换成7个二元特征:今天是否是周一,今天是否是周二,…,今天是否是周日。连续值处理为二值特征方法:先将连续值离散化(后面会介绍如何离散化),再将离散化后的特征切分为N个二元特征,每个特征代表是否在这个区间内。
3、特征处理与分析
对特征进行分类后,需要对特征进行处理,常用的特征处理方法如下:
特征归一化,离散化,缺省值处理
特征降维方法
特征选择方法
特征归一化。在有些算法中,例如线性模型或者距离相关的模型(聚类模型、knn模型等),特征值的取值范围会对终的结果产生较大影响,例如输入数据有两种不同的特征,其中的二元特征取值范围[0,1],而距离特征取值可能是[0,正无穷],两种特征取值范围不一致,导致模型可能会偏向于取值范围较大额特征,为了平衡取值范围不一致的特征,需要对特征进行归一化处理
排序归一化,不管原来的特征取值是什么样的,将特征按大小排序,根据特征所对应的序给予一个新的值。
离散化。在上面介绍过连续值的取值空间可能是无穷的,为了便于表示和在模型中处理,需要对连续值特征进行离散化处理。常用的离散化方法包括等值划分和等量划分。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!更多内容请加danei456学习了解。欢迎关注“达内在线”参与分销,赚更多好礼。