课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
模型分析是程序员在学习软件开发和数据分析的时候会用到的一些技术知识,而今天我们就通过案例分析来了解一下,模型分析中的一些基础知识。
1、变量重要性
变量重要性(VariableImportance)也被称为特征重要性(FeatureImportance),指的是当某个变量的值发生改变后,模型在预测表现上的差异。如果一个特征非常重要,它对模型精度的影响会很大。通过对一个模型的特征重要性进行排序,就可获得对模型的全局解释。
在与模型无关的几种特征重要性判断方法中,我们举例介绍一种“置换特征重要性”算法(PermutationFeatureImportanceAlgorithm),其基本过程如下:
已知:训练出的模型,特征矩阵,目标变量以及损失函数;
通过损失函数计算出原始模型误差;
对于特征矩阵中的每一个特征:
随机置换该特征的取值,从而得到了一个新的置换特征矩阵。由于改变了原有特征的值,该特征与目标变量之间的原有关系被打破;
使用新的置换特征矩阵得到模型预测值,并计算出置换模型的误差;
通过计算置换模型误差和原始模型误差的差异来反映特征重要度。
2、个体条件期望图
个体条件期望图(ICEPlot)计算方法与PDP类似,它刻画的是每个个体的预测值与单一变量之间的关系。个体条件期望图消除了非均匀效应的影响,它的原理和实现方法如下:对某一个体,保持其他变量不变,随机置换我们选定的特征变量的取值,放入黑箱模型输出预测结果,后绘制出针对这个个体的单一特征变量与预测值之间的关系图。
3、累积局部效应图
累积局部效应图(AccumulatedLocalEffectsplot),用于描述特征变量对预测目标的平均影响。ALE大的特点是摆脱了变量独立性假设的约束,使其在实际环境中获得了更广泛的运用。
若两个特征变量之间存在相关性,要剥离出单一特征变量对目标的纯粹影响,一种方法是利用条件分布计算出预测值并对结果取平均。举例来说,若X1X1与X2X2相关,想要计算出X2X2对于目标的影响,需先固定X1X1并构建一个条件分布函数,如P(X2│X1=0.75)P(X2│X1=0.75),再放入模型计算出预测值,从而达到“固定仅反映X1X1与X2X2预测值之间关系”的目标。这种方法看似有效,但实际却存在问题,它真正反映出的是X1X1与X2X2的联合效应与预测值之间的关系。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。更多内容请在707945861群中学习了解。