
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
随着互联网的不断发展,大数据技术在各个行业都有不同程度的应用,而今天我们就通过案例分析来了解一下,机器学习数据统计分析需要注意哪些问题。
机器学习在本质上存在某种形式的统计性歧视。并且一旦将某些特权群组置于系统性的优势地位,而将某些非特权群组置于系统性的不利地位,那么这种歧视就会变得令人反感。由于存在于标签上的偏见、欠采样或过采样,导致训练数据中存在偏差,模型也会存在不为人需的偏差。
有些人提出,决策是由人们基于部分信息做出的,而决策者所做的决策可能会受自身存在的许多隐含的和认知上的偏差的影响。而决策的自动化给出了更准确的结果,在很大程度上限制了偏差的影响。这些算法无需十分完美,只需优于以前使用的算法。历史发展终究会曲折地走上正轨。
也有人提出,算法就是要放任不公平或数据本身固有的偏差得以系统性的体现。为缓解这些问题,应从数据中删除涉及受保护属性的变量,剔除所有的相关变量或是加以限制。
上述两种做法都是部分正确的。然而,我们不应该满足于不公平的算法,毕竟其中存在着改进空间。同样,我们不应该浪费已拥有的所有数据,删除所有变量,因为这将使导致系统表现变差,降低它们的用处。这就是说,终还是需要算法的创建者、监管机构,以及负责收集数据的机构,尽力确保这些偏差得到适当的处理。
数据的收集和抽样过程通常是统计教学中枯燥的部分,并且公众对此认知不足。在监管机构得以介入之前,需确保机器学习工程师、统计学家和数据科学家将机会均等付诸机器学习实践中。我们必须关注数据的来源以及处理方法。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!更多内容请在707945861群中学习了解。