课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
不知道大家在生活中是否接到过人工智能客服打过来的营销电话呢?今天我们就一起来了解一下,随着互联网的不断发展,人工智能技术应用如何才能更加完善。
对于深度学习入门者,这些公开数据集可以提供非常大的帮助;但是对于大部分企业开发者,特别在医学成像、自动驾驶、工业质检等领域中,他们更需要利用专业领域的实际业务数据定制AI模型应用,以保证其能够更好地应用在业务中。因此,业务场景数据的采集和标注也是在实际AI模型开发过程中必不可少的重要环节。
数据标注的质量和规模通常是提升AI模型应用效果的重要因素,然而完全通过人力手动标注数据建立一个高质量、大规模专业领域数据集却并不容易:标注人员的培训与手工标注成本高、耗时长。为解决此问题,我们可以利用主动学习的方法,采用“Human-in-the-loop”的交互式框架进行数据标注,以有效减少人工数据标注量。
主动学习(ActiveLearning,AL)是一种挑选具有高信息度数据的有效方式,它将数据标注过程呈现为学习算法和用户之间的交互。其中,算法负责挑选对训练AI模型价值更高的样本,而用户则标注那些挑选出来的样本。如“Human-in-the-loop”交互式数据标注框架,通过用户已标注的一部分数据来训练AI模型,通过此模型来标注剩余数据,从中筛选出AI模型标注较为困难的数据进行人工标注,再将这些数据用于模型的优化。几轮过后,用于数据标注的AI模型将会具备较高的精度,更好地进行数据标注。
人工挑选并标注一部分图像数据,训练初始模型,然后利用训练的模型预测其余未标注的数据,再通过“主动学习”中的“查询方法”挑选出模型比较难分辨类别的数据,再人为修正这些“难”数据的标签并加入训练集中再次微调(Fine-tuning)训练模型。“查询方法”是主动学习的核心之一,常见的“查询方法”有基于不确定性的样本查询策略和基于多样性的样本查询策略。
基于不确定性的样本查询策略可查询出深度学习模型预测时,靠近决策边界的样本。以二分类问题举例,当一个未标注样本被预测为任一标签的概率是50%时,则该样本对于预测模型而言是“不确定”的,极有可能被错误分类。要注意的是,主动学习是一个迭代过程,每次迭代,模型会接收认为修正后的标注数据微调模型,通过这个过程直接改变模型决策的边界,提高分类的正确率。
基于多样性的查询策略,可实现对当前深度学习模型下状态未知样本的查询。将通过多样性查询挑选出的数据加入训练集,可丰富训练集的特征组合,提升模型的泛化能力。模型学习过的数据特征越丰富,泛化能力越强,预测模型适用的场景也越广。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!更多内容请在707945861群中学习了解。