课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
随着互联网的不断发展,智能化技术对我们的生活都产生了很大的影响,而今天我们就通过案例分析来了解一下,机器学习的概念与应用。
1、机器学习
机器学习,区别于数据挖掘,机器学习的算法基于统计学和概率论,根据已有数据不断自动学习找到优解。数据挖掘能包含机器学习的算法,但是协同过滤,关联规则不是机器学习,在机器学习的教程上看不到,但是在数据挖掘书本能看到。
2、数值变量
机器学习中主要是两类变量,数值变量和分量变量。
数值变量具有计算意义,可用加减乘除。数据类型有int、float等。
在很多模型中,连续性的数值变量不会直接使用,为了模型的泛化能力会将其转换为分类变量。
3、分类变量
分类变量可以用非数值表示,它是离散变量。
有时候为了方便和节省存储空间,也会用数值表示,比如1代表男,0代表女。但它们没有计算意义。在输入模型的过程中,会将其转变为哑变量。
4、监督学习
机器学习主要分为监督学习和非监督学习。
监督学习是从给定的训练集中学习出一个超级函数Y=F(X),我们也称之为模型。当新数据放入到模型的时候,它能输出我们需要的结果达到分类或者预测的目的。结果Y叫做目标,X叫做特征。当有新数据进入,能够产生新的准确的结果。
既然从训练集中生成模型,那么训练集的结果Y应该是已知的,知道输入X和输出Y,模型才会建立,这个过程叫做监督学习。如果输出值是离散的,是分类,如果输出值是连续的,是预测。
监督学习常见于KNN、线性回归、朴素贝叶斯、随机森林等。
5、非监督学习
无监督学习和监督学习,监督学习是知道结果Y,无监督学习是不知道Y,仅通过已有的X,来找出隐藏的结构。
无监督学习常见于聚类、隐马尔可夫模型等。
6、概念、输入和特征
机器学习包括输入空间、输出空间、和特征空间三类。特征选择的目的是筛选出结果有影响的数据。
7、训练集和测试集
机器学习的模型是构建在数据集上的,我们会采用随机抽样或者分层抽样的将数据分成大小两个部分,拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预报,通过小样本的预测结果和真实结果做对比,来判断模型优劣。这个叫做交叉验证。
交叉验证能够提高模型的稳定性,但不是完全保险的,依旧有过拟合的风险。
通常用80%的数据构建训练集,20%的数据构建测试集
8、分类
监督学习中,如果输出是离散变量,算法称为分类。
输出的离散变量如果是二元的,则是二元分类,比如判断是不是垃圾邮件{是,否},很多分类问题都是二元分类。与之相对的是多元分类。
9、预测
监督学习中,如果输出是连续变量,算法称为预测。
预测即可以是数值型,比如未来的销量,也可以是介于[0,1]间的概率问题。
有些算法适合分类、有些则是预测,也有算法可以两者都能做到。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。更多内容请在707945861群中学习了解。