For investors
股价:
5.36 美元 %For investors
股价:
5.36 美元 %认真做教育 专心促就业
我们在学习人工智能技术的时候一般会接触到关于机器学习的一些基础知识等内容,而本文我们就通过案例分析来简单了解一下,常见的机器学习算法有哪些。
1.常见的机器学习算法有哪些
KNN算法、线性回归法、决策树算法、随机森林算法、PCA算法、SVM算法等等
2.什么是机器学习
简单的说,机器学习就是让机器从数据中学习,进而得到一个更加符合现实规律的模型,通过对模型的使用使得机器比以往表现的更好,这就是机器学习。
对上面这句话的理解:
数据:从现实生活抽象出来的一些事物或者规律的特征进行数字化得到。
学习:在数据的基础上让机器重复执行一套特定的步骤(学习算法)进行事物特征的萃取,得到一个更加逼近于现实的描述(这个描述是一个模型它的本身可能就是一个函数)。我们把大概能够描述现实的这个函数称作我们学到的模型。
更好:我们通过对模型的使用就能更好的解释世界,解决与模型相关的问题。
3.解释有监督和无监督机器学习之间的区别?
监督学习需要训练标记的数据。换句话说,监督学习使用了基本事实,这意味着我们对输出和样本已有知识。这里的目标是学习一个近似输入和输出之间关系的函数。
另一方面,无监督学习不使用标记的输出。此处的目标是推断数据集中的自然结构。
4.KNN算法介绍
邻近算法,或者说K邻近(KNN,K-NearestNeighbor)分类算法是数据挖掘分类技术中简单的方法之一。所谓K近邻,就是K个近的邻居的意思,说的是每个样本都可以用它接近的K个邻近值来代表。近邻算法就是将数据集合中每一个记录进行分类的方法。
k近邻法是一种基本的分类和回归方法,是监督学习方法里的一种常用方法。k近邻算法假设给定一个训练数据集,其中的实例类别已定。分类时,对新的实例,根据其k个近邻的训练实例类别,通过多数表决等方式进行预测。
k近邻法三要素:距离度量、k值的选择和分类决策规则。常用的距离度量是欧氏距离及更一般的pL距离。k值小时,k近邻模型更复杂,容易发生过拟合;k值大时,k近邻模型更简单,又容易欠拟合。因此k值得选择会对分类结果产生重大影响。k值的选择反映了对近似误差与估计误差之间的权衡,通常由交叉验证选择优的k。
优点
简单,易于理解,易于实现,无需估计参数,无需训练;
适合对稀有事件进行分类;
特别适合于多分类问题(multi-modal,对象具有多个类别标签),kNN比SVM的表现要好。
缺点
该算法在分类时有个主要的不足是,当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。
该方法的另一个不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个近邻点。
5.线性回归法介绍
线性回归(Linearregression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。
特点:只有一个自变量的情况称为单变量回归,多于一个自变量情况的叫做多元回归
线性回归当中主要有两种模型,一种是线性关系,另一种是非线性关系。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!更多内容请加danei456学习了解。欢迎关注“达内在线”参与分销,赚更多好礼。