课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
随着互联网的不断发展,关于人工智能和机器学习等技术的学习方法可以说都在被程序员慢慢掌握,下面我们就一起来了解一下,在机器学习过程中的无监督学习的使用方法。
Sklearn无监督学习使用
无监督学习采用无标签数据,处理数据分布或者数据关系,包括聚类和降维。
聚类采用距离进行衡量样本的分类情况,可以采用欧氏距离、曼哈顿距离、马氏距离(包含了属性的标准差)、余弦相似度(向量相似度的一个方面)。
sklearn聚类算法包含于sklearn.cluster中,包含了k-means、邻近传播算法、DBSCAN等。
sklearn.cluster可以采用多种数据形式作为输入,标准形式为[样本个数 特征个数],还可以采用其他方式进行。
聚类之kmeans方法使用
kmeans算法将数据分为k个簇,簇内相似度较高,簇间相似度较低。
涉及到的过程包括:如何随机选取k个点;如何计算其余点与选取点的距离;如何计算每一类的均值;如何判断停止;如何证明有效性。
采用kmeans进行聚类操作,数据为31个身份居民家庭平均支出,包含8个维度数据,对于31个省份进行聚类。
选取数据点采用了Kmeans的初始化算法方法,由于没有数据,这里采用load_iris()数据进行分类,存在一定的分类误差,大约有0.09~0.11的分类误差。
降维之NMF
NMF,非负矩阵分解,是在矩阵所有元素为非负数这一条件约束情况下的矩阵分解方法。其思想为,对于一个非负矩阵,可以找到另外的矩阵W和H,这两者也是非负矩阵,使得W乘以H接近矩阵V。其中W矩阵称为基础图像矩阵,而H矩阵为系数矩阵。W矩阵类似于V矩阵中抽取的特征。
NMF的算法需要进一步进行探究,可以使用NMF方法进行,关键参数有n_components,init表示W和H矩阵的初始化方法。
实作的对象为olivetti人脸数据集,包含400张人脸数据,每张图像为64*64大小,也就是说原始的数据具有4096个维度。可以采用NMF进行降维,经过调整终的特征个数可以为6个,也就是说降维后的数据集为400张*6个特征。(待确定)
NMF和PCA可以直接替代使用,二者参数接近。
Sklearn监督学习使用
监督学习的目标是利用一组带有标签的数据,构成一个从输入到输出的映射,然后将这种映射关系应用到未知数据,达到分类或回归的目的。
sklearn库中分类算法未被统一封装,因此其import方式各有不同,其分类算法包括了KNN,朴素贝叶斯,SVM,决策树,神经网络模型等等,既有线性分类器,也有非线性分类器。
回归分析则是用于分析多个变量的相关性,由于给出在自变量变化时,因变量的变化情况。一般而言,通过回归分析可以得到由自变量给出因变量的条件期望。
sklearn库的回归函数封装在linear_model和prepocessing中,其中线性回归函数包括线性回归、岭回归、LASSO回归,非线性回归如多项式回归等。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。