您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > AI人工智能 > PCA降维降噪原理及应用
原创作者1PCA2PCA降维原理3PCA降维应用4总结思考:1)特征重合问题单位不一致2)特征相关大小房间数3)特征多导致过拟合租房问题4)样本噪声干扰合并特征降维滤波去噪PCA+降维、降噪PCA(PrincipalComponentAnalysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。即成为主成分的信息分量之间互不相关(主成分就是线性变换后互相不相关的一组向量)1记录来自同一个样本的各个特征维度信息;在矩阵中构成列2字段各个样本在同一个特征维度上的信息;在举证中构成行3矩阵基任何一组线性不相关的向量(1,1)(1,-1)4M个N维的样本点=M个样本N个特征维度=NxM的举证日期浏览量访客数下单数成交数成交金额120112525122134511023558054457记录、列字段、行两个矩阵相乘的意义是将右边矩阵中的每一列列向量变换到左边矩阵中每一行行向量为基所表示的空间中去;如果(R6)=降维。满足保留主成分&降维=变换矩阵E需要满足什么要求呢?至此,我们得到了降维问题的优化目标:将一组N维向量降为K维(K大于0,小于N),其目标是选择K个单位正交基,使得原始数据变换到这组基上后,各字段两两间(不同维度间)协方差为0,而字段(同一个维度上的样本点间)的方差则尽可能大。寻找K个向量基,使得样本点在K个向量基上投影点间的方差最大,协方差最小EK的选择由具体要求,结合贡献率而定P=5个样本点2个特征4个特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度3个分类:山鸢尾、变色鸢尾、维吉尼亚鸢尾第三步计算协方差第四步特征值及特征向量第五步原数据在新坐标系下的投影PS:这里的特征已经不再对应原始数据的特征{花萼长度、花萼宽度、花瓣长度、花瓣宽度},而是经过降维后的数据是在新的坐标系下描述的数据。设有带噪声信号把有用信号理解为主要维度,噪声与有用信号的相关性不大,在特征分解之后,去掉多余维度,达到去噪的目的。求解过程:取100个样本,每个样本采样点1000,即100个1000个特征值的矩阵,求协方差及特征值,取特征值最大的主分量矩阵线性变换EA=X单位矩阵EE的求解过程,即PCA求解步骤优点:PCA是一种无参数技术,也就是说面对同样的数据,如果不考虑清洗,谁来做结果都一样,没有主观参数的介入,所以PCA便于通用实现,但是本身无法个性化的优化缺点:PCA假设数据各主特征是分布在正交方向上,如果在非正交方向上存在几个方差较大的方向,PCA的效果就大打折扣了。可以很好的解除线性相关,但是对于非线性相关或者高阶相关特征就需要基于核函数的PCA。
本文标题:PCA降维降噪原理及应用
链接地址:https://www.777doc.com/doc-7438949 .html