您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > 清华大学数据可视化教程高维数据可视化v3_9509917
高维数据可视化计算机系胡事民清华大学“大数据”系列课程高维数据可视化•数据维度•高维数据可视化–数据变换–数据呈现–数据交互数据维度•一维数据–通过柱状图、饼图等表达“eatenornot”单独的一个bar代表一个一维数据数据维度•二维数据–可使用平面坐标系表达数据维度•三维数据–可使用空间坐标系表达,本质也是二维的投影–人类的视觉感知系统很难脱离三维空间定势,对三维空间的理解已远没有二维直观数据维度•多维数据–怎样在视觉空间(三维空间/二维平面)上表达?姓名身高体重年龄性别教育程度籍贯张三180cm65kg23男大学上海李四168cm55kg18女高中浙江赵五175cm75kg53男初中广东…高维数据可视化的简单思路•在二维/三维图表上增加视觉通道,以表达更多的属性信息–散点的形状、填充形式、颜色、大小等高维数据可视化的简单思路•“多视图协同关联”–不同的视图表示数据的一部分属性更高维度•增加视觉通道?–人眼能同时处理的视觉通道只有5-7种•增加视图?–每一视图都只能显示数据的局部属性难以直观显示数据的整体属性在信息可视化中,现实的数据往往具有很高的维度高维数据的特点•真实的数据虽然具有较高维度,但不同的属性之间往往具有非常强的内在关联性,例如汽车样本数据可能同时包含:–最大速度(千米/小时)–最大速度(英里/小时)–发动机功率–发动机排量比例关系正相关高维数据的特点•高维vs多元–高维:数据具有多个独立属性–多元:数据具有多个相关属性•还是刚才的例子–最大速度(千米/小时)–最大速度(英里/小时)–发动机功率–发动机排量–最大里程高维数据可视化•数据维度•高维数据可视化–数据变换–数据呈现–数据交互数据变换•降低维度:使用线性或非线性变换把高维数据投影到低维空间,去掉冗余属性。•目标:投影后保留重要的关系–减少信息损失–保持数据区分度降低维度降维方法•线性方法–主成分分析(PCA)–多维尺度分析(MDS)•非线性方法–等距特征映射(ISOMAP)–局部线性嵌套(LLE)主成分分析(PCA)•一种常用的分析和简化数据的技术•定义了一个正交变换,将高维多元数据变换到一个新的低维坐标系统,使得数据投影的第一大方差在第一个坐标上,第二大方差在第二个坐标上,以此类推主成分分析(PCA)•通过下面的简单物理模型来直观表述PCA的目的:–假设在图中放置一个弹簧小球,小球沿着x轴方向往复运动,同时我们在空间中放置了三台相机来捕获小球的运动轨迹。–由于小球只沿着x轴方向往返运动,一个垂直于x轴的相机就可以最大程度的刻画小球的运动,但我们在图中的三个相机中都检测到了小球的运动,因为这三个相机得到的数据隐藏了冗余的信息。–PCA可以快速地去除冗余信息,从而定位到刻画小球运动最本质的特征。主成分分析(PCA)•假设我们得到的2维数据如下:–列代表了样例,这里有10个样例–行代表特征,每个样例两个特征x2.50.52.21.93.12.3211.51.1y2.40.72.92.23.02.71.61.11.60.9主成分分析(PCA)00.511.522.533.500.511.522.533.5主成分分析(PCA)•第一步,样本去中心化:分别求x和y的平均值,然后对于所有的样例,都减去对应的均值–x的均值是1.81–y的均值是1.91x2.50.52.21.93.12.3211.51.1y2.40.72.92.23.02.71.61.11.60.9x'0.69-1.310.390.091.290.490.190.810.310.71y'0.49-1.210.990.291.090.79-0.31-0.81-0.31-1.01主成分分析(PCA)•第二步,求特征协方差矩阵:物理含义:对角线上分别是x和y的方差,非对角线上是协方差。协方差大于0表示x和y若有一个增,另一个也增;小于0表示一个增,一个减;协方差为0时,两者独立。协方差绝对值越大,两者对彼此的影响越大,反之越小。=主成分分析(PCA)•第三步,特征分解:求协方差矩阵的特征值和特征向量,得到=主成分分析(PCA)•第四步,将特征值按照从大到小的顺序排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。–这里特征值只有两个,我们选择其中最大的那个,这里是1.2840,对应的特征向量是:(-0.6779,-0.7353)T主成分分析(PCA)•第五步,将样本点投影到选取的特征向量上,假设样本数为m,特征数为n.–减去均值后的样本矩阵为,–协方差矩阵是,–选取的k个特征向量组成的矩阵–那么将n维特征降维成k维特征后的结果为:主成分分析(PCA)•在这个例子中,我们取k=1,得到将原始数据从两维降到一维后的结果:x2.50.52.21.93.12.3211.51.1y2.40.72.92.23.02.71.61.11.60.9FinalData-0.831.78-0.99-0.27-1.68-0.910.101.140.441.22主成分分析(PCA)•物理含义:将数据投影到了一个能更好刻画数据特征的正交坐标系中************************数据点第一主成分第二主成分原始坐标轴算法回顾•假设有m个数据,每个数据n个属性–数据预处理:所有属性减去其平均值–计算属性之间的协方差矩阵,该矩阵是一个n*n的对称矩阵–计算协方差矩阵的特征值和特征向量,将特征值从大到小排序保留最上面的k个特征向量–将原数据映射到由k个特征向量张成的新空间中,从而达到将数据从n维降到k维的目的主成分分析(PCA)•PCA算法之所以能达到预期的目的,其内在原理为这种变换能够:–最大化投影后的方差–最小化投影后的误差•这两条原理本质上是等价的,从这两个角度都可以推导出PCA算法的结论。最大方差理论•最大方差理论–方差描述了信号的信息量–在信号处理中认为信号具有较大的方差,噪声有较小的方差–所谓信噪比就是信号与噪声的方差比,这个量越大越好最大方差理论•我们希望将数据从n维投影到k维后,每一维的方差都很大,比如下图有5个样本点:(已经做过预处理,均值为0,特征方差归一)最大方差理论•下面将样本投影到某一维上,假设我们选择两条不同的直线做投影,那么左右两条中哪个好呢?方差更大最大方差理论•红色点表示样例,蓝色点表示在u上的投影,u是直线的斜率也是直线的方向向量,而且是单位向量,由于这些样本点(样例)的每一维特征均值都为0,因此投影到u上的样本点的均值仍然是0。最大方差理论•我们要求的是最佳的u,使得投影后的样本点方差最大.由于投影后均值为0,因此方差为:协方差矩阵令等式左边为最大方差理论•我们要求的是最佳的u,使得投影后的样本点方差最大.由于投影后均值为0,因此方差为:•由于,所以有•即投影后的方差就是协方差矩阵的特征值,因此特征值最大的特征向量就是方差最大的投影方向。=1最小误差理论•最小误差理论:–将数据从高维投影到低维后的损失最小–这里以二次误差来定义投影损失,及所有数据点投影前后的距离之和最小(最小平方误差)最小误差理论•我们首先证明这条直线一定经过所有数据点的中点,反证法:假设这条直线不经过数据点的中点,即数据点中点到该直线的距离为,则数据点到平行于该直线且经过数据点中点的直线的二次误差为:•这条新直线的二次误差小于原直线,产生矛盾=+最小误差理论•我们的目标就是寻找一个条最佳的直线,使得投影后的二次误差最小。•由于一条直线可以由一个点t和一个单位向量唯一确定,因此我们用下式来刻画这个投影:•其中为到点距离,由于数据点的中点一定在这条直线上,这里我们取为数据点的中点,方便起见,我们假设数据的所有属性已经减去了对应的均值,那么数据点的中点=0最小误差理论•由=0得到•带入并进行简单推导:最小误差理论•最终得到:常数协方差矩阵类似,只是缺少个分母m-1,我们称之为散列矩阵S最小误差理论•要使二次误差最小,就要使下式最大•但同时需要满足约束,引入拉格朗日乘子•令偏导数为0,问题再一次转化为协方差矩阵的特征值和特征向量问题()贡献度•从不同的角度我们都可以得出协方差矩阵特征值的大小描述了对应特征向量的重要程度,因此我们可以基于特征值谱来定义贡献度:–特征值从大到小排序,前k个特征值之和占所有特征值和的比例称为贡献度,该值衡量了将特征从m维降到k维后新数据对原始数据的保真度–在实际工程应用中一般至少要求PCA应用•人脸数据–每一幅人脸图像具有64x64=4096维特征PCA应用•应用PCA分解,并选取的50维特征•每个脸部重建为一系列人脸基或特征人脸的线性组合平均的人脸特征人脸PCA应用•仅用50张特征人脸重建出的结果–此时对每一幅人脸数据我们只需要一个50维的系数向量就可以描述,极大降低的数据的维度多维尺度分析(MDS)简介•与PCA不同,MDS从另外一个角度去寻找合适的低维空间,即数据集相似程度。•该算法要求投影前后,数据点对之间的距离尽量接近:多维尺度分析(MDS)简介•与PCA不同,MDS从另外一个角度去寻找合适的低维空间,即数据集相似程度。•其优化目标为:,,,,是数据点i和j之间在原始空间的相似度,是数据点i和j之间在K空间的相似度是数据集在K空间的投影多维尺度分析(MDS)简介•MDS与PCA的区别:–如果将数据点的相似度定义为数据点之间的欧式距离,那么MDS等价于PCA–MDS允许定义不同的相似度,因而更加灵活多维尺度分析(MDS)简介•现实世界中数据点之间的距离往往很难精确的给出数学描述,MDS最典型的应用就是结合感知距离(比如来自市场调研,用户调查等)。多维尺度分析(MDS)简介•需要注意的几个问题:–MDS降维后,坐标系统已无实际意义–数据点较多时,MDS结果容易陷入局部收敛,且对初值非常敏感•后续研究:基于标记的MDS、多重网格MDS、力引导MDS、层次结构加速的MDS等距特征映射(ISOMAP)简介•一种非线性降维方法,影响了整个工业界。•其核心思想与MDS类似,只是ISOMAP用数据点间的测地距离来定义距离度量矩阵。高维数据可视化•数据维度•高维数据可视化–数据变换–数据呈现–数据交互数据呈现•基于点的方法–散点图矩阵、径向布局•基于线的方法–线图、平行坐标、径向轴•基于区域的方法–柱状图、像素图、堆叠图、马赛克图•基于样本的方法–星形图、切尔诺夫脸谱图、邮票图散点图矩阵•使用一个二维散点图表达每对维度之间的关系•直观显示两个维度间的相关性•散点图数目与数据维度平方成正比散点图矩阵改进•使用自动方法寻找散点图矩阵中可能感兴趣的散点图聚类特征线性特征A.Tatu,G.Albuquerque,M.Eisemann,P.Bak,H.Theisel,M.Magnor,andD.Keim,“AutomatedAnalyticalMethodstoSupportVisualExplorationofHigh-DimensionalData,”IEEETransactionsonVisualizationandComputerGraphics,vol.17,no.5,pp.584–597,2011.散点图矩阵改进有特征的维度对径向布局法•基于弹簧模型的圆形布局方法,将代表N维的N个锚点至于圆周上,根据N个锚点作用的N种力量将数据点散布于圆内。数据呈现•基于点的方法–散点图矩阵、径向布局•基于线的方法–线图、平行坐标、径向轴•基于区域的方法–柱状图、像素图、堆叠图、马赛克图•基于样本的方法–星形图、切尔诺夫脸谱图、邮票图线图•单变量可视化方法•通过多子图、多线条、多视觉通道等方法可以延伸表示高维数据。平行坐标•1985年由Inselberg提出,用于研究高维几何•坐标轴相互平行(传统二/三维坐标系中坐标轴相互垂直)•每个坐标轴代表数据的一个属性,因此每个数据对象对应一条穿过所有坐标轴的折线平行坐标•美国各州生产总值变化情况平行坐标•世界500强企业排名平行坐标平行坐标平行坐标平行坐标•相关系数:•不同相关系数在平行坐标中的体现:ρ=1ρ=0.8ρ=0ρ=-0
本文标题:清华大学数据可视化教程高维数据可视化v3_9509917
链接地址:https://www.777doc.com/doc-4124852 .html