您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 国内外标准规范 > 一种基于流形学习的视频人脸性别识别算法
-1-一种基于流形学习的视频人脸性别识别算法张敏1,辛杨2**作者简介:张敏,(1988-),女,硕士,计算机。通信联系人:辛阳,(1961-),男,教授,网络安全、信息安全、密码学等。E-mail:yangxin@safe-code.com(1.电子科技大学计算机学院,成都611731;52.北京邮电大学计算机学院,北京100876)摘要:现今,视频人脸性别识别已经成为模式识别和机器学习领域的最热话题,对很多领域的发展都起了推动作用。而其关键点在于怎么样最好地利用隐藏在视频流中的时空连续性信息,来克服人脸分辨率低,尺度变化大,光照、姿态变化以及遮挡等问题。本文针对VG-TSA,提出了一个新的基于流形的人脸性别识别算法。这个算法不仅仅能够发现人脸视频中,更有10价值的语义信息,而且能够充分利用内在非线性结构信息,来抽象出其低维本质流形结构。最后,将VG-TSA与其他算法在UCSD/Honda和自己的视频库作比较,实验表明:VG-TSA在视频人脸性别识别方面能够获得较好的识别率。关键词:性别识别;流形;张量子空间;视频15AManifold-basedAlgorithmforFaceSexRecognitionOfVideoZhangMin1,YangYixian2(1.ComputerScienceandTechnologySchoolofUESTC,ChengDu611731;2.ComputerSchool,BeijingUniversityofPostsandTelecommunications,Beijing100876)20Abstract:Today,facegenderrecognitionforvideohasbecomeoneofthehottesttopicsinthefieldofpatternrecognitionandmachinelearning.Thekeypointishowtomakebestuseofthetime-spaceinformationhiddeninthevideostreamtoovercomethedifficulties:thelowfaceresolution,illuminationchanges,poseschangesandsoon.Inthispaper,anewfacegenderrecognitionalgorithmforvideousingtensorsubspaceanalysis(VG-TSA),basedonmanifoldwas25proposed.ThisalgorithmisnotonlyabletodiscovertheFacevideomorevaluablesemanticinformationinfacestream,butalsotakefulladvantageoftheinherentnonlinearstructureinformation,toextractthelow-dimensionalmanifoldstructure.Finally,thisnewalgorithmcomparedwithotheralgorithmsintheVG-TSAUCSD/Hondaandourownvideolibrary.Thiscomparisonexperimentshows:VG-TSAcanobtainbetterrecognitionratevideofacegender30recognition.Keywords:facesexrecognition;manifold;tensorsub-space;video-based0引言由于人脸性别识别[1,2]在人机交互中有很大的价值,在计算机视觉文献中,也有很多相35关的资料。但是其中有很多的方法[3,4]仅仅将图像空间中的图像,看作是相对独立的或是孤立的,由此忽略了人脸图像之间的相关性。实际上,由于视频监视器的广泛应用,视频聊天的大量普及以及视频网站的快速发展,视频已经成为最重要的媒体介质之一。继而,视频人脸性别识别受到了广泛的关注。而关键问题在于,怎样才能充分利用视频中的时空连续性信息,来克服尺度变化大,光照、姿态变40化以及遮挡等问题。现今已经有很多视频识别算法[5,6],他们试图将图像序列作为一个整体,并已经得到比较好的结果。另外,真正的人脸数据是高维,非线性的。很多时候,通过对人脸数据进行降维,用特-2-征向量表示其本质结构。这样,有利于实现内在结构具体化,同时,降维也是模式识别问题的关键步骤。然而,当人脸流形是凹面、高度非线性,且受到姿态、光照和其他因素的影响45的时候,降维就显得更加困难。目前,具有代表性的降维方法,包括主成分分析法(PCA:principalcomponentanalysis)[7],线性分类判别(LDA:lineardiscriminationanalysis)[8],保局投影法(LPP:localitypreservingprojections)[9]和张量子空间分析(TSA:tensorsub-spaceanalysis)[10]。TSA是将图像作为二次张量,通过学习低维张量子空间来检测张量空间中的图像的本质局部几何结构。50本文针对VG-TSA,提出了一个新的视频人脸性别识别算法。VG-TSA可以包含更多来自于视频流信息中的语义内容,通过找到人脸数据中低维嵌入,来抽象出本质流形特征。通过这种方法,可以比其他方法得到更多的有用的信息,并获得较高的识别率。文章余下部分如下安排:第二部分将会总结前人的工作,第三部分将介绍张量子空间分析的特征提取,第四部分将会介绍支持向量机分类法。第五部分,将会展示实验结果。最后,55第六部分,总结相关内容以及展望未来工作。1发展现状1.1性别识别的线性方法主成分分析(PCA:Principalcomponentsanalysis),是统计分析中一种分析、简化数据集的技术。主成分分析是由卡尔·皮尔逊[7]在1901年提出的。PCA用于通过线性变换来60实现约简维数,通过保留低阶主成分,忽略高阶主成分,提取对方差贡献最大的特征。一般情况下,主成分分析可以保留数据最重要的特征。PCA能够有效提取图像流形是线性的情况,但大部分情况下,图像流形是高度非线性的。Principalgeodesicanalysis(PGA)[11]是Thomas等人在2004年提出的,这个算法将PCA这种方法推广到流形上,应用到了医药领域。而York大学的Wu,Smith和Hancock[12]在2009年将PGA确定面部针地图,并结合半65监督学习方法来实现性别分类。在2010年,他们又将PGA结合SFS[13]来提升性别识别的识别率。线性判别分析(LDA:lineardiscriminationanalysis)[8],也叫做Fisher线性判别(FLD:FisherLinearDiscriminant),是模式识别的经典算法。LDA是在1996年由Belhumeur[14]引入模式识别和人工智能领域的。LDA的基本思想是将高维的模式样本投影到最佳鉴别矢量空70间,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性。因此,它是一种有效的特征抽取方法。LDA能够保证投影后样本在投影空间中有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性。线性判别式分析提取的特征向量集,强调的是不同人脸的差异而不是人脸表情、照明条件等条件的变化,从而有助于提高识别效果。75支持向量机(SVM:Supportvectormachine),是VladimirN.Vapnik[15]等人在1995年提出的,采用监督学习的方法实现数据分析和图像识别。SVM的理论依据是统计学习理论的VC维理论和结构风险最小原理,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力。由于SVM没有对数据的分布进行假设,所以即使没有足够知识去评估分布,SVM也能够表现得很好。SVM不仅可以实现线性分类,还可以使80用核方法来实现非线性分类。在2002年Moghaddam和Yang[16]采用了非线性的SVM实现了性别识别。-3-1.2性别识别的流行学习方法流形表示的是一个局部可以坐标化,即局部为欧几里德,的拓扑空间。流形学习算法的主要假设是数据是在一个高维欧氏空间中采样的,其中存在一个低维流形。由此,流形学习85的目标就是从高维空间中找到低维流形结构,并找到其对应关系,由此来实现维数约简,提取特征。流形学习适用于处理非线性,高阶数据,并且数据中隐含了一个低维流形结构,而这个流形结构也是数据的本质结构。而人脸图像就是一个非线性高维的数据,所以流形学习适用于处理人脸图像,并提取其中的本质流形结构,实现维数约简,特征提取。局部线性嵌入(LLE:LocallyLinearEmbedding)算法就是流形学习算法的一种,属于90局部嵌入法。LLE算法是由Roweis和Saul[17]在2000年提出的。LEE算法的基本假设是数据的结构,在局部意义下,是线性的,即在局部意义下,所有的点都处于一个超平面上。由此,每一点都可以由他的邻点线性表示。LLE算法要求所学习的流形,在局部意义下,是线性的,并且是不闭合的。LLE算法对于采样密度不均匀的样本,处理效果很差。LLE算法是没有内部模型的。在2003年95Donoho[18]等人改进了LLE算法,提出HLLE(HessianLLE)算法,此算法能发现流形上局部的等距映射参数,能够实现比LLE更高的识别率。但是这个算法的计算复杂性较高,不适于计算样本较多的流形。在2004年张长水[19]等人提出了MLLE(ModifiedLLE)算法。此算法采用新的计算全中矩阵的方法,改进了LLE算法。而在2009年Oulu大学的Abdenour[20]等人将LLE算法扩展并用于处理视频中,人脸的性别识别。100拉普拉斯特征映射(LE:LaplacianEigenmaps)算法也是流形学习算法的一种,也是属于局部嵌入法。LE算法是由Mikhail和Partha[21]在2001年提出的。LE算法的基本假设是在高维空间中距离近的点,投射到低维空间的象的距离也很近。而LE算法使用谱图技术进行降维,其局部保持特性,使其对噪声较不敏感,由此可以用于聚类数据。现在常用的保局投影算法(LPP:LocalityPreservingProjections)算法是由芝加哥大学的XiaofeiHe和Partha105Niyogi[9]在2003年提出的,是LE算法的线性逼近。所以LPP算法是一种线性降维方法,但是具有LE的局部保持特性。LPP算法提取的是最有判别性的特征,即选取特征值较小的特征向量。2相关工作2.1张量子空间分析110本文中,将会使用张量子空间分析(TSA)[12]来实现人脸特征提取。下面将详细介绍TSA。给定m维数据矩阵},,,{21mxxxXL=,是从人脸子流形dcRRM⊗∈的样本,每一个ix代表一个视频,可以建立一个最近邻图G,来模拟(model)M的几何结构。令S为G的权重矩阵,S的定义如下:115⎪⎩⎪⎨⎧=−其他;相邻时;与当,0,2jitxxijxxeSji(1)令U和V为变换矩阵。通过解决以下目标函数,可以实现一个变换,来获得图形结构。-4-ijjijTiTVUSVxUVxU.min2,,∑−(2)目的是确定ix和jx相邻,由此VxUiT与VxUjT也相邻。令∑==jijiiiTiSDVxUy,是一个对角矩阵。然后,有:120)()()(21)))(((2121,,,,2,∑∑∑∑∑∑∑−=−=−−+=−−=−jijTiTijiTiTiTiijiTjiijiTiiiiijjiTijTjiTjjTiiijjiTjijiijjijTiTUxVVxUWUxVVxUDtryyWyyDtrWyyyyyyyytrWyyy
本文标题:一种基于流形学习的视频人脸性别识别算法
链接地址:https://www.777doc.com/doc-5013296 .html