您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 资本运营 > SIFT-chris
要完成的工作和主要实现步骤SIFT+BoW+SVM(主要是SIFT)缺陷、现有改进和一些想法图像分类:识别图像中物体,从而将图像归类模式识别:样本→训练/分类图像分类:图像→特征集→固定维数的样本→训练/分类›①提取特征:关键点(SIFT,SURF,PCA-SIFT)/纹理/轮廊等›②编码:BoW,SPM,ScSPM等›③训练/分类:SVM,NaïveBayes等SIFT:特征提取›从原图中找到多个关键点,统计关键点领域图像信息,对每个区域生成128维的特征描述子BoW(词袋模型):编码›将从多幅图中提取的特征集聚类,得到具有代表性的特征描述子作为“视觉单词”›每幅图片可由其中出现各个视觉单词的“频率”得到一张直方图,从而可表示为一个固定维数的“样本”,样本维数就等于视觉词典的单词数。SVM:模式识别(训练/分类)›“图片→样本”之后就可以用于模式识别中的训练和分类。在“BagsofKeypoints”论文中比较了SVM和NaïveBayes的方法后发现SVM效果更好,因而它采用SVM方法进行分类简介:检测出图像中的局部特征点,并生成描述子的一种算法优点:尺度、旋转不变性,一定程度的光照、仿射、模糊不变性改进:PCA-SIFT,SURF,GLOH等①由原图产生高斯差(DoG)图像金字塔②找到极值点,精确定位和进一步筛选极值点(特征点)③统计特征点周围像素信息,生成描述子SIFT本质是要检测什么样的特征点?›斑点检测SIFT本质是要检测什么样的特征点?›高斯拉普拉斯(LoG)——卷积核高斯拉普拉斯(LoG)›拉普拉斯算子:›3x3卷积核:›缺点:对噪声很敏感›为了降低噪声影响,先用参数(宽度)为σ的高斯函数对原图平滑,然后再进行拉普拉斯边缘检测尺度空间L(x,y,σ)›L(x,y,σ)对x,y,σ三个变量的极值点高斯差金字塔DoG近似LoG›用高斯差作为核与原图卷积,等价于先求两幅高斯平滑的图像,再作差。得到离散的D(x,y,i)高斯差金字塔DoG在DoG中求极值点›类比于在L(x,y,σ)中求对x,y,σ的极值点,从而找到斑点位置细节一:DoG各层图像怎么求?细节二:为什么是S+3层?什么是检测到极值点的尺度连续性?流程:›粗略寻找极值点›精确插值定位极值点›去掉低对比度和边缘响应的极值点,筛选得到最终的极值点(特征点)集合粗略寻找极值点›与周围26个点比较,找出极值点计算插值,精确定位极值点›𝐷𝑥=𝐷+𝜕𝐷𝑇𝜕𝑥𝑥+12𝑥𝑇𝜕2𝐷𝜕2𝑥2𝑥›令D’(x)=0,得到𝑥=−𝜕2𝐷𝜕2𝑥2−1𝜕𝐷𝑇𝜕𝑥去除低对比度的点›𝐷𝑥=𝐷+12𝜕𝐷𝑇𝜕𝑥𝑥›𝐷𝑥0.03,认为对比度太低,去除去除边缘上的点›图像中的点:平坦处的点,边缘上的点,角点›平坦点与角点的两个主曲率差别较小,而边缘点差别较大去除边缘上的点›Hessian矩阵:𝐻=𝐷𝑥𝑥𝐷𝑥𝑦𝐷𝑦𝑥𝐷𝑦𝑦›Hessian矩阵的两个特征值,与该点处两个主曲率大小成正比。于是可以用Hessian矩阵特征值的比值(𝜆𝑚𝑎𝑥𝜆𝑚𝑖𝑛)来表示两个主曲率的比值,超过某阈值就认为是边缘上的点,去除完整流程:以上就完成了从寻找极值点,到精确定位,再到进一步筛选的全过程。得到了最终的极值点(x,y,σ)集合下一步就是在这些极值点(特征点)附近的区域统计像素点特征,生成描述子要求一:保证旋转不变性›方法:首先统计特征点领域图像的主梯度方向,然后将描述子“计算窗口”旋转到这个主梯度方向,在这个旋转后的框里去划分区域并计算描述子要求二:保证光照不变性›方法:将描述子归一化›描述子统计的是领域图像的梯度信息。不同光照条件下,梯度的值可能不同,但相同物体的各个部分梯度的比例是大致相同的,那么归一化描述子后,光照影响就能被大大减小寻找主梯度方向›在极值点附近宽度为d的框内统计各个像素点梯度的方向和模值›d=k*σ_octv,其中σ_octv表示组内尺度›用直方图统计角度在0°~360°的梯度模值加权(高斯权)和,每10°一个柱,总共36个柱›直方图中的峰值就是主方向,其它达到最大值的80%(且高于左右两边的值)的方向,作为辅助方向再生成一个特征寻找主梯度方向›细节一:在寻找主方向时先对直方图进行高斯平滑(滤波核:[0.25,0.5,0.25]),以弥补因没有仿射不变性而产生的特征点不稳定的问题›细节二:对直方图插值,以精确定位主梯度方向bin=interp_hist_peak(hist[l],hist[i],hist[r])#defineinterp_hist_peak(l,c,r)(0.5*((l)-(r))/((l)-2.0*(c)+(r))计算4x4x8的梯度直方图›将坐标轴旋转为关键点的主梯度方向,以确保旋转不变性›确定半径为radius的计算窗口,将窗口划分为4x4块。其中radius与该点所在层的组内尺度成正比›360度每45度一个范围,在每个区域,统计各个像素的梯度落在每个角度范围的模值的高斯加权和计算4x4x8的梯度直方图归一化描述子›在求出4*4*8的128维特征向量后,此时SIFT特征向量已经去除了尺度变化、旋转等几何变形因素的影响›而图像的对比度变化相当于给每个像素点乘上一个因子,光照变化则是给每个像素点加上一个值,但这些对图像归一化的梯度没有影响。因此将特征向量的长度归一化,则可以进一步去除光照变化的影响归一化描述子›对于一些非线性的光照变化,SIFT并不具备不变性,但由于这类变化影响的主要是梯度的幅值变化,对梯度的方向影响较小,因此作者通过限制梯度幅值的值来减少这类变化造成的影响归一化描述子›细节:归一化之后,将所有值大于0.2的值规定为0.2,然后再进行一次归一化›目的:通过限制梯度幅值,来减少非线性的光照变化带来的影响到此为止,就完成了“图像→特征集(描述子集合)”的全过程›①生成高斯和高斯差图像金字塔›②找到极值点,精确定位,去除边缘响应›③确定极值点主方向,旋转坐标轴后统计领域梯度,生成描述子下一步是编码:“特征集→等维度样本”用于图像分类的基本流程:›将所有图像(不分类别)的全部特征集采用k-means聚类,得到k个聚类中心(k是单词个数,人为指定)›认为这k个聚类中心代表各类图像中最常出现且最有可分性的视觉单词›每幅图像根据其特征集落在各个视觉单词的情况,得到一张视觉单词直方图,亦即“词袋”›这个k维的“词袋”就作为代表图像的样本,可用来训练分类器或者分类将BoW得到的每个样本(词袋)标记为图像的类别,然后训练SVM分类器,进而可对新样本进行分类针对SIFT速度:PCA-SIFT,SURF等针对特征类型:纹理、区域(Recognitionofregion等)针对编码方式:SPM,ScSPM等(介于BoW没有考虑空间信息)BoW在k-means聚类的时候将“所有图像的全部特征”拿去聚类›这样会有很多的噪声信息,影响分类性能›应该只选择与类别相关的特征›这些特征是在这类图像中频繁出现的,那么问题关键在于,只选择该类图像特征集中,最稠密的那些特征拿去聚类›想法①:mean-shift均值漂移思想›想法②:多高斯模型,截取宽度在kσ以内的特征点。或者直接拿多高斯均值和方差作为样本去聚类
本文标题:SIFT-chris
链接地址:https://www.777doc.com/doc-2858516 .html