您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 《模式识别》实验报告-贝叶斯分类
模式识别实验报告西安交通大学高海南1《模式识别》实验报告---最小错误率贝叶斯决策分类一、实验原理对于具有多个特征参数的样本(如本实验的iris数据样本有4d个参数),其正态分布的概率密度函数可定义为112211()exp()()2(2)Tdpxxμxμ式中,12,,,dxxxx是d维行向量,12,,,dμ是d维行向量,是dd维协方差矩阵,1是的逆矩阵,是的行列式。本实验我们采用最小错误率的贝叶斯决策,使用如下的函数作为判别函数()(|)(),1,2,3iiigpPixx(3个类别)其中()iP为类别i发生的先验概率,(|)ipx为类别i的类条件概率密度函数。由其判决规则,如果使()()ijggxx对一切ji成立,则将x归为i类。我们根据假设:类别i,i=1,2,……,N的类条件概率密度函数(|)ipx,i=1,2,……,N服从正态分布,即有(|)ipx~(,)iiNμ,那么上式就可以写为1122()1()exp()(),1,2,32(2)TiidPgixx-μx-μ对上式右端取对数,可得111()()()ln()lnln(2)222TiiiidgPiixx-μx-μ上式中的第二项与样本所属类别无关,将其从判别函数中消去,不会改变分类结果。则判别函数()igx可简化为以下形式111()()()ln()ln22TiiiigPiixx-μx-μ模式识别实验报告西安交通大学高海南2二、实验步骤(1)从Iris.txt文件中读取估计参数用的样本,每一类样本抽出前40个,分别求其均值,公式如下11,2,3iiiiiNxμxclear%原始数据导入iris=load('C:\MATLAB7\work\模式识别\iris.txt');N=40;%每组取N=40个样本%求第一类样本均值fori=1:Nforj=1:4w1(i,j)=iris(i,j+1);endendsumx1=sum(w1,1);fori=1:4meanx1(1,i)=sumx1(1,i)/N;end%求第二类样本均值fori=1:Nforj=1:4w2(i,j)=iris(i+50,j+1);endendsumx2=sum(w2,1);fori=1:4meanx2(1,i)=sumx2(1,i)/N;end%求第三类样本均值fori=1:Nforj=1:4w3(i,j)=iris(i+100,j+1);endendsumx3=sum(w3,1);fori=1:4meanx3(1,i)=sumx3(1,i)/N;end(2)求每一类样本的协方差矩阵、逆矩阵1i以及协方差矩阵的行列式i,协方差矩阵计算公式如下11()(),1,2,3,41iiiNijkljjlkklixxjkN其中ljx代表i类的第l个样本,第j个特征值;ij代表i类的iN个样品第j个特征的平均值lkx代表i类的第l个样品,第k个特征值;iwk代表i类的iN个样品第k个特征的平均值。模式识别实验报告西安交通大学高海南3%求第一类样本协方差矩阵z1(4,4)=0;var1(4,4)=0;fori=1:4forj=1:4fork=1:Nz1(i,j)=z1(i,j)+(w1(k,i)-meanx1(1,i))*(w1(k,j)-meanx1(1,j));endvar1(i,j)=z1(i,j)/(N-1);endend%求第二类样本协方差矩阵z2(4,4)=0;var2(4,4)=0;fori=1:4forj=1:4fork=1:Nz2(i,j)=z2(i,j)+(w2(k,i)-meanx2(1,i))*(w2(k,j)-meanx2(1,j));endar2(i,j)=z2(i,j)/(N-1);endend%求第三类样本协方差矩阵z3(4,4)=0;var3(4,4)=0;fori=1:4forj=1:4fork=1:Nz3(i,j)=z3(i,j)+(w3(k,i)-meanx3(1,i))*(w3(k,j)-meanx3(1,j));endvar3(i,j)=z3(i,j)/(N-1);endend%求各类的协方差矩阵逆矩阵及行列式var1_inv=[];var1_det=[];var2_inv=[];var2_det=[];var3_inv=[];var3_det=[];var1_inv=inv(var1)var2_inv=inv(var2)var3_inv=inv(var3)var1_det=det(var1)var2_det=det(var2)var3_det=det(var3)(3)对三个类别,分别取每组剩下的10个样本,每两组进行分类。由于每一类样本都相等,且每一类选取用作训练的样本也相等,在每两组进行分类时,待分类样本的类先验概率()0.5iP。将各个样本代入判别函数111()()()ln()ln22TiiiigPiixx-μx-μ根据判决规则,如果使()()ijggxx对一切ji成立,则将x归为i类。若取第一类后10个数据和第二类进行分类,代码如下M=10;fori=1:Mforj=1:4test(i,j)=iris(i+50,j+1);%取测试数据endendt1=0;t2=0;t3=0;fori=1:Mx=test(i,1);y=test(i,2);模式识别实验报告西安交通大学高海南4z=test(i,3);h=test(i,4);g1=(-0.5)*([x,y,z,h]-meanx1)*var1_inv*([x,y,z,h]'-meanx1')-0.5*log(abs(var1_det))+log(p1);g2=(-0.5)*([x,y,z,h]-meanx2)*var2_inv*([x,y,z,h]'-meanx2')-0.5*log(abs(var2_det))+log(p2);ifg1g2t1=t1+1%若g1g2,则属于第一类,否则属于第二类,并统计属于每一类的个数elset2=t2+1endend同理第二类和第三类、第一类和第三类可进行分类。三、实验结果及分析(1)取第一类样本的后10个数据,按1、2分类,由t1=10可知,此10个数据属于1,分类正确;同理,按1、3分类,由t1=10可知,此10个数据属于1,分类正确。(2)取第二类样本的后10个数据,按1、2分类,由t2=10可知,此10个数据属于2,分类正确;同理,按2、3分类,由t2=10可知,此10个数据属于2,分类正确。(3)取第三类样本的后10个数据,按1、3分类,由t3=10可知,此10个数据属于2,分类正确;同理,按2、3分类,由t3=10可知,此10个数据属于3,分类正确。(4)表1为1、2、3的样本类的均值。表1三类样本均值x1x2x3x41类5.03753.45251.460.2352类6.012.784.31751.353类6.62252.965.60751.99由上表可知,对于1、2、3三个类样本,它们的第二个特征均值x2相特征类别模式识别实验报告西安交通大学高海南5差不大,对于分类取得作用不如其他3个特征作用大,因此我们略去第二个特征,在三维坐标空间画出降为3维主特征的3类样本点的空间分布,如图1所示图1去掉第二维特征的三类样本空间位置上图中,“*”为1类,“+”为2类,“□”为3类,显然1类和2类以及3类特征差异比较明显,而2类与3类差异较小,对于位于2、3类类间分解面附近的样本,使用最小错误率贝叶斯决策时,可能会出现错分情况。在实验中,我们对2类50个样本分类,结果为t2=48,t3=2,错分2个到3类;对3类50个样本分类,结果为t2=0,t3=50,分类正确。附:iris数据模式识别实验报告西安交通大学高海南615.13.51.40.224.93.01.40.234.73.21.30.244.63.11.50.255.03.61.40.265.43.91.70.474.63.41.40.385.03.41.50.294.42.91.40.2104.93.11.50.1115.43.71.50.2124.83.41.60.2134.83.01.40.1144.33.01.10.1155.84.01.20.2165.74.41.50.4175.43.91.30.4185.13.51.40.3195.73.81.70.3205.13.81.50.3215.43.41.70.2225.13.71.50.4234.63.61.00.2245.13.31.70.5254.83.41.90.2265.03.01.60.2275.03.41.60.4285.23.51.50.2295.23.41.40.2304.73.21.60.2314.83.11.60.2325.43.41.50.4335.24.11.50.1345.54.21.40.2354.93.11.50.2365.03.21.20.2375.53.51.30.2384.93.61.40.1394.43.01.30.2405.13.41.50.2415.03.51.30.3424.52.31.30.3434.43.21.30.2445.03.51.60.6455.13.81.90.4464.83.01.40.3475.13.81.60.2484.63.21.40.2495.33.71.50.2505.03.31.40.2517.03.24.71.4526.43.24.51.5536.93.14.91.5545.52.34.01.3556.52.84.61.5565.72.84.51.3576.33.34.71.6584.92.43.31.0596.62.94.61.3605.22.73.91.4615.02.03.51.0625.93.04.21.5636.02.24.01.0646.12.94.71.4655.62.93.61.3666.73.14.41.4675.63.04.51.5685.82.74.11.0696.22.24.51.5705.62.53.91.1715.93.24.81.8726.12.84.01.3736.32.54.91.5746.12.84.71.2756.42.94.31.3766.63.04.41.4776.82.84.81.4786.73.05.01.7796.02.94.51.5805.72.63.51.0815.52.43.81.1825.52.43.71.0835.82.73.91.2846.02.75.11.6855.43.04.51.5866.03.44.51.6876.73.14.71.5886.32.34.41.3895.634.11.3905.52.54.01.3915.52.64.41.2926.13.04.61.4935.82.64.01.2945.02.33.31.0955.62.74.21.3965.73.04.21.2975.72.94.21.3986.22.94.31.3995.12.53.01.11005.72.84.11.31016.33.36.02.51025.82.75.11.91037.13.05.92.11046.32.95.61.81056.53.05.82.21067.63.06.62.11074.92.54.51.71087.32.96.31.81096.72.55.81.81107.23.66.12.51116.53.25.12.01126.42.75.31.91136.83.05.52.11145.72.55.02.01155.82.85.12.41166.43.25.32.31176.53.05.51.81187
本文标题:《模式识别》实验报告-贝叶斯分类
链接地址:https://www.777doc.com/doc-7819131 .html