您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 综合/其它 > 用身高和体重数据进行性别分类的实验报告
实验一用身高和/或体重数据进行性别分类姓名:学号:姓名:学号:一、实验目的1)加深对Bayes分类器原理的理解和认识2)掌握Bayes分类器的设计方法二、实验内容1)用FAMALE.TXT和MALE.TXT的数据作为训练样本集,建立Bayes分类器;2)用测试样本数据test2.txt对该分类器进行测试;3)调整特征、分类器等方面的一些因素,考察它们对分类器性能的影响,从而加深对所学内容的理解和感性认识。三、实验步骤1)应用单个特征进行实验:以(a)身高或者(b)体重数据作为特征,在正态分布假设下利用最大似然法或者贝叶斯估计法估计分布密度参数,建立最小错误率Bayes分类器,写出得到的决策规则,将该分类器应用到测试样本,考察测试错误情况.在分类器设计时可以考察采用不同先验概率(如0.5对0.5,0.75对0.25,0.9对0.1等)进行实验,考察对决策规则和错误率的影响;2)用两个特征进行实验:同时采用身高和体重数据作为特征,分别假设二者相关或不相关,在正态分布假设下估计概率密度,建立最小错误率Bayes分类器,写出得到的决策规则,将该分类器应用到训练/测试样本,考察训练/测试错误情况。比较相关假设和不相关假设下结果的差异。在分类器设计时可以考察采用不同先验概率(如0.5vs.0.5,0.75vs.0.25,0.9vs.0.1等)进行实验,考察对决策和错误率的影响;3)自行给出一个决策表,采用最小风险的Bayes决策重复上面的某个或全部实验。四、原理简述、程序流程图及相应结果(一)、实验一在正态分布假设下,利用最大似然法估计分布密度函数,具体过程如下:1、原理(1)、一维情况:n=1对于每个学习样本只有一个特征(取身高为特征)的简单情况:21211,221211log(|)log(2)22ikkPXX111121log(|)()0NNikkkkPXX212112221()log(|)[]022NNkikkkXPX1111NkkXN——学习样本的算术平均222111NkkXN——样本方差的最大似然估计(2)、最小错误率Bayes分类器多元正态概率型下的最小错误率贝叶斯判别函数(一般情况)。判别函数:1011()()()lnln()22TiiiiiiTTiiigxxxpxWxwxw111{,()()}2iiiiiWnnwn矩阵维列向量1011lnln()22TiiiiiiwP决策规则:001()maxTTiiiiTTjjjijmgxxWxwxwxWxwxwx2、具体步骤如下A).算出各类别特征值的均值B).求出特征值的协方差矩阵C).将第二步所得矩阵代入判别函数)(1xg、)(2xgD).将待测试样本集数据依次代入)(1xg—)(2xg,若)(1xg—)(2xg0,则判断其为第一类,反之为第二类。3、流程图(5)实验结果及分析表1.只考虑身高的不同先验概率下男女判错统计表女生先验概率P(1)男生先验概率P(2)训练样本判错个数N1训练样本错误率Η1测试样本1判错个数N2测试样本1错误率Η2测试样本2判错个数N3测试样本2错误率Η30.50.51616%411.5%6622%0.250.751414%38.5%3210.7%0.10.91414%25.7%279%由表可知:对于训练样本,当女生先验概率为0.25或0.1时,判别错误率最小;对于测试样本,当女生先验概率为0.1时,测试样本1判别错误率最小;为0.1时,测试样本2判别错误率最小;最大似然法求出均值与协方差分别代入判别函数确定特征及先验概率第一类第二类YN表2.只考虑体重的不同先验概率下男女判错统计表女生先验概率P(1)男生先验概率P(2)训练样本判错个数N1训练样本错误率Η1测试样本1判错个数N2测试样本1错误率Η2测试样本2判错个数N3测试样本2错误率Η30.50.51616%823%8127%0.250.751515%514.3%4214%0.10.91212%38.5%5317.7%由表可知:对于训练样本,当女生先验概率为0.1时,判别错误率最小;对于测试样本,当女生先验概率为0.1时,测试样本1判别错误率最小;为0.25时,测试样本2判别错误率最小;故可推测用最大似然估计对只考虑单特征的错误率进行计算时,先验概率越高,被判别的错误率越小;且所选取的特征对错误率也有一定影响,其影响取决于训练样本数据与测试样本数据的特征差异。(二)、实验二1、原理正态分布的监督参数估计:样品所属的类别及类条件总体概率密度函数的形式为已知,而表征概率密度函数的某些参数是未知的。本实验符合上述条件且在正态分布假设下估计分布密度参数故使用正态分布的监督参数估计(1)、对于多元正态分别,其最大似然估计的结果为:11ˆNKKXn11ˆˆˆNTKKKXXN(2)、最小错误率Bayes分类器A)、判别函数:a.假设身高体重不相关令协方差矩阵次对角元素为零,判别函数可简化为:0TTiiiigxxWxwxw其中,112iiW,1iiw101122iTiiiiwuuInInPb.假设身高体重相关判别函数可简化为:0TTiiiigxxWxwxw其中,112iiW,1iiw101122iTiiiiwuuInInPB)决策规则:001()maxTTiiiiTTjjjijmgxxWxwxwxWxwxwx2、具体步骤:a.算出各类别特征值的均值b.求出特征值的协方差矩阵c.将第二步所得矩阵代入判别函数)(1xg、)(2xgd.将待测试样本集数据依次代入)(1xg—)(2xg,若)(1xg—)(2xg0,则判断其为第一类,反之为第二类。3、程序流程图4、实验结果及分析A)假设身高与体重相关(以训练样本建立判别函数)表3.身高和体重相关情况下男女判错统计表女生先验概率P(1)男生先验概率P(2)训练样本判错个数N1训练样本错误率Η1测试样本1判错个数N2测试样本错误率Η2测试样本2判错个数N3测试样本错误率Η30.50.51212%12.9%3210.7%0.250.751616%38.6%144.7%0.10.92424%411.4%175.7%由表可知:对于训练样本,当女生先验概率为0.5时,判别错误率最小;对于测试样本,当女生先验概率为0.5时,测试样本1判别错误率最小;为0.25时,测试样本2判别错误率最小;故可推测用最小错误率Bayes决策假设身高与体重相关当女生先验概率等于待测样本中女生样本占待测样本的概率时,错误率最小,且越远离此概率,错误率越大。最佳决策:当女生先验概率为0.5时,判别错误率较小。最大似然法求出均值与协方差分别代入判别函数确定特征及先验概率第一类第二类YNB)假设身高与体重不相关(以训练样本建立判别函数)表4.身高和体重不相关情况下男女判错统计表女生的先验概率P(1)男生的先验概率P(2)训练样本判错的个数N1训练样本的错误率Η1测试样本1判错的个数N2测试样本的错误率Η2测试样本2判错的个数N3测试样本的错误率Η30.50.51212%12.9%299.7%0.250.751414%12.9%196.3%0.10.91919%38.6%165.3%由表可知:对于训练样本,当女生先验概率为0.5时,判别错误率最小;对于测试样本,当女生先验概率为0.25或0.5时,测试样本1判别错误率最小;为0.1时,测试样本2判别错误率最小;故可推测用最小错误率Bayes决策假设身高与体重不相关时当女生先验概率等于待测样本中女生样本占待测样本的概率时,错误率最小,且越远离此概率,错误率越大。最佳决策:当女生先验概率为0.25时,判别错误率总体来说较小。(三)、实验三1、原理(1)在已知先验概率jP和类条件概率密度jPx,j=1,…,c及给出带识别的x的情况下,根据Bayes公式计算后验概率:1,1,,cjjjciiiPxPPxjPxP…其中先验概率jP根据自行输入。(2)利用后验概率及决策表,计算条件风险iRax:1,1,2,,ciijjiRxPxia…(3)1,,minkiiaRaxRax,ka就是最小风险Bayes决策。(4)类条件概率密度:jPx=112211exp()22TdPxxuxu本实验为二维二类,故d=2,(2)中决策表自行输入(如下表)。女生男生判为女生04判为男生302、程序流程图3、实验结果及分析假设身高与体重相关,则:表5.身高和体重相关情况下男女判错统计表女生的先验概率P(1)男生的先验概率P(2)训练样本判错的个数N1训练样本的错误率Η1测试样本1判错的个数N2测试样本的错误率Η2测试样本2判错的个数N3测试样本的错误率Η30.50.53131%514.3%8026.7%0.250.754444%12.9%4615.3%0.10.95757%25.7%279%求出类条件概率密度求出后验概率建立风险决策表代入风险决策公式比较大小选出最小风险决策决策损失状态由表可知:对于训练样本,当女生先验概率为0.5时,判别错误率最小;对于测试样本,当女生先验概率为0.25时,测试样本1判别错误率最小;为0.1时,测试样本2判别错误率最小;故可推测用最小风险决策假设身高与体重相关当女生先验概率等于0.25时有最小风险决策。五、心得与体会本次大作业我们首先对之前学过的知识复习一下,加深对贝叶斯最小错误率的理解。对于最大似然估计法,虽然老师上课有专门讲解过,但是具体操作的时候还是概念不太清晰,为此我们参考网络已有的资料又重新学习了一下,在先验概率的选择方面,我们之前选择的男生先验概率为0.5,虽然十分接近正常情况下的男女比例,但是我们得到的结果错误率较大,我们认为可能原因是我们的贝叶斯决策规则采用基于类条件概率密度函数:(1122gxpxwpwpxwpw),这种决策规则在采用0.5的先验概率的情况下,很大程度上依赖于概率密度函数。最后经过讨论我们决定采用不同的先验概率进行对比。整个作业过程中程序仍然是大问题,我们不断的对程序进行修改,时间主要耗费在程序编写与数据的分析。最后还是依靠大家一起合作,顺利完成了此次作业。六、附录实验Matlab源代码:clearall;loadFEMALE.txt;loadMALE.txt;fid=fopen('test1.txt','r');test1=fscanf(fid,'%f%f%c',[3,inf]);test=test1';fclose(fid);Fmean=mean(FEMALE);Mmean=mean(MALE);Fvar=std(FEMALE);Mvar=std(MALE);preM=0.5;preF=0.5;error=0;Nerror=0;DFF=0;DMM=0;DFM=1;DMF=1;error=0;Nerror=0;figure;fori=1:35PFheight=normpdf(test(i,1),Fmean(1,1),Fvar(1,1));PMheight=normpdf(test(i,1),Mmean(1,1),Mvar(1,1));p=(DFF*PFheight+DFM*PMheight)-(DMF*PFheight+DMM*PMheight);if(p0)plot(i,test(i,1),'r+');if(test(i,3)==109)Nerror=Nerror+1;end;elseplot(i,test(i,1),'k*');if(test(i,3)==102)
本文标题:用身高和体重数据进行性别分类的实验报告
链接地址:https://www.777doc.com/doc-1765135 .html