您好,欢迎访问三七文档
摘要本文是讨论1994年的“机器学习与计算学习理论”的国际会议上参加会议代表的名字与他所得的徽章的规则问题。对于问题一,为了找出名字与徽章的分类规则。首先,我们将280名代表按照名字首字母分类,找出每类中比较特殊的名字进行研究,假设关键属性。然后,我们将280名代表按照徽章“+”和“-”进行分类、统计,并根据关键属性找出分类规则。这里我们先采用名字的首字母进行分析,通过统计分析,我们发现首字母并不能完全反映我们所要研究的规则。我们继续对名字的第二个字母进行分析,这里我们通过VC++编程得到统计结果。名字的第二个字母在[a,e,o,i,u]范围内,则徽章的种类为“+”,反之,徽章的种类为“-”。对于问题二,我们根据问题一得出的规则,对参加会议的280名代表的名字代入求出正确率为100%。对于问题三,我们根据问题一得出的规则,对未参加会议的14名代表进行了分类,最后只有AttilioGiordana的徽章为“-”,其它代表的徽章都为“+”。一、问题的重述1.1问题的背景在1994年的“机器学习与计算学习理论”的国际会议上,参加会议的280名代表都收到会议组织者发给的一枚徽章,徽章的标记为“+”或“-”(参加会议的名单及得到的徽章见附表)。会议的组织者声明:每位代表得到徽章“+”或“-”的标记只与他们的姓名有关,并希望代表们能够找出徽章“+”与“-”的分类方法。1.2问题:1.请你帮助参加会议的代表找出徽章的分类方法;2.对你的分类方法进行分析,如分类的理由、分类的正确与错误率等;3.由于客观原因,有14名代表(见附表)没能参加此次会议。按照你的方法,如果他们参加会议,他们将得到什么类型的徽章?二、模型的假设1、假设280名代表都是按照同一个发放徽章的标准分配徽章的;2、假设280名代表的徽章都是发放无误的;3、假设每个名字的首字母出现都是随机的;4、假设徽章的分类与性别无关;5、假设不会出现特殊的名字。三、符号说明iname……………………………………会议代表的名字(i=1,2,……,280);iclass…………………………………….名字按首字母分类(i=1,2,……,26);1R…………………………………….满足“+”徽章的字母范围;2R…………………………………….满足“-”徽章的字母范围;ip……………………………………未参加会议的代表的名字(i=1,2,……,14)。四、模型分析、建立与求解针对问题一:4.1、模型分析:问题研究的是名字与徽章的分类规则,英文名分为“Firstname”、“Middlename”和“Lastname”三个部分组成。因为“Middlename”不是所有名字都有或者不止一个,所以,我们先不与考虑。这里我们重点研究“Firstname”和“Lastname”。名字本身的属性大致有:首字母、元音字母(包括单元音和双元音)、辅音字母。这里我们先对“Firstname”的字母进行研究。我们将名字按照首字母进行分类,并对每个类中徽章“+”和“-”分别统计,找出两种徽章数目相差较大的作为特殊数据类(见附录一)。4.2、模型建立:根据附录一中的数据判断,我们发现首字母并不能完全反映我们所要研究的规则。我们继续对“Firstname”中的第二个字母进行研究。我们以D为例:D:(共23个)徽章为“+”的名字+DavidW.Aha+DanaAngluin+DavidCohn+DavidFinton+DavidHaussler+DavidHelmbold+DanielHennessy+DennisF.Kibler+DarkoZupanic+DanielKortenkam+DavidLoewenstern+DavidMathias+DunjaMladenic+DavidMontgomery+DanOblinger+DavidW.Opitz+DavidPierce+DanaRon+DanRoth+DanielL.Silver+DavidB.Skalak+DonnaSlonim徽章为“-”的名字:-DragoIndjic通过用VC++软件编程(附录二)对名字的第二个字母进行统计,得:徽章“+”徽章“-”a、e、or统计结果不存在交叉同理,用VC++软件编程(附录三)对全部26个类得字母进行同样的统计,得:徽章“+”徽章“-”a、e、o、i、uc、d、f、h、l、m、n、r、s、t、v、y、.统计结果不存在交叉所以,我们得出结论,“Firstname”中的第二个字母在[a、e、o、i、u]范围内,即元音字母,则,徽章为“+”,反之,不在范围内的,徽章为“-”。4.3、模型求解:根据以上结论我们得到徽章“+”与名字的第二个字母的关系域为1Ruioe1、、、、aR徽章“-”与名字的第二个字母的关系域为2R、、、、、、、、、、、、yvtsrnmlhfdc2R用iname与关系域1R和2R想与,得:结论一:1Rnamei,发放“+”徽章;结论二:2Rnamei,发放“-”徽章;针对问题二:㈠分类理由:由于英文名字的特性,分为“Firstname”、“Middlename”和“Lastname”三个部分,其中“Firstname”和“Lastname”最重要,所以,我们主要研究这两项。又由于名字本身的特性,分为首字母、元音字母、辅音字母、字长等,我们逐个考虑,最终得到以上结论。⑵正确率:完全正确针对问题三:将14个未参加会议的代表的名字代入模型,得:+MerrickL.Furst+JeanGabrielGanascia+WilliamGasarch+RicardGavalda+MelindaT.Gervasio+YolandaGil+DavidGillman-AttilioGiordana+KateGoelz+PaulW.Goldberg+SallyGoldman+DianaGordon+GeoffreyGordon+JonathanGratch五、模型检验将参加会议的全部代表代入模型,结果iname中满足结论一的名字全部得到“+”徽章;满足结论二的名字全部得到“-”徽章。模型检验无误。六、模型评价及改进6.1、模型优点:该模型采用统计法,找出规则,思路简单易懂,规律性很强。6.2、模型缺点:该模型针对的数据量太小,且考虑了“Firstname”的影响,并找出了结果,280个名字的第二个字母并没有包含全部的26个字母,模型统一的对没在[a,e,o,i,u]范围内的名字都发放“-”徽章,结果存在一定的偶然性。6.3、模型改进:模型可以加入对“Middlename”和“Lastname”的研究,找出更具体,能针对所有名字发放徽章。模型还应考虑对年龄、性别、国籍等因素的考虑,让模型更具体。七、参考文献[1]第三届数学建模论文集(网址:);[2]华大学数学建模蒲俊老师上课课件;[3]静等的数学建模与数学实验(第三版)。附录附录一:(按首字母数据统计表):属性字母首字母出线次数“+”次数“-”次数特例(1表示)A142121B1165C163131D232211E8171F431G862H8801I101J302731K972L131121M323111N101001O202P1394Q000R191721S24816T16106U101V220W10911X110Y4401Z101总数28019787附录二:#includeiostream#includestring.husingnamespacestd;voidmain(){charname[22][20]={DavidW.Aha,DanaAngluin,DavidCohn,DavidFinton,DavidHaussler,DavidHelmbold,DanielHennessy,DennisF.Kibler,DanielKortenkam,DavidLoewenstern,DavidMathias,DunjaMladenic,DavidMontgomery,DanOblinger,DavidW.Opitz,DavidPierce,DanaRon,DanRoth,DanielL.Silver,DavidB.Skalak,DonnaSlonim,DarkoZupanic};for(inti=0;i21;i++)coutname[i][1]endl;}附录三:#includeiostream#includestring.husingnamespacestd;voidmain(){charname[197][30]={//“+”和“-”的数据分开输入AaronFeigelson,AuroraPerez,BirBhanu,BillByrne,BobEvans,BalaKalyanasundaram,BarakA.Pearlmutter,BernhardPfahringer,CarlaE.Brodley,CarlH.Smith,CullenSchaffer,DavidW.Aha,DanaAngluin,DavidCohn,DavidFinton,DavidHaussler,DavidHelmbold,DanielHennessy,DennisF.Kibler,DanielKortenkam,DavidLoewenstern,DavidMathias,DunjaMladenic,DavidMontgomery,DanOblinger,DavidW.Opitz,DavidPierce,DanaRon,DanRoth,DanielL.Silver,DavidB.Skalak,DonnaSlonim,DarkoZupanic,EarlS.HarrisJr.,FilippoNeri,FernandoPereira,FosterJ.Provost,GeorgeBerg,GeraldF.DeJong,GeorgeA.Drastal,GeorgeH.John,GaryM.Selzer,GaryWeiss,HaralabosAthanassiou,HarrisDrucker,HalDuncan,HaymHirsh,HiroshiMotoda,HuwRoberts,HiroshiTanaka,HollyYanco,JavedAslam,JoseL.Balcazar,JustinBoyan,JohnCase,JasonCatlett,JefferyClouse,JohnFischer,JudyA.Franklin,JohannesFurnkranz,JonathanHodgson,JiarongHong,JeffJackson,Jorg-UweKietz,JohanneMorin,JosephO'Sullivan,Jong-HoonOh,JingPeng,JohnRachlin,JoelRatsaby,JustinianRosca,JohnR.Rose,JamesS.Royer,JudeShavlik,JoeSuzuki,JanuszWnek,JohnM.Zelle,Jean-DanielZucker,KamalM.Ali,KanDeng,KazushiIkeda,KenLang,KimmenSjolander,KarstenVerbeurgt,KenjiYamanishi,LarsAsker,LindleyDarden,LanceFortnow,LeslieGrate,LisaHellerstein,LesliePackKaelbling,Long-JiLin,LeonardPitt,LorienY.Pratt,LanceRiley,LorenzaSaitta,MinoruAsada,MichaelW.Barley,MaliniBhandaru,MarkChangizi,MarkW.Craven,MichaeldelaMaza,Michael
本文标题:徽章问题论文
链接地址:https://www.777doc.com/doc-6153107 .html