您好,欢迎访问三七文档
2011/9/201模式识别Pattern Recognitiong教师信息主讲教师:白刚办公电话:23500132办公地点:伯苓楼2‐306电邮地址:baigang@nankai.edu.cn信息发布:课程信息授课内容、作业和有关信息将在信息学院教学网站和课程网站上发布,以便同学们下载学习;课堂上采用交互式的教学方式——问与答;课堂上采用交互式的教学方式问与答;课下要求同学们认真预习和复习,阅读参考书和学术研究文章;每周安排固定的答疑时间。课程成绩课程作业——30%按时完成。鼓励同学们互相讨论,但是必须独立完成作业。抄袭各方均为零分。完成作抄袭各方为零分课程设计——30%包括原始目标、阶段报告、最终报告和成果展示。以小组的形式完成。期末考试——40%闭卷考试,涉及授课的全部内容。2011/9/203课程作业要求课程作业应该在截止日期之前完成并提交,迟交的课程作业将降低相应的分数;课程作业的文件格式应该为DOC或PDF文件;课程作业的文件格式应该为DOC或PDF文件;编程语言使用MATLAB或C语言,可执行文件格式为EXE文件,提交时以压缩文件格式(包括必要的数据文件)提供。课程作业必须独立完成,鼓励同学之间互相讨论。课程作业成绩算法描述——50%对程序代码和处理结果的描述——40%90%以上的分数取决于作者的创造性作业总得分占课程总评成绩的30%2011/9/204课程设计要求课程设计在期末考试之前完成并提交,迟交的课程设计将降低相应得分;课程设计文件的格式为DOC或PDF;课程设计文件的格式为DOC或PDF;所需编程语言使用MATLAB或C语言,可执行文件格式为EXE文件,提交时以压缩文件格式(包括必要的数据文件)提供;鼓励课程设计内容在国内外学术会议、刊物上公开发表,提供有关证明的课程设计将提高相应得分。课程设计以小组形式共同完成,严禁抄袭!课程设计成绩研究现状描述(20%)基本原理(20%)基本算法(30%)结论验证与评价(20%)内容难度和创造性(10%)课程设计得分占课程总评成绩的30%2011/9/205参考书Richard O. Duda, Peter E. Hart and David G. Stork, Pattern Classification, 2ndEdition, John Wiley, 2001SergiosTheodoridisandKonstantinosKoutroumbasSergiosTheodoridisand KonstantinosKoutroumbas, Pattern Recognition, 2ndEdition, Elsevier Science, 2003Morton Nadler and Eric P. Smith, Pattern Recognition Engineering, John Wiley & Song Inc., 1993杨光正等编著,《模式识别》,中国科学技术大学出版社,2001孙即祥等编著,《现代模式识别》,国防科技大学出版社,2001学术刊物IEEE Transaction on Pattern Analysis and Machine Intelligence (PAMI)PatternRecognitionPattern RecognitionPattern Recognition and ApplicationsPattern Recognition Letters中国图形图像学报模式识别与人工智能自动化学报2011/9/206什么是模式识别?“The assignment of a physical object or eventto one of several pre‐specified categories” –Dudaand Hart“Aproblemofestimatingdensityfunctionsinahigh‐A problem of estimating density functions in a high‐dimensional spaceand dividing the space into the regions of categories or classes” –Fukunaga“Given some examples of complex signalsand the correct decisionsfor them, make decisions automaticallyforastreamoffutureexamples”Ripleyautomatically for a stream of future examples –Ripley“The science that concerns the description or classification(recognition) of measurements” –Schalkoff什么是模式识别?“The process of giving names ωto observations x” –SchürmannPatternRecognitionisconcernedwithansweringthePattern Recognition is concerned with answering the question “What is this?”–Morse2011/9/207模式识别模式识别(PR)是解决机器智能问题的一种工具。模式识别是对测量量进行描述或者分类/识别的一门科学科学。模式识别的相关方法统计模式识别句法或结构模式识别神经网络神经网络支持向量机……模式识别应用2011/9/208字符识别输入模式:图像输出类别:字符手写地址解释系统数字化2011/9/209手写地址解释系统地址块定位手写地址解释系统地址抽取2011/9/2010手写地址解释系统二值化手写地址解释系统线分离2011/9/2011手写地址解释系统地址分解手写地址解释系统识别:州缩写识别2011/9/2012手写地址解释系统识别:邮政编码识别手写地址解释系统识别:街道号码识别2011/9/2013手写地址解释系统街道名称识别手写地址解释系统递送点代码2011/9/2014手写地址解释系统条形码译码语音识别输入模式:语音波形输出类别:口语单词2011/9/2015指纹鉴别输入模式:指纹图像输出类别:真实的/伪造的签名鉴别输入模式:签名的点序列输出类别:真实的/伪造的2011/9/2016面部测定输入模式:图像输出类别:面部/非面部文本分类输入模式:HTML文本输出类别:主题分类2011/9/2017金融预测输入模式:股票价格的时间序列输出类别:有风险的/无风险的入侵检测输入模式:网络流量数据输出类别:正常的/入侵类型的2011/9/2018术语模式(pattern)由确定的和随机的成分组成的物体、过程和事件;由确定的和随机的因素影响的动态变化。件;由确定的和随机的因素影响的动态变化模式类(pattern class)共享一组共同属性(或特征)的模式集合,通常具有相同的来源。特征(feature)一种模式区别于另一种模式的相应(本质)特点或特性;通过测量和/或处理能够抽取的数据。分类(classification)根据特征将模式确定为不同的模式类。术语识别(recognition)分类模式的能力——正确分类与错误分类。误差(errors)误差(errors)模糊矩阵。噪音(noise)与模式处理(特征抽取中的误差)和/或训练样本联合的失真,它对系统的分类能力(如识别)产生影响。2011/9/2019一般性问题已知一个从样本模式中抽取的输入特征集合(或输入矢量):xxxX寻找一个根据预定义标准与输入特征匹配的相应特性集合(输出矢量):n21xxxX,,,m21yyyY,,,假设:训练样本集合已经“教授”识别系统如何将输入矢量映射为输出矢量。一般性问题分类(classification)学习(learning or training)2011/9/2020决策边界我们如何来区分宠物呢?假如我们基于它们的身长来分类,那么身长就是我们的分类特征。长)P(动物|身长分类器,决策边界分类器将特征空间分成标记为类别的决策区域;对于唯一的分类结果,这些区域必须覆盖整个特征空间且不相交;空间且不相交;每个区域的边缘称为决策边界(不容易发现);分类策略是简单的:根据决策区域的类别分类特征矢量。2011/9/2021模式识别实例模式识别实例问题:使用光学传感器将传送带上的鱼根据种类进行分拣。解决方案:解决方案:预处理:对来自传感器的原始图像数据进行预处理分割:分离每条鱼的图像特征抽取:从每条鱼中抽取特征分类:根据特征确定每条鱼所属的类别2011/9/2022如何设计这个模式识别系统?收集数据(训练样本)和手工分类通过从背景中分割出每条鱼的图像进行预处理抽取可能存在差别的特征如:长度,亮度,宽度,鱼翅数目等分类器设计(选择模型,训练分类器)测试分类器分类器设计注意鲑鱼一般比鲈鱼短使用鱼的身长作为区别特征统计每种长度下鲑鱼和鲈鱼的数目统计每种长度下鲑鱼和鲈鱼的数目2011/9/2023鱼的身长作为分类特征寻找最佳的身长阈值bassseaelsesalmonthenifiiLlengthiL例如:当时,错误分类为:鲈鱼:1鲑鱼:16bassseaelsei5L分类错误率:%345017鱼的身长作为分类特征经过对所有可能阈值的搜索,发现最佳阈值为9,但是,分类错误率仍然是20%。2011/9/2024下一步获得的经验教训单独使用的身长特征不是一个好特征!如何改进?如何改进?试一下其它特征鲑鱼比较亮一些试一下使用每条鱼的亮度值作为区别特征鱼的亮度值作为分类特征当亮度阈值为3.5 时,存在最好的正确识别率,分类错误率是8%。2011/9/2025使用两个特征的联合是否会更好?使用身长和亮度两个特征特征矢量为:lightness,length分类错误率:4%最佳的决策边界对于理想的决策边界,分类错误率应该是0%。2011/9/2026在新数据集合上测试分类器对于新数据,分类器应该可以很好地工作。对于新数据,复杂决策边界的分类错误率:25%为什么?原因:不好的归纳(一般化、泛化)复杂决策边界不能够对新数据进行很好地归纳,它们过于倾向对训练数据的分类而不能够对真正的们过于倾向对训练数据的分类,而不能够对真正的数据模型进行很好地分类。这个问题称为过度拟合。2011/9/2027归纳问题简单的决策边界对训练数据不够理想,但是对新数据集合却能获得较好的归纳结果。模式识别系统结构2011/9/2028模式识别系统的组成传感器预处理机制特征抽取机制(手动或自动)特征抽取机制(手动或自动)分类算法已经分类或者描述的样本集合(训练集合)预测问题的类型分类(Classification)分配一个物体到一个类别的模式识别问题模式识别系统的输出是一个整数标志回归(Regression)一个分类任务的归纳模式识别系统的输出是一个实数值聚类(Clustering)将物体进行有意义分组的问题模式识别系统返回个(有时是分层的)物体分组模式识别系统返回一个(有时是分层的)物体分组描述(Description)将物体以基元序列表示的问题模式识别系统生成一个结构描述或语言描述2011/9/2029模式识别方法统计方法基于特征的统计模型来分类模式。神经网络方法神经网络方法基于处理单元网络对输入刺激的响应进
本文标题:模式识别(入门)
链接地址:https://www.777doc.com/doc-6312794 .html