您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 74构造汉语的统计计算语言模型
汉字输入输出简介1汉字输入输出简介汉字输入输出简介2主要内容汉字输入汉字输出中文字处理和精密汉字编辑排版系统操作系统的汉化汉字输入输出简介3计算机汉字系统的构成┎────┒┎────┒┎────┒┃键盘输入┠┒┃汉字库┃┎→┃语音输出┃┖────┚┃┎─────┒┖─┰──┚┃┖────┚┎────┒┃机内码┃系统软件和┃机内码┎─┸──┒┃┎────┒┃语音输入┠╂──→┃应用软件进┠───→┃输出控制┃╂→┃汉字显示┃┖────┚┃┃行信息处理┃┖─┰──┚┃┖────┚┎────┒┃┖─────┚┎─┸──┒┃┎────┒┃文字识别┠┚┃磁盘存储┃┖→┃汉字打印┃┖────┚┖────┚┖────┚汉字输入输出简介4汉字输入方式的分类汉字输入输出简介5现状与趋势目前中文输入以键盘输入为主,最快可达275字/分未来的一段时间,改进后的智能化键盘输入方式仍将占据主导地位识别输入方式在不断完善自身技术的前提下,也将获得稳步的增长多元化的格局正在形成之中汉字输入输出简介6键盘输入方案整字键盘—大键盘:主辅式、感应式通用组合键盘—小键盘字:记忆代码:电报、区位、军码等拼音:全拼、双拼、简拼、智能ABC、新拼、自然拼形:五笔形、郑码、表形码音形结合:李码、全息码笔划或部件:魏码词:联想,高频先见(上),用过提前,词、短语和熟句均可句:微软拼音、智能狂拼数字键盘:手机、智能家电趋势:朝着易学习、易记忆、编码长度要短、重码要少、智能化的方向发展汉字输入输出简介7字形识别系统印刷体单字型字型混排,北信中英混排,清华紫光手写体脱机联机:汉王笔、蒙恬第一笔、中华第一笔、神调笔和杨友博士笔汉字输入输出简介8性能与难点性能:北京捷通软件技术有限公司的录易全能版的扫描识别速度60-100字/秒,OCR(汉字印刷体识别)识别率高,对印刷文稿的识别率在99%以上。它的手写系统可识别简、繁、英文、数字等,可保留亲笔签字的原迹,笔迹符号代文。全屏书写,一次可连续书写20多个字不停笔。自学习功能强,电脑能记住笔迹。提高识别性能的难点汉字类别多汉字字形结构复杂汉字集合中相似字较多,有些汉字的差别仅为一点或一个笔画汉字输入输出简介9语音输入分类特定人孤立语音非特定人孤立语音特定人连续语音非特定人连续语音汉字输入输出简介10语音输入现状中文语音输入技术已经基本成熟语音输入市场的主角依旧是以IBM为首的国外厂商IBMViaVoice占据了国内语音输入法大半壁江山不久前成立了中国语音创业联盟,以期联合国内众多从事语音输入产品研发的企业共同推动国内语音输入技术的进步中文之星公司在语音识别方面的研究也进入到了产品化的阶段中文的地方语音体系主要有:广东话,闽南话,吴语等苹果电脑的中文语音输入系统是全球第一套广东话语音输入系统,能够将广东语转换成繁体或简体中文汉字输入输出简介11中文混合输入系统比利时L&H语音产品有限公司的汉语知音(SPK):针对中文输入的完全一体化的解决方案,可以采用听写、手写或键盘输入方式,并可以在这些输入方法之间随意切换;用户无需改变自己的语音或书写习惯;可以实现语音导航,用语音控制应用程序;可以实现整句智能输入北京捷通软件技术有限公司的录易全能版:集识(汉字印刷体识别)、写(联机手写识别)、说(语音输入)、听(语音输出校稿)、校(语义、语法校对)为一体北京汉王科技公司的汉王听写输入系统是口说手写输入中文,汉王笔与IBMViaVoice98语音识别核心的完美集成。语音输入与手写输入无缝链接,方便了编辑修改,每分钟可输入150字以上汉字输入输出简介12汉字的输出磁盘存储屏幕显示纸上印字语音输出-语音合成技术汉字输入输出简介13汉字库01234567891011121314150□□□□□■■■■■■■□□□□1□□□□□□□□■□□□□□□□2□□□□□□□□■□□□□□□□012345673□□□□□□□□■□□□□□□□0□□□■■■□□4□□□□□□□□■□□□□□□□1□□■□□□■□5□□□□□□□□■□□□□□□□2□■□□□□□□6□■■■■■■■■■■■■■■□3■□□□□□□□7□□□□□□□□■□□□□□□□4■□□□□□□□8□□□□□□□■□■□□□□□□5□■□□■■■■9□□□□□□□■□■□□□□□□6□□■□□□■□10□□□□□□■□□□■□□□□□7□□□■■■□□11□□□□□■□□□□□■□□□□12□□□□■□□□□□□□■□□□13□□□■□□□□□□□□□■□□14□□■□□□□□□□□□□□■□15□□□□□□□□□□□□□□□□英文字母“G”和汉字“天”的点阵表示汉字的点阵式存储汉字输入输出简介14点阵数和存储量───────┰──────┰────┰─────────┃点阵┃字数┃存储量(字节)───────╂──────╂────╂─────────简易型汉字┃16*16┃87*94┃261,696───────╂──────╂────╂─────────普通型字库┃24*24┃87*94┃588,816┃32*32┃87*94┃1,046,784───────╂──────╂────╂─────────┃64*64┃87*94┃4,187,136精密型字库┃96*96┃87*94┃9M┃128*128┃87*94┃16M┃256*256┃87*94┃64M───────┸──────┸────┸─────────汉字输入输出简介15汉字库的压缩字根式压缩法矢量字库哈夫曼压缩法汉字输入输出简介16哈夫曼压缩法将汉字的点阵图形看作由多个子点阵构成统计组成所有汉字的子点阵的概率根据子点阵的概率进行哈夫曼编码,从而得出所有汉字的哈夫曼编码用这些子点阵的编码作为汉字库汉字输入输出简介172*2点阵的16种状态┎──┒┎──┒┎──┒┎──┒┎──┒┎──┒┎──┒┎──┒┃。。┃┃。。┃┃。。┃┃。。┃┃。.┃┃。.┃┃。.┃┃。.┃┃。。┃┃。.┃┃.。┃┃..┃┃。。┃┃。.┃┃.。┃┃..┃┖──┚┖──┚┖──┚┖──┚┖──┚┖──┚┖──┚┖──┚P0P1P2P3P4P5P6P7┎──┒┎──┒┎──┒┎──┒┎──┒┎──┒┎──┒┎──┒┃.。┃┃.。┃┃.。┃┃.。┃┃..┃┃..┃┃..┃┃..┃┃。。┃┃。.┃┃.。┃┃..┃┃。。┃┃。.┃┃.。┃┃..┃┖──┚┖──┚┖──┚┖──┚┖──┚┖──┚┖──┚┖──┚P8P9P10P11P12P13P14P15汉字输入输出简介1816种状态的统计概率和相应编码┎──┰────┰───────┰──┰────┰───────┒┃状态┃概率┃编码┃状态┃概率┃编码┃┠──╂────╂───────╂──╂────╂───────┨┃P0┃0.438┃1┃P8┃0.011┃011101┃┃P1┃0.050┃00000┃P9┃0.024┃000010┃┃P2┃0.011┃0111000┃P10┃0.148┃001┃┃P3┃0.041┃00010┃P11┃0.023┃000011┃┃P4┃0.032┃01100┃P12┃0.025┃01111┃┃P5┃0.132┃010┃P13┃0.002┃01110010┃┃P6┃0.032┃00011┃P14┃0.015┃011010┃┃P7┃0.014┃011011┃P15┃0.001┃01110011┃┖──┸────┸───────┸──┸────┸───────┚汉字输入输出简介19压缩结果平均码长=0.438*1+0.050*5+0.011*7+...+0.001*8=2.8压缩前子点阵码长为4压缩率为30%汉字输入输出简介20字形的变换(放大、缩小、旋转、平滑)□□□□■■□□□□■■□□■□□□□■■□□□□■■□■□=□□■■□□=□□□■■□■□□□□■■□□□□■■□□■■□□□□□■■□□□■■□□□□■■□□□□(a)(b)(c)字形放大的失真与平滑汉字输入输出简介21汉字屏幕显示┎───────┒┃汉字库┃┖───────┚↓┎────┒┎───────┒┎────┒─→┃接口┃─→┃CRT控制(CRTC)┃─→┃CRT┃┖────┚┖───────┚┖────┚↓┎───────┒┃显示缓冲区┃┖───────┚汉字输入输出简介22汉字印字绝大多数是点阵式印字方式点阵式印字机主要有针式打印机、喷墨式印字机、激光印字机等汉字输入输出简介23中文字处理和精密汉字编辑排版系统中文编排要比西文编排复杂:横排、竖排、分栏、插图、表格等字模分辨率:国产(方正)系统30线/毫米,国外高级出版系统40-80线/毫米字模数目:中文6763以上,英文大小写字母加上符号总共不超出100个字体数目:中文--宋、仿、黑、楷,美术字体、变形字体、古籍书中多种字体汉字输入输出简介24主要系统北大方正四通4S高级中文编排系统WPS—桌面排版系统汉字输入输出简介25方正排版系统国际上,最早使用书版和报版的整版编排系统,尤其是报纸的整版编排缺点在于它的开放性较差和与其它系统的兼容性不太好(人为原因)--它的照排控制器、照排机,必须配备由它自己生产,或委托其它协作单位生产的产品汉字输入输出简介26操作系统的汉化外挂式中文操作系统(中文外挂平台):CCDOS、UCDOS、天汇、中文之星、RichWin内核汉化的中文操作系统:微软中文DOS、Windows3.2及其后续版本自有知识产权的操作系统:COSIX基于Linux的自主操作系统:TurboLinux简体中文版6.0、蓝点Linux2.0、TomLinux1.0、红旗Linux桌面版2.0
本文标题:74构造汉语的统计计算语言模型
链接地址:https://www.777doc.com/doc-3209443 .html