您好,欢迎访问三七文档
中华排检码中国索引学会第三次会员代表大会暨学术论坛中国北京研究成果报告2008-11-06宋安华博士柴大定博士林星雄博士中华排检码研发公司中华排检码汉字无序之苦。汉字有序之难。中华排检码报告大纲1.定题-中华排检码2.几个设计参数3.结构和组成细节4.特性及优点5.总结定题汉字排检”是排序和检索两个步骤,是两个用法不同但却有密切关系的步骤。排序是指按照某一种规律将字库内汉字排列成先后有序的一条汉字龙。而检索是指按照汉字排序的规律,来查到要找的汉字。汉字排序的最重要的两个基本要求是:1.有一个简单且实用的排序规律;2.汉字代码对汉字有单一性。就是一个汉字代码只对一个汉字。中华排检码-几个设计参数适合于电子计算机操作不用固定二字节或多字节形式使用现今通用亚司基码(ASCII,美国信息互换标准代码)可用为内码可满足将来信息化的需求中华排检码-结构和组成细节辨別码字形字音第三部份第二部份第一部份中华排检码辨別码四角号码+笔划数汉语拼音第三部份第二部份第一部份中华排检码列表1-中华排检码的结构列表2-中华排检码具体组成部件中华排检码-举例之一ma317621762ma3码jian348914891jian3检pai251015101pai2排hua224402440hua2华zhong150005000zhong1中中华排检码第三部份第二部份第一部份列表3中华排检码例子之一中华排检码-举例之二第一部份第二部份第三部份中华排检码辨bian4004416bian4004416辮bian4004420bian4004420辯bian4004421bian4004421列表4中华排检码例子之二第一部份第二部份第三部份中华排检码糜mi2002917mi2002917麋mi2002917ami2002917a縻mi2002917bmi2002917b列表5中华排检码例子之三中华排检码-举例之三中华排检码-代码和汉字之间无重字率的关系中华排检码部件无重字率%无重字率%(统计结果系根据右列两字库)大五码(13053字)大五码+国标码*(13053+6763字)只用汉语拼音1.4%1.2%只用汉语拼音+四角号码92.4%92.1%只用汉语拼音+四角号码+笔划数99.3%99.1%使用中华排检码(汉语拼音+四角号码+笔划数+辨别码)100.0%100.0%*国标码(GB2312)列表6中华排检码无重字率中华排检码-汉字和汉字代码对照表汉字中华排检码汉字中华排检码汉字中华排检码6071餽kui486716081崑kun122716091錕kun186116072箦kui48880146082鲲kun126116092锟kun186716073簣kui48880186083鯤kun126316093惃kun196016074篑kui48880156084菎kun144716094焜kun196816075簀kui48880176085坤kun145106095硱kun316606076愦kui49508126086猑kun146216096齫kun326706077憒kui49508156087晜kun160226097綑kun32690136078愧kui496016088昆kun160716098稛kun3269013a6079琨kun116116089髡kun172216099裍kun336206080醌kun116616090騉kun176316100阃kun33760列表7汉字和汉字代码对照表(举例-第6071到6100字)中华排检码-特性及优点之一1.简单且实用的汉字排序规律要解决汉字排检问题,最基本也是最重要的要求之一是要有一个简单且实用的排序规律。中华排检码是达到这一个要求。中华排检码-特性及优点之二2.单一性要解决汉字排检问题,汉字单一性这一个最基本也是最重要的要求之一是必须要满足的。中华排检码是能够100%的达到这一个要求。中华排检码-特性及优点之三3.繁体与简体字兼容第一部份第二部份第三部份中华排检码华hua22440hua22440華hua24450hua24450检jian34891jian34891檢jian34898jian34898码ma31762ma31762碼ma31162ma31162列表8繁体与简体字兼容举例中华排检码-特性及优点之四4.多音字兼容在汉字里,有一些汉字会有不同的读法。例如在“行动”和“银行”二个名词中的“行”字,就有不同的读法。在中华排检码字库中,这一种汉字是完全可以兼容的。它们各有各的中华排检码代码。第一部份第二部份第三部份中华排检码行xing22122xing22122行hang22122hang22122华hua22440hua22440华hua42440hua42440列表9多音字兼容举例中华排检码-特性及优点之五5.与国标码、大五码与统一码有一一对应中华排检码的字库可以收集在国标码、大五码与统一码字库中的汉字。有一一对应这一点,便可以用中华排检码来做码与码之间的转换。例如将已有的国标码档案,可利用电脑自动转换为中华排检码档案。中华排检码-特性及优点之六6.汉字有序中华排检码字库中的汉字是依照其汉字代码的顺序存档。这个顺序在各种汉字文字处理操作上是非常有用的。诸如在列表、电子数据报表、字典编纂、名册编制等等。中华排检码-特性及优点之七7.适合文本识读(text-to-speech)文本识读技术就是使用文字转语音系统技术。这种技术能把文字转化为自然语音,语调。应用举例:卫星定位系统,电话及电脑应用中,可以与使用人语音对话。中华排检码-特性及优点之八8.加补新字方便添加新字极端方便。随时可加添新字。每一个新字都可以按次排序插入字库。使字库中的汉字经常保持字序。中华排检码-特性及优点之九9.有效地避免乱码中华排检码使用26个英文字母和10阿拉伯数字来拼出汉字代码,即使用现今通用亚司基码。中华排检码码长不定,不用二字节或四字节定长内码方法。完全不同于国际码,大五码或统一码。中华排检码的档案在电脑文字处理或网际传输操作下,可以有效避免乱码。中华排检码非常适合于电子计算机操作。中华排检码-特性及优点之十10.内码即外码中华排检码的内码和外码是一致的,所以中华排检码也可以用来做输入法。更因为中华排检码的代码与汉字之间有单一性这一点可使中华排检码输入适合盲打。中华排检码-特性及优点之十一11.现有输入法仍然可用于输入中华排检码中华排检码与国标码、大五码与统一码的汉字均有一一对应。无论使用者用何种输入法,当使用者输入汉字之后,文字处理系统可以存入与其汉字对应的中华排检码。总结基于上述中华排检码的结构与多项优点,从全部优点整体来看,使用中华排检码在中文信息化发展过程中,有极大的优势。我们相信中华排检码的确是可称为“近乎理想且实用”的汉字排检方法。中华排检码有种种优点,也非常适用于电脑操作。这些可以让我们在此指出编制中文索引栏已不再是一件难事。在现有的条件下,利用中华排检码可以很方便地为已有电子本的中文书籍,加添索引栏。致谢我们有一种共同地认识:就是就一般而言,研究工作的成果多半是会引用到一些先进专家过去的经验和成果。而所谓的新成果也仅只是一些旧成果的累积再加上一点点自己的新东西。我们在此要向做汉字排检研究工作的先进专家们致谢。在过去几年里,有许多贝尔实验室的先后同事们不断地给我们鼓励和关注,我们特别在此致谢。声明中华排检码已获得中国智慧产权局颁发智慧产权证书。产权证书号码:No.ZL200410039250.2,发证日期:2008-4-16。中华排检码亦获得美国智慧产权局颁发智慧产权证书。产权证书号码:No.7,359,850-B2,发证日期:2008-4-15。中华排检码汉字与汉字代码对照表已向中国国家版权局登记,且已获得颁发著作权登记证书。证书号码:No.2004-L-02025,发证日期:2004-12-12。上列三项智慧产权及著作权,均为三位作者及在美国成立的中华排检码研发公司所拥有。联络地址中华排检码研发公司CSCResearch,LLC23SevenOaksCircleHolmdel,J07733USA@CSCResearch.com柴大定博士DavidChai,Ph.D.David@CSCResearch.com林星雄博士SingLin,Ph.D.Sing@CSCResearch.com宋安华aasoong@yahoo.com参考资料四角号码新华字典,2001年,大字本,商务印书馆,北京。内附四角号码检字表四角号码及其用法
本文标题:中华排检码
链接地址:https://www.777doc.com/doc-3653955 .html