您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 能源与动力工程 > 大陆中文数字化工作进展
大陆中文数字化工作进展中文数字化论坛2004-02-23•香港大陆中文数字化工作进展在中文数字化领域进行一系列研究、开发和标准化工作•各种政府项目的资助、支持•经济发展的推动•相关研究机构和企业的共同努力技术及应用标准两岸四地“中文域名协调会”成立•统一两岸四地的中文技术标准不论以简体还是繁体键入的中文域名,均可以访问到两岸四地相对应的网站•大大方便了两岸四地用户使用互联网《中国语言通用音标符号集》已经制定完成•即将提交ISO/IECJTC1/WG2讨论大型数字化应用工程公安部“第二代居民身份证工作已经启动•带有IC芯片存储持证人的姓名、住址、年龄等数字化信息初步确定在IC卡中采用GB13000-2003=ISO/IEC10646-2003•系统开发与发证工作正在紧张进行•几个试点城市将在今年上半年开始换发“二代居民身份证”试点城市已经开始受理“二代证”的申请北京市也将发行带有IC芯片的“市民卡”出版界数字化建设蓬勃发展新闻出版总署组织“出版用汉字大字符集”科研项目上海世纪出版集团主持开发“辞书编纂平台”商务印书馆的“辞书语料库及编纂系统”已初具规模中华书局的“中华古籍语料库”也已经起步中国大百科全书出版社正进行“中国百科术语数据库三期工程——跨介质出版制作发布系统及学术著作网络出版发布系统”的开发建设出版界数字化建设蓬勃发展(续)相继开展或正在酝酿一系列古籍数字化项目•中国基本古籍光盘库•清史•地方志•历代石刻史料汇编•儒藏四川辞书出版社正在进行《汉语大字典》新版的编撰、出版工作•在编纂方式上,电子化水平大大提升数字图书馆建设深入发展迈过了基于扫描图像的初级阶段•国家图书馆一方面在进行数字馆系统的建设另一方面开展数字图书馆的内容建设,将大批馆藏图书数字化•北京市在“数字北京”工程中将进行数字图书馆、数字博物馆等项目大量馆藏珍品、孤本善本将被数字化通过数字图书馆、数字博物馆向公众开放数字图书馆建设深入发展(续)基于Unicode/XML/DublinCore的示范性、探索性、专题性数字图书馆初具规模、正在完善、扩充•两岸四地《孙中山数字图书馆》•山东省馆《齐鲁文化数字图书馆》•文化部民间民族文艺资源数据库•北京大学北京历史地理数字资料库(香港大学合作)•中医研究院中医资源数字化资料库数字化工具得到应用一些公司相继推出数字化工具•北大方正的“Apabi”•书同文的“数码翰林”•清华同方的“TPi”,等等在电子出版、数字图书馆领域得到应用汉语基础资源库建设针对现代汉语,建立了基于XML语言的统一语料标注体系和中文信息处理基础资源库•863项目资助北京大学、清华大学、国家语委语用所和中科院软件所•加工程度由浅入深,标注颗粒度由粗到细基于互联网的超大规模动态语言资料库超大规模通用平衡语料库大规模汉英平行语料库大规模汉语基本标注语料库汉语概念词典和义项标注语料库汉语句法树库,等等汉语基础资源库建设(续)许多高校和科研机构也各自开发了一批内容各异、加工标注程度不同的汉语语料库建立了“中文语料库联盟CLDC(ChineseLinguisticDataConsortium)”•973项目的资助•旨在语料库资源共享计算语言学研究十分活跃相关的学术会议较多突破性的成果不多•从事计算语言学研究的主要是计算机软件技术及相关领域的研究人员•与语言学家结合不够紧密少数民族语言文字数字化有很大进展少数民族语言文字处理技术研发受到政府的重视•国家科技计划对少数民族语言文字信息处理技术予以重点资助863计划(科技部)中小企业基金(科技部)电子发展基金(信息产业部),等等•正在制定国际标准框架下的藏文大字符集编码国家标准和字形国家标准•八思巴文字符集国际标准已完成提案•西双版纳傣文编码字符集国际标准已经完成提交ISO/IECJTC1/WG2表决•新疆维吾尔自治区政府启动《维哈克文标准化》项目对已经收入的ISO/IEC10646.1:2000中的阿拉伯文字符定义与维吾尔、哈萨克、柯尔克孜文字符的对应关系,提出希望在ISO/IEC10646.1:2000增补8个维、哈、柯文名义字符•用于维哈克多语种处理•蒙文、彝文、傣文、藏文基于ISO/IEC10646的应用开发都有不同程度的进展谢谢各位
本文标题:大陆中文数字化工作进展
链接地址:https://www.777doc.com/doc-266864 .html