您好,欢迎访问三七文档
日月水牛明旦爸尘灶上下本末冻架1.汉字的起源2.汉字的创造饱含民族的智慧汉字起源于象形文字,至今仍然保留了象形文字的特点。汉字的造字法有四种:象形、指事、会意、形声。从字体上看,就是本字倒过来。上部为树头,下部为树梢,在树梢上加一小横,就表示这里是树梢。因此,末的最初的意义是树梢。象形指事金文「明」为日月幷照之会意字。会意形声形声字的一部分是“形旁”表示字义,一部分是“声旁”表示读音,如:“鸽”是“鸟”形“合”声,“河”是“水”形“可”声。云南纳西族东巴文字猜猜看,上面的象形文字究竟表示什么意思?东巴文字犇猋骉麤淼毳掱垚赑焱文字及其处理技术体验文字处理技术汉字的编码一、体验文字处理技术1.文字是人类为了更加流畅地表述意义、传递经验而发明的工具。甲骨文殷周时代金文西周、春秋战国文字春秋战国小篆秦朝隶书秦朝楷书东汉行书南北朝草书西汉印刷字体宋朝拼音的来历、作用、与汉字的关系,汉字没有被拼音取代的原因?你知道那些汉字输入法?有何历史意义?历史上使用的文字处理技术手写刻字雕版印刷活字印刷机械式打字机计算机文字处理计算机文字处理只能处理英文可处理包括象形文字在内的任何文字如何在计算机中处理汉字?体验文字处理技术二、汉字的编码1.用于输入汉字的编码——输入码(外码)编码方案:区位码、拼音码、王码、自然码编码类型:①音码:将汉字与读音建立对应关系进行编码的方法如:全拼双音、双拼双音②形码:将汉字的字形按笔画或组合进行编码的方法,如:王码、郑码、表形码③数字码:将汉字与数字对应的编码方法。如:区位码简介④混合码:将汉字的字形和字音相结合的编码方法。如:自然码2.用于存储汉字的编码——机内码(内码)汉字的机内码是供计算机系统内部、加工处理、传输而统一使用的代码。国际码(GB)也叫GB国际码,简称国际码1980年,国家标准局颁布了《信息交换用汉字编码字符集基本集》(代号为GB2312-80),这是国家标准汉字编码。输入码(外码)机内码(内码)自动寻找对应输入码与机内码的转换算法(区位码—机内码)所有的国标码汉字及符号组成一个94行94列的二维代码表中。在此方阵中,每一行称为一个区,每一列称为一个位。这个方阵实际上组成一个有94个区(编号由01到94),每个区有94个位(编号由01到94)的汉字字符集。每两个字节分别用两位十进制编码,前字节的编码称为区码,后字节的编码称为位码,此即区位码,其中,高两位为区号,低两位为位号。这样区位码可以唯一地确定某一汉字或字符;反之,任何一个汉字或符号都对应一个唯一的区位码,没有重码。如“保”字在二维代码表中处于17区第3位,区位码即为“1703”。区号内容1区键盘上没有的各种符号2区各种序号3区键盘上的各种符号(按中文方式给出)4-5区日文字母6区希腊字母7区俄文字母8区标识拼音声调的母音及拼音字母名称9区制表符号10-15区未用16-55区一级汉字(按拼音字母顺序排列)56-87区二级汉字(按部首笔划顺序排列)88-94区自定义汉字由上可以看出,所有汉字与符号的94个区,可以分为四个组:①1-15区:为图形符号区。其中19区为标准符号区;1015区为自定义符号区。②16-55区:为一级汉字区,包含3755个汉字。这些区中的汉字按汉语拼音顺序排序,同音字按笔画顺序列出。③56-87区:为二级汉字区,包含3008个汉字。这些区中的汉字是按部首笔划顺序排序的。④88-94区:为自定义汉字区。输入码与机内码的转换算法(区位码—机内码)汉字区位码表汉字区位码共收汉字6763个,分成两级。第一级汉字3755个,置于16区至55区;第二级汉字3008个,置于56区至87区.第16区1601160216031604160516061607160816091610啊阿埃挨哎唉哀皑癌蔼1611161216131614161516161617161816191620矮艾碍爱隘鞍氨安俺按1621162216231624162516261627162816291630暗岸胺案肮昂盎凹敖熬1631163216331634163516361637163816391640翱袄傲奥懊澳芭捌扒叭a例:课本56页有一个“熊”的区位码是“4860”,在这里我们把这个区位码认为是十进制。分析:区位码由区码和位码组成,区码是高字节二位,位码是低字节二位,区号是十进制“48”,位号是十进制“60”。二进制十进制八进制十六进制BDOH区码(48)10=(30)16位码(60)10=(3C)16国际码高字节两位:30H+20H=50H国际码低字节两位:3C+20H=5CH国际码是505CH机内码高字节=50H+80H=D0H机内码低字节=5CH+80H=DCH机内码是D0DCH公式:国际码高字节=区位码高字节+20H国际码低字节=区位码低字节+20H机内码高字节=国际码高字节+80H机内码低字节=国际码低字节+80H输入码与机内码的转换算法(区位码—机内码)“啊”字是GB2312之中的第一个汉字,它的区位码就是“1601”。3、汉字的输出码(字型码)用于输出汉字的编码——输出码(字型码)宋体楷体00000000000000000000000000000000000000000000000000000000000101010101001001010000000000000000000000000000000000000000000000000000000000000000000000010101010100100101000000000000000000000000000000000000000000000000000000000000000000000001010101010010010100000000000000000000001111000001110001100001111100000000……00000000000000000000000000000000000000000000000000000000000101010101001001010000000000000000000000000000000000000000000000000000000000000000000000010101010100100101000000000000000000000000000000000000000000000000000000000000000000000001010101010010010100000000000000000000001111000001110001100001111100000000……点阵字型:将汉字分解成若干个“点”组成的点阵字型。例:16×16点阵,表示一个汉字,则一个汉字占16行,每一行16个点,其中每一个点用一个二进制数表示,值“0”没有笔形,值“1”表示有笔形。1B=8bit16×16bit/8bit=32B练习:1.32×32点阵表示一个汉字需要()个字节。A.128个B.64个C.32个D.36个2.()点阵显示的汉字效果最好。(多项选择)A.24×24B.精密型C.提高型D.16×16E.64×643.存贮在计算机中的汉字以()码形式存储。A.区位码B.机内码C.字形码D.输出码E.二进制码点阵类型点阵参数(行×列)每个汉字占的字节数简易型16×1632B普及型24×2472B提高型32×32128B精密型48×48288B3、输出码(字型码)汉字的编码输入码(外码)机内码(内码)输出码(字型码)用于输入汉字的编码用于存储汉字的编码用于输出汉字的编码字模16×16,24×24宋体、楷体、隶书等区位码:6625全拼编码:chun五笔字型:dw春用机内码存储如国标码(GB)和BIG5码用汉字字型码输出码输出汉字(数字码,音码、形码、混合码)区位码输入,智能ABC,微软拼音,郑码,五笔字型,自然码等宋体楷体春输入码(外码)机内码(内码)自动寻找对应机内码(内码)输出码(字型码)自动寻找对应+20H区位码(十进制)+80H国际码(十六进制)机内码(十进制)三、汉字的处理过程思考:•同一个字用不同的输入法输入,输入码一样吗?机内码一样吗?输出码一样吗?•如果用64*64点阵表示一个汉字字形,需要用多少个字节来存放?思考:•在浏览网页或阅读邮件遇到乱码现象应该怎样解决?•在输入汉字的时候,碰到生僻字,如“喆”、“镕”等字时,可以采取什么办法?问题情境:丁丁是高一(18)班长,开学时要安排值日表,丁丁的计算机基础较好,于是就想通过电脑编制这个表格,以后修改更方便。可是,在他输入学生姓名的的时候,碰到了几个姓名怎么输也输不进去,你能帮他解决这个问题吗?许旻张赟实践1:请新建一个word的文档,尽可能用多种输入法输入汉字“中”,并填写下表。汉字输入方法输入码输入码的编码方式参考资料上机实践体验文字处理技术汉字的编码文字及其处理技术输出码(字型码)—汉字的输出机内码(内码)——汉字的存储输入码(外码)——汉字的输入书法是一门凝结了我国民族文化精髓的艺术汉字的创造饱含民族的智慧文字的发明是为了更流畅地表述意义、传递经验中文信息处理技术发展历史课堂小结(教学重点)(教学难点)
本文标题:文字及其处理技术
链接地址:https://www.777doc.com/doc-4675450 .html