您好,欢迎访问三七文档
汉字编码bjhk1汉字编码现状及其根源多种编码方案共存,不利于交流和共享新旧标准同台使用,需相互转换统一标准正在形成中、日、韩、新等多国同时使用汉字简繁体汉字并存地区、国家间的文化、政治差异增加了汉字统一编码的难度bjhk2主要汉字(文字)编码标准与规范ASCII(英文)GB2312GBKGB13000GB18030BIG5Shift_JISISO/IEC10646Unicodebjhk3汉字的几种通行名称Hanzi,Hantsu,汉字Ideographiccharacter,表意字符,中文字符Kanji-日文中的叫法Hanja-朝鲜文中的叫法CJK-中日韩通用字符集Unihanbjhk4ASCII码美国信息交换标准编码(“美标”)用从0到127的128个数字来代表信息的规范编码包括33个控制码,一个空格码,和94个形象码形象码中包括了英文大小写字母,阿拉伯数字,标点符号等国际上大部分电脑的通用编码bjhk5文本文件与二进制文件字符大都是用一个八位二进制数字表示,美标只规定了128个编码,剩下的另外128个数码没有规范,美标中的33个控制码,各厂家用法也不尽一致文本文件(ASCIITextFiles):美标形象码或空格码组成,通常可在不同电脑系统间直接交换二进制文件(BinaryFiles):含有控制码或非美标码的文件,通常不能在不同电脑系统间直接交换bjhk6国标、区位、“准国标”、机内码国标:中华人民共和国国家标准信息交换用汉字编码国标(GB2312-80)表(基本表)把七千余汉字、以及标点符号、外文字母等,排成一个94行、94列的方阵每一横行叫一个“区”,每个区有九十四个“位”一个汉字在方阵中的坐标,称为该字的“区位码”例如“中”字在方阵中处于第54区第48位,它的区位码就是5448bjhk7区位码表区位码来源于信息交换用汉字编码字符集(基本集)国家标准(GB2312-80),该标准收汉字6763个,第一级3755个,位于16至55区,55区的最后5个字符没有定义;第二级3008个,位于56至87区第一级汉字按照汉语拼音字母顺序排列,同音字以笔形顺序横(一)、直(丨)、撇(丿)、点(丶)、折(乙)为序。起笔相同按第二笔,依次类推。第二级汉字按部首排序,本标准采用的部首与一般字典用的部首基本相同,略有改变。部首次序及同部首字按笔划数排列,同笔划数的字以笔形顺序横(一)、直(丨)、撇(丿)、点(丶)、折(乙)为序。起笔相同按第二笔,依次类推。查表时先查区号,再查行、列,例如:“、”是0102,“蔼”是1610。bjhk8例01区12345678902区1234567890、。·ˉˇ¨〃々0ⅰⅱⅲⅳⅴⅵⅶⅷⅸ1—~‖…‘’“”〔〕1ⅹ⒈⒉⒊2〈〉《》「」『』〖〗2⒋⒌⒍⒎⒏⒐⒑⒒⒓⒔3【】±×÷∶∧∨∑∏3⒕⒖⒗⒘⒙⒚⒛⑴⑵⑶4∪∩∈∷√⊥∥∠⌒⊙4⑷⑸⑹⑺⑻⑼⑽⑾⑿⒀5∫∮≡≌≈∽∝≠≮≯5⒁⒂⒃⒄⒅⒆⒇①②③6≤≥∞∵∴♂♀°′″6④⑤⑥⑦⑧⑨⑩㈠7℃$¤¢£‰§№☆★7㈡㈢㈣㈤㈥㈦㈧㈨㈩8○●◎◇◆□■△▲※8ⅠⅡⅢⅣⅤⅥⅦⅧⅨ9→←↑↓〓9ⅩⅪⅫbjhk9例09区1234567890─━│┃┄┅1┆┇┈┉┊┋┌┍┎┏2┐┑┒┓└┕┖┗┘┙3┚┛├┝┞┟┠┡┢┣4┤┥┦┧┨┩┪┫┬┭5┮┯┰┱┲┳┴┵┶┷6┸┹┺┻┼┽┾┿╀╁7╂╃╄╅╆╇╈╉╊╋89bjhk10例16区12345678917区1234567890啊阿埃挨哎唉哀皑癌0薄雹保堡饱宝抱报暴1蔼矮艾碍爱隘鞍氨安俺1豹鲍爆杯碑悲卑北辈背2按暗岸胺案肮昂盎凹敖2贝钡倍狈备惫焙被奔苯3熬翱袄傲奥懊澳芭捌扒3本笨崩绷甭泵蹦迸逼鼻4叭吧笆八疤巴拔跋靶把4比鄙笔彼碧蓖蔽毕毙毖5耙坝霸罢爸白柏百摆佰5币庇痹闭敝弊必辟壁臂6败拜稗斑班搬扳般颁板6避陛鞭边编贬扁便变卞7版扮拌伴瓣半办绊邦帮7辨辩辫遍标彪膘表鳖憋8梆榜膀绑棒磅蚌镑傍谤8别瘪彬斌濒滨宾摈兵冰9苞胞包褒剥9柄丙秉饼炳bjhk11例54区12345678955区1234567890帧症郑证芝枝支吱蜘0住注祝驻抓爪拽专砖1知肢脂汁之织职直植殖1转撰赚篆桩庄装妆撞壮2执值侄址指止趾只旨纸2状椎锥追赘坠缀谆准捉3志挚掷至致置帜峙制智3拙卓桌琢茁酌啄着灼浊4秩稚质炙痔滞治窒中盅4兹咨资姿滋淄孜紫仔籽5忠钟衷终种肿重仲众舟5滓子自渍字鬃棕踪宗综6周州洲诌粥轴肘帚咒皱6总纵邹走奏揍租足卒族7宙昼骤珠株蛛朱猪诸诛7祖诅阻组钻纂嘴醉最罪8逐竹烛煮拄瞩嘱主著柱8尊遵昨左佐柞做作坐座9助蛀贮铸筑9bjhk12例56区12345678957区1234567890亍丌兀丐廿卅丕亘丞0佟佗伲伽佶佴侑侉侃1鬲孬噩丨禺丿匕乇夭爻1侏佾佻侪佼侬侔俦俨俪2卮氐囟胤馗毓睾鼗丶亟2俅俚俣俜俑俟俸倩偌俳3鼐乜乩亓芈孛啬嘏仄厍3倬倏倮倭俾倜倌倥倨偾4厝厣厥厮靥赝匚叵匦匮4偃偕偈偎偬偻傥傧傩傺5匾赜卦卣刂刈刎刭刳刿5僖儆僭僬僦僮儇儋仝氽6剀剌剞剡剜蒯剽劂劁劐6佘佥俎龠汆籴兮巽黉馘7劓冂罔亻仃仉仂仨仡仫7冁夔勹匍訇匐凫夙兕亠8仞伛仳伢佤仵伥伧伉伫8兖亳衮袤亵脔裒禀嬴蠃9佞佧攸佚佝9羸冫冱冽冼bjhk13例86区12345678987区1234567890觥觫觯訾謦靓雩雳雯0鳌鳍鳎鳏鳐鳓鳔鳕鳗1霆霁霈霏霎霪霭霰霾龀1鳘鳙鳜鳝鳟鳢靼鞅鞑鞒2龃龅龆龇龈龉龊龌黾鼋2鞔鞯鞫鞣鞲鞴骱骰骷鹘3鼍隹隼隽雎雒瞿雠銎銮3骶骺骼髁髀髅髂髋髌髑4鋈錾鍪鏊鎏鐾鑫鱿鲂鲅4魅魃魇魉魈魍魑飨餍餮5鲆鲇鲈稣鲋鲎鲐鲑鲒鲔5饕饔髟髡髦髯髫髻髭髹6鲕鲚鲛鲞鲟鲠鲡鲢鲣鲥6鬈鬏鬓鬟鬣麽麾縻麂麇7鲦鲧鲨鲩鲫鲭鲮鲰鲱鲲7麈麋麒鏖麝麟黛黜黝黠8鲳鲴鲵鲶鲷鲺鲻鲼鲽鳄8黟黢黩黧黥黪黯鼢鼬鼯9鳅鳆鳇鳊鳋9鼹鼷鼽鼾齄bjhk14国标、区位、“准国标”、机内码94:美标中形象码的总数,33--126汉字区、位码各加上32,就会与美标形象码的范围重合,称为该字的“国标码”,与其相对应的两个美标符号,为该字的“国标符”如何区分国标符与美标符:国标码的两个数字各加上128,称“准国标”或“机内码”机内码=(区位码)H+8080H+2020Hbjhk15BIG5码针对繁体汉字的编码,在台湾、香港的电脑系统中得到普遍应用第一字节第二字节A1~A240~7E/A1~FEA340~7E/A1~E0C6A1~FE非汉字C7~C840~7E/A1~FEA4~C540~7E/A1~FE一级汉字C640~7EC9~F840~7E/A1~FE二级汉字81~A040~7E/A1~D5bjhk16ISO/IEC10646一个国际标准编号,国际标准化组织(ISO)1993年正式颁布英文全称:Informationtechnology-UniversalMultiple-OctetCodedCharacterSet,简称UCS中文全称:信息技术--通用多八位编码字符集,亦称大字符集宗旨:全球所有文种统一编码bjhk17Unicode英文UniversalCode的缩略语统一编码是对国际标准ISO/IEC10646编码的一种称谓是一个企业联盟集团的名称,由美国的HP、Microsoft、IBM、Apple等几家知名的大型计算机企业所组成,成立该集团的宗旨就是要推进多文种的统一编码就内容而言,Unicode和ISO/IEC10646是一致的,并行的bjhk18CJK-中日韩统一汉字把中国、日本与韩国的英文称谓的首字母用于ISO/IEC10646中的中、日、韩统一编码汉字的简称UnihanCJKV或许更准确,V代表越南bjhk19ISO/IEC10646的体系结构四维的编码空间总体上分为128个三维组(group),group的值范围是从00到7F每一组包含256个平面(plane),每一个平面包含256行(row),每一行包含256个字位(cell),又称为“列”,plane、row、cell的值范围都是从00到FF全编码整个编码字符集的每个字符都是由4个八位序列表示,(按照组八位、面八位、行八位、列八位的顺序)可编码空间为:128X256X256X256=32KX64Kbjhk20ISO/IEC10646体系结构图Group7FPlane00of7FGroup01Group00PlaneFFofGroup00Plane02ofGroup00Plane01ofGroup00Plane00ofGroup00BMPbjhk21基本多文种平面第一个平面(00组中的00平面)称作BasicMultilingualPlane(基本多文种平面),简称BMP,并在其上规定了双八位形式,它可以作为双八位编码字符集使用,即在此平面上仅用行、列两个八位就可以表示一个编码字符bjhk22BMP的最新概貌A-Zone(00至4D行):拼音文字编码区,拉丁文、阿拉伯文、日文的平假名及片假名、数学符号等都在此区域编码CJKUnifiedIdeographs,ExtensionA(3400-4DB5)(6000多码位)CJKUnifiedIdeographs(4E00-9FA5)(20902个编码汉字)韩文(AC至D7这44行(44X256=11264))S-ZONE(D8至DF行)forUTF-16R-Zone(E0至FF行):限制使用区,一些兼容字符、字符的变形显现形式、特殊字符等均放在此区bjhk23ISO/IEC10646空间分配现状00平面:BMP,被用于全球现已规范语种的基本文字编码,编码空间已基本饱和01平面:作为拼音文字辅助平面02平面:作为汉字辅助平面,CJKExtensionB即将放入该平面E0至FF平面:作为该标准的专用平面来使用其它空间尚未分配bjhk24ISO/IEC10646中CJK汉字组成CJK统一编码汉字(20902)CJK扩充集A(6585)CJK扩充集B(4万--)bjhk25什么是UTF?UnicodetransformationformatUCStransformationformat从Unicode码点到唯一字节序列的映射算法,一一映射,保证无损转换bjhk26UTF-16Unicode标准的16位编码形式为每个字符指定一个16位的值编码形式与ISO/IEC10646中的定义形式相同以一个16位的值来编码映射到不大于65535数值的字符,映射到大于65535的数值的字符则被编码成一组16位的值(代用对)bjhk27UTF-8为满足面向字节、基于ASCII码系统的需要而制定(主要用于数据传输、互联网)用最多达4个字节的序列来表示每个字符,为有效分析字符串,用第一个字节指明某个多字节序列中的字节数通常用于数据交换Unicode编码点和UTF-8编码字符之间的关系Unicode范围UTF-8编码的字节0x00000000-0x0000007F0xxxxxxx0x00000080-0x000007FF110xxxxx10xxxxxx0x00000800-0x0000FFFF1110xxxx10xxxxxx10xxxxxx0x00010000-0x001FFFFF11110xxx10xxxxxx10xxxxxx10xxxxxxbjhk28UTF-32每个字符都表示成一个32位的整数码长相等,便于某些特殊情况的处理Unix系统使用bjhk29字节顺序标记(BOM)指示处理器怎样把连续的文本放到一个字节序列中权值最低的字节位于开头叫做“little-endian”,权值最高的字节位于开头叫做“big-endian”可用作识别文本文件编码形式的依据特定编码的字节顺序标记的十六进制表示编码编码后的BOMUTF-16big-endianFEFFUTF-16little-endianFFFEUTF-8EFBBBFbjhk30Windows对Unicode的支持Windows3.1,WindowsNT4,Windows2000,WindowsXP支持Unicode.如果在
本文标题:最新汉字编码
链接地址:https://www.777doc.com/doc-4623810 .html