您好,欢迎访问三七文档
第4章多媒体构件之一:文本4.1数字化文本4.2文本的特殊效果4.3三维文本与COOL3D的使用文本是多媒体信息中最多见、最常用,也是最主要的媒体之一。同样也是数字化多媒体作品中不可缺少的主要构件。在多媒体作品中文本的内容由内容专家和脚本决定,他与作品的目的密切相关。在不同场合,为了不同目的,文字的表现形式也不同。文本构件主要用于:文本菜单、标题、公告、按钮、内容描述、帮助与提示、热字等。4.1数字化文本文本构件离不开文本的输入、输出、存储、变换、传递与再现。文本是由字符构成的,字符编码与以上内容紧密关联。掌握文本构件之前应该对字符及其编码有一个全面的了解。多媒体文本构件涉及两种类型的字符,点阵字符和矢量字符。4.1.1点阵字符与矢量字符1.点阵字符点阵字符其字型用点阵位图表示,位图是一个N行M列的点阵,如图4-1所示。图4-1D字母8×8字符点阵用十六进制数记录D字母的点阵编码应该是:FCH,66H,66H,66H,66H,66H,FCH,00H。汉字的字符点阵,根据输出要求,一般显示用汉字为16×16点阵,也可能使用24×24或48×48点阵。在16×16点阵字库中,一个汉字“啊”的点阵如图4-2所示。点阵汉字可以做的工作:输入码、输出码、内码点阵转汉字算法汉字识别手写输入文本与格式等00000000000010000101111011111101111100100000100101010100001010010101010011111001010110001010100101010100101010010101010010101001010100101010100111010010111010010101101010101000000101000000100000010000000010000001000000101000000100000001100图4-2汉字“啊”16×16点阵2.矢量字符矢量字符记录的是字符的笔画信息而不是整个字符的位图,笔画信息不会因为字号大小改变。矢量字符信息与点阵字符信息相比,具有占用存储空间少,可以任意变换、缩放,外形美观大方等优点。图4-3是就图4-1中ASCII字符D抽取的笔画特征。图4-3矢量字符矢量字库中记录的就是每一个字符的笔画矢量信息。矢量字符的信息所占用的空间,可以是不等长的。因为一个字符与另一个字符的笔画信息,笔画多少以及笔画的复杂程度,可能完全不同。笔画信息的记录方式,可以采用相对坐标,坐标的起点原则上可以是字符所在矩形区域的任何一个顶点。也可以是首先记录第一个笔画起点相对于指定顶点的坐标,然后按照书写顺序记录抬笔、落笔,以及相对运动的各个坐标,直到所有笔画写完为止,最后是字符完成的终止标志。关于汉字矢量化参考站点:码字符输入输出原理ASCII字符的输入,用户输入字符,首先得到键位码,键位码进入操作系统指定的键盘输入缓存区,键盘中断处理程序读到键位码后,将其转换为ASCII码。如果是纯文本编辑,在文件中存放的仅仅是字符的ASCII码。如果包含文本排版信息,则文件中除了存放有字符的ASCII码外,还有排版信息,其文件存放格式视编辑软件的不同而不同。ASCII码字符的显示输出。以字符“D”为例,ASCII的显示输出原理如图4-4所示。图4-4ASCII码字符的显示输出显示字符时,CPU首先将“D”的ASCII码44H和一个属性字节,送计算机主存储器的显示输出缓存区。4.1.3汉字编码汉字在输入、处理、显示、输出过程中使用多种编码方式,主要有以下几种:汉字国标码(汉字交换码)、汉字内码、汉字输入码、汉字字型码等。1.汉字交换码汉字交换码也称汉字国标码。是在不同汉字信息处理系统之间进行汉字交换时使用的编码。1981年我国国家标准局颁布了《信息交换用汉字编码字符集·基本集》。该字符集中共收录汉字、字母、图形符号7445个,每个符号用4位16进制数表示。其中常用汉字6763个,其他为各种常用符号、数字、字母。常用汉字按使用频率分为二级。其中一级字库从第16区到第55区,二级字库从56区到第87区。一级常用汉字共3755个,按拼音字母顺序排列,二级常用汉字共3008个,按汉字部首偏旁的顺序排列。2.汉字区位码国标码即区码位码分别用二位十六进制数表示;如果区号和位号分别用十进制数表示,不足部分补零,就是其区位码。例如汉字“啊”的区位码为1601H,其相应国标码为3021H;汉字区位码表第16-17区如表4.1所示。汉字机内码、国标码和区位码三者之间的关系:区位码(十进制)的两个字节分别转换为十六进制后加20H得到对应的国标码;机内码是汉字交换码(国标码)两个字节的最高位分别加1,即汉字交换码(国标码)的两个字节分别加80H得到对应的机内码;区位码(十进制)的两个字节分别转换为十六进制后加A0H得到对应的机内码。表4.1汉字区位码表第16-17区式样3.汉字内码汉字内码是汉字信息处理系统的内部表示形式。汉字由于其字符数量大,必须用二个字节表示。目前我国的汉字信息处理系统一般都采用与ASCII码兼容的八位编码方案,即用二个字节表示一个汉字的内码,每个字节的首位为“1”以区别与西文字符,根据这一规定,一个汉字字符的内码,只要在其国标交换码前面加上8080H即可。例如“字”的国标码为5756H,内码为D7D6H;“啊”的国标码为3021H,其内码为B0A1H。4.汉字输入码汉字输入码是指利用西文普通键盘,输入汉字的编码方法。各种输入编码可以归纳为四类:数字编码、字形编码、字音编码和音形混合编码。数字编码是指用数字代表汉字字符,电报码、区位码都属于数字编码。特点:输入时无重码;内部处理时容易转换为内码;难于记忆。字音编码是指按照汉字的标准化读音,使用拼音作为汉字的编码的方法。特点:简单易学;会出现重码,影响录入速度。音形编码是将汉字字音与字型相互结合的一种编码方法。这种编码方法集中了二者的优点,具有编码短、重码少的优点。5.汉字字型码汉字输出时使用的字符位图编码,主要是通过点阵形式生成的。6.汉字的输出汉字输出是以图像输出的方式进行的。在屏幕或打印机上输出的汉字,是以字形方式提供给人们的。一般是把每个汉字字形看成是一个二维图形。描述一个汉字点阵信息的一串字节称为该汉字的字模。把常用的汉字字模集合在一起就构成汉字字模库简称汉字库。机内码国标码区位码计算机处理汉字信息的前提条件是对每个汉字进行编码,这些编码统称为汉字编码。汉字信息在系统内传送的过程就是汉字编码转换的过程。汉字交换码:汉字信息处理系统之间或通信系统之间传输信息时,对每一个汉字所规定的统一编码,我国已指定汉字交换码的国家标准“信息交换用汉字编码字符集——基本集”,代号为GB2312—80,又称为“国标码”。国标码:所有汉字编码都应该遵循这一标准,汉字机内码的编码、汉字字库的设计、汉字输入码的转换、输出设备的汉字地址码等,都以此标准为基础。GB2312—80就是国标码。该码规定:一个汉字用两个字节表示,每个字节只有7位,与ASCII码相似。区位码:将GB2312—80的全部字符集组成一个94×94的方阵,每一行称为一个“区”,编号为0l~94;每一列称为一个“位”,编号为0l~94,这样得到GB2312—80的区位图,用区位图的位置来表示的汉字编码,称为区位码。机内码:为了避免ASCII码和国标码同时使用时产生二义性问题,大部分汉字系统都采用将国标码每个字节高位置1作为汉字机内码。这样既解决了汉字机内码与西文机内码之间的二义性,又使汉字机内码与国标码具有极简单的对应关系。汉字机内码、国标码和区位码三者之间的关系为:区位码(十进制)的两个字节分别转换为十六进制后加20H得到对应的国标码;机内码是汉字交换码(国标码)两个字节的最高位分别加1,即汉字交换码(国标码)的两个字节分别加80H得到对应的机内码;区位码(十进制)的两个字节分别转换为十六进制后加A0H得到对应的机内码。汉字库中,汉字字形编码按点阵多少分类,有16×16点阵、24×24点阵等;按点阵排列形式分,有横向点阵排列和纵向点阵排列,前者适合显示器,后者适合打印机。4.1.4国际通用字符编码什么是编码Encoding当前国际上最为通用的字符编码(商业规范)是Unicode编码。Unicode是由一个非赢利性组织“Unicode学术学会”建立和发展的涵盖世界大多数流行语言的字符编码形式。Unicode[现有的标准]版本为4.1,其中包含的所有语言符号(超过9万个,其中汉字为7万多)。其他编码:GB2312,GB13000,GB18030,Unicode,UTF-8这些都是对字符集的编码(encoding)。其中常见对汉语字符集的编码包括GB2312-1980,GB13000,GBK,GB12345,GB18030—2000,Big5,Big5+,HKSCS,Big5+HKSCS,CNS11643-1992等。UCS-2,UCS-4,UTF-32,UTF-16,UTF-8,UTF-EBCDIC和UTF-7都是Unicode编码的具体形式(即它们不是直接映射的字符,而是映射的Unicode码,其实也就对应字符啦)。Unicode概述=zh&a=viewUnicode是通用字符编码标准,用于表示文本以供计算机处理。Unicode与国际标准ISO/IEC10646-1:2000和ISO/IEC10646-2:2001完全兼容,并且与ISO/IEC10646包含完全相同的字符和编码点。Unicode标准提供有关相关字符及其用途的其他信息。符合Unicode的所有实现程序也同时符合ISO/IEC10646。Unicode提供了一种对多语种纯文本进行一致编码的方法,便于国际文本文件的交换。处理多语种文本的计算机用户、商务人员、语言学家、研究人员、科学家等会发现Unicode标准可大大简化他们的工作。Unicode标准对于经常使用数学符号和其他技术字符的数学家和技术人员也很有价值。Unicode能支持的最大可能代码点数是1,114,112,位于17个16位平面中。每一个平面都可支持65,536个不同的代码点。在Unicode可支持的一百多万个代码点中,版本4.0当前在平面0、1、2和14中定义96382个字符。平面15和16用于专用字符,这类字符也称为用户定义的字符。平面15和16总共可支持131,068个用户定义的字符。Unicode可以使用下列任意字符编码方案:UTF-8UTF-16UTF-32UTF-8是Unicode的一种可变长度编码形式,它透明地保留了ASCII字符代码值。该形式在SolarisUnicode语言环境中用作文件代码。UTF-16是Unicode的一种16位编码形式。在UTF-16中,多达65,535个字符被编码为单个16位值。映射在65,535到1,114,111的字符被编码为成对的16位值(代理)。UTF-32是Unicode的一种固定长度的21位编码形式,通常用在32位容器或数据类型中。该形式在SolarisUnicode语言环境中用作进程代码(宽字符代码)。有关Unicode标准和ISO/IEC10646及其各种表示形式的详细信息,请参阅下列来源:UnicodeConsortium提供的《Unicode标准,版本4.0》ISO/IEC10646-1:2000、信息技术-通用多八进制字符集(UCS)-第1部分:体系结构和基本多语种平面ISO/IEC
本文标题:多媒体4
链接地址:https://www.777doc.com/doc-1473576 .html