您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 广告经营 > 05第5章数字媒体及应用
第5章数字媒体及应用5.1文本与文本处理5.2图像与图形5.3数字声音及应用5.4数字视频及应用25.1文本与文本处理5.1.1字符编码5.1.2文本的分类5.1.3文本准备5.1.4文本编辑与排版5.1.5文本处理与相关软件5.1.6文本展现3文字处理是计算机应用的基础计算机应用=使用计算机进行信息处理其中,文字信息处理是涉及面最广的一种计算机应用,几乎与任何领域任何人都有关。文字数值语言音乐图像···信息的形态有多种4写作编辑排版印刷发行写作传统的文字处理过程5计算机文字处理过程文字信息在计算机中称为“文本”(text),文本是计算机中最常用的一种数字媒体文本由一系列“字符”(character)组成,每个字符均使用二进制编码表示文本在计算机中的处理过程是:(文本编辑器)文本编辑与排版格式化的电子文本(2)文本展现(文本阅读器)(5)文本处理(文本处理软件)(3)文本准备电子文本(1)(文字与图表的输入)文本存储与传输(4)(存档/通信软件)65.1.1.字符编码7字符、字符集及其码表文字的基本元素是字母和符号,统称为“字符”.包括:字母、数字、符号等字符集:一组特定字符的集合不同的字符集包含的字符数目与内容不同,如:•中文字符集、西文字符集、日文字符集等字符的编码:字符集中每个字符都使用二进位(code)表示,称为该字符的编码(查看字库软件)不同的字符其编码各不相同字符集中所有字符的编码的一览表,称为该字符集的编码表81.西文字符的编码1.美国标准信息交换码(AmericanStandardCodeforInformationInterchange):使用7个二进位对字符进行编码(叫做标准ASCII码),称为ISO-646标准。2.基本的ASCII字符集共有128个字符96个可打印字符(常用字母、数字、标点符号等)32个控制字符3.特殊字符的ASCII码记住:空格(32)A(65)a(97)0(48)91.西文字符的编码4.标准ASCII码是七位的编码,但字节是计算机中最基本的处理单位,故以一个字节来存放一个ASCII字符。每个字节中多出来的一位一般保持为“0”,(最高位为0)在数据传输时可用作奇偶校验位。5.扩充ASCII字符集:扩充字符的编码均是高位为1的8位代码(十进制数128~255),称为扩展ASCII码。10标准ASCII字符集及其码表b6b5b4b3b2b1b0012345670123456789ABCDEFb6b5b4b3b2b1b00110100110101111汉字如何编码?汉字是记录汉语(国语,华语)的文字,属于表意文字,它用符号直接表达词或词素汉字的特点数量大;多个国家和地区使用;字形复杂,同音字多,异体字多如何编码?确定收入多少字、哪些字?汉字在字符集中的排序方式确定使用的代码结构和代码空间12常用的汉字编码字符集国家标准GB2312汉字扩充规范GBK国家标准GB18030台湾地区的标准汉字字符集CNS11643(BIG5,俗称“大五码”)日本工业标准汉字字符集JISX0208-90韩国国家标准汉字字符集KSC5601-8713汉字的编码(GB2312)GB2312-80汉字编码一级常用汉字,共3755个按汉语拼音排列GB2312-80682个图形符号6763个常用汉字二级常用字,共3008个,按偏旁部首排列14汉字的编码(GB2312)区位码:GB2312国标字符集构成一个二维平面,它分成94行、94列,行号称为区号,列号称为位号。每个汉字区号和位号分别用1个字节表示1…………83…………94……20大……9415汉字的编码(GB2312)“大”字的区号20,位号83,区位码是2083用2个字节表示为:0001010001010011“大”的区位码:1453H国标交换码:解决方案:为了避免汉字区位码与通信控制码的冲突,ISO2022规定,每个汉字的区号和位号必须分别加上32(即二进制00100000)。“大”字的国标交换码是:0011010001110011(3473H)16汉字的编码(GB2312)3.机内码:问题:汉字与西文字符经常是混合在一起使用的,汉字信息如不予以特别的标识,它与单字节的标准ASCII码就会混淆不清。解决方法:把一个汉字看作两个扩展ASCII码,使表示GB2312汉字的两个字节的最高位(b7)都等于“1”。这种高位为l的双字节(16位)汉字编码就称为GB2312汉字的“机内码”。如:“大”字的内码是:1011010011110011(B4F3)17编码之间关系区位码国标交换码机内码十六进制表示在两个字节都加2020H两个字节的最高为分别置为1区位码机内码十六进制表示在两个字节都加A0A0H18汉字的编码(GB2312)例:已知“大”的区号20,位号83,求它的机内码。0001010001010011区位码国标交换码机内码十六进制表示在两个字节都加2020H两个字节的最高为分别置为10010000000100000高低0011010001110011101101001111001120831453H3473HB4F3H19汉字的编码(GB2312)已知“啊”的区号为16,位号为1,求它的区位码,国标码,机内码。思考题20习题若中文Windows环境下西文使用标准ASCII码,汉字采用GB2312编码。设一段文本的机内码为BBF540547043CAC7D6B8,则这段文本中有几个汉字、几个西文字符?解:根据ASCII码的最高位0的特点,所以西文字符编码最大为7x。而汉字的机内码由2个字节组成,且每个字节最高位均为1。所以,BBF540547043CAC7D6B8中40、54、70、43分别为一个西文字符,共4个西文字符,而BBF5;CAC7;D6B8各为一个汉字,所以共3个汉字。21GB2312汉字的编码每一个GB2312汉字使用16位(2个字节)表示每个字节的最高位均为“1”在16位代码空间中的码位分布:第1字节第2字节007EA1FE0081A1FEGB2312图形符号汉字代码空间(6763个汉字)B0F716位的代码空间共有216=65536个码位22GB2312汉字编码的不足之处GB2312汉字字数太少,无法满足一些特殊应用的需要:人名、地名;古籍整理、古典文献研究。没有繁体字编码效率不高:(6763+682)/6553623汉字的编码(GBK)2.GBK汉字内码扩充规范问题:GB2312-80只有6763个汉字,使用时功能不够。解决方法:1995年发布GBK,全称为《汉字内码扩展规范》GBK字符集中一共有21003个汉字和883个图形符号。与GB2312保持兼容包含了繁体字在内的大量汉字和符号24汉字的编码(GBK)GBK汉字内码扩充规范应用:操作系统——Windows95以上简体中文版,采用GBK代码,并提供了多种输入法和字体应用软件——Office95以上简体中文版本提供GBK码的检索和排序互联网应用——许多网站的网页使用GBK代码,25BIG5码台湾、香港地区使用Big5汉字编码标准,简称大五码,采用双字节表示,与GB2312和GBK不兼容BIG5码非中国大陆颁布,仅仅支持繁体。26UCS/Unicode通用编码字符集UCS/Unicode产生背景:约有6800种语言和文字在使用,需要建立一个多文种(Multilingual)处理环境;在ISO2022基础上,使用代码页号切换不同字符集的方法过于繁琐,且与其他系统不兼容;目标与途径:实现所有字符在同一字符集中统一编码27UCS/Unicode产生标准:UCS(通用多8位编码字符集)和Unicode(统一码或联合码,微软、IBM等联合制定、与UCS完全等同的工业标准)通用编码字符集UCS/UnicodeUCS实现了对所有字符统一编码Unicode是UCS的工业标准UCS-4:4字节编码UCS-2:2字节编码UTF-8:可变长代码,与ASCII码兼容2829汉字的编码GB18030编码目的是向UCS过渡,同时与GB2312、GBK兼容用1、2或4字节编码单字节编码(129个)表示ASCII字符,与ASCII兼容双字节编码(23940个)表示汉字,与GBK兼容四字节编码(约158万个)表示UCS/Unicode中的其他字符30标准名称GB2312GBKGB18030UCS-2(Unicode)字符集6763个汉字(简体字)21003个汉字(包括GB2312汉字在内)近3万汉字(包括GBK汉字和CJK及其扩充中的汉字)包含10万多字符,其中的汉字与GB18030相同编码方法双字节存储和表示,每个字节的最高位均为“1”双字节存储和表示,第1个字节的最高位必为“1”部分双字节、部分4字节表示,双字节表示方案与GBK相同(1)UTF-8采用单字节可变长编码(2)UTF-16采用双字节可变长编码兼容性编码不兼容!小结:几种汉字编码的对比编码保持向下兼容315.1.2文本的分类32文本的分类按是否格式化分:简单文本(plaintext)丰富格式文本(richtext)按结构分:线性文本超文本(hypertext)33简单文本(纯文本)•没有字体、字号的变化,不能插入图片、表格,也不能建立超链接,其文件后缀名是.txt•由一串用于表达正文内容的字符编码所组成,几乎不包含任何其他的格式信息和结构信息•呈线性结构•体积小,通用性好,手机短消息就是简单文本34丰富格式文本有字体字号等属性变化、设置了段落和页面排版格式的文本称为“丰富格式文本”格式文本要用功能较强的文字处理软件来编辑,如MSWord和金山WPS等。由文字、图像、声音、视频等多种信息媒体复合而成的文本也是一种丰富格式文本,也称为多媒体文档。35文本的分类1.超文本采用一种网状结构来组织信息,各信息块按照其内容的关系互相链接2.一个超文本由若干个文本块组成,这些文本块称为节点3.节点可以是文字、图形、图像、声音或视频4.基于多媒体信息结点的超文本,也称为超媒体。5.例:Windows中的“帮助”文件就是一种典型的超文本36超文本若干文本或文本中的各个部分可按照其内容的关系互相链接起来,从而形成“超文本”ABCDEFGHa1a2b2c2f1d1c1b1e1g1h1a3“超链”实际上就是一个指针,用于指向其他文本块,也可以指向同一文本块中的其他部分超链是有向的,起点位置称为链源,它可以是文本块中的一个标题、一句句子、一个关键词、一幅画、一个图标等文本块可以是一个网页,一个文档,一段文字,也可以是一张图片,甚至一段声音或视频37超文本标记语言HTMLHTML是用于创建超文本链接的基本语言,可以定义格式化的文本、色彩、图像与超文本链接等。HTML文档包含指向其他文档的链接项,即其他页面的URL,这样用户便可以通过一个页面中的链接项访问其他服务器中的页面或同一服务器中的其他页面。HTML文档可以将声音、图像、视频等多媒体信息集成在一起,用户在单一的浏览器界面中既可以阅读到文字信息,也可以欣赏到各种图片、动画,同时浏览器也会根据HTML文档中所集成的声音和视频信息的类型激活相应的播放程序。HTML文档具有.htm(或.html)后缀。各种类型文件(如字处理文件、电子表格文件、PowerPoint文件等)可以向HTML文件的转换。38小结:文本的分类文本类型特点在计算机内的表示文件扩展名用途简单文本没有字体、字号和版面格式的变化,文本在页面上逐行排列,也不含图片和表格由一连串与正文内容对应的字符的编码所组成,几乎不包含任何其他的格式信息和结构信息.txt网上聊天短信文字录入OCR输入丰富格式文本(线性文本)有字体、字号、颜色等变化,文本在页面上可以自由定位和布局,还可插入图片和表格除了与正文对应的字符编码之外,还使用某种“标记语言”所规定的一些标记来说明该文本的文字属性和排版格式等.doc.rtf.htm.htm
本文标题:05第5章数字媒体及应用
链接地址:https://www.777doc.com/doc-3051679 .html