您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 第5章5.1 文本与文本处理
第5章数字媒体及应用5.1文本与文本处理5.2图像与图形5.3数字声音及应用5.4数字视频及应用25.1文本与文本处理5.1文本与文本处理5.1.1字符的编码5.1.2文本准备5.1.4文本编辑、排版与处理5.1.3文本的分类5.1.5文本的展现35.1文本与文本处理计算机文字处理过程文字信息在计算机中称为“文本”(text),文本是计算机中最常用的一种数字媒体文本由一系列“字符”(character)组成,每个字符均使用二进制编码表示文本在计算机中的处理过程是:(文本编辑器)文本编辑与排版格式化的电子文本(2)文本展现(文本阅读器)(5)文本处理(文本处理软件)(3)文本准备电子文本(1)(文字与图表的输入)文本存储与传输(4)(存档/通信软件)45.1文本与文本处理5.1.1.字符在计算机中的表示55.1文本与文本处理字符、字符集及其编码表文字的基本元素是字母和符号,统称为“字符”(character),它包括:字母、数字、标点、符号等字符集:一组特定字符的集合不同的字符集包含的字符数目与内容不同,如:中文字符集、西文字符集、日文字符集等字符的编码:字符集中每个字符的二进位表示,称为该字符的编码或代码(code)不同的字符其编码各不相同字符集中所有字符的编码的一览表,称为该字符集的码表65.1文本与文本处理复习:西文字符的编码——ASCII码西文是表音文字(拼音文字),它由拉丁字母、数字、标点符号以及一些特殊符号所组成美国标准信息交换码(ASCII码):ASCII字符集包含96个可打印字符和32个控制字符采用7个二进位进行编码计算机中使用1个字节存储1个ASCII字符存在问题:字符集太小(只有128个字符)不同国家和地区使用不同的字符集及其编码,互不兼容东亚地区使用的大字符集无法编码0XXXXXXX75.1文本与文本处理汉字如何编码?汉字是记录汉语(国语,华语)的文字,属于表意文字,它用符号直接表达词或词素,有多个国家和地区使用(中、日、韩、新、马······)汉字的特点数量大;字形复杂,同音字多,异体字多如何编码?确定收入多少字、哪些字?在字符集中如何排列?使用多少个二进位进行编码?85.1文本与文本处理常用的汉字编码字符集国家标准GB2312-1980汉字扩充规范GBK国家标准GB18030-2005台湾地区的标准汉字字符集CNS11643(BIG5,俗称“大五码”)日本工业标准汉字字符集JISX0208-90韩国国家标准汉字字符集KSC5601-87UCS/Unicode多文种大字符集95.1文本与文本处理一级汉字(3755个)二级汉字(3008个)(扩充使用)字母、数字和各种符号………………19423位号…………191655568794区号(按汉语拼音排列)(按偏旁部首排列)GB2312汉字编码字符集1980年颁布《信息交换用汉字编码字符集·基本集》——GB2312-1980GB2312字符集由三个部分构成:拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个共6763个汉字和682个符号,每个汉字和符号都有一个确定位置105.1文本与文本处理GB2312汉字的编码每一个GB2312汉字使用16位(2个字节)表示为了与ASCII字符相区别,每个字节的最高位均为“1”例如:“南”字的代码是1100010011001111(用十六进制表示为C4CF)11第1字节第2字节XXXXXXXXXXXXXX115.1文本与文本处理GBK汉字内码扩充规范GB2312的不足:汉字字数太少,缺少繁体字,无法满足人名、地名、古籍整理、古典文献研究等应用的需要;与ASCII码不兼容GBK汉字内码扩充规范(1995):在GB2312基础上,增加了1万多汉字(包括繁体字)和符号共有21003个汉字和883个图形符号,如“計算機”、冃、冄、円、冇等繁体字和生僻字与GB8312保持向下兼容,也使用双字节表示,第1字节最高位必须为“1”:1X第1字节第2字节XXXXXXXXXXXXXX125.1文本与文本处理UCS/Unicode多文种大字符集背景:为了实现全球数以千计的不同语言文字的统一编码方案:ISO将全球所有文字字母和符号集中在一个字符集中进行统一编码(目前共收集了17x216=1,114,112个),称为UCS/UnicodeUCS/Unicode的编码方案:先实现部分字符的编码(共107,361个字符)尽量与已有编码标准兼容其中包含有中、日、韩统一整理出来的近3万汉字(称CJK汉字)允许有若干不同的编码方案,例如:单字节:ASCII字符双字节:拉丁、希腊、阿拉伯,···三字节:CJK汉字四字节:其他Unicode:UTF-8单字节可变长编码应用:Linux,Web网页,电子邮件双字节:ASCII字符、拉丁、希腊、阿拉伯,常用CJK汉字,···四字节:非常用CJK汉字Unicode:UTF-16双字节可变长编码应用:Windows,Mac,Java,···135.1文本与文本处理GB18030汉字编码标准背景:无论是Unicode的UTF-8还是UTF-16,其CJK汉字字符集虽然覆盖了我国已使用多年的GB2312和GBK标准中的汉字,但它们的编码并不相同为了既能与UCS/Unicode编码标准接轨,又能保护我国已有的大量汉字信息资源,我国在2000年和2005年两次发布GB18030汉字编码国家标准。GB18030实质上是UCS/Unicode字符集的另一种编码方案:单字节编码(128个)表示ASCII字符双字节编码(23940个)表示汉字,与GBK(以及GB2312)保持向下兼容,GBK不再使用四字节编码(约158万个)用于表示UCS/Unicode中的其他字符GB18030目前已在我国信息处理产品中强制贯彻执行。145.1文本与文本处理标准名称GB2312GBKGB18030UCS-2(Unicode)字符集6763个汉字(简体字)21003个汉字(包括GB2312汉字在内)近3万汉字(包括GBK汉字和CJK及其扩充中的汉字)包含10万多字符,其中的汉字与GB18030相同编码方法双字节存储和表示,每个字节的最高位均为“1”双字节存储和表示,第1个字节的最高位必为“1”部分双字节、部分4字节表示,双字节表示方案与GBK相同(1)UTF-8采用单字节可变长编码(2)UTF-16采用双字节可变长编码兼容性编码不兼容!小结:几种汉字编码的对比编码保持向下兼容155.1文本与文本处理例:IE浏览网页时文字编码的选择165.1文本与文本处理5.1.2.文本准备——文稿如何输入计算机175.1文本与文本处理汉字的键盘输入汉字与键盘上的键无法一一对应,因此必须使用几个键来表示一个汉字,这就称为汉字的“键盘输入编码”优秀的汉字键盘输入编码应具有的特点:易学习、易记忆效率高(平均击键次数较少)重码少容量大(可输入的汉字字数多)185.1文本与文本处理汉字键盘输入方法的比较类型原理举例优点缺点数字编码使用一串数字来表示汉字电报码区位码仅使用10个数字键难记忆字音编码把汉语的拼音作为汉字的输入编码智能ABC紫光微软拼音输入简单易学,适合于非专业人员重码多,需增加选择操作,不会汉语拼音或不知道读音时无法使用字形编码把汉字的部件或笔画作为码元,按照汉字结构及其切分规则作为编码依据,确定每个汉字的输入代码五笔字形表形码郑码重码少、输入速度较快,适合于专业录入员、打字员使用缺乏统一的规范,编码规则不易掌握音形编码(或形音编码)采用字音及字形两种属性作为码元的汉字编码输入方法粤音输入法同上同时要掌握音、形两种取码方法或规则,对普通用户比较困难195.1文本与文本处理5.1.4文本的编辑与排版205.1文本与文本处理目的:确保文本内容正确无误操作:对字、词、句和段落进行添加、删除、修改等操作MSWord的功能:在文本的任何位置都可以插入新的文字从文本的任何位置都可以删除不需要的文字将一段文字从一处移动到另一处将一段文字从一处复制到另一处在文本中自动查找指定的词语用一个词语自动替换文本中指定的词语文本编辑(textediting)215.1文本与文本处理目的:使文本清晰、美观、便于阅读操作内容:对文本中的字符、段落乃至整篇文章的格式进行设计和调整,分成3个层次:对字符格式进行设置对段落格式进行设置对文档页面进行格式设置文本排版(格式化)225.1文本与文本处理设置字符的格式字号(八号→初号,5磅→72磅以上)1磅相当于1/72英寸字体(宋体、楷体、黑体、仿宋、隶书···)字符的修饰字符的形状(字形):正常、加粗、倾斜、加粗倾斜字形的修饰:下划线、着重号、上下标、删除线···字符的颜色字符的宽度字符的间距字符的效果字符的排列方向Demo1235.1文本与文本处理什么是段落?用“回车”相互隔开的一组文字段落格式的设置:段落的对齐方式(两端对齐、分散对齐、居中对齐、左对齐、右对齐)段落的缩进方式(首行缩进、悬挂缩进、左缩进、右缩进)段间距和段内行距使用编号和项目符号段落添加边框和底纹首字下沉或悬挂段落与分页的关系设置段落的格式Demo2245.1文本与文本处理控制段落的缩进段落缩进是指段落中的文本到正文区左、右边界的距离,包括段落左缩进、右缩进和首行缩进。其缩进的距离可由水平标尺上对应的三个缩进标记来指示左缩进标记首行缩进标记右缩进标记右缩进左缩进首行缩进正文区右边界正文区左边界悬挂缩进标记255.1文本与文本处理页面格式的设置:设置纸张大小和页边距设置每页的行、列数目设置分栏数目与格式设置页码设置页眉和页脚设置页面的格式265.1文本与文本处理设置页面的分栏275.1文本与文本处理使用计算机对文本中的字、词、短语、句子、篇章进行识别、转换、分析、理解、压缩、加密和检索等有关的处理文本处理内容:字数统计,词频统计,简/繁体相互转换,汉字/拼音相互转换词语排序,词语错误检测,文句语法检查自动分词,词性标注,词义辨识,大陆/台湾术语转换关键词提取,文摘自动生成,文本分类文本检索(关键词检索、全文检索),文本过滤文语转换(语音合成),文种转换(机器翻译)篇章理解,自动问答,自动写作等文本压缩,文本加密,文本著作权保护什么是文本处理?285.1文本与文本处理例:Word2003的文本处理功能英文拼写检查和英语同义词检查字数统计自动编写摘要中文简繁体转换和术语转换中英词语翻译语法和格式检查语音识别(口授命令和听写)文档保护(防止打开或修改文档)295.1文本与文本处理5.1.3文本的分类305.1文本与文本处理简单文本(纯文本)本书由南京大学出B1BECAE9D3C9C4CFBEA9B4F3D1A7B3F6版社(PublishingB0E6C9E7285075626C697368696E67HouseofNanjin20486F757365206F66204E616E6A696EgUniversity)出版6720556E697665727369747929B3F6B0E6文本的内容文本在计算机中的表示•没有字体、字号的变化,不能插入图片、表格,也不能建立超链接,其文件后缀名是.txt•由一串用于表达正文内容的字符编码所组成,几乎不包含任何其他的格式信息和结构信息•举例:315.1文本与文本处理丰富格式文本本书由南京大学出版社(PublishingHouseofNanjingUniversity)出版•有字体字号等属性变化、设置了段落和页面排版格式的文本称为“丰富格式文本”•丰富格式文本中,除了正文内容之外,还使用了许多“标记”来描述字符的属性和格式的设置。•举例:下面标题的格式为:中文用黑体,西文用ArialBlack体,居中•使用HTML语言描述为:palign=centerfontface=黑体本书由
本文标题:第5章5.1 文本与文本处理
链接地址:https://www.777doc.com/doc-3180146 .html