您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 国内外标准规范 > CY∕T 101.4-2014 新闻出版内容资源加工规范 第4部分:数据加工质量
新闻出版内容资源加工规范第4部分:数据加工质量2014-01-29发布2014-01-29实施中华人民共和国新闻出版行业标准Specificationofcontentresourceprocessinginpressandpublication—Part4:DataprocessingqualityCY/T101.4—2014ICS35.240.30L70发布中华人民共和国国家新闻出版广电总局I前言………………………………………………………………………………………………………………I1 范围…………………………………………………………………………………………………………12 规范性引用文件……………………………………………………………………………………………13 术语和定义…………………………………………………………………………………………………14 数据质量结构和要求………………………………………………………………………………………24.1 数据质量结构…………………………………………………………………………………………24.2 质量评定基本流程……………………………………………………………………………………24.3 完整性…………………………………………………………………………………………………24.4 规范性…………………………………………………………………………………………………34.5 有效性…………………………………………………………………………………………………34.6 准确性…………………………………………………………………………………………………35 质量准确性评定……………………………………………………………………………………………35.1 质量准确性评定原则…………………………………………………………………………………35.2 评定方法………………………………………………………………………………………………35.3 差错率计算……………………………………………………………………………………………35.4 检测抽样范围…………………………………………………………………………………………35.5 质量准确性要求和错误统计方法……………………………………………………………………36 质量准确性检测报告………………………………………………………………………………………5附录A(资料性附录) 质量准确性检测报告单样例………………………………………………………6参考文献…………………………………………………………………………………………………………7目次CY/T101.4—2014ICY/T101《新闻出版内容资源加工规范》分为以下10个部分:──第1部分:加工专业术语;──第4部分:数据加工质量;──第5部分:资料管理;──第6部分:数据管理;──第7部分:数据交付;──第8部分:图书加工;──第9部分:报纸加工;──第10部分:期刊加工。本部分为CY/T101的第4部分。本部分的附录A为资料性附录。本部分由中华人民共和国国家新闻出版广电总局科技司提出。本部分由全国新闻出版信息标准化技术委员会归口。本部分起草单位:方正国际软件有限公司、北京拓标卓越信息技术研究院、新闻出版总署信息中心。本部分主要起草人:赵海涛、周长岭、安秀敏、刘成勇、蔡京生、周卫国、吴治强、张沫。前言──第2部分:数据加工应用模式;──第3部分:数据加工规格;11 范围CY/T101的本部分规定了新闻出版内容资源数字化加工的数据质量结构和要求、质量准确性评定和质量检测报告等方面的要求。本部分适用于新闻出版内容资源的数字化加工及电子资源的制作和应用。2 规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T16159汉语拼音正词法基本规则GB/T5271.14信息技术词汇第14部分:可靠性、可维护性与可用性3 术语和定义GB/T5271.14和CY/T101.1-2014中所界定的以及下列术语和定义适用于本文件。3.1 资料materials新闻出版的印刷品、存档胶片或原始排版数据的统称。[CY/T101.1-2014,4.1.2]3.2 成品数据finisheddata已经完成全部数据处理过程且符合预先设定的规格和质量要求,可实现交付的最终数据形态。[CY/T101.1-2014,7.1.1]3.3 差错error误差算出的、观察的或测量的值或状况,规定的或理论上正确的值或状况之间的差异。[GB/T5271.14—2008,14.01.08]3.4 版式文件fixed-layoutdocument版式文档排版后生成的,包含版面固化呈现需要的全部数据的一种文件。[CY/T101.1-2014,6.3.10]3.5 流式文件reflowingdocument流式文档按照内容逻辑顺序,内容呈现可适应终端设备屏幕或窗口变化的一种文件。[CY/T101.1-2014,6.3.11]3.6 单层图像版式文件imagedfixed-layoutdocument新闻出版内容资源加工规范第4部分:数据加工质量CY/T101.4—20142图像版式文件通过扫描方式,生成与原加工对象版式完全一致的图像文件集合,并打包成独立完整的可浏览的数字版式文件(含书签信息及书签信息和版式文件页面之间的链接关系)。[CY/T101.1-2014,6.3.12]3.7 双层矢量化版式文件vectorizeddual-layerfixed-layoutdocument双层版式文件在单层图像版式文件基础上,同时生成与图像层对应的透明字体模式的文字层,可支持选取、拷贝和查找的版式文件。[CY/T101.1-2014,6.3.13]3.8 单层矢量化版式文件vectorizedfixed-layoutdocument矢量版式文件按照原加工对象的文字位置,文字采用矢量字,修饰性图片、艺术字、底纹、线条、图表和公式等以图像形式显示的版式文件。[CY/T101.1-2014,6.3.14]4 数据质量结构和要求4.1 数据质量结构数据质量应包含数据的完整性、规范性、有效性和准确性,如图1所示。图1 数据质量结构4.2 质量评定基本流程评定成品数据的完整性、规范性和有效性,在这3个方面均符合质量要求后,再评定成品数据的准确性。4.3 完整性4.3.1 类型完整成品数据的类型应与数据加工目标的要求保持一致,不允许出现缺漏和错误。4.3.2 内容完整成品数据的内容范围与数量应与数据加工目标的要求保持一致,不允许出现缺漏和乱序等错误。4.3.3 质量管理文档完整完整的成品数据质量管理文档应包括:a)质量检测方案;b)质量检测报告。数据质量完整性规范性有效性准确性34.4 规范性4.4.1 数据格式成品数据的数据格式应与数据加工的要求保持一致,通常采用如下格式:a)长期保存图像使用无损压缩TIFF格式;b)一般发布应用图像使用JPEG格式;c)内容结构化文档采用XML1.0及以上版本,结构化规范描述文件采用XSD1.0及以上版本;d)版式文档采用PDF等格式;e)流式文档采用Epub等格式。4.4.2 数据文件命名成品数据的命名应与数据加工要求一致,命名方式由唯一ID信息与数据类型的类别信息构成。4.4.3 数据存储成品数据的存储应以与数据加工的要求保持一致,通常以加工对象基本单位为存储文件夹,其下分类存储此加工对象的各类成品数据。图书按本存储,报纸和期刊按期存储。4.5 有效性成品数据应能通过相关软件及系统读出,不允许出现数据损坏、异常报错、无法打开等错误。读出的数据应完整,不允许出现编码混乱、图像失真等无法使用的错误。4.6 准确性成品数据的质量准确性应与数据加工的要求保持一致,包括:a)文字准确性;b)图像准确性;c)内容结构化准确性;d)版式文件准确性;e)流式文件准确性。5 质量准确性评定5.1 质量准确性评定原则5.1.1 基本原则数据质量判定依据应建立在数据加工所使用的资料基础之上,即原资料中存在的错误、缺漏、顺序颠倒等质量问题在数据加工时未纠正,不计入数据加工质量错误。5.2 评定方法数据加工要求中应明确不同类型成品数据的差错率指标,并采用抽样检测等方式进行质量准确性评定。对于实际差错率不高于成品数据差错率指标的,视为符合质量准确性目标,反之则不符合。5.3 差错率计算检测标准单位一般按千、万、十万取值。差错率的计算公式为:差错率=检测标准单位中的错误数/检测标准单位5.4 检测抽样范围抽样检测范围应不低于检测标准单位的20倍。5.5 质量准确性要求和错误统计方法5.5.1 文字准确性5.5.1.1 文字准确性要求采用内容索引级、全文标准级、版式重构级(全文基础级加工的双层版式文件不包括在内)、版式复杂级等加工方式生成的包含文字内容的成品数据,其文字质量评定标准单位为10000个字符,质量应符合相关出版质量管理规定。CY/T101.4—201445.5.1.2 文字差错统计方法差错率统计方法包括:a)文字差错的计算方法如下:1)封底、版权页、正文、目录、出版说明(或凡例)、前言(或序)、后记(或跋),注释、索引、图表、附录、参考文献等中的一般性错字、别字、多字、漏字、倒字,每处按1个差错计数;2)重复出现同一错字,每页按1个差错计数,全书最多按4个差错计数。多、漏1~5个字,每处按1个差错计数,5个字以上按4个差错计数;3)封一、扉页上的文字差错,每处按2个差错计数;相关文字不一致,有一项计1个差错;外文、少数民族文字、国际音标,以单词为单位,无论错误出现几处,均按1个差错计数。4)汉语拼音不符合相关规定的,以一个对应的汉字或词组为单位,每处按1个差错计数;5)简化字、繁体字混用,每处按0.5个差错计数;同一差错在全书超过3处,按1.5个差错计数;内容本身需要的或原纸质图书简繁混用的不计差错。b)标点符号和其他符号的计算方法如下:1)标点符号的一般错用、漏用、多用,每处按0.1个差错计数;2)小数点误为中圆点,或中圆点误为小数点的,以及冒号误为比号,或比号误为冒号的,每处按0.1个差错计数;3)破折号误为一字线、半字线,每处按0.1个差错计数。标点符号误在行首、行末的,每处按0.1个差错计数;4)法定计量单位符号、科学技术各学科中的科学符号、乐谱符号等差错,每处按0.5个差错计数;同样差错同一面内不重复计算,全书最多计1.5个差错。c)同一位置的文字差错在元数据集、内容结构化数据、版式文件和流式文件等不同成品数据中重复出现的,统一按1处差错计数。5.5.2 图像准确性5.5.2.1 图像准确性要求图像质量评定标准单位为1000页,图像差错率要求在千分之一以下。5.5.2.2 图像差错统计方法以页面为基本检测单位,页面中出现任何一种或几种错误均按1个差错计数,差错类型包括:a)文件格式错误、图像分辨率错误、色彩模式错误、压缩算法错误等规格类错误;b)图像尺寸与原版不一致;c)颜色失真、图像过浓或过淡;d)水平倾斜大于0.5度;e)文件损坏。5.5.3 内容结构化准确性5.5.3.1 内容结构化准确性要求内容结构化质量评定标准单位为10000个字符,内容结构化差错率要求在万分之三以下。5.5.3.2 内容结构化差错统计方法内容未标引、标引错误、结构化名称错误、结构化层级错误等每处按1个差错计数;5.5.4 关联关系准确性5.5.4.1 关联关系准确性要求关联关系质量评定标准单位为1000个链接点,差错率要求在千分之三以下。5.5.4.2 关联关系差错统计方法关联关系缺失或指向错误即为差错,一处关联关系错误按1个差错计数,关联关系包括:5a)目次与正文章节的链接关系;b)目次的层级关系;c)脚注引用点与脚注的引用关系;d)插图引用点与插图的引用关系;e)表格引用点与表格的引用关系;f)参考文献引用点与参考文献的引用关系;g)图像引用点与图像文件的链接关系。5
本文标题:CY∕T 101.4-2014 新闻出版内容资源加工规范 第4部分:数据加工质量
链接地址:https://www.777doc.com/doc-9535722 .html