您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 《信息整序法》PPT课件
信息组织学主讲:杨力西南石油大学经济管理学院Page2第五章信息整序法★本章重点★分类法分类标引主体法主题标引关键词语言的原理与类型自动标引技术Page35.1分类法与分类标引信息资源分类具有以下特征通过类目索引提供从字顺角度查找类目的途径从一定角度出发组织和解释信息按照内容特征的关系对信息资源进行组织241采用一定的标记符号作为排序工具3Page4分面组配式分类法•分面-亚面-类目•简单概念组成复合类目•本体+物质+动力+空间+时间•组配复杂、标引难度大•号码冗长•直观性较差等级列举式分类法•树形等级系统•逐级列出专指类目•展开方式单一•类间组配能力较弱•类目结构变化性差分类法的类型列举-组配式分类法•等级列举+分面组配•符号复杂•工作量大Page5分类法的编制类目体系主表基本大类简表详表复分表总论复分表世界地区表中国地区表国际时代表中国时代表……Page6分类标引及方法分类标引:又称为归类,是指依据一定的分类语言,对信息资源的内容特征进行分析、判断,赋予分类标识的过程。分类标引方法类目辨析号码配置Page7根据同位类间的关系了解类目的含义2根据注释了解相关类目的含义和范围3按照类目体系的规律了解类目的含义4根据上、下位类关系了解类目的含义1类目辨析Page8号码配置使用复分表将主表号码与复分表号码加以组配访分利用同类性质的子目进一步细分类间组配将一个主类号与其他相关的主类号组合“浙江经济地理”,可在主表类目F129.9中国经济地理后加上中国地区表浙江得号码55,标引为F129.955“法语词典”,可在表示法语的号码“H32”后,加上从英语的号码“H31”后子目中表示词典的号码“6”,得到该主题的号码为H326.1“化学文摘”,可通过组配符号“:”,将表示专题文摘的类号“Z89”,与表示化学组配类号“06”联结,标引为:Z89:06。Page95.2主题法与主题标引主题法思想的典型例子:情感搜索Page10主题法的类型标题法元词法叙词法分类、主题一体化Page11主题标引是依据一定的主题词表或主题标引规则,赋予信息资源语词标识的过程。具体而言,主题标引是在主题分析的基础上,以一定的词表或标引规则作为依据,将信息资源中具有检索意义的特征转换成相应的主题词,并将其组织成表达信息资源内容特征的标识的过程。主题标引及方法Page12主题标引及方法全面标引充分揭示信息资源所论及的所有有检索价值的主题揭示信息资源中具有检索价值的整体性主题,不揭示涉及的各种从属性主题内容整体标引对《公路运输与铁路运输》这一文献,就应根据文献论述的主题对象,分别对公路运输、铁路运输这两个内容进行标引。《黄河水质变化浅析》一文,主要分析了黄河的水质变化,指出城市工业废水及农药大量使用是造成支流污染的主要原因。在对其进行全面标引时,就必须将:水质、变化、水质污染、黄河、农药污染、城市污水、工业废水、河流污染、预测等主题概念一一加以标引和揭示。Page13对口标引综合标引分析标引只揭示信息资源中适合本专业需要的主题内容的标引以丛书、多卷书、论文集、会议录、标准汇编、档案的案卷等为单位进行的概括性标引根据资源中部分片段或集合型资源的构成单元进行标引《公路运输与铁路运输》,铁路运输单位的文献部门在采用对口标引的情况下,可只对铁路运输的有关内容进行标引,对于其中有关公路运输的内容则一般不予揭示。《机械设计丛书》在以整套书为单位进行标引时,除对整体内容“机械设计”进行标引外,应对“丛书”这一资源类型进行揭示。Page14主题标引的规则1、选用词表中的叙词标引2、选用最匹配的叙词标引3、无专指叙词时,进行叙词组配标引4、无专指叙词且无法组配,使用上位词进行标引5、选用含义相近的叙词进行靠词标引6、可增补叙词表达新概念7、自由词标引,是主题标引的补充选词规则1、必须是概念组配2、优先采用交叉组配3、不能越级组配4、必须概念确切,具有单义性5、组配次序:主体因素-通用因素-时间因素-地区因素-文献类型的次序组配规则Page15主题标引和分类标引的比较Page165.3关键词标引关键词出现在信息资源的标题摘要、正文中,对描述信息资源的主题内容具有实质意义的词语。关键词标引一般通过计算机自动进行,即计算机自动抽取文献题名、文摘或正文中有检索意义的词语。Page17题外关键词索引KWOC将关键词抽取出来,复合用户习惯。题内关键词索引KWIC选取关键词,保留关键词的上下文,进行轮排索引。关键词语言的类型双重关键词索引KWIC&KWOC双重目标Page18关键词索引编制的步骤词典匹配切分、切词标志、理解式切分使每个关键词轮流排至检索入口1用禁用词表控制抽词排除没有检索意义的词汇2由计算机进行自动分词3轮排编制关键词索引Page195.4自动分类与自动标引自动分类是按照一定的分类体系或标准进行自动分类标记,又可细分为自动聚类与自动分类两种。聚类,根据信息内容的相关性来组织文献集合或信息集合,将整个集合聚集成若干个子类,并使属于同一类的文档尽量相似,属于不同类的文档差别明显。分类,即归类,将具有相近特性的检索对象相对地集中,而具有不同特征者尽可能归于不同的类别中。Page20自动聚类Page21聚类分析原理介绍聚类分析中“类”的特征:–聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分–聚类的数目和结构都没有事先假定聚类方法的目的是寻找数据中:–潜在的自然分组结构astructureof“natural”grouping–感兴趣的关系relationshipPage22聚类分析原理介绍什么是自然分组结构Naturalgrouping?我们看看以下的例子:有16张牌如何将他们分为一组一组的牌呢?AKQJPage23聚类分析原理介绍分成四组每组里花色相同组与组之间花色相异AKQJ花色相同的牌为一副IndividualsuitsPage24聚类分析原理介绍分成四组符号相同的牌为一组AKQJ符号相同的的牌LikefacecardsPage25聚类分析原理介绍分成两组颜色相同的牌为一组AKQJ颜色相同的配对BlackandredsuitsPage26聚类分析原理介绍分成两组大小程度相近的牌分到一组AKQJ大配对和小配对MajorandminorsuitsPage27聚类分析原理介绍这个例子告诉我们,分组的意义在于我们怎么定义并度量“相似性”Similar因此衍生出一系列度量相似性的算法AKQJ大配对和小配对MajorandminorsuitsPage28聚类分析原理介绍相似性Similar的度量(统计学角度)距离Q型聚类(主要讨论)–主要用于对样本分类–常用的距离有(只适用于具有间隔尺度变量的聚类):•明考夫斯基距离(包括:绝对距离、欧式距离、切比雪夫距离)•兰氏距离•马氏距离•斜交空间距离•此不详述,有兴趣可参考《应用多元分析》(第二版)王学民相似系数R型聚类–用于对变量分类,可以用变量之间的相似系数的变形如1-rij定义距离–这里不详细介绍这种聚类度量方法Page29聚类分析原理介绍变量按测量尺度(MeasurementLevel)分类间隔(Interval)尺度变量–连续变量,如长度、重量、速度、温度等有序(Ordinal)尺度变量–等级变量,不可加,但可比,如一等、二等、三等奖学金名义(Nominal)尺度变量–类别变量,不可加也不可比,如性别、职业等Page30凝聚的方法一开始将每个对象作为单独的一组,然后根据同类相近,异类相异的原则,合并对象,直到所有的组合并成一个,或达到一个终止条件为止。分裂的方法一开始将所有的对象置于一类,在迭代的每一步中,一个类不断地分为更小的类,直到每个对象在单独的一个类中,或达到一个终止条件。定义:对给定的数据进行层次的分解等级聚类法(hierarchicalmethod)Page31广泛采用的类间距离:最小距离法(singlelinkagemethod)–极小异常值在实际中不多出现,避免极大值的影响Page32广泛采用的类间距离:最大距离法(completelinkagemethod)–可能被极大值扭曲,删除这些值之后再聚类Page33广泛采用的类间距离:类平均距离法:类间所有样本点的平均距离–该法利用了所有样本的信息,被认为是较好的系统聚类法Page34广泛采用的类间距离:重心法(centroidhierarchicalmethod)–类的重心之间的距离–对异常值不敏感,结果更稳定Page35广泛采用的类间距离离差平方和法(wardmethod)–D2=WM-WK-WL即–对异常值很敏感;对较大的类倾向产生较大的距离,从而不易合并,较符合实际需要。LKLKMkLKLXXXXnnnD2ClusterKClusterLClusterMPage36自动分类原理:根据一个已被分好类的训练文档集合,找到文档特征和文档类别之间的关系模型,然后利用这种学习得到的关系模型对新的文档进行类别判断。Page37自动标引Page38•自动标引(AutomaticIndexing),又称计算机辅助标引(ComputerAidedIndexing),是根据文献内容,依靠计算机系统全部或部分地自动给出标引符号的过程。•换句话说,就是利用计算机系统模仿人的标引活动并自动生成情报检索所需的索引符号的过程。Page39自动标引的原理齐夫定律:高频词:传递信息能力弱中频次:传递信息能力强低频词:传递信息能力极强Page40西文信息自动标引技术1、抽取关键词遇空格取词;确定关键词,舍去非用词;累积词频,分析关键词;2、分析确定标引词绝对词频相对词频赋予权重Page41中文信息自动标引技术中文自动标引所遇到的首要问题是词的切分。现在国内大部分自动标引方法只能依据字(词)典匹配,最多再加上一些构词模式或规则来进行词切分。Page42分词的必要性物理学physicsproducts…priceimagebodytheorybarberscienceunderstandreasonschoolstudycreditstudentsubject物理学physicsphysicist……evidence6×5×5=150:2Page43中文词语分析的主要难点:–歧义•交叉歧义(86%):•结合成分子时•组合歧义(14%):•这个人手上有痣;•我们缺人手•全局歧义与局部歧义:•乒乓球拍/卖/完了;•乒乓球/拍卖/完了;•我很/难过–未登录词问题干扰作用克林顿对内塔尼亚胡说龚学平等领导Page44(1)词典标引法主题词表法关键词词典法部件词典法词典切分组词法(2)单汉字标引法(3)语法分析标引法(4)神经网络分词法中文自动分词的主要方法:Page45本章小结
本文标题:《信息整序法》PPT课件
链接地址:https://www.777doc.com/doc-3971720 .html