您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 文献信息检索方法与技术
9文献信息检索方法与技术9.1信息检索基础9.2信息检索途径、方法与步骤9.3计算机信息检索9.4检索效果评价9.1信息检索基础(1)什么是信息检索信息检索就是在信息的海洋里“大海捞针”。如何捞?利用过滤技术。过滤技术的形式是多样的:筛子:筛沙,筛米,筛面……风:如扬场利用自然风把稻谷与稻草末分开,风车用人造风把米和米糠分开……磁场:如用“质子回旋加速器”把质子和其他粒子分离水:(利用浮力差别)其他条件限制:身高、年龄、体重、学历、相貌、地域、出身、单双号限制等等(1)什么是信息检索案例:李开复从30万图片邮件中找出20封邮件(离开微软到GOOGLE)。方法:把图片转换为文字,再检索。信息检索(InformationRetrieval):依据一定方法,从已经组织好的有关大量信息集合中,查出特定的相关信息的过程。按照检索对象的不同,可分为文献检索、数值检索和事实检索。信息检索利用检索词、检索条件实现过滤。9.1信息检索基础(2)信息检索原理信息检索包括存储和检索两个方面。A.信息存储的过程①信息采集:根据一定的规则收集信息。②信息标引、著录。对信息的内容特征和形式特征进行揭示和描述。③编制检索工具或建立检索系统。9.1信息检索基础(2)信息检索原理B.信息检索的过程信息存储的逆过程。用户根据信息需求,选取合适的检索词(标题、著者姓名、主题词、分类号等),利用检索工具或检索系统查找出相关信息。查找的过程实际上是一个匹配的过程,即确定检索词并将检索词与标引词做相符性比较,二者一致,就算找到了符合要求的信息。9.1信息检索基础(3)信息检索系统广义地,信息检索系统是包含了从信息采集到信息检索全过程的服务体系。信息检索系统的四个基本要素:目标;一定规模的信息资源;实现存储与检索的技术装备手段;一定的存储与检索方法。狭义地,信息检索系统就是指用户查找信息所使用的检索工具或系统。随着技术的发展和应用,信息检索系统的物理形式发生了重大变化,它曾经是一本书、一套卡片、一张光盘,现在更多的是一个网络数据库。9.1信息检索基础(4)信息检索语言A.信息检索语言的含义与作用信息检索的实质,就是人们的信息提问与信息的检索标识相比较后决定取舍的过程。一致,就“命中”了信息。不一致,就继续查找。信息的标识用词和检索用词使用共同的语言来表达。这种在信息的存储和检索过程中共同使用的语言,就是信息检索语言。又称为情报检索语言、索引语言、标引语言。9.1信息检索基础(3)信息检索语言信息检索语言与自然语言的区别:自然语言具有多义性。信息检索语言是人工语言,具有唯一性。信息检索语言对要对一词多义或多词一义的语词进行规范化处理,例如:自行车、单车、脚踏车;鲁迅、周树人。各种文献分类法,如《中国图书馆分类法》、《国际十进分类法》,以及各种主题词表,如《中国分类主题词表》、《工程索引(Ei)叙词表》等,都是检索语言。9.1信息检索基础B.信息检索语言的基础概念逻辑和知识分类是信息检索语言的基础。任何一种信息检索语言,都是表达一系列描述信息内容的概念及其相关关系的概念标识系统。也就是说,它们都是建立在概念逻辑基础上的。主题分析就是将信息内容概括为某个或某几个概念。信息检索过程中,概念是利用各种信息检索语言的语词(标识)来表达的。9.1信息检索基础概念之间的关系有相容关系和不相容关系。相容关系:同一关系属种关系交叉关系整体与部分的关系不相容关系:并列关系矛盾关系对立关系9.1信息检索基础C.信息检索语言的类型信息检索语言按照其构成原理,可分为分类检索语言、主题检索语言、代码检索语言。¾分类语言:用分类号表达各种概念,将各种概念按学科性质进行系统排列。它集中体现学科的系统性,反映事物的从属、派生关系,从上至下,从总体到局部层层展开,是一种等级关系。¾主题检索语言:用主题词汇来表达各种概念,将各种概念忽略其相关关系按字顺排列,表达的概念较准确。¾代码检索语言:针对事物的特征,用代码系统来加以标引和排列,如化合物的分子式索引系统等。9.1信息检索基础D.常用信息检索语言介绍D-1.分类检索语言①《中国图书馆图书分类法》(简称《中图法》)依据:毛泽东同志在《整党的作风》中的一段话。什么是知识?自从有阶级的社会存在以来,世界上知识只有两门,一门叫做生产斗争知识,一门叫做阶级斗争知识。自然科学、社会科学就是这两门知识的结晶,哲学则是关于自然知识和社会知识的概括和总结。此外还有什么呢?没有了。设置5大部类22大类,见下表。9.1信息检索基础《中国图书馆图书分类法》第一部类马克思列宁主义、毛泽东思想A马克思主义、列宁主义、毛泽东思想第二部类哲学B哲学第三部类社会科学C社会科学总论D政治、法律E军事F经济G文化、科学、教育、体育H语言、文字I文学J艺术K历史、地理第四部类自然科学N自然科学总论O数理科学和化学P天文学、地理科学Q生物科学R医学、卫生S农业科学T工业技术U交通运输V航空、航天X环境科学、劳动保护科学(安全科学)第五部类综合Z综合性图书②《中国科学院图书馆图书分类法》(简称《科图法》)设置5大部类,25大类。《科图法》五大部类:马克思列宁主义、毛泽东思想哲学社会科学自科科学综合性图书9.1信息检索基础00马克思列宁主义、毛泽东思想10哲学20社会科学21历史、历史学27经济、经济学31政治、社会生活34法律、法学36军事、军事学37文化、科学、教育、体育41语言、文字学42文学48艺术49无神论、宗教学《科图法》50自然科学51数学52力学53物理学54化学55天文学56地质、地理科学58生物科学61医药、卫生65农业科学71技术科学90综合性图书③杜威十进分类法(DDC)与国际十进分类法(UDC)DDC:DeweyDecimalClassificationUDC:UniversalDecimalClassification《杜威十进分类法》受美国圣路易斯市图书馆哈利斯分类法的影响,根据17世纪英国哲学家培根关于知识分类的思想,将人类知识分为记忆(历史)、想象(文艺)和理性(哲学、即科学)三大部分,并将其倒置排列,展开为10个大类。国际十进分类法(UDC)又称通用十进分类法,是在杜威十进分类法的基础上发展而成的,使用十分广泛。9.1信息检索基础000总论100哲学200宗教300社会科学400语言500自然科学和数学600技术(应用科学)700艺术、美术和装饰艺术800文学900地理、历史及辅助学科杜威十进分类法(DDC)与国际十进分类法(UDC)0总类、科学和知识1哲学、心理学2宗教、神学3社会科学4(语言)5数学和自然科学6应用科学、医学、技术7艺术、娱乐、体育8语言、语言学、文学9地理、传记、历史LC共分20个大类,其中历史占3个大类,军事占2个大类。《美国国会图书馆分类法》(LC)A总论B哲学、心理学、宗教C历史辅助科学D历史:世界史及世界古代史E/F历史:美洲史G地理、地图、人类学、娱乐H社会科学J政治学K法律L教育M音乐N美术P语言、文学Q自然科学R医学S农业T技术U军事科学V海军科学Z目录学、图书馆学分类号是字母与数字的组合,如:SB191.P64爆裂玉米SB351.C7甜玉米D-2.主题检索语言直接以自然语言中代表事物、问题和现象的术语作为表达信息主题内容的检索标识。从主题概念入手,强调点的作用,具有准确,专指度、查准率比较高的特点,满足特性检索(与族性检索相对应)。9.1信息检索基础9.1信息检索基础现举例说明信息存储和信息检索的过程。有3篇文献:文献1:AModelofmultimediainformationretrieval文献2:TheInformationretrievalinchemistryWWWserver文献3:ERICresources9.1信息检索基础信息存储过程中,对3篇文献的内容进行分析,并使用检索语言对其进行标引,标引结果为:文献1:篇名(title):AModelofmultimediainformationretrieval主题(subject):informationretrieval,multimediacomputerapplicatons文献2:篇名(title):TheInformationretrievalinchemistryWWWserver主题(subject):chemistry,educationalmaterials文献3:篇名(title):ERICresources主题(subject):educationalmaterials标引后,这3篇文献分别被存储到数据库。9.1信息检索基础信息检索过程中:¾如果用户输入“informationretrieval”一词,并将检索范围限定在篇名中,则文献1、文献2符合用户要求,成为检索结果。¾如果用户输入“informationretrieval”一词,并将检索范围限定在主题中,则只有文献1符合用户要求,成为检索结果。¾如果用户输入“educationalmaterials”一词,并将检索范围限定在主题中,则文献2、文献3符合用户要求,成为检索结果。¾如果用户输入任意其他词汇如“mathematics”,则没有任何检索结果。¾这里,“informationretrieval”、“educationalmaterials”等就是检索语言,即具体的检索词,篇名和主题就是检索语言的标识。检索系统就是通过他们将用户需求与信息内容进行匹配运算,昀终找到检索结果的。9.1信息检索基础(1)检索途径A.主题途径按照文献信息主题内容进行检索的途径。专指度比较高。B.分类途径用分类号表达信息需求内容的检索途径。分类途径检索可以把同一学科的文献信息集中检索出来,泛指度比较高。不利于对新兴学科、边缘学科的文献检索,易于漏检和误检。9.2信息检索途径、方法与步骤C.责任者途径责任者包括著者、编者、译者等,是一种常见的检索途径。责任者单位检索途径是根据责任者所在机构的名称检索文献的途径。以责任者为线索可以检索同一作者在同一领域或不同领域的所有文献信息,系统、连续地掌握他们的研究方向和研究水平。D.其他途径包括号码、代码、引文等多种途径。如:专利号、报告号、合同号、标准号、标准书号、标准刊号、分子结构代号等。9.2信息检索途径、方法与步骤(2)检索方法A.常用法包括顺查法、倒查法、抽查法三种。①顺查法从用户要求查找的年代,或从课题分析所得出的该课题研究的起始年代开始,顺着时间的推移由远及近地查找文献的方法。运用该方法查找文献,查到的文献全面、系统、可靠,查全率比较高,在一定程度上可以反映该课题研究发展的全过程。不足之处是:耗时费力,效率较低。该方法适合重大课题或新课题文献检索。9.2信息检索途径、方法与步骤②倒查法逆时间顺序,由近及远地往前追溯查找文献的方法。检索时,从当前开始,逐年向前查找,直到查找的结果满意为止。该方法比较节省时间,但对周期性或阶段性研究的课题,如果未查到课题研究的起始阶段,易造成漏检。适合检索前人未研究过的新课题,或前人虽有研究,但依然有研究价值,或在工作中碰到问题需要解决,查找解决问题的办法。9.2信息检索途径、方法与步骤③抽查法针对某一学科的发展特点,在发表文献较多的一段时间内(几年或十几年)进行检索,用以解决要求快速检索的课题。前提是充分了解该学科和课题研究发展的历史背景。9.2信息检索途径、方法与步骤B.追溯法包括参考文献法和科学引文法。①参考文献法利用已有文献后面所附的参考文献查找到一批文献,又利用这批文献后面的参考文献继续追溯检索的方法。利用这种方法,可以不断扩大文献线索,产生“滚雪球”式的检索效果。运用这种方法,昀好先获得几篇与研究课题有关的综述文献。综述文献往往附有较多参考文献。如果综述引用文献全面、权威,效果会非常好。这种方法容易漏检。追溯年代越远,所获得的文献越陈旧。9.2信息检索途径、方法与步骤②科学引文法从被引用文献查找引用文献的方法。通过对先期文献被当前文献的引用,来说明文献之间的相关性,以及先前文献对当前文献的影响力。例如:从
本文标题:文献信息检索方法与技术
链接地址:https://www.777doc.com/doc-47440 .html