您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 综合/其它 > 第一章 信息检索基础-第二章 检索语言
2020/2/101文献检索课件主讲:侯方元QQ:1712403947E-mail:1712403947@qq.com2020/2/102第一章信息检索基础第二章检索语言第三章工具书第四章检索策略和方法第五章光盘检索、联机检索第六章网络信息检索概述第七章网络数据库检索目录2020/2/103绪论1.文献的含义(P3)古代含义:指一切文化典籍和历代有识之士的所有著述。(宋)朱熹:“文,典籍也;献,贤者也。”现代含义:文献是指“记录有知识的一切载体”。(《文献著录总则》)2020/2/1042.信息的含义:广义:指自然界和一切人类活动所传达出来的信号和消息,是事物表现的一种普遍形式。狭义:指经过搜集、记录、处理和存储的可供检索的文献、数据和事实。2020/2/1053.信息的巨大影响和价值兰德公司经典案例:在美国出兵朝鲜之前,美政府曾请美国著名的咨询机构兰德公司做一预测:如果美国出兵朝鲜,中国会不会出兵?兰德公司请了大批资深专家,从中共历史、军力、国际关系、甚至中共领袖性格等各方面做了精深的分析,最后得出结论是:“中国将出兵朝鲜”。只有一句话,要价150万美元。美国国防部认为是敲诈,不予理睬,在自认为中共不敢出兵的假设下,冒险出兵,结果“在错误的时间,在错误的地点,与错误的敌人进行了一场错误的战争”。2020/2/106从朝鲜战场回来的美军总司令麦克阿瑟将军得知这个研究之后,感慨道:“我们最大的失策是怀疑咨询公司的价值,舍不得为一条科学的结论付出不到一架战斗机的代价,结果是我们在朝鲜战场上付出了830亿美元和十多万名士兵的生命。2020/2/107一个科研人员的时间分配表查资料计划思考实验研究写报告查资料50%写报告10%实验研究30%计划思考10%如何从信息的海洋中获取我需要的知识?我们被信息的海洋包围着,但是却被知识饿死了!2020/2/109开设这门课的目的是:面对日益增长的信息资源,如何通过一种有效的方法,以最少的时间与精力来获取最全面或最准确的自己所要的信息──这就是信息检索所要解决的问题。2020/2/1010怎样学好信息检索课陆游《冬夜读书示子聿》:古人学问无遗力,少壮工夫老始成。纸上得来终觉浅,绝知此事要躬行。这是陆游的一首教子诗,诗人就知识的获取,从两方面谈了自己的看法:一是要花气力,一是“要躬行”。诗中表达的思想不仅是冬夜读书的体会,更是诗人勤奋学习的经验总结。2020/2/1011第一章信息检索基础第一节信息概述第二节信息检索概述2020/2/1012信息的类型基于广义信息概念的信息分类(1)依据信息的产生,可以分为社会信息和自然信息。(2)依据信息的运动状态,可以分为自在信息、自为信息和再生信息。第一节信息概述2020/2/1013基于狭义信息概念的信息分类根据信息的载体形式的不同,可将其分为印刷型信息、缩微型信息、机读型信息、声像型信息(也称视听型信息)四种。(P7)2020/2/1014按照信息的加工处理程度,可以分为零次信息、一次信息、二次信息和三次信息。(P8)2020/2/1015零次信息零次信息零次信息零次信息一次一次二次三次工具书………………原始信息2020/2/1016连连看学位论文书目报刊论文年鉴专著综述一次信息二次信息三次信息2020/2/1017按信息的出版发行特点,信息可分为正式出版信息和非正式出版信息。正式出版信息指公开出版发行的信息,主要包括图书、期刊、报纸等。(P5)什么是图书?出版界常说的ISBN是指什么?2020/2/1018图书定义:据联合国教科文组织规定,49页以上装订成册的印刷品称为图书,5-48页的称为小册子,4页以下的称为零散资料。特点:内容系统、全面、成熟,但出版时间较长,一般不能迅速反映最新科研成果。2020/2/1019ISBN:凡正式出版的图书均有国际标准书号ISBN(InternationalStandardBookNumbers)。如:ISBN7-300-02685-0,“7”表示中国,“300”表示中国人民大学出版社,“02685”表示该出版社出版的《情报学概论》一书,“0”表示计算机校验位。2020/2/1020图书的分类根据用途,图书可以分为阅读类图书和检索类图书。根据出版形式,图书还可以分为:单卷书、多卷书和丛书。丛书就是相关的一系列化的书籍。如《管理学丛书》等。2020/2/1021什么是期刊?期刊又称杂志,是一种有固定的名称,统一的版面形式,按期出版,标有刊期等序号的连续出版物。出版界常说的ISSN是指什么?正式出版的期刊均有国际连续出版物标准刊号ISSN(InternationalStandardSerialNumbers)。如:ISSN1005-4189。2020/2/1022期刊的特点期刊是科研工作者获取知识信息的主要来源。(70%)具有周期短、时间性强、反映新成果及时、内容新、信息量大等特点。2020/2/1023报纸属不属于连续出版物?它有什么特点?报纸发行广泛、传递迅速、信息量大、政策性强。2020/2/1024非正式出版信息非正式出版信息,又叫半文献、灰色文献,指非公开出版的内部文献信息资料。它具有信息量大、形式多样、载体不固定等特点。2020/2/1025非正式出版的信息包括:会议文献、政府出版物、学位论文、档案、标准、专利、产品样本、研究报告等。(P6-7)2020/2/1026选选看:以下属于灰色文献的是:()A.旧杂志《小小说选刊》B.专利文献、会议记录C.教材D.讲义E.复印的图书资料F.漫画书、连环画BDE2020/2/1027第二节信息检索概述广义:信息检索包含信息存储和信息获取两个过程。狭义:指通过一定的方法,从已存储的信息中检索出与用户提问相关的文献、数据和事实的过程,即根据用户的特定要求查找所需信息的过程。一、信息检索的概念2020/2/1028二、信息标识与检索提问的匹配是信息检索的基本原理:评价/反馈检索结果比较与匹配检索提问信息需求表达信息标识标引信息2020/2/10292020/2/10302020/2/1031三、信息检索效果的评价指标:主要有查全率、查准率、漏检率、误检率和响应时间等。查全率=[检出相关文献信息量/检索系统中相关文献信息总量]*100%查准率=[检出相关文献信息量/检出文献信息总量]*100%漏检率=[漏检相关文献信息量/检索系统中相关文献信息总量]*100%误检率=[误检文献信息量/检出文献信息总量]*100%2020/2/1032算算看:检索系统中信息总量为50000条,其中的相关信息总量为100条,共检出信息60条,其中含有相关信息50条,不相关信息10条,则此次检索的查全率、查准率、漏检率、误检率各为多少?2020/2/1033答:查全率=50/100*100%查准率=50/60*100%漏检率=(100-50)/100*100%误检率=10/60*100%2020/2/1034第二章检索语言第一节检索语言的概念和分类第二节分类语言第三节主题语言2020/2/1035第一节检索语言的概念和分类一、检索语言的概念广义的检索语言泛指信息检索过程中涉及的人工语言和自然语言。狭义的检索语言是指把文献的存储与检索联系起来,把标引人员和检索人员沟通起来的约定人工语言。(P18)2020/2/1036二、检索语言的分类(一)题名语言著者语言号码语言分类语言主题语言按描述文献的特征描述文献内容特征的语言描述文献外表特征的语言2020/2/1037检索语言的分类(二)按语言的规范程度,可分为人工语言和自然语言。目前,由于计算机技术的发展,二者有走向融合的趋势。2020/2/1038人工语言把检索语言中的同义词、近义词、相关词、多义词等进行规范化处理,尽量使每个检索词只能表达一个概念,包括分类检索语言、主题检索语言、代码检索语言等。如土豆-马铃薯,芋头-芋艿,老子-父亲、道家学派创始人、老聃、李耳、《道德经》、自称。查全率和查准率都比较高,但标引复杂,不易掌握。2020/2/1039自然语言是与人工语言相对应的一个概念,就是从信息内容本身直接抽取的,对检索语言中的同义词、多义词等不加处理,取其自然状态,因此称自然语言。如关键词、题名、全文、引文等检索语言。检索方便,但词义模糊,词汇量大,容易漏检或误检。2020/2/1040第二节分类语言一、概念和结构:分类语言也称分类法,是将许多类目根据一定的原则组织起来,通过标记符号(分类号)来代表各级类目和固定其先后次序的分类体系。2020/2/1041包含三种最基本的要素:1.类目2.标记符号3.说明与注释分类语言结构2020/2/1042A马克思主义、列宁主义、毛泽东思想、邓小平理论各国出版的马克思、恩格斯、列宁、斯大林、毛泽东、邓小平著作的译本或汇编本,如果编译有错误或被歪曲者,应通过目录组织区别开来。类目标记符号说明与注释2020/2/1043二、类目的划分被分的类目称为母类或上位类,分出来的类目称为子类或下位类。2020/2/1044类目之间的相互关系从属关系并列关系交替关系相关关系2020/2/1045从属关系从属关系又称隶属关系,指类目体系中母类与其子类的关系,体现为上位类与下位类的关系,这种关系构成了分类法类目的纵向排列。2020/2/1046并列关系1.同位类是指由一个上位类直接区分出来的各个下位类,它们之间不相从属,相互排斥,处于同等地位。2.并列关系又称同位关系,在分类体系中体现为同位类的关系。2020/2/1047如:F经济F0政治经济学F1世界各国经济概况、经济史和经济地理F2经济计划与管理F3农业经济F4工业经济其中,是从属关系,是并列关系。2020/2/1048交替关系指使用类目和交替类目之间的关系。有的学科或事物分属两个门类,编制分类法时确定归入一个门类,同时在另一个门类设交替,以适应学科的交叉关系,集中同一主题的相关文献。如:B035国家理论宜入D03(“政治理论”下的“国家理论”类)2020/2/1049相关关系有些类目之间存在密切的关系,而这些类目又不属于一个类系,这种类目之间的关系称为相关关系。有着相关关系的类目,称为相关类目,或参见类目、参照类目。如:O212数理统计参见C8(统计学)2020/2/1050三、中国图书馆分类法(P19)是由国家图书馆等单位组织全国力量,以学科分类为基础,并结合图书的特性所编制的分类法。是由5大部类、22个大类、6个总论复分表、30多个专类复分表、4万余条类目组成的一个完善的分类体系。它的分类号采用的是拉丁字母与阿拉伯数字相结合的混合式号码,一个字母代表一个大类,字母后用数字表示大类下类目的划分。标记制度基本采用层累制。2020/2/1051《中图法》基本部类和大类基本部类大类马克思主义、列宁主义、毛泽东思想、邓小平理论A马克思主义、列宁主义、毛泽东思想、邓小平理论哲学B哲学、宗教社会科学C社会科学总论D政治、法律E军事F经济G文化、科学、教育、体育H语言、文字I文学J艺术K历史、地理2020/2/1052《中图法》基本部类和大类基本部类大类自然科学N自然科学总论O数理科学和化学P天文学、地球科学Q生物科学R医药、卫生S农业科学T工业技术U交通运输V航空、航天X环境科学、安全科学综合性图书Z综合性图书2020/2/1053杂志《读者》()杂志《法制世界》()杂志《环境保护》()杂志《管理科学文摘》()图书《管理会计学》()图书《钢铁材料及有色金属材料》()小说《钢铁是怎样炼成的》()图书《保险法》()图书《保险利益研究》()图书《电脑使用基础》()Z2/5或G或ID9/6X3/1Z89:C93I512.4F234.3/7TG14/1D922.284/1F840/26TP36/211填填看:以下书刊应分在哪一类?2020/2/1054四、分类语言的优缺点:优点:系统性强,族性检索,便于按学科、专业直接检索比较广
本文标题:第一章 信息检索基础-第二章 检索语言
链接地址:https://www.777doc.com/doc-3621259 .html