您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 第二章 信息检索的基本原理..
QQ群:186097216目录第一节信息检索的涵义及类型第二节信息与信息源第三节信息检索方法与步骤第四节信息检索效果的评价4123第一节信息检索的涵义及类型广义:是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程和技术。全称为“信息存储与检索”。狭义:是指该过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查寻。信息检索的原理:就是将读者(用户)的信息需求与存贮在信息集合体中的信息进行比较和选择,即匹配(match)的过程。即对信息集合与需求的匹配与选择。信息检索的类型根据信息检索对象形式不同,分为:分类检索内容书目检索以文献线索为检索对象的文献检索;信息用户通过检索获得的是与检索课题有关的一系列文献线索,然后再通过阅读决定取舍。全文检索以文献所含的全部信息作为检索内容的;可以查找到原文或相关的句、段、节、章等文字。计算机检索发展趋势之一数据检索以数值或图表形式表示的数据为检索对象;数据检索是一种确定性检索,用户检索到的各种数据是经过专家测试、评价、筛选过的,可直接用来进行定量分析。事实检索以从文献中抽取的事项为检索内容;包括事实、概念等非数值信息和数据信息;确定性检索,用户获得的是有关某一事物的具体答案信息检索的类型根据信息储存媒体和检索手段不同,分为:分类检索工具利弊应用备注手工检索(手检)书本式和卡片式的书目、索引、文摘和各类工具书优点:方便、灵活、直观,查准率较高,回溯查找的年份不受限制缺点:检索效率低,漏检现象比较严重,不利于进行复杂概念课题的检索。查找数据库中通常没有收录的文献依靠印刷载体,由人脑进行筛选计算机检索计算机设备、终端、通信设施、数据库和检索应用软件等优点:速度快、效率高、查全率高。缺点:成本高、费用大、回溯年份有限。光盘检索系统、联机系统和互联网信息检索系统利用计算机存储和检索信息信息检索的类型根据信息检索信息形式不同,分为:分类检索内容文本检索(自然语言检索)不对文献进行任何标引,直接通过计算机以自然语言中的词语匹配查找的系统。多媒体检索能够支持两种以上媒体的数据库检索,查找含有特定信息的多媒体文献的检索。超文本检索用超链接的方法,将各种不同空间的文字信息组织在一起的网状文本。我们日常浏览的网页上的链接都属于超文本。检索的作用1.与时俱进,跟踪所关注问题的最新动态2.节省查找信息的时间,提高学习或工作效率3.知识创新需要检索信息,避免重复研究走弯路找什么?怎么找?怎么利用?信息资源的类型(类型、特点、作用)检索原理与技术(检索原理、方法和途径;常用数据库介绍、网上资源检索、特种文献检索等)分析、组织、管理信息检索第二节信息与信息源信息论的奠基人,美国数学家克劳德·香农(ClaudeE.Shannon):“信息是用来消除不确定性的东西。”控制论的创始人,美国科学家维纳(N.Wiener):“信息是人们在适应外部世界并使这种适应反作用于外部世界的过程中,同外部世界进行相互交换的内容的名称。”中国学者钟义信:“信息是事物运动的状态与方式,是物质的一种属性。”一、信息(一)什么是信息?(Information)(一)什么是信息“信息是事物运动的状态与方式,是物质的一种属性。”“信息”是我们的一个生存环境,吸收信息的内容和层次决定所处水平和层次,吸收与获得信息的层次越高越准确,则思考方式就越准确,找到问题的解决方案也就越准确,获得的物质与精神报酬就越来越高。信息爆炸客观性载体性传递性可塑性时效性信息的使用周期越来越短可以进行加工和处理必须依附于一定的载体才能流通和传递是实现信息资源共享的基础共享性可被多个用户使用信息可被感知、获取、传递和利用(二)信息的特征二、信息源信息源,顾名思义,就是信息的来源。联合国教科文组织出版的《文献术语》将其定义为:个人为满足其信息需要而获得信息的来源。表达方式潜在信息资源---在认识和创造过程中储存在大脑中的信息资源,不具有广泛传播和长久保存的能力,不能被他人利用现实信息资源-表达后能为他人利用的资源口语信息资源-讲演体语信息资源-舞蹈实物信息资源-文物文献信息资源-文字第二节:信息源的主要类型1、根据载体形式划分2、按结构等级(文献的加工程度)划分3、根据编辑出版形式划分1、根据载体形式划分印刷型缩微型机读型视听型图书连续出版物资料缩微平片缩微胶卷缩微胶片磁带、磁盘光盘联机网络版录音带、录像带唱片、幻灯片电影胶卷信息等级2、按加工处理的深度划分零次信息:普通网页,电子邮件等一次信息:以作者本人的生产和科研工作为依据而创作的原始信息。如正式在期刊上发表的论文、专著等。二次信息:将分散无序的一次信息进行加工整理后,使之成为系统有序的信息。如数据库中的题录、目录、搜索引擎等。三次信息:根据二次信息提供的线索,利用一次信息,经过调研、分析、综合而形成的。如百科全书、文献综述、进展报告等。零次信息未正式发表的口头、书面或电子形式的文献,也称为“半文献”。如私人笔记、文章草稿、会议记录、书信文稿及各种内部档案等。网上零次信息对应于网上信息资源,属于零次信息范畴的有:E-mail、BBS、QQ、NEWSgroup以及非专业权威网站上发布的信息等等。零次信息的特点①数量多,内容新,更具有启发性;②信息反馈迅速、及时、准确;③具有高度选择性和针对性;④有限性和不可靠性,要特别提防虚假信息。一次信息(多指一次文献)一次文献通常是指发表在正式出版的书刊上的的文献,一次文献通常是以作者自己的研究成果、工作经验和实践体会为原始依据而形成的,这类文献中包含有大量的最新信息。一次文献的特点①内容比较具体、丰富,具有新颖性、创造性、系统性等特点;②经过权威机构筛选,科学性基本有保证;③可以回溯检索,不像新闻那样有时效性;④由于数量巨大,往往检索困难。一般都是首先检索二次文献后,再去查阅一次文献。另外网上一次文献资源相对较少。二次信息是对一次文献加工、提炼和浓缩而成。是将分散、无序的信息转变成有序的、便于管理的系统。包括目录、题录、文摘和索引等检索工具,可对一次文献进行报道和线索指引。对应于网上信息资源,属于二次信息范畴的有题录数据库、网上图书馆目录等等。二次信息的特点①具有浓缩性、汇集性、有序性等特点,检索方便,网上二次信息资源丰富;②除网上图书馆目录可以免费获取外,大型数据库的检索一般均须付费;③受加工和出版周期的影响,一般二次信息比一次文献要晚一段时间。三次信息源用科学方法和专业知识对一次文献和二次文献进行汇集、综合、分析、详述等深度加工而形成的。它包括手册、百科全书、年鉴、名录、指南等参考工具书。还有二次书目、指南以及综述性、评论性文献都属三次文献范畴。三次文献的特点①权威性强,一般读一篇综述即可了解某一领域某段时间的全部发展情况,对科研指导性强;②资源相对稀少,没有专门的三次文献数据库,一般分散在二次文献数据库中,或字典、词典、辞典、百科全书、专题目录、数据手册等工具书中③加工和出版周期更长,甚至可能比二次文献还晚数年。一次信息二次信息三次信息期刊论文会议论文科技报告专利说明书学位论文标准目录文摘索引百科全书手册年鉴词典综述述评记录知识的产生传播信息的利用某些数据库信息级别示意图几点启示1、使用搜索引擎得到的零次文献较多,但这绝不是无用的文献,要善于从零次文献中获取有用信息,作为获取一次文献的线索。2、写作论文必须依据一次和三次文献。著录格式则必须按二次文献的格式写作。3、检索信息主要靠二次文献,因此,熟悉二次文献的著录格式和检索点非常重要。4、三次文献是“关于文献的文献”,是最难写作的文献类型。论文文献综述恰恰属于此类。3.根据信息源的编辑出版形式划分图书连续出版物特种文献普通图书工具书期刊型书籍报纸期刊科技报告专利文献学位论文标准规范政府出版物产品资料会议文献小结:十大信息源(1)科技图书(6)科技报告(2)科技期刊(7)政府出版物(3)会议文献(8)标准文献(4)专利文献(9)科技档案(5)学位论文(10)产品样本特种文献第三节信息检索途径与步骤(一)信息检索的途径1、文献外部特征的检索途径(1)责任者途径(著者姓名途径)(2)题名途径(书名途径)(3)文献类型途径(4)代码途径(序号途径)以文献的编号为特征,检索文献的途径。根据一些文献类型的特有标识,如科技报告的报告号;专利文献的专利号、入藏号,合同号,技术标准的标准号;ISSN,ISBN等作为检索点。常用文献类型用单字母标识,具体如下:(1)期刊[J](journal)(2)专著[M](monograph)(3)论文集[C](collectedpapers)(4)学位论文[D](dissertation)(5)专利[P](patent)(6)技术标准[S](standardization)(7)报纸[N](newspaperarticle)(8)科技报告[R](report)各种文献的识别要素、特点与主要用途对比类型代码识别(检索)要素特点主要用途图书/专著[M]书名、著者、出版地、出版社、出版时间、总页数、ISBN等内容系统、全面、论点成熟、可靠,但出版周期长,传递速度慢①系统学习知识;②了解关于领域知识概要;③查找某一问题的具体答案期刊[J]期刊名称、期刊出版的年、卷、期、ISSN能及时反映各学科的最新动向和科学研究的最新成果①了解与自己的课题相关的研究状况,查找必要的参考文献;②了解某学科水平动态;③学习专业知识会议论文[C]会议名称、会址、会期、主办单位、会议录的出版单位水平高、针对性强、发表快,观点可能不成熟,但内容新①做学术研究时,了解与自己的课题相关的研究状况,查找必要的参考文献;②了解某学科水平动态学位论文[D]学位名称、导师姓名、学位授予机构数据图表详尽、参考文献丰富、可得到课题研究综述、课跟踪导师的科研进程①科研开题前的文献调查;②博硕士撰写开题报告;③学习学位论文的写作方法;④追踪学科发展、研究过程各种文献的识别要素、特点与主要用途对比类型代码识别(检索)要素特点主要用途专利[P]专利号、专利名称、发明人、申请人数量庞大、报道快、学科领域广阔、内容新颖、具有实用性和可靠性①在申请专利前查有无重复②开发新产品③了解某领域的技术水平及发展的最新动态④专利诉讼时查有无侵权标准[S]标准级别、标准名称、审批机构、标准号、颁布时间、实施时间能较全面地反映标准制订国的经济和技术政策,技术、生产及工艺水平,自然条件及资源情况等①产品设计、生产、检验;②工程设计、施工;③进出口贸易科技报告[R]报告名称、报告号、研究机构、报告来源、完成内容新颖、详细、专业性强、出版及时、传递信息快,但具有保密性,不易获取原文①了解与自己的课题相关的研究状况,查找必要的参考文献;②研究尖端学科或学科的最近研究课题报纸[N]报纸名称、报纸的出版日期(版次)具有时事性、时效性、普及性、大众性,出版周期短,传递信息快速,传播范围广①找关于国内外或本地新闻;②找社论、评论、专家或者大众的观点;③大众的或者通俗类信息;④地方性或者区域性信息政府出版物出版机构、报告名称、报告来源具有正式性、权威性的特点,内容可靠了解一个国家的科技政策、经济政策以及科技活动和水平,具有一定的参考价值国际通行的出版物代码,由13位阿拉伯数字组成,ISBN号具有专指性,唯一代表某种书的某一版本,2007年1月1日起正式使用13位ISBN号。前缀号:国际物品编码协会(ENA)为图书分配的商品代码。目前使用978,预留979。组号:组号是国家、地区、语言或其他组织集团的代号。由国际书号中心(InternationalISBNagency)负责分配。中国组号为一位数字“7”。出版社号:由国家标准书号中心负责分配,其位数视申请出版社图书出版量多少而异。书序号:由出版社负责管理分配,每个出版社所出各种图书的序号校验号:是校验ISBN编号是否合法。978-7-118-05497-2前缀号组号出版社号书序号校验号例:国际标准书号(一)信息检索的途径2、文献内容特征的检索途径
本文标题:第二章 信息检索的基本原理..
链接地址:https://www.777doc.com/doc-3637319 .html