您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 资本运营 > 南昌大学文献检索课件(全)-1-1
教学目的和任务:本课程是一门实践性很强的科学方法课,其教学目的有两个:一个是培养学生的信息意识(内在动因);另一个是训练学生的检索技能(教学活动的最终目的)。开设本门课程的任务是:通过本课程学习,使学生了解各自专业及相关专业文献概况,掌握信息检索的基本原理与方法,掌握信息检索的检索方法及技巧,从大量的文献信息源中快、准、全地获取有用的信息。学时学分:20学时、2学分授课方式:课堂讲授(多媒体教学)检索实习(计算机检索)实习和考试地点:图书馆电子阅览室考试形式:开卷考试要求:1、认真对待每一次实习,并当堂完成实习报告2、遵守图书馆的规章制度:保持室内安静,不准高声喧哗;保持室内环境卫生,严禁吸烟、随地吐痰、乱扔纸屑,不得在门窗、桌椅上乱涂、乱划。3、上机实习时禁止玩游戏、聊天、看电影等。4、实习作业要求独立完成,不得相互抄袭,违者双方实习成绩均以零分计。第一单元信息检索基础知识1.1信息与文献1.1.1信息、文献1、信息信息是既古老又年轻的一个词汇。字面上:信息是音信、消息的意思。本质上:信息是客观事物的存在方式和运动状态的反映。(物质的属性)数字信息是以数字化形式存储和检索的信息。2、文献文献是记录有知识和信息的一切载体。具体地说,文献是将知识和信息用文字、图表、图像、音频、视频等记录在一定的物质载体上的结合体。它由4个要素组成:①所记录的知识和信息,即文献的内容。②用于记录知识和信息的物质载体。③记录知识和信息的符号。④记录的方式或手段。文献的类型多种多样。1、按载体形式(即按信息存储载体的物质形态)分可分为:印刷型缩微型电子型(机读型)声像型(视听型)1.1.2文献类型(信息源)印刷型文献(传统的文献形式)载体:纸张记录手段:手写、印刷等;记录符号:文字、图表等;优点:便于阅读和流通;缺点:存储密度低、占用储藏空间多,不易管理和保存等。电子型文献(文献的发展方向)电子型文献:(前身是机读型文献)是指把原有的论文、照片、录音和图像等非数字信息,运用数字化技术处理后存贮在一定的介质上,成为计算机可以读取、检索的数字信息。载体:磁带、磁盘、光盘等磁性或光学信息介质;记录手段:打字、穿孔、光学字符识别等;种类:电子图书、电子杂志、电子报纸、联机数据库、网络数据库、光盘数据库、计算机软件等。优点:存储密度高,存储速度快、信息处理方便等;缺点:使用费用高等。电子文献按载体形式分:2、按文献内容加工情况(即按信息的加工深度和结构等级),分为:一次文献(原始文献);二次文献(检索工具)(主要用于文献检索);三次文献(参考性文献)(主要用于事实与数据检索)。3、按出版形式(即信息的不同出版类型),可分为:图书、报刊(连续出版物)、科技报告、会议文献、专利文献、标准文献、产品样本、学位论文、档案文献、政府出版物等。非书非刊的文献统称为特种文献。1.2信息检索与检索系统1.2.1信息检索信息检索(InformationRetrieval)广义的“信息检索”概念包括两个方面:其一,将信息按一定的方式组织存储起来(存储过程);其二,根据信息用户的需要找出有关信息(检索过程)。狭义的信息检索则仅指后者。即指根据信息用户的需要,运用检索工具或书目数据库等信息集合,从中查找所需信息的过程。信息检索基本原理特征化表示特征化表示信息需求信息集合个人问题与知识匹配与选择外部知识信息检索的基本原理,我们可以用一句话把它最本质的部分概括为:对信息集合与信息需求的匹配与选择。1.2.2检索系统检索系统(Informationretrievalsystem)是利用一定的设备和方法从某种载体(书本、胶卷、磁带、光盘、网络等)上的文献、事实或数值记录等信息集合中查找所需信息的系统。检索系统具有存储和检索两种基本功能。检索系统按其功能可分为:目录检索系统文献检索系统事实检索系统检索系统按所使用的技术手段可分为:手工检索系统计算机检索系统已知条件检索性质检索工具检索结果目录检索期刊刊名或图书名确定性检索馆藏目录(联机公共检索目录OPAC)收藏单位(收藏地)文献检索课题相关性检索题录、文摘及相应的数据库(全文数据库)文献线索或全文(原始文献)事实检索事实、数据确定性检索词典、年鉴等、网上搜索引擎等(源数据库)事实、数据计算机检索系统与手工检索系统比较,有以下优点:a、检索速度快;b、检索点多,检出率高,且能满足多元检索的要求;c、信息量大,信息内容更新快;d、能充分达到资源共享的目的;e、服务方式和输出方式灵活多样。计算机检索系统一般由硬件、软件和机读数据库组成。应用软件系统软件硬件部分软件部分数据库硬件部分:它是系统采用的各种硬设备的总称。软件部分:它是信息检索系统有关的程序和各种文件资料的总称,包括系统软件和应用软件。数据库:数据库是在计算机上按一定方式合理存放的相互关联的数据的集合。它由文档、记录、字段组成。通常有题录数据库、文摘数据库、指南数据库、数值数据库、全文数据库等。检索是针对数据库进行的,数据库是计算机可读数据的集合。数据库主要包括四个部分:检索界面模块:接受用户检索要求,有一般检索界面和高级检索界面。检索策略模块:将用户输入的检索要求编制成计算机可执行的规范化检索式。检索执行模块:利用检索式检索索引数据库,并保证检索的速度和准确性。检索结果组织模块:对检中记录的整理组织。数据库类型:1、目录型数据库2、题录型数据库3、文摘型数据库4、全文型数据库5、指南数值型数据库数据库由文档、记录、字段组成。1)目录目录(catalog)是图书、期刊等单位出版物外表特征的揭示和报道,是按某种顺序编列的文献清单。在信息检索中,目录主要用于查找所需文献的收藏单位(即馆藏信息)。目录主要有馆藏目录、联合目录、联机公共检索目录(OPAC)。2)题录题录是单篇文献外表特征的揭示和报道。主要用于查找最新的相关文献线索。05063821基于加权概念网络的用户兴趣建模/许欢庆;王永成(上海交通大学计算机科学与工程系)//上海交通大学学报(上海),-2004,56(1).-56-613)文摘文摘(abstract)是系统著录、报道、积累和揭示文献外部特征和内容特征的检索工具(即为带有内容简介的、扩展了的题录),是最常用的文献检索工具。文摘既可用于查找最新的文献线索,又可用于了解文献的主要内容。05063821基于加权概念网络的用户兴趣建模/许欢庆;王永成(上海交通大学计算机科学与工程系)//上海交通大学学报(上海),-2004,56(1).-56-61提出了一种基于加权概念网络(WCN)的用户兴趣建模方法,该方法利用动态学习算法,挖掘蕴含在用户反馈文档中的概念及其概念关系,建立WCN的用户模型,从而捕捉和表述用户兴趣偏好.基于WCN用户兴趣模型,提出了检索提问个性化理解以及文档个性化重评价的实现方法.为了检验提出方法的建模性能,设计了信息过滤仿真试验.测试结果表明,WCN有较好的用户建模性能.4)索引索引就是将文献中的一些检索标识(如人名、题名、分类号、主题词等)分别摘录出来,并注明它们所在的位置(如题录号、文摘号等),再按一定的规则排列和组织,一般只起指引特定信息内容及其存储地址的作用。索引不能作为一个单独的检索系统存在,它是目录、题录、文摘检索系统中的一个重要组成部分,在检索系统中占有重要位置,它提供了从不同角度(检索点)对特定信息集合检索的途经。不同的检索标识系统构成不同类型的索引:著者索引主题索引分类索引题名索引号码索引1.3计算机信息检索技术1、布尔逻辑组配检索技术布尔逻辑组配检索:是指利用标准的布尔逻辑运算符(关系词)来限定检索词之间的逻辑关系的检索技术,它是现行计算机检索的基本技术。主要的布尔逻辑关系词有3种:与(AND)、或(OR)、非(NOT),其优先级依次为NOT、AND和OR,改变优先级的方法是使用括号(),括号内的逻辑式优先执行。①逻辑与(逻辑乘)用关系词AND或“*”表示,表示它所连接的两个检索词必须同时出现在结果中才满足检索条件。例如:美国*金融危机或:美国AND金融危机聚乙烯*复合材料*制备Intelligentandrobotandcontrol逻辑与是缩小文献检索范围,提高查准率,是具有概念交叉和限定关系的一种组配。②逻辑或(逻辑加)用关系词OR或“+”表示,表示它所连接的两个检索词中任意一个出现在结果中就满足检索条件。例如:金融危机OR金融风暴计算机or电脑or微机airplaneoraircraftorplane逻辑或用来扩大文献检索范围,提高查全率,是具有概念并列关系的一种组配。③逻辑非(逻辑减)用关系词not或“-”表示,表示它所连接的两个检索词中应从第一个概念中排除第二个概念。例如:AutomobileNOTtruck高等教育-成人教育逻辑非用来缩小文献检索范围,提高查准率。用A和B表示两个检索词,布尔逻辑关系词的逻辑组配关系如图所示:1.AandB2.AorB3.AnotB2、截词检索技术所谓截词检索,是指在检索式中用专门的截词符号(如“?”、“*”或“!”)表示检索词的某一部分允许有一定的词形变化,结果中只要包含其中任意一个就满足检索要求。截词检索的作用是对检索词进行截词处理,解决一个检索词的单、复数问题,不同词性的问题以及英美词汇拼写差异的问题等。由于截词检索是隐含的布尔逻辑或的检索,因此能够防止漏检,提高查全率。如“comput*”,其可变化的合法检索词有comput、computer、computing、computers、computering、computeriation.“comput*”的检索结果相当于:(computorcomputerorcomputingorcomputersorcomputeringorcomputeriation)的检索结果.后截词允许检索词尾部有若干变化形式,例如“compute?”就检出包含compute、computer、computerism、computerize、computerization等词汇的结果;中间截词,允许检索词中间有若干变化形式,例如wom*n就可以同时检索到含有woman和women的结果;前截词允许检索词的前端有若干变化形式,例如“?physics就可检得包含physics、astrophysics、biophysics、geophysics等词的结果。截词包括后截词、中间截词和前截词3、词位限定检索技术词位限定检索:也叫邻近检索,它主要是通过检索式中的专门符号(位置算符)来规定检索词在结果中的相对位置,主要用于词组检索和短语检索。常用的位置算符有(W)、(nW)、(N)、(nN)。(W)算符:(W)是with的缩写,它表示在此算符两侧的检索词必须严格按输入时的前后顺序出现在记录中,在两词之间不允许插入其他词或字母,只可有空格或一个标点符号。如:x(W)ray检索命中的记录中将有“xray”或“x-ray”等形式。(nW)算符:表示该算符两侧检索词的词序不变,但允许两词中间最多可插入n个其他检索词。如:state(2W)art在命中记录可能检出:“stateart”、“stateofart”、“stateoftheart”。(N)算符:N是near的缩写,它表示其两侧的检索词的词序可以颠倒,但在两词之间不能插入任何其他词。如:environment(N)protection可能检出:environmentprotection和protectionenvironment两个词组。上述位置算符按照限制程度的大小排序为:大WnWNnN小字段限定符(标识符):通常是两个缩写的字母,代表在数据库中的记录字段。如:TI代表题名(Title),AU代表著(作)者(Author)SO代表文献出处(Source)等。检索式:篇名=网络病毒and摘要=防治TI=“networkvirus”ANDAB=preserve;通常的字段限制范围的大小顺序是:题名关键词摘要全文4、字段限定检索技术限定检索字段,其作用是限制检索词在数据库记录中出现的字段位置。检
本文标题:南昌大学文献检索课件(全)-1-1
链接地址:https://www.777doc.com/doc-4765103 .html