您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 综合/其它 > 信息检索(西交大-工程硕士)
信息检索主讲:陈建兵信息检索的威力美国普林斯顿大学物理系一个年轻大学生名叫约瀚·菲利普,在图书馆里借阅有关公开资料,仅用四个月时间,就画出一张制造原子弹的设计图。他设计的原子弹,体积小(棒球大小)、重量轻(7.5公斤)、威力大(相当广岛原子弹3/4的威力),造价低(当时仅需两千美元),致使一些国家(法国、巴基斯坦等)纷纷致函美国大使馆,争相购买他的设计拷贝。信息检索的威力20世纪70年代,美国核专家泰勒收到一份题为《制造核弹的方法》的报告,他被报告精湛的技术设计所吸引,惊叹地说:“至今我看到的报告中,它是最详细、最全面的一份。”但使他更为惊异的是,这份报告竟出于哈佛大学经济专业的青年学生之手,而这个四百多页的技术报告的全部信息来源又都是从图书馆那些极为平常的、完全公开的图书资料中所获得的。信息检索的威力美国在实施“阿波罗登月计划”中,对阿波罗飞船燃料箱进行压力实验时,发现甲醇会引起钛应力腐蚀,为此付出了数百万美元来研究解决这一问题,事后查明,早在十多年前,就有人研究出来了,方法非常简单,只需在甲醇中加入2%的水即可,检索这篇文献的时间是10多分钟。在科研开发领域里,重复劳动在世界各国都不同程度地存在。据统计,美国每年由于重复研究所造成的损失,约占全年研究经费的38%,达20亿美元之巨。日本有关化学化工方面的研究课题与国外重复的,大学占40%、民间占47%、国家研究机构占40%,平均重复率在40%以上;我国的重复率则更高。•原始社会---占有更多的生活资料•奴隶社会---占有更多的奴隶•封建社会---占有更多的土地•资本主义社会--占有更多的生产资料•当今社会---占有更多的信息科学研究的特点科学研究和科技发展的最大特点是连续性和继承性。科学研究的这两大特点使科学研究几乎离不开记录科技活动的科技文献和信息,可以说没有科技信息就没有科学技术的发展。信息爆炸与信息检索信息爆炸是由于现代科技的特点造成的,高速发展、大规模、高集成度,边缘学科、交叉学科、横断学科层出不穷,新的成果从出现到应用的时间间隔越来越短等等,使得人们获取和利用有用信息越来越困难。美国著名未来学家阿尔文·托夫勒曾经在20世纪80年代初期提出:面对“第三次浪潮”文明的冲击,每个人都要自觉地扫除三种文盲,即文字文盲、计算机文盲和传播媒介文盲。当时互联网还没有出现,他指的传播媒介仍然是传统意义上的传媒。而今天人们已经能够很容易通过互联网来传播自己的观点。信息爆炸:A导致文献量急剧增加;B文献分布异常分散;C文献寿命越来越短吸收信息的能力不高:由于条件限制,人们吸收和利用情报的能力并未得到相应的提高。由于信息不灵科研项目的重复率大大高于世界发达国家。90年代中期以前,至少有40%在国外已取得了研究成果。9信息素养(InformationLiteracy)的概念于1974年由美国信息产业协会主席保罗·泽考斯基提出,是信息时代人才培养模式中出现的一个新概念,已引起了世界各国越来越广泛的重视。定义为“知道何时需要信息,并已具有检索、评价和有效使用所需信息的能力”已成为评价人才综合素质的一项重要指标。10信息素养内容信息能力Ⅰ信息挑选与获取能力Ⅱ信息免疫与批判能力Ⅲ信息处理与保存能力Ⅳ创造性的信息应用能力信息意识:Ⅰ信息第一意识Ⅱ信息抢先意识Ⅲ信息忧患意识Ⅳ再学习和终身学习意识信息品质Ⅰ较高的情商Ⅱ积极向上的生活态度Ⅲ善于与他人合作的精神Ⅳ自觉维护社会秩序和公益事业的精神一、信息、知识、文献某海军陆战队在原始森林进行为时一个月左右的生存实验,具体要求如下:第一,每个队员除了身上穿的衣服外,随身只能带三件物品,每件物品不能超过二公斤;第二,队员都是由飞机空降到半径为1000公里原始森林的中心地带,要求在一个月时间内从森林里走出来。问题:队员带哪三件物品合适?•理想的答案:钢刀、火石、指南针钢刀能获取猎物;火石可以取火;指南针可以指明方向。•人类要在世界上生存与发展要获取物质、能量、信息三大要素。对于物质跟能量大家比较好理解,对于但是对于信息与人类的关系,大家就比较难解了。•上面例子中的指南针就是我们获取信息的一种工具,有了它,陆战队员们就可以用它获取走出原始森林的方向,没有它,可能一辈子都走出原始森林。而指南针向指的方向就是一种信息,即方向信息和方位信息。信息(information)的定义《辞海》“信息,消息。”《韦氏字典》(美国):“信息是用以通信的事实,是在观察中得到的数据、新闻和知识”。信息论创始人香侬(C.E.Sannon)认为:“信息是用来消除随机不确定性的东西”。法国物理学家布里渊(L·Brillouin)认为:信息是原材料,知识是思维对信息的加工的产物甘仞初在《管理信息系统》中把事物之间相互联系、相互作用的状态的描述,称为信息。信息的定义目前大多数学者接受的定义是:“信息具有物质属性,是物质的存在方式及运动的规律和特点的表征,是事物及其现象的内外特征、相互联系及作用的反映。”信息的特征(1)客观性•地震,海啸,花草树林的发芽、生长和枯萎,广播电视、网络的新闻、广告等等发出的信息,不管你知道不知道,感知不感知,它都是客观存在。只要有物质存在,就有信息的存在。•因此,信息是客观存在的,不以人们的意志为转移的。它是现实世界中各种事物运动与状态的反映,它可以被人们所感知、处理、存储和使用。它的客观性还表现在反映客观世界变化的信息包含在各种物质之中。(2)时效性•朝鲜战争与兰德咨询公司故事•在美国出兵朝鲜之前,美政府曾请美国著名的咨询机构兰德公司做一预测:如果美国出兵中国会不会出兵?兰德公司请了大批资深专家,从中共历史、军力、国际关系、甚至中共领袖性格等各方面做了精深的分析,最后得出结论是:“中国将出兵朝鲜”。其主题词只有7个字,要价150万美元。美国国防部认为是敲诈,不予理睬,在自认为中共不敢出兵的假设下,冒险出兵,结果“在错误的时间,在错误的地点,与错误的敌人进行了一场错误的战争”。•一直到前些年,美国政府检讨当年决策错误时,向兰德公司付了一大笔款,表示对科学预测的重新估价与信服。很明显,如果美国政府当年尊重科学预测,相信中共会出兵,他是决不敢冒这个险的,那朝鲜历史将重新改写,抗美援朝也就不存在了。•由上例可以看出信息是具有较强时效性的。•客观事物总是不断地发展变化,因而信息也会发展变化,如果信息不能适时地反映事物存在的方式和运动状态,那么,这一信息就失去其效用。(3)传递性大庆油田产量失密事件•1960年王进喜被冠之以“铁人”的称号以后,国内的各大报纸对他都有了相关的报道。谁想到被狡猾的日本人嗅出蛛丝马迹,竟从中了解了大庆油田开采的一些情况。日本人发现,王进喜原来的工作地点是甘肃玉门油田,1959年10月参加国庆观礼后他就销声匿迹了,由此推断大庆开发时间应该为1959年9月;•1966年7月,《中国画报》曾刊载王铁人头戴厚厚瓜皮帽的照片,凭着对中国地理的熟知,日本人很快就推断出王进喜的工作地应该在零下30度的东北地区;•还根据运原油的列车上灰尘的厚度,测算出了油田与北京的距离,断定油田应在哈尔滨与齐齐哈尔之间;•10月份,《人民中国》也刊登出宣传王进喜的文章,在其中透出一个“马家窑”的地理信息,日本人便由此推出大庆在安达车站附近。•据称,日本人通过精细、准确的情报对大庆油田进行了成功调查,后来几乎垄断了我国石油设备进口市场。•从上例中可以看出,大庆油田的信息是刊载在《人民画报》等这些公开发行的报刊杂志上的,而日本人正是利用这些公开的报纸、杂志分析中我国大庆油田的产量和设备需求,获取了最高的经济利益。•在本例中,大庆石油信息从国内报刊杂志社这一信息的发源地通过《人民画报》等报刊杂志这些载体,传到了日本人的手里,经过他们的分析、处理后,加以运用,获取了高额的经济利益。•信息的传递性是指任何信息只有从信源出发,经过信息载体传递才能被信宿接受并进行处理和运用。也就是说,信息可以在时间上或空间上从一点移动到另一点,可以通过语言、动作、文字、通信、电子计算机等各种渠道和媒介传播。(4)共享性英国剧作家萧伯纳说:你我是朋友,各拿一个苹果,彼此交换,交换后仍然是个有一个苹果。倘若你有一种思想,彼此交流思想,那么我们每个人就有两种思想了。•同一内容的信息可以在同一时间或不同时间里被多个信息用户使用。•一条信息被用户吸收和利用并不影响信息的本身和被其他用户的反复使用,各用户分享的份额也不会因为分享的人的多少而受影响。•正如萧伯纳所举的“苹果与思想”的例子,苹果交换以后双方仍然各自仅有一个苹果,但信息交换以后双方都有了两种信息。信息共享性是推动社会交流的原动力。(5)中介性•人们看柳树发芽,就知道春天来了,看到天上乌云滚滚,就知道要下雨了,这就是这些自然世界发出的信息。•信息是介于物质世界和精神世界之间的过渡状态的东西,是人们认识事物、感知世界的不可缺少的中间环节。它贯穿于认知活动的始终,认知过程本身就是一个以信息为中介的信息运动过程。•人类认识世界和改造世界的过程,是一个不断从客观世界获得信息,并对信息进行加工处理,形成新的认知结构,然后通过实践活动反作用于客观世界的过程。信息的类型信息类型可根据不同的角度来分〈1〉从产生信息的客体的性质来分,可分为:•自然信息:瞬时发生的声、光、热、电、形形色色的天气变化、缓慢的地壳运动、天体演化……;•生物信息:生物为繁衍生存而表现出来的各种形态和行为,如遗传信息、生物体内信息交流、动物种群内的信息交流);•机器信息:自动控制系统内信号、指令等;•社会信息:社会信息就是指人与人之间交流的信息,既包括通过手势、身体、眼神所传达的非语义信息,也包括用语言、文字、图表等描述一切对人类社会运动变化状态的语义信息。按照人类活动领域,社会信息又可分为科技信息、经济信息、政治信息、军事信息、文化信息等。按载体形式划分印刷型信息缩微型信息声像型信息电子型信息按载体形式划分印刷型信息又称为书本型信息,是以纸张为主要载体,以印刷为记录手段的传统信息形式,如图书、期刊、报纸等。优点是阅读、携带、利用方便;缺点是信息存储密度小、体积大、分量重、收藏和管理困难。按载体形式划分缩微型信息是一种以缩微胶片为载体,利用缩微摄影技术为记录手段而产生的信息形式,其优点是体积小、存储密度高、保存期长,缺点是需要配备专用的缩微阅读机才能阅读。按载体形式划分声像型信息声像型信息又称为视听型文献,这是一种以磁性或光学材料为存储介质,借助特殊的机械装置直接把图像和声音记录的一种信息形式,如唱片、录音带、电影拷贝、幻灯片等。它记录的对象主要不是文字,而是富有动感的声音和图像。按载体形式划分电子型信息指以数字代码方式将图、文、声、像等信息存储到磁、光、电介质上并通过计算机阅读的信息形式。如各种电子图书、电子期刊、联机数据库、网络数据库、网络新闻、光盘数据库等。其特点是存储量大,出版周期短,传递迅速,可以融文本、图像、声音等多媒体信息于一体,易复制,共享性好。按信息级别划分为便于利用信息,信息工作者将信息加工处理为不同等级:••〇次信息•通过交流、实物获得信息。真实、直观,但难以积累和管理。一次信息以作者本人的生产和科研工作为依据而创作的原始信息。如专著、期刊论文、学术论文等。二次信息将分散的无序的一次信息进行加工整理后,使之成为系统有序的信息。如书目、文摘、搜索引擎的搜索结果等。三次信息根据二次信息提供的线索,利用一次信息,经过调研、分析、综合而形成的。如百科全书、综述、述评、字词典等。一次信息二次信息三次信息期刊论文会议论文科技报告专利说明书学位论文标准目录文摘搜索引擎百科全书手册年鉴词典综述述评记录知识的产生传播信息的利用信息级别示意图某些数据库•从一次信息到二次信息、三次信息,是对知识与信息进行创造、有序化和高度浓缩、提炼、再创造的过程,也是知识与信息从无序到有序的结构化、系统化的过程。概括地说,零次信息是一次信息的素材;一次信息是信息的基本形式,是检索的对象;二次信息对一次信息的加工处理,是检索一次信息的工具;三次信息则是对一次信息与二次信息分析研究的
本文标题:信息检索(西交大-工程硕士)
链接地址:https://www.777doc.com/doc-4764945 .html