您好,欢迎访问三七文档
CompanyLOGO网络信息采集LOGO研究背景我们经常会遇到这样的问题:1为什么找不到所需要的信息?2为什么查找信息的过程要比别人长?3怎么将找到的信息很好地运用,最终解决信息问题?问题1问题2问题3需要了解一些相关机构发布信息的网站,获得准确的专业信息;学会使用网络数据库资源获取期刊文摘及全文信息、学术论文等。第三部分对文献的内容进行深入分析和挖掘,真正把握信息点及其他人的研究成果,形成自己对问题的认识。第四部分培养一套解决信息问题的思考方式,依据步骤逐层深入。第二部分LOGO信息获取的一般步骤Level1Level2Level3Level4Level5界定问题选择信息源制定策略并实施检索评价信息分析和利用信息LOGO界定问题考虑的问题:自己是否完全理解待解决问题的相关概念含义?需要查找哪些方面的信息?需要第一手即时消息还是经过加工的消息?问题解决后应该是一个什么样的成果类型?最终,实现对问题的深入思考,完成问题的界定。包括:分析研究问题、建立背景知识、拟定主题概念。LOGO分析研究问题研究问题在某情况下,物流公司对货物处理速度情况的研究研究目标形成调研报告供学者参考时间范围近10年地域范围国内、外背景/事件货物处理速度对物流公司运营状况的影响研究问题分析—以“在某情况下,物流公司对货物处理速度情况的研究”为例LOGO建立背景知识阅读与研究主题相关的概览性资料,是建立背景知识的最佳渠道。概览性资料通常出现在三次文献中,如百科全书、字词典及年鉴等参考资源中。通过阅读这些资源,可以加深对研究问题的理解,明确检索目标。同时对问题涉及的名词术语进行记录,了解清楚该研究对象的学名、俗名、商业名、同义词等,特别作用非母语检索工具之前,这些名词术语花样繁多的英文表达更是不能疏漏的。信息问题在哪种情况下研究范围影响货物处理速度的因素包含的主题概念运输工具、管理工具、天气因素(百度查得)LOGO拟定主题概念以“交通工具不同情况下,物流公司对货物处理速度情况的研究”为例研究问题不同交通工具下,货物处理速度的研究主要概念不同交通工具上位词交通方式的选择、路线的规划、整体策略的确定同义词海运、路运、空运、管道运输、联合运输相关词环境保护、节约成本LOGO其他步骤选择信息源。针对“在某情况下,物流公司对货物处理速度情况的研究”这一问题,需要考虑可能存在哪些信息源,哪些信息源是可获得的,在这些可获得的资源中,哪些是比较易得而有意义的。3制定策略并实施检索。在开始检索之前没有一个确定的检索策略,就可能很快在消息中“迷失”。这时如果能够利用布尔逻辑连接符将检索词组配成查询语句,并结合各个信息源的特点灵活实施检索,将极大地提高检索效率。4评价信息。针对不同信息源进行检索以后,取得的文献信息数量可能相当庞大,内容也有相互重复甚至冲突的地方。这就需要一定的评价方法对信息进行筛选,找到那些来源可靠、内容相关且详尽的文献,删除错误、过时、不相关的信息。5分析和利用信息。此时选用相关的工具将检索结果有效组织,会极大地减少工作量。同时进一步通过阅读确定:哪些信息切合需要,哪些信息内容之间存在冲突,需要进一步考察,并依据相关规范正确引用文献资源,最终形成文字性的研究成果。LOGO网络信息资源与信息采集工具网络信息资源广义的网络信息源指对各种信息进行分类、汇总、加工、组织,并建立起相互关联的有序结构,由信息内容、信息处理和信息传输三者结合而成。狭义的网络信息源指用户可以在网上直接取用的无数个信息源的集合。网络检索工具:在internet上提供信息检索服务的工具,其检索对象是存在于internet空间中的各类信息资源。网络信息的采集正如前述,在浩如烟海的网络上搜寻信息,需要用户了解各种信息源,掌握各种网络信息检索工具,学会信息采集的方法技能,才能将网上的丰富资源为己所用。网络信息的采集工具,或称检索工具,一般泛指面相互联网信息检索、在因特网上提供网页信息资源检索和网站导航服务的站点,具有网络导航的功能,并提供其他相关服务。网络信息采集工具可以大致分为搜索引擎、门户网站和搜索软件、专题型检索工具。LOGO个人信息检索地图信息检索BBS检索博客检索搜索引擎专题型检索工具微博检索工具维基搜索RSS检索FTP资源检索目录式搜索引擎机器人搜索引擎元搜索引擎详细介绍LOGO目录式搜索引擎目录式搜索引擎因为有人的参与,信息查询较为精确,导航质量高。当检索一个范围较广的题目,并希望浏览一下与该题目相关的、被推荐的网址时,目录搜索引擎会非常有用。其缺点是需要人工介入,为回廊大、信息量较少、信息更新不及时,当目录中包含太多的分类和连接时,目录本身也不便浏览。因此,这类搜索引擎一般又会引入机器人搜索引擎。著名的目录式搜索引擎有Yahoo!、Dmoz、LookSmart、网络指南针等。Yahoo!有很多优点,如主题目录与检索软件结合,使信息检索难度降低,不仅能在所有的分类类目中进行查询,也能根据需要在一个类目中进行查询,保证了较高的查准率;支持中、英、日等10多种语言版本,各版本的内容互不相同。其缺陷:某些类目下收集的文件数量有限;对于专业较为偏僻的查询,较难提供满意的结果;它倾向于较大网站的网页,很多重要的较小网站的网页往往被忽视。Dmoz是一个著名的开放式分类目录(OpenDirectoryProject,ODP),ODP是目前网上最大的人工编织的分类检索系统。LookSmart也是主要的目录型引擎之一,拥有相当规模的普通用户群体及商业客户资源,它从原来类似于Yahoo!的分类目录索引模式发展为现在比较流行的PPC广告方式,为需要投放到欧美市场的公司新网站的系列广告提供平台。LOGO机器人搜索引擎这种搜索引擎根据一定的网络协议,例如HTTP、FTP等,自动在网上爬行,将信息带回自动标引,并创建索引数据库,建立本地文档集合,用户则对它找到的信息进行检索。然后,本地服务器对文档集合的文档进行分类、索引处理,建立关于文档的信息数据库,供用户查询。目前,国内具有代表性的机器人搜索引擎有百度、天网、慧聪等;国外著名的搜索引擎有Google、AltaVista、Excite等。百度是全球最大的中文搜索引擎,拥有目前世界上最大的中文信息库,百度全文搜索引擎功能完备,搜索准确率高、更新快及服务器稳定性好,家喻户晓的“百度一下,你就知道”足以说明引擎的影响力。Google是全球知名的搜索引擎之一,其实用性和便利性赢得了众多用户的青睐。其搜索界面简洁明了,具有基本搜索和高级搜索双重功能,拥有100多种语言界面和35种语言搜索结果。2010年,Google的搜索服务部门退出了中国市场,其总部搬到了中国香港。Hotbot是一个具有自动跟踪功能的搜索引擎,更新速度非常快,超过其他搜索引擎,一独特的搜索界面著称。LOGO元搜索引擎元搜索引擎可以为用户提供统一的检索界面,将用户的检索提问同时提交给多个独立的搜索引擎,对多个数据库同时进行检索,并对多个独立搜索引擎的搜索结果进行包括去重、排序、整合等二次加工,那么,相对于传统搜索引擎,它们的优势在于可集成多个数据库进行检索,结果比单一独立的搜索引擎更全面、更精确。遇到需要选择搜索引擎、转化检索条件以及融合检索结果的情况时,可以首选元搜索引擎。中文元搜索引擎列举元搜索引擎目标搜索引擎可否选择目标引擎检索功能结果显示特色功能搜魅网()百度、谷歌、搜狗、雅虎、中搜、有道、Live、奇虎、大旗是支持布尔逻辑检索,二次检索和相关检索,不支持高级检索无相同连接,无排序方式,显示搜索引擎来源预览和收藏等功能索天下()百度、谷歌、雅虎、搜狗、MSN否支持布尔逻辑检索,不支持其他检索无排序方式,显示搜索引擎来源预览等功能Xisoso()谷歌、百度、雅虎是支持布尔逻辑检索,和相关检索无排序方式,显示搜索引擎来源预览功能,结果自动聚类LOGO专题型检索工具个人信息检索地图信息检索BBS检索博客检索维基搜索RSS检索LOGO个人信息检索)黄页、百页和人物搜索引擎百页用于查找一般用户的电话号码和地址,黄页用于查找商业用户电话号码和地址。有的百页还提供道路图、驾驶路线等。Infospace()提供黄页查询、百页查询、公共记录查询、地图和驾车线路查询、反向查找。相似的工具还有Yahoo!PeopleSearch(people.yahoo.com)用于查电话、电子邮件、地址等;Bigfoot()综合性全球电子邮件目录服务,多种语种检索入口;AnyWho()提供黄页查询、百页查询、人员检索、商务检索和反向检索等功能;InternetAddressFinder(),查E-mail,提供黄页、百页、电话区号、邮政编码、语音、人口资料和Whois检索;WhoWhere()提供黄页和百页查询,除电子邮箱、电话和地址查找,还可按分类查找语言、职业、公司、大学、政府机构。(2)、Whois服务器提供这种服务的机构首推InterNIC,它把那些到中心进行域名注册的网络或计算机管理人员和技术负责人的个人信息组织成一个大的数据库,提供相应的查询服务。还有如CNNIC域名注册信息查询(http//ewhois.cnnic.net.cn),支持域名查询、主机查询和联系人信息查询。许多大机构、学校也建立自己的Whois系统,将本单位人员的有关信息建成数据库,对外提供查询服务。(3)、各专业的文献数据库或学科信息门户(4)、实名社交网如人人网、开心网()、yahoo!关系(http//guanxi.koubei.com)、六度人脉网()等。这些社区虽然名为实名制,由于缺乏有力规范的监管,用户上传的“真实资料”无据可查,所以审核把握信息的可靠性尤为关键。(5)、同学录如中国人同学录(http//alumni.chinaren.com)、网易同学录(http//alumnimg.163.com/pop/flow.html)。(6)、被查找的人所在单位的主页许多学校和机构在网上建立了自己的主页,并把本单位的人员情况放在自己的主页上,对外提供检索服务。如果知道所要查找人的单位,可以通过其单位的主页查找。如俄亥俄州立大学主页上的“PeopleSearch”,联想公司主页上的“职员名录”。LOGO地图信息检索网络地图国内地图国外地图搜狗地图(http://map.sogou.com)百度地图(http://map.baidu.com)中搜地图(http://map.zhongsou.com)中国旅游网地图(http://map.51yala.com)腾讯QQ地图(http://map.qq.com)谷歌地图(http://maps.google.com)MapQuest(http://)虚拟导游(http://)必应地图(http://)雅虎地图(http://web102.maps.sg1.yahoo.
本文标题:网络信息采集
链接地址:https://www.777doc.com/doc-3188488 .html