您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 销售管理 > 搜索引擎新业务模式发展研究
北京邮电大学硕士学位论文搜索引擎新业务模式发展研究姓名:张晋江申请学位级别:硕士专业:企业管理指导教师:阚凯力20050307搜索引擎新业务模式发展研究作者:张晋江学位授予单位:北京邮电大学参考文献(16条)1.参考文献2.Winter,中文搜索引擎技术揭密3.赵科.刘媛试论网络搜索引擎的评价与未来发展[期刊论文]-图书馆工作与研究2003(4)4.赵红搜索引擎的智能化与网络信息资源的检索研究[期刊论文]-现代图书情报技术2003(5)5.潘卫网络学术信息资源及其检索20016.傅欣第三代搜索引擎的智能化趋势研究[期刊论文]-现代图书情报技术2002(6)7.夏旭.李健康.方平网络信息资源搜索引擎的研究进展[期刊论文]-图书馆论坛2000(5)8.李晓明.刘建国搜索引擎技术及趋势9.张丽浅析数字图书馆搜索引擎的特点[期刊论文]-河南图书馆学刊2002(1)10.凌美秀关于搜索引擎当前存在的主要问题及其发展趋势的探讨[期刊论文]-高校图书馆工作2001(5)11.DERose.DLevinsonWhat'sNewontheWeb?200412.CJvanRijsbergenInformationRetrieval200413.认识搜索引擎200014.JunghooChoImpactOfSearchEnginesOnPagePopularity200415.查看详情16.查看详情相似文献(10条)1.学位论文吕绍华数据中心多源搜索引擎的研究与实现2007番禺数据中心通用数据同步平台是一个电子政务项目,作为对各种业务数据的采集、保存、处理和分发的基础数据交换支撑平台,已经具有了结构化和非结构化数据的同步功能,收集了大量的信息。如何在浩如烟海的数据中迅速定位到所需的信息,而不浪费宝贵的时间资源,需要一种灵活、自由和即时查询的方式,准确的找到我们需要的信息。全文检索是搜索引擎的核心技术,本文对全文检索相关的实现原理、核心技术和处理流程做了全面分析,对全文检索的关键技术——中文分词——作了深入研究,并给出了一种改进的分词算法。本文开发的搜索引擎基于一种全文检索引擎工具包——Lucene。Lucene是一个高性能、可伸缩的信息搜索(IR)库。它可以为应用程序添加索引和搜索能力。作为一个开源软件,它为我们学习搜索引擎的核心技术提供了绝佳的机会,对其剖析研究、进行二次开发,是一件很有意义的事情。现实世界中纯文本格式的文档正处于逐渐减少的趋势。取而代之的是,越来越多的信息以非纯文本文档格式呈现。除了纯文本格式以外,我们需要能够方便的查找到所需的各种各样格式的文件。Lucene并不关心数据的来源、格式甚至它的语言,只要你能将它转换为文本。这就意味着你可经索引并搜索存放于文件中的数据:在远程服务器上的web页面,存于本地文件系统的文档,简单的文本文件,微软Word文档,HTML或PDF文件或任何其它能够提取出文本信息的格式。同样,利用Lucene你可以索引存放于数据库中的数据,提供给用户很多数据库没有提供的全文搜索的能力。本文的另一个工作就是将各种常见的富文本格式文件解析成Lucene能理解的文本信息的格式。文章分六个部分,第一部分介绍本文的研究背景,研究课题的来源以及成果和创新;第二部分介绍了全文检索的分析与设计,介绍了全文索引的概念、基本原理及总体设计;第三部分着重对全文检索的关键技术:中文分词算法做了详细的介绍,并提出一种改进的分词算法;第四部分详细介绍了全文检索引擎工具包:Lucene;第五部分详细讨论了数据中心多源搜索引擎的设计与实现;第六部分是本文的结论。2.期刊论文唐培丽.胡明.解飞.刘钢.TANGPei-li.HUMing.XIEFei.LIUGang全文检索搜索引擎中文信息处理技术研究-情报科学2006,24(6)本文深入分析了全文检索中文搜索引擎的中文分词方案,既提高了分词的准确性,又能识别文中的未登录词.针对向量空间信息检索模型,本文设计了一个综合考虑中文词在Web文本中的位置、长度以及频率等重要因素的词条权重计算函数,并且用量化的方法表示出其重要性,能够较准确地反映出词条在Web文档中的重要程度.最后对分词算法进行了测试,测试表明该方法能够提高分词准确度满足实用的要求.3.学位论文洪田玉一种开放式高性能全文检索平台的研究与实现2009信息的快速增长促使搜索引擎的迅速发展。通用搜索如Google、Baidu已取得很大成功,然而,一方面它们的技术严格保密,另一方面,开发人员不可能将庞大的通用搜索引擎无缝地嵌入到自己的应用程序中;此外,缺乏对中文支持良好的开源搜索引擎。为此,本文研究并实现了一种新的中文全文检索平台。该平台具有高性能、架构灵活等特点。它既可以很方便地应用于各种动态数据环境的实际领域,也可以用来构建信息检索的实验系统。本文的主要研究工作如下:1.针对传统最大正向匹配算法的效率较低和灵活性差的问题,提出了一种改进算法。该算法采用了基于HASH和TRIE树的词典结构,使分词效率提高了约200%。同时,该算法摆脱了传统最大正向匹配算法的固定最大词长度限制,具有更好的灵活性。2.针对传统索引结构难以满足动态数据环境的不足,本文提出一种新的索引创建方案。该方案主要包括:(1)分级的倒排索引组织结构和链式存储方式,能够很好地解决索引动态增长要求;(2)基于动态平衡树的索引合并策略;(3)可配置的限制性指数分配策略,提高了索引内存利用率和分配效率;(4)基于d-gap的差量压缩算法,使索引文件大小减少了75%,从而减少I/O次数,提高系统性能。3.基于前面提出的分词算法和索引创建方案,采用C++面向对象设计思想以及工厂模式等设计模式,设计和实现一个架构灵活、扩充性良好的全文检索平台,系统平台主要包括索引子系统,检索子系统,存储子系统和插件管理子系统,以及内存管理组件。4.利用该平台设计和实现一个实用的商用搜索引擎系统。该搜索引擎提供用户对网络监控数据的搜索。为各种类型(文本、html、email、office文档、pdf文档等)的监控数据创建大容量索引,提供基于内容分类的高性能查询。该系统投入实际使用半年多所取得显著的成效也很好地证明检索平台的高效性。4.期刊论文全俊林.杨开英基于Compass的快速建立企业全文检索-福建电脑2007,(3)介绍了基于基于Compass快速建立企业全文检索,Copass使得建立企业级搜索引擎变得简单,易部署和配置,并能够很好的和Hibernate、Spring结合,简化搜索引擎API,优化索引保存和更新.5.学位论文秦江波交互式智能专有搜索引擎技术研究与实现2005本论文属于专有搜索引擎范畴,其主要技术包括Spider工厂、超链接池模型、Web虚拟机、专业分词分类技术、实时交流以及基于数据库的全文检索等技术。专有搜索引擎专门搜索具体领域的信息,虽不追求大而全,但要在本领域专而精。从而专有搜索引擎搜索结果更精确,相关性更高,能为特定领域的人群提供优质服务。在解决实际查询问题要比综合性搜索引擎更为有效。作者通过认真深入学习研究现有一般搜索引擎技术原理,分析比较了专业搜索与一般搜索引擎的相同点和不同点。在借鉴目前主流搜索引擎技术的基础上,创新提出了Spider工厂、超链接池模型、Web虚拟机、专业分词分类技术以及基于数据库的全文检索技术,并使这些技术成功应用于专业搜索引擎。此外在搜索结果信息的使用上提出搜索与收藏和嵌入式实时交流技术结合起来,提供了搜索的人性化优质服务,使搜索过程具有交互性和生动性。作者将这些理论研究成果应用于实践,已创建了一个工作搜索引擎—“深度搜索”(http://),并已为中国广大网民提供工作搜索的服务。作者在开发本项目的过程中克服了许多困难。本项目采集的信息多数是专业网站的信息,这些信息需要通过表单提交查询才可以获得,而不能简单的通过超链接可以分析出来。这些网站的专业信息基本上都是动态网页,目前的搜索引擎基本上避开或者放弃此类网页的采集,如Google会降低该类动态网页的采集优先级别。此外,各种专业网站显示的网页信息结构互不相同,由于信息结构不统一,使得对于专业信息抽取有很大的困难。而且信息的分类也不统一,每个专业网站都有自己的分类,作者要把这些分类都统一成一个标准的分类也存在一定的困难。同时,数据库本身对于全文检索没有很好的解决方法,其自身的全文检索和like模糊匹配,都不能很好的解决全文检索快速和准确的问题。针对以上困难,作者对工作类专业网站结构信息进行了大量的研究,创新提出了Spider工厂、超链接池模型、Web虚拟机、专业分词分类技术以及改进基于数据库的全文检索技术,很好的解决了以上问题。6.学位论文谢峰基于Ajax/Lucene的站内搜索技术研究2008站内搜索引擎是找出网站重要信息的必要工具,高效的站内搜索将有助于提升网站的价值,发挥网站应有的作用。虽然现在一些网络巨头已开始研究并应用这类工具,但整个互联网行业中,受制于技术的门槛,真正的站内搜索技术还没有被广泛的普及。因此,研究并开发站内搜索引擎具有重要的现实意义。本文主要研究与站内搜索相关的技术和方法,主要包括全文检索、Lucene、Ajax、网络蜘蛛、中文分词等内容。在学习研究的基础上,设计并实现了一个站内搜索引擎;测试结果表明,该引擎具有实用价值。本文第一部分首先阐述了搜索引擎的相关概念,搜索引擎按照技术原理可以分为三类:全文检索引擎、目录搜索引擎和元搜索引擎,本文主要是研究全文检索引擎。国内许多全文检索系统,其实现都是基于关系数据库开发的,或者是使用通用数据库系统提供的全文检索功能开发的,存在查询速度慢和无法处理非结构化数据等很多弊端。所以本文的研究采用了全文索引文件库。接着,分析了全文检索工具包Lucene的系统结构、数据流、索引格式等等。然后,研究了Ajax框架,Ajax技术的出现正在改变着B/S结构的应用模式,它正在将我们带入到下一代的网络应用之中。系统的前端搜索界面采用了Ajax技术,带来了更好的用户体验。然后,是本文的主要工作:分析和设计站内搜索引擎系统。对总体架构的搭建、具体分模块的设计进行了详细的分析。接着,对构建站内搜索引擎中的几个关键问题进行了研究与改进。包括:设计出一种适合站内搜索的网络蜘蛛;选用合适的HTML解析器解析出网页中的文本信息;对Lucene自带的中文分词算法进行了改进;对Lucene排序算法做了改进;为了更好的体现出网页各部分内容的比重关系,在系统中引入词频位置加权算法的思想。最后,我们用Eclipse开发平台,结合几种开源API,实现了Web站内搜索引擎系统。为了使系统界面更加友好、访问速度更快,系统界面设计采用了新技术--Ajax,最后对系统进行了测试。测试结果表明,该站内搜索引擎系统完全能满足对中小型网站的站内搜索要求。7.期刊论文徐芳.李晓霞.温浩.XUFang.LIXiao-Xia.WENHao基于Web的搜索引擎及其在化学信息资源导航中的应用-计算机与应用化学1999,(1)网络信息检索工具是Internet信息资源快速定位的重要方法.文章中结合建立Internet化学信息资源导航系统ChIN(ChemicalInformationNetwork)网页全文检索系统的要求,讨论了全文检索的产生、现状和发展趋势.在对信息搜索机制和主要全文检索软件的分析比较的基础上,采用全文检索软件Isearch开发了ChIN网页的全文检索系统,同时给出了ChIN网页全文检索系统的应用实例.8.学位论文肖峰基于SPRING的全文检索引擎的设计与实现2007“号码百事通”是一切基于中国电信114台的增值业务的统称,其目的就是要在充分挖掘和整合用户号码信息的基础上,延伸和拓展传统的查号业务,满足用户现实和潜在的各类信息查询需求,将114台打造成一个综合类信息服务平台,提高中国电信差异化服务优势。本文的项目背景是广东电信研究院开发的“号码百事通”搜索引擎系统。该系统基于两个数据源,一个数据源是广东电信以前的查号业务所使用的码号数据库,另一个
本文标题:搜索引擎新业务模式发展研究
链接地址:https://www.777doc.com/doc-1640987 .html