您好,欢迎访问三七文档
文章有苏州SEO搜索引擎优化姑苏城博客编辑提供,地址:文章有苏州网站优化姑苏城博客编辑提供,地址:搜索引擎优化姑苏城博客编辑提供,地址:文章有苏州网站优化姑苏城博客编辑提供,地址:给用户提供了海量的信息资源,导致用户从爆炸性增长的信息中迅速获得需要的信息变得越来越困难。为了帮助用户快速准确地检索到所需的网络信息,网络搜索引擎的研究与开发已经成为当今网络信息检索的热点。本文通过搜索引擎概述及原理介绍中文智能搜索引擎,从中文分词技术;词性标注及词义分析;分类器设计检索模型;PageRank排序技术;研究现状和发展趋势等内容对中文智能搜索引擎进行介绍。搜索引擎概述及原理搜索引擎是以Web页面为检索文档的信息检索系统,它的核心就是信息检索技术。广义地说,搜索引擎就是指在指互联网上能够响应用户提交的搜索请求,返回相应的查询结果信息的技术和系统。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎并不是真正地搜索互联网,它搜索的是预先整理好的网页索引数据库。一般来说,搜索引擎得原理可以看做三步:从互联网中抓取网页;建立索引数据库;在索引数据库中进行搜索排序。(1)互联网中抓取网页:通过网页搜索工具Spider(蜘蛛)或Robot(机器人)等自动访问互联网,沿着URL搜索,并把搜索到的信息带回搜索引擎。(2)建立索引数据库:通过对收集的网页信息进行分析,把这些相关信息进行分类索引建立索引数据库。(3)在索引数据库中进行搜索排序:通过Web服务端软件,获得用户输入关键词后,有搜索程序从网页数据库中找到符合该关键词的相关网页。为用户提供浏览界面下的查询信息。搜索引擎结构图文章有苏州SEO搜索引擎优化姑苏城博客编辑提供,地址:文章有苏州网站优化姑苏城博客编辑提供,地址:网络上的中文信息为主要对象,提供信息的自动收集、自动过滤、自动索引中和检索导航等服务的搜索引擎。中文Internet搜索引擎的最关键组件是能够在海量中英文数据上进行高效全文检索的信息管理系统。中文搜索引擎的机制同英文搜索引擎大致相同,不同的是多了中文语言的处理技术,这主要是中文分词技术和汉化技术。逻辑上,中文信息搜索引擎与与一般搜索引擎一样分为三个部分:网页搜索引擎,索引引擎和查询引擎。2.智能搜索引擎传统搜索引擎局限:传统搜索引擎主要采用网站分类技术和全文检索技术来实现信息查询,前者成本高,对网站描述也比较简单,不能升入网站内部细节。而后者效率比较低且返回信息过多。传统搜索引擎所使用的技术都难以解决用户“找信息难”的问题,造成这种困难的实质在于搜索引擎缺乏知识处理能力和理解能力。因此要把信息检索从基于关键词层面提高到基于知识层面。智能搜索引擎,它突破传统搜索引擎基于要求较精确的关键词层面信息检索的局限,发展到基于以不规范、不精确的自然形式出现的知识(或概念)层面来分析和处理用户的查询提问,具有良好的自然语言理解、知识处理能力,在信息检索过程中体现出很强的智能化与人性化优势。3.中文智能搜索引擎采用智能搜索引擎得方法实现对中文信息的检索。中文智能搜索引擎可以自动分析中文网页,进行自动分词处理,并自动提取关键词,建立一关键词为基础的查询数据库,降低了系统开销,大大提高了查询效率。它通过充分考虑中文语句的表达结构以及“口语化的提问,智能化的结果”来满足用户的各种查询需求。中文智能搜索引擎功能结构图大致如下:文章有苏州SEO搜索引擎优化姑苏城博客编辑提供,地址:文章有苏州网站优化姑苏城博客编辑提供,地址:中文智能搜索引擎功能结构中文智能信息系统包含了许多中文信息处理的关键技术如:中文分词技术,词性标记,文本分类等。利用这些中文信息处理技术,来提高系统搜索的效率,查询结果的准确性等。中文分词技术1.自动分词分词就是把一个句子按照其中词的含义进行切分,由于中文文本在书写表达或计算机内部表示时,字与字之间、词与词之间没有明确的切分标志。此外,汉语词序的灵活性,语法限制简单及歧义现象等都给中文的自动分词造成了极大的困难。2.自动分词的过程指的是从信息处理需要出发,按照特定的规范,对汉语按照分词单位进行划分的过程。分词单位指汉语信息处理使用的、具有确定语义或语法功能的基本单位,包括词和文章有苏州SEO搜索引擎优化姑苏城博客编辑提供,地址:文章有苏州网站优化姑苏城博客编辑提供,地址:词组。词是最小能独立运用的基本单位,两个或两个以上的词按一定语法规则组成表达一定意义的语言单位即词组。3.分词词典为实现及其自动分词,需要有经过语言专家精心挑选的词汇组成的现有词典,然后才能研究如何根据已有的分词词典实现文本的切分。通常分词词典的设计与分词算法相关,在基于词典的分词算法中,分词词典数据结构的设计很关键,将影响到分词算法的性能。为构建一个高效的分词词典,可以考虑以下三个方面:(1)分词词典对词的查询速度:这直接决定匹配算法效率的高低。(2)分词词典的存储利用率:词典越小,所需查询时间也越少。(3)分词词典维护的效能:包括对词的插入、删除和更新等操作的难易程度。4.分词方法现有的中文分词算法可以分为基于词典的分词方法,基于理解的分词方法以及基于统计的分词方法三大类,文章就基于词典的分词方法总结一些分词算法:(1)正向最大匹配算法这是最早提出的自动分词方法,由苏联学者在六十年代研究汉俄机器翻译时提出,它的基木思想是先取一句话的前若干个字采用二分搜索的方式查词典,若不是一个词,则删除这些字中的最后一个,然后再查词典,这样一直查下去直到找到一词为止,对句子剩余部分重复此工作,直到把所有词分出为止。例如:句子“明天会下雨”,设最大词长是4,则切分过程是:明天会下明天会明天会下雨会下会下雨(2)逆向最大匹配算法逆向最大匹配算法的基本思想与正向最大匹配算法相同,唯一的区别是最大匹配的顺序不是从首字开始,而是从末尾开始。如上句“明天会下雨”,切分结果为:天会下雨会下雨下雨明天会天会会明天这两种方法思想明了,易于机器实现。算法把词典作为唯一的判断标准,具有一定的主观性和局限性,而且由于采用的是最大匹配,否定了词中含词的语言现象,出错了较高。但他们都是最基本的方法。(3)邻近匹配算法正向最大匹配中,对每个不存在的长字符串都要进行二分检索,复杂度太高。在邻近匹配算法中,采用首字索引的词表,利用同一首字下的词条按升序排列这一条件,找到某个字符串后,在其后增加一个字得到一个新字串,若新字串在词典中出项,那么新词一定在原来字串的后面,且相隔不远。这一匹配方法即称邻近匹配算法。(4)最短路进匹配算法该算法的思想是首先更具词典,找出字串中的所有可能的词,然后构造词语切分的有向无环图。这样每个词对应图中一条有向边。给每条边一个权值。文章有苏州SEO搜索引擎优化姑苏城博客编辑提供,地址:文章有苏州网站优化姑苏城博客编辑提供,地址:然后针对切分图求出一条最短路径。路径上包含的词即为该句子的切分结果。5.分词技术的应用应用领域:汉语自动分词的研究有重要的理论价值和现实意义,它主要在汉语语言理解;计算机系统的汉语人机接口;机器翻译;情报检索;人工智能和知识工程等许多方面都用重要的应用。在智能搜索中的应用:相对于传统的全文本搜索,对经过分词处理的文本进行搜索,能大大提高搜索的效率和准确性。文本通过分词处理后,含有更多的判断信息。对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。而中文分词的准确与否,常常直接影响到对搜索结果的相关度排序,对搜索引擎结果相关性和准确性有相当大的关系。6.分词中的难题切分歧义歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“表面的”都是词,那么这个短语就可以分成“表面的”和“表面的”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。未登录词处理未登录词即新词,也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名。新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。词性标注及词义分析对中文文本进行词语切分后,可以利用已有的资源进行词性标注及词义分析,这可以在很大程度上解决语言层面上的知识。在中文智能搜索引擎的应应用中,词性标注和词义分析可以说是一个中间任务,同过这两方面的处理,为基于知识层面的搜索提供了大量可利用的有效信息,对于智能搜索有极大的帮助。1.词性标注数学描述:句子W=wi,…,wn,对应的一个标记序列Tj=t1,…,tn,在二元组(W,Tj)中每个tj和wi一一对应,是词wi的所有可能的标记中的一个。在一个给定的W的所有组合中有且只有一个语法学上正确的Tw∈{T|(W,T)}与之对文章有苏州SEO搜索引擎优化姑苏城博客编辑提供,地址:文章有苏州网站优化姑苏城博客编辑提供,地址:应。标注过程就是对每个句子W,在与之对应的各个Tj中选择出正确的标记序列Tw,即:v:W→T=v(W)。标注模型一般有:两步模型:当前词wi的词性ti仅依赖于直接前趋词wi-1及其词性划分结果ti-1。三步模型:当前词wi的词性ti仅依赖于直接前趋词wi-1、wi-2及其词性划分结果ti-1、ti-2。隐马尔科夫模型(HMM):HMM是由马尔可夫过程扩充而来的一种随机过程,HMM的状态本身不可观察,可观察的是状态的一个概率函数。HMM包含了双重随机过程,一个是系统状态变化,及马尔可夫过程,另一个是由状态决定的随机过程。基于HMM的词性标注的两步模型:给定HMM模型λ,已知词串W,求使得条件概率P(T|W,λ)值最大的T’,记为:),|(maxarg'WTPTT运用Bayes公式及W给定P(W)不依赖于T得到公式:)|()()|(TWPTPWTP其中P(T)是词性序列T的概率:niiittPTP11)|()(P(W|T)是已知词性标记串T,产生词串W的条件概率:niiitwPTWP1)|()|(综合以上,得到确定句子最优标注的等式:niiiiiTttPtwPT11)|()|(maxarg'实现过程:(1)CLAWS算法:采用枚举的方法自动标注时,从输入文本中顺序地截取一个有限长度的词串,该词串的首词和尾词的词性是唯一的,这样的词串叫做跨段,记为w0,w1,w2,…,wn,wn+1。其中w0和wn+1是非兼类词,w1,w2,…,wn是n个兼类词。利用转移概率矩阵提供的数据来计算这个跨段中由各个单词产生的每个可能标记的概率积,并选择概率积最大的标记串作为最佳路径,以这个最佳路径作为结果输出。(2)VOLSUNGA算法:采用贪心的方法沿着从左至右的方向,采用“步步为营”的策略,对于当前考虑的词,只保留通往该词的最佳路径,舍弃其它路径,然后再从这个词出发,将这个路径同下一个文章有苏州SEO搜索引擎优化姑苏城博客编辑提供,地址:文章有苏州网站优化
本文标题:中文智能搜索引擎
链接地址:https://www.777doc.com/doc-1276646 .html