您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 基于文本的Web图片搜索引擎的研究
-I-基于文本的Web图片搜索引擎的研究摘要如需全文或定做各专业论文,可联系QQ2537024709本文研究工作是针对Web图片搜索引擎的应用背景,以构建大型Web图片搜索引擎为目标,提出基于文本检索方式的Web图片搜索引擎设计方案。文中介绍和研究了一系列与Web图片搜索引擎相关的技术,包括网页抓取、相关性排序(VSM和LSI)、信息提取、信息索引等,这些技术将被应用到文中提出的系统设计方案中。本文重点地研究如何从HTML文档中提取图片相关信息,保证高效和准确的实现图片检索。在对真实数据进行实验和分析的基础上,提出了若干关键技术,用于系统的设计,现归纳如下:1)本文提出的方法通过细致地分析HTML文件的img标记、a标记、网页标题、网页的超链接文本、图片URL、meta标记、关联的a和img结构、table结构、图片周围文本等部分的结构特点,并利用真实数据进行实验验证,总结了9条提取模式,用于从这些结构中提取与图片相关的信息,以保证提取到的信息相关性程度较高。研究了三种具体的提取方法:基于DOM的方法、基于字符串的方法和基于Wrapper的方法。2)提出了过滤无用图片的方法,提高了系统中图片的可用度。该方法将图片文件大小小于某一阈值,图片的长或宽小于某一阈值,图片的长宽比例超过某一阈值以及同一网页内通过img引用次数超过某一阈值的图片作为无用图片剔除。3)通过统计分析总结出HTML文件中表现出的一些潜在规律,比如JPG和GIF的区别、a和img标记的不同意义以及图片引用次数的不同意义。得到如下结论:JPG重要性大于GIF;a标记来源图片的重要性大于img标记的图片;a引用次数越高的图片重要性越高,而img引用次数高的图片需要经过过滤才能保证重要性较高。4)粗略地探讨了将LSI算法应用于图片搜索引擎来整合文字和内容信息的方法,并通过简单实验进行了效果验证。5)设计并实现了一个基于文本的Web图片搜索引擎,给出了系统的总体结构图,并对获取网页、提取信息、图片抓取和死链检查、生成缩略图、建立索引和提供查询这6个工作流程进行了详细的描述,最后对系统的-II-使用效果和性能进行了简单评测。关键词:Web图片搜索引擎图像检索基于文本基于内容信息提取-III-AbstractInthethesis,weformaschemetodesignalarge-scaleWebimagesearchenginesystemusingmainlytext-basedtechnology.WeintroduceandresearchaseriesoftechniquesrelatedtoWebimagesearchengine,suchascrawling,relevanceranking(VSMandLSI),informationextractionandindexing.Thosetechniqueswillbeusedinoursystemdesign.WeconcentrateonhowtoextractinformationrelevanttoimagesfromHTMLdocumentsmoreeffectivelyandprecisely.Accordingtoexperimentsandanalysisonrealdata,weproposeseveralkeytechniquesasbelowfordesigningthesystem:1)WeanalyzecarefullythestructureofHTMLcomponentsincludingimgtag,atag,titleofwebpage,anchortextofwebpage,URLofimage,metatag,tabletag,surroundingtextofimgtagetc.Andsumupnineextractionpatternstofetchinformationrelevanttoimages.Wealsoresearchthreeextractingmethods:DOMbasedmethod,StringbasedmethodandWrapperbasedmethod.2)Weproposesomemethodstofilteruselessimagesaccordingtofilesize,widthandheightofimagesandreferredcountofimagesbyimgtags.3)ThroughstatisticsofmassofHTMLdocuments,Weconcludesomelatentrules,suchasthedifferencebetweenJPGandGIF,thedifferencebetweenatagandimgtag,thedifferencebetweendifferentreferredcountofimages.4)WeSimplyresearchtheapplicationmethodofLSItointegratehigh-levelandlow-levelinformationofimages.5)Wedesignandimplementatext-basedWebimagesearchengine.Theglobalstructureofoursystemandrelationsofthecomponentsofsystemareintroduced.Somecomponentsaredetailedinfunctionandimplementation.Finallyasimpleevaluationaboutsearchingeffectandperformanceisgiven.Keywords:Webimagesearchengine,text-based,content-based,informationextraction-IV-目录第1章引言..............................................................................................................71.1背景...................................................................................................................................71.2图片检索系统概述...........................................................................................................91.2.1系统应用领域...........................................................................................................91.2.2用户检索方式...........................................................................................................91.2.3系统评价.................................................................................................................101.3研究现状...........................................................................................错误!未定义书签。1.4现有图片检索系统简介...................................................................错误!未定义书签。1.5本文的主要工作...............................................................................错误!未定义书签。第2章相关技术......................................................................错误!未定义书签。2.1网页抓取技术...................................................................................错误!未定义书签。2.1.1基本原理...................................................................................错误!未定义书签。2.1.2大型Spider的问题..................................................................错误!未定义书签。2.2相关性排序技术...............................................................................错误!未定义书签。2.2.1VSM..........................................................................................错误!未定义书签。2.2.2VSM的改良:LSI...................................................................错误!未定义书签。2.3信息提取技术...................................................................................错误!未定义书签。2.3.1基于内容的提取技术...............................................................错误!未定义书签。2.3.2基于文本的提取技术...............................................................错误!未定义书签。2.4信息索引技术...................................................................................错误!未定义书签。2.4.1索引方式...................................................................................错误!未定义书签。2.4.2提高索引的性能.......................................................................错误!未定义书签。2.5其它相关技术...................................................................................错误!未定义书签。2.6本章小结........................................................................................
本文标题:基于文本的Web图片搜索引擎的研究
链接地址:https://www.777doc.com/doc-2575311 .html