您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > Web图片搜索引擎设计
Web图片搜索引擎设计——基于文本的图片信息提取大纲图片检索技术简介我们设计的系统总体结构图片文字信息提取无用图片过滤一些统计规律结合文本与内容的方法(后期打算)图片检索技术分类基于文本利用某种提取方法获得与图片内容相关的文本信息,利用传统文本检索方法提供检索。基于内容提取图片中的可视化特征,比如颜色,形状,纹理等,对特征建索引,提供相似查询。基于语义理解可是特征的语义信息,可以利用文字查询可视特征。基于文本优点符合用户查询习惯(关键字查询)适合复杂语义查询(比如查“奥运会”)利用已有的技术积累(文本检索)性能好缺点提取的信息不够准确文字描述不能保证全面性不能基于内容相似查询基于内容优点可以查询相似图片对图片来源要求低(不需要额外文字信息)缺点技术不成熟效率低复杂语义无法表示基于语义通过理解图片中的可视特征来建立低层特征到高层语义的映射(比如:能够理解大海是蓝色的)。符合人类理解图片的自然方式。开始大量的研究,在未来会有很大的发展。我们的选择——基于文字理由目前的大型图片搜索引擎基本上都是以基于文字的检索为主体。性能良好已有大量的网页资源可供使用。开发周期较短。我们设计的系统的结构Webserver/UIUserSearcherImagethumbnailrepositoryExtractorSpiderInternetIndexDataWebpagescrawlImagesBuildindexsearchGetthumbnail负责抓取网页和图片生成和存放图片缩略图(核心)提取图片相关的文字信息提供检索功能处理用户查询请求和结果显示系统工作过程1.抓取网页和图片2.从网页中提取图片相关的文字信息3.利用图片生成缩略图4.对提取到的文字信息建倒排索引5.提供查询核心——图片信息提取(Extractor)信息来源HTML文档用于组织文字和图片等通过分析HTML文档找到图片和相关的文字提取方法不能确知网页作者组织信息的方法,所以利用启发式规则将最可能与某图片相关的位置的文字作为图片的文字描述信息常用提取模式img标记从src获取图片来源从alt获取相关文字信息(注意可能为文件名)获得width和height,用于以后的过滤常用提取模式(续)a标记从href获得URL,判断是否为图片(简单的根据扩展名,不处理动态内容)从title获得相关文字信息从anchor_text获得图片的文字信息(通常最准确)常用提取模式(续)网页的标题图片与所在网页相关,因此和网页的标题相关提取title下的文字。有时title下还会嵌套标记,需要去除。有时title使用缺省的名字(比如newpage或者UntitledDocument),需要过滤常用提取模式(续)链接到图片所在网页的文本和网页的标题一样,这是对网页的描述,所以Some_info可能和xxx.jpg相关需要跨页面的信息提取ahref=“a.htm”Some_info/aa.htmlxxx.jpg常用提取模式(续)网页的meta标记也是对网页内容的描述可以提取其中的keywords和description的值常用提取模式(续)图片的URL图片的URL可能含有相关信息(path和file_name)判断path和file_name是否为中文,或者为英文单词,是则可能有意义不考虑站点的domain_name,太泛常用提取模式(续)关联的a和img嵌套ahref=”foo.html”imgsrc=”xxx.jpg”/a则xxx.jpg和foo.html的内容相关,可以使用foo.html的标题作为文字信息并列ahref=”foo”anchor_text/a……ahref=”foo”imgsrc=”xxx.jpg”/a则xxx.jpg和anchor_text相关,可以用anchor_text作为文字信息常用提取模式(续)table结构组织结果比较多样化相关的文字和图片放到同一个td中;相关的文字和图片放在同一个tr下的两个td里;相关的文字和图片放在两个相邻的tr内;以某种其他的规律出现在table里提取时需要判断使用的是哪一种组织方式Hello,worldimgsrc=“xxx.jpg”你好,世界常用提取模式(续)图片周围文字比较难于界定“周围”的含义。基于流的方式,图片所在HTML流中位置前后一段固定的距离常用提取模式(续)图片周围文字(续)基于DOM的方式与图片具有共同最低祖先的文字节点formdivimgsrc=“xxx.jpg”/divfontsome_text/font/formformfontdivSome_textimg目前系统中使用的模式img标记信息a标记信息网页标题图片的URLtable结构图片周围文字(DOM)网页meta信息链接到图片所在网页的文本关联的a和img信息提取方法基于DOM的方法将HTML文档解析为DOM树,遍历所有的节点,利用DOM接口的方法获取相关信息。优点实现简单,有开放的DOM解析工具可用(HTMLTidy)利用部分结构信息,提取信息准确度稍高缺点需要解析DOM,效率较低信息提取方法(续)基于流的方法直接通过字符串查找来定位所要提取的信息优点只关注几个tag,不需要解析DOM,速度快缺点不太注重结构信息,准确性不如DOM方式高信息提取方法(续)基于wrapper的方法利用HTML的半结构特点来准确的获得文字与图片的对应关系优点对于固定的结构模式,可以准确的提取到信息缺点效率较低实现稍复杂无用图片过滤初衷Web上提取到的图片有很大部分是意义不大的图片,用于装饰页面和做广告去除这些图片可以有效的减小系统数据规模,提高图片质量和检索效率无用图片过滤(续)依然使用启发式规则过滤模式文件尺寸比较小(包括长宽和大小)利用HTML提取到width和height,以及实际图片的width和height长宽比例比较大同一网页内有多个img引用它重要的图片不会在一页内出现多次出现多次的通常是装饰图片发现的一些统计规律GIF和JPG图片的区别GIF只有256色,但可动态,通常用于装饰性图片和广告JPG压缩比高,常用于存储大尺寸文件通常情况下,JPG图片有意义的比例要大大高于GIF发现的一些统计规律(续)GIF和JPG图片的区别(续)统计结果统计随机抓取的82455张图片,其中GIF有53815张,JPG有28640张抽样分析,间隔抽GIF图片268张,抽JPG图片284张人工评价样本,得到:GIF中12%有意义,JPG中49%有意义发现的一些统计规律(续)a和img引用图片的区别img可在网页上看到图片,属于“插入”方式,是装饰和广告的方法a不能在网页上直接可见,属于“链接”方式,不能用于装饰和广告,通常用于将图片作为目标对象提供通常,a引用的图片有意义的比例要高于img发现的一些统计规律(续)a和img引用图片的区别(续)统计结果对3148499张图片进行来源标记统计,来自a的有77279张,来自img的有3071220张抽样分析,间隔抽取a的387张,img的308张人工评价样本,得到:来自a的有意义图片比例为:74%,来自img的有意义比例为:37%发现的一些统计规律(续)图片引用次数的区别引用次数的多少可以在一定程度上反映图片的重要性通常a引用的图片引用次数越高则图片越重要img引用的图片因为受到装饰性和广告图片的影响,引用次数规律性不强发现的一些统计规律(续)图片引用次数的区别(续)统计图不同标记来源的统计折线图0%20%40%60%80%100%5101550-99引用次数有意义比例aimg发现的一些统计规律(续)以上的这些规律对于改进无用图片过滤和查询结果图片排序有重要的价值。结合文本和内容的方法利用基于内容的提取方法,可以得到图片的可视特征组成的向量考虑如何与得到的文本向量相结合来改进信息的相关性,从而改进图片搜索引擎的查询效果(作为未来系统改进方向)结合文本和内容的方法(续)先文本后内容的方法先用文本查询,得到初始图片集,用户挑选相近的图片,进行内容相似查询,最终得到想要的图片拼接两个向量在查询时同时提供关键字和相似图片,利用类似VSM的方法进行匹配结合文本和内容的方法(续)利用LSI整合两个向量将文字和内容向量拼接,然后利用LSI算法来得到整合的语义空间。我做了一个试验:LSI试验结合文本和内容的方法(续)整合的意义可以得到文档和文字内容特征之间的关系可以用于构建语义库从文字可视特征,比如“天空”蓝色用于基于语义的查询查询可以基于文本或内容,能够将一个向量中的相似关系引入另一个向量谢谢!
本文标题:Web图片搜索引擎设计
链接地址:https://www.777doc.com/doc-3391195 .html