您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 基于结构和视觉特征的网页信息抽取技术的研究与实现
浙江大学计算机科学与技术学院硕士学位论文基于结构和视觉特征的网页信息抽取技术的研究与实现姓名:朱凯申请学位级别:硕士专业:计算机应用技术指导教师:陈刚20080514基于结构和视觉特征的网页信息抽取技术的研究与实现作者:朱凯学位授予单位:浙江大学计算机科学与技术学院相似文献(1条)1.学位论文李俊鲲基于内容的网页正文提取算法的研究与实现2009一个网页,往往包含着导航,版本,广告,相关链接,主题信息等等各种复杂的信息。网页主题信息抽取主要负责完成自动抽取页面上的主题内容的任务。一些经典的网页主题内容抽取算法,不管是基于文档模板结构,还是基于视觉特征的,都非常依赖于HTML标记。往往会存在适应性差,编程复杂,需要训练学习,处理速度底下等一些缺点。br 本文将在基于互联网的概念知识系统基础上,提出一种基于内容的网页正文提取算法,这种算法试图模拟人的阅读过程,使用文本的向量表示模型,将传统的文本分类的思想应用到网页主题信息抽取,实现对页面上的主题信息和非主题信息的自动分类。网页信息抽取是概念知识系统中一个重要的组成部分,算法的好坏直接关系到提供给系统的文本质量。br 本文还实现了一个能满足系统需求的网络爬虫,该爬虫已自动获取了大量的网页文本,体现了系统基于互联网的这样一个特征。系统将抽取算法直接处理这些文本,经分析可发现该算法以一个与文本规模成线性关系的时间复杂度处理。最后使用查全率和准确率来评估算法的好坏,通过实验证明了该抽取算法的有效性和优越性。本文链接:授权使用:武汉大学(whdx),授权号:b996c26f-396b-4358-82a6-9e3300ed0639下载时间:2010年11月19日
本文标题:基于结构和视觉特征的网页信息抽取技术的研究与实现
链接地址:https://www.777doc.com/doc-6265457 .html