您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 商业计划书 > 基于搜索引擎的新闻定制系统的设计与实现
基于搜索引擎的新闻定制系统的设计与实现数学与计算机科学学院计算机科学与技术专业105022004071沈锦泉指导教师:陈志德【摘要】WorldWideWeb是一个潜在的、巨大的知识库。它所拥有的Web页面已经从最初的几千个发展到至今的几十亿个。随着网络的普及,越来越多的人通过网络来获取信息、查询资料。虽然各种各样的门户网站纷纷兴起,但在各个网站之间来回穿梭十分麻烦,搜索引擎可以帮助我们搜索到想要的东西,但查找起来也比较麻烦。本文主要研究如何实现自动搜索网络上的信息,并对信息进行加工,提取其中有用部分,并在此基础上设计一个新闻定制系统。【关键词】新闻定制;搜索引擎;正则表达式目录1.引言............................................................................11.1课题背景.......................................................................11.2搜索引擎的工作原理.............................................................11.3主要研究工作...................................................................21.4论文的结构.....................................................................22.系统结构........................................................................33.抓取器的设计与实现..............................................................43.1网络蜘蛛基本原理..............................................................43.2本系统抓取器的设计思路........................................................43.3本系统抓取器的实现............................................................53.3.1抓取功能的实现.........................................................53.3.2定时功能的实现.........................................................54.标题、网址及正文的提取..........................................................74.1正则表达式....................................................................74.1.1System.Text.RegularExpressions命名空间................................74.1.2Regex类...............................................................74.1.3Match类和MatchCollection类...........................................74.2本系统所用到的正则表达式......................................................74.3标题、网址及正文提取的实现....................................................75.数据处理.......................................................................105.1MicrosoftSQLServer2000简介...............................................105.2本系统数据库的基本E_R图.....................................................105.3大量数据的处理思路...........................................................105.4处理大量数据的程序实现.......................................................116.系统界面及功能简介.............................................................136.1抓取器的界面及功能简介........................................................136.2用户定制界面及功能简介........................................................147.系统的不足与展望...............................................................167.1系统存在的不足...............................................................167.2新闻定制系统的发展前景.......................................................168.结束语.........................................................................16参考文献..........................................................................16ABSTRACT..........................................................................1711、引言1.1课题背景WorldWideWeb是一个潜在的、巨大的知识库。它所拥有的Web页面已经从最初的几千个发展到至今的上万亿个[1,2]。随着网络规模的爆炸性增长,越来越多的人通过网络来获取信息,查询资料等。传统的新闻获取方式(如电视、收音机、报纸等)已不再成为主流,越来越多的人通过浏览网页来阅读新闻,获取所需的信息。各种各样的门户网站也纷纷兴起,其涉及的方面也十分广泛。正因为网站的复杂性,用户已疲倦了在各个网站之间来回穿梭。搜索引擎虽然可以帮助我们搜索到想要查找的东西,但查找起来也比较麻烦。随着RSS技术的发展,大部分门户网站都支持RSS订阅。近年来,越来越多的RSS新闻阅读器应运而生。通过RSS阅读器,用户可以把订阅的最新资讯接收到客户端电脑桌面上。当提供订阅的网站内容更新时,RSS阅读器会自动接收最新的信息。RSS阅读器已成为一个很热门的、很受用户喜爱的产品。但RSS阅读器是基于RSS聚合的,如果所要订阅信息所在的网站不支持RSS定制功能,则就无法实现新闻的定制。本文主要研究如何实现自动搜索网络上的信息,并对信息进行加工,提取其中有用部分。并在此基础上设计一个新闻定制系统。该系统不同于RSS新闻阅读系统,不需要各网站提供RSS订阅信息,在设计上突破了常规。1.2搜索引擎的工作原理搜索引擎是指因特网上专门提供搜索查询服务的一类网站或工具,它以一定的策略在互联网中搜集、发现信息并对信息进行提取、组织和处理,为用户提供信息检索服务,从而实现信息导航的功能。通用搜索引擎一般由信息采集部分,信息预处理部分和信息检索部分组成。信息抓取部分由抓取器和解析器构成,其工作原理如图1-1所示。图1-1搜索引擎工作原理图抓取器根据相应的协议对网络站点进行访问,并收集各个站点的信息,然后将抓取到的网页数据送入解析器进行解析,将解析后从页面中提取出来的Url信息送入Url列表中,进行下一轮抓取,解析后的页面信息以文本文件的形式保存在数据库中。然后依据词典进行词汇切分,得到网页的特征信息,并进行词频、词位(置)、词长、网页等级的统计分析,在此基础上建立索引数据库。在用户进行检索时,根据用户输入的查询关键字,对索引数据库进行访问,最后将查询结果按照某种排序算法进行排序,用户WEB服务器索引库Url列表因特网抓取器解析器网页库索引器2并将查询结果以图形界面的方式返回给查询用户。[3]1.3主要研究工作本文主要研究如何用C#编程实现自动搜索网络上的信息,并对信息进行加工,采用正则表达式提取其中有用部分。并在此基础上用asp.net设计一个基于B/S的新闻定制系统。1.4论文的结构论文共分为八章,各章内容安排如下:第一章主要介绍了基于搜索引擎的新闻定制系统的研究背景。第二章介绍系统结构。第三章研究本系统的核心技术:抓取器的设计及实现。第四章介绍对抓取内容的处理,即如何提取标题、网址和正文。第五章介绍本系统处理大量数据的方法。第六章系统界面及功能简介。第七章指出系统的不足之处及对未来的展望。第八章结束语。32.系统结构系统从逻辑上可以分为两部分:预处理部分和服务部分。整个系统的结构如图2-1所示:图2-1系统结构图预处理部分是指从设置预抓取的网站地址到存入数据库这部分,跟普通搜索引擎不太一样,在进行抓取时需要设置预抓取的网站地址,而且只抓取网站页面中的网址和标题,并没有把整个页面下载并存入硬盘中。这在一定程度上减少了处理时间和存储空间。在网址和标题提取之后,进行二次处理,最后把网址、标题、正文都存入数据库,为用户查询做准备。服务部分主要是面向用户的,接受用户的定制要求,进行查询,并把结果返回给用户。问题的关键在抓取器的设计和网址、标题、正文的提取。设置预抓取的网站地址抓取器网址、标题提取(预处理)提取正文(二次处理)存入数据库数据检索结果界面定制界面43.抓取器的设计与实现目前流行的搜索引擎(如Google、百度等)提供的信息检索功能相当强大,用户每提交一个请求,搜索引擎返回的结果少则几千条,多则几千万条甚至上亿条。如此庞大的数据,不可能通过人工手动添加,这就需要有个自动搜索网络数据的系统。这就是网络蜘蛛(WebSpider)或网络机器人(WebRobots)。3.1网络蜘蛛基本原理网络蜘蛛,即WebSpider,是通过网页中的链接地址来寻找网页,从网络中的某一个页面开始(一般为某个网站的首页),读取其中的内容,找到网页中其它的链接地址,然后通过这些链接地址来寻找下一个网页,这样循环下去,直到把整个网站所有的网页都抓取完为止。在抓取网页的时候,网络蜘蛛一般有两种搜索策略:广度优先和深度优先。广度优先是指网络蜘蛛会先抓取起始网页中的链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。深度优先是指网络蜘蛛会从起始页开始,按照每个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。两种策略的区别见图3-1。[4]图3-1两种搜索策略3.2本系统抓取器的设计思路本系统抓取器的设计思路与网络蜘蛛的基本原理相似,从要抓取的网页(如某个新闻网站的首页)开始,读取其中的内容,然后提取网页中的其他链接。不同的是,每个起始网页需要事先设置,对于起始网页提取出来的链接进行分析,过滤掉没有用到的信息。然后对有用的链接进行二次处理,提取其中的有用的信息,存入数据库。根据我们这个系统的实际需要。我们在抓取网页的时候需要考虑
本文标题:基于搜索引擎的新闻定制系统的设计与实现
链接地址:https://www.777doc.com/doc-4380188 .html