您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > blog项目最终报告
博客专用搜索引擎最终项目报告路志学:10548302陈友祥:10548168程彦涛:10548169贺珊:10548289李预清:10548329博客专用搜索引擎1.项目背景...........................................................................................................................11.1博客简介.....................................................................................................................11.2市场调查.....................................................................................................................22.项目计划...........................................................................................................................22.1服务内容.....................................................................................................................22.2模块划分.....................................................................................................................32.3收入模型.....................................................................................................................42.4主要风险因素分析.....................................................................................................42.5项目的SWOT分析.....................................................................................................43.开发实现...........................................................................................................................53.1Crawler设计与实现.....................................................................................................53.11模块功能说明...................................................................................................53.12模块设计说明...................................................................................................53.13模块效果说明...................................................................................................63.14模块存在的问题及提高...................................................................................93.2文档分类.....................................................................................................................93.21提取关键词.......................................................................................................93.22实现过程...........................................................................................................93.23提取效果.........................................................................................................103.24存在问题及提高.............................................................................................113.3查询模块...................................................................................................................113.31模块实现.........................................................................................................113.32界面截图与介绍.............................................................................................114.总结改进.........................................................................................................................124.1项目总结...................................................................................................................124.2改进计划...................................................................................................................125.致谢.................................................................................................................................136.参考文献.........................................................................................................................13博客专用搜索引擎1.项目背景1.1博客简介博客,译自于英语单词blog(weblog的缩写),是一种在线网络出版形式,版面通常由单栏文本贴子按倒时间顺序不断更新排列构成,并能提供一些个人化的链接。blog这个术语在1997年被首次应用。1999年,随着第一个免费博客软件(pitas)的发布以及大量的以博客网站为新闻源的主流媒体报道,尤其是“911”事件之后和美国攻打伊拉克期间,博客作为一种上网活动得到了快速发展,《韦氏词曲》2334年度词汇第一名即为“博客”,2002年博客概念进入中国。据著名的博客联结分析公司Technorati在2005年2月24日的动态监测,博客网站约为710万个。与其他网络应用(比如电子邮件、万维网等)相比,博客更具社会沟通和民主化的潜质,能为主流媒体提供新闻和公众观点来源,为教育业和商业创造知识共享的环境,同时能为个人提供一个自我表达和自我价值实现的平台。博客的核心技术是RSS技术,RSS是ReallySimpleSyndication(真正简单的连锁)的缩写,它用于连锁web内容和元数据。目前应用较多的大多是免费软件,并且操作非常简单,这使得创建和维护博客网站变得非常简单和低成本,为博客市场的充分竞争消除了技术壁垒。博客的技术优势不仅体现在低成本方面,而且更在于技术本身的优势。互联网带来的信息海量化使得信息的甄别和价值提升变得非常困难,而RSS可以对信息内容进行多次重复聚集加工,一个网站的信息可能被组合分检到各类更专一的网站中去,从而最大限度地提高了信息的辐射范围,也方便用户进行更大范围内的同类信息的比较,在一定程度上可以作为知识转化的良好工具,利于信息和知识增值;另一方面,博客技术的低门槛,改变了互联网上的话语结构和知识水平,降低了知识交易的费用,提高了知识交易的效率。还有,博客技术填补了很少更新、非对称广播的标准网页和随时更新、对称交流的计算机中介传播之间的技术断层,呈现出经济更新、非对称交流的独有特性。这些技术上的特点及其衍生的优势是构成博客竞争优势的主要部分。虽然博客起步较晚,但其商业应用的潜力不可忽视。另外,博客还具有以下的一些特征:⑴文章系统化。一般而言,互联网上的每一个“博客”在自己的文章中,都或多或少地有某种偏好,倾向于创作某一类别、某一方面的文章。⑵有较高的忠诚度。可能长时间地坚持创作。⑶有较高的知识水平和创造能力。“博客”们往往是文化层次中上的人群。⑷通常具有类似心理、社会情况、审美标的、生活方式的群体,有知识、有理想、有思想和明确的行动目标。1⑸发展迅速。2004年11月,美国博客创建者占网络总用户比例的11%,超过800万名,博客访问用户占27%,达3200万名,近两年国内博客市场发展迅速。1.2市场调查博客已经成为重要的信息交流平台,同时也是不可忽视的网络资源。在这种情况下,如何更好的利用这一平台和资源,成为摆在大家面前的一个问题。而且随着博客用户的迅猛增长,可以预见,博客搜索引擎的使用也会更加迫切和广泛。目前,这一市场的潜在的竞争对手主要是:一,传统的搜索引擎,由于传统的搜索引擎所拥有的信息量相当广泛,所以,它们也会抢占部分市场。二,现有的博客搜索引擎,博客专用搜索引擎收录博客网页的数量和辅助功能不同,搜索结果和搜索效率有很大区别。而且博客专用的搜索引擎往往是针对查找时候的关键词,搜索出来的结果是包含该关键词的blog中的文章,而并未对该blog进行分析和归类;或者有对blog进行分类的博客搜索引擎,但是这种搜索引擎往往是依靠blog的持有者自己去注册相关的blog的关键词信息,拥有者信息等。这种博客搜索引擎搜集的信息量往往受到限制。目前在国内,比较知名的第二类搜索引擎如下:1、
本文标题:blog项目最终报告
链接地址:https://www.777doc.com/doc-751211 .html