您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 面向Web20 个性化搜索网站项目计划
面向Web2.0个性化搜索网站项目计划文档Version1.0目录1项目概述31.1项目背景31.2项目目标31.3项目范围31.4项目制约42项目创新点52.1搜索内容来自用户52.2搜索结果的排名来自用户52.3搜索质量由用户评价62.4用户个性化订阅主题词62.5用户委托搜索服务62.6数据挖掘和数据共享73项目计划83.1项目进度概述83.2甘特图83.3项目人员职责与分工93.4项目预算94项目资源104.1项目人员104.2项目工具104.3项目环境105风险管理115.1项目风险115.2风险表115.3风险应对115.3.1系统原因(如频繁死机)125.3.2产品不满足需求125.3.3项目规模爆炸135.3.4缺乏开发经验135.3.5需求变化145.3.6偏离软件工程规范145.3.7开发人员流失155.3.8代码注释欠缺151项目概述1.1项目背景当今搜索引擎成为了热门话题,Google、百度的成功更是使搜索引擎成为了一种必不可少的服务。现在的搜索引擎普遍使用网络爬虫技术将散布在互联网上的网页下载到本地,经过分析索引后保存到本地数据库,等待用户搜索。这一类型的网站,国外有Google,国内有百度,都已获得巨大的成功,同类型的搜索引擎已无法与之抗衡。与此同时,一部分垂直搜索引擎在某些领域发挥其领域专精的作用。这些搜索引擎的共同之处在于使用爬虫技术获得信息,虽然行之有效,但由于机器识别的局限性,对网页内容的理解达不到令人满意的要求,自然搜索的结果也不令人满意,充斥着重复和错误的结果。所以,可以通过人工自定义搜索结果的形式,给出一个人造的数据仓库,对互联网上的网页进行分类和确认,发挥Web2.0网民的积极性,提供最准确最人性化的搜索服务。1.2项目目标本项目的目标是创建一种新类型的搜索网站,与传统搜索网站的区别主要在于搜索结果由用户自己录入,而不是传统的纯粹的通过字符串匹配和机器识别。换句话说,该网站提供搜索服务的信息来源于用户,根据用户输入关键词(keywords)到目标网址(URL)的关联关系后,机器抓取该网页,验证并处理后保存到本地数据库。比如某用户定义“一个很好玩的网站”到开心网的关联,当其他用户搜索“好玩的网站”时候,就能得到开心网的网址作为搜索结果,这不是传统搜索引擎通过机器识别能够得到的结果,这样的结果更准确更人性化。本项目目标实施和构建了一个可发布运营的自定义搜索网站,为用户提供经人工辨认后的搜索服务,用户既是内容提供者,又是服务享受者,充分体现了Web2.0取自用户回馈用户的思想。可能的话,在具备一定用户规模后可以为社会厂商、网站提供广告信息服务。1.3项目范围本项目面向Web2.0,使用者是广大互联网用户,项目的信息提供者和信息使用者都是用户。项目的开发测试维护工作是由本项目组完成。1.4项目制约项目的制约条件主要是资源上的约束,主要有以下几点:时间:由于项目只有三个月左右的时间,所以有很多其他的创意没法实现,只能在文档中提出,以待下期开发。金钱:由于项目的资金基本来自实验室经费,还要配置服务器,所以人力报酬基本不够,硬件配置也只能做到单服务器。人员:项目实际参与人数不超过五人,开发人员不超过三人,人员紧缺也是制约项目功能完善的一大制约。2项目创新点项目的创新点主要提供了一种全新理念,由Web2.0用户自主提供搜索结果,这就造就了一种全新的搜索体验,与枯燥的由机器学习得到的搜索结果截然不同的体验。主要创新点概括为以下六点。2.1搜索结果来自用户搜索的结果由用户录入,这样就能自定义关键字的搜索结果,如我们可以把“一个很好玩的网站”的搜索结果与“开心网”的网址关联。这种方式与一般基于页面关键字的搜索方式有一个很大的好处,那就是可以从一个网页上可以派生出很多关键字,这些关键字都能反映出这个网页的特色,但却不能在网页中直接找到。这样我们的搜索结果就可以加上人对网页的认识,有了人主观的辨别。相比机器上的通过字符串的匹配、聚类和相似度查找来说,更符合人的搜索要求,更加准确,更加人性化,体现了web2.0由用户当作者的思想。2.2搜索结果的排名来自用户(个性化的排名算法)搜索结果的排名也由用户决定,排名算法既参照了现有搜索引擎的排名算法,如Google的PageRank,对网页的声望进行考虑。还融入数据挖掘的特性,挖掘用户的搜索历史,对用户感兴趣领域的搜索结果提高排名。这两方面的算法大致是这样,对网页声望的考虑主要有两条依据,即该网页被录入的重复度和网页的好评度,前者指这个网页被用户录入的重复次数,后者是指用户对该网页和关键词之间的贴切程度所给出的评价分数,这种衡量方式可以体现出用户对关键字到网页的认可程度,这相比Google的PageRank排名算法,更直接通过人来确定网页的声望,而不是纯粹通过网页间相互的链接关系,更能体现出人的认知在网页搜索中的作用。挖掘用户喜好方面主要通过记录其历史查询的信息,形成用户喜好的向量模型(n维向量,假设定义了n个领域),然后对每个搜索结果的n维向量进行相似度比较,对相似度高的搜索结果提高其排名。在声望基础排名算法的基础上,考虑相似度进行加权,给出最后的结果排名。这样的话,相同的搜索内容会因为不同用户得到不一样的结果排名,体现了基于数据挖掘的个性化搜索。2.3搜索质量由用户评价用户可以对搜索结果进行评价,这样我们就可以有一个评价搜索质量的体系,赞成数越多的搜索结果其可靠性就更有保证。这也是搜索结果排名算法的重要组成部分。传统的搜索引擎的结果是没有任何评价机制的,故搜索质量无法保证,即使像Google使用了PageRank这类基于声望的算法,能够很大程度提高质量,但页面之间并不只是粗糙的图模型,而且网页的声望有很多方式来人工制造,并不一定能反映真实的网页情况。所以单纯靠机器去判断是不够的,必须回归以人为本的思想,让用户来评价,当然必须对用户的评价进行客观的监督,通过限制评价权限、评价次数来避免制造声望的行为。用户在选择相应的搜索结果时可以看到评价,就如同在一些书评网上看到对书的评价一样,用户就可以大致看出这个搜索结果的质量,而不需要点进去后才知道结果。用户选择评价较高的网址,也会更大机率更快地得到自己想要的信息。2.4用户个性化订阅主题词主题词的订阅功能是指用户可以订阅几个他感兴趣的词。订阅主题词有几种可能,第一种可能用户没有得到满意的搜索结果,第二种是用户对某个方面一直有兴趣,希望得到最新的信息。当用户订阅了主题词,一旦有其他用户录入他感兴趣的主题词时,系统就会将这个关联以邮件形式通知他,可以是周报或者月报的形式。这个功能可以让用户及时地知道自己关心的内容是否有别人提供搜索结果,因为每次搜索不可能都得到满意的结果,订阅主题词能够一定程度弥补这个不足,在将来某个时候能给用户带来满意的结果,这将给用户带来很好的使用体验。2.5用户委托搜索服务委托搜索服务是指将搜索的任务委托给第三方,即我们的网站,由我们替用户搜索并整理结果反馈给用户,这个和订阅主题词有一个最大的区别在于,网站不仅会使用自身的资源,也会整合很多大型搜索引擎,如Google,百度的搜索结果,然后定期反馈给用户。我们的系统担任一个元搜索引擎的角色。比如某用户的搜索内容比较特殊,在Google,百度等主流搜索引擎都得不到结果,他就能将任务委托给我们,我们会定期去尝试搜索这个内容,一旦有搜索结果就会将结果反馈给用户,不需要用户自己不断去尝试。2.6数据挖掘和数据共享自主录入的搜索引擎覆盖的范围十分大,不是垂直搜索引擎所能比拟,所获的信息量更是海量的,更何况这些信息都带有人主观的辨别,其价值更是无与伦比,对其进行数据挖掘意义非比寻常,可以了解用户的上网习惯,感兴趣的关键词,用户最关心的内容是什么,在获得这些信息的同时可以无偿或者有偿地提供这类数据信息,回馈给用户和社会。本系统现阶段的数据挖掘和共享的内容如下:用户数、网页关联数、关键词数、最新提交网页、热门关键字排名、热门网页排名、搜索框提示、相似搜索内容提示、领域网页排名。领域网页排名通过k路聚类形成。对各领域的最新网页和热门网页做一个统计并发布。3项目计划3.1项目进度概述当前日期2008/10/13标题面向web2.0个性化搜索网站项目开始时间2008/7/18:00:00项目完成时间2008/9/3017:00:003.2甘特图3.3项目人员职责与分工项目的开发团队由三人组成,陈晨作为项目组长,金祖旭和阮斌斌作为组员,共同对项目生命周期内的各项事宜负责。下面的分工表,表示了项目每个阶段任务的担当人。另外两人在此该任务期间要负责协助完成。模块任务名称优先级担当项目可行性分析S陈晨任命项目经理S陈晨组建项目管理团队S陈晨项目初始化确定项目成员S陈晨问题分析A陈晨定义系统A阮斌斌项目需求分析需求复审A金祖旭架构设计A陈晨细节设计A金祖旭项目分析和设计设计复审A阮斌斌制定测试计划B阮斌斌测试用例设计B阮斌斌项目测试设计测试用例复审B陈晨用户管理模块A金祖旭用户搜索模块A陈晨后台管理模块B阮斌斌系统集成A金祖旭项目实现代码复查A阮斌斌单元测试A阮斌斌功能测试A金祖旭集成测试A陈晨项目测试用户验收A金祖旭整理文档和用户手册B阮斌斌部署和交付项目交付A陈晨3.4项目预算项目预算主要来自实验室经费,人力报酬全免,所用的开发工具都是免费或试用版,所以预算主要是购置服务器的费用。根据Dell网站报价和比较其服务器的性能,预算为2万元。4项目资源4.1项目人员姓名学院年级研究方向陈晨软件学院07级研究生Web数据挖掘金祖旭软件学院07级研究生信息检索阮斌斌软件学院07级研究生网络流媒体4.2项目工具工具类别工具商标名版本IDEEclipse3.2版本控制,CVSNT2.0项目管理Project20034.3项目环境配置名称描述物理配置实现开发环境一般主流机器性能的配置环境P4,1024MDDR,80G硬盘,集成显卡测试环境一般主流机器性能的配置环境P4,1024MDDR,80G硬盘,集成显卡部署环境比较高端的服务器配置环境DELLPowerEdge2950(5405CPU/8GRAM/300Gx6HD)5风险管理5.1项目风险本项目的风险主要有以下几点:-系统原因(死机)-项目进度滞后-需求频繁变更-不遵守软件工程规范-代码注释欠缺导致无法维护-系统规模爆炸(海量数据和用户)-技术达不到预期的效果-人员流失5.2风险表风险类别概率影响系统原因(如频繁死机)技术30%1产品不满足需求技术25%1项目规模爆炸项目规模50%1缺乏开发经验技术20%2需求变化过程20%2偏离软件工程规范过程10%3开发人员流失人员30%3代码注释欠缺技术20%45.3风险应对RMMM(RiskMitigation,Monitoring,andManagement)帮助我们提前获悉可能的风险,系统需求会考虑到风险并适度地调整。对于每个影响较大的风险,将在分析设计阶段予以考虑并找到至少一条应对策率。5.3.1系统原因(如频繁死机)缓解(Mitigation)系统死机可能带来的数据丢失和损坏,如关联信息,索引等文件,将造成程序异常。所以必须将程序本身和相关信息的文件在多处留有备份。监测(Monitoring)在开发进程中,开发人员须时刻注意系统的稳定情况,一旦系统死机,必须引起注意并记录出错原因。管理(Management)系统原因将造成开发进程受到很大影响,团队成员在系统不稳定是应当减少工作量,或者转移到系统稳定的机器上进行开发工作。5.3.2产品不满足需求缓解(Mitigation)为了避免发生项目产品达不到需求,必须定期召开正式或非正式的会议,讨论需求与当前项目的是否吻合。监测(Monitoring)在开发进程中,开发人员必须记录需求的实现情况,并记录开发成员对需求的理解程度。管理(Management)开发人员要身处实际应用场景,来思考如何开发项目,理解项目的需求,项目经理在完全理解了需求的基础上,对项目进程中可能出现的需求偏差进行修正。5.3.3项目规模爆炸缓解(Mitigation
本文标题:面向Web20 个性化搜索网站项目计划
链接地址:https://www.777doc.com/doc-802821 .html