您好,欢迎访问三七文档
当前位置:首页 > 办公文档 > 总结/报告 > 总结及下一阶段工作计划
总结及下一阶段工作计划刘学铮03.09.03大纲信息网格研究综述阶段论文和科研成果基于属性的搜索引擎信息网格设计数据网格、信息网格和知识网格[1,3]数据网格与信息网格数据网格数据网格解决的问题:解决海量数据的存储和共享问题主要为计算任务以及计算网格服务,是一种底层的海量数据仓储体系数据网格不去解决的问题:多类的和复杂的信息格式信息表示和元数据智能化信息获取(Informationretrieval)信息网格信息网格解决的问题信息的智能化获取信息检索信息的表示多类的元数据和结构化给用户和应用程序提供特定内容的信息服务信息网格不去解决的问题海量数据存储,数据管理计算问题及强数据量(data-density)的计算和数据访问方式信息网格和知识网格信息网格信息网格解决的问题信息的智能化获取信息检索信息的表示多类的元数据和结构化信息网格不去解决的问题数据挖掘问题求解知识网格知识网格解决的问题数据挖掘、知识挖掘规则的发现数据、信息的可视化Ontology转换知识网格不去解决的问题无结构信息的半结构化元数据格式的匹配和转换信息智能化检索资源网格、信息网格与服务网格[2]信息网格的其他讨论信息网格作为计算网格和知识网格的中间层次,允许对于异构信息的统一访问,提供分布式资源上的公用信息服务。统一访问依赖于metadata对于信息的描述(并集成异构资源)[4,5]Thecomputation/datagridhassupercomputers,largeservers,massivedatastoragefacilitiesandspecialiseddevicesandfacilities(e.g.forVR(VirtualReality)).Themainfunctionsincludecomputeloadsharing/algorithmpartitioning,resolutionofdatasourceaddresses,security,replicationandmessagererouting.Theinformationgridresolveshomogeneousaccesstoheterogeneousinformationsources.Theknowledgegridutilisesknowledgediscoveryindatabasetechnology(especiallydatamining)togenerateknowledge(frominformationanddatainthelower2layersoftheGRIDs).[6]信息网格的其他讨论IPG(informationpowergrid),NASA.:针对与对异构分布式信息资源的无缝访问[7]GIG(globalinformationgrid),USADefance.强调以网络为中心的通信,信息广播和作战系统(net-centricinformationenvironment)InfoGrid[8]:一个实现信息访问应用的框架,其上提供用户界面及交互模型。它集中于获取应用程序对象,以其对于信息,数据和服务的统一访问(retrieval-centeredinteractionmodelforinformationaccessapplications)大纲信息网格研究综述阶段论文和科研成果基于属性的搜索引擎信息网格设计阶段论文和科研成果对等网络及信息网格的基础设施(infrastructure)研究结构化对等网络上静态和自适应的数据备份策略基于节点异构信息的路由及负载平衡算法信息搜索和基于语义的信息表示研究应用于大规模分布系统的潜在语义分析和信息索引策略查找环(Lookup-Rings):动态网络环境上的高效信息检索基于元数据表示的信息网格阶段论文和科研成果大规模分布系统上消息传递及同步机制O(1)复杂度对等网络路由算法高可靠的大规模分布系统广播机制结构化对等网络上静态和自适应的数据备份策略针对传统的“连续k-近邻”数据冗余备份算法之不足,提出改进的“分区近邻”备份算法,适应高度动态环境下的数据备份要求,很大程度上避免了无用的数据迁移,节省了系统维护开销提出一个系统维护开销模型,并给出基于模型的优化策略提出variation-tolerantrecovery和adaptiveprobing相结合的系统维护策略,实现了静态的和自适应的数据冗余备份基于节点异构信息的路由及负载平衡算法传统对等网络采用哈希算法实现总体上的负载平衡。这种简单处理方式没有能有效的利用节点能力(强节点),并且仍然有一定程度上的负载不均衡本算法利用节点容量表储存当前节点能力和使用状况,并基于此进行负载分配,实现了实施的细粒度平衡,并有效的利用了节点能力算法使用一个轻度的消息扩散策略保证了容量表的实施更新应用于大规模分布系统的潜在语义分析和信息索引策略将传统信息获取领域(IR)中的潜在语义分析方法(LatentSemanticAnalysis)应用于大规模分布式对等网络上,实现对于信息源之间潜在语义关联的提取和利用。通过将信息和用户使用特性映射到降维欧式空间中的点来实现对于语义相关性的表示建立了对于潜在语义和用户使用特性的后验概率模型,使用MAP(maximizingaposteriori)进行优化求解。采用基于E-M优化的迭代算法实现了对于潜在语义表示空间的降维和求解,避免了分布式环境下SVD分解的复杂计算量通过提取的潜在语义表示来定义信息索引并指导分布式搜索,极大的提高了信息搜索效率(提高了2~3个数量级)查找环(Lookup-Rings):动态网络环境上的高效信息检索解决动态网络环境下无中心大规模分布式系统的高效信息检索问题。建立了信息查找表(索引)的优化性能和网络动态变化造成信息查找表维护开销之间的平衡(trade-off)模型,求解出最优的信息查找表尺度基于最有查找表尺度建立高效的信息检索和维护算法,证明并实现了无偏检索(unbiasedsearching)算法中的最优效率。基于元数据表示的信息网格使用元数据表示(metadata)实现信息网格底层架构通过元数据的等价转换完成分布信息检索和信息集成利用用户反馈数据实现信息检索优化O(1)复杂度对等网络路由算法改善了传统结构化对等网络设计的节点链路关系,很大程度上降低了节点的联接数设计了O(1)复杂度的路由算法。对照HotOSIX中关于O(1)复杂度讨论的先驱性论文,本设计避免了超级节点(supernode),实现了完全对等的拓扑结构。这样同时解决了前文中超级节点带宽开销过大的问题高可靠的大规模分布系统广播机制实现了应用层(applicationlevel)的广播机制,建立了一个高可靠的分布式消息通知和广播机制对比gossip算法,减少了消息冗余,提高了算法效率,其算法效率接近最优生成树的树型广播对比树型广播,本算法保证了很高的可靠性以及负载均衡,其可靠性接近gossip算法大纲信息网格研究综述阶段论文和科研成果基于属性的搜索引擎设计信息网格设计基于属性的搜索引擎设计概述及与传统文本搜索引擎的对比基于属性的搜索引擎设计信息网格设计概述及与传统文本搜索引擎的对比应用背景:互联网上巨大信息的获取和检索传统文本搜索引擎的实现方法Html页面文本的获取(Crawling)页面解析和倒排索引建立(InvertedIndexing)页面联接关系分析和评定(PageRanking)基于倒排索引的联合查询(Searchingandmerging)传统文本搜索引擎的优势和不足优势使用简便,面向最终用户只关心文本,具有通用性。同时鉴于目前IR技术水平尚待发展,纯文本搜索不啻为最直接的搜索引擎策略不足完全不考虑文本结构信息,限制了高级使用其通用性也是不足之处,无法对于专业应用提供有针对性的服务,不能实现在语义上的定域查询,查询精度差不包含属性信息,不符合信息网格的需求,无法对应用程序实现必需的支持基于属性的半结构化信息搜索引擎设计思想将信息(html页面,ftp文件,pdf文件…)看作是属性的集合,而非传统平面纯文本的集合,亦即:Item={key,valuei,i=1,…n}查询请求可以详细指定所查信息的属性,提供key或者与key相对应的属性值,缩小查寻范围,提高查询精度属性之间实现等效转换这本质上是利用(文本中)结构信息和语义信息概要设计系统组成部分信息资源获取(Crawling)CrawlerandCrawlerScheduler半结构化和倒排索引建立Template-basedAnalyzerandInverted-indexBuilder语义相关分析及属性表评定SVDandRanker基于属性的查询Property-basedQueryEngine与传统纯文本搜索引擎之比较网页Crawler页面解析器文本索引应答引擎纯文本PageRank网页Crawler半结构化器属性索引应答引擎语义Rank及扩展查询属性查询纯文本搜索引擎基于属性的搜索引擎模版库Internet获取分析索引查询关键技术半结构化通用半结构化器提取html的表格信息,形成属性表提取已知格式的文档信息,譬如DOC,PDF等基于模版的专用半结构化器对于特定页面定制特定的模版,使用XML规则知道解析对于特定服务定制特定的模版及特定协议(ftp等)通过半结构化器,将页面转换成为属性表,缩小查寻范围,提高查询精度和效率关键技术属性索引针对转换的属性表,建立属性倒排对于二维表格的处理其他页面内容的索引,与文本搜索引擎的处理相同关键技术基于属性表和语义的Rank和扩展查询属性表特定的Rank基于SVD潜在语义分析的页面Rank技术扩展查询技术基于属性词相关的扩展查询基于同义词字典的扩展查询基于页面潜在相关的扩展查询关键技术基于属性查询的应答引擎对于设定属性值(值域)的查询优化大纲信息网格研究综述阶段论文和科研成果基于属性的搜索引擎信息网格设计信息网格设计基于属性的搜索引擎可以看作信息网格架构上面的一个应用信息网格系统具备了对于信息的统一描述(基于属性标的元数据)可以提供用户查询的反馈具备管理和看守一定范围的Internet上信息资源的能力信息网格底层架构应该给多个这样的应用提供基础设施(infrastructure)级的支持信息网格图示InternetInformationGridInfrastructure信息资源信息网格KnowledgeGrid应用程序终端用户上层用户从基于属性的搜索引擎到信息网格:典型信息网格的结构设计资源获取器应答引擎RankInternet资源获取资源库定域Scheduler半结构化器属性索引半结构化规则分析获取查询辅助模块基于元数据的请求返回结果翻译模块格式转换应用程序终端用户其他网格信息网格基础架构多个信息网格之间交互数据的统一接口用户查询分派针对特定用户的信息集成信息网格基础架构多个信息网格之间交互数据的统一接口抽象信息网格服务输入基于元数据表示的查询请求输出特定格式的查询结果采用基于XML统一表示的数据格式可外挂的翻译模块信息网格基础架构用户查询派发用户提交查询:特定元数据结构特定信息网格定域特定服务描述检索可以服务的信息网格:基于用户元数据模式采用无中心对等网络中的检索技术采用用户配置文件采用信息网格特定的注册检索服务器来完成——这些特定服务企也可以看作一定意义上的“信息网格”信息网格基础构架针对特定用户的信息集成最终的信息集成应该是应用程序或者用户端来完成的,因此集成有理由采用无偏向性的简单结果融合优化的信息集成技术是“元搜索”领域中的基本课题,有一些成型的结果通过用户反馈(relevancef
本文标题:总结及下一阶段工作计划
链接地址:https://www.777doc.com/doc-512405 .html