总结及下一阶段工作计划

总结及下一阶段工作计划刘学铮03.09.03大纲信息网格研究综述阶段论文和科研成果基于属性的搜索引擎信息网格设计数据网格、信息网格和知识网格[1,3]数据网格与信息网格数据网格数据网格解决的问题：解决海量数据的存储和共享问题主要为计算任务以及计算网格服务，是一种底层的海量数据仓储体系数据网格不去解决的问题：多类的和复杂的信息格式信息表示和元数据智能化信息获取（Informationretrieval）信息网格信息网格解决的问题信息的智能化获取信息检索信息的表示多类的元数据和结构化给用户和应用程序提供特定内容的信息服务信息网格不去解决的问题海量数据存储，数据管理计算问题及强数据量（data-density）的计算和数据访问方式信息网格和知识网格信息网格信息网格解决的问题信息的智能化获取信息检索信息的表示多类的元数据和结构化信息网格不去解决的问题数据挖掘问题求解知识网格知识网格解决的问题数据挖掘、知识挖掘规则的发现数据、信息的可视化Ontology转换知识网格不去解决的问题无结构信息的半结构化元数据格式的匹配和转换信息智能化检索资源网格、信息网格与服务网格[2]信息网格的其他讨论信息网格作为计算网格和知识网格的中间层次，允许对于异构信息的统一访问，提供分布式资源上的公用信息服务。统一访问依赖于metadata对于信息的描述（并集成异构资源）[4,5]Thecomputation/datagridhassupercomputers,largeservers,massivedatastoragefacilitiesandspecialiseddevicesandfacilities(e.g.forVR(VirtualReality)).Themainfunctionsincludecomputeloadsharing/algorithmpartitioning,resolutionofdatasourceaddresses,security,replicationandmessagererouting.Theinformationgridresolveshomogeneousaccesstoheterogeneousinformationsources.Theknowledgegridutilisesknowledgediscoveryindatabasetechnology(especiallydatamining)togenerateknowledge(frominformationanddatainthelower2layersoftheGRIDs).[6]信息网格的其他讨论IPG(informationpowergrid),NASA.：针对与对异构分布式信息资源的无缝访问[7]GIG(globalinformationgrid),USADefance.强调以网络为中心的通信，信息广播和作战系统（net-centricinformationenvironment）InfoGrid[8]：一个实现信息访问应用的框架，其上提供用户界面及交互模型。它集中于获取应用程序对象，以其对于信息，数据和服务的统一访问(retrieval-centeredinteractionmodelforinformationaccessapplications)大纲信息网格研究综述阶段论文和科研成果基于属性的搜索引擎信息网格设计阶段论文和科研成果对等网络及信息网格的基础设施（infrastructure）研究结构化对等网络上静态和自适应的数据备份策略基于节点异构信息的路由及负载平衡算法信息搜索和基于语义的信息表示研究应用于大规模分布系统的潜在语义分析和信息索引策略查找环（Lookup-Rings）：动态网络环境上的高效信息检索基于元数据表示的信息网格阶段论文和科研成果大规模分布系统上消息传递及同步机制O(1)复杂度对等网络路由算法高可靠的大规模分布系统广播机制结构化对等网络上静态和自适应的数据备份策略针对传统的“连续k-近邻”数据冗余备份算法之不足，提出改进的“分区近邻”备份算法，适应高度动态环境下的数据备份要求，很大程度上避免了无用的数据迁移，节省了系统维护开销提出一个系统维护开销模型，并给出基于模型的优化策略提出variation-tolerantrecovery和adaptiveprobing相结合的系统维护策略，实现了静态的和自适应的数据冗余备份基于节点异构信息的路由及负载平衡算法传统对等网络采用哈希算法实现总体上的负载平衡。这种简单处理方式没有能有效的利用节点能力（强节点），并且仍然有一定程度上的负载不均衡本算法利用节点容量表储存当前节点能力和使用状况，并基于此进行负载分配，实现了实施的细粒度平衡，并有效的利用了节点能力算法使用一个轻度的消息扩散策略保证了容量表的实施更新应用于大规模分布系统的潜在语义分析和信息索引策略将传统信息获取领域（IR）中的潜在语义分析方法（LatentSemanticAnalysis）应用于大规模分布式对等网络上，实现对于信息源之间潜在语义关联的提取和利用。通过将信息和用户使用特性映射到降维欧式空间中的点来实现对于语义相关性的表示建立了对于潜在语义和用户使用特性的后验概率模型，使用MAP(maximizingaposteriori)进行优化求解。采用基于E-M优化的迭代算法实现了对于潜在语义表示空间的降维和求解，避免了分布式环境下SVD分解的复杂计算量通过提取的潜在语义表示来定义信息索引并指导分布式搜索，极大的提高了信息搜索效率（提高了2~3个数量级）查找环（Lookup-Rings）：动态网络环境上的高效信息检索解决动态网络环境下无中心大规模分布式系统的高效信息检索问题。建立了信息查找表（索引）的优化性能和网络动态变化造成信息查找表维护开销之间的平衡（trade-off）模型，求解出最优的信息查找表尺度基于最有查找表尺度建立高效的信息检索和维护算法，证明并实现了无偏检索（unbiasedsearching）算法中的最优效率。基于元数据表示的信息网格使用元数据表示（metadata）实现信息网格底层架构通过元数据的等价转换完成分布信息检索和信息集成利用用户反馈数据实现信息检索优化O(1)复杂度对等网络路由算法改善了传统结构化对等网络设计的节点链路关系，很大程度上降低了节点的联接数设计了O(1)复杂度的路由算法。对照HotOSIX中关于O(1)复杂度讨论的先驱性论文，本设计避免了超级节点（supernode），实现了完全对等的拓扑结构。这样同时解决了前文中超级节点带宽开销过大的问题高可靠的大规模分布系统广播机制实现了应用层（applicationlevel）的广播机制，建立了一个高可靠的分布式消息通知和广播机制对比gossip算法，减少了消息冗余，提高了算法效率，其算法效率接近最优生成树的树型广播对比树型广播，本算法保证了很高的可靠性以及负载均衡，其可靠性接近gossip算法大纲信息网格研究综述阶段论文和科研成果基于属性的搜索引擎设计信息网格设计基于属性的搜索引擎设计概述及与传统文本搜索引擎的对比基于属性的搜索引擎设计信息网格设计概述及与传统文本搜索引擎的对比应用背景：互联网上巨大信息的获取和检索传统文本搜索引擎的实现方法Html页面文本的获取（Crawling）页面解析和倒排索引建立（InvertedIndexing）页面联接关系分析和评定（PageRanking）基于倒排索引的联合查询（Searchingandmerging）传统文本搜索引擎的优势和不足优势使用简便，面向最终用户只关心文本，具有通用性。同时鉴于目前IR技术水平尚待发展，纯文本搜索不啻为最直接的搜索引擎策略不足完全不考虑文本结构信息，限制了高级使用其通用性也是不足之处，无法对于专业应用提供有针对性的服务，不能实现在语义上的定域查询，查询精度差不包含属性信息，不符合信息网格的需求，无法对应用程序实现必需的支持基于属性的半结构化信息搜索引擎设计思想将信息（html页面，ftp文件，pdf文件…）看作是属性的集合，而非传统平面纯文本的集合，亦即：Item={key,valuei,i=1,…n}查询请求可以详细指定所查信息的属性，提供key或者与key相对应的属性值，缩小查寻范围，提高查询精度属性之间实现等效转换这本质上是利用（文本中）结构信息和语义信息概要设计系统组成部分信息资源获取（Crawling）CrawlerandCrawlerScheduler半结构化和倒排索引建立Template-basedAnalyzerandInverted-indexBuilder语义相关分析及属性表评定SVDandRanker基于属性的查询Property-basedQueryEngine与传统纯文本搜索引擎之比较网页Crawler页面解析器文本索引应答引擎纯文本PageRank网页Crawler半结构化器属性索引应答引擎语义Rank及扩展查询属性查询纯文本搜索引擎基于属性的搜索引擎模版库Internet获取分析索引查询关键技术半结构化通用半结构化器提取html的表格信息，形成属性表提取已知格式的文档信息，譬如DOC,PDF等基于模版的专用半结构化器对于特定页面定制特定的模版，使用XML规则知道解析对于特定服务定制特定的模版及特定协议（ftp等）通过半结构化器，将页面转换成为属性表，缩小查寻范围，提高查询精度和效率关键技术属性索引针对转换的属性表，建立属性倒排对于二维表格的处理其他页面内容的索引，与文本搜索引擎的处理相同关键技术基于属性表和语义的Rank和扩展查询属性表特定的Rank基于SVD潜在语义分析的页面Rank技术扩展查询技术基于属性词相关的扩展查询基于同义词字典的扩展查询基于页面潜在相关的扩展查询关键技术基于属性查询的应答引擎对于设定属性值（值域）的查询优化大纲信息网格研究综述阶段论文和科研成果基于属性的搜索引擎信息网格设计信息网格设计基于属性的搜索引擎可以看作信息网格架构上面的一个应用信息网格系统具备了对于信息的统一描述（基于属性标的元数据）可以提供用户查询的反馈具备管理和看守一定范围的Internet上信息资源的能力信息网格底层架构应该给多个这样的应用提供基础设施（infrastructure）级的支持信息网格图示InternetInformationGridInfrastructure信息资源信息网格KnowledgeGrid应用程序终端用户上层用户从基于属性的搜索引擎到信息网格：典型信息网格的结构设计资源获取器应答引擎RankInternet资源获取资源库定域Scheduler半结构化器属性索引半结构化规则分析获取查询辅助模块基于元数据的请求返回结果翻译模块格式转换应用程序终端用户其他网格信息网格基础架构多个信息网格之间交互数据的统一接口用户查询分派针对特定用户的信息集成信息网格基础架构多个信息网格之间交互数据的统一接口抽象信息网格服务输入基于元数据表示的查询请求输出特定格式的查询结果采用基于XML统一表示的数据格式可外挂的翻译模块信息网格基础架构用户查询派发用户提交查询：特定元数据结构特定信息网格定域特定服务描述检索可以服务的信息网格：基于用户元数据模式采用无中心对等网络中的检索技术采用用户配置文件采用信息网格特定的注册检索服务器来完成——这些特定服务企也可以看作一定意义上的“信息网格”信息网格基础构架针对特定用户的信息集成最终的信息集成应该是应用程序或者用户端来完成的，因此集成有理由采用无偏向性的简单结果融合优化的信息集成技术是“元搜索”领域中的基本课题，有一些成型的结果通过用户反馈（relevancef

总结及下一阶段工作计划

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

海南省信息化“十一五”专项发展规划(1)

爆炸危险环境电气防爆技术

扬州市建筑起重机械安全管理用表

永安江绿色流域河道景观工程施工组织设计第五标段

道路交通疏解方案

国家发展改革委关于印发国家发展改革委定价药品目录...

中南通道lw-005建设工程施工劳务分包合同(钻孔桩)-聊城东建

第2章管理思想的发展

sasa莎莎年度运营全案

华侨城集团战略评估报告(pdf 50)

相关文档

相关搜索