您好,欢迎访问三七文档
当前位置:首页 > 机械/制造/汽车 > 机械/模具设计 > 面向海量文本数据的多任务并行调度加载技术研究与实现
国防科学技术大学硕士学位论文面向海量文本数据的多任务并行调度加载技术研究与实现姓名:陈光强申请学位级别:硕士专业:计算机科学与技术指导教师:杨树强20081101面向海量文本数据的多任务并行调度加载技术研究与实现作者:陈光强学位授予单位:国防科学技术大学相似文献(10条)1.期刊论文陈光强.杨树强.张晓辉.李润恒.贾焰.ChenGuangqiang.YangShuqiang.ZhangXiaohui.LiRunheng.JiaYan面向海量文本数据的多任务并行调度加载技术研究与实现-计算机研究与发展2009,46(z2)随着文本数据量的急剧增长,对传统的数据库技术在数据存储、实时数据加载等方面都提出了新的挑战.海量数据管理平台MDMP就是针对海量文本数据的存储及管理需求而研制的.根据文本数据的特点,通过对大数据按照其内容和时间等属性进行划分,使得对一批海量数据的加载过程被分解为若干不相关的加栽子任务,从而利用合理的并行调度算法使各个加栽子任务高度并行执行.MDMP中基于多任务并行调度加栽技术提供了高性能的加载.主要研究了多任务并行调度加载技术.2.期刊论文韩毅.韩伟红.杨树强.贾焰.HANYi.HANWei-hong.YANGShu-qiang.JIAYan面向OLAP的高效海量数据存储技术研究与实现-微电子学与计算机2006,23(z1)文章在分析了OLAP大规模海量多维数据特点的基础上,针对当前一般规模关系数据库处理海量多维数据能力的不足,通过使用数据库分区技术和并行磁盘组技术,设计并实现了一种高效的、面向OLAP应用的数据存储管理结构.并针对传统查询优化器对于大规模海量数据统计信息更新不及时的问题,设计了一种基于分区技术的统计方法.实验证明,该设计可以对百TB级的多维海量文本数据进行有效的管理.3.学位论文张英武分布式海量文本数据检索系统研究与实现2006随着网络及其应用的普及,网络数据量急剧膨胀,针对海量网络数据的基于文本内容的高性能检索和分析处理技术因此得到了迅速的发展。本文从大规模事务处理系统StarTPMonitor这个特定应用出发,首先对搜索引擎技术和文本数据库技术的原理、实现技术以及产品进行了分析,并选择采用文本数据库技术途径。基于文本数据库技术方案,本文的主要工作如下:1.海量文本数据检索系统体系结构研究,采用了多数据库的体系结构对海量文本数据进行管理。2.针对数据库文本索引速度随着数据规模增大急剧下降的问题,提出了一种高效的数据存储组织和索引维护方式,将数据均匀划分处理,进行并行数据加载和索引维护,使数据库文本索引速度始终保持当前系统文本索引创建过程中能够达到的最大速率而与数据规模无关。3.针对数据库文本查询响应时间随着数据规模增大不断增长,导致查询响应很慢的问题,提出了一种查询结果缓存技术,对查询部分结果进行缓存处理,利用该技术可以有效的缩短查询的响应时间。4.提出了一种适应不同软硬件环境文本索引维护优化模型,基于该模型,设计并实现了系统最优运行参数检测程序,通过程序,可以快速确定针对特定环境的系统运行优化参数。5.针对特定应用,对Oracle的文本索引维护技术进行了优化。最后通过一组调优和测试,从功能和性能的角度说明系统在功能特性和性能指标上,均能达到甚至超过预期目标。4.学位论文闫朝阳基于网格计算的文本挖掘系统研究2008近年来,随着互联网技术与企业信息处理技术的快速发展,文本数据数量正在飞速增长。如何有效地从这些海量的文本数据中找到经营决策所需要的信息越来越被人们所关注。将网格计算与数据挖掘相结合是当前国际上的一个热门研究课题,而如何将网格计算应用于文本挖掘系统则刚刚起步。本文主要针对基于网格计算的分布式海量文本分类系统进行了研究。首先分析比较三种传统的分类算法的性能及其适应环境,提出了基于词频、词长、词语的首现位置的综合权重算法来处理海量文本。其次,在该算法的基础上构建了基于桌面网格的海量文本分类挖掘系统以及基于网格的分布式文本数据仓库集成模型,用于存储文本数据挖掘的结果,便于数据的统计分析。最后,成功地将这些研究成果应用于电信CRM客户抱怨系统。本文设计并实现了相关的算法与系统,并对挖掘系统的有效性进行了分析。实验结果表明,本文算法及系统的挖掘结果是令人满意的,具有较好的性能和一定的实用价值。5.学位论文马飞Web环境下结构化查询与文本检索集成的研究和实现2004随着Intemet的迅猛发展,Web已经成为包含着海量数据的信息宝库.人们几乎可以在这个信息宝库中找到任何领域的相关信息.然而,正是由于数据量极其庞大,用户要在Web信息宝库里找到自己感兴趣的内容,就像大海捞针一样.搜索引擎的出现部分地解决了这个问题.然而,搜索引擎主要是针对Web中文本数据的检索,提供基于关键词的查询,而关键词查询实际上是一种模糊查询,它无法准确地表达用户的查询请求.因此,用户往往淹没在成千上万的查询结果之中,而在这些结果中手工查找将消耗大量的时间和精力.事实上,除了文本数据外,Web还包含大量的结构化数据.结构化数据作为Web信息的一部分,对它的查询支持本身就是一种非常自然的功能需求.对结构化数据的查询也就是结构化查询,结构化查询与文本检索不同,它是一种准确的查询.将结构化查询与文本检索集成起来,我们可以获得如下好处:☆用户可以表达更加清晰的查询请求☆对查询结果进行统计分析,用户可以获取相应的统计信息☆在统计分析的结果上,辅以分类导航,可以启发用户明确目标信息为了同时支持结构化查询和文本检索,我们设计了Web环境下的DB/TR集成信息系统,以此集成信息系统为基础,我们构建一种高级的搜索引擎,它提供复合查询、统计分析、分类导航等功能.该文的主要研究内容包括:☆集成信息系统的体系结构☆集成信息系统的查询语言☆集成信息系统的执行计划☆结构化数据的组织与索引方式☆模块的接口设计以及实验结果☆结构化查询与文本检索之间的查询连接6.会议论文韩毅.韩伟红.杨树强.贾焰面向OLAP的高效海量数据存储技术研究与实现2006文章在分析了OLAP大规模海量多维数据特点的基础上,针对当前一般规模关系数据库处理海量多维数据能力的不足,通过使用数据库分区技术和并行磁盘组技术,设计并实现了一种高效的、面向OLAP应用的数据存储管理结构.并针对传统查询优化器对于大规模海量数据统计信息更新不及时的问题,设计了一种基于分区技术的统计方法.实验证明,该设计可以对百TB级的多维海量文本数据进行有效的管理.7.学位论文常兴龙机器学习算法在文本分析中的研究2008随着互联网信息资源的指数增长,如何实现海量文本数据的自动分析已成为日益紧迫的研究课题。近年来,作为文本自动分析的重要手段,文本聚类及热点信息发现逐渐受到研究者的重视。对互联网信息的聚类处理使人们可以从总体上了解信息主题的分布,并根据特定兴趣选择不同主题的文本进行浏览;对互联网热点信息的自动发现使用户更容易了解不同类别中最受关注的焦点。本文关注于文本聚类算法和热点信息发现算法的改进和高效实现,以期在海量数据和工程化环境中有效推动文本自动分析技术的实用化。首先,针对K-Means算法的聚类结果严重依赖于初始中心点的特性,本文在K-Means算法中引入了具有优化近似因子的delta近似K-Center算法,构造了改进的聚类算法KWOC(K-MeansWithOptimizedCenters),用以实现更有效的初始中心点选择。实验表明KWOC可显著提高最终聚类结果的鲁棒性。在KWOC的具体实现中,本文创新性地设计了针对性较强的事务性文件系统,实现了K-Center中间计算结果的高效缓存,在文件层面实现K-Center与K-Means的计算结果共享。该方案显著降低KWOC算法的时间开销。其次,为了有效挖掘海量Web数据中的热点信息,设计了一种新颖的Web热点信息发现算法。该算法以分阶段的串频变化量统计矩阵为基础,结合串频变化的历史波动,得出有效的热点信息串的评价指标,并根据由该指标选中的热点信息串最终完成热点文章的甄选工作。该算法的具体实现同样利用了有针对性的事务性文件系统,因而具有较高的时间效率。最后,论文给出了针对上述聚类及热点信息发现算法的事务性文件系统的设计方案及实现方法,该事务性文件系统基于一致性哈希理论,以高速的散列文件为基础高效地实现了算法运行中计算结果共享,有效地把计算依赖转化为事务依赖,在事务重建理论框架下为算法的可靠性提供了有力保障。实验表明,本文提出聚类算法、热点算法及其系统方案实现具有良好的性能和效率,可以适应于实际工程环境下的海量数据应用。8.学位论文杨挚诚基于机器学习的文本分类算法研究2007随着计算机技术、数据库技术、网络技术的飞速发展和Internet的日益普及,在现实生活中,每一个领域都不断产生海量数据和信息,特别是海量的文本数据。如何自动将这些文本数据进行分类整理,挖掘出有效信息,给人们有效利用,成为一个日趋重要的问题。因此,文本数据挖掘作为一门新兴学科,逐渐成为了一门引人注目、发展迅速的领域。文本分类是文本数据挖掘中的一个基本技术,其作用是根据文本的各项特征判断其所属的预先设计的类别。它在自然语言处理与理解、信息组织与管理、内容信息过滤等领域具有非常广泛的应用。早期的文本分类采用的是基于知识工程和专家系统的方法,可是这样的方法非常复杂和缺乏灵活性。随着机器学习的兴起和发展,很多机器学习的分类器模型被引入的文本分类领域中,从不同的方面取得了不错的效果。目前,各种文本分类算法都在一定的领域里有好的效果,但都不能成为通用方法,因此,如何对现有的文本分类算法进行评估也是一个非常重要的问题。分类的精度是已经被广泛用于评估文本分类算法性能的主要度量标准之一,但是,当要处理的类分布不均匀或者分类出错的代价不相同时,精度的局限性就显示出来了。在这种情况下,AUC基于机器学习的文本分类算法研究被提出作为一个新的评估文本分类算法性能的度量标准。已有研究表明,AUC比精度的健壮性要好,而且有它特有的排序评测功能。这样,原有的分类算法在新的评估标准下是否和原来一样有效,是一个值得关注的问题。由于新的标准的提出,目前还没有完整的实验对原有文本分类算法进行评测。本文将采用统一的文本基准集,.重新对支持向量机,决策树,最近邻,朴素贝叶斯几个主流的文本分类算法进行实验比较,主要工作有:一是介绍和分析了几种主流的文本分类算法的基本原理;二是介绍了一种新的文本分类器评估标准,分析了它的评测原理以及和原有评估标准的比较;三是设计了详细的实验对几种主流文本分类算法进行测评,指出它们在新标准下的不足和今后需要改进的方向。9.期刊论文王永恒.贾焰.杨树强.WangYongheng.JiaYan.YangShuqiang大规模文本数据库中的短文分类方法-计算机工程与应用2006,42(22)信息技术的飞速发展造成了大量的文本数据累积,其中很大一部分是短文本数据.文本分类技术对于从这些海量短文中自动获取知识具有重要意义.但是由于短文中的关键词出现次数少,而且带标签的训练样本又通常数量很少,现有的一般文本挖掘算法很难得到可接受的准确度.一些基于语义的分类方法获得了较好的准确度但又由于其低效性而无法适用于海量数据.文本提出了一个新颖的短文分类算法.该算法基于文本语义特征图,并使用类似kNN的方法进行分类.实验表明该算法在对海量短文进行分类时,其准确度和性能超过其它的算法.10.学位论文张国庆基于生物医学文献的知识发现方法研究2006文献挖掘是一种文本数据自动分析方法,涉及到数据挖掘、文本挖掘和自然语言处理等多个研究领域。作为一种从文献中提取、整合并发现知识的高效工具,能够快速处理大量文献并挖掘得到特定领域的知识。随着相关算法的引入与语料库的完善,文献挖掘的性能与可靠程度不断提高,因而在科学研究中得到越来越广泛的应用。生物医学研究积累了大量的文献数据,其中记载了大量的不同类型的知识。另一方面,生物信息技术研究的目的是管理并分析生物医学实验得到的海量数据,以及提供预测性或者指导性结论。作为生物信息技术研究的一
本文标题:面向海量文本数据的多任务并行调度加载技术研究与实现
链接地址:https://www.777doc.com/doc-6430664 .html