您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 基于机器学习算法的大数据处理
龙源期刊网基于机器学习算法的大数据处理作者:纪思捷胡豪杰来源:《电子技术与软件工程》2015年第23期摘要随着网络技术与计算机技术的高速发展,数据量的爆发式增长,催生了大数据概念。大数据表现出数据海量性、构成复杂性、变化快速等特征,传统的小数据环境下机器学习算法无法解决大数据应用问题,基于此,进行大数据下的机器学习算法研究,成为了时代发展的必然诉求。在认知大数据的基础上,对大数据环境下的机器学习算法进行探究。【关键词】大数据机器学习算法1大数据内涵与特征认知关于大数据的定义尚未统一,从狭义定义来看,不能载入计算机内存储器的数据即大数据,虽然这种定义并非正式定义,但容易被理解与接纳。从广义定义来看,大数据指的是在传统IT技术与软件、硬件工具条件下,在一定时间范围内无法完成感知、获取、管理、处理与服务的数据集合。大数据特征主要表现数据量庞大、积累速度快、数据类型多样、变化性突出。从海量与复杂多变的数据中,如何进行有效数据挖掘,以获取数据中隐藏的知识与价值,是现代产业发展的重要方向。传统机器学习主要包括四个部分,对人类学习过程进行理解与模拟;对人类用户与计算机系统之间的语言接口进行研究;问题自动规划能力设计;设计能够发现新事物的程序以实现机器学习目的。然而传统机器学习多在小数据环境下运行,所依赖的机器学习算法难以支撑大数据学习。基于此,为解决大数据问题,必须深入研究大数据环境下的机器学习算法问题。2大数据环境下机器学习算法分析2.1大数据分治策略大数据处理中,分治策略十分重要。一般而言,数据中样本差异性对学习结果的重要程度存在着较大影响,一些噪音数据与冗余数据在带来存储消费问题的同时,还会降低学习算法运行质量,影响机器学习精度。基于此,应采取一定的标准遴选出代表性样本,通过代表性样本构成子集,并在子集基础上进行学习方法构造,完成相关的学习任务,从而在降低数据存储消耗问题的同时,提高运行效率与学习质量。然而当前主流的样本选取方法主要以小数据集为对象,如编辑最近领、约减最近邻与压缩最近邻等,这些样本选择方法以最小一致子集为核心概念。Jordan提出以分支算法进行大数据统计推理,这种方法实现的基础在于确定数据集合置信区间;Bootstrap理论提出,通过获取采样数据评估值波动来确定置信区间,然而大数据环境下数据具备不完全抽样特征,评估值波动范围难以准确捕捉。Jordan提出BagofLittleBootstraps龙源期刊网程序,为大数据准确统计推理提供了可能。Jordan在矩阵计算中提出分治策略,获得较好效果。2.2大数据特征选择多媒体索引、数据挖掘等多以大数据集为对象,其数据中包含庞大的记录数与属性数,从而对算法执行效率带来严重影响。基于此,进行大数据属性特征选择,将无关属性进行剔除,则能够提高算法运行效率,提高模型计算精度。大数据环境下其数据量庞大,内容种类繁杂,为提高大数据分析效率与质量,需要以张量分解为重要工具。Koida提出应用MET分解方法来解决传统张量分解中无法解决的大数据处理问题,通过MET程序以内存自适应为基础执行相关分解策略,实现了内存环境下最大化运行,有利于消除中间溢出问题。Anaraki提出带阈值的模糊下近似模糊粗糙集特征选择方法,引入阈值以降低大数据集中选取特征数量,进一步提高数据特征提取准确性。2.3大数据分类与大数据聚类当前,大数据分类问题处理问题较为普遍。然而采取传统分类算法,难以实现大数据分类处理。如采取传统统计机器学习方法,则存在着无法应用于大规模数据集、置信区间拟合模型预测未执行等问题。基于此,Lau提出在线学习算法,在大数据分类问题中获得突破。Laskov则在研究中提出支持向量机学习方法。Kin基于增量核主成分分析与支持向量机等理论提出满足大数据的特征提取与分类算法,能够对大数据分类问题提供解决路径。传统前馈神经网络采取梯度下降法进行权值参数调整,其泛化性能差且学习速度慢,Huang提出EIM方法,在单隐层神经网络输入权值与偏差项中采取随机赋值方式,能够有效提高学习效率。为确保大规模数据能够实现并行处理,Papadimitriou提出MapReduce模型,通过该模型实现协同聚类,以满足大规模数据聚类需求。2.4大数据关联分析Apriori算法属于关联分析的基础算法,在其基础上提出众多算法,如序列模式挖掘算法、广义序列模式算法等。为解决大数据关联问题,需要通过并行与增量两个方面来解决。Li提出MapReduc并行Apriori算法,将产生候选集项的过程实现了并行化处理,切实提高了学习效率。有学者提出性能与差异均衡算法、增量频繁序列挖掘算法、增量更新序列算法等,为大数据增量问题提供了方法。2.5大数据并行算法应用传统机器学习算法进行大数据问题处理,必须对现存的学习算法采取并行化处理,如通过并行架构的图形处理器提高计算机运行能力。Hefeeda提出近似算法,实验证明其算法在大规模数据集处理中具备优势。Cheng等提出分布式系统,以大规模可伸缩数据为处理对象,通过用户进行聚合自定义来实现数据分析,能够实现一定量级大数据处理。龙源期刊网结语当前,我们置身于数字化时代,随着数据快速积累,大数据问题越发突出。大数据具备数据海量性、构成复杂性、变化快速、高噪音、关系复杂等特征,采取传统机器学习算法难以实现大数据有效分析与处理。基于此,需要深入研究大数据处理基本技术。重点从大数据分治策略、特征选择、大数据分类与大数据聚类、关联分析、并行算法等方面对大数据环境下机器学习算法进行研究。相信随着大数据处理理论与技术的发展,大数据处理问题将逐渐解决。参考文献[1]何清,李宁,罗文娟等.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,(4):327-336.[2]张宏莉,鲁刚.分类不平衡协议流的机器学习算法评估与比较[J].软件学报,2012,23(6):1500-1516.[3]王晓.大数据环境下机器学习算法趋势研究[J].哈尔滨师范大学自然科学学报,2013,29(4):48-50.[4]柳长源,毕晓君,韦琦等.基于向量机学习算法的多模式分类器的研究及改进[J].电机与控制学报,2013,17(1):114-118.作者单位华东师范大学软件学院上海市200062
本文标题:基于机器学习算法的大数据处理
链接地址:https://www.777doc.com/doc-4806634 .html