您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 交通运输 > 特征选择技术在大数据背景下的挑战
特征选择技术在大数据背景下的挑战1介绍在一个增长的时代数据复杂性和体积和大数据的出现,特征选择扮演一个关键的角色在帮助降低高维机器学习问题。我们讨论最近的起源和特征选择的重要性和轮廓的贡献在一系列应用程序中,从DNA微阵列分析人脸识别。近年来大量数据集的创建,显然,这些只会继续增长的规模和数量。这个新的大数据场景特征选择的研究人员提供了机遇和挑战,随着越来越多的需要还可伸缩的有效的特征选择方法,考虑到现有的方法可能不够充分。“大数据”现象展现在我们面前,其转型自然是毫无疑问的。黎明之间的时间总共2003人类生成5艾字节的数据,到2008年这一数字已经增加了两倍,至14.7艾字节。现在5eb的数据产生每2相互产量持续上升的步伐。因为体积、速度数据的多样性和复杂性不断增加,机器学习技术已经成为不可或缺的为了从大量的否则无意义的数据中提取有用的信息。特征选择是一个机器学习的技巧(FS),即属性,允许一个问题是明确的选择,虽然无关紧要或冗余数据将被忽略。特征选择方法传统上被归类为过滤方法,包装方法或嵌入的方法[1],尽管新方法,结合现有的方法或基于其他机器学习技术处理不断出现的挑战今天的数据集。在过去的几年里,特征选择已成功应用在不同的场景中涉及大量的数据,如DNA微阵列分析、图像分类、人脸识别、文本分类。但是,大数据的出现为研究者提出了前所未有的挑战。本文概述了特征选择研究的热点,旨在鼓励科学界寻求和接受最近出现的新机遇和挑战。本文的其余部分组织如下。第二部分解释了为什么特征选择最重要的现在,第三节简要描述了特征选择的历史和评论最先进的方法,第四部分回顾最近的应用,第五节描述了特征选择的研究人员需要满足新兴挑战在未来几年,最后,第六节总结了纸。2特征选择的必要性近年来,大多数企业和组织以一种系统化的方式存储大量的数据,但没有明确其潜在有用性的想法。此外,互联网的日益普及产生了许多不同的格式的数据(文本、多媒体等)和许多不同的来源(系统、传感器、移动设备等)。能够从这些数据中提取有用的信息,我们需要新的分析和处理工具。这些数据已经生成最后几来我们继续每天生成的字节结构[2]。大的大数据量和超高维度现在各种机器学习应用领域的循环特性,文本挖掘、信息检索等[3]。温伯格etal。[4],例如,协作的垃圾邮件过滤任务进行了一项研究有16万亿独特的特性,而谭etal.[3]的研究是基于广泛的合成和数以百万的真实数据集的数据点Oð1014Þ特性。大型的数据集提出了一个有趣的挑战为研究社区;引用Donoho等。[5]“我们的任务是找到一个海里捞针,梳理相关信息大量堆过剩”。超高维度意味着巨大的内存需求和培训的高计算成本。泛化能力也被称为“维度”的诅咒。根据Donohoetal.[5],贝尔曼在1957年创造了这个五彩缤纷的词来形容的困难优化通过详尽的列举产品空间[6]。这个术语是指时出现的各种现象分析和组织数据在高维空间中(与成百上千的维度)不发生在低维的设置。数据集通常是由一个矩阵的行记录实例(或样品)和列的属性(或特性)代表手边的问题。为了解决维数问题,找到“窄”的数据集可以概括矩阵在某种意义上接近于原始。因为这些窄矩阵有一个小数量的样品和/或特性,它们可以更有效的利用比原来的矩阵。找到这些狭窄的矩阵的过程称为降维。超高维度不仅带来难以忍受的内存需求和高计算成本的培训,而且恶化的泛化能力,因为“诅咒维度”的问题。根据[5],1957年贝尔曼[6]创造了丰富多彩的项维度的诅咒,在优化的难度通过详尽的列举产品的空间。这种现象出现在分析和组织不发生在低维的数据在高维空间的设置。任何数据集通常是由一个矩阵的行记录的实例或样本和列的属性/功能要求代表手边的问题。因此,解决维数问题的诅咒,数据集可以总结为发现“窄”矩阵,在某种意义上接近于原始。这些狭窄的矩阵只有少量的样品和/或少量的属性,因此可以更有效地比原来的大矩阵。找到这些狭窄的矩阵的过程称为降维。特征提取是一种降维技术,解决了问题,找到最紧凑和丰富的功能对于一个给定的问题,提高数据存储和处理效率。特征提取的步骤分解为建设和选择。功能施工方法补充人类专家在“原始”数据转换成一组有用的功能使用预处理变换过程如标准化、规范化,离散化,信号增强,局部特征提取。一些施工方法不改变空间维度,而其他扩大,减少或两者兼而有之。不丢失信息是至关重要的在施工阶段的特征;第二,Elisseeff[7]建议最好总是宁可过于包容而不是丢弃有用的信息的风险。增加功能看似合理但这是要付出代价的:模式的维度的增加带来损失的风险相关信息的可能无关紧要,嘈杂的或冗余的特性。特征选择方法的目标是减少数量的初始特征,选择一个子集保留足够的信息来获得令人满意的结果。在一个社会,需要处理大量的数据和特性在各种各样的学科,目前迫切需要解决必不可少的特征选择问题。要理解,研究人员所面临的挑战,下一节将简要描述特征选择的起源和最近的贡献。3一个简短的历史特征选择的过程被定义为检测相关特性和丢弃不相关和冗余特性获取的目标特性的一个子集,准确地描述一个给定的最低性能退化的问题[1]。从理论上讲,有大量的输入特性似乎是可取的,但维度不仅是一种内在的诅咒的高维数据的问题,但更多的联合数据和算法的应用问题。出于这个原因,研究人员开始在预处理阶段选择特性,试图将他们的数据转换成一个低维的形式。第一个特征选择的研究可以追溯到1960年代[8]。休斯[9]使用一种通用的参数模型来研究贝叶斯分类器的精度的函数特性,得出结论如下:“测量选择,不像发达技术。提出了减少和组合相反,它们是说明了一个框架,用于进一步的调查”。此后,特征选择的研究提出了许多挑战,一些研究者高度怀疑进展;在“米勒博士的论文讨论”[10],例如,RL的管理者说:“如果没有解决变量消除高速计算的帮助下经过两年的工作,那么也许是时候将焦点转移到其他问题”。在1990年代,著名的进步是在特征选择用来解决机器学习问题(11-13)。如今,特征选择是承认起到至关重要的作用在减少实际问题的维数,可以在越来越多的出版物在这个问题(1、7、14、15)。开发的新的特征选择方法在过去几个decades-classified过滤器、包装或嵌入方法是基于特征选择算法之间的关系和归纳学习方法用来推断模型[1]。特征选择方法也可以根据个人评价和子集分类评价方法[16];former-also称为特性排名评估的特征通过分配权重根据相关性,而后者产生候选特征子集基于一个特定的搜索策略随后评估的一些措施。鉴于其能力提高学习算法的性能,特征选择吸引了机器学习领域的兴趣越来越浓,在集群等过程(17、18),回归(19、20)和分类(12、21),是否监督或无监督。可用的众多特征选择算法,一些已成为研究人员中非常流行。表1简要列出了最常用的特征选择方法,表明他们是否单变量或多变量,是否返回一个排名或子集,原出版参考和计算复杂性(其中n是样本的数量和m是功能)的数量。这些广泛使用的方法是特征选择的艺术的状态。多元方法通常比单变量方法来获得更好的结果,但在更大的计算成本。没有统一的方法,因为每个更适合特定类型的问题。以前的工作[32],我们回顾了一些先进的算法的性能在一个人工控制的情况下,检查他们的效率在处理等问题之间的冗余特性,非线性、噪声的输入和输出和更多的功能比样品(如发生在DNA微阵列分类)。表2总结了我们的结论(星号意味着更好的适合一个给定的问题)。注意,版本的SVM-RFE线性和非线性内核进行了测试,但后者(SVM-RFE-nl)不是申请计算与成千上万的理由一个场景功能。ReliefF,一个很好的选择独立问题的特殊性,著称的健壮和能够处理不完整和嘈杂的数据。它可以被应用在大多数情况下,较低的偏见,包括之间的交互特性,可以捕捉当地依赖其他方法可能小姐SVM-RFE也表现良好,虽然其计算复杂度可以防止使用非常高维数据集,特别是当使用非线性的内核。mRMR也表现可接受除了与大量数据集的特性。尽管该产品的研发得到了去除冗余的概念,mRMR无法丢弃冗余特性实验的人造DNA微阵列数据集,冗余是一个承认的问题。最后,可怜的相关性和冗余的结果得到与慢性疲劳综合症、一致性、互动与流行的畜栏InfoGain评估数据集,它有四个二进制值预测和类,所需的额外特性相关的类标签75%。这四个方法选择相关功能但丢弃的四个真正相关的特性。然而,它们非常有效地不选择冗余特征与成千上万的面对场景特性[32]。可以看到,现有特征选择方法有其优缺点。请注意,计算时间不是我们之前考虑的分析[32]。然而,如今这个因素起着至关重要的作用在大数据问题。一般来说,单变量方法有一个重要的可伸缩性优势,但代价忽视功能依赖和有辱人格的分类性能。相比之下,多元技术提高分类性能,但其计算负担往往意味着他们不能被应用到大数据。很明显,特征选择研究人员需要适应现有的方法或提出新的为了应对大数据的爆炸带来的挑战(第5部分中讨论)。4最近的贡献人们不断地开发出新的特征选择方法有广泛的套件提供给研究人员。下面我们评估最近的事态发展在解决高维问题等领域的集群(33、34),回归第35-37()和分类(38、39)。使用不同的功能类型和组合成为今天的许多真实的应用程序的标准,导致爆炸一个名副其实的特性给出计算和信息技术的飞速发展[2]。传统上,由于处理非常高维数据的必要性,大多数新特征选择方法过滤方法。尽管如此,嵌入的方法增加了流行在过去的几年里,因为它们允许同时特征选择和分类(40-42)。至于包装方法,这些得到的关注更少,由于沉重的计算负担和过度拟合的高风险样本的数量是不够的。还有一个趋势结合算法,以混合的形式方法[43-46]或合奏[47-51]。除了我们自己的审查[32],说在前面的小节中,其他作品回顾了使用最广泛的特征选择方法,过去的几年里。莫利纳等。[52]评估基本特征选择算法的性能在控制的情况下,考虑到数据集的相关性,无关和冗余。Saeys等。[53]创造了一个经典的基本分类特征选择技术,讨论他们在生物信息学的应用程序使用。华等。[54]在设置一些基本的特征选择方法相比涉及成千上万的特性,使用基于模型的合成数据和实际数据。布朗etal。[55]提供了一个统一框架理论特征选择的信息,带来了近二十年的研究启发式过滤标准在一个单一的理论的保护伞之下。最后,加西亚etal。[56]专用的数据预处理的书一章讨论特征选择和分析其主要方面和方法。另一个观点是专注于特定的问题时,获得与研究人员应用不同的特征选择技术,以提高性能。在这种情况下,方法是高度依赖于手头的问题。最具代表性的应用程序下面讨论。4.1。应用程序特征选择方法目前被应用于不同领域的问题。下面我们描述的一些最受欢迎的应用推广这些方法的使用。4.1.1。微阵列分析DNA微阵列基因表达差异的用于收集信息组织和细胞样本,可以用于疾病诊断或区分特定类型的肿瘤。样本容量通常是小(通常少于100名患者)但原始数据测量基因表达集体的特性可能从6000年到60000年。在这种情况下,特征选择不可避免地成为一个必不可少的预处理步骤。最早的在这一领域的研究工作,在2000年代[53],主要是单变量范式(57-59),这是快速和可伸缩的,但忽略了特征依赖性。然而,一些与多元方法也尝试,因为这些可以依赖模型特性,尽管他们是慢,可伸缩低于一元技术[32]。多变量筛选方法(60-63)和使用更复杂的技术,如包装和嵌入式方法[64-67]。一个完整的回顾最新的特征选择方法用于微阵列数据可以在[68],这表明自2008年以来许多贡献属于过滤器一类,主要是基于信息理论(见图1)。包装器方法在很大程度上避免了由于沉重的计算资源的消费和过度拟合的高风险。尽管嵌入式方法没有收到关注婴儿的微阵列数据分类,近年来出现了几点建议。最后,值得注意的是,最近的文献揭示了倾向于结合算法混合或合奏方法(图1中表示为“其他”)。4.1.2。图像分类影像分类已成为一个热门研究领域,鉴于需求有效的方法对图像分类进行分类。图像特征的数值属性通常是分析来确定自己属于哪一类。与最
本文标题:特征选择技术在大数据背景下的挑战
链接地址:https://www.777doc.com/doc-2222039 .html