您好,欢迎访问三七文档
2/10/20201为什么需要数据预处理?•在现实社会中,存在着大量的“脏”数据–不完整性(数据结构的设计人员、数据采集设备和数据录入人员)•缺少感兴趣的属性•感兴趣的属性缺少部分属性值•仅仅包含聚合数据,没有详细数据–噪音数据(采集数据的设备、数据录入人员、数据传输)•数据中包含错误的信息•存在着部分偏离期望值的孤立点–不一致性(数据结构的设计人员、数据录入人员)•数据结构的不一致性•Label的不一致性•数据值的不一致性2/10/20202为什么需要数据预处理?•数据挖掘的数据源可能是多个互相独立的数据源–关系数据库–多维数据库(DataCube)–文件、文档数据库•数据转换–为了数据挖掘的方便•海量数据的处理–数据归约(在获得相同或者相似结果的前提下)2/10/20203为什么需要数据预处理?•没有高质量的数据,就没有高质量的挖掘结果–高质量的决策必须基于高质量的数据基础上–数据仓库是在高质量数据上的集成2/10/20204数据预处理的主要任务•数据清理–填入缺失数据–平滑噪音数据–确认和去除孤立点–解决不一致性•数据集成–多个数据库、DataCube和文件系统的集成•数据转换–规范化、聚集等•数据归约–在可能获得相同或相似结果的前提下,对数据的容量进行有效的缩减•数据离散化–对于一个特定的连续属性,尤其是连续的数字属性,可以把属性值划分成若干区间,以区间值来代替实际数据值,以减少属性值的个数.2/10/20205数据预处理的形式数据清理数据集成数据转换数据归约2/10/20206主要内容•为什么需要数据预处理?•数据清洗•数据集成与转换•数据归约•数据离散化与概念层次的构建•本章小结2/10/20207数据清洗•主要任务–补充缺失数据–识别孤立点,平滑噪音数据–处理不一致的数据2/10/20208缺失数据的处理•部分数据通常是不可用的–在许多元组中部分属性值为空。如:在客户表中的客户收入为空。•导致数据缺失的原因–数据采集设备的故障–由于与其它信息的数据存在不一致性,因此数据项被删除–由于不理解或者不知道而未能输入–在当时数据输入的时候,该数据项不重要而忽略–数据传输过程中引入的错误•缺失数据通常需要经过合理的推断予以添加2/10/20209缺失数据的处理方法•忽略该记录(元组)–通常在进行分类、描述、聚类等挖掘,但是元组缺失类标识时–该种方法通常不是最佳的,尤其是缺失数据比例比较大的时候•手工填入空缺的值–枯燥、费时,可操作性差,不推荐使用•使用一个全局的常量填充空缺数值–给定一个固定的属性值如:未知、不祥、Unknown、Null等–简单,但是没有意义2/10/202010•使用属性的平均值填充空缺数值–简单方便、挖掘结果容易产生不精确的结果•使用与给定元组同一个类别的所有样本的平均值–分类非常重要,尤其是分类指标的选择•使用最有可能的值予以填充–利用回归、基于推导的使用贝叶斯形式化的方法的工具或者判定树归纳确定–利用属性之间的关系进行推断,保持了属性之间的联系缺失数据的处理方法(续)2/10/202011噪音数据•噪音数据:一个度量(指标)变量中的随机错误或者偏差•主要原因–数据采集设备的错误–数据录入问题–数据传输问题–部分技术的限制–数据转换中的不一致•数据清理中所需要处理的其它问题–重复的记录–不完整的数据–不一致的数据2/10/202012噪音数据的处理•分箱(Binning)的方法•聚类方法–检测并消除异常点•线性回归–对不符合回归的数据进行平滑处理•人机结合共同检测–由计算机检测可疑的点,然后由用户确认2/10/202013处理噪音数据:分箱方法•分箱(Binning)方法:–基本思想:通过考察相邻数据的值,来平滑存储数据的值–基本步骤:•首先,对数据进行排序,并分配到具有相同宽度/深度的不同的“箱子”中•其次,通过箱子的平均值(Means)、中值(Median)、或者边界值等来进行平滑处理2/10/202014分箱(Binning)方法举例•对数据进行排序:4,8,9,15,21,21,24,25,26,28,29,34•对数据进行分割(相同深度):–-Bin1:4,8,9,15–-Bin2:21,21,24,25–-Bin3:26,28,29,34•根据bin中的平均值进行离散化:–-Bin1:9,9,9,9–-Bin2:23,23,23,23–-Bin3:29,29,29,292/10/202015基于聚类分析的平滑处理2/10/202016通过线性回归的平滑处理xyy=x+1X1Y1Y1’2/10/202017主要内容•为什么需要数据预处理•数据清洗•数据集成与转换•数据归约•数据离散化与概念层次的构建•本章小结2/10/202018数据集成•数据集成的概念–将多个数据源中的数据结合起来存放在一个一致的数据存储中–数据源包括:多个数据库、多维数据库和一般的文件–数据集成也是数据仓库建设中的一个重要问题•数据集成的内容–模式集成•利用数据库和数据仓库的元数据信息•主要工作是识别现实世界中的实体定义–冗余数据的处理–检测和解决数值冲突•对于现实世界中的同一实体,来自于不同数据源的属性值可能不同•主要原因:不同的数据表示、度量单位、编码方式以及语义的不同2/10/202019数据集成•数据集成的概念–将多个数据源中的数据结合起来存放在一个一致的数据存储中–数据源包括:多个数据库、多维数据库和一般的文件–数据集成也是数据仓库建设中的一个重要问题•数据集成的内容–模式集成•利用数据库和数据仓库的元数据信息•主要工作是识别现实世界中的实体定义–冗余数据的处理–检测和解决数值冲突•对于现实世界中的同一实体,来自于不同数据源的属性值可能不同•主要原因:不同的数据表示、度量单位、编码方式以及语义的不同2/10/202020模式集成•数据类型冲突–性别:string(Male、Female)、Char(M、F)、Interger(0、1)–日期:Date、DateTime、String•数据标签冲突:解决同名异义、异名同义–学生成绩、分数•度量单位冲突–学生成绩•百分制:100~0•五分制:A、B、C、D、E•字符表示:优、良、及格、不及格•概念不清–最近交易额:前一个小时、昨天、本周、本月?•聚集冲突:根源在于表结构的设计2/10/202021冗余数据的处理•从多个数据源中抽取不同的数据,容易导致数据的冗余–不同的属性在不同的数据源中是不同的命名方式–有些属性可以从其它属性中导出,例如:销售额=单价×销售量•有些冗余可以通过相关分析检测到其中:n是元组的个数,和分别是A和B的平均值,和分别是A和B的标准差•元组级的“重复”,也是数据冗余的一个重要方面•减少冗余数据,可以大大提高数据挖掘的性能BABAnBBAAr)1()()(,ABAB2/10/202022数据转换•平滑处理:从数据中消除噪音数据•聚集操作:对数据进行综合,类似于DataCube的构建•数据概化:构建概念层次•数据规范化:将数据集中到一个较小的范围之中–最大-最小规范化–z-score(零-均值)规范化–小数范围规范化(0–1规范化)•属性构造–构造新的属性并添加到属性集中,以帮助数据挖掘2/10/202023数据转换:规范化•最大-最小规范化–对原始数据进行线性变换–保持了原始数据值之间的关系–当有新的输入,落在原数据区之外,该方法将面临“越界”错误–受到孤立点的影响可能会比较大AAminnewmaxnew_,_AAAAAAminnewminnewmaxnewminmaxminvv_)__('2/10/202024数据转换:规范化(续)•z-score(零-均值)规范化–属性基于平均值和标准差规范化–当属性的最大值和最小值未知,或者孤立点左右了最大-最小规范化时,该方法有效•0-1规范化(小数定标规范化)–通过移动属性的小数点位置进行规范化–例如A的值为125,那么|A|=125,则j=3,有v=0.125。Avv'jvv10'WherejisthesmallestintegersuchthatMax(||)1'v2/10/202025属性构造•由给定的属性构造并增添新的属性,以帮助提高精度和对高维数据结构的理解•属性结构还可以帮助平缓使用判定算法分类的分裂问题•例如:–Area=Width×Height–销售额=单价×销售量2/10/202026主要内容•为什么需要数据预处理?•数据清洗•数据集成与转换•数据归约•数据离散化与概念层次的构建•本章小结2/10/202027主要内容•为什么需要数据预处理?•数据清洗•数据集成与转换•数据归约•数据离散化与概念层次的构建•本章小结2/10/202028数据归约的提出•在数据仓库中可能保存TB级的数据,大数据量的数据挖掘,可能需要大量的时间来完成整个数据的数据挖掘。•数据归约–在可能获得相同或相似结果的前提下,对数据的容量进行有效的缩减•数据归约的方法–数据立方体聚集:聚集操作作用于立方体中的数据–减少数据维度(维归约):可以检测并删除不相关、弱相关或者冗余的属性或维–数据压缩:使用编码机制压缩数据集–数值压缩:用替代的、较小的数据表示替换或估计数据2/10/202029DataCube的聚集•“基点方体”•“顶点方体”•DataCube中的多个层次的聚集–进一步缩减所要处理的数据量•当响应OLAP查询或者数据挖掘时,应当使用与给定任务相关的“最小方体”2/10/202030维归约(特征提取)•维归约:通过删除不相关的属性(或维)减少数据量•特征选取(属性子集的选取):–选取最小的特征属性集合,得到的数据挖掘结果与所有特征参加的数据挖掘结果相近或完全一致–特征提取,对于d个属性来说,具有2d个可能的子集2/10/202031维归约的主要方法•利用启发式的方法来减少数据维度(随着维度的增长数据量将呈指数级别增长):–逐步向前选择:维数逐步增多的方法(每次增添“最好”的属性)–逐步向后选择:维数逐步减少的方法(每次删除“最差”的属性)–两者组合的方法–判定树归纳方法(ID3,C4.5)2/10/202032基于判定树归纳的方法Initialattributeset:{A1,A2,A3,A4,A5,A6}A4?A1?A6?Class1Class2Class1Class2Reducedattributeset:{A1,A4,A6}YYYNNN2/10/202033数据压缩•数据压缩:应用数据编码或变换,以便得到数据的归约或压缩表示–无损压缩:原数据可以由压缩数据重新构造而不丢失任何信息•字符串压缩是典型的无损压缩•现在已经有许多很好的方法但是它们只允许有限的数据操作–有损压缩:只能重新构造原数据的近似表示•影像文件的压缩是典型的有损压缩•典型的方法:小波变换、主要成分分析2/10/202034数值归约•数值归约:通过选择替代的、“较小”的数据表示形式来减少数据量–有参的方法•假设数据符合某些模型,通过评估模型参数,仅需要存储参数,不需要存储实际数据(孤立点也可能被存放)•典型方法:对数线性模型,它估计离散的多维概率分布–无参的方法•不存在假想的模型•典型方法:直方图、聚类和抽样2/10/202035直方图•类似于分箱技术,是一种流行的数据归约方式•将属性值划分为不相交的子集,或“桶”•桶安放在水平轴上,而桶的高度(和面积)是该桶所代表的值的平均频率。•每个桶只表示单个属性值,则称其为“单桶”。通常,“桶”表示给定属性的一个连续空间•可以通过编程,动态修改部分参数,进行合理构造。count51015202530123456789101-1011-2021-30510152025132515PricePricecount2/10/202036主要内容•为什么需要数据预处理?•数据清洗•数据集成与转换•数据归约•数据离散化与概念层次的构建•本章小结2/10/202037数据离散化和概念层次•属性值分类–枚举型•有序的•无序的–连续型:如Real类型•
本文标题:数据挖掘的清洗
链接地址:https://www.777doc.com/doc-3629423 .html