您好,欢迎访问三七文档
第二章数据预处理主讲教师:魏宏喜(博士,副教授)E-mail:cswhx@imu.edu.cn2第二章数据预处理为什么对数据进行预处理数据清理数据集成和变换数据归约3第二章数据预处理为什么对数据进行预处理数据清理数据集成和变换数据归约4为什么进行数据预处理?现实世界的数据是“脏的”——数据多了,什么问题都会出现。不完整缺少数据值;缺乏某些重要属性;仅包含汇总数据;e.g.,occupation=有噪声包含错误或者孤立点e.g.Salary=-10数据不一致e.g.,在编码或者命名上存在差异e.g.,过去的等级:“1,2,3”,现在的等级:“A,B,C”e.g.,户籍系统中的身份证号其后不一致e.g.,Age=“42”Birthday=“03/07/1997”5数据为什么会变“脏”?数据不完整的成因数据收集的时候就缺乏合适的值数据收集时和数据分析时的不同考虑因素“人为/硬件/软件”的问题噪声数据(不正确的值)的成因数据收集工具的问题数据输入时的“人为/计算机”造成的错误数据传输中产生的错误数据不一致性的成因不同的数据源违反了某种一致性原则6数据预处理为什么是重要的?没有高质量的数据,就没有高质量的挖掘结果。高质量的决策必须依赖高质量的数据。e.g.重复值或者空缺值将会产生不正确的挖掘结果。数据预处理是数据挖掘过程中占工作量最大的一个步骤。(60%的工作量)7数据质量的多维度量一个广为认可的多维度量观点:精确度完整度一致性合乎时机可信度附加价值可解释性8数据预处理的主要任务数据清理填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性。数据集成集成多个数据库或文件。数据变换规范化和聚集。数据归约得到数据集的压缩表示,它比原始数据集小得多,但可以得到相同或相近的挖掘结果。910第二章数据预处理为什么对数据进行预处理数据清理数据集成和变换数据归约11数据清理数据清理任务填写空缺的值识别离群点和平滑噪声数据纠正不一致的数据解决数据集成造成的冗余12空缺值数据并不总是完整的例如:数据库表中,很多条记录的对应字段没有相应值,比如销售表中的顾客收入引起空缺值的原因设备异常与其他已有数据不一致而被删除因为误解而没有被输入的数据在输入时,有些数据应为得不到重视而没有被输入对数据的改变没有进行日志记载空缺值要经过推断而补上13如何处理空缺值可行的方法:人工填写空缺值:工作量大使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值14噪声数据引起噪声的原因:数据收集工具的问题数据输入错误数据传输错误技术限制命名规则的不一致15如何处理噪声数据计算机和人工检查结合计算机检测可疑数据,然后对它们进行人工判断效率较低回归通过让数据适应回归函数来平滑数据聚类监测并且去除孤立点16回归xyy=x+1X1Y1Y1’17聚类通过聚类分析检测孤立点,消除噪声聚类将类似的值聚成簇。落在簇集合之外的值被视为孤立点。18第二章数据预处理为什么对数据进行预处理数据清理数据集成和变换数据归约19数据集成数据集成:将多个数据源中的数据整合到一个一致的存储中的过程;可能产生数据冗余。20处理数据集成中的冗余数据集成多个数据库时,经常会出现冗余数据对象识别:同一属性或对象在不同的数据库中会有不同的字段名(性别:字段名可能是sex或者gender);结论:如果能够仔细地将多个数据源中的数据集成起来,将减少或避免结果数据中的冗余与不一致性,从而可以提高挖掘的速度和质量。21数据变换数据变换:将数据转换成适合挖掘的统一形式。规范化:将数据按比例缩放,使之落入一个小的特定区间。最小—最大规范化z-score规范化22数据变换——规范化最小—最大规范化z-score规范化当最大、最小值未知时适用AAAAAAminnewminnewmaxnewminmaxminvv_)__('AAdevstandardmeanvv_'23第二章数据预处理为什么对数据进行预处理数据清理数据集成和变换数据归约24数据归约(1)为什么需要进行数据规约?数据集中往往存有海量数据;在整个数据集上进行复杂的数据分析与挖掘需要很长的时间。数据归约数据归约可以用来得到数据集的归约表示,它能够比原始数据集小得多,但可以产生相同的(或几乎相同的)挖掘结果。25数据归约(2)常用的数据归约策略维归约,e.g.移除不重要的属性数据压缩数值归约,e.g.使用模型来表示数据说明:用于数据归约的时间不应当超过或“抵消”在归约后的数据上执行挖掘节省的时间。26维归约通过删除不相干的属性或维,用以减少数据量。常用方法:主成分分析(PCA)降维例如:裤子(腰围+裤长)27数据压缩有损压缩VS.无损压缩原始数据压缩后的数据无损压缩近似的原始数据28数值归约通过选择替代的或者较小的数据表示形式来减少数据量。有参方法使用一个参数模型估计数据,最后只存储参数即可,不用存储数据。常用方法:线性回归方法;多元回归。无参方法不使用模型的方法来存储数据;常用方法:直方图,聚类,选样(采样)。29数值规约——回归分析线性回归:数据被拟合为一条直线Y=wX+b两个回归系数w和b,由已知数据来进行估算;通常使用最小二乘法来确定这条直线。多元回归:线性回归的扩充,允许响应变量Y被建模为两个或多个预测变量的线性函数Y=b0+b1X1+b2X2.多元回归可以拟合多种非线性函数。30数值规约——直方图一种流行的数据归约技术;将某属性的数据划分为不相交的子集,或桶,桶中放置该值的出现频率。0510152025303540100003000050000700009000031数值规约——聚类将数据集划分为聚类,然后通过聚类(中心)来表示数据集。前提:如果数据可以组成各种不同的聚类,则该技术非常有效;反之,如果数据界线模糊,则聚类方法无效。聚类的定义和算法都有很多选择,将在第五章对聚类分析进行深入探讨。32数值规约——选样(采样)用较少的随机样本(子集)来表示原始数据集。对数据集D的样本选择:s个样本无放回简单随机抽样(SRSWOR):从D的N个元组(不一致的样本)中抽取s个样本(sN);s个样本有放回简单随机抽样(SRSWR):过程同上,只是元组被抽取后,将被回放,可能再次被抽取;聚类选样:D中元组被分入M个互不相交的聚类中,可在其中的s个聚类上进行简单随机抽样(SRS,sM)。33选样——SRS原始数据34选样——聚类选样原始数据聚类选样35第二章数据预处理为什么对数据进行预处理数据清理数据集成和变换数据归约
本文标题:2-数据预处理
链接地址:https://www.777doc.com/doc-5098205 .html