您好,欢迎访问三七文档
1■引言数据挖掘把对数据的应用从低层次的简单查询,提升到高层次的挖掘知识。数据挖掘的研究一般集中在对挖掘技术、挖掘算法和挖掘语言的研究上。事实上,数据挖掘对所处理的数据是有严格要求的,因此,对数据的预处理是至关重要的,一般需要花费整个挖掘过程60%左右的时间。本章讨论数据预处理的一些主要方法。2■为什么要进行数据预处理?在现实社会中,存在着大量的“脏”数据,不能被数据挖掘系统直接使用,表现在以下几个方面:不完整性(数据结构的设计人员、数据采集设备和数据录入人员)感兴趣属性的缺失;感兴趣的属性缺少部分属性值;仅仅包含聚合数据,没有详细数据;噪音数据(采集数据的设备、数据录入人员、数据传输)数据中包含错误的信息;存在着部分偏离期望值的孤立点;3■为什么要进行数据预处理?不一致性(数据结构的设计人员、数据录入人员)数据结构的不一致;Label的不一致;数据值的不一致;杂乱性(数据来自多个互相独立的数据源)关系数据库;多维数据库(DataCube);文件、文档数据库;因此,必须对源数据进行预处理,没有高质量的数据就没有高质量的数据挖掘结果。4一、数据描述1.数据类型数据集可以看作是数据对象的集合。数据对象的其他名字是记录、点、向量、模式、时间、案例、样本、观测或实体。数据对象用一组刻画对象基本特征的属性描述。属性的其他名字是变量、特性、字段、特征或维。例如,下表是学生信息的数据集。每行对应一个学生(对象),每列对应一个属性,用来描述学生的某一方面。学号姓名性别年龄身高01李刚男16170cm02刘红女15162cm03王强男15174cm……………5一、数据描述(1)属性与度量属性:是对象的性质或特性。它因对象而异,随时间而变化。例如,眼球颜色因人而异,物体的温度随时间而变。眼球颜色是一种符号属性,具有可数的值(棕色、黑色、蓝色、褐色等),而温度是数值属性具有无穷多个值。测量标度:是将数或符号的值与对象的属性相关联的规则(函数)。度量:是使用测量标度将一个值与一个特定对象的特定属性相关联。也就是将一个对象属性的“物理值”映射成一个数值或符号值。例如,称体重、测身高、将人分为男女,清点会议室的椅子数目。6一、数据描述(2)属性类型属性分为定性的和定量的。定性的(分类的):不具有数的大部分性质。即便使用数(整数,如邮政边码、身份证号)表示,也应当像对待符号一样对待它们。又分为标称属性和序数属性。定量的(数值的):用数表示,并且具有数的大部分性质。可以是整数值或连续值。有分为区间属性和比率属性7一、数据描述(2)属性类型属性类型描述例子分类的(定性的)标称标称属性的值仅仅是不同的名字,即标称值只提供足够的信息以区分对象邮政编码、雇员ID号、眼球颜色、性别序数序数属性的值提供足够的信息确定对象的序矿石硬度(好,较好,最好)、成绩、街道号码数值的(定量的)区间区间属性值与值之间的差是有意义的,即存在测量单位日历日期、摄氏或华氏温度比率比率属性值与值之间的差和比率都是有意义的绝对温度、货币量、计数、年龄、质量、长度、电流8一、数据描述(3)属性的变换属性的类型可以用不改变属性意义的变换来描述。例如,如果长度用米而不是用英尺度量,长度属性的意义并未改变。属性类型变换注释分类的(定性的)标称任何一对一变换,例如值的一个排列如果所有雇员的ID号都重新赋值,不会导致任何不同序数值得保序变换,即新值=f(旧值),其中f是单调函数{好、较好、最好}的属性可以完全等价地用值{1,2,3}或用{0.5,1,10}表示数值的(定量的)区间新值=a*旧值+b,其中a、b是常数华氏和摄氏温度标度零度的位置和1度的大小(单位)不同比率新值=a*旧值长度可以用米或英尺度量9一、数据描述(4)用值的个数描述属性区分属性的另一种方法是用属性可能取值的个数。离散的离散属性具有有限或无限可数个值。例如,邮政编码、ID号、计数。通常离散属性用整数变量表示。二元属性是离散属性的一种特殊情况,只接受两个值(真/假、是/否、男/女、0/1等)。通常。二元属性用布尔变量表示,或者用只取两个值(0或1)的整形变量表示。连续的连续属性是取实数值的属性。例如,温度、高度、重量等。通常连续属性用浮点变量表示。10一、数据描述(5)非对称的属性只关心非零值的属性是非对称属性。此类属性对关联分析很重要。例如,数据集中,每个对象是一个学生,每个属性记录学生是否选修了某个课程。如果选修取值1,否则取值0。由于学生只选修可选课程的很小一部分,数据集的大部分值为0。所以,对于非对称的属性,出现非零属性值才是重要的。11二、数据集类型1、数据集的一般特性维度:维度是数据集中的对象所具有的属性数目。分析高维度数据的困难有时称为维灾难,因此,数据预处理的一个重要目的就是维规约。稀疏性:对于一些数据集,一个对象的大部分属性值都为0。稀疏性的优点是只有非零值才需要存储和处理,将节省大量的计算时间和存储空间。分辨率:通常可以在不同分辨率下得到数据,而且在不同分辨率下数据的性质是不同的。例如,数米分辨率下,地球表面看上去很不平坦,数十公里分辨率下却相对平坦。数据的模式依赖于分辨率。分辨率太高,模式可能看不到。分辨率太低,模式可能不出现。例如,小时标度下的气压变化可预测天气;在月标度下,这些现象就检测不到。12二、数据集类型2、记录数据许多数据挖掘任务都假定数据是记录(数据对象)的汇集,每个记录包含有固定的数据字段(属性)集。对于大部分记录数据,记录之间或字段之间没有明显的联系,每个记录(对象)具有相同的属性集。TidRefundMaritalStatusTaxableIncomeDefaultedBorrower1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes13二、数据集类型事务数据或购物篮数据:事务数据是一种特殊类型的记录数据,其中每个记录(事务)是一些项的集合。例如,顾客一次购物所购买商品的集合就构成一个事务,购买的商品是项,这种类型的数据也称为购物篮数据。如:TIDITEM1Bread,Soda,Milk2Beer,Bread3Beer,Soda,Diaper,Milk4Beer,Bread,Diaper,Milk5Soda,Diaper,Milk14二、数据集类型3、基于图形的数据:(1)带有对象之间联系的数据:对象之间的联系常常带有重要信息,这种情况,常常用图形表示。15二、数据集类型(2)具有图形对象的数据:如果对象具有某种结构,即对象包含具有联系的子对象,则这样的对象常常用图形表示。例如,化合物的结构可以用图形表示,其中结点是原子,节点之间的链是化学键。笨分子16二、数据集类型4、有序数据对于某些数据类型,属性涉及到时间或空间的顺序联系时序数据:也称时间数据,可以看作是记录数据的扩充,其中每个记录包含一个与之相关联的时间。即有一个时间属性。序列数据:是一个数据集合,它是个体项的序列,如词或字母的序列。时间序列数据:是一种特殊的时序数据,其中每个记录都有一个时间序列,即一段时间的测量序列。空间数据:有些对象具有空间属性,如位置或区域。17三、数据质量1、影响数据挖掘结果的因素:■采用数据挖掘技术的有效性;■用于挖掘数据的质量和数量;数据挖掘的效果和数据质量有着紧密的关系,数据的质量越好,挖掘的结果就越精确,反之则不能得到好的挖掘结果。18三、数据质量2、数据质量包含四方面含义:数据的正确性。原始数据可能包含不正确的值。比如,人的年龄为负数。数据的一致性。数据结构、属性标识、属性取值的差异。数据的完整性。原始数据缺少某些属性或属性值。数据的杂乱性。数据来自多个不同类型的数据源。19三、数据质量3、测量和数据收集过程中易产生的问题测量误差和数据收集错误测量误差是指测量过程导致的问题。数据收集错误是指遗漏数据对象或属性值,或者包含不正确的数据对象。噪声:是测量误差的随机部分,是值的扭曲或附加的错误对象。精度、偏倚和准确率异类点:异类点是不同于数据集中其他大部分数据对象特征的数据对象,或是相对于该属性的典型值不寻常的属性值,也称异常对象或异常值缺失值:对象或属性值的缺失。不一致值:数据集中包含不一致的值(冲突数据)。重复数据:数据集中包含重复或几乎重复的数据对象。20四、常见的数据预处理方法(1)数据清理消除错误的、冗余的和噪声数据,把从不同的、不兼容规则得到的数据进行一致化处理。(2)数据集成将多个文件或多数据库运行环境中的异构数据进行合并处理。包括数据的选择,数据冲突和不一致性的处理。(3)数据变换找出数据的特征描述,通过维度的变换或转换减少有效变量的数目,包括规格化、规约、切换和投影等操作。(4)数据简化(归约)在对数据内容理解的基础上,寻找表达数据的有用特征,缩小数据模型,从而在保持数据原貌的前提下最大限度地精简数据量。主要有属性选择和数据抽取两个途径。21四、常见的数据预处理方法22四、数据清理现实世界的数据一般是不完整的、有噪声的、不一致的。数据清理的主要任务是:填充缺失的值;光滑噪声、识别离群点;纠正数据集中的不一致数据。23五、数据清理1、却失值处理缺失值是指数据集中某些记录(元组)的部分属性值为空。如:在客户表中的某些客户的收入一项为空值。(1)导致数据缺失的原因数据采集设备的故障;由于与其它信息的数据存在不一致性,因此数据项被删除;由于不理解或者不知道而未能输入;在当时数据输入的时候,该数据项不重要而被忽略;数据传输过程中引起的错误;24五、数据清理(2)缺失数据处理的主要方法:忽略该记录(元组)通常在进行分类和聚类挖掘中,并且缺失类标识时使用;该方法通常不是很有效的,尤其是缺失数据比较多的时候;人工填写缺失值该方法枯燥、费时,可操作性较差(尤其在数据集很大或缺失值很多时),因此,不推荐使用;使用一个全局常量填充空缺数值将缺失的属性值用同一个常数(如,Unknown、Null、-∞等)替换;该方法简单,但不十分可靠。如,如果缺失值都用“Unknown”替换,则挖掘系统可能误认为它们是一个有趣的概念。25五、数据清理使用属性的平均值填充空缺数值例如,假定顾客的平均收入为56000美元,则使用该值替换属性income中的缺失值。该方法简单方便,但容易产生不精确的结果。使用与给定元组属同一个类别的所有样本的属性平均值例如,将顾客按credit_risk分类,则用具有相同信用度顾客的平均收入替换income中的缺失值。此方法对分类尤其是分类指标的选择上非常关键。使用最有可能的值填充利用回归、推理工具或者决策树归纳的方法确定可能的值。例如,利用数据集中其他顾客的属性,构造一颗决策树来预测income中的缺失值。26五、数据清理2、噪声数据处理噪音数据是指一个属性的随机错误或者偏差(1)导致噪声数据的主要原因数据采集设备的错误;数据录入问题;数据传输问题;部分技术的限制;数据转换中的不一致;27五、数据清理(2)噪声数据处理的主要方法分箱(Binning)方法基本思想:通过考察相邻数据的值,来光滑数据。基本步骤如下:对数据进行排序,并分配到具有相同宽度/深度的不同的“箱子”中;通过箱子的平均值、中值或边界值进行平滑处理;例:①对数据进行排序:4,8,9,15,21,21,24,25,26,28,29,34②对数据进行分割(相同深度):③根据bin中的平均值进行离散化:-Bin1:4,8,9,15-Bin1:9,9,9,9-Bin2:21,21,24,25-Bin2:23,23,23,23-Bin3:26,28,29,34-Bin3:29,29,29,2928五、数据清理(2)噪声数据处理的
本文标题:数据挖掘(2)
链接地址:https://www.777doc.com/doc-3800129 .html