您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 数学建模-数据预处理
1第2222章数据预处理2第2222章::::数据预处理�为什么预处理数据????�数据清理�数据集成�数据归约�离散化和概念分层产生�小结3为什么数据预处理????�现实世界中的数据是脏的�不完全::::缺少属性值,,,,缺少某些有趣的属性,,,,或仅包含聚集数据�例,,,,occupation=occupation=occupation=occupation=“”“”“”“”�噪音::::包含错误或孤立点�例,,,,Salary=Salary=Salary=Salary=““““-10-10-10-10””””�不一致::::编码或名字存在差异�例,,,,Age=Age=Age=Age=““““42424242””””Birthday=Birthday=Birthday=Birthday=““““03/07/201003/07/201003/07/201003/07/2010””””�例,,,,以前的等级““““1,2,31,2,31,2,31,2,3””””,,,,现在的等级““““A,B,CA,B,CA,B,CA,B,C””””�例,,,,重复记录间的差异4数据为什么脏????�不完全数据源于�数据收集时未包含�数据收集和数据分析时的不同考虑....�人////硬件////软件问题�噪音数据源于�收集�录入�变换�不一致数据源于�不同的数据源�违反函数依赖5为什么数据预处理是重要的????�没有高质量的数据,,,,就没有高质量的数据挖掘结果!!!!�高质量的决策必然依赖高质量的数据�例如,,,,重复或遗漏的数据可能导致不正确或误导的统计....�数据仓库需要高质量数据的一致集成�数据提取,,,,清理,,,,和变换是建立数据仓库的最主要的工作————BillBillBillBillInmonInmonInmonInmon6数据质量:一个多维视角�一种广泛接受的多角度::::�正确性((((Accuracy)Accuracy)Accuracy)Accuracy)�完全性((((Completeness)Completeness)Completeness)Completeness)�一致性((((Consistency)Consistency)Consistency)Consistency)�合时((((Timeliness)Timeliness)Timeliness)Timeliness):timelyupdate?timelyupdate?timelyupdate?timelyupdate?�可信性((((Believability)Believability)Believability)Believability)�可解释性((((Interpretability)Interpretability)Interpretability)Interpretability)�可存取性((((Accessibility)Accessibility)Accessibility)Accessibility)7数据预处理的主要任务�数据清理�填充缺失值,,,,识别////去除离群点,,,,光滑噪音,,,,并纠正数据中的不一致�数据集成�多个数据库,,,,数据立方体,,,,或文件的集成�数据变换�规范化和聚集�数据归约�得到数据的归约表示,,,,它小得多,,,,但产生相同或类似的分析结果:维度规约、数值规约、数据压缩�数据离散化和概念分层8数据预处理的形式9第2222章::::数据预处理�为什么预处理数据????�数据清理�数据集成�数据归约�离散化和概念分层产生�小结10数据清理DataCleaningDataCleaningDataCleaningDataCleaning�现实世界dededede数据是脏:很多潜在的不正确的数据,比如,仪器故障,人为或计算机错误,许多传输错误�incompleteincompleteincompleteincomplete::::缺少属性值,,,,缺少某些有趣的属性,,,,或仅包含聚集数据�e.g.,e.g.,e.g.,e.g.,职业====““““””””(missingdata)(missingdata)(missingdata)(missingdata)�noisynoisynoisynoisy::::包含错误或孤立点�e.g.,e.g.,e.g.,e.g.,SalarySalarySalarySalary====““““-10101010””””(anerror)(anerror)(anerror)(anerror)�inconsistentinconsistentinconsistentinconsistent::::编码或名字存在差异,e.g.,,e.g.,,e.g.,,e.g.,�AgeAgeAgeAge====““““42424242””””,,,,BirthdayBirthdayBirthdayBirthday====““““03/07/201003/07/201003/07/201003/07/2010””””�以前的等级““““1,2,31,2,31,2,31,2,3””””,,,,现在等级““““A,B,CA,B,CA,B,CA,B,C””””�重复记录间的差异�有意的(e.g.,(e.g.,(e.g.,(e.g.,变相丢失的数据))))�Jan.1aseveryoneJan.1aseveryoneJan.1aseveryoneJan.1aseveryone’’’’sbirthday?sbirthday?sbirthday?sbirthday?11如何处理缺失数据????�忽略元组::::缺少类别标签时常用((((假定涉及分类————不是很有效,当每个属性的缺失百分比变化大时�手工填写缺失数据::::乏味++++费时++++不可行????�自动填充�一个全局常量:e.g.,:e.g.,:e.g.,:e.g.,““““unknownunknownunknownunknown””””,anewclass?!,anewclass?!,anewclass?!,anewclass?!�使用属性均值�与目标元组同一类的所有样本的属性均值::::更巧妙�最可能的值::::基于推理的方法,如贝叶斯公式或决策树12噪音数据NoisyDataNoisyDataNoisyDataNoisyData�Noise:Noise:Noise:Noise:被测量的变量的随机误差或方差�不正确的属性值可能由于�错误的数据收集工具�数据录入问题dataentryproblemsdataentryproblemsdataentryproblemsdataentryproblems�数据传输问题datatransmissionproblemsdatatransmissionproblemsdatatransmissionproblemsdatatransmissionproblems�技术限制technologylimitationtechnologylimitationtechnologylimitationtechnologylimitation�不一致的命名惯例inconsistencyinnamingconventioninconsistencyinnamingconventioninconsistencyinnamingconventioninconsistencyinnamingconvention�其他需要数据清理的问题�重复记录duplicaterecordsduplicaterecordsduplicaterecordsduplicaterecords�数据不完整incompletedataincompletedataincompletedataincompletedata�不一致的数据inconsistentdatainconsistentdatainconsistentdatainconsistentdata13如何处理噪音数据????�分箱Binningmethod:Binningmethod:Binningmethod:Binningmethod:�排序数据,分布到等频////等宽的箱////桶中�箱均值光滑、箱中位数光滑、箱边界光滑,etc.,etc.,etc.,etc.�聚类ClusteringClusteringClusteringClustering�检测和去除离群点////孤立点outliersoutliersoutliersoutliers�计算机和人工检查相结合�人工检查可疑值(e.g.,dealwithpossibleoutliers)(e.g.,dealwithpossibleoutliers)(e.g.,dealwithpossibleoutliers)(e.g.,dealwithpossibleoutliers)�回归RegressionRegressionRegressionRegression�回归函数拟合数据14分箱:简单的离散化方法�等宽度Equal-widthEqual-widthEqual-widthEqual-width(distance)(distance)(distance)(distance)剖分::::�分成大小相等的nnnn个区间::::均匀网格uniformgriduniformgriduniformgriduniformgrid�若AAAA和BBBB是属性的最低和最高取值,,,,区间宽度为::::=(=(=(=(BBBB––––AAAA)/)/)/)/N.N.N.N.�孤立点可能占据重要影响maydominatepresentationmaydominatepresentationmaydominatepresentationmaydominatepresentation�倾斜的数据处理不好....�等频剖分(frequency)/(frequency)/(frequency)/(frequency)/等深::::�分成nnnn个区间,,,,每一个含近似相同数目的样本�GooddatascalingGooddatascalingGooddatascalingGooddatascaling�类别属性可能会非常棘手....15BinningMethodsforDataSmoothingBinningMethodsforDataSmoothingBinningMethodsforDataSmoothingBinningMethodsforDataSmoothing****Sorteddataforprice(indollars):4,8,9,15,21,21,24,25,26,28,29,34Sorteddataforprice(indollars):4,8,9,15,21,21,24,25,26,28,29,34Sorteddataforprice(indollars):4,8,9,15,21,21,24,25,26,28,29,34Sorteddataforprice(indollars):4,8,9,15,21,21,24,25,26,28,29,34****Partitioninto(Partitioninto(Partitioninto(Partitioninto(equiequiequiequi-depth)bins:-depth)bins:-depth)bins:-depth)bins:----Bin1Bin1Bin1Bin1:4,8,9,15:4,8,9,15:4,8,9,15:4,8,9,15----Bin2Bin2Bin2Bin2:21,21,24,25:21,21,24,25:21,21,24,25:21,21,24,25----Bin3Bin3Bin3Bin3:26,28,29,34:26,28,29,34:26,28,29,34:26,28,29,34****Smoothingbybinmean
本文标题:数学建模-数据预处理
链接地址:https://www.777doc.com/doc-6381355 .html