您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 数据挖掘3章数据预处理
2020/2/241数据预处理2009年4月27日2020/2/2422.1数据预处理的原因正确性(Correctness)一致性(Consistency)完整性(Completeness)可靠性(Reliability)数据质量的含义2020/2/243数据错误的不可避免性数据输入和获得过程数据错误数据集成所表现出来的错误数据传输过程所引入的错误据统计有错误的数据占总数据的5%左右[Redmen],[Orr98]数据错误的危害性高昂的操作费用糟糕的决策制定组织的不信任分散管理的注意力2020/2/244数据预处理的形式数据清理数据集成数据变换数据归约2020/2/2452.2描述性数据汇总均值分布式度量sum()count()min()max()代数度量average()mean()加权平均截断平均减小极端值的影响整体度量中位数众数中列数(max+min)/22.2.1度量数据的中心趋势2020/2/2462.2描述性数据汇总极差、四分位数、离群点和箱形图方差标准差2.2.2度量数据的离散趋势2020/2/2472.2描述性数据汇总直方图、分位数图、分位数-分位数图散点图、散点图阵、Loess曲线2.2.3基本描述数据汇总的图形显示2020/2/2482.3数据清理忽略元组人工填写空缺值使用一个全局常量填充空缺值使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值使用最可能的值填充空缺值2.3.1缺失值2020/2/249分箱:按箱平均值、按箱中值、按箱边界聚类计算机和人工检查结合回归2.3.2躁声数据2.3.3数据清理作为一个过程2020/2/2410实体识别:元数据可帮助避免错误属性冗余:相关分析数据重复数据值冲突的检测与处理:2.4数据集成和变换2.4.1数据集成2020/2/2411平滑聚集数据概化规范化:最小-最大、Z-Score、按小数定标属性构造2.4.2数据变换2020/2/24122.5数据归约归约数据集小、近似保持原数据的完整性2.5.1数据立方体聚集:聚集数据立方体使用与给定任务相关的最小方体2.5.2属性子集选择检测、删除不相关弱相关冗于的属性和维方法:逐步向前、逐步向后、向前向后结合决策树归纳:信息增益法2020/2/24132.5数据归约归约数据集小、近似保持原数据的完整性2.5.3数据压缩:编码机制压缩数据方法:小波变换、主成分分析(PCA)数值压缩:用替代的、较小的数据表示数据方法:有参方法回归和对数线性模型无参方法直方图聚类抽样2020/2/24142.6离散化和概念分层原始值用区间值或较高层的概念替换离散化:原始值划分为有限个区间,减少了连续属性值的个数概念分层:原始值用较高层的概念替换2020/2/24152.6离散化和概念分层:2.6.1对数值数据:分箱直方图分析聚类分析基于熵的离散化(entropy)通过信息增益方法确定区间边界使用类信息,更可能将区间边界定义准确基于卡方分析的区间合并通过自然划分分段3-4-5规则(P58):将数值数据划分成相对一致的区间2020/2/24162.6.2对分类数据:分类数据是离散数据。一个分类属性可能有有限个不同的值。方法由用户和专家在模式级显式的说明属性的部分序通过显式的数据分组说明分层结构的一部分说明属性集,但不说明他们的偏序只说明部分的属性集
本文标题:数据挖掘3章数据预处理
链接地址:https://www.777doc.com/doc-3969001 .html