您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 广告经营 > 数据挖掘(基于数据挖掘导论pdf)
一、数据预处理1)数据清洗(主要用于填补数据记录中的遗漏数据,识别异常数据,以及纠正数据中的不一致问题):①遗漏数据处理:忽略该条记录(遗漏比例较大时不很有效),手工填补遗漏值(大规模数据可行性差),利用缺省值填补遗漏值,利用均值填补遗漏值,利用同类别均值填补遗漏值(尤其在进行分类挖掘时),利用最可能的值填补遗漏值(可以利用回归分析、贝叶斯计算公式或决策树推断出该条记录特定属性的最大可能的取值,最常用)②噪声数据处理:Bin方法,聚类方法,人机结合检查方法,回归方法(如线性回归方法,多变量回归方法)③不一致数据处理:2)数据集成处理(来自多个数据源的数据):模式集成,冗余问题(冗余属性),数据值冲突检测与消除3)数据转换处理(用于将数据转换成适合数据挖掘的形式):平滑处理(bin方法,聚类方法,回归方法),合计处理,数据泛化处理,规格化(最大最小规格化方法,零均值规格化方法,十基数变换规格化方法),属性构造,4)数据消减:数据立方合计(主要用于构造数据仓库操作),维数消减(主要用于检测和消除无关、弱相关、或冗余的属性),数据压缩(利用编码技术压缩数据集的大小,方法:小波分析(更适合对高维数据进行处理变换),主要素分析(PCA)(能较好地处理稀疏数据)),数据块消减(利用更简单的数据表达形式来取代原有的数据如:参数模型(如线性回归模型),非参数模型(聚类、采样[SRSWOR方法,SRSWR方法,聚类采样方法,分层采样方法]、直方图(等宽方法,等高方法,V-Optimal方法,MaxDiff方法)等)),离散化与概念层次生成5)离散化和概念层次树生成:数值概念层次树生成(Bin方法,直方图方法,聚类分析方法,基于熵的离散化方法,自然划分分段方法(3-4-5规则)),类别概念层次树生成二、数据泛化1)数据立方方法(OLAP方法)2)基于属性的归纳方法(AOI方法)三、属性相关分析属性相关分析过程:数据收集,利用保守AOI方法进行属性相关分析,利用所确定评估标准评估每个初选后的属性,消除无关或弱相关的属性,利用AOI方法生成概念描述四、分类与预测
本文标题:数据挖掘(基于数据挖掘导论pdf)
链接地址:https://www.777doc.com/doc-2333375 .html