您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 80数据挖掘课程复习提纲(终稿)
1数据挖掘课程复习提纲(10计算机、软件、网络)有关考试题型:一、填空题(15分,每空1分)二、判断题(10分,每题1分)三、计算题(55分,4大题,1~3大题各15分,第4大题10分)——聚类、分类、关联分析、异常挖掘各一题四、问答题(20分,3题,分别是7分,6分,和7分题)基本要求:掌握数据预处理、分类、聚类、关联分析、异常挖掘的基本方法、clementine的基本使用方法,及每类方法的应用场景(每类方法理解、熟悉一个例子)。算法重点掌握k-means、一趟聚类、DBSCAN、ID3(C4.5)、Bayes、KNN、Apriori及基于距离、密度、聚类的异常检测方法。第一章绪论1数据挖掘的定义技术层面:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中、人们事先不知道的、但又潜在有用的信息和知识的过程。商业层面:数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。2数据挖掘的任务预测任务:根据其它属性的值预测特定(目标)属性的值,如回归、分类、异常检测。描述任务:寻找概括数据中潜在联系的模式,如关联分析、演化分析、聚类分析、序列模式挖掘。(1)关联(Association)分析关联分析,发现特征之间的相互依赖关系,通常是从给定的数据集中发现频繁出现的模式知识(又称为关联规则)。关联分析广泛用于市场营销、事务分析等领域。(2)分类(Classification)分析分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其它数据库中的记录进行分类。(3)聚类(Clustering)分析“物以类聚,人以群分”。聚类分析技术试图找出数据集中的共性和差异,并将具有共性的对象聚合在相应的类中。聚类可以帮助决定哪些组合更有意义。聚类与分类的区别聚类问题是无指导的:没有预先定义的类。2分类问题是有指导的:预先定义有类。(4)演化(Evolving)分析演化分析就是对随时间变化的数据对象的变化规律和趋势进行建模描述。如:商品销售的周期(季节)性。(5)异常(Outlier)分析异常分析就是对异常数据的挖掘、分析。比如商业欺诈行为的自动检测,网络入侵检测,金融欺诈检测,反洗钱,犯罪嫌疑人的调查等。(6)序列模式(SequentialPattern)挖掘分析数据间的前后序列关系3数据挖掘的对象包括空间数据库、时间序列数据库、流数据、多媒体数据库、文本数据和万维网4.知识发现的主要步骤:(1)数据清洗(dataclearing)。其作用是清除数据噪声和与挖掘主题明显无关的数据。(2)数据集成(dataintegration)。其作用是将来自多数据源中的相关数据组合到一起。(3)数据转换(datatransformation)。其作用是将数据转换为易于进行数据挖掘的数据存储形式。(4)数据挖掘(datamining)。其作用是利用智能方法挖掘数据模式或规律知识。(5)模式评估(patternevaluation)。其作用是根据一定评估标准从挖掘结果筛选出有意义的相关知识。(6)知识表示(knowledgepresentation)。其作用是利用可视化和知识表达技术,向用户展示所挖掘的相关知识。数据挖掘只是知识发现过程的一个步骤。5数据挖掘产生背景及应用领域产生背景:“数据过剩”、“信息爆炸”与“知识贫乏”使得人们淹没在数据中,难以制定合适的决策!应用领域:在许多行业都有广泛应用,有大量数据的领域就有应用。(1)数据挖掘在商业领域中的应用市场分析和管理,公司分析和风险管理,欺诈行为检测和异常模式的发现,自动趋势预测,…(2)数据挖掘在计算机领域中的应用信息安全:入侵检测,垃圾邮件的过滤,互联网信息/使用挖掘,智能回答系统…(3)其它领域中的应用数据挖掘在工业制造方面的应用,生物信息或基因的数据挖掘,体育竞赛,天文学,军事情报分析(反恐),电视观众预测,多媒体、空间数据分析,…6数据挖掘使用的软件SPSSClementine、SASEnterpriseMiner、IBMIntelligentMiner、SQLServer2005,OracleDM等商用软件能够提供常规的挖掘过程和挖掘模式。Matlab,Excel(DatamininginExcel:XLMiner)等提供了数据挖掘模块。Weka,RapidMiner(YALE),ARMiner等为开源数据挖掘工具。7.数据挖掘领域10大挑战性问题:(1)数据挖掘理论的构建3(2)高维、数据流数据挖掘(高效、可扩展)(3)(时间)序列数据挖掘(4)从复杂数据中挖掘复杂知识(5)网络环境下的数据挖掘技术(6)分布式、多代理的数据挖掘(7)生物及环境问题数据挖掘(8)相关问题的数据挖掘处理(9)安全、隐私及数据整合(10)非静态、不平衡及代价敏感的数据挖掘第二章数据预处理1数据挖掘中使用的数据(1)数据挖掘中使用的数据是数据对象及其属性的集合。其中:属性是指对象的性质或特性,对象也称为数据对象、点、样本、观测或是实体等。数据集是数据对象的集合(同分布、同特征)。(2)不同的属性类型:分为分类属性和数值属性,分类属性又分标称型和序数型,而数值属性又分区间型和比率型。如性别为标称型,好坏等级为序数型,日期时间为区间型,分数为比率型。(3)数据集的类别:记录数据、基于图形的数据、有序的数据、序列数据。(4)数据集的特性::维度(Dimensionality),稀疏性(Sparsity),分辨率(Resolution)。2数据的质量问题现实世界中的原始数据往往存在一定的质量问题,如:噪声、离群点、缺失值、重复数据等,需要对其进行“清洗”才能更高效地进行挖掘。3数据预处理(1)为什么要预处理数据现实世界的数据是“不干净的”不完整的:有感兴趣的属性缺少属性值含噪声的:包含错误或“孤立点”不一致的:在命名或编码上存在差异没有高质量的数据,就没有高质量的挖掘效果高质量的决策必须依赖高质量的数据数据仓库需要对高质量的数据进行一致性地集成意义使挖掘过程更有效、更容易目的:提供干净、简洁、准确的数据,提高挖掘效率和准确性(2)数据预处理工作一般包括:数据清理、数据集成、数据变换、数据归约、离散化及特征选择等。数据清理包括填写空缺数据,平滑噪声数据,识别、删除孤立点,数据集成,抽样等。数据集成是集成多个数据库,数据立方体或文件。数据变换是对原始数据进行规范化和特征构造。数据归约是对数据集进行压缩表示及特征选择。数据离散化是通过概念分层和数据离散化来归约数据。(3)抽样:用数据较小的随机样本表示大的数据集4抽样是一种选择数据对象子集进行分析的常用方法数据挖掘使用抽样是因处理所有数据的费用太高、太费时间有效抽样原理:如果样本是有代表性的,则使用样本与使用整个数据集的效果几乎一样抽样方法:简单随机抽样:无放回抽样,有放回的抽样分层抽样特点:总体由不同类别的对象组成,每种类型的对象数量差别很大先对数据集进行分组:数据集D被划分为互不一相交的“层”,则可通过对每一层按一定比例简单随机选样得到D的分层选样利用聚类实现分层抽样:将数据集D划分成m个不相交的簇,再在聚类结果的簇上进行简单随机抽样(4)噪声的处理方法包括:分箱(将数据落入箱中来平滑数据)、聚类(通过聚类监测并且去除孤立点)、计算机与人工结合(计算机检测可疑数据然后对可疑数据进行人工判断)、回归(通过让数据适应回归函数来平滑数据)。规范化通过将属性数据按比例缩放,通过一个函数将给定属性的整个值域映射到一个新的值域中,即每个旧的值都被一个新的值替代。有3种规范化策略。规范化方法一——最小-最大(min-max)规范化通过线性变换fffififxzminmaxmin将值转换到区间[0,1],这里ffmax,min分别为f的n个观测值的最小值和最大值。最小-最大规范化保持原有数据之间的联系。如果今后的输入落在A的原始数据值域之外,该方法将面临“越界错误”。规范化方法二——z-score规范化ffififEXxz,其中f为属性标准差,fEX为属性平均值。当属性f的实际最大和最小值未知,或异常点左右了最小-最大规范化时,该方法是有用的。规范化方法三——小数定标规范化小数定标规范化通过移动属性A的小数点位置进行规范化。A的值v被规范化为v’,由下式计算:jvv10',其中,j是使1|)'(|vMax的最小整数。(5)数据归约策略数据归约:数据归约用来得到数据集的简约表示,它小得多,但可以产生相同的(或几乎相同的)分析结果数据归约策略数据立方体聚集5维归约:通过删除不相干的属性或维减少数据量数据压缩:用数据编码或者变换得到原始数据的压缩表示。典型的有小波变换和主成分分析数值归约离散化和概念分层归约标准用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间归约得到的数据比原数据小得多,但可产生相同或几乎相同的分析结果(6)特征提取(FeatureExtraction):由原始数据创建新的特征集映射数据到新的空间从不同视角提示重要和有趣的特征傅里叶变换(FourierTransform)小波变换(WaveletTransform)特征构造由一个或多个原始特征共同构造新的特征(7)特征选择从一组已知特征集合中选择最具代表性的特征子集,使其保留原有数据的大部分信息,即所选特征子集可以像原来的特征全集一样用来正确区分数据集的每个数据对象。通过特征选择,一些和任务无关或是冗余的特征被删除,从而提高数据处理的效率。特征选择目的:去除不相关和冗余的特征,降低时间空间复杂度,提高数据质量及数据泛化能力。理想的特征子集:每个有价值的非目标特征与目标特征强相关,而非目标特征之间不相关或是弱相关基本步骤:去掉与目标特征不相关的特征,删除冗余特征(8)离散化与概念分层离散化:通过将属性域划分为区间,减少给定连续属性值的个数。包括等宽离散化,等频离散化等方法。概念分层:通过使用高层的概念(比如:老年,中年,青年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据,概念分层可以用树来表示,树的每一个节点代表一个概念(比如:按地区划分世界)。4距离与相似性属性之间的相似性度量(1)Cosine相似度定义两个向量的夹角余弦为相似度,即:miimiimiiiqpqpqpqpqpqps1212122||||||||),cos(),((2)相关系数(Correlationcoefficient)6miiimiiimiiiiiqqppqqppqps12121)()()()(),(相关系数是标准化后的对象之间的夹角余弦,它表示两个向量的线性相关程度。具有平移不变性。(3)Pearson相关系数1)()()()(211||||||||)()(21),(1212122miimiimiiiqqppqqppqqppqqppqpcorr对象之间的相似性度量常用距离函数:(1)间隔数值属性设m为样本空间的维数,对于任意样本对象],,,[21mpppp与],,,[21mqqqq。欧式(Euclidean)距离:miiiqpqpd122||),(曼哈顿(Manhattan)距离:miiiqpqpd11||),(Canberra距离:miiiiiCanbqpqpqpd1||||||),((2)二值属性二值属性变量(binaryvariable)只有两种状态:0或1,表示属性的存在与否。一种差异计算方法就是根据二值数据计算。假设二值属性对象p和q的取值情况如表2-1所示。其中11n表示对象p和q中均取1的二值属性个数,10n表示对象p取1而对象q取0的二值属性个数,0
本文标题:80数据挖掘课程复习提纲(终稿)
链接地址:https://www.777doc.com/doc-4422602 .html