您好,欢迎访问三七文档
第七讲数据预处理2目录为什么要预处理数据描述性数据汇总数据清理数据集成与变换数据归约离散化和概念分层生成小结3一、为什么需要数据预处理?现实世界中的数据是“肮脏”的不完整:缺乏必要的属性值,缺乏感兴趣的属性,或仅包含聚集数据•e.g.,occupation=“”含噪声的:包含错误或存在偏离期望的孤立点•e.g.,Salary=“-10”不一致:编码或命名不一致•e.g.,Age=“42”Birthday=“03/07/1997”•e.g.,Wasrating“1,2,3”,nowrating“A,B,C”4数据为什么会“肮脏”不完整的数据来自收集数据时,部分数据不可得数据收集和数据分析时考虑的角度不同人为、软硬件问题含噪声数据来自数据的处理过程收集输入传输不一致的数据来自:不同的数据源不遵守数据间存在的依赖关系5为什么数据预处理很重要没有高质量的数据,就不会有高质量的挖掘结果高质量的决策必须建立在高质量的数据基础上•重复或缺失的数据可能导致不正确甚至误导的统计结果•数据仓库需要对数据进行一致的集成数据抽取,清理与变换是创建数据仓库的主要工作—BillInmon(TheFatherofDataWarehousing)6数据预处理的主要任务数据清理填充缺失数据,平滑噪声数据,识别或剔除孤立点,解决不一致问题数据集成对多个数据库、数据立方体或文件做集成数据转换规范化与聚集数据归约得到数据集的压缩表示,它小的多,但可以得到相同或相近的结果。数据离散化数据归约的一部分,通过概念分层和数据离散化来归约数据,对数据型数据特别重要7数据预处理的形式8目录为什么要预处理数据描述性数据汇总数据清理数据集成与变换数据归约离散化和概念分层生成小结9二、数据的中心趋势与离散特征动机:获得数据的总体印象至关重要度量数据的中心趋势度量数据的离散程度基本描述数据汇总的图形显示10度量中心趋势(算术)平均值Mean加权(算术)平均中位数Median:一种整体度量假定数据集的值是有序的,如果值个数是奇数,则中位数是有序集合的中间值,否则,中位数是中间两个数的平均值在大型数据库中由插值得到近似的中位数niixnx11niiniiiwxwx11cffnLmedianmedianl))(2/(111众数(模)Mode众数是集合中出现频率最高的值当最高频率对应多个不同值时,导致多个模,如单模态(nimodal),双模态(bimodal),三模态(trimodal),也可能没有模经验公式)(3medianmeanmodemean12Symmetricvs.SkewedDataMedian,meanandmodeofsymmetric,positivelyandnegativelyskeweddata13度量数据的离散度数值数据趋向离散的程度称为数据的离散度或方差四分位数(Quartiles)、孤立点(outliers)与盒图(boxplots)四分位数:Q1(第25个百分数),Q3(第75个百分数)中间四分位数区间:IQR=Q3–Q1五数概括(Fivenumbersummary):min,Q1,M,Q3,max孤立点:识别孤立点的常用规则是:挑出落在至少高于第三个四分位数或低于第一个四分位数1.5*IQR处的值14盒图分析盒图数据被表示为一个盒盒的端点在第一个和第三个四分位数上,使得盒的长度是中间四分位数区间IQR中位数用盒内的线标记盒外的两条线延伸到最小和最大观测值15方差(Variance)与标准差(standarddeviation)方差s2:(代数度量,在大型数据库中可伸缩的)标准差s是方差s2的平方根•度量关于平均值的的离散,仅当选择平均值作为中心度量时使用•仅当不存在离散(即所有观测值都相等)时,s=0,否则s022122111)(11iiniixnxnxxns16基本统计类描述的图形显示直方图(频率直方图)一种单变量图像方法由一组矩形组成,这些矩形反映了类在给定数据中出现的计数或频率17分位数图QuantilePlot显示所有数据(允许用户评估总的情况和不寻常的出现)。绘出分位数信息对于从小到大排序的数据中的Xi,fi指出大约100fi%的数据小于等于xi18分位数-分位数图(Q-Q图)对着另一个的对应分位数,绘制一个单变量分布的分位数。允许用户观察从一个分布到另一个是否有移位分店1的商品单价趋向于比分店2低19散布图(Scatterplot)确定两个数值属性之间看上去是否有联系、模式或趋势。一眼就能看出双变量数据在整个平面的分布,如,点的聚类,异常点等每个值对被看成一个代数坐标对,并作为一个点画在平面上数据量增大时,散布图的有效性降低20Loess曲线Loess:localregression局部回归添加一条平滑曲线到散步图上,以便更好地理解依赖模式Loess曲线的拟合需要设置两个参数:平滑参数,被回归拟合的多项式的阶21PositivelyandNegativelyCorrelatedData22GraphicDisplaysofBasicStatisticalDescriptionsHistogramBoxplotQuantileplot:eachvaluexiispairedwithfiindicatingthatapproximately100fi%ofdataarexiQuantile-quantile(q-q)plot:graphsthequantilesofoneunivariantdistributionagainstthecorrespondingquantilesofanotherScatterplot:eachpairofvaluesisapairofcoordinatesandplottedaspointsintheplaneLoess(localregression)curve:addasmoothcurvetoascatterplottoprovidebetterperceptionofthepatternofdependence23目录为什么要预处理数据描述性数据汇总数据清理数据集成与变换数据归约离散化和概念分层生成小结24三、数据清理数据清理很重要“数据清理是数据仓库的三大难题之一”—RalphKimball“数据清理是数据仓库的第一大难题”—DCIsurvey数据清理的任务填充缺失数据平滑噪声数据,识别或剔除孤立点校正不一致问题解决数据集成过程中造成的数据冗余251缺失数据数据并不总是完整的E.g.,很多元组的很多属性没有记录值,例如销售数据中没有客户收入信息引起数据缺失的原因设备故障与其他已有记录值不一致而被删除由于误解而未输入数据在输入时,某些数据可能被认为不重要而未被输入对数据的改变没有进行日志记载缺失数据要经过推断而补上26如何处理缺失数据?忽略该元组:当类标识缺失时经常这么做(假设用于分类任务——当每个属性缺少值的百分比变化很大时,它的性能非常差)人工填写缺失数据:工作量大,可行性低自动填写:使用一个全局变量填充空缺值:比如使用unknown或者无穷大;该方法不可靠属性的平均值使用与给定元组属同一类的所有样本的平均值使用最可能的值填充空缺值:使用像bayesian公式或判定树这样的基于推断的方法。27缺失值意味着数值出错?每个属性应当有设置一个或多个关于空值条件的规则。好的设计有助于在第一现场最小化缺失值或错误的数量。282噪声数据噪声:测量变量中的随机错误或偏差不正确的属性值可能由以下问题造成数据收集设备的故障数据输入问题数据传输问题技术限制命名规则不一致29如何处理噪声数据?分箱方法(Binning):通过考察数据“近邻”来光滑有序数据的值聚类的方法检测并除去孤立点计算机和人工检查结合计算机挑出可疑值,再人工确认回归(Regression)通过让数据适应回归函数来平滑数据30简单离散化方法:分箱等宽度(距离)划分将整个值域划分成N等分如果A和B分别是属性的最小值和最大值,则每间隔宽度为:W=(B–A)/N.此方法简单直观,但受孤立点影响大划分为等深的箱:将范围分成N等分,每个包含大致相等的样本数量数据缩放比例较好适用于管理分类属性31用于数据平滑的分箱方法*price排序后数据(美元):4,8,9,15,21,21,24,25,26,28,29,34*划分为(等深的)箱:-Bin1:4,8,9,15-Bin2:21,21,24,25-Bin3:26,28,29,34*用箱平均值平滑:-Bin1:9,9,9,9-Bin2:23,23,23,23-Bin3:29,29,29,29*用箱边界值平滑(箱中的最大和最小值视为箱边界):-Bin1:4,4,4,15-Bin2:21,21,25,25-Bin3:26,26,26,3432聚类分析33回归xyy=x+1X1Y1Y1’34目录为什么要预处理数据描述性数据汇总数据清理数据集成与变换数据归约离散化和概念分层生成小结351.数据集成数据集成:将多个数据源中的数据整合到一个一致的存储中。模式集成:整合不同数据源中的元数据(如数据字典)实体识别问题:匹配来自不同数据源的现实世界的实体。e.g.,A.cust-idB.cust-#检测并解决数据值的冲突对现实世界中的同一实体,来自不同数据源的属性值可能是不同的可能原因:不同的数据表示,不同的度量等。如,公制单位与英制单位表示36处理数据集成中的冗余数据集成多个数据库时,经常会出现冗余数据:同一属性在不同数据库中会有不同的字段名一个属性可以由另外一个表导出,如年薪有些冗余可以被相关分析(数理统计)检测到多个数据源数据的“细致”整合,能够减少或避免结果数据中的冗余与不一致性,从而可以提高挖掘的速度和质量。37CorrelationAnalysis(NumericalData)相关系数(alsocalledPearson’sproductmomentcoefficient)-1≤rA,B≤+1rA,B0,A、B正相关(A的值随B的值增长而增长)rA,B=0:不相关;rA,B0:负相关BABAnBAnABnBBAArBA)1()()1())((,AB38相关分析(CategoricalData)Χ2(chi-square)testThelargertheΧ2value,themorelikelythevariablesarerelatedThecellsthatcontributethemosttotheΧ2valuearethosewhoseactualcountisverydifferentfromtheexpectedcountCorrelationdoesnotimplycausality#ofhospitalsand#ofcar-theftinacityarecorrelatedBotharecausallylinkedtothethirdvariable:populationExpectedExpectedObserved22)(39Chi-SquareCalculation:AnExampleItshowsthatlike_science_fictionandplay_chessarecorrelatedinthegroup93.507840)8401000(360)360200(210)21050(90)90250(22222PlaychessNotplaychessSum(row)Likesciencefiction
本文标题:第七讲数据预处理
链接地址:https://www.777doc.com/doc-2119205 .html