您好,欢迎访问三七文档
第二章认识数据数据对象与属性类型•数据对象——代表一个实体•例如:大学数据库中,学生、教授、教务人员等属于对象•数据属性——代表对象的一个特征•例如:学生的学号、姓名、成绩等为属性属性•1.属性也叫维、特征、变量。如学生学号。•2.一组属性叫属性向量或特征向量。•3.给定属性的观测值称为观测。•4.涉及一个属性的数据分布称为单变量的。双变量分布涉及两个属性。•5.属性的类型分为标称的、二元的、序数的、数值的。标称属性•标称属性意味“与名称相关”。•标称属性的值是符号或者事物名称。•它的值没有序列意义。•例:属性“头发颜色”的值是:红色、黄色、黑色、白色(可以用0表示红色,1表示黄色等,但是这些数值没有运算意义)。二元属性•二元属性是一种标称属性,且只有0,1两值。•0代表没有,1代表有,也称为布尔属性,0=false1=true。•例:属性:抽烟的值为1表示抽烟,0表示不抽。•有相同权重的0,1状态称为对称的,如性别。否则称为非对称的。序数属性•序数属性的值具有有意义的序和秩,但是相继值之间的差是未知的。•例:快餐店的饮料有小、中、大杯。它们有次序的意义,但是不能计算大杯比中杯大多少。这种属性是序数属性。•即:序数属性是定性的,不是定量的。数值属性•数值属性是定量的,即用数值表示的。•可以是区间标度的、比率标度的。•区间标度属性用相等的单位尺度度量。如温度、年份。但是它没有真正的零点,因为0度不代表没有温度。•比率标度属性是具有零点的数值属性。如工作年限等。离散属性和连续属性•离散属性有限或无限可数个值;可以具有有效值;如头发颜色、年龄、顾客数量均是离散的。•连续属性如果不是离散的,则为连续的;又称为数值属性;一般用浮点变量表示连续属性。中心趋势度量•度量数据中心趋势•包括均值、中位数、众数和中列数。均值•均值•加权均值•截尾均值:丢弃高低极端值后的均值,一般丢掉高端低端各2%。例中位数•中位数是有序数据的中间值。•如果数据是奇数,则中位数是中间值。•如果数据是偶数,中位数是中间两个值和它们之间的任意值,如果是数值属性,则中位数是中间两值的平均值。前例中位数为(52+56)/2=54。•插值计算中位数近似值:x众数•集合中最频繁出现的值。•一个两个三个众数分别称为单峰的、双峰的、三峰的。两个或以上一般称为多峰的。•每个数据仅出现一次,则没有众数•mean均值,mode众数,median中位数。•前例众数是双峰的,为52,70中列数•数据的最大值和最小值的平均值。•前例中列数是(30+110)/2=70数据的对称性度量数据散布•数值数据散布或发散的度量•包括极差、四分位数、方差、标准差和四分位数极差。极差、四分位数、四分位数极差•极差是集合最大值与最小值之差•将一个数据集划分为基本上大小相等的四部分的数称为四分位数。它有3个分位数。•四分位数极差IQR=Q3-Q1前例的3个四分位数是第369个值,四分位数极差是62-47=16五数概括•Q1、中位数、Q3不包含两个端点,将最小值和最大值加入,由这五个数组成的观测值称为五数概括。•分布的五数概括按次序,最小、Q1、中位值、Q3、最大值写出。盒图盒图例标准差和方差•方差:•标准差:观测值的标准差是方差的平方根。•标准差是发散性的度量,度量关于均值的发散,当不存在发散时,所有观测值均等于均值,方差为0。基本统计描述的图形显示•研究基本统计描述的图形显示•包括分位数图、分位数-分位数图、直方图、散点图。分位数图•分位数图(quantileplot)是一种观察单变量数据分布的简单有效方法。首先,它显示给定属性的所有数据(允许用户评估总的情况和不寻常的出现)。其次,它绘出了分位数信息(见2.2.2节)。对于某序数或数值属性X,设xi(i=1,…,N)是按递增序排序的数据,使得x1是最小的观测值,而xN是最大的。每个观测值xi与一个百分数fi配对,指出大约fi×100%的数据小于值xi。我们说“大约”,因为可能没有一个精确的小数值fi,使得数据的fi×100%小于值xi。注意,百分比0.25对应于四分位数Q1,百分比0.50对应于中位数,而百分比0.75对应于Q3。•令•这些数从1/2N(稍大于0)到1-1/2N(稍小于1),以相同的步长1/N递增。在分位数图中,xi对应fi画出。这使得我们可以基于分位数比较不同的分布。例如,给定两个不同时间段的销售数据的分位数图,我们一眼就可以比较它们的Q1、中位数、Q3以及其他fi值。分位数图分位数-分位数图•分位数-分位数图(quantile-quantileplot)或q-q图对着另一个对应的分位数,绘制一个单变量分布的分位数。它是一种强有力的可视化工具,使得用户可以观察从一个分布到另一个分布是否有漂移。•假定对于属性或变量unitprice(单价),我们有两个观测集,取自两个不同的部门。设x1,…,xN是取自第一个部门的数据,y1,…,yM是取自第二个部门的数据,其中每组数据都已按递增序排序。如果M=N(即每个集合中的点数相等),则我们简单地对着xi画yi,其中yi和xi都是它们的对应数据集的第(i-0.5)/N个分位数。如果MN(即第二个部门的观测值比第一个少),则可能只有M个点在q-q图中。这里,yi是y数据的第(i-0.5)/M个分位数,52对着x数据的第(i-0.5)/M个分位数画。在典型情况下,该计算涉及插值。•例2.14分位数-分位数图。图2.5显示在给定的时间段AllElectronics的两个不同部门销售的商品的单价数据的分位数-分位数图。每个点对应于每个数据集的相同的分位数,并对该分位数显示部门1与部门2的销售商品单价。(为帮助比较,我们也画了一条直线,它代表对于给定的分位数,两个部门的单价相同的情况。此外,加黑的点分别对应于Q1、中位数和Q3。)•例如,53我们看到,在Q1,部门1销售的商品单价比部门2稍低。换言之,部门1销售的商品25%低于或等于60美元,而在部门2销售的商品25%低于或等于64美元。在第50个分位数(标记为中位数,即Q2),我们看到部门1销售的商品50%低于或等于78美元,而在部门2销售的商品50%低于或等于85美元。一般地,我们注意到部门1的分布相对于部门2有一个漂移,因为部门1销售的商品单价趋向于比部门2低。直方图•直方图(histogram)或频率直方图(frequencyhistogram)至少已经出现一个世纪,并且被广泛使用。“histo”意指柱或杆,而“gram”表示图,因此histogram是柱图。直方图是一种概括给定属性X的分布的图形方法。如果X是标称的,如汽车型号或商品类型,则对于X的每个已知值,画一个柱或竖直条。条的高度标示该X值出现的频率(即计数)。结果图更多地称做条形图(barchart)。•如果X是数值的,则更多使用术语直方图。X的值域被划分成不相交的连续子域。子域称做桶(bucket)或箱(bin),是X的数据分布的不相交子集。桶的范围称做宽度。通常,诸桶是等宽的。例如,值域为1~200美元(对最近的美元取整)的价格属性可以划分成子域1~20,21~40,41~60,等等。对于每个子域,画一个条,其高度表示在该子域观测到的商品的计数。直方图和划分规则将在第3章介绍数据归约时进一步讨论。散点图•散点图(scatterplot)是确定两个数值变量之间看上去是否存在联系、模式或趋势的最有效的图形方法之一。为构造散点图,每个值对视为一个代数坐标对,并作为一个点画在平面上。图2.7显示表2.1中数据的散点图。散点图•散点图是一种观察双变量数据的有用的方法,用于观察点簇和离群点,或考察相关联系的可能性。两个属性X和Y,•如果一个属性蕴含另一个,则它们是相关的。相关可能是正的、负的或零(null)相关(不相关的)。图2.8显示了•两个属性之间正相关和负相关的例子。如果标绘点的模式从左下到右上倾斜,则意味X的值随Y的值增加而增加,暗•示正相关(见图2.8a)。如果标绘点的模式从左上到右下倾斜,则意味X的值随Y的值减小而增加,暗示负相关(见•图2.8b)。可以画一条最佳拟合的线,研究变量之间的相关性。相关性统计检验在第3章介绍数据集成时给出(见•(3.3)式)。图2.9显示了三种情况,每个给定的数据集的两个属性之间都不存在相关关系。2.3.2节说明如何把散点图扩展到n个属性,得出散点图矩阵。•综上所述,基本数据描述(如中心趋势度量和散布度量)和图形统计显示(如分位数图、直方图和散点图)提供了•数据总体情况的有价值的洞察。由于有助于识别噪声和离群点,所以它们对于数据清理特别有用。数据可视化•如何有效地向用户表示数据?数据可视化旨在通过图形表示清晰有效地表达数据。数据可视化已经在许多应用领域广泛使用。例如,我们可以在编写报告、管理工商企业运转、跟踪任务进展等工作中使用数据可视化。更流行地,我们可以利用可视化技术的优点,发现原始数据中不易观察到的数据联系。现在,人们还使用数据可视化制造乐趣和有趣的图案。•本节简要介绍数据可视化的基本概念。我们从存放在诸如关系数据库中的多维数据开始,讨论一些表示方法,包括基于像素的技术、几何投影技术、基于图符的技术,以及层次的和基于图形的技术。然后,我们讨论复杂数据对象和关系的可视化。基于像素的可视化技术•一种可视化一维值的简单方法是使用像素,其中像素的颜色反映该维的值。对于一个m维数据集,基于像素的技术(pixel-orientedtechnique)在屏幕上创建m个窗口,每维一个。记录的m个维值映射到这些窗口中对应位置上的m个像素。像素的颜色反映对应的值。•在窗口内,数据值按所有窗口共用的某种全局序安排。全局序可以用一种对手头任务有一定意义方法,通过对所有记录排序得到。•例2.16基于像素的可视化。AllElectronics维护了一个顾客信息表,包含4个维:income(收入),credit_limit(信贷额度),transaction_volume(成交量)和age(年龄)。我们能够通过可视化技•术分析income与其他属性之间的相关性吗?•我们可以对所有顾客按收入的递增序排序,并使用这个序,在4个可视化窗口安排顾客数据,如图2.10所示。像素颜色这样选择:值越小,颜色越淡。使用基于像素的可视化,我们可以很容易地得到如下观察:credit_limit随income增加而增加;收入处于中部区间的顾客更可能从AllElectronics购物;income与age之间没有明显的相关性。基于像素的可视化技术•在基于像素的技术中,数据记录也可以按查询依赖的方法排序。例如,给定一个点查询,我们可以把所有记录按照与该点查询的相似性的递减序排序。•对于宽窗口,以线性方法安排数据记录填充窗口的效果可能不好。每行的第一个像素与前一行的最后一个像素离得太远,尽管它们对应的对象在全局序下是彼此贴近的。此外,像素贴近窗口中它上面的像素,57尽管这两个像素对应的对象在全局序下并非彼此贴近的。为解决这一问题,我们可以用空间填充曲线来安排数据记录填充窗口。空间填充曲线(space-fillingcurve)是这样一种曲线,它的范围覆盖整个n维单位超立方体。由于可视化窗口是二维的,我们可以使用二维空间填充曲线。图2.11显示了一些频繁使用的二维空间填充曲线。基于像素的可视化技术•注意,窗口不必是矩形的。例如,圆弓分割技术(circlesegmenttechnique)使用圆弓形窗口,如图2.12所示。这种技术可以改善维比较,因为诸维窗口并肩安排,形成一个圆。几何投影可视化技术•基于像素的可视化技术的一个缺点是,它们对于我们理解多维空间的数据分布帮助不大。例如,它们并不显示在多维子空间是否存在稠密区域。58几何投影技术帮助用户发现多维数据集的有趣投影。几何投影技术的首要挑战是设法解决如何在二维显示上可视化高维空间。•散点图使用笛卡儿坐标显示二维数据点。使用不同的颜色或形状表示不同的数据点,可以增加第三维。图2.13显示了一个例子,其中X和Y是两个空间属性,而第三维用不同的形状表示。
本文标题:数据挖掘第二章课件
链接地址:https://www.777doc.com/doc-4321750 .html