您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 数据挖掘——第二章认识数据)
第2章认识数据•数据对象•数据集由数据对象构成•一个数据对象代表一个实体•例子:–销售数据库salesdatabase:客户/顾客,商店物品,sales–医学数据库:patients,treatments–大学数据库:students,professors,courses•又称为样本,事例,实例,数据点,对象,元组tuples.•数据对象由属性来描述•Databaserows-dataobjects;columns-attributes.属性•属性Attribute(or维度,特征,变量):一个数据字段,表示一个数据对象的某个特征.–E.g.,customer_ID,name,address•类型:–名词性Nominal–二元的–数字的Numeric:数量的•Interval-scaled•Ratio-scaled属性类型•名词性Nominal:类别,状态,or“名目”–Hair_color={auburn,black,blond,brown,grey,red,white}–婚姻状态,职业occupation,IDnumbers,zipcodes•二元–只有2个状态的名词性属性(0and1)–对称二元Symmetricbinary:同样重要的两相•e.g.,gender–非对称Asymmetricbinary:非同等重要•e.g.,医疗检查(positivevs.negative)•惯例Convention:assign1tomostimportantoutcome(e.g.,HIVpositive)•顺序的Ordinal–值有一个有意义的顺序(排序)但连续值之间的大小未知.–Size={small,medium,large},等级,军队排名数值属性的类型•数量Quantity(integerorreal-valued)•区间Interval•在某个同等大小的一个尺度单位上Measuredonascaleofequal-sizedunits•值有序–E.g.,temperatureinC˚orF˚,calendardates•没有真正的零点•Ratio•有真正的零点•可以讲值是被测量单位一个数量级(10K˚istwiceashighas5K˚).–e.g.,温度在开尔文,长度,计数,货币的数量离散vs.连续属性•DiscreteAttribute–一个有限的或可数无限集值•E.g.,zipcodes,thesetofwordsinacollectionofdocuments–有时,表示为整数变量–注:二元属性是离散属性的一个特殊情况•ContinuousAttribute–属性值为实数•E.g.,temperature,height,orweight–实际上,实值只能使用有限位数进行测量和代表–连续属性通常表示为浮点变量数据概述数据的计量与类型•数据的计量尺度•数据的类型•数据的表现形式数据的计量尺度•数据的计量尺度(LevelsofMeasurement)–一般认为,数据是对客观现象计量的结果。•按照对事物计量的精确程度,可将所采用的计量尺度由低级到高级分为四个层次:–定类尺度(NominalLevel)–定序尺度(OrdinalLevel)–定距尺度(IntervalLevel)–定比尺度(RatioLevel)定类尺度•定类尺度(列名尺度):按照事物的某种属性对其进行平行的分类或分组。–例:人口的性别(男、女);企业的所有制性质(国有、集体、私营等)•计量层次最低•对事物进行平行的分类•各类别可以指定数字代码表示•具有=或的数学特性•数据表现为“类别”定类尺度•定类尺度只测度了事物之间的类别差,而对各类之间的其他差别却无法从中得知,因此各类地位相同,顺序可以任意改变。•对定类尺度的计量结果,可以且只能计算每一类别中各元素个体出现的频数(frequency)。•对事物进行分类时,必须符合穷尽(exhaustive)和互斥(mutuallyexclusive)要求。定序尺度•定序尺度(顺序尺度):是对事物之间等级或顺序差别的一种测度。–例:产品等级(一等品、二等品…);考试成绩(优、良、中、可、差)•对事物分类的同时给出各类别的顺序•比定类尺度精确•不仅可以测度类别差(分类),还可以测度次序差(比较优劣或排序)•数据表现为“类别”,但有序定序尺度•无法测出类别之间的准确差值•该尺度的计量结果只能排序,不能进行算术运算。•具有或的数学特性定距尺度•定距尺度(间隔尺度):是对事物类别或次序之间间距的测度。–例:100分制考试成绩;摄氏温度对不同地区温度的测量•不仅能将事物区分为不同类型并进行排序,而且可准确指出类别之间的差距是多少•比定序尺度精确•定距尺度通常以自然或物理单位为计量尺度,因此数据表现为“数值”•没有绝对零点;“0”是测量尺度上的一个测量点,并不代表“没有”•计量结果可以进行加减运算,具有+或-的数学特性定比尺度•定比尺度(比率尺度):是能够测算两个测度值之间比值的一种计量尺度。–例:职工月收入;企业产值;公制的距离、重量•与定距尺度属于同一层次,计量结果也表现为数值;•除了具有其他三种计量尺度的全部特点外,还具有可计算两个测度值之间比值的特点;•“0”表示“没有”,即它有一固定的绝对“零点”,因此它可进行加、减、乘、除运算(而定距尺度只可进行加减运算)四种计量尺度的比较四种计量尺度的比较定类尺度定序尺度定距尺度定比尺度分类(=,≠)排序(,)间距(+,-)比值(×,÷)√√√√√√√√√√“√”表示该尺度所具有的特性四种计量尺度的区别与联系•高层次的计量尺度具有低层次计量尺度的全部特性,但反之不行•可将高层次计量尺度的计量结果转换为低层次计量尺度的计量结果,但不能反过来•练习:指出下面变量的测量尺度:–学生住址距学校的距离–学生某门课的一次测验成绩(5分制)–学生的出生地–按年级分类的高校学生–每周学生学习的小时数数据分布特征的描述数据分布的特征集中趋势(位置)离中趋势(分散程度)集中趋势的测度•定类数据:众数•定序数据:中位数和四分位数•定距和定比数据:平均数(均值)•众数、中位数和均值的比较集中趋势(Centraltendency)•一组数据向其中心值靠拢的倾向和程度•测度集中趋势就是寻找数据一般水平的代表值或中心值•不同类型的数据用不同的集中趋势测度值•低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据•选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定定类数据:众数(mode)•出现次数最多的变量值•用Mo表示•不受极端值的影响•可能没有众数或有几个众数•主要用于定类数据,也可用于定序数据和数值型数据众数的不唯一性无众数原始数据:10591268一个众数原始数据:659855多于一个众数原始数据:252828364242众数的例子例某城市居民关注广告类型的频数分布广告类型人数(人)比例频率(%)商品广告服务广告金融广告房地产广告招生招聘广告其他广告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合计2001100解:这里的变量为“广告类型”,这是个定类变量,不同类型的广告就是变量值。我们看到,在所调查的200人当中,关注商品广告的人数最多,为112人,占总被调查人数的56%,因此众数为“商品广告”这一类别,即Mo=商品广告定序数据:中位数(median)•排序后处于中间位置上的值•用Me表示•不受极端值的影响•主要用于定序数据,也可用数值型数据,但不能用于定类数据•各变量值与中位数的离差绝对值之和最小,即最小1nieiXM中位数12N中位数位置1212212NeNNXNMXXN当为奇数时当为偶数时中位数的例子(定序数据)解:中位数的位置为:300/2=150从累计频数看,中位数的在“一般”这一组别中。因此Me=一般例甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数非常不满意不满意一般满意非常满意2410893453024132225270300合计300—中位数的例子(数值型数据)•原始数据:2422212620•排序:2021222426•位置:12345中位数22151322N位置中位数的例子(数值型数据)•原始数据:10591268•排序:56891012•位置:123456位置N+126+123.5中位数8+928.5定序数据:四分位数(quartile)•排序后处于25%和75%位置上的值•用ML和MU表示•不受极端值的影响•主要用于定序数据,也可用于数值型数据,但不能用于定类数据四分位数方法2:较准确算法4)1(341ULnQnQ位置位置方法1:定义算法434ULnQnQ位置位置四分位数•其中[]表示中位数的位置取整。这样计算出的四分位数的位置,要么是整数,要么在两个数之间0.5的位置上方法3:2121nQ位置四分位数的例子(定序数据)解:QL位置=(300)/4=75QU位置=(3×300)/4=225从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中四分位数为QL=不满意QU=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数非常不满意不满意一般满意非常满意2410893453024132225270300合计300—四分位数的例子(数值型数据)•9个家庭的人均月收入数据•原始数据:15007507801080850960200012501630•排序:75078085096010801250150016302000•位置:12345678975.649325.249UL位置位置QQ5.79725.0)780850(780LQ5.143775.0)12501500(1250UQ方法1四分位数的例子(数值型数据)•9个家庭的人均月收入数据•原始数据:15007507801080850960200012501630•排序:75078085096010801250150016302000•位置:1234567895.74)19(35.2419UL位置位置QQ15652163015008152850780ULQQ方法2四分位数的例子(数值型数据)•9个家庭的人均月收入数据•原始数据:15007507801080850960200012501630•排序:75078085096010801250150016302000•位置:123456789321219位置Q1500850ULQQ方法3数值型数据:平均数(mean)•一组数相加后除以数据的个数而得到的结果,也称为均值•集中趋势的最常用测度值•易受极端值的影响•根据总体数据计算的,称为平均数,记为;根据样本数据计算的,称为样本平均数,记为x简单平均数设一组数据为:x1,x2,…,xn(总体数据xN)样本平均数nxnxxxxniin121NxNxxxNiiN121总体平均数加权平均数设各组的组中值为:M1,M2,…,Mk相应的频数为:f1,f2,…,fknfMffffMfMfMxkiiikkk1212211样本加权平均总体加权平均NfMffffMfMfMkiiikkk1212211加权平均数•简单平均数的大小只和变量值的大小有关•加权平均数的大小不仅受各组组中值(Mi)大小的影响,而且受各组变量值出现的频数即权数(fi)大小的影响。•甲乙两组各有10名学生,他们的考试成绩及其分布数据如下甲组:考试成绩(x):020100人数分布(f):118乙组:考试成绩(x):020100人
本文标题:数据挖掘——第二章认识数据)
链接地址:https://www.777doc.com/doc-6683385 .html