您好,欢迎访问三七文档
第1章数据分析的基础本章主要内容1.数据分组与变量数列2.分布中心与离散程度的测定3.偏度与峰度4.两个变量的相关关系重点掌握:1.数据分组与变量数列编制的方法及其应用;2.分布中心与离散程度指标的种类、测定方法及其应用;3.偏度、峰度以及相关系数的作用以及计算方法。能够理解:本章学习内容中的基本概念。1.1数据分组与变量数列50.144.238.677.582.320.480.279.89660.729.662.1136.585.898.6116.339.465106.748.498.5126.7117.967.661.315136.819.454.690.890131.5115.235.6109.957.352.1120.531.959.259.586.51249.392.136.8301539.726.343.6132.540.772.53776.510024.566.238.8单项分组:离散型变量,且取值较少组距分组:连续型变量,或取值较多居民家庭按人口数分组户数比率(%)12345030012001302.9817.8671.177.99合计1680100.00变量数列(1)单项数列(2)组距数列居民家庭按人口数分组户数比率(%)12345030012001302.9817.8671.177.99合计1680100.00组别组别次数(频数)次数(频数)频率频率50.144.238.677.582.320.480.279.89660.729.662.1136.585.898.6116.339.465106.748.498.5126.7117.967.661.315136.819.454.690.890131.5115.235.6109.957.352.1120.531.959.259.586.51249.392.136.8301539.726.343.6132.540.772.53776.510024.566.238.8例1.1根据抽样调查,某超市某天60位顾客的购货金额数据资料如下(单位:元)1.确定组数2.确定组距3.确定组限4.计算各组的次数(频数)5.编制变量数列记变量值个数为N,组数为m,则斯特吉斯公式为:Nmlg322.31组距:每组上限和下限之间的距离等距分组中可根据变量的取值范围和已确定的组数而定,组距d的最小值为:mxminxmaxdii注:通常用5和10的倍数作组距3.累计频数和累计频率(1)向上累计频数(或频率)(2)向下累计频数(或频率)购买金额(元)顾客数(频数)比重(频率)向上累计向下累计频数频率频数频率10-3030-5050-7070-9090-110110-130130以上71512895411.725.020.013.315.08.36.7合计60100.0:由变量值低的组向变量值高的组依次累加频数(或频率):由变量值高的组向变量值低的组依次累加频数(或频率)722344251566011.736.756.770.085.093.3100.0605338261894100.088.363.343.330.015.06.74.变量数列分布图(1)直方图(2)折线图0246810121416顾客人数顾客人数05101520顾客人数顾客人数1.概念:分布中心是指距离一个变量的所有值最近的位置。1.2分布中心的测度2.意义:(1)变量的分布中心是变量取值的一个代表,可以用来反映其取值的一般水平。(2)揭示其取值的次数分布在直角坐标系上的集中位置3.测度指标(1)算术平均数(均值)(2)中位数(3)众数1.算术平均数(均值)一组变量值的总和与其变量值的个数总和的比值(1)简单算数平均数(2)加权算数平均数nxnxxxxniin121ffxffxfxfxxmiimm12211mf:各变量所在组的次数成绩分组(分)人数(人)频率60以下60-7070-8080-9090以上36141167.515.035.027.515合计40100组中值=(上限+下限)/2缺下限组的组中值=上限-邻组组距/2缺上限组的组中值=下限+邻组组距/25565758595组中值若变量值的个数n为偶数时,则中位数是第项与第项变量值的简单算术平均数21n2n首先将变量从小到大排列,然后用确定中位数所处的位置,21n2.中位数一组变量的变量值按照从小到大的顺序排成一列,位于这列数中心位置上的那个变量值(1)未分组资料(2)单项数列(3)组距数列(2)单项数列居民家庭按人口数分组户数向上累计12345030012001305035015501680合计1680(3)组距数列:dfSfLmmme12dfSfUmmme12有下列两个公式中任意一个均可计算中位数下限公式上限公式em:中位数1mS:变量值小于中位数的各组次数之和L:中位数所在组的下限mf:中位数所在组的次数1mS:变量值大于中位数的各组次数之和U:中位数所在组的上限d:中位数所在组的组距购买金额(元)顾客数(频数)比重(频率)向上累计向下累计频数频率频数频率10-3030-5050-7070-9090-110110-130130以上71512895411.725.020.013.315.08.36.7合计60100.0722344251566011.736.756.770.085.093.3100.0605338261894100.088.363.343.330.015.06.73.众数某一变量的全部取值中出现次数最多的那个变量值(1)未分组资料(2)单项数列(3)组距数列dLm2110dUm2120下限公式上限公式0m:众数L:众数所在组的下限U:众数所在组的上限d:众数所在组的组距1:众数组的次数与前一组次数之差2:众数组的次数与后一组次数之差算术平均数、中位数和众数三者之间的关系(1)正态分布下,变量值的分布以算术平均数为中心,两边呈对称型。有0mmxe如图所示:(2)变量值中出现特别大或特别小的极端数值时分布曲线在图形上不对称。极端值对众数、中位数和算术平均数的影响是不同的,当三者之间的关系是时,称为正偏分布或右偏分布,如图1;当三者之间的关系是时称为负偏分布或左偏分布,如图2.xmme00mmxe图1图2在适当偏斜下,众数与中位数的距离约为中位数与算数平均数距离的2倍,即eeeemmxmmmmx0022或例。已知某班学生统计学考试成绩的算数平均数为78分,众数是84分,则该班学生统计学成绩的中位数的近似值是:三者之间的关系是,属于左偏分布0mmxe)(8078284312310分xmme1.意义研究变量的次数分布特征出来考察其取值的一般水平的高低外,还需要进一步考察其各个取值的离散程度。它是变量次数分布的另外一个重要特征。对其进行测定在实际研究中十分重要的意义:首先通过对变量取值之间离散程度的测定可以反映各个变量值之间的差异大小,从而也就可以反映分布中心指标对各个变量值代表性的高低。其次,通过对变量取值之间离散程度的测定,可以大致反映变量次数分布密度曲线的形状。1.3离散程度的测度2.常用指标极差、四分位全距、平均差、标准差、方差和变异系数等1.极差极差又称全距,是指一组变量值中最大变量值与最小变量值之差。通常用R表示,记作iixxRminmax(1)未分组资料(2)单项数列:极差=最大一组变量值-最小一组变量值(3)组距数列:极差=最大一组变量值的上限值-最小一组变量值的下限值例1.某班级两组同学英语考试成绩如下:甲组:5565758595乙组:6570758085试计算两组同学考试成绩的极差。成绩分组(分)人数(人)频率36141167.515.035.027.515合计4010050-6060-7070-8080-9090-1005060708090优点:容易计算缺点:容易受极端值的影响2.四分位全距将一组由小到大的变量数列分成四等分,可得到三个分割点,分别称为第一个、第二个、第三个四分位数,与的差值即为四分位全距,记作321,,QQQ3Q1Q13QQIQR注:反映了中间50%数据的离散程度,数值越小说明中间的数据越集中。例:优点:四分位极差不像极差R那样容易受极端值的影响缺点:没有充分地利用数据所有信息例:3.平均差各变量值与其均值之差的绝对值的算术平均数nxxDAnii1.DA.:平均差ix:各变量值x:算术平均数(均值)n:变量值的个数(1)未分组资料:简单平均法例.某班级两组同学英语考试成绩如下:甲组:5565758595乙组:6570758085试计算两组同学考试成绩的平均差。反映数据离开平均数远近的偏离程度。niiniiiffxxDA11.(2)已分组资料:加权平均法if:各变量值所在组的次数5565758595成绩分组(分)人数(人)频率60以下60-7070-8080-9090以上36141167.515.035.027.515合计40100组中值例:某次考试成绩如下所示,试计算其平均差4.方差和标准差方差是各变量值与其均值之差平方的算数平均数,标准差是方差的正的平方根。(1)未分组资料:简单平均法nxxnii122nxxnii12方差标准差例.某班级两组同学英语考试成绩如下:甲组:5565758595乙组:6570758085试计算两组同学考试成绩的方差和标准差。标准差是最常用的反映变量分布离散程度的指标(2)已分组资料:加权平均法5565758595成绩分组(分)人数(人)频率60以下60-7070-8080-9090以上36141167.515.035.027.515合计40100组中值例:某次考试成绩如下所示,试计算其方差和标准差niiniiiffxx1122niiniiiffxx112标准差方差5.变异系数极差、平均差和标准差反映了变量各个取值之间绝对差异程度的指标,这些指标取决于变量值之间的差异程度。并把这些衡量变量值之间绝对差异的指标与算数平均数的比率称为变异系数。(1)极差系数(2)平均差系数(3)标准差系数%100xRVR%100..xDAVDA%100xV变异系数反映的是相对离散程度例:对30名管理人员的调查表明年平均收入=500,000,标准差=50,000。对30名工人的调查表明年平均收入=32.000,标准差=5.000变异系数(标准差系数)管理人员:工人:%10%10050000050000%100xV%6.15%100320005000%100xV结论:管理人员收入的绝对离散程度远远大于工人,但是相对离散程度小于工人1.4偏度与峰度1.变量分布的偏斜程度是指其取值分布的非对称程度2.变量分布的峰度是指其取值分布密度曲线顶部的平坦程度或尖削程度。偏度系数就是对数据分布的不对称性(即偏斜程度)的测定。主要包括直观偏度系数和矩偏度系数1.偏度的测定(1)直观偏度系数皮尔逊偏度系数0mxskp未分组资料变量数列资料原点矩中心距鲍莱偏度系数131003QQQmmQskbnxxmmnxxSmmffxxmmffxxSmm(2)矩偏度系数原点矩:变量所有取值的某次方的算术平均数。其中乘方的次数称为阶数,偶数阶的中心矩非负,一阶中心矩为0.中心矩:变量所有取值与均值之差的某次方的算术平均数矩偏度系数33Sskm对称分布,矩偏度系数为0;正偏分布,该系数为正;负偏分布,该系数为负。1.峰度的测定峰度系数是数据分布峰度的度量值,其计算公式为:44Sku其中,是变量的四阶中心距4S峰度系数,与正态分布相比该分部较为扁平3ku峰度系数,与正态分布相比该分部较为尖峰3ku1.下列说法正确的是()A.四分位全距和极差一样容易受极端变量
本文标题:第一章数据分析基础
链接地址:https://www.777doc.com/doc-2115572 .html