您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 管理统计学:第三章:样本数据特征
第3章样本数据特征的初步分析第3章样本数据特征的初步分析•第3.1节样本数据结构的基本特征:频次与频率•第3.2节观察刻度级样本数据结构的茎叶图与直方图方法•第3.3节样本数据的位置特征:对数据中心的描述•第3.4节样本数据的离散特征•第3.5节样本数据特征的综合表达:箱形图第3.1节样本数据结构的基本特征:频次与频率•一个误区:聚焦于数据值(样本值)及其变化•另一个重要问题:相同值出现的频次、频率。这是数据集合的最基本的结构特征。•本节讨论这一结构特征:频次(Frequency)与频率(Percentage,或RelativeFrequency)•两个紧密相关的不同的概念:•1)样本数据自身(不论什么测度级的数据)•2)同一个数据值(样本值)出现的次数(频次)。•3.1.1频次与频率的基本概念•频次:在一个数据集合中,同一个数据值(样本值)出现的次数。•频率:某样本值的频率=该样本值出现的频次/n(该数据集合的数据总个数)•一个例子(下页)•例3.1.1从某城市抽出来的30个商店中,查出某商品的价格数据:•9.9810.0210.0010.0410.019.9910.0510.0410.0610.01•10.039.999.979.9310.0110.0310.0310.0210.059.99•9.959.969.9810.009.9710.0110.009.999.9810.00•(感觉如何?乱!)•排序:最基本的整理。•9.939.959.969.979.979.989.989.989.999.999.999.9910.0010.0010.0010.0010.0110.0110.0110.0110.0210.0210.0310.0310.0310.0410.0410.0510.0510.06•简单之至?•认为容易的,可以试试手工对300个数据排序•简单:基于软件。•基于排序,能够简单统计频次:•价格(元)9.939.949.959.969.979.989.9910.00•次数:10112344•频率%3.3303.333.336.6710.0013.3313.33•价格(元)10.0110.0210.0310.0410.0510.06•次数:423221•频率%13.336.6710.06.676.673.33•故意增加了“9.94元”这个刻度•排成一行,看清楚了频率结构特征。•今后,统计频次、频率,都由机器完成。•上例是刻度级的数据,下面看一个名义级数据的例子。•例3.1.3抽样调查后,得到客户家具的基色调的数据:•R、Y、R、G、Y、Y、W、Y、G、G、R、Y、Y、R、W•G、Y、R、W、Y、G、G、B、R、Y、Y、W、R、R、W•R、Y、R、G、Y、Y、W、Y、G、G、R、Y、Y、R、W•G、Y、R、W、Y、G、G、B、R、Y、Y、W、R、R、W•其中,R表示暗红色,Y表示淡黄褐色,G表示浅绿色,W表示白色,B表示黑色。•统计出各个颜色出现的频率如下:家具基色BGRWY合计基色频次16851030基色频率3.3320.026.716.733.3100•当然,也可以统计出顺序级数据集合的频次与频率结构。•3.1.2观察样本数据基本特征(频次与频率)的图形方法•1.表示频次与频率的饼图(PieChart)•每个不同的样本值所占据的圆心角的大小由下式计算:•在圆圈中,给每个不同的样本值一个与其频次(或频率)相当的圆心角:•某样本值对应的圆心角=该样本值的频率×360º•家具基色调(名义级数据)•某单位职工文化程度的结构(顺序级数据)•2.表示频次与频率的条形图•图见下页。•非常简单:•1)横坐标:样本数据的不同值。•顺序级以上,横坐标上的样本数据应从小到大排列。若是刻度级的,则在排序中,要注意长度的刻度,保持一致的比例。•2)纵坐标:相应样本值出现的频次或频率。•某商品在30个商店的价格例(注意间距)•某科室职工文化程度例(有顺序,无间距)•家具基色调例(横坐标的色彩无顺序关系)•3.1.3样本数据集合的基本特征的延伸:累积频率(CumulativePercentage)•1.累积频率的概念(简单)•设X1<X2<…<Xm,是样本数据集合中的不重复的样本值(m≤n样本个数)。•若把样本值小于等于某个样本数据Xi的频率值,都累加起来,就得到“小于等于Xi”的累积频率。•2.表格法表示累积频率(以价格问题为例):•价格(元)9.939.949.959.969.979.989.9910.00•次数:10112344•频率%3.3303.333.336.6710.0013.3313.33•累积频率%3.333.336.6710.0016.6726.6740.0053.33•价格(元)10.0110.0210.0310.0410.0510.06•次数:423221•频率%13.336.6710.06.676.673.33•累积频率%66.6773.3383.3390.0096.67100.00•讨论:顺序级数据能够计算累积频率吗?•名义级数据能够计算累积频率吗?•为什么?(答案见教材第72页)•3.累积频率的条形图表示•把条形图的纵坐标改成累积频率即可。•商品价格例:第3.2节观察刻度级样本数据结构的茎叶图与直方图方法•3.2.1茎叶图(Stem-and-LeafPlot)的概念与作法•1.概念•“茎-叶”的含义:按照某规则,把所有的样本值分成“茎节”和“叶”两个部分。表达为:“茎节·叶”的形式。•“茎节”末位上的1所代表的实际值,就是“茎节”的宽度。•例如,可用茎叶法,把123表达为1.23(此时,茎节宽=100)•此时,123(样本值)=1.23(茎叶表达)×100(茎节宽)•问:若茎节宽度为10,如何表达123?•2.例题与茎叶图的作法•例3.2.1某班级男生的身高(厘米)•171182175177178181185168170175177•180176172165160178186190176163183•问:若以100cm为茎节宽?茎节是多少?对吗?•结论:样本数据集合中的“茎节”必须是有变化的•∴茎节宽应为10cm•把所有的数据都表达为“茎节·叶”形式后,把相同茎节的数据合并为“茎节·叶1叶2……”形式(叶,要从小到大排列),再把不同的茎节从小到大纵向排列,就得到茎叶图:•茎叶•16·0,3,5,8•17·0,1,2,5,5,6,6,7,7,8,8•18·0,1,2,3,5,6•19·0•进一步策略(并注明频次)为:•频次茎叶•416·0,3,5,8•1117·0,1,2,5,5,6,6,7,7,8,8•618·0,1,2,3,5,6•119·0•这就是身高数据集合的茎叶图。•问:如果有的茎节右边的叶子太多了,怎么办?•把“茎节”砍短一点。•例如,把每个茎节分成两段(L、H),有•频次茎节•216L·03•216H·58•317L·012•817H·55667788•418L·0123•218H·56•119L·0•“茎节长度”的概念:茎节长度=允许覆盖最大值-允许覆盖最小值+1•上例中的茎节长度为5(cm):0~4,5~9•上例中的L、H可以省略。•事实上,上例的茎节是不必砍短的,•∵叶并不多•注意:茎节砍短时,要注意茎节等长的原则3.2.2直方图(Histogram)的概念与作法•1.条形图的弱点,当刻度级的数据的精度相对高,使得不重复的数据量非常大时,反而让人看不清数据集合的结构。例如,身高问题•看不清分布的规律•如果我们对数据适当分组,再用矩形的高度来表示各组的数据的个数或频率,就有(可看到清楚的分布规律):•这就是直方图。各区间长度是5cm,起点是157.5cm,终点时192.5cm。•2.直方图:适用于大量不重复样本值的数据集合。•在绘制直方图时,如何对数据分组,如何确定区间长度、区间个数?如何确定区间起点?参见教材。•今后软件可自动完成分组和绘图。•需要掌握的是:直方图与条形图的区别,各适用于什么数据特点?•作直方图时,在区间长度确定后,如何确定区间个数?(数据集合中最大值-数据集合中的最小值)/区间长度,其值4舍5入后加1为组的个数。•作直方图时,如何确定最左端区间的中心位置?取出样本数据集合中的最小值;确定备选的起始区间的中心位置;在备选区间的中心位置中,哪个与最小值接近,就确定为数据分组的起始区间。第3节样本数据的位置特征对数据中心的描述•样本数据的测度级别的不同,需要不同的表示“数据集合中心”的概念。•本节将介绍“样本中位数”、“样本众数”和“样本均值”三个重要的描述数据集合中心位置的基本概念。•3.3.1样本众数(Samplemode)•样本众数定义1:样本数据集合中出现频次最高的那个样本值,称为样本众数。在一般情况下,“样本众数”被简称为“众数”。•单一众数:P.67。复众数:P.67。无众数:P.68•从条形图,或者频率表、频次表来判断。•众数定义2:对刻度级的数据,在等区间分组的直方图中,最高的矩形(即峰Peak)所表示的数据区间,称为该数据集合的众数区间,简称众数。如:•众数区间,也有单一众数和复众数之分。•问:众数适用于什么测度?广义与侠义•3.3.2样本中位数(Samplemedian)•样本中位数:•设,样本数据集合中的所有数据的排序结果为X1≤X2≤……≤Xn,n为样本容量。样本中位数,就是上述序列中,处于“正中间位置”上的数据。•两个要素:位与数。•正中间位置“号码”=(n+1)×0.5•例1:17.017.117.217.517.517.617.6•Me=17.5•例2:16.817.017.117.217.5•17.517.617.6•Me=17.35•问:中位数适用于什么测度?•分奇偶个数。•3.3.3样本均值(SampleMean)•样本均值(SampleMean)•样本均值仅适用于刻度级的数据。•样本数据集合的样本均值定义为:•式中,Xi为样本观察值。第3.4节样本数据的离散特征•描述数据集合的离散特征的两种方法:•一、点状描述,如明确样本数据集合中的最小值和最大值等;•二、区间描述(基于差值的描述),如样本数据集合中的最大值与最小值之差。3.4.1对样本数据离散特征的点状描述:极值、四分点与百分位点•1.极大值(Maximum)与极小值(Minimum)•极大值与极小值,从一定视角反映了样本数据集合中样本的离散情况。•问:极大值、极小值适用于什么测度?•另一个位与数的问题:•2.下四分点(Lowerquartile)与上四分点(Upperquartile)•1)上、下四分点的概念•下四分点使由小到大排序后的数据集合的左边部分,包含25%的样本总个数,右边部分包含75%的样本总个数。•上四分点使由小到大排序后的数据集合的左边部分,包含75%的样本总个数,右边部分包含25%的样本总个数。•上、下四分点在一定意义上反映了样本数据的离散情况。•2)上、下四分点(及中位数)的位置•Q1:下四分点,Q3:上四分点,Q2=Me:中位数,n:该数据集合的数据总个数。•下四分点Q1的位置=(n+1)×0.25•正中间Q2的位置=(n+1)×0.5•上四分点Q3的位置=(n+1)×0.75•3)上、下四分点(及中位数)的值•当Q1、Q2、Q3的位置为整数时,相应整数位置上的样本值,就是当Q1、Q2、Q3的值。•当其不为整数时:•Q1=Q2位置左边的样本值+(Q1位置右边的样本值-Q1位置左边的样本值)×Q1位置的小数部分•Q3=Q3位置左边的样本值+(Q3位置右边的样本值-Q3位置左边的样本值)×Q3位置的小数部分•本页公式,可以不讲•3)上、下四分点(及中位数)的值•公式表达之二:•Q1=Q1位置左边的样本值+(Q1位置右边的样本值-Q1位置左边的样本值)×{(n+1)×0.25-[(n+1)×0.25]}•Q3=Q3位置左边的样本值+(Q3位置右边的样本值-Q3位置左边的样本值)×{(n+1)×0.75-[(n+1)×0.75]}•式中,[]是取整函数,例如,[5
本文标题:管理统计学:第三章:样本数据特征
链接地址:https://www.777doc.com/doc-3938878 .html