您好,欢迎访问三七文档
数理统计上海财经大学统计与管理学院Contents§2.1总体与样本§2.2样本数据的整理与显示§2.3统计量§2.4抽样分布第二章样本与抽样分布在概率论中,我们所研究的随机变量,它的分布都是假设已知的,在这一前提下去研究它的性质、特点和规律性。但是,在数理统计中,我们研究的随机变量,它的分布是未知的,或者是不完全知道的,人们是通过对所研究的随机变量进行重复独立的观察,得到许多观察值,对这些观察值进行分析,从而对所研究的随机变量的分布作出种种推断。例2.1某公司要采购一批产品,每件产品不是合格品就是不合格品,但该批产品总有一个不合格品率𝑝。由此,若从该批产品中随机抽取一件,用𝑋表示这一批产品的不合格数,不难看出𝑋服从一个二点分布b(1,p),但分布中的参数𝑝是不知道的。一些问题:p的大小如何;p大概落在什么范围内;能否认为p满足设定要求(如p0.05)。数理统计是一门研究如何有效地收集、整理数据资料;如何对所得的数据资料进行分析、研究;从而对所研究的对象的性质、特点进行推断。总体样本抽样调查总体参数统计量参数估计假设检验§2.1总体与样本2.1.1总体与个体总体的三层含义:研究对象的全体;数据;分布。个体:总体中每一个可能的观测值称为个体。总体的容量:总体中所包含的个体的个数。2.1.1总体与个体例2.2磁带的一个质量指标是一卷磁带(20m)上的伤痕数。每卷磁带都有一个伤痕数,全部磁带的伤痕数构成一个总体。这个总体中相当一部分是0(无伤痕,合格品),但也有1,2,3等,但多于8个的伤痕数非常少见。研究表明,一卷磁带上的伤痕数𝑋服从泊松分布𝑃(𝜆),但分布中的参数𝜆却是不知道的。显然,𝜆的大小决定了一批产品的质量,它直接影响生产方的经济效益。本例中总体分布的类型是明确的,是泊松分布,但总体还有未知参数𝜆,故总体还不是一个特定的泊松分布。要最终确定总体分布,就要确定𝜆。2.1.2样本为了对总体分布进行推断,从总体中抽取部分个体,称为总体的一个样本。从总体中抽取一个个体,就是对总体𝑋进行一次观察并记录其结果。我们在相同条件下对总体进行𝑛次重复的、独立的观察。并将𝑛次观察结果按照实验的次序记为𝑋1,𝑋2,⋯,𝑋𝑛,形成一个样本。2.1.2样本样本具有两重性(抽样前:随机变量;抽样后:观测值)一方面,由于样本是从总体中随机抽取的,抽取前无法预知它们的数值,因此,样本是随机变量,用大写字母𝑋1,𝑋2,…,𝑋𝑛表示;另一方面,样本在抽取以后经观测就有确定的观测值,称为样本值。此时用小写字母𝑥1,𝑥2,…,𝑥𝑛表示是恰当的。样本量(样本的容量):样本所包含的观测值个数2.1.2样本例2.3啤酒厂生产的瓶装啤酒规定净含量为640克。由于随机性,事实上不可能使得所有的啤酒净含量均为640克。现从某厂生产的啤酒中随机抽取10瓶测定其净含量,得到如下结果:641,635,640,637,642,638,645,643,639,640这是一个容量为10的样本的观测值,对应的总体为该厂生产的瓶装啤酒的净含量。2.1.2样本例2.4考察某厂生产的某种电子元件的寿命,选了100只进行寿命试验,得到如下数据:上表中的样本观测值没有具体的数值,只有一个范围,这样的样本称为分组样本。寿命范围元件数寿命范围元件数寿命范围元件数(024]4(192216]6(384408]4(2448]8(216240]3(408432]4(4872]6(240264]3(432456]1(7296]5(264288]5(456480]2(96120]3(288312]5(480504]2(120144]4(312336]3(504528]3(144168]5(336360]5(528552]1(168192]4(360184]1552132.1.2样本样本的要求:简单随机样本要使得推断可靠,对样本就有要求,使样本能很好地代表总体。通常有如下两个要求:随机性:总体中每一个个体都有同等机会被选入样本--𝑋𝑖与总体𝑋有相同的分布。独立性:样本中每一样品的取值不影响其它样品的取值--𝑋1,𝑋2,…,𝑋𝑛相互独立。2.1.2样本用简单随机抽样方法得到的样本称为简单随机样本,也简称样本。于是,样本𝑋1,𝑋2,…,𝑋𝑛可以看成是独立同分布(𝑖𝑖𝑑)的随机变量,其共同分布即为总体分布。设总体𝑋具有分布函数𝐹(𝑥),𝑋1,𝑋2,…,𝑋𝑛为取自该总体的容量为𝑛的样本,则样本联合分布函数为𝐹𝑥1,…,𝑥𝑛=𝐹(𝑥𝑖).𝑛𝑖=12.1.2样本总体分为有限总体与无限总体。抽样分为放回抽样和不放回抽样。实际中总体中的个体数大多是有限的。当个体数充分大时,将有限总体看作无限总体是一种合理的抽象。2.1.2样本对无限总体,无论是放回还是不放回抽样,随机性与独立性容易实现,困难在于排除有意或无意的人为干扰。对有限总体,放回抽样容易得到简单随机样本。在不放回抽样中,只要总体所含个体数很大,特别是与样本量相比很大,则独立性也可基本得到满足。2.1.2样本例2.5设有一批产品共𝑁个,需要进行抽样检验以了解其不合格品率𝑝。如果把合格品记为0,不合格品记为1,则总体为一个二点分布。现从中采取不放回抽样抽出2个产品,这时,第二次抽到不合格品的概率依赖于第一次抽到的是否是不合格品,如果第一次抽到不合格品,则𝑃𝑋2=1𝑋1=1=(𝑁𝑝−1)/(𝑁−1)而若第一次抽到的是合格品,则第二次抽到不合格品的概率为𝑃𝑋2=1𝑋1=0=(𝑁𝑝)/(𝑁−1)2.1.2样本显然,如此得到的样本不是简单随机样本。但是,当𝑁很大时,我们可以看到上述两种情形的概率都近似等于𝑝。所以当N很大,而𝑛不大(一个经验法则是𝑛/𝑁0.1)时可以把该样本近似地看成简单随机样本。思考:若总体的密度函数为𝑓(𝑥),则其样本的(联合)概率密度是什么?解答:样本的(联合)概率密度函数为:𝑓𝑥1,…,𝑥𝑛=𝑓(𝑥𝑖).𝑛𝑖=1思考题2.1某市要调查成年男子的吸烟率,特聘请50名统计专业本科生作街头随机调查,要求每位学生调查100名成年男子,问该调查的总体和样本分别是什么?总体用什么分布描述为宜?2.1.2样本§2.2样本数据的整理与显示2.2.1经验分布函数设𝑋1,𝑋2,…,𝑋𝑛是取自总体分布函数为𝐹(𝑥)的样本,若将样本观测值由小到大进行排列,为𝑥(1),𝑥(2),…,𝑥(𝑛),则𝑥(1),𝑥(2),…,𝑥(𝑛)为有序样本,用有序样本定义如下函数:𝐹𝑛(𝑥)=0𝑥𝑥(1)𝑘𝑛𝑥(𝑘)≤𝑥𝑥𝑘+1,𝑘=1,…,𝑛−1.1𝑥(𝑛)≤𝑥则𝐹𝑛(𝑥)是一非减右连续函数,且满足𝐹𝑛(−∞)=0和𝐹𝑛(+∞)=1由此可见,𝐹𝑛(𝑥)是一个分布函数,并称𝐹𝑛(𝑥)为经验分布函数。2.2.1经验分布函数例2.6某食品厂生产听装饮料,现从生产线上随机抽取5听饮料,称得其净重(单位:克)351347355344351这是一个容量为5的样本,经排序可得有序样本:x(1)=344,x(2)=347,x(3)=x(4)=351,x(5)=3552.2.1经验分布函数其经验分布函数为𝐹𝑛(𝑥)=0,𝑥3440.2,344≤𝑥3470.4,347≤𝑥3510.8,351≤𝑥3551,355≤𝑥3403453503550.00.20.40.60.81.0听装饮料净重的经验分布函数净重(克)Fn(x)2.2.1经验分布函数例2.7我国自1984年23届洛杉矶奥运会以来历届奥运会的金牌数如表所示:这是一个容量为7的样本,经排序可得有序样本:2.2.1经验分布函数x(1)=5,x(2)=15,x(3)=x(4)=16,x(5)=28,x(6)=32,x(7)=51则金牌数的经验分布函数为:𝐹𝑛𝑥=0𝑥5175≤𝑥152715≤𝑥164716≤𝑥285728≤𝑥326732≤𝑥511𝑥≥512.2.1经验分布函数定理2.1(格里纹科定理)设𝑋1,𝑋2,…,𝑋𝑛是取自总体分布函数为𝐹(𝑥)的样本,𝐹𝑛(𝑥)是其经验分布函数,当𝑛→∞时,有𝑃𝑠𝑢𝑝𝐹𝑛𝑥−𝐹𝑥→0=1格里纹科定理表明:当n相当大时,经验分布函数是总体分布函数𝐹(𝑥)的一个良好的近似。经典的统计学中一切统计推断都以样本为依据,其理由就在于此。2.2.1经验分布函数思考题2.2以下是某工厂通过抽样调查得到的10名工人一周内生产的产品数149156160138149153153169156156试由这批数据构造经验分布函数。2.2.2频数频率表样本数据的整理是统计研究的基础,整理数据的最常用方法之一是给出其频数分布表或频率分布表。例2.8为研究某厂工人生产某种产品的能力,我们随机调查了20位工人某天生产的该种产品的数量,数据如下1601961641481701751781661811621611681661621721561701571621542.2.2频数频率表对这20个数据(样本)进行整理,具体步骤如下:(1)对样本进行分组:作为一般性的原则,组数通常在5~20个,对容量较小的样本,通常分5组或6组;(2)确定每组组距:近似公式为组距d=(最大观测值最小观测值)/组数;(3)确定每组组限:各组区间端点为𝑎0,𝑎1=𝑎0+𝑑,𝑎2=𝑎0+2𝑑,…,𝑎𝑘=𝑎0+𝑘𝑑,形成如下的分组区间𝑎0,𝑎1,𝑎1,𝑎2,…,𝑎𝑘−1,𝑎𝑘其中a0略小于最小观测值,𝑎𝑘略大于最大观测值.(4)统计样本数据落入每个区间的个数——频数,并列出其频数频率分布表。2.2.2频数频率表例2.11的频数频率表组序分组区间组中值频数频率累计频率(%)1(147,157]15240.2202(157,167]16280.4603(167,177]17250.25854(177,187]18220.1955(187,197]19210.05100合计2012.2.3样本数据的图形显示一、直方图直方图是频数分布的图形表示,它的横坐标表示所关心变量的取值区间,纵坐标有三种表示方法:频数,频率,最准确的是频率/组距,它可使得诸长条矩形面积和为1。凡此三种直方图的差别仅在于纵轴刻度的选择,直方图本身并无变化。2.2.3样本数据的图形显示例2.91978-2012年我国的人口出生率如下表所示,年份出生率(‰)年份出生率(‰)年份出生率(‰)年份出生率(‰)201212.1200312.41199417.7198521.04201111.93200212.86199318.09198419.9201011.9200113.38199218.24198320.19200911.95200014.03199119.68198222.28200812.14199914.64199021.06198120.91200712.1199815.64198921.58198018.21200612.09199716.57198822.37197917.82200512.4199616.98198723.33197818.25200412.29199517.12198622.432.2.3样本数据的图形显示则1978-2012年我国的人口出生率的频数频率表序数分组区间组中值频数频率累计频率频率/组距1(11.5,13.5]12.5120.3428570.3428570.1714292(13.5,15.5]14.520.0571430.40.0285713(15.5,17.5]16.540.1142860.5142860.0571434(17.5,19.5]18.560.1714290.6857140.
本文标题:第二章抽样分布
链接地址:https://www.777doc.com/doc-419779 .html