您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > 6西格玛统计学(最新)
1武汉工程职业技术学院-6σ+6σx-x-LSLUSLCp:2.0cpk:1.5培训中心刘美Tel:86804651Mobile:18986013796E_mail:50421330@qq.com统计基础2武汉工程职业技术学院一、基本概念二、描述性统计三、数据的图示方法四、统计量与抽样分布五、数据的收集与整理六、参数估计主要内容3武汉工程职业技术学院一、基本概念(一)基本概念1、统计学(statistics):收集、处理、分析、解释数据并从中得出结论的科学。2、描述统计(descriptivestatistics):研究数据收集、处理和描述的统计学分支。3、推断统计(inferentialstatistics):研究如何用样本数据来推断总体特征的统计学分支。4、总体(population):包含所研究的全部个体(数据)的集合,称为总体。根据所包含的单位数目是否可数可以分为有限总体和无限总体,区分有限总体和无限总体的目的是判别每次抽样是否独立4武汉工程职业技术学院5、样本(sample):从总体中抽取的一部分元素的集合称为样本。6、样本量(samplesize):构成样本的元素的数目称为样本量或样本容量。7、参数(parameter):用来描述总体特征的概括性数字度量称为参数。参数包括均值、标准差、比例等。一般用希腊字母表示。8、统计量(statistics):用来描述样本特征的概括性数字度量称为统计量。通常用英文字母表示。一、基本概念5武汉工程职业技术学院nxxnii1未分组数据二、描述性统计为偶数,为奇数nXXn,XXnnn~12221216武汉工程职业技术学院二、描述性统计例题:13.计算下列数据的中位值:23,33,35,45,55,56,66,78a.50b.45c.55d.40(4)众数、中位数、均值三者之间的关系众数是一组数据分布的峰值,不受极端值的影响,但缺点是有可能不唯一,适合于分类数据的集中趋势测度值;中位数是一组数据中间位置上的代表值,在数据分布偏斜程度较大时适合作为数值型数据集中趋势的测度值;均值利用了数据的全部信息,当数据对称或接近对称时,应选择均值作为集中趋势的代表值。7武汉工程职业技术学院(5)众数、中位数、均值三者之间的关系二、描述性统计3210-1-2-30.40.30.20.10.0X对称分布:均值=中位数=众数201510500.160.140.120.100.080.060.040.020.00X密度分布图卡方,自由度=5右偏分布:均值中位数众数5.02.50.0-2.5-5.0-7.5-10.0-12.50.200.150.100.050.00X密度分布图最小极值,位置=0,尺度=2左偏分布:均值中位数众数8武汉工程职业技术学院例题:一个真正的正态分布,中值,均值和众数之间的关系应该是:a.数值相同b.均值和众数相同,而中值不同c.每一个数值都和其他两个不同d.均值和中值相同,而众数不同二、描述性统计9武汉工程职业技术学院例题:(CAQ07年考试样题)28.下表是一个分组样本则其样本均值X近似为:A.50B.54C.62D.64分组区间(35,45](45,55](55,65](65,75]频数3872二、描述性统计10武汉工程职业技术学院例题:(CAQ07年考试样题)44.一批数据的描述性统计量计算结果显示,均值和中位数都是100。这时,在一般情况下可以得到的结论是:A.此分布为对称分布B.此分布为正态分布C.此分布为均匀分布D.以上各结论都不能肯定二、描述性统计11武汉工程职业技术学院2、描述波动情况(离散程度)的度量(1)样本标准差:样本方差的平方根,量纲与变量值相同。(2)样本方差:各变量与其平均值离差平方和的平均数(3)极差:一组数据的最大值与最小值之差1)(212nxxsnii1)(212nfxMsinii1)(21nxxsnii二、描述性统计12武汉工程职业技术学院2、离散程度的度量(4)四分位间距IRQ=Q3-Q1标准差最常用,对离散状况有较好的代表性,与样本量关系不密切,但缺点是对异常值敏感;极差与样本量关系密切,对异常值敏感,但计算简单;四分位间距与样本量关系不密切,对异常值不敏感,是所有离散状况度量的统计量中最稳健的。二、描述性统计13武汉工程职业技术学院例题:(CAQ07年考试样题)26.容易看到,在一个城市中不同收入者的住房面积相差悬殊,分布一般会呈现出严重的右偏倾向。为了调查S市的住房状况,随机抽取了1000个住户,测量了他们的住房面积。在这种情况下,代表一般住房状况的最有代表性的指标应该是:A.样本平均值(Mean)B.去掉一个最高值,去掉一个最低值,然后求平均C.样本众数(Mode),即样本分布中概率最高者。D.样本中位数(Median)二、描述性统计14武汉工程职业技术学院例题:33.近几年来居民之间收入的差距越来越大,为了解A市B区居民年收入状况,在公安部门户口册的记录中随机抽取了1.2万户居民,记录了他们在2008年的居民年收入数额,下列哪个统计量用于描述该地区居民年收入的差距状况,且受异常值影响最小?A.样本中位数B.样本极差C.样本四分位间距D.样本标准差二、描述性统计15武汉工程职业技术学院3、偏态与峰态的度量(样本数据)(1)偏态系数(偏度):数据分布不对称性的度量值正偏(右偏)偏态系数为正,负偏(左偏)偏态系数为负(2)峰态系数(峰度):对数据分布峰态的度量值。33)()2)(1(sxxnnnbis)3)(2()1(3)()3)(2)(1()1(2144nnnSxXnnnnnbniik二、描述性统计16武汉工程职业技术学院1、三种不同性质的分布(1)总体分布:总体中各元素的观测值所形成的相对频数分布称为总体分布。(2)样本分布:从总体中抽取一个容量为n的样本,由这n个观测值形成的相对频数分布,称为样本分布。(3)抽样分布:某个样本统计量的抽样分布,从理论上说就是在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布。四、统计量与抽样分布17武汉工程职业技术学院2、抽样分布的概念样本1样本2样本n1X新总体n统计量2XnX原总体抽样分布示例三、统计量与抽样分布18武汉工程职业技术学院3、样本均值的抽样分布定义:在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布称为样本均值的抽样分布。X(1)总体服从正态分布时,样本均值服从正态分布,转换为标准正态分布,则:当总体标准差σ已知,样本均值进行标准化转换后,可以得到标准正态分布。),(2N),(2nN)1,0(~/NnXZX三、统计量与抽样分布19武汉工程职业技术学院(2)当总体标准差未知,用样本标准差S代替总体标准差,样本均值的抽样分布服从自由度为n-1的t分布。即:由于总体标准差σ常常是未知的,因此t统计量常被用来进行有关单个正态总体均值和两个正态总体均值之差等问题的参数估计和假设检验。三、统计量与抽样分布20武汉工程职业技术学院三、统计量与抽样分布43210-1-2-3-40.40.30.20.10.0X密度正态01分布均值标准差T8分布自由度分布图21武汉工程职业技术学院4、正态样本方差的S2的分布——卡方分布三、统计量与抽样分布212n221122221222212222222211,,...n(,)11,()1()~()()~(1)()1(1)()~(1)1nniiiiniiniinniiiiXXXNXXSXXnnXnXXnXXnSSXXnn若是从样本量为的正态总体中抽出的一组独立随机样本,记。则当已知时,当未知时,22武汉工程职业技术学院卡方分布的概率密度函数在正半轴上呈正偏分布。90807060504030201000.200.150.100.050.00X密度410153050自由度分布图卡方三、统计量与抽样分布23武汉工程职业技术学院卡方分布的性质:(1)卡方分布的变量值始终为正。(2)卡方分布的形状取决于其自由度n的大小,通常为不对称的右偏分布,但随着自由度的增大逐渐趋于对称。(3)卡方分布的可加性:设X和Y彼此独立,且都服从卡方分布,其自由度分别为n1、n2,若令Z=X+Y,则Z服从自由度n1+n2的卡方分布。(4)若nXVn)X(E),n(~X22)(,则三、统计量与抽样分布24武汉工程职业技术学院5、两个独立的正态样本方差之比的分布——F分布2212122112n2222112221N(,)N(,),...N(,),,...N(,)111()1~(1,1)1()1nniiniiXXXYYYnmFXXSnFFnmSYYm设有两个独立的正态总体和,,是来自的一个样本,是来自的一个样本,两个样本相互独立,两样本方差之比是自由度为和的分布:三、统计量与抽样分布25武汉工程职业技术学院98765432101.21.00.80.60.40.20.0X密度555203053020度1自由度2自由分布图F三、统计量与抽样分布26武汉工程职业技术学院(一)数据类型与测量尺度1、数据的类型分为连续型数据和离散型数据。连续性数据(也叫计量值数据),对测量手段要求较高(测量成本较高),但信息量比较丰富,可以比较敏感地反映过程的变化;离散型数据(也叫计数数据),在反映过程变化方面不如连续型数据敏感,往往需要较大的样本量或较长的测量周期才能得出结论。六西格玛项目在收集数据时,应尽量采用连续型数据。2、测量尺度数据包含多少信息取决于测量所使用的尺度。测量的尺度决定了研究这些数据时应使用什么类型的统计分析方法。选定了相应的测量尺度,便确定了所产生的数据类型,也就确定了在项目实施过程中可使用的统计分析方法。四、数据的收集与整理27武汉工程职业技术学院测量尺度分为四类:定类、定序、定距、定比(1)定类(名义)测量尺度数据是数字形式的名义值。如0=白色,1=非白色。将事物分到唯一的类中,这些类必须是互斥的,而且是完备的。能识别的关系只有“=”和“≠”。(2)定序测量尺度定序变量对可能的取值进行排序。如以“好”、“更好”、“极好”来划分顾客对某种服务的偏好。对定序数据可以进行“计数”和“排序”运算,但不能进行算术平均。四、数据的收集与整理28武汉工程职业技术学院四、数据的收集与整理29武汉工程职业技术学院(二)抽样方法1、简单随机抽样从含有N个元素的总体中,抽取n个元素作为样本,使得总体中的每一个元素都有相同的机会(概率)被抽中,这样的抽样方法称为简单随机抽样。简单随机抽样要满足两个基本条件:等可能性和独立性。常用的随机抽样方法:抽签法、滚球法、计算机模拟、随机数表法四、数据的收集与整理30武汉工程职业技术学院四、数据的收集与整理2、分层抽样在抽样之前先将总体的元素划分为若干层(类),然后从各个层中抽取一定数量的元素组成一个样本,这样的抽样方法称为分层抽样,也称分类抽样。(1)比例分配法。(2)适度分配法。(3)经济分配法。31武汉工程职业技术学院3、系统抽样先将总体各元素按某种顺序排列,并按某种规则确定一个随机起点,然后每隔一定的间隔抽取一个元素,直至抽取n个元素形成一个样本,这样的抽样方法称为系统抽样,也称等距抽样或机械抽样。4、整群抽样先将总体划分成若干群,然后在以群为抽样单位从中抽取部分群,在对抽中的各个群中所包含的所有元素进行观察,这样的抽样方法称为整群抽样。四、数据的收集与整理32武汉工程职业技术学院1、直方图常用于了解数据的分布情况,容易从图形中看出数据的位置状况、离散程度和分布状况。直方图步骤:从n个样本数据中找出最大值和最小值,计算极差;对样本进行分组,决定组数k和组距d。k的取值范围在7-15之间,d由极差R和组数k
本文标题:6西格玛统计学(最新)
链接地址:https://www.777doc.com/doc-5153214 .html