您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 第二章数据整理及质量管理常用统计方法XXXX新
第二章数据整理及质量管理常用统计方法第一节质量特性及数据整理第二节质量管理常用的统计方法第三节过程能力分析第一节质量特性及数据整理1.过程和过程控制系统1.1过程可以是一个工段、一道工序或一项操作等,它是将人、设备、材料、方法和环境等输入资源,按一定要求组合起来,并转化为中间产品、半成品、零部件等输出的活动。1.2一个过程增加了反馈系统后就称为过程控制系统。反馈系统是指在过程中和过程输出处增加了信息收集,采用一系列统计方法进行信息的加工处理,发现问题,寻找原因,再反馈给过程的输入,并调整输入中的某些资源,以保证过程的正常运行。如图:图2.1过程+反馈系统=过程控制系统统计方法人设备材料方法环境资源的组合中间产品半成品零部件……信息行动信息输入输出二、质量特性值的分布1、质量特性及质量特性值(数据)数据是质量管理活动的基础,一个具体的产品往往需要一系列数据来反映它的质量,如尺寸、重量、强度、成分、功率和外观等。这些数据反映出产品特定性质,称为质量特性。测定质量特性所得的数值叫质量特性值。所以1.1质量特性:是指产品(服务)在某方面的特定性质,用X表示。如一个具体的尺寸、重量、强度、成分、功率和外观等二、质量特性值的分布1、质量特性及质量特性值(数据)数据是质量管理活动的基础,一个具体的产品往往需要一系列数据来反映它的质量,如尺寸、重量、强度、成分、功率和外观等。这些数据反映出产品特定性质,称为质量特性。测定质量特性所得的数值叫质量特性值。所以1.1质量特性:是指产品(服务)在某方面的特定性质,用X表示。如一个具体的尺寸、重量、强度、成分、功率和外观等二、质量特性值的分布1.2质量特性值:是测定质量特性所得的数据,即质量特性的观察值,通常是定量的,并简称为数据。质量管理中数据有两类数据:2、两类数据2.1连续数据(计量数据)计量数据可以在某一区间取任何值,其取值可由某种量具、仪器等测量获得,他们可以在某一区间任意取任何值。如轴的直径、钢的强度等。二、质量特性值的分布2.2离散数据(计数数据或属性数据)计数数据往往只能取非负的整数。如产品不合格的个数,铸件上的气泡数等。2.3不同数据的整理对不同性质的数据有不同的整理方法。2.3.1连续数据的整理对计量数据可以计算样本的最大值、平均值、中位数、方差、标准差等,并用直方图直观的反映计量数据的统计规律性,其分布用概率密度函数表示。见p2—4页。2.3不同数据的整理2.3.2离散数据的整理对记数数据只能列出频数、频率、分布表并画出条形图,因此离散数据用分布列表示。见p4—5页。三、质量管理中的常见分布每个产品的质量特性X取什么值是随机的,但一大批产品的质量特性的取值就会呈现出某种规律性。测量了一定数据的产品后,就会形成一条曲线,这就形成了质量特性X的分布。1、正态分布:记为N(μ,σ2)2、对数正态分布:记为LN(μ,σ2)3、指数分布:记为Exp(λ)以上分布均用于计量数据,其分布图形分别见p5,p7,p8,三、质量管理中的常见分布4、二项分布5、泊松分布6、超几何分布以上分布均用于计数数据,其分布图形分别见p10,p11,p12,§2.3离散变量的分布离散变量只取离散的值,比如骰子的点数、网站点击数、顾客人数等等。每一种取值都有某种概率。各种取值点的概率总和应该是1。当然离散变量不不仅仅限于取非负整数值。一般来说,某离散随机变量的每一个可能取值xi都相应于取该值的概率p(xi),这些概率应该满足关系()1,()0iiipxpx§2.3.1二项分布最简单的离散分布应该是基于可重复的有两结果(比如成功和失败)的相同独立试验(每次试验成功概率相同)的分布,例如抛硬币。比如用p代表得到硬币正面的概率,那么1-p则是得到反面的概率。如果知道p,这个抛硬币的试验的概率分布也就都知道了。§2.3.1二项分布这种有两个可能结果的试验有两个特点:一是各次试验互相独立,二是每次试验得到一种结果的概率不变(这里是得到正面的概率总是p)。类似于抛硬币的仅有两种结果的重复独立试验被称为Bernoulli试验(Bernoullitrials)。§2.3.1二项分布下面试验可看成为Bernoulli试验:每一个进入某商场的顾客是否购买某商品每个被调查者是否认可某种产品每一个新出婴儿的性别。根据这种简单试验的分布,可以得到基于这个试验的更加复杂事件的概率。§2.3.1二项分布为了方便,人们通常称Bernoulli试验的两种结果为“成功”和“失败”。和Bernoulli试验相关的最常见的问题是:如果进行n次Bernoulli试验,每次成功的概率为p,那么成功k次的概率是多少?这个概率的分布就是所谓的二项分布(binomialdistribution)。§2.3.1二项分布这个分布有两个参数,一个是试验次数n,另一个是每次试验成功的概率p。基于此,二项分布用符号B(n,p)或Bin(n,p)表示。由于n和p可以根据实际情况取各种不同的值,因此二项分布是一族分布,族内的分布以这两个参数来区分。§2.3.1二项分布二项分布的概率通常用二项分布表来查出。但一般统计软件可以很容易得到这个概率。在目前统计软件发达的情况下,涉及的二项分布一般都自动处理了;在处理实际问题中很少会遇到直接计算二项分布概率的情况。§2.3.1二项分布但这里还是给出其一般公式。下面p(k)代表在n次Bernoulli试验中成功的次数的概率,p为每次试验成功的概率。有()(1),0,1,...,knknpkppknk这里!!()!nnkknk为二项式系数,或记为knC0.000.200.400.60概率p=0.1p=0.2p=0.3p=0.4p=0.5p=0.6p=0.7p=0.8p=0.90.000.200.400.60概率012345值0.000.200.400.60概率012345值012345值图3.1九个二项分布B(5,p)(p=0.1到0.9)的概率分布图§2.3.3Poisson分布另一个常用离散分布是Poisson分布(翻译成“泊松分布”或“普阿松分布”)。它可以认为是衡量某种事件在一定期间出现的数目的概率。比如说在一定时间内顾客的人数、打入电话总机电话的个数、放射性物质放射出来并到达某区域的粒子数等等。§2.3.3Poisson分布在不同条件下,同样事件在单位时间中出现同等数目的概率不尽相同。比如中午和晚上某商店在10分钟内出现5个顾客的概率就不一定相同。因此,Poisson分布也是一个分布族。族中不同成员的区别在于事件出现数目的均值l不一样。§2.3.3Poisson分布参数为l的Poisson分布变量的概率分布为(p(k)表示Poisson变量等于k的概率)(),0,1,2,...!kPkekkllk20151050概率.3.2.10.0Poisson分布P(10)P(6)P(3)参数为3、6、10的Poisson分布(只标出了20之内的部分)这里点间的连线没有意义,仅仅为读者容易识别而画,因为Poisson变量仅取非负整数值§2.3.4超几何分布假定有一批500个产品,而其中有5个次品。假定该产品的质量检查采取随机抽取20个产品进行检查。如果抽到的20个产品中含有2个或更多不合格产品,则整个500个产品将会被退回。这时,人们想知道,该批产品被退回的概率是多少?这种概率就满足超几何分布(hypergeometricdistribution)。§2.3.4超几何分布这是一种所谓的“不放回抽样”,也就是说,一次抽取若干物品,每检查一个之后并不放回;超几何分布族的成员被三个参数决定,这里相应于产品总个数n,其中不合格产品数目m,不放回抽样的数目t;而样本中有x个不合格产品的概率为(),0,1,...,mnmxtxpxxtnt§2.4连续变量的分布取连续值的变量,如高度、长度、重量、时间、距离等等;它们被称为连续变量(continuousvariable)。换言之,一个随机变量如果能够在一区间(无论这个区间多么小)内取任何值,则该变量称为在此区间内是连续的,其分布称为连续型概率分布。它们的概率分布很难准确地用离散变量概率的条形图表示。§2.4连续变量的分布想象连续变量观测值的直方图;如果其纵坐标为相对频数,那么所有这些矩形条的高度和为1;完全可以重新设置量纲,使得这些矩形条的面积和为1。不断增加观测值及直方图的矩形条的数目,直方图就会越来越像一条光滑曲线,其下面的面积和为1。该曲线即所谓概率密度函数(probabilitydensityfunction,pdf),简称密度函数或密度。下图为这样形成的密度曲线。(1)(2)(3)(4)-2020.00.10.20.30.4逐渐增加矩形条数目的直方图和一个形状类似的密度曲线。§2.4连续变量的分布连续变量落入某个区间的概率就是概率密度函数的曲线在这个区间上所覆盖的面积;因此,理论上,这个概率就是密度函数在这个区间上的积分。对于连续变量,取某个特定值的概率都是零,而只有变量取值于某个(或若干个)区间的概率才可能大于0。连续变量密度函数曲线(这里用f表示)下面覆盖的总面积为1,即()1fxdx§2.4.1正态分布在北京市场上的精制盐很多是一公斤袋装,上面标有“净含量1kg”的字样。但当你用稍微精确一些的天平称那些袋装盐的重量时,会发现有些可能会重些,有些可能会轻些;但都是在1kg左右。多数离1kg不远,离1kg越近就越可能出现,离1kg越远就越不可能。一般认为这种重量分布近似地服从最常用的正态分布(normaldistribution,又叫高斯分布,Gaussiandistribution)。§2.4.1正态分布近似地服从正态分布的变量很常见,象测量误差、商品的重量或尺寸、某年龄人群的身高和体重等等。在一定条件下,许多不是正态分布的样本均值在样本量很大时,也可用正态分布来近似。§2.4.1正态分布正态分布的密度曲线是一个对称的钟型曲线(最高点在均值处)。正态分布也是一族分布,各种正态分布根据它们的均值和标准差不同而有区别。一个正态分布用N(m,s)表示;其中m为均值,而s为标准差。也常用N(m,s2)来表示,这里s2为方差(标准差的平方)。§2.4.1正态分布标准差为1的正态分布N(0,1)称为标准正态分布(standardnormaldistribution)。标准正态分布的密度函数用f(x)表示。任何具有正态分布N(m,s)的随机变量X都可以用简单的变换(减去其均值m,再除以标准差s):Z=(X-m)/s,而成为标准正态随机变量。这种变换和标准得分的意义类似。-4-20240.00.20.40.60.8N(0,1)N(-2,0.5)两条正态分布的密度曲线。左边是N(-2,0.5)分布,右边是N(0,1)分布§2.4.1正态分布当然,和所有连续变量一样,正态变量落在某个区间的概率就等于在这个区间上,密度曲线下面的面积。比如,标准正态分布变量落在区间(0.51,1.57)中的概率,就是在标准正态密度曲线下面在0.51和1.57之间的面积。很容易得到这个面积等于0.24682;也就是说,标准正态变量在区间(0.51,1.57)中的概率等于0.24682。如果密度函数为f(x),那么这个面积为积分1.570.51()0.24682xdxf-4-3-2-10123400.050.10.150.20.250.30.350.4ProbabilityBetweenLimitsis0.24682DensityCriticalValue标准正态变量在区间(0.51,1.57)中的概率§2.4.1正态分布我们有必要引进总体的下侧分位数、上侧分位数以及相应的尾概率的概念。对于连续型随机变量X,a下侧分位数(又称为a分位数,a-quantile
本文标题:第二章数据整理及质量管理常用统计方法XXXX新
链接地址:https://www.777doc.com/doc-442157 .html