您好,欢迎访问三七文档
14数据处理4.1个体、总体和样本1)个体构成总体或样本的基本单位叫个体。这里的基本单位可以是一件物品,如一筒POY丝,一条编织袋,一个机器零件;也可以是一定量的物质,如200ml航空煤油,100g催化剂;个体还可以泛指观测值,如一组观测值为x1,x2,x3,…,xn,则任意一个观测值xi就是一个个体。2)总体所要研究或考虑的个体的全体,称做总体。总体也称为母体,习惯上总体用大写英文字母来表示。例如,考察某厂92年3月25日包装出的全部袋装尿素时,这天的全部袋装尿素便是我们所考察问题的总体。一个班次某天生产的全部柴油;一次到货的某型低温度换催化剂;拉丝工序生产的全部变形丝等。总体中所含的个体数目或单位量数目称为总体容量或总体的大小。如40000袋化肥,30000m³原油,1000t催化剂。总体按照容量来分可分为有限总体和无限总体。有限总体指总体中所含的个体数目是有限的。如上面所列举的总体的例中,前三个总体都可认为是有限总体。无限总体指总体中所含的个体数目无限多。如所举例中的第四个总体。一般对某流水线上产品做定时定量、不断抽样检测时,可视该流水线上的产品为无限总体;长期开工的某道工序上的全部半成品也可视为无限总体。在实际应用中,无特别要求时,无需专门去区分两种总体。23)样本从总体中抽取的一部分个体,组成总体的一个样本。样本也称子样。构成样本的个体称为样品。例如,从3月25日生产的袋装尿素中随机抽取100袋,则这100袋尿素就构成第一个总体的一个样本。被抽到的每袋尿素都称为样品。又如,从馏出口取得8个200rnl的柴油样,可构成第二个总体的一个样本,每次取得的200ml的柴油,为一个样品。样本的大小等于样本中所包含的抽样单位数目,也称为样本容量。习惯上,样本容量用字母n表示。如刚提到的这两个样本,第一个样本的容量为100、第二个样本容量为8。4)样本、总体及数据的关系我们研究的对象是一个事物的整体。如一批产品、一项工程、一条完整的作业生产线等。从它们之中取得数据的目的是为了衡量整体的质量是否合乎规格的要求,但实际上,对总体完全地、一个不漏地进行测试以取得数据、是不现实的。一般采取从总体中抽取一定量(或一定比例)的个体,构成样本,并作为总体的代表接受检验。样本取自总体,样本能否真正地反映。单体、代表总体,很大程度上取决于取样方法。样本和总体的特征完全一致的情形,是极为少见的,但只要取样方法适当,样本容量适宜,样本则可能较好地反映出总体的特征。为了使样本尽可能准确地反映总体特征,一般采取随机抽样方式,即不加任何主观意愿的去抽取样本,使总体中每一个个体被取中的可能性是一样的。当我们从有限总体中随机抽取一定容量的样本之后,要通过测试得到样本中每一个样品的测定值,这就是数据,然后通过对数据的整理分析,得到样本3的特征,再以样本的特征去推断总体的特征。这种有限总体、样本与数据之间的关系,可用下面的框图(见图—1)来表示。图—1有限总体、样本与数据的关系为了对生产过程中某道工序进行预防性控制和管理,我们常以该工序为无限总体,在它生产加工过程或已加工出还未进入下道工序的产品中,经常或定期地抽取样本,进行测试分析,以判断工序状态,这种无限总体、样本与数据间的关系,可用下面框图(见图—2)来表示。总之一总体与样本、数据之间的关系可用图—3框图来表示。图-2无限总体、样本和数据的关系图—3总体、样本和数据的关系4.2平均数、标准差和方差在实际使用中,样本平均数x与样本标准差s是两个最常用的特征数。上面已说过,前者属于位置特征数,而后者则是离散特征数。4.2.1平均数¯x设有容量为n的样本:x1,x2,x3,…,xn4所谓样本的平均数x就是:x=1/n(x1+x2+x3+…+xn)或者x=1/n∑xi(i=1,2,3,…,n)1)从频数表求平均数前面说过,无论对哪一种变量,样本数据往往被整理成频数频率分布表。那么从已整理好的频数表又怎样去求平均数呢?设频数表如下:2)加权平均数54.2.2标准差和方差1)标准差s2)方差s²当从频率分布表出发时,样本方差和样本标准差的定义是:4.2.3标准差和方差的数学意义很明显,方差s²也是一组数的均值——它是各xi与¯x的偏差之平方(x1-6x)²,(x2-x)²,…,(xn-x)²这n个数的均值,是平均的平方偏差,因此称它为方差。标准差s是方差s²的算术平方根,它与x1,x2,x3,…,xn。有相同的度量单位。容易看出,s²越大,这组数据就越“分散”,或者说,这组数据的变异性(即互相不同的程度)就越大;s²越小,这组数据的变异性就越小,也就更“集中”。当s²=2时,x1=x2=x3=…=xn=x,就没有变异。因此,对一组数据x1,x2,x3,…,xn作分析时,x与s(或s²)是最常用的两个量:一个是代表性的值(指¯x);一个是描述数据的变异性的值(指s或s²)。4.3数据的列表整理法4.3.1列表整理概述收集的数据是零乱无章的,很难直接应用,通常须经过整理才能进行分析研究。数据整理的具体方法有多种多样,归纳起来,无外乎三种类型:一是将数据重新排列、组合,整理成某种表格形式;二是整理成某种图形的形式;三是通过不太复杂的数学运算、计算一些特征值。整理,不仅使得零乱的数据化为醒目的形式,还常能反映出总体的某些分布特征,为分析研究提供重要的信息资料。数据的整理既重要,又繁琐。这一章里,我们介绍几种质量管理中经常用到的、也是最基本的列表整理方法。4.3.2顺序及权数整理顺序整理与权数整理是最简单的数据整理方法、它们往往是数据进一步整理的基础。1)顺序整理顺序整理指将原始数据按从小到大或从大到小的顺序重新排列。数据经顺7序整理后,数据中的最大、最小值,一目了然。例如,下面表4—1中数据,按从小到大的顺序整理为表4—2的形式,即表4—2为原始数据的顺序整理表。2)权数整理权数整理是将原数据依从小到大的顺序排列,相同的数据只记一次,并以“权数”来表示该数据出现的频率,整理成权数表形式(见表4—3)。一般,权数整理后的第i个数据记为xi,xi的权数记为pi。权数越大的数据,其出现的频率越大,这个数据对全局的影响也越大。形象地说,它的“权”也越大。权数最大的数据也被称为众数。下面看一个权数整理的例子。例4—1试对表4-1的数据做权数整理,并指出众数。解:数据总个数:n=10。合并相同的数据后,共有7个不同数据,列权数整理表为:84.3.2数据的分层法分层法也叫分类或分组法。分层法是一种把收集来的数据,按照一定的标志进行分类的方法。一个数据的形成受多方面的原因所影响,把诸多性质不同的原因而影响形成的数据搅在一起,很难理出头绪米。而如果按照适当的标志将数据加以分类,如按照来源、影响因素、方法、材料等特性指标来分类,会使数据较分类前更清晰、更准确地反映数据所代表的客观事实,便于我们看出问题的主线。分层法的基本原则是将性质相同的数据归在一起,这里所说的性质也就是分层的标志,恰当地选择标志,才可能实现分层的目标,标志选择不适当,分层后可能没有任何实际指导意义。当然,并不是所有问题的所有数据都必须经过分层整理,分层的方式也没有什么统一的格式或规定,只要能够根据以往的经验,结合本专业的技术知识,恰当地选择分层标志,达到能从分层后的数据中看出问题或找出主要原因的目的就行。比如,可以结合实际问题,选择以下的某种标志进行分类:1)按操作人员分:如按照工龄、男工与女工、操作工等级进行分类。2)按使用的设备分:如按不同的装置、流水线、不同的机床型号等分类。3)按原材料分:如按不同产地的原材料、不同贮存方法或不同保存时间的原料等进行分类。94)按工艺条件分:如按不同配料比、加剂时间、不同的温度等分类。5)按不同的时间分:如按不同的班次、不同的日期等分类。6)按不同的检测手段分:如按不同的检测仪器,不同的化验室,不同的检测方法等分类。还可以按照其他的各种标志来分类、这里不再一一列举,下面我们来看两个分层的例题。例4—2某QC小组针对本车问产品的某含量时常偏高问题,从不合格品中随机抽取了70个样品。欲通过分类找出产生不合格品的主要原因。1)当小组成员对不合格品的样本,按照生产的4个班次分类时,得到的结果见表4—4。从这个分类统计表中看不出什么条理、头绪来,即选择时间为分层标志,使这次分层没有明显的指导意义。故他们考虑重选分层标志。2)按照导致含量偏高的原因进行分类,结果见表4—5。10从影响因素来分类、我们看到导致产品某含量过高的主要原因是塔顶温度偏高。这样,在解决质量问题过程中抓住了主要矛盾。例4—3某厂将一个月的所有质量差错按工人级别与性别两个标志进行分类,其结果见表4—6,从这个分类表能说明什么?解:从表中可看出男工差错率占总数的64%,学徒工差错率占总数的65%,而进一步计算,可得出结论:男性学徒工的差错率占男工差错总数的73%,因此,男学徒工是造成本月质量差错的主要原因。分层法还可与其他的数据整理方法联合使用,如分层排列图、分层直方图、分层管理图、分层散布图等。只有掌握好各种基本方法的原理,融会贯通,才能将它们联合使用,运用自如,发挥出更好的作用。4.3.4频数整理频数)即出现的次数。频数整理是将零乱分散的数据,分成几个数据区域,通过各区域里数据出现的次数,即频数,来反映原始数据的分布规律。频数整理可以先通过顺序整理,也可以直接进行。频数整理的一般步骤有:1)找出最大值和最小值分别记最大值与最小值为xmax及xmin。可先在原始数据表中找出各行的最大(最小)值,然后再从各行的最大(最小)值中确定全体数据的最大(最小)值。112)确定测定值的最小测量单位。例如,表4—1中的数据,最小测量单位为0.01;表4—7中的数据,最小测量单位为0.2。3)确定组数组数即数据分组的个数。组数太少;信息损失大,引起的计算误差也较大;组数太多,主信息受到干扰,失去频数整理的意义。因此,分组数k应根据数据总数n的大小适当选定。一般分组数k的确定,可参照表4—8来进行。表4-8分组数参考表数据个数(n)分组数(k)50—1006—10100-2507-12250以上10—204)确定组距组距即每组的跨度,也即每组的上界限值减去该组的下界限值。一般地,质量数据频数整理采取等距分组方式,且组距h由下式决定:h=极差/组数=(xmax-xmin)/k为了使分组简单方便,通常还需对上式求出的组距h放大至测量单位的整倍数。但注意不要减小。如当最小测量单位为0.01,求得的组距h为0.008时,可将h放大(圆整)为0.01,它恰恰等于测量单位。当求得的组距h为0.028时,可将它放大至0.03,它是测量单位的3倍。125)确定各组界限值第一组的下限值等于数据的最小值减去最小测量单位的一半,即:第一组下限值=xmin-最小测量单位×1/2以后的各组界限值分别等于它前面的一界限值再加上组距h,也即:第m组的上限值=第m组的下限值+h=第一组下限值+mh=xmin+mh-最小测量单位×1/26)做频数表频数表也叫频数分布表。一般地频数分布表,表头可依次安排:组限、组中值、频数计数、频数f、频率f/n,累积频率F等。这些项目属于基础统计项目,可以直接用于做直方图。另外,频数表可增设一些项目,这些项目用于一些特征值的简化计算。(1)组中值组中值是组界值的平均,第i组的组中值用x表示,则x=(第i组下限值+第i组上限值)/2(2)频数第i组的频数指落在第i组界限值域内的数据个数,一般用fi表示。(3)频率第i组的频率为第i组的频数与数据总个数之比,可用f/n表示。(4)累积频率第i组累积频率等于第i组频率与第i组以前各组频率之和,一般用Fi表示。Fi=1/n∑fk(k=1,2,3,···,i)显然,最后一组的累计频率应该等于1。13下面我们举例介绍频数整理:例4-4某厂QC小组随机抽取一个月的石油苯冰点数据100个(见表4—9),试对这批数据进行频数整理。解:(1)找出最大值与最小值全体数据的最大值为5.46,最小值为5.40,记:xmax=5.46xmin=5.40(2)测定值
本文标题:数据的处理
链接地址:https://www.777doc.com/doc-2429015 .html