您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 第三部分-常用数据分析方法
Page1SAQM上海质量管理科学研究院(SAQM)版权所有第三部分常用数据分析方法Page2SAQM上海质量管理科学研究院(SAQM)版权所有3.1什么是统计学3.2统计学的分类3.3统计数据的类型3.4统计中的一些基本概念3.5描述性分析3.6图形化分析学习目标Page3SAQM上海质量管理科学研究院(SAQM)版权所有3.1什么是统计学?(statistics)统计学是一种收集、处理、分析、解释数据并从数据中得出结论的科学。1.收集数据:取得数据2.处理数据:图表展示3.分析数据:利用统计方法分析数据4.解释数据:结果的说明5.得到结论:从数据分析中得出客观结论Page4SAQM上海质量管理科学研究院(SAQM)版权所有统计研究的过程收集数据(取得数据)解释数据(结果说明)分析数据(研究数据)实际问题处理数据(整理数据)Page5SAQM上海质量管理科学研究院(SAQM)版权所有统计规律正常条件下新生婴儿的性别比为107:100投掷一枚均匀的硬币,出现正面和反面的频率各为1/2;投掷一枚骰子出现1~6点的频率各为1/6农作物的产量与施肥量之间存在相关关系Page6SAQM上海质量管理科学研究院(SAQM)版权所有统计方法描述统计推断统计参数估计假设检验3.2统计学的分类利用统计方法分析数据Page7SAQM上海质量管理科学研究院(SAQM)版权所有3.2.1描述统计(descriptivestatistics)1.研究数据收集、整理和描述的统计学分支2.内容–收集数据–整理数据–展示数据–描述性分析3.目的–描述数据特征–找出数据的基本规律Page8SAQM上海质量管理科学研究院(SAQM)版权所有1.研究如何利用样本数据来推断总体特征的统计学分支2.内容参数估计假设检验3.目的对总体特征作出推断3.2.2推断统计(inferentialstatistics)Page9SAQM上海质量管理科学研究院(SAQM)版权所有3.3统计数据的类型3.3.1什么是统计数据?(data)1.对现象进行计量的结果2.不是指单个的数字,而是由多个数据构成的数据集3.不仅仅是指数字,它可以是数字的,也可以是文字的Page10SAQM上海质量管理科学研究院(SAQM)版权所有统计数据的分类统计数据的分类按计量尺度按计量尺度分类的数据顺序的数据数值型数据按时间状况按时间状况截面的数据时序的数据按收集方法观察的数据试验的数据3.3.2统计数据分类Page11SAQM上海质量管理科学研究院(SAQM)版权所有统计数据的分类(按计量尺度分)1.分类数据(categoricaldata)只能归于某一类别的非数字型数据对事物进行分类的结果,数据表现为类别,用文字来表述例如,人口按性别分为男、女两类;企业按属性分类。2.顺序数据(rankdata)只能归于某一有序类别的非数字型数据虽然也是类别,但这些数据是有序的。数据表现为类别,用文字来表述例如,产品分为一等品、二等品、三等品、次品等;成绩分为优、良、中、差。3.数值型数据(metricdata)按数字尺度测量的观察值结果表现为具体的数值,对事物的精确测度例如:身高为175cm、168cm、183cmPage12SAQM上海质量管理科学研究院(SAQM)版权所有统计数据的分类(按收集方法分)1.观测的数据(observationaldata)通过调查或观测而收集到的数据在没有对事物人为控制的条件下而得到的有关社会经济现象的统计数据几乎都是观测数据2.试验的数据(experimentaldata)在试验中控制试验对象而收集到的数据比如,对一种新药疗效的试验,对一种新的农作物品种的试验等自然科学领域的数据大多数都为试验数据Page13SAQM上海质量管理科学研究院(SAQM)版权所有可以分为计数型数据、计量型数据计量型数据可以取给定范围内的任何一个可能的数值,又称之为连续型数据。计量型数据是可以连续取值的数据,属于连续型变量。比如:各种计量工具测量的数据:长度、重量、时间、温度等。统计数据的分类(按连续性分)Page14SAQM上海质量管理科学研究院(SAQM)版权所有计数型数据只能取一组特定的数值,而不能取这些数值之间的数值,又称之为离散型数据。计数型数据是只能按0,1,2,……数列取值计数的数据(非负整数),属于离散型变量。它一般由计数(数数)得到。计数值可进一步区分为计件值和计点值。对产品进行按件检查时所产生的属性(如统计合格与不合格的产品件数)数据称为计件值。每件产品中质量缺陷的个数称为计点值。如棉布上的疵点数、铸件上的砂眼数等。比如:产品的缺陷率、缺陷的次数、气孔的个数、客户投诉次数。统计数据的分类(按连续性分)Page15SAQM上海质量管理科学研究院(SAQM)版权所有3.4.1总体和样本1.总体(population)–所研究的全部个体(数据)的集合,其中的每一个元素也称为个体–分为有限总体和无限总体有限总体的范围能够明确确定,且元素的数目是有限的无限总体所包括的元素是无限的,不可数的2.样本(sample)–从总体中抽取的一部分元素的集合–构成样本的元素的数目称为样本容量或样本量(samplesize)3.4统计中的一些基本概念Page16SAQM上海质量管理科学研究院(SAQM)版权所有样本是总体的代表与反映。但在抽取样本之后,我们并不立即利用样本进行推断,而需对样本进行一番“加工”和“提炼”—对样本资料的数量特征及其分布规律进行描述。常用的统计量有:众数、中位数、算术平均数、极差、四分位差、标准差、方差等。离散型随机变量常见的概率分布:二项分布、泊松分布等。连续型随机变量最常见的是正态分布,正态分布是概率统计中最重要的分布。Page17SAQM上海质量管理科学研究院(SAQM)版权所有某食品厂用自动装罐机生产净重为345克的午餐肉罐头。由于生产中众多因素的干扰,每只罐头净重都有差别,现从生产线上随机抽10个罐头,称其净重,得:344336345342340338344348344346总体:生产线上罐头净重;样本:以上10个罐头就是容量为10的一个样本。某型号的20辆汽车纪录了各自每加仑汽油行驶的里程数(单位:千米)如下:29.827.628.328.727.930.129.928.028.727.928.529.527.226.928.427.928.030.029.629.1总体:该型号汽车每加仑汽油行驶里程;样本:以上20辆汽车的每加仑汽油行驶里程,它的样本量是20。案例Page18SAQM上海质量管理科学研究院(SAQM)版权所有1.参数(parameter)描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值所关心的参数主要有总体均值()、标准差()、总体比例(p)等总体参数通常用希腊字母表示2.统计量(statistic)用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(^p)等样本统计量通常用小写英文字母来表示3.4.2参数和统计量Page19SAQM上海质量管理科学研究院(SAQM)版权所有平均数标准差比例参数p统计量xs总体样本pˆPage20SAQM上海质量管理科学研究院(SAQM)版权所有1.说明现象某种特征的概念,其特点是从一次观察到下一次观察结果会呈现出差别或变化如商品销售额、受教育程度、产品的质量等级等变量的具体取值称为变量值,即数据统计数据就是统计变量的某些取值2.变量可以分为分类变量(categoricalvariable):说明事物类别的名称,其取值是分类数据顺序变量(rankvariable):说明事物有序类别的名称数值型变量(metricvariable):说明事物数字特征的名称离散变量:取有限个值(计数型数据)连续变量:可以取无穷多个值(计量型数据)3.4.3变量(variable)Page21SAQM上海质量管理科学研究院(SAQM)版权所有变量及其类型变量基本分类其他分类分类变量顺序变量数字变量随机变量非随机变量经验变量理论变量Page22SAQM上海质量管理科学研究院(SAQM)版权所有2013/11/5几种常用的统计软件(software)典型的统计软件–MINITAB–SPSS–SAS–STATISTICA–ExcelMINITABSTATISTICAExcelSASSPSSPage23SAQM上海质量管理科学研究院(SAQM)版权所有3.5描述性分析数据分布的特征:1.分布的集中趋势;2.分布的离散程度;3.分布的形状。集中趋势离散程度分布形状Page24SAQM上海质量管理科学研究院(SAQM)版权所有3.5.1集中趋势的度量1.一组数据向其中心值靠拢的倾向和程度2.测度集中趋势就是寻找数据水平的代表值或中心值3.不同类型的数据用不同的集中趋势测度值Page25SAQM上海质量管理科学研究院(SAQM)版权所有分类数据:众数顺序数据:中位数和分位数数值型数据:平均数众数、中位数和平均数的比较3.5.1集中趋势的度量Page26SAQM上海质量管理科学研究院(SAQM)版权所有众数(mode)--Mo1.一组数据中出现次数最多的变量值2.适合于数据量较多时使用3.不受极端值的影响4.一组数据可能没有众数或有几个众数5.主要用于分类数据,也可用于顺序数据和数值型数据Page27SAQM上海质量管理科学研究院(SAQM)版权所有众数(不惟一性)无众数原始数据:10591268一个众数原始数据:659855多于一个众数原始数据:252828364242Page28SAQM上海质量管理科学研究院(SAQM)版权所有例题:分类数据的众数不同品牌饮料的频数分布饮料品牌频数比例百分比(%)可口可乐旭日升冰茶百事可乐汇源果汁露露15119690.300.220.180.120.183022181218合计501100解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值所调查的50人中,购买可口可乐的人数最多,为15人,占被调查总人数的30%,因此众数为“可口可乐”这一品牌,即Mo=可口可乐Page29SAQM上海质量管理科学研究院(SAQM)版权所有解:这里的数据为顺序数据。变量为“回答类别”甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即Mo=不满意甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)非常不满意不满意一般满意非常满意24108934530836311510合计300100.0例题:顺序数据的众数Page30SAQM上海质量管理科学研究院(SAQM)版权所有中位数(median)--Me1.排序后,处于中间位置上的值Me50%50%50%50%2.不受极端值的影响3.主要用于顺序数据,也可用数值型数据,但不能用于分类数据Page31SAQM上海质量管理科学研究院(SAQM)版权所有中位数(位置和数值的确定)位置确定21n中位数位置21n中位数位置为偶数为奇数nxxnxMnnne1222121为偶数为奇数nxxnxMnnne1222121数值确定Page32SAQM上海质量管理科学研究院(SAQM)版权所有解:中位数的位置为(300+1)/2=150.5从累计频数看,中位数在“一般”这一组别中中位数为Me=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数非常不满意不满意一般满意非常满意2410893453024132225270300合计300—例题:顺序数据的中位数Page33SAQM上海质量管理科学研究院(SAQM)版
本文标题:第三部分-常用数据分析方法
链接地址:https://www.777doc.com/doc-5084852 .html