您好,欢迎访问三七文档
生物统计学王建国电话:18796419138QQ:290037120第一章绪论统计学的基本功能:对资料进行整理和描述用局部数据来推断和估计全体研究对象的特征通过显著性检验来鉴定试验效应寻找因素间的关系提供试验设计的一般原则和方法统计学的特点概率性——所有结论和结果都有一定的概率保证二元性——理论和实践的紧密结合,尤以实践为重归纳性——由特殊到一般、由局部到全体、由样本到总体(与演绎相对)试验设计(experimentdesign)正确地确定抽样方案,正确地对将要进行的试验进行科学设计是统计工作的基础在试验工作进行之前,应用统计学原理,制订出合理的试验方案,如最适样本大小,最佳样本配置,正确的试验动物种类,试验整个过程的安排等使我们可以用最少的人力、物力、财力和时间,获得尽可能多的、可靠的信息和资料进行统计分析,得到可信的科学结论从畜牧科研实践中所得到的数据资料具有变异性、随机性和复杂性。学习畜牧统计学的目的就是要使用统计学的原理和方法来定量地处理和分析生物数据的这些变异性、不确定性和复杂性,从而得出最令人信服的结论,以阐明事物发展的规律。畜牧统计学是畜牧学科中的一个重要工具。它能帮助畜牧工作者发现隐藏在纷繁复杂的表面现象下面的客观规律。如何学习畜牧统计学?首先,确立统计学的思维方式,学会用统计学的思想来武装自己的头脑,用统计学的思考方式来观察世界,观察周围的事物。其次,在畜牧科研、技术推广等方面要用好用活统计学,除了学好统计学,掌握统计学的基本原理、计算公式、数学概念和含义、具有一定的电脑知识和操作技能外,还必须有坚固、扎实的畜牧学专业方面的知识,丰富的畜牧实践。最后,用畜牧统计学处理和分析每一批资料、每一批数据,都必须有充分的生物学意义和畜牧学意义,而所作的试验也必须有生物学科的理论意义和实践意义。因此,畜牧统计学的学习,统计学方法的应用不能孤立地、单独地进行,它必须紧密结合畜牧学科的实践,以取得具有专业意义和指导意义的结果。总体和样本总体(population):具有相同性质的所有观测值所组成的集合(set)在实际工作中只能对总体中具有代表性的一小部分进行研究。被研究的这一小部分观测值(子集subset)必须来自于这一总体,并具有很好的代表性。这样的一批观测值的子集就称为样本(sample)常用统计术语从总体中得到样本的过程称为抽样(sampling)一个样本内观测值即变量的个数,称为样本含量,用n表示。n>30为大样本,n≤30为小样本有限总体的大小用N表示。由于抽样往往是随机(random)的,因此抽样是随机抽样(randomsampling简称为抽样),随机抽样所得到的样本称为随机样本(randomsample简称为样本)总体具有时、空性(具有时间和空间的概念)总体有有限总体与无限总体之分总体可分为实总体与虚总体有限总体总是实总体;但实总体不一定是有限总体,虚总体也不能肯定就是无限的。总体有常量性总体的特征值一般是常量总体有不可知性总体的特征值往往是未知的另:统计学中的总体和样本一般是指数据或资料而试验设计中的总体和样本一般是指动物个体。总体与样本的关系:样本必须来自于总体样本必须能代表总体如:一叶知秋管窥蠡测尝鼎一脔总体与样本关系不好的例子:一叶障目瞎子摸象变异和变量在实践中,无论是总体还是样本,无论是调查还是试验,所得到的数值都是有差别的,这种差别在统计学中称为统计数据的变异(variation)具有变异性质的数值在生物统计学中就称为变量(variate)。变量在某一个体具体表现出来的数值又称为变数或称观测值(observedvalue)、数据(data)、资料(data)变量是和常量(constant)相对应的一个概念参数和统计量用来描述总体特征的数值称为参数(parameter)由样本观测值计算得到的描述样本特征的数值称为统计量(statistic)参数用希腊字母表示,如μ、σ2、β、ρ统计量用英文字母表示,如x、s2、b、r参数一般为一常量,需通过样本的统计量来进行估计(estimation)从同一总体中抽取不同的样本所计算得到的同一性质的统计量是不会相同的,因此统计量是变量这些统计量都可以用来无偏(unbias)地估计相应的参数误差在生物学科中,人们几乎无法把非试验条件绝对地控制在同一水平上,同时试验对象也是错综复杂的生物体,因此,很难使所得到的试验结果完全符合真值。试验结果和真值之间的这种差异和偏离,就是误差(error)误差按其来源和性质可分为系统误差(systematicerror)和随机误差(randomerror)系统误差(systematicerror)指由于某些特定的非试验条件所造成的使试验结果朝某一个方向发生有规律的偏移。造成系统误差的原因有以下几种:1.度量工具的不正确或未经校正2.试验仪器及其读数器发生偏差或未经校正3.外界试验条件发生了很大的变化4.观测时间及顺序的影响5.试验人员操作及观测时的偏爱和习惯6.试验动物分组时发生的偏差等这些因素都会使得试验结果有规律地偏离真值由于系统误差影响了试验的准确性,因此应当在试验前就加以预防和克服。一般来说,系统误差是能被消除的。随机误差(randomerror)指由种种偶然因素引起的、无法加以预测和控制的无规律的偏差。随机误差又称为偶然误差随机误差的大小、方向都无法确定。消除系统误差以后,试验过程中主要的误差来源就是随机误差。在不发生歧义的情况下,随机误差简称为误差如果观测次数足够多的话,随机误差有统计学上的意义每一次观测所产生的随机误差都是独立发生的,且服从一定的规律通过各种手段可以把随机误差有效地缩小到最低的程度随机误差是进行统计假设检验的基础降低随机误差,可以:1提高试验的精确性2可以更好地区别误差效应(表面效应)和处理效应,使得试验结果更正确。3对试验处理间的差异所作出的评定更准确、更可靠。错误(mistake)由于工作人员的粗心大意或不负责任(如仪器使用不当,错读数据,记录不准,任意涂改,凭空杜撰等)所产生的测定值与真值的偏差,称为错误错误不是统计学的研究内容在试验和调查中,错误应当、必须,同时也可以加以消灭。准确度和精确度准确度和精确度和两类误差密切相关。准确度(accuracy):指观测值与真值接近的程度。当发生系统误差时,观测值都会有规律地向某一个方向偏离真值,因而降低了试验的准确度精确度(precise)指在同一处理条件下,同一批观测值间相互接近的程度。当随机误差较大时,数据较离散,精确度较低。准确度是比精确度更重要的一个概念在任何时候,都应当将系统误差降至零或最小程度,或将系统误差化为随机误差,以保证有足够的准确度。练习题•I、参数是描述总体的特征数,某一特定总体的参数,其特点是•A.完全可以通过一定方法测定的•B.容易随观察者的角度不同而不同•C.固定的变量•D.不随人的意志改变•2、下列四种表述中不正确的一种是()•A.样本是总体中若干个体的随机集合•B.统计上所指的样本均是指随机样本•C.保证总体中的每个个体均有相等的概率被抽取作为样本的抽样叫随机抽样,抽得的样本叫随机样本。•D.通过抽样调查获得的样本是随机样本,用试验方法获得的数据不是随机样本•3、研究某肉用仔鸡56天体重,因为该肉用仔鸡是一个极大的群体,其数量是一个天文数字,该总体属于()。•A.有限总体•B.大总体•C.小总体•D.无限总体•4、在总体中()一部分个体织成的群体称为样本。•A.人为挑选出•B.随机抽出•C.划分出•D.取出5.大样本和小样本在统计分析方法有一定的区别,大样本和小样本的主要区别在于样本容量,小样本一般是指()的随机样本。A.样本容量小于30B.样本容量小于等于30C.样本容量大于30D.样本容量大于606、统计上所讲的样本是指()A.由非随机抽样的方法获得的样本B.有目的地在总体中选择若干个体的集合C.保证总体中的每个个体具有相等的概率被抽取作为样本D.随机样本,即无限总体采用复置抽样的方式抽样,有限小总体采用非复置抽样的方式抽样。7、描述总体的特征数叫参数,对于特定的总体,其总体参数是不变的常数,用()字母表示A.希腊B.拉丁C.英文D.拼音8、获得数据资料的总的原则是()。A.随机抽样B.通过试验来获得C.通过调查D.通过普查9、描述样本的特征数叫统计量,样本统计量是变量,用()字母标示。A.希腊B.拉丁c.英文D.拼音10、调查江苏省2004年全省生猪生产情况时,如果以断奶休重为指标,则该总体是()A.无限总体B.有限总体C.既不是有限总体又不是无限总体D.既是有限总体又是无限总休14、描述样本的特征数为统计量,统计量一般有两个,即平均数和变异数,除了地位特征数外,下述()是常用的统计量。A.中位数,算术平均数,几何平均数,方差和标准差B.众数,算术平均数,几何平均数,方差和标准差C.极差,算术平均数,几何平均数,方差和标准差D.算术平均数,几何平均数,方差和标准差第二章资料整理原始数据:大量的、“杂乱无章”不能直接用于统计分析,必须经过统整理和加工。第二章资料整理资料整理的主要内容(1)审核与订正:人为错误、小数点等(2)分组与汇总:内部结构、类型和特征(3)计算各种综合数字特征:如,n、平均数、标准差(4)统计表或统计图:显示资料的基本特征和内在规律第二章资料整理1资料的分类2数据的频率分布3数据的表示方法4集中趋势的度量5离散趋势的度量2.1资料的分类统计资料:指反映事物、现象或过程的数据资料。包括原始资料和次级资料。特点:(1)数字性:数字形式或者可以转换为数字形式。(2)大量性:大量相像或对同类相像观察所取得的数据资料。(3)具体性:已经实现的事实的记载。•主要内容:1)数据的审核与修订2)数据的汇总与分组3)基本统计特征计算4)用图表展示结果1.资料的分类什么是资料(data)?资料有哪些种类?连续性资料(comtinuousdata)?离散性(间断性)资料(discretedata)?离散性资料又分成哪两类?计数资料(countingdata)分类资料(categoricaldata)1资料的分类特点:数字性、大量性、具体性类型:连续性资料:一定范围内可取任何实数值的数据资料。如:身高离散性资料:一定范围内只取有限值的数据。计数资料:用计数的方式得到的数据资料,如:人数,鸡蛋数分类资料:以类别作为分类对象,如:性别•分类资料公称尺度:不同类别之间没有等级之分。如:性别公、母,正常、不正常。等级尺度:不同类别之间有内在的等级之分。如:成绩的优、良、中。分类资料的相对数表示(%):受精率孵化率出苗率有效率合格率出栏率上市率情期受胎率死亡率资料的采集与核对资料的采集:调查试验记录资料的检查与核对:资料的完整性资料的正确性异常数据的校核与认定错误数据的复查和更正数据的审定与修证异常数据观察数据中存在的极端值。异常数据的判断和处理判断:数据是否有错误是否有与众不同的数据处理:四分位数检验格拉布斯检验2.资料的整理频数分布:不同类型的观测值出现次数。连续性资料的整理:组距式分组法组距式分组法中的几个名词:全距——极差(range)组距(classinterval)组限(classlimit)组中值组下限组上限次数分布表次数分布图离散性资料的频数分布70头母羊窝产仔数7811141012111010710121110101191281010911121012991110111113111413101113111310109111189911107101312121310119121010118108101113频数分布产仔数频数累积频数频率/%7222.868577.14991612.8610203628.5711175324.291286111.431376810142702.86总和70100连续性资料的频数分布1)数据分组:将数据分成长度相同的若干区间。全距(极差R):样本资料中变数的最大值(上限)与最小值(下限)之差。确定组数:取决于样本中的数据。确定组距(i):每组最大值和最小值之差。i=全
本文标题:61生物统计学
链接地址:https://www.777doc.com/doc-4351800 .html