您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 交通运输 > 几种统计算法实例计算
1.Pearson相关系数:给出一个具体实例,写出计算过程。皮尔森相关系数(Pearsoncorrelationcoefficient)也称皮尔森积矩相关系数(Pearsonproduct-momentcorrelationcoefficient),是一种线性相关系数。皮尔森相关系数是用来反映两个变量线性相关程度的统计量。相关系数用r表示,其中n为样本量,分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的绝对值越大表明相关性越强。样本的简单相关系数一般用r表示,其中n为样本量,分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的取值在-1与+1之间,若r0,表明两个变量是正相关,即一个变量的值越大,另一个变量的值也会越大;若r0,表明两个变量是负相关,即一个变量的值越大另一个变量的值反而会越小。r的绝对值越大表明相关性越强,要注意的是这里并不存在因果关系。若r=0,表明两个变量间不是线性相关,但有可能是其他方式的相关(比如曲线方式)。利用样本相关系数推断总体中两个变量是否相关,可以用t统计量对总体相关系数为0的原假设进行检验。若t检验显著,则拒绝原假设,即两个变量是线性相关的;若t检验不显著,则不能拒绝原假设,即两个变量不是线性相关的。一个具体实例和计算过程(销售额与利润额的pearson相关系数)销售额4358515862668590102111利润额9101218132521242225x_=101niixn=101111029085666258515843=71.6y_=101niiyn=102522242125131812109=17.9))(()(-(10_210_210__)-()-()niiniiniiixyyyxxyyxxr=0.825626116Correlations销售额利润额销售额PearsonCorrelation1.826**Sig.(2-tailed).003N1010利润额PearsonCorrelation.826**1Sig.(2-tailed).003N1010**.Correlationissignificantatthe0.01level(2-tailed).说明销售额与利润额的相关皮尔森相关系数为0.826,sig=0.0030.01,故满足显著性要求。2卡方检验:给出卡方检验的一个具体实例,要求给出卡方统计量的计算过程,以及主要列联强度指标的计算方法。卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。例题一,某机构欲了解现在性别与收入是否有关,他们随机抽样500人,询问对此的看法,结果分为“有关、无关、不好说,,三种答案,图3中县调查得到的数据。(1)零假设H0:性别与收入无关。(2)确定自由度为(3-1)×(2-1)=2,选择显著水平α=0.05。原数据性别有关无关不知道合计男1206050230女10011060270合计220170110500期望值性别有关无关不知道合计男101.278.250.6230女118.891.859.4270合计220170110500期望值F(男,有关)=220*230/500=101.2期望值F(女,有关)=220*270/500=118.8期望值F(男,无关)=170*230/500=78.2期期望值F(女,无关)=170*230/500=91.8期望值F(男,不知道)=110*270/500=50.6望值F(女,不知道)=110*270/500=59.4然后分别计算FFFki期期原)(2k(男,有关)=(120-101.2)^2/101.2k(女,有关)=(100-118.8)^2/118.8k(男,无关)=(60-78.2)^2/78.2k(女,无关)=(110-91.8)^2/91.8k(男,不知道)=(50-50.6)^2/50.6k(女,不知道)=(60-59.4)^2/59.46122)(niFFF期期原=14.32483402性别有关无关不知道合计男3.4924901194.2358056270.0071146257.73541037女2.9750841753.6082788670.0060606066.589423648合计6.4675742947.8440844940.01317523114.32483402而chiinv(0.05,2)=5.991514.32483402,故拒绝原假设。例题二,在分类资料统计分析中我们常会遇到这样的资料,如两组大白鼠在不同致癌剂作用下的发癌率如下表,问两组发癌率有无差别?处理发癌数未发癌数合计发癌率甲组5219710.732394366乙组393420.928571429合计91221130.805309735同例一一样,得出期望值处理发癌数未发癌数合计发癌率甲组57.1769911513.82300885710.805309735乙组33.823008858.17699115420.805309735合计91221130.805309735处理发癌数未发癌数合计甲组0.4687416531.938885932.407627584乙组0.7923966053.2776405014.070037106合计1.2611382585.2165264316.4776646892=6.473.841458821题三,T检验、方差分析:T检验:分别给出单样本、双样本、配对样本t检验的一个具体实例。T检验,亦称studentt检验(Student'sttest),主要用于样本含量较小(例如n30),总体标准差σ未知的正态分布资料。T检验是用于小样本(样本容量小于30,适合正态分布)的两个平均值差异程度的检验方法。它是用T分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著。单样本T检验比较山区成年男子脉动次数样本均数所代表的未知总体均数μ和已知总体均数μ0。脉搏跳动7574727479787669777670737671787776747977统计量nstx/0自由度V=n-1One-SampleStatisticsNMeanStd.DeviationStd.ErrorMean脉动次数2075.052.892.647One-SampleTestTestValue=72tdfSig.(2-tailed)MeanDifference95%ConfidenceIntervaloftheDifferenceLowerUpper脉动次数4.71619.0003.0501.704.40从单样本统计表看出,均值为75.05次/分钟,标准差为2.892,标准误差为0.647次/分钟。从单样本T检验表中看出,T值为4.716,自由度为20-1=19;双侧检验显著性为00.05,故拒绝原假设,认为山区成年健康男子的脉动与总体样本存在差异,平均差值为3.050,在95%的置信度的条件下其置信区间为[1.70,4.40]。多样本T检验两独立样本t检验就是根据样本数据对两个样本来自的两独立总体的均值是否有显著差异进行推断;进行两独立样本t检验的条件是,两样本的总体相互独立且符合正态分布;数据1.0034.001.0037.001.0028.001.0036.001.0030.002.0043.002.0045.002.0047.002.0049.002.0039.00GroupStatistics组号NMeanStd.DeviationStd.ErrorMean数据1.00533.00003.872981.732052.00544.60003.847081.72047从小组统计表中看出,第一组有五个数据,均值为33.0000,标准差为3.87298,标准误差为1.73205。第二组有五个数据,均值为44.6000,标准差为3.84708,标准误差为1.72047。从F值对应的p=0.788值大于0.05,所以方差是相等的。由于t=-4.75215.50731306且sig均为0.0010.05,故两样本独立。配对样本t检验配对样本是指对同一样本进行两次测试所获得的两组数据,或对两个完全的样本在不同条件下进行测试所得到的两组数据;两独立样本t检验就是根据样本数据对两个配对样本来自的两配对总体的均值是否有显著差异进行推断;两配对样本t检验的前提条件:两样本是配对的(数量一样,顺序不能变),服从正态分布。数据组一组二IndependentSamplesTestLevene'sTestforEqualityofVariancesFSig.数据Equalvariancesassumed.077.788EqualvariancesnotassumedIndependentSamplesTestt-testforEqualityofMeanstdfSig.(2-tailed)MeanDifferenceStd.ErrorDifference95%ConfidenceIntervaloftheDifferenceLowerUpper-4.7528.001-11.600002.44131-17.22967-5.97033-4.7528.000.001-11.600002.44131-17.22972-5.9702834433745284736493039配对基本统计PairedSamplesStatisticsMeanNStd.DeviationStd.ErrorMeanPair1组一33.0053.8731.732组二44.6053.8471.720两组数据配对相关系数PairedSamplesCorrelationsNCorrelationSig.Pair1组一&组二5.302.621相关系数为0.302,sig=0.6210.05,故认为无相关性。配对样本T检验从上表可以看出t=-5.6879.487729037且sig=0.0050.05,故认为两配对样本之间存在显著性差异。方差分析,给出单因素方差分析的一个具体实例,给出方差分析表,及其计算过程单因素方差分析(one-wayANOVA),用于完全随机设计的多个样本均数间的比较,其统计PairedSamplesTestPairedDifferencesMeanStd.DeviationStd.ErrorMean95%ConfidenceIntervaloftheDifferenceLowerUpperPair1组一-组二-11.6004.5612.040-17.263-5.937tdfSig.(2-tailed)-5.6874.005推断是推断各样本所代表的各总体均数是否相等。完全随机设计(completelyrandomdesign)不考虑个体差异的影响,仅涉及一个处理因素,但可以有两个或多个水平,所以亦称单因素实验设计。在实验研究中按随机化原则将受试对象随机分配到一个处理因素的多个水平中去,然后观察各组的试验效应;在观察研究(调查)中按某个研究因素的不同水平分组,比较该因素的效应。H0:三种人的转蛋白无差异。H1:三种人的转蛋白不完全相同。以一样本为例,某社区随机抽取糖尿病和IGT患者以及正常人共三十人进行转蛋白测定,观测三种人的转蛋白是否有差异。其中数据如下:糖尿病IGT正常人105.2124.5117109.5105.11109676.4109xij115.295.310395.311012311095.212710099121125.6120159111115106.5对其进行求和等一系列操作;各列求和1160921.512283309.5总和个数1191030总和平均数105.4545455102.3888889
本文标题:几种统计算法实例计算
链接地址:https://www.777doc.com/doc-4580995 .html