您好,欢迎访问三七文档
大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区大数据的统计学基础——第8周大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区法律声明【声明】本视频和幻灯片为炼数成金网络课程的教学资料,所有资料只能在课程内使用,不得在课程以外范围散播,违者将可能被追究法律和经济责任。课程详情访问炼数成金培训网站专业数据分析社区关注炼数成金企业微信提供全面的数据价值资讯,涵盖商业智能与数据分析、大数据、企业信息化、数字化技术等,各种高性价比课程信息,赶紧掏出您的手机关注吧!大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区统计推断统计学:描述统计学与推断统计学根据样本数据推断总体数据的情况样本均值总体均值样本方差总体方差样本比例总体比例大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区总体比例估计大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区样本比例估计总体比例要求:1.样本要为简单随机样本2.二项分布的条件成立3.至少有5个成功,5个失败,即np=5,nq=5样本比例𝑝是总体比例p的最好点估计(Pointestimation)——无偏而且最有效大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区例子美国的“全国艾滋行为调查”访问了2673位成人异性恋者的随机样本。其中,有170人承认,在前一年曾有超过一个性伴侣,占样本的6.36%。(这个结果可能会存在偏差,因为有人会不愿意把自己的性行为如实告诉别人,但我们在这里假设所有人都说了实话)根据以上的数据,我们可以推断,美国所有成年异性恋者中有不止一个性伴侣的比例大约是6.36%但是如果我们再做一次调查,得到的样本比例或许会不一样,假设是6.72%。那么我们应该使用哪个数据区估计总体比例呢?大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区点估计——置信区间刚才的例子中,如果实际上成年异性恋中,有6%的人不止一个性伴侣。则真实的总体比例p=0.06。“全国艾滋行为调查”的大小为n=2673的样本,如果重复抽取多次的话,得到的样本比例𝑝的分布会很接近于正态分布(中心极限定理)分布的均值:0.06分布的标准差:𝑝(1−𝑝)𝑛=0.06∗0.942673≈0.0046所有的样本比例𝑝中,约有95%会落在2个标准差之内,即(p-2*𝑝(1−𝑝)𝑛,p+2*𝑝(1−𝑝)𝑛)=(0.0508,0.0692)有95%的𝑝跟p的差距的绝对值在2*𝑝(1−𝑝)𝑛之内。换句话说,95%的(𝑝-2*𝑝(1−𝑝)𝑛,𝑝+2*𝑝(1−𝑝)𝑛)区间会包含正真的总体比例p大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区点估计——置信区间中心极限定理:样本比例𝑝近似正态分布N(p,p(1-p)/n)样本比例落在尾部的概率非常小样本比例落在阴影尾部的总概率为α样本比例落在中间部分的概率为1-α大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区置信区间——名称解析置信区间(confidenceinterval):用来估计总体参数真实值的一个区间,通常形式:估计值±误差界限误差界限(marginoferror):估计值的最大误差,使用E表示置信度(confidencelevel):1-α临界值(criticalvalues):𝑧𝛼/2置信区间边界(confidenceintervallimits):置信上限,置信下限大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区置信区间𝑝~𝑁𝑝,𝑝1−𝑝𝑛,所以𝑝−𝑝𝑝(1−𝑝)𝑛~𝑁0,1𝑃𝑝−𝑝𝑝1−𝑝𝑛𝑧𝛼2=1−𝛼,故𝑃𝑝−𝑧𝛼2∗𝑝1−𝑝𝑛𝑝𝑝+𝑧𝛼2∗𝑝1−𝑝𝑛=1−𝛼由于p值的真实值不知道,一般采用𝑝(1−𝑝)𝑛去代替𝑝1−𝑝𝑛所有总体比例p的1-α置信区间为(𝑝−𝐸,𝑝+𝐸)其中,𝐸=𝑧𝛼2∗𝑝1−𝑝𝑛.大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区总体比例的区间估计要求:1.样本要为简单随机样本2.二项分布的条件成立3.至少有5个成功,5个失败,即np=5,nq=5之前的例子中,样本比例𝑝=0.0636。那么所有成年异性恋者中,有不止一个性伴侣的人所占的比例p的95%置信区间为:𝑝±𝑧𝛼2∗𝑝1−𝑝𝑛=0.0636±1.960.0636∗0.93642673=0.0636±0.0092=(0.0544,0.0728)有95%的把握(0.0544,0.0728)会包含真正的总体比例大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区总体比例的区间估计更精确的计算方法:𝑝−𝑝𝑝(1−𝑝)𝑛~𝑁0,11−𝛼=𝑃−𝑧𝛼2𝑝−𝑝𝑝1−𝑝𝑛𝑧𝛼2=𝑃{𝑛+𝑧𝛼22𝑝2−2𝑛𝑝+𝑧𝛼22𝑝+𝑛𝑝20}=𝑃𝑝1𝑝𝑝2令𝑛+𝑧𝛼22=𝑎,−2𝑛𝑝+𝑧𝛼22=𝑏,𝑛𝑝2=c,则𝑝1=−𝑏−𝑏2−4𝑎𝑐2𝑎,𝑝2=−𝑏+𝑏2−4𝑎𝑐2𝑎故p的置信区间为(𝑝1,𝑝2)大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区样本容量的确定𝐸=𝑧𝛼2∗𝑝1−𝑝𝑛⇒𝑝已知:𝑛=𝑧𝛼22𝑝(1−𝑝)𝐸2𝑝未知:𝑛=𝑧𝛼220.25𝐸2取整规则:往上取整。51.152注意适用条件!大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区例子日常生活中,我们可以使用不同的工具与他人联系,像电子邮件,qq,微信,电话等等。某位社会学家想知道现今中国内,使用电子邮件的人所占的比例。如果他想要要构建一个95%的置信区间,而且要把误差控制在4%以内,那么要调查多少人?(1)如果知道,根据以前的某个调查,在2000年,全国有16.9%的人正正使用电子邮件;(2)我们没有任何关于𝑝的信息。(1)根据过往的调查,𝑝=0.169,1-𝑝=0.831。对于95%的置信区间,α=0.05,𝑧𝛼/2=1.96,误差界限E=0.04。根据公式:𝑛=𝑧𝛼22𝑝(1−𝑝)𝐸2=1.962∗0.169∗0.8310.042=337.194=338(2)𝑝未知:𝑛=𝑧𝛼220.25𝐸2=1.962∗0.250.042=600.25=601大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区拓展假设总体比例的95%的置信区间为(a,b),则𝑝=𝑎+𝑏2𝐸=𝑎−𝑏2有限总体校正因子(FinitePopulationCorrectionFactor)当总体有限时,每次抽样是不放回抽样时𝐸=𝑧𝛼/2∗𝑝1−𝑝𝑛∗1−𝑛𝑁所以此时:𝑛=𝑁𝑝(1−𝑝)𝑧𝛼22𝑝1−𝑝𝑧𝛼22+(𝑁−1)𝐸2大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区总体均值估计2012年5月14日,人民银行与西南财经大学共同发布《中国家庭金融调查报告》:中国自有住房拥有率高达89.68%,远超世界60%左右的水平,而城市第一套房平均收益率在300%以上。2012年5月14日,中国家庭金融调查与研究中心出台《中国家庭金融调查报告》。报告指出:中国城市家庭平均资产为247.6万元,高出美国21%。总体上反映了中国城市家庭拥有较大财富。2012年8月5日,北京大学发布由北大中国社会科学调查中心完成的《中国民生发展报告2012》。调查称:中国家庭的平均住房面积为116.4平方米,人均住房面积为36.0平方米。2011年中国家庭的平均总支出为3.8万元,比2010年增长了5710元。2013年2月19日《人民日报海外版》宣布:中国已成为世界第二大经济体,人均GDP已超过5000美元,公共假期已有115天,达到了中等发达国家水平。并指出:解决了“有钱”、“有闲”的问题之后,我国旅游业开始全面增长,进入大众化发展的新阶段。2013年7月14日新华网刊出“我国人民币存款突破百万亿”、“中国人均存款77623元”。曾任证监会主席的郭树清认为:“中国的储蓄率高达52%,这在世界上是罕见的,而且就大国经济而言历史上不曾有过先例。大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区总体均值的估计——σ已知适用条件:1.简单随机样本2.σ已知3.总体为(近似)正态分布或n30点估计:样本均值𝑥是总体均值μ的最好点估计——无偏而且比其他统计量更有效大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区总体均值的估计——σ已知区间估计由𝑥~𝑁(𝜇,𝜎2𝑛),得𝑍=𝑥−𝜇𝜎𝑛~𝑁0,11−𝛼=𝑃𝑥−𝜇𝜎𝑛𝑧𝛼2=𝑃𝑥−𝑧𝛼2∗𝜎𝑛𝜇𝑥+𝑧𝛼2∗𝜎𝑛=𝑃{𝑥−𝐸𝜇𝑥+𝐸},此时𝐸=𝑧𝛼2∗𝜎𝑛故在σ已知的情况下,总体均值的置信区间为(𝑥−𝑧𝛼2∗𝜎𝑛,𝑥+𝑧𝛼2∗𝜎𝑛)大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区例子某家游戏公司针对某个游戏进行玩家调查,共收集有效问卷125份。问卷中有一个问题是问玩家的年龄。125份问卷中得到的平均年龄为14.75岁。根据之前的调查结果,玩家年龄的标准差为2.45。请根据上述资料构建玩家年龄的95%置信区间。解:n=12530,𝑥=14.75,𝜎=2.45,𝑧𝛼2=1.96根据公式:E=𝜎𝑛=2.45125=0.219故所求置信区间为𝑥−𝑧𝛼2∗𝐸,𝑥+𝑧𝛼2∗𝐸=(14.75−1.96∗0.219,14.75+1.96∗大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区样本容量的确定在误差界限E和总体标准差σ已知的情况下:由𝐸=𝑧𝛼2∗𝜎𝑛得𝑛=[𝑧𝛼2𝜎𝐸]2当σ未知时:(1)使用极差(range)/4来近似σ(2)进行预实验,使用预实验中的样本标准差S来近似σ(3)使用早期做的其他实验数据大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区总体均值估计——σ未知适用条件:1.简单随机样本2.总体正态分布或n30点估计:样本均值𝑥是总体均值μ的最好点估计区间估计:𝑋−𝜇𝑆/𝑛~𝑡(𝑛−1)1−𝛼=𝑃𝑥−𝜇𝑆𝑛𝑡𝛼2,𝑛−1=𝑃𝑥−𝑡𝛼2,𝑛−1∗𝑆𝑛𝜇𝑥+𝑡𝛼2,𝑛−1∗𝑆𝑛=𝑃{𝑥−𝐸𝜇𝑥+𝐸},此时,𝐸=𝑡𝛼2,𝑛−1∗𝑆𝑛大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区例子某公司的全部职工中,随机抽取了23名员工,收集了他们的年龄数据,如下:34,37,37,38,41,42,43,44,44,45,45,45,46,48,49,53,53,54,54,55,56,57,60求公司平均年龄的点估计与95%置信区间。解:(1)点估计:𝑥=34+37+⋯…+57+6023=47.0(2)区间估计:𝑛=23,𝑛−1=22,𝛼=0.05,𝑡𝛼2=2.074𝑠2=1𝑛−1𝑖=1𝑛(𝑥𝑖−𝑥)2=(34−47)2+(37−47)2+⋯…+(60−47)223−1=52.1,𝑠=7.2𝐸=𝑡𝛼/2𝑠𝑛=2.074∗7.223=3.114故95%的置信区间为(43.9,50.1)大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区总体方
本文标题:大数据的统计学08
链接地址:https://www.777doc.com/doc-4140764 .html