您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据应用基础(统计学)(PPT44页)
统计学1目录•批判性思维•统计学思维•A/B测试•统计学方法分类2懂统计学有什么用?•能更好地辨别各种分析。3熟悉一下常见的批判性思维4歧义•语言经常是模糊的。有些词是多义词。–听众要结合上下文弄明白发言者的每个词的确切意思。发言者要界定清楚那些多义词的确切含义。5因果关系•以先后论因果:A在B之后发生,不见得说明A会导致B•很多事情发生的原因其实不止一个•不应盲目以结果好坏判断决定的优劣•分析的结论不一定只有一个6证据与信息源•发言者有时把个人经历、典型个案、专家意见作为证据。这些证据都可靠吗?•发言者是否省略了重要的数据•信息源可靠吗?•发言者所引用的数据是否来历不明7证据•从众心理:大家都认为如此,就一定如此吗?共识有可能是危险的。就算有数百万人声称某件蠢事是对的,这件蠢事也不会因此成为聪明之举。•虚假类比——他总玩游戏但是上MIT了,你跟他都是人,所以你总玩游戏也能上MIT。•样本能代表总体吗?样本有代表性吗?•样本足够大吗?8个人经验可靠吗?•你是否纠缠于沉没成本?为什么我们试过衣服后一般就会买下来?为什么经验有时让人变蠢?为什么拿锤子的人会把一切看成钉子?为什么自己做的菜吃起来更香?为什么我们会认为现状最好?9分析一下发言者的背景和目的•应该试图了解发言者的背景、并判断其可能想要达到的目的。•发言者是否试图转移别人的注意力,回避真正的问题。为什么推销员说出产品缺陷时,我们也须谨慎?显眼的不一定等于是重要的•为什么我们不要购买包装过于精美的产品?为什么要忽略讨人喜欢的推销员?10典型的统计学思维11重视变异性•应高度关注变异性,不要用平均数来掩盖异常值。在社会上,对平均值的滥用随处可见。平均值就像安眠药,把你催眠,但你没有注意到变异性,就有可能带来损失。–比如,一个富翁走入一家坐满了穷人的酒吧,酒吧里人均收入将迅速提升,但每个穷人并没有因此致富。–比如,有两家公司的年均增长率都相同,但是其中一家每年增长率很稳定,而另一家的每年的增长率不断上下波动,那么显然,两家公司的资金需求就截然不同了。12重视组间差异•如果组间存在差异,就应该把几个组分开,而不应合并起来统计。•不同的组有时是不具有可比性的。13不要过分在意小概率事件•不要过分在意小概率事件:遭遇空难和中彩票其实都是小概率事件,发生的可能性很小,所以不必为了活命而惧怕坐飞机,也不必为了赚钱而玩彩票。在个体遇到医疗健康相关的问题,或者企业家遇到经营管理问题的时候,都容易以偏概全,认为个人体验到的就是总体的全局的情况。•另一方面,如果你觉得奇迹的发生是天意,你就错了。几乎不可能发生的事件也有发生的必然性。14尽量提高预测精度•在有监督学习中,应努力减少假阴性和假阳性,两者都要尽量减少。–比如,在通过分析网上数据识别恐怖分子时,如果宁可错杀三千,不可放过一个,那么很可能会冤枉很多好人。15重视随机对照试验和回归分析•相关关系并不等同于因果关系。•最强的用于检测因果关系的统计学武器:随机对照试验•无法进行随机对照试验时该怎么办?做回归分析。16回归分析中的遗漏变量偏差•在回归分析时,有时会出现变量遗漏偏差。比如,有研究认为“常打高尔夫易患心脏病、癌症和关节炎”——真的吗?其实是因为打高尔夫者年龄更大,疾病多只是因为年龄大而已。•一些教育学者就常常用数据说话,声称电子游戏会加大孩子的暴力倾向,却遗漏了暴力倾向加大有着多重诱因。家庭教育、父母性格及行为习惯所起到的作用更大。17循环论证•即便存在因果关系,因与果之间可能会存在双向影响。需要在得出结论前把这一点考虑到。•是否存在循环论证?18统计学思维的通俗入门书•《看穿一切数字的统计学》•《赤裸裸的统计学》•《数据统治世界》19A/B测试•A/B测试是互联网产品设计人员最熟悉的网页优化方法,能够对比不同版本的设计,选取更吸引用户眼球的那一款,以便增加用户点击、回访、购买等行为,或者增加转化率注册率等。•为了搞清楚哪个功能或设计更好,每个网站或移动应程序的数据科学家都离不开A/B测试工具。•A/B测试有点类似于统计学里面的随机对照实验。20A/B测试的重要性•不少互联网巨头都是A/B测试的忠实信徒,这其中就包括Google、Amazon、Bing、Netflix等。•搜索引擎、有推荐系统的网站、大型门户网站往往非常倚重A/B测试。这种公司的网站设计很多时候是数据驱动的。•谷歌连工具栏上的颜色选择也要A/B测试。21A/B测试的步骤•使用A/B测试首先需要建立一个测试页面(variationpage),这个页面可能在标题字体、背景颜色、措辞等方面与原有页面(controlpage)有所不同。•然后将这两个页面以随机的方式同时推送给所有浏览用户。•接下来分别统计两个页面的用户转化率,即可清晰的了解到两种设计的优劣。22A/B测试怎样识别用户•它通过Cookie或用户名识别用户。•它对同一个用户展现同一个版本。所以,同一个用户不会发现不同的测试版本。不过,如果你换台电脑,可能就会发现网站的不同版本。23A/B测试的局限性•必须在有大量被测用户的前提下,才是有意义的。很多用户少的网站不适合做这种测试。•它是为了验证已有产品想法。你只有知道A方案和B方案分别是什么,才能去比较这两种方案。–你在A和B之间做比较的时候,可能会忽略了其他很多可能更好的方案24A/B测试的基本注意事项•A/B测试必须是单变量•一般都着眼于转化率•注意控制访问各个版本的人数,大多数情况下希望将访问者平均分配到各个不同的版本上。•不一定仅限于分成两个组。分成多个组也可以。•要确保两个组的用户是来自同一个总体的,也就是说它们的特征要相同。否则,组间的转化率的差异到底是由于用户本身的差异造成的,还是真的由于A和B两种方案的不同而造成的,就很难说清楚了。25你可以对比不同标题或文案的效果26你还可以对比不同图片的效果27你可以对比不同按钮设计的效果•例如,“立即购买!(BuyNow!)”按钮在某个主页上效果不佳。我们可以尝试改变按钮的形状、大小、颜色或者位置。28A/B测试服务商的出现•有些公司帮助网站或移动应用更便捷地做A/B测试:Optimizely、Leanplum、Splitforce、PredictiveEdge等。•这种工具可以帮助小白用户测试网站的不同版本。用户可以轻松地测试不同版本的对比效果,从而选择出效果最好的网页版本,或者选出最适合某种特定访客的网页版本。•这种测试工具能帮助营销人员测试和优化网站,非常适合销售、市场、公关等人员使用。有了这种工具,营销人员不一定要求助于公司IT人员。•这种公司的收费依据可以是:参加测试的用户数量29A/B测试服务商的出现•Optimizely、PredictiveEdge都是2010年前后成立的,成立之初都是帮网站做A/B测试的。近来才开始帮app做测试。将来的趋势是,它们还会帮可穿戴设备、实体零售店做测试。•有些公司专门帮助移动app做A/B测试:Leanplum(2012年成立)、Splitforce。30A/B测试服务商的出现•这些公司的创始人大多之前具有主要的互联网产品的测试的经验。–例如,Leanplum的两位创始人之前在谷歌做测试工作。Optimizely的创始人曾担任GoogleChrome产品经理,并曾担任奥巴马竞选活动的网站分析主管。31App推送领域的A/B测试服务•A/B测试在应用推送领域也有运用。例如,app消息推送服务商(swrve、个推等)开通了A/B测试功能。3233互联网巨头也提供A/B测试工具•对于网站来说:谷歌的WebsiteOptimizer或者VWO(VisualWebsiteOptimizer)•对于app来说:AmazonAppstore、GooglePlay34网页推送领域的A/B测试服务•FacebookParse增加了一项全新的功能--ParsePushExperiments。35网页推送领域的A/B测试服务•在ParsePushExperiments功能下,开发者可轻松地创建用于推送通知的A/B测试,这样他就能对数据进行分析然后了解怎样的内容以及怎样的时机才是最有效的。36网页推送领域的A/B测试服务•开发者可在测试结束之后通过数据分析选择反响更好的那组通知内容进行推送。37统计学方法38常见的统计方法•描述性统计:这是最基本的一类统计方法。•方差分析(ANOVA)•因子分析(factoranalysis)•回归(regression):这是最常用的一种。–OLS回归:适于因变量是连续值的情形。–广义线性模型(generalizedlinearmodels):主要包括逻辑回归(logisticregression)和泊松回归(poissonregression)。它们适于因变量不是连续值的情形。–生存分析(survivalanalysis)•判别分析(discriminantanalysis)39T检验•它往往用于比较两个组的转化率、访问次数等是否有明显差异。具体有两种:1.对照组和干预组这两个组的用户群体的对比:采用独立组样本T检验。–比如,可以看看两组用户的转化率是否有明显差异。2.比较同一组用户在运营活动的前后的访问活跃度的差异:采用配对组样本T检验。–这种检验有助于说明运营活动是否明显提升了用户的访问活跃度。40方差分析•方差分析用来检验多个总体的均值是否相等。换言之,它可以确定各总体的均值之间是否存在差异。•它用来研究分类型自变量对数值型(连续型)因变量的影响。•它可看成是t检验的扩展。t检验用于两组连续型因变量的比较;而方差分析则用于三组或更多组的连续型因变量的比较。•每个分类型自变量称作一个因素,它的每个可能取值称作“水平”或treatment。例如,每种促销方式就是不同的treatment。41方差分析•最常用的是单因素的方差分析(One-wayANOVA)。单因素可以表示运营策略的不同。•双因素方法分析(Two-wayANOVA):能考察两个因素的各个水平之间的不同搭配对因变量的影响,这也称作交互作用。42T检验与方差分析的区别•T检验一次只能检验两个总体,即两个组。•而方差分析一次能检验多个总体的均值是否相等。43回归分析•回归分析(Regressionanalysis)用来确定因变量和自变量之间的相互依赖关系。•它有两种用途:–用来挑选能够影响因变量的自变量–生成一个等式,从而能用自变量的值来预测因变量的值。这种用法其实是一种有监督学习。44
本文标题:大数据应用基础(统计学)(PPT44页)
链接地址:https://www.777doc.com/doc-27091 .html