您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 人事档案/员工关系 > 数据分析及DPS数据处理系统
1数据分析及DPS数据处理系统2主要参考资料•试验应用统计:设计、创新和发现,第2版,GeorgeE.P.Box等著,张润楚等译,机械工业出版社,2010•试验的设计与分析:王万中主编,高等教育出版设,2004.•试验设计与分析及参数优化,吴建福(美)等著(张润楚等译),中国统计出版社,2003DPS数据处理系统-实验设计、统计分析及数据挖掘,第2版,唐启义著,科学出版社,20103实验设计优化与DPS4DPS开发背景上世纪80年代以来,很多单位都着手编写统计分析程序,但随着时间的推移,绝大多数程序由于算法落后、数据格式规范性差、输出格式零乱、缺乏完整性而被淘汰。目前,国外大型统计软件,如SAS、SPSS等占优势。这从短期效应来看,引进国外软件,有利国内科研对数据处理需求。但从长期看,特别是从知识产权来讲,依赖于国外软件需要昂贵的费用支持。如在SAS平台上开发的程序,由于摆脱不了SAS的环境,难在国内推广应用。因此,研制、推广适合国内需要的统计软件,是势在必行的事;我们通过近20多年的努力,开发成功了功能完整的DPS数据处理系统,其功能已接近SAS、SPSS的水平。5•1988年开始,历时10年,1997年推出DOS版本第1版,同时出版配套专著第1版(4000册);•1998年完成Window版(第2版),2002年和2007年分别出版配套专著3000册;2010年再次出版配套专著3500册(165万字);目前软件版本12.01版。DPS数据处理系统开发历程6出版教材:唐启义《DPS数据处理系统-实验设计、统计分析及数据挖掘》第2版,科学出版社,2010年。唐启义冯明光《DPS数据处理系统-实验设计、统计分析及数据挖掘》科学出版社,2007年。唐启义冯明光《实用统计分析及其DPS数据处理系统》科学出版社,2002年。唐启义冯明光《实用统计分析及其计算机处理平台》中国农业出版社,1997年。7DPS数据处理系统-实验设计、统计分析及数据挖掘8DPS用户界面与数据接口910DPS功能特色实验设计:均匀设计混料实验设计统计分析:动态聚类分析因子分析模型统计检验与评价11DPS的应用•用户数已超过10000;•遍及国内各个省市,包括港、台,各个行业和领域;•美国宾州大学林共进博士的实验室用于工业实验设计(大样本实验设计);•成为赴国外攻读博士、或访问学者的工具。12DPS使用(类似Excel电子标的操作)13数据统计分析基本步骤•(1)将数据输入到DPS的电子表格里。数据一般是一行为一个记录(样本),一列一个指标(变量)。•(2)用鼠标选中待分析的数据。•(3)进入菜单选择相应的统计功能项。•(4)系统对选中的数据进行分析,并将分析结果返回到另一电子表格。141516某县植保站,调查4个水稻品种上稻纵卷叶螟卷叶率(%),结果列于下表。水稻品种卷叶率(%)合计平均A131.927.931.828.435.9155.931.18A224.825.726.827.926.2131.426.28A322.123.627.324.925.8123.724.74A427.030.829.024.528.5139.827.96合计=550.817数据转换:如数值相差几个数量级,可用对数转换;如许多小区值为0,则可用平方根转换;如指标是百分数,且大部分数值大于70%或小于30%,可用反正弦平方根转换。一般用Tukey法和LSD法。但注意:目前国内目前的农药实验要求Duncan法。1819学会思考•在您目前从事或涉及到的研究领域,在实验设计或进行数据分析时,您最有可能碰到哪些统计学方面的问题?•在试验设计与数据处理分析中,您有可能用到工具软件(如DPS)中的哪些功能、或数据分析方法来解决您的问题,以及使用这些方法时的注意事项。20实验设计与统计分析21221实验设计•实验设计特点•实验设计基本原则•实验设计基本内容和步骤•常用实验设计方法231、实验设计ExperimentDesign的特点•试验研究和调查研究主要区别:对研究对象是否进行干预。•试验研究特点:根据研究目的(或假设)主动加以干预措施,观察结果,回答研究假设所提出的问题。24实验研究(例子)新农药防治某作物害虫的效果•首先假设该农药可以杀死害虫。•在田间划分几个随机区组,区组内随机设置小区,必要时各个小区接入害虫卵块。•将农药配制成不同的浓度,再加一个空白(清水)对照。在害虫防治适期施药、处理。•处理(施药)后24小时、72小时、…,调查各个小区的虫量(观察指标),并对数据进行方差分析,看各处理间有无显著差异,进而得出该农药是否具有对该害虫防治效果的结论。从该例中可以看出研究者施加了干预措施,即施用不同浓度的农药。再经过观察总结,验证提出的假设是否正确。252、实验设计基本原则–随机–对照–重复目的是为有效控制非处理因素262.1随机化原则•目的:研究者在实验设计时,并不完全知道实验过程中的许多非实验因素,随机误差干扰在所难免,因此有必要采用随机化的办法抵消这些干扰因素的影响。•随机化原则包括两方面–随机分配:把实验处理对象随机分到各个区组内,以增强可比性(区组内小区随机设置)。–随机抽样:总体中的每一个观察单位都有同等的机会被选入到样本中来(如实验结果的调查)。272.2对照原则设置对照小区,除实验处理不同外,实验过程中的实验条件和辅助措施都应相同,以便比较所研究对象存在的真实差异。–抵消害虫、病害自身消长趋势的影响–抵消实验环境的其它因素的干扰28常见的对照•空白对照(如农药药效实验中用清水处理,重金属元素检测的空白处理)•标准对照(如农药药效实验中的标准农药品种)29例子:复配农药防治一代二化螟的单因素随机区组设计单因素随机区组设计302.3重复的原则•是指各处理组及对照组的重复要有一定数量。•重复数太少的话,很可能把某些偶然现象当作客观规律。•重复数太多的?人力物力浪费。•在保证实验结果具有一定可靠性的条件下,确定合适的重复(区组)数量。313实验设计的基本内容和步骤•建立研究假设(提出要解决的问题)•明确研究范围(受试对象)•确立处理因素(处理因素)•明确观察指标(实验效应)•控制误差和偏倚(区组设计)323.1建立研究假设科研选题:研究的题目要有科学性和新颖性、社会效益和经济效益、最后要考虑可行性。333.2明确研究范围•实验中的三个基本要素为:处理因素、实验效应和受试对象。明确研究范围即:–受试对象所组成的研究总体–规定本次研究的总体范围•如研究病虫为害对作物产量影响,首先确定作物产量的考察标准以及计量方法,然后根据研究需要,选定实验田块安排实验,确定实验处理因素(不同的害虫密度梯度设置),使得实验效果清晰、明了。34实验设计的基本要素例如:用某种杀虫剂防治作物害虫,观察其虫口数量下降情况。基本要素:处理因素(杀虫剂)受试对象(作物害虫)实验效应(虫口数量下降)353.3确定处理因素•处理因素是根据研究目的而施加的特定实验措施(如农药药效实验种的不同农药浓度)。•为了增强可比性,实验通常设立对照,如空白或者标准。对照也是一种处理措施。363.4明确观察指标•实验中的实验效应主要指处理因素作用于实验对象的反应,这种效应将通过实验中观察指标显示出来。选用的指标应该是:–客观性强(易观察,可量可测,操作性强)–灵敏度高(对各个处理的反应要灵敏)–精确性强(要反应研究对象的实质,不受或少受其它因素的影响)373.5控制误差和偏倚误差(error):测量值与真值之差1,5,9=5(真正均值=5)偏倚(bias):在实验中由于某些非实验因素的干扰所形成的系统误差4,5,9=6(真正均值=5)38•完全随机实验•随机区组设计•裂区实验设计•正交设计•二次正交回归组合设计•均匀实验设计4常用实验设计方法39常用试验设计完全随机设计随机区组设计裂区设计样本容量估计随机分组方差分析多重比较局部控制随机分处理方差分析多重比较主区裂区方差分析正交设计水平数<5正交表安排方差分析均匀设计均匀表安排线性回归分析多项式逐步回归模型优化正交回归组合Mc+Mr+M0二次多项式回归模型优化水平数=5404.1完全随机实验概念:首先将受试对象随机分配到实验(处理)组和对照组,通过比较分析回答研究假设。统计方法成组设计的两样本均数比较(t检验),相应的秩和检验(非参数检验)成组设计的多个样本均数比较(方差分析),相应的秩和检验(非参数KruskalWallis检验)两样本率(卡方检验)或多样本率比较(Logistic回归)41完全随机设计的随机分配方法•使用随机数字表•DPS生成:如3个处理,5次重复,共15个实验处理(样品)的实验:42分配结果分组对象编号甲组1791014乙组58111315丙组23461243实验结果分析:方差分析假定该实验是甲组是对照,乙组和丙组是不同微量元素处理的盆栽实验,实验指标是植株鲜重,问不同处理的植株鲜重是否不同?133.8125.3143.1128.9135.7151.2149162.7143.8153.5193.4185.3182.8188.5198.644完全随机设计实验结果方差分析数据格式在菜单下执行“实验统计”-“完全随机设计”下面的“单因素实验统计分析”。45数据转换:如数值相差几个数量级,可用对数转换;如许多小区值为0,则可用平方根转换;如指标是百分数,且大部分数值大于70%或小于30%,可用反正弦平方根转换。一般用Tukey法和LSD法。国内目前的农药实验要求Duncan法。4647•数据描述:均值和标准差是必须的,处理样本数也要说明。•方差分析:F值、自由度和P值;如P0.05则差异显著,如P0.01则差异极显著。•多重比较:均值后面跟有相同字母的就没差异。48正确理解差异显著或极显著的统计意义•差异显著或差异极显著不应该误解为相差很大或非常大,也不能认为在专业上一定就有重要或很重要的价值.•“显著”或“极显著”是指不同处理没有差异的可能性小于5%或1%,即认为它们有实质性差异的可能性是95%或99%。•有些试验结果虽然差别大,但由于试验误差大,也许还不能得出“差异显著”的结论;而有些试验结果间的差异虽小,但由于试验误差小,反而可能推断为“差异显著”。49IIIIII均值A17.9710.6210.6213.07B41.9520.8879.1447.33C53.9598.1267.7573.27IIIIII均值A11.2212.5511.5516.53B23.4822.9432.0736.16C39.7141.8036.6151.64两个栽培试验,不同处理A、B、C间的成活率,谁的差异大?实验1实验2A:空白对照;B:标准对照;C:新技术处理50实验1的方差分析表方差分析表变异来源平方和df均方F值p值区组间325.702162.850.2630.7807处理间5470.9822735.494.4260.0969误差2472.304618.07总变异8268.97851实验2的方差分析表方差分析表变异来源平方和df均方F值p值区组间5.6522.830.1840.8386处理间1143.642571.8237.2360.0026误差61.43415.36总变异1210.72852两实验各处理均值比较实验1实验2处理均值5%显著水平均值5%显著水平处理373.27a39.37a处理247.33ab26.16b处理113.07b11.77cF值4.4337.24P值0.09690.0026534.2随机区组设计•概念:将研究对象按性质相同或相近者组成b个区组(局部控制),每个区组中的k个处理随机分配。•优点利用区组,进一步控制偏倚,减少实验的偏差;•但实验结果中若有数据缺失,统计分析较麻烦(目前可用一般线性模型解决)。54例用区组设计方法将20个实验对象,接受甲、乙、丙、丁4个处理。•将20个实验对象分成5个区组,即l一4号为第1区组,5—8号为第2区组,余类推,接受四种处理方式。5520名实验对象分配的配伍组和处理组区组处理组甲乙丙丁13
本文标题:数据分析及DPS数据处理系统
链接地址:https://www.777doc.com/doc-1819445 .html