您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 医学科研数据的整理与分析
医学科研数据的整理与分析公共卫生学院薛萍检查整理分析结果主要内容科研数据分析前的准备工作12科研数据分析方法的选择3论文中统计结果的表达与解释4不同设计类型的数据分析方法数据分析中存在的问题5检查整理分析结果原始数据的检查第一节科研数据分析前的准备工作数据的计算机录入数据的整理缺失及可疑数据检查整理分析结果主要检查内容:有无缺失(漏填)数据。有无字迹不清。有无用错单位的数据。有无数据超出范围。如年龄超出入组标准的允许范围。有无不合逻辑数据。如舒张压大于收缩压。一、原始数据的检查检查整理分析结果原始记录的修改:发现错误应当由研究人员在原始记录上修改。修改时不可覆盖原数据,以便以后了解。一般用一条细线条划过原来的数据,写上正确数据,修改者必须在修改处旁边签名并写明修改日期。检查整理分析结果常用的数据管理软件有:MicrosoftFoxPro、MicrosoftAccess、MicrosoftExcel应用广泛的数据分析软件有:SAS和SPSS二、数据的计算机录入检查整理分析结果二、数据的计算机录入录入数据之前有要做:1.给每一个对象一个编号以识别录入的数据与对象的对应关系2.给输入的变量定义名称3.需要对变量的调查结果进行数量化数据的双份输入:为避免输入错误,由2名输入员独立地对同一批数据输入,由此应该形成2个相同的数据文件。检查整理分析结果数据的计算机检查当2份数据完全一致后,应当再进行数据的计算机检查,即由数据管理人员编写检查程序并检查,检查内容主要是范围检查和逻辑检查。运行检查程序可以检查出在目视检查时没有查出的超出范围、不合逻辑和各变量数据间互相矛盾的数据。对于检查出来的错误,需再次送往研究者进行改正。数据管理人员以改正后的数据再次更正数据文件,如此反复,直至再也找不出错误。检查整理分析结果三、缺失及可疑数据缺失数据是指其测量结果缺失。例如在问卷调查时遗漏出生日期和年龄,调查结束后又无法补救而使个别研究对象的年龄成为缺失数据;血脂或血糖因为血清量不足或研究对象拒绝采血而导致某些研究对象实验室的检测结果成为缺失数据。检查整理分析结果过大或过小的数据称为可疑值。可疑值可能是测定值随机波动的极度表现,它虽与其它数据相差较远,也可能同属一个总体。发现可疑值后,首先应从专业、技术与操作方面进行检查,寻找可能发生失误的原因。若查明属于粗枝大叶、中途条件改变、未遵守操作规程、仪器或试剂失灵等,则应舍弃该可疑值。若进行认真检查,未发现可以解释的原因,则应以统计方法判断取舍。可疑数据的处理检查整理分析结果例:在一个滴眼药的临床试验中,入选者58人,其中3例失访,另有5例因未能坚持定期随诊而被淘汰。作者以50例计算不良反应率。结果,国产制剂组30例,不良反应率为13/30=43.3%。进口制剂组20例不良反应率为2/20=10%。作者说:“患者失访及淘汰的8例中,主要原因之一是点药后疼痛感明显”。显然,这8例都曾用药,而且反应不良,应该参加不良反应的分析。由于排除了这8例,大大地缩小了不良反应率。由于作者未能说明这8例各用的是什么药,因而,我们也无法计算这2种药真正的不良反应率。作者的结论为:“药物的不良反应以疼痛为主,但大多数患者均能忍受”。这一结论显然是不够确切的,因为太多的人不能忍受。检查整理分析结果(一)数据的转换偏态分布资料数据转换数据变量转换的方法很多,可以根据数据的分布特征,选择合适的数据转换方法。常用的方法有对数变换,平方根变换或倒数变换等。数据转换的目的:①使偏态分布接近正态分布;②消除多组资料均数与标准差的正比关系。多见于用百分比做观察结果的数值变量资料。资料类型的转换四、数据的整理检查整理分析结果数值变量资料:频数分布表分类变量资料:行×列表有序分类资料无序分类资料资料的类型(二)数据的分组五、数据的整理检查整理分析结果第二节科研数据分析方法的选择统计分析变量间关系的研究、判别分析等统计指标统计表统计图区间估计假设检验Text统计描述统计推断检查整理分析结果统计描述数值变量资料分类变量资料绝对数相对数:率相对比构成比R×C表频数分布表非正态分布正态分布QMsx条图等线图直方图、、检查整理分析结果样本不是过小时,按正态分布规律,平均数减3个标准差仍应是正数。此例应采用适合偏态分布的中位数和四分位数间距。检查整理分析结果检查整理分析结果检查整理分析结果检查整理分析结果统计推断总体样本样本统计量估计与检验检查整理分析结果统计推断:区间估计▲概念:根据样本统计量,按一定的可信度计算出总体参数很可能在的一个数值范围,这个范围称为参数的可信区间。检查整理分析结果区间估计总体均数(μ)的100(1-α)%可信区间(CI):(1)已知总体标准差σ,按正态分布原理,计算公式为:(2)σ未知,n较小,按t分布原理计算:(3)σ未知,n足够大(如n>100),按正态分布原理计算:xασuxx,υstxxαsux检查整理分析结果总体率的可信区间估计查表法当n≤50时正态近似法当样本含量足够大,且样本率p和(1-p)均不太小。一般认为np和n(1-p)≥5。p±uαsp区间估计检查整理分析结果什么是假设检验?已知健康成年男子脉搏均数为72次/min。某医生随机抽查了25名某病成年男性病人,求得脉搏的均数为75.5次/min,标准差为5.0次/min,能否据此认为该病病人的脉搏均数与一般健康成年男子的脉搏均数有差别?统计推断:假设检验检查整理分析结果这里样本均数与总体均数的差异有两种可能:①差异仅仅是由抽样误差引起的。②差异不仅仅是由抽样误差引起的,还有疾病的影响。假设检验就是要回答“差别是否仅仅由于抽样误差所引起”这样一个问题。假设检验检查整理分析结果应根据分析目的、资料类型以及分布、设计方案的种类、样本含量大小等选用适当的检验方法。二、统计检验方法的选择检查整理分析结果单组试验样本与总体自身前后配对设计自身左右配对设计分类变量资料数值变量资料u检验t检验正态分布配对t检验符号秩和检验配对t检验,u检验,χ2检验或方差分析是否检查整理分析结果配对试验分类变量资料数值变量资料差异性检验配对χ2检验一致性试验(Kappa检验)正态分布与方差齐性符号秩和检验配对t检验是否检查整理分析结果完全随机设计两组试验分类变量资料数值变量资料有序分类无序分类正态分布与方差齐性秩和检验N>60成组t检验u检验χ2检验秩和检验否是是否检查整理分析结果完全随机设计多组试验分类变量资料数值变量资料有序分类无序分类正态分布与方差齐性秩和检验方差分析χ2检验秩和检验……否是检查整理分析结果第三节不同设计类型的数据分析方法完全随机设计配对设计检查整理分析结果完全随机设计与分析:案例1(数值变量资料)检查整理分析结果案例1检查整理分析结果案例1检查整理分析结果案例1多组比较呢?检查整理分析结果完全随机设计与分析:案例2(数值变量资料)检查整理分析结果案例2检查整理分析结果完全随机设计与分析:案例3(分类变量资料)检查整理分析结果案例3多组比较呢?检查整理分析结果测得某地5801人的ABO血型和MN血型结果如表,问两种血型系统之间是否有关联?疗法MNMN合计O4314909021823A3884108001598B4955879502032AB13717932348合计1451166626845801表.某地5801人的血型16.2131268434832...166618234901451182343158012222检查整理分析结果完全随机设计与分析:案例4(分类变量资料)检查整理分析结果案例4若分组项有序呢?检查整理分析结果检查整理分析结果对双向有序且属性不同的R×C表的两个分组变量,如年龄组别与某种疾病发生程度都是有序的,但属性不同,此时,也不适合选用χ2检验分析资料,因为χ2检验与两个变量的有序性之间没有任何联系,应改用与两个变量的“有序性”有联系的等级相关分析、典型相关分析或线性趋势检验。检查整理分析结果检查整理分析结果对双向有序且属性相同的R×C表的两个分组变量,如两种方法对某种疾病发病程度诊断结果,它们都是有序的,且属性也相同。此时,研究的目的是要考察两种测定方法的测定结果之间是否具有一致性,故仍不适合选用一般的χ2检验分析资料,应采用与两个变量的有序性有联系的一致性检验或称Kappa检验,还可以用特殊的模型分析方法。检查整理分析结果配对设计与分析单组试验样本与总体自身前后配对设计自身左右配对设计分类变量资料数值变量资料u检验t检验正态分布配对t检验符号秩和检验配对t检验,u检验,χ2检验或方差分析是否检查整理分析结果配对试验分类变量资料数值变量资料差异性检验配对χ2检验一致性试验(Kappa检验)正态分布与方差齐性符号秩和检验配对t检验是否检查整理分析结果配对设计与分析:案例(异体配对)检查整理分析结果配对设计与分析:案例(异体配对)检查整理分析结果配对设计与分析:案例(异体配对)检查整理分析结果配对设计与分析:案例(异体配对)检查整理分析结果配对设计与分析:案例(异体配对)检查整理分析结果一、“材料与方法”的统计表达描述研究对象的来源和选择方法,包括观察对象的基本情况、有无随机分组(随机抽样)及样本量估计的依据等。•若进行了随机化分组,应说明具体的随机化方法。•对于非随机化分组的观察性研究,除要明确说明观察对象的选择方法外(如是否配对、随机抽样),还应给出影响因素(如年龄、性别及病情)的均衡性分析结果。•对于临床试验,还需要特别说明诊断标准、疗效评价标准、病例入选标准、病例剔除标准、有无失访(失访比例)、有无“知情同意”及评价疗效有无遮蔽(“单盲”、“双盲”或“多盲”)等,以使读者确认论文中所有统计分析结果的可靠性和研究结论的合理性。说明采用的统计分析方法和统计计算的软件名称。第四节论文中统计结果的表达与解释检查整理分析结果“材料与方法”中统计表达常见的问题对研究对象的来源和选择方法没有任何说明,或说明的非常简单。例如,动物实验只说明经随机化分组,未说明具体的随机化分组方法(如完全随机、配对或分层随机分组等);观察对比的研究只说明组间均衡,未给出反映均衡性的统计指标;临床试验的疗效评价只说明采用了“盲法”,未说明是受试者遮蔽还是评价者遮蔽等;统计分析方法没有任何说明,特别是一些特殊的统计方法;试验的样本量非常小,如每组2例,不说明任何理由等。检查整理分析结果二、“结果”的统计表达(一)统计表的应用(二)数据的精确度:数值变量资料的统计指标的保留小数位数,应该与原始数据的保留小数位数相同;分类变量资料的百分比保留1位小数,一般不超过2位小数;相关系数保留2位小数检验统计量,如χ2值、t值保留2位小数即可。(三)选择最能说明问题的统计指标:I.数值变量资料常用描述研究结果的数据特征,但必须注意前提是要求资料近似服从正态分布。sx检查整理分析结果II.分类变量资料常用的统计指标有率和构成比(百分比)。注意分母不能太小时及不要将构成比误用为率。III.在临床疗效比较时还应注意,两组平均疗效有差别,并不意味着治疗组每个受试者都有效,对照组每个受试者都无效。要回答后一个问题,必须计算有效率。如比较盐酸西布曲明治疗单纯性肥胖的疗效,试验24周后,治疗组和对照组的平均疗效(体重下降值kg)分别为6.80±0.31和0.48±2.60(P=0.0001。按体重下降大于原体重的5%者为有效的疗效判定评价标准,治疗组和对照组的有效率分别为85.59%和7.84%,尽管平均疗效相差约6kg,但也要看到盐酸西布曲明对部分患者无效(14.41%)。检查整理分析结果(四)假设检验结果的表达假设检验的具体P值;理由:用统计软件可自动给出精确的P值。研究者不能年复一年、不顾具体情况的只用一个固定的界值判断问题,应该根据自己对问题的认识程度,具体问题具体分析。例如P=0.053与P=0.049都是小概率,不能一概而论P=0.053无统计学意义P=0.049有统计学意义。P值
本文标题:医学科研数据的整理与分析
链接地址:https://www.777doc.com/doc-1888354 .html