诊断试验的统计学考虑--李卫

国家心血管病中心医学统计部主任、中国医学科学院阜外心血管病医院研究员、博士生导师，香港中文大学客座教授，国家食品药品监督管理总局(CFDA)药物/医疗器械临床试验审评专家,中国临床试验统计学组及数据管理学组成员、在临床研究设计及评价方面具有丰富的经验李卫研究员、博士生导师诊断试验设计与评价中的统计学考虑李卫国家心血管病中心医学统计部3医疗器械IVD体外诊断器械体内诊断器械监测器械诊断试验“体内”诊断器械(人体内做诊断)•植入性血糖仪•骨密度测量仪•体内摄影机（间接喉镜）X光机超声仪核磁设备无创肝脏硬度测量仪体外诊断“器械”(人体外做诊断)监测器械(也属于诊断器械)床旁监护仪(血压、呼吸)婴儿监测仪连续血糖监测仪体外诊断试剂(IVD)（实验室样品上进行诊断）胆固醇BNPGlucoseHPV诊断试验设计中的统计学考虑-金标准的选择-研究人群的选择-诊断准确性的评价指标（定性/定量）-诊断准确性的评价方法（统计方法的误用）-偏倚的控制措施（随机、盲法）-试验例数（样本量）9金标准的选择（标准诊断方法）目前公认的最可靠、最准确、最好的诊断方法临床上常用的金标准有组织病理学检查（活检、尸检）、手术发现、影像诊断（CT、核磁共振、彩色B超）、病原体的分离培养以及长期随访所得的结论金标准一般是特异性诊断方法，可以正确区分“有病”和“无病”10新诊断产品与诊断该疾病的金标准（GoldStandard）进行盲法同步比较！11“已有同类产品上市”的诊断产品可采用与已批准上市产品作为对比产品选择目前临床普遍认为质量较好的产品最好：对比产品曾做过与金标准对比的临床试验（一次传递）0%5%10%15%20%25%30%诊断的退化“安慰剂”方法1方法2方法3诊断的水平方法413金标准不适用/不存在可以构造专家组制定一套临床标准作为指定的参照标准虽然这种方法刚开始可能会更费时，但是，可以轻松地计算出灵敏度和特异度的估计值。建议：•标签上清楚地描述指定的参照标准•新参照标准不得依赖于新的诊断器械的分析结果构建参照标准之前咨询CFDA和统计分析人员！14金标准不存在，且无法构造（定性指标）与非金标准比较•不能用灵敏度和特异度描述比较的结果（无法知道真正的患病者）•评价指标：计算测量的一致性-阳性一致性百分比-阴性一致性百分比-总一致性百分比-95%可信区间（一致性百分比）估计阳性一致百分比和阴性一致百分比非金标准对照阳性阴性合计阳性40545检测阴性4171175合计44176220阳性一致百分比=（40/44）x100%=90.9%阴性一致百分比=（171/176）x100%=97.2%总一致百分比=[(40+171)/220]x100%=95.9%16不得仅计算“总一致性”总一致性的测量（包括整体百分比一致性和Kappa值）可能会引起误解某些情况下，阳性/阴性一致性百分比非常低时，整体一致性也可以很好不鼓励仅用“总一致性”指标来判定一项检测的诊断效果！例：同样的总一致百分比、诊断效能不同非金标准对照阳性阴性合计诊断阳性401959诊断阴性1512513合计41531572阳性一致百分比=（40/41）x100%=97.6%阴性一致百分比=（512/531）x100%=96.4%总的一致百分比=[(40+512)/572]x100%=96.5%例：总一致百分比高、低阳性一致百分比非金标准对照阳性阴性合计阳性40141诊断阴性19512531合计59513572阳性一致百分比=（40/59）x100%=67.8%阴性一致百分比=（512/513）x100%=99.8%总一致百分比=[(40+512)/572]x100%=96.5%19无金标准的一致性评价的不足一致并不表示“正确”两个检验(阳性/阴性一致性的百分比）可以高度一致，但-都是错误的，或-都有很低的灵敏度和特异度不一致时，并不一定意味着新产品是错的，而相对照的诊断结果是正确的20研究人群人群代表性？-当检测中的研究对象不能覆盖完整的病人的特点时（丢失重要的病人分组）例：某试验仅包括-非常健康的受试者-有严重疾病的受试者-忽略中间疾病状态的、难以诊断诊断的准确性受到质疑（高估诊断器械在实际使用的情况）21研究人群应包括两组：（1）一组是用金标准确定为有某病的患者（病例组）（2）另一组是用金标准证实无该病的患者或正常人群（对照组）22研究人群病例组：应包括该病种的不同病例-症状典型和非典型的-病程早、中、晚期的-病情轻、中、重型的-不同年龄层次的，。。。以便能反映该病的全部特征对照组：应包括确定无该病的患者，且易与本病相混淆疾病的病例23评价方法的误用（诊断结果为定量指标）24配对t检验对系统误差很敏感对随机误差不敏感仅反映整体平均误差，而忽略了个体的测量差异样本量足够大时可检验出无意义的差异25配对t检验（续）假设不同-t检验：两组均数的比较，与‘0’比无差异-诊断试验：两次测量值之间比较，非劣效t检验没有否定原假设（p0.05）时，不能下“一致性”结论（1）确实无差异（2）样本量不够，没有足够的把握度检测差异26简单相关系数Pearson相关两变量符合双变量正态分布的假设Spearman秩相关两变量不符合双变量正态分布的假设Kendall等级相关双变量均为等级资料(有序属性变量)27相关系数仅反映两变量线性关系的密切程度，而非一致性对相关系数的检验即使p0.05，无法下结论(两组均数的比较)仅当：斜率等于1、截距等于0时才为一致2829正确的统计学评价方法非劣效评价解释A评价指标差异：被试组vs.对照组BCDEFA非劣效性B非劣效性C非劣效性D不是非劣效性E非劣效性F不是非劣效性双侧检验Alpha=5%非劣效界值31图示：Bland—Altman方法定量分析与定性分析的结合同时控制系统误差和随机误差方法1）对每一对测量值画图2）测量间差值（纵轴）vs测量间均值（横轴）3）95%的点落在均值±2SD（须被包含在临床认可的界值之内）4）Medcalc软件32参照方法试验方法回归模型：分别估计斜率和截距的95%CI34控制偏倚的重要措施—盲法35•保证诊断试验结果真实可靠的关键•在试验操作的全过程和判定试验结果时，采用盲法（尽可能用双盲法）•双盲（试验操作人员&结果）-盲试验操作人员-盲结果评价人员同步盲法测试不知道样本性质36评价的原则数据分析时，无诊断样本（个体资料不全、诊断无效、“不应答”等），均应视为诊断错误对用于早期诊断、疗效监测、预后判断等的诊断试剂产品，在进行与金标准比较研究的同时，还必须对研究对象进行跟踪、报告37点估计的95%可信区间!p±1.96SE其中：SE=[p(1-p)/n]p:点估计值n:样本量38例：诊断能力及其95%CI39总结诊断试验是临床研究的重要构成诊断试验内涵广泛、形式多样合理设计、正确评价至关重要临床、统计等专业充分合作！李卫Email:liwei@mrbc-nccd.com

诊断试验的统计学考虑--李卫

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

电子设备装接工技师评分表

万科规划设计借鉴与管控要点实战培训

开采你的金矿-主顾开拓(简版)

四川省中医药管理局

党史学习教育民主生活会整改方案详情范例【最新4篇】

APQP量具、试验设备检查清单

10采购绩效评估与控制

西门子低压产品价格表

连锁企业促销管理

宣传策划中心规章制度与执行规范

相关文档

相关搜索