- Articles
- Popular
模式转变:将统计显著与试验数据的临床意义结合
在循证医学中,统计信息对于研究人员解释观察结果并提出治疗建议至关重要。P 值作为广泛接受并且过度使用的临床试验数据分析方法,反对过分依赖 P 值决策的声音在研究领域越来越大。最近在知名期刊上发表的几篇文章开始质疑“统计显著性”概念的普及。
P 值的争议
P 值被引入到统计学中,不是作为确定性检验,而是用于判断重复实验时得到实验所收集的证据的可能性。简言之,P 值区间为 0 到 1;值越低,实验结果出自于偶然的可能性越低。通常,P 值为 0.05 是判定研究是否可靠的门槛,从而确保发表论文的可靠性。然而,这个门槛值是随机的,P 值本质上更像是一种实用工具,当与背景知识相结合时,会产生更好的科学理解。事实上,美国加劳德特大学的 Regina Nuzzo 教授在其获奖的文章中表示,0.05 这一神奇边界的移动性太高,因而不可信,因为增加一些额外数据即将影响从显著变为非显著。
过度依赖 P 值来确定实际治疗效果使得生物医学文献研究只报告统计显著结果,但未考虑证明临床价值的重要因素。这种不一致的产生是因为统计显著性的双边界未考虑个别关键因素,如治疗效果的大小,次要终点的治疗效果,治疗效果在一般风险和效益评估中的意义,治疗效果的生物学可能性、再现性、以及对推论过程观察的普遍性。近年来,至少有一个学术期刊《基础和应用社会心理学》 (Basic and Applied Social Psychology) 已经禁止使用 P 值。这个决定或许令人震惊,但是在影响力很强的期刊中,如 Buyse 等研究人员发表的论文确实主张基于非显著统计结果解释临床数据。
临床上相关的变化通常通过最小重要变化(MIC)或最小临床重要差异(MCID)等术语来识别。然而,在客观检查的情况下,临床意义不明确。但是通过统计数据来评估研究的临床意义时,单纯考虑 P 值肯定是行不通的。
将临床意义与统计显著结合起来的方法
用两分法来看临床试验结果是否具有统计显著经常会扭曲对当前已收集数据的更广泛解释。以效应量和置信区间表示的治疗效果的程度和相对重要性被认为是报告临床试验结果更可靠的方法。
效应量:用“是”或“否”来简单解释治疗效果可能会广受欢迎,但对于不想通过二分法衡量治疗效果及其生物学重要性的研究人员来说,这是不现实的。在临床数据分析中引入效应量是评估临床意义的一种很好的方式。它反映了群体之间结果的差异程度;治疗的效应值越大,实验组与对照组之间的差异越大,对患者的意义越大。
置信区间:置信区间是许多研究人员首选的方法,也由报告试验统一标准 (Consolidated Standards of Reporting Trials, CONSORT) 声明所认可,它表明了衡量效果的不确定性水平。换句话说,通过置信上限和置信下限,可以推断真实的群体效应处于这两个值之间。除了跟 P 值一样能体现结果是否具有统计显著性之外,它还能表示结果的精确度。
贝叶斯方法:基于P值推理的问题反映了现实生活中的一个逻辑谬误—条件概率倒置。正如贫血患者感觉疲劳的可能性与患有贫血的疲劳个体的可能性是不同的,干预组与对照组之间差异小于 0.05 的 P 值并不表示治疗起作用的可能性。为了捕捉现实生活场景的流动性和不确定性,贝叶斯方法改变了临床试验数据分析的范式。该方法解决了模仿医生批判性思维过程的研究问题,其中包括仅在考虑诸如疾病的患病率,患者的人口统计学和症状,评估预测试概率,并进行诊断测试后才做出决定。随着越来越多的研究(如 Bittl 和 He 的研究)推广这一方法,与经典统计相比,贝叶斯统计似乎更适合整合统计学证据和临床意义。
虽然显著性测试永远都会有支持者,但研究人员现在应该开始认识其不足之处。在报告临床试验结果时,帮助读者评估重要性的最佳方法是明确报告研究的每个关键细节,并将所有可用的临床知识分享给其他研究人员。
意得辑专家视点相关推荐阅读: