- Articles
- New
统计功效——生物医学实验知识要点
统计功效不足是致使生物医学类研究质量低下的关键原因之一。[1]包括《试验报告统一标准》(Consolidated Standards of Reporting Trials, or CONSORT)[2]在内的一众写作规范均要求作者验证其样本量的合理性。《英国外科学杂志》(British Journal of Surgery)[3] 及《美国医学会神经病学杂志》(JAMA Neurology)[4] 则规定作者在稿件中展示功效计算过程。还有一些出版物,如《分子遗传学与代谢》(Molecular Genetics and Metabolism),更是明确表示“对于未含功效计算的稿件,将不予评估,直接退稿”。[5] 对统计功效有着严格要求的不止医学和生命科学,美国心理学会在其《心理学研究报告准则》(Reporting Standards for Research in Psychology)[6]中,同样强烈建议论文作者在方法章节给出功效分析。
什么是统计功效
在统计学中,功效指在检验假设中,拒绝原假设后,正确替换假设被接受的概率。统计功效不足的研究,往往会无法识别出重大发现或得出假阳性结果。进而令数据的一致性存疑,且具误导性,最终动摇研究信度。[7]
如何计算统计功效
在设计实验时,需要考虑以下四个要素:
一:样本量,即抽取的样本元素(如患者)总数,通常以N来表示。
二:效应量。通常来说,效应量越大,所需样本量越小。
三:α水平,即显著性阙值(通常是.001,.05 或 .1)。若p值达到或高于α水平,则研究结果在统计学上不显著。
四:功效。代表发现效应的可能性,为数值。
上述四个参数相互关联。当掌握了其中三个参数的值,便可得出第四个参数。如上文所说,通常α水平是固定的。而在查阅文献中也可大致了解效应的大小。所以,若想让研究具有较大的功效,就需要关注样本量。
本文并未提及研究方法,因为研究功效与其方法无关。一些研究本身的统计功效较小,却不妨碍其设计得精密严格,许多临床试验就是如此。但无视统计功效可能会因样本量过小而无法识别研究效应,既不能得到有信度、可重复的结果,又浪费了时间和资源。
什么时候计算统计功效
数据收集一旦完成,功效就难以修正了。因此,在实验设计阶段作先验功效分析就十分必要。如研究属长期型,可能还需作中期功效计算,以便调整样本量,避免研究过早结束或不必要地延长。当面对非显著的研究结果,有时也要作后验功效分析以进一步查明原因。值得一提的是,功效计算还能为基金申请增色,它能帮助评审人员衡量研究的可行性。
结语
功效分析能帮助研究者回答自己提出的研究问题,自圆其说。而功效值又取决于研究者是否能准确估算所需样本量。
参考文献
[1] https://royalsocietypublishing.org/doi/10.1098/rsos.160254
[2] https://www.equator-network.org/reporting-guidelines/consort/
[3] https://academic.oup.com/bjs/pages/general-instructions
[4] https://jamanetwork.com/journals/jamaneurology/pages/instructions-for-authors
[5] https://www.elsevier.com/journals/molecular-genetics-and-metabolism/1096-7192/guide-for-authors
[6] https://www.apa.org/pubs/authors/jars.pdf
[7] https://web.ma.utexas.edu/users/mks/statmistakes/UnderOverPower.html