研究无法重复的问题很严重,但也是被误解了

系列:
01
研究无法重复的问题很严重,但也是被误解了

科研人员通常都很繁忙,而 Jonas Ranstam 大概是最忙的人。Ranstam 博士是全球公认最高产的审稿人,一年大约评审 661 篇论文。这位医学统计学家在 2016 年赢得科学保卫人士奖项 (Sentinels of Science Awards),该奖项由 Publons 发起,旨在表彰审稿人的功劳。Jonas Ranstam 博士也被 Publons 选为 2016 顶尖审稿人之一。这次我非常荣幸能有机会采访 Ranstam 博士,跟他一同讨论医学统计和同行评审等话题。

在从全职学术人员退休之前,Ranstam 博士服务于多个单位,其中包含瑞典隆德大学 (Lund University) 的教授及医学统计高级讲师。目前,身为医学统计学家的 Ranstam 博士担任在学术和研究单位、医院、政府单位和私人公司的临床和流行病学调查人员的统计顾问。他也贡献他的专业在《Osteoarthritis and Cartilage》(担任副编辑)、《British Journal of Surgery》(担任统计编辑)和《Acta Orthopaedica》(担任统计顾问),同时也是多个国际科研医学期刊的统计审稿人。他也经营一个名为 Statistical Mistakes 的博客,主要关注医学研究中的统计错误的系统综述,提供参考文献叙述如何避免这些错误。

在 Ranstam 博士访谈的第一辑中,我们谈了好几个话题:统计方法、他的博客、曝光医学研究中不确定的研究结果所带来的不可重复危机等。Ranstam 博士还谈到了科研人员在论文中呈现统计数据时常犯的错误。

让我们先来谈谈您目前的工作,独立统计学家、顾问的工作内容是什么?

我处理医学研究问题,主要是临床治疗研究方面的。举例来说,我参与多个研究项目的研究设计开发,然后我会写研究 protocol 以及统计分析计划。我会分析数据,写成研究报告。我还审查论文、基金申请书,有时候还有工作申请。不过,与我先前在大学当教授很不同的是,行政工作很少,而且几乎没有教学工作。

是什么让您想开始写 Statistical Mistakes 博客?

一切是从我自己在用的参考清单开始的,我经常会在审稿意见中加入已发表的论文当作参考,帮助作者学习,而我自己会希望能有一个随手取用的清单。将所有的信息存放在 Word 文档中不是很好的做法,因为我经常在不同地方用不同电脑工作,于是最简单的解决办法是 WordPress 博客系统。

我觉得公开这个清单没有什么坏处,我想这对其他在写论文或评审论文的人可能很有用。

我还有参与其他两个博客,国际集合替换安全警报 ArthroplastyWatch 以及瑞典国家饮用水警报 DRICKSVATTEN.BLOG

您在博客上提过医学研究人员对统计方法很愚昧,这该如何改变?医学研究人员,或是与数据共处以及使用统计分析的所有研究人员,该如何意识到这个问题?

是的,很不幸这是事实。Douglas Altman 曾经写道“大部分的统计分析都是在对统计方法了解不足的情况下做出来的,然后再由对这方面也一无所知的人评审”。(Altman DG. Statistical reviewing for medical journals. Stat Med 1998;17:2661-2674)

统计错误带来的后果会影响所有的人。如果没有统计,我们就没有办法用更少的副作用和成本进行更有效的治疗,我相信主要的问题是成功的医学研究需要了解随机现象,而大部分的医学研究人员都有确定性取向 (deterministic orientation)。

已经有人尝试改善医学研究的质量,举例来说,许多医学期刊开始重视统计审查的重要性。使用公开试验注册和遵守 CONSORT、PRISMA 和 ARRIVE 等报告清单也已经成为论文发表的必要条件。

您在一个简报中有提到“就算不是所有的科研作者都这样,也有许多作者低估他们的研究发现的不确定性”,您能说明下这个部分吗?

医学研究大部分都是定量的,也就是说,这包含研究发现的抽样量化以及不确定性测评,通常是用 p 值和置信区间来测量。不显著的结果通常被视为不确定性太高,不能发表。

但是,即使 p 值与置信区间的计算正确,要制造出不确定性比真实来得低的印象是有可能的。例如,假说研究的结果可以表现得已经确认一般,忽略多重测试的效果,或是用不足的方式纠正,这些缺失不一定是有意而为,但一般的方法实践似乎会产生出有系统地高估实证支持的研究结果。加上现在“不发表,即灭亡”的文化让发表变得如此重要,这样的发展似乎也不是那么让人惊讶。

在另一个简报中,您提到期刊编辑都想要推出发表指南,因为指南能带来引用,这部分可以为我们说明下吗?

这已经有讨论过了,有些发表类型,比如综述文章和指南,引用会比其他文章类型来得多,因此对期刊的影响因子有更大的影响。

我不确定这个现象的研究有多深入,但我记得当我开始医学统计生涯的时候,最多人引用的医学研究是 Sydney Siegel's Nonparametric Statistics,这是一本统计学教科书,里面有任意分布检验 (distribution-free test) 的指南。

数据管理、数据储存还有数据共享在医学统计研究和生物统计研究中占有什么样的地位?

我个人的看法是重复研究结果是很重要也必要的事情,但开放数据和数据共享的讨论看起来有些幼稚。处理负责的数据结构以及先进的统计分析会有许多不该被低估的问题,统计再分析中的错误和误解可以轻易地让完善的研究发现失去信用。我相信公开共享数据需要有避免这类问题产生的做法一同实施。

就您看来,科学面临的不可重复问题有多严重?该如何解决?

不可重复问题很严重,但也被误解了。科研发展依附在质疑已建立的事实上,重复研究结果是很重要的一环,但无法成功复制也不一定那么糟。

我认为正确区分研究很重要。许多研究都还在探索阶段,这时的目标是建立假说,这类的研究可以好好计划和实行,但也有可能出现单纯为猜测的结果,这些发现的不确定性无法确切计算,那为何结果还需要可以重复?

但是,确认研究 (confirmatory study) 的结果虽然也是不确定,但是是在定义范围内的,因为这些研究的设计和实施的方式都能够计算推断结果的不确定性。尽管如此,这些结果还是有部分会失败或是无法重复。

很可惜,统计错误在很多研究都占有重要位置,举例来说,实验室的实验经常缺乏预先设定的终止点和分析计划,包含使用不足的多重校正进行多项检验,还用了相关观察为基础,而不是独立观察。此外,人们一般不管假设是否有通过统计评估。还有一个严重的错误经常出现在流行病学研究中。

要解决这个问题没有捷径,但统计严谨性很显然需要我们更理性使用研究资源。

就您自己身为科研作者、审稿人以及编辑的经验,作者在论文中呈现统计数据常犯的错误有那些?可以怎么避免?

就我来看,最常见的错误是由于对 p 值还有统计显著性的误解所产生的。这些跟不确定性有关的评量经常被错当作重要性指标。

有好几篇最近发表的文章,其中有一篇是《American Statistical Association》发表的,里面都讨论了这些问题,也提出了该做的改变。《Basic and Applied Social Psychology》(BASP) 这个期刊也禁止“零假设意义检验”(null hypothesis significance testing) 使用 p 值以及其他的统计评量。不过,忽略推论不确定性只会让情况变得更遭。

【以上是 Jonas Ranstam 博士访谈第一辑,在下一辑的访谈中,Ranstam 博士会谈到学术出版同行评审,敬请期待!】

期待学术生涯高歌猛进,发表过程一帆风顺?

来加入我们活力洋溢的在线社区吧。免费注册,无限阅览。

社交账号一键登入

已有54300名科研人员在此注册。