- Articles
- Popular
误信?科研发表所面临的问题
作为负责分子生物和遗传学论文的编辑,2013年10月19日那期的《经济学人》里的一篇文章内容对我来说切身非常。近来,科学似乎每下愈况,过去几十年建立起来的诚信基础被数个问题侵蚀,阻碍了我们追求解决各种挑战的方案和对这世界更深入的了解。一方面,科研人员的数量已经达到前所未见的程度,然而进行和发表的研究质量却掉到新低点。多种不同和相互影响的失误严重打击了科学的坚实基础,很多方面都出现了错误,包括研究设计、对显著性的了解、审查和出版,以及当今定义科学领域的竞争文化。
PLoS One的门槛极低,只拒绝发表研究设计里有程序上的差距之论文,即使要求如此基本,仍有接近半数的投稿论文被拒,而随着研究人员可用数据数量的增加,情况变得更为严重。在亚原子物理学中,夸克通常以两三个一组的形式出现,但研究人员相信他们找到5个一组的夸克,审查研究设计后发现研究数据分析没有正确蒙蔽,当纠正该疏忽后,就再也观察不到异常的夸克。同样的,2010年发现和公布的基因变异与寿命延长之间的关系必须在一年后撤销,因为研究人员以不同的方式对待来自百岁老人以及年轻参与者的样本。
大多数现代科学家们忙于推测与研究,目的是发表新的和令人惊奇的阳性成果。然而,有悖常理的情况常发生,即从设想中取得的阴性结果反而更准确。从统计数据发现,0.8功率的研究(即每10个结果中有8个为正确、其余2个属假阴性)获得的成果最具显著性;同时,不正确的结果中5%属误报。若把这些统计数据应用于1,000个接受测试的假设中,将会得到80个正确的阳性结果和45个误报。科学家报道的是他们认为是阳性的所有结果(125个),准确度只有64%。另一方面,若原来的1,000个接受测试的假设中有875个阴性结果,其中包括20个假阴性结果,那么这组数据的准确性就高达98%。
很显然,使用调查结果来驳斥一个假设比用来证实它来的可靠,但是越来越少发表论文描述这类结果。发表阴性结果的另一优点是未来实验或临床试验若探讨相同的概念时,可避免资源的浪费。统计方面还有另一个复杂之处:科学家们虽然明白统计显著性对实验结果起着决定性的作用,却没察觉到报告里所使用的方程式其细微之处,通常只选择使用自己熟悉或包含在软件里的公式。
发表过程虽然包含科研界引以为荣并备受推崇的同行评审制度,但未达到预期效果。出版商竞相发表的是以前从未被报道过和上面所提到的容易出错的阳性结果。审查稿件时,评审员本身往往无法察觉到论文所含的严重错误,这是匿名研究评审过程后的发现。在一项研究中,作者提交了含有明显错误的研究论文,其研究成果却被超过半数的期刊认可发表价值。备受尊重的《英国医学杂志》的另一个评估调查发现,从八个刻意加入的错误当中,其评审员们一般只发现两个或更少的错误,有些甚至连一个错误都没察觉到。
最后,现今已在科学界根深蒂固的竞争文化严重的阻碍了我们的进展。在“不发表、即灭亡”的大环境下,科研人员的职业生涯取决于发表大量不计可靠与否的研究成果。取自超过20年的调查数据显示,2%的参与者承认曾经为了发表论文而伪造数据;另外28%承认,他们知道同事采用的方法是值得商榷的。竞争也使得科学家们较不愿共享数据和研究方法,阻碍了本来就为数不多的复制研究。科研的一个标志,也是其可靠性的主要原因,是相同的实验都会产生相同的结果,即可复制性,不幸的是,近来发表的许多研究都是不可被复制的。当安进公司(Amgen)尝试对53个所谓具有里程碑意义的实验进行复制时,只有六个取得成功;拜耳集团(Bayer)尝试复制67个实验,成功率只有四分之一。更令人不安的事实是, 2000至2010年之间,近80,000名患者所参与的临床试验是基于因错误和不当行为被撤销的研究结果。虽然科学家们都承认要达到完美无瑕的境界是不可能的,但是他们都不愿更正犯下的错误和撤销错误的结果。
为了重新恢复大家对科学的信心,有人提出了几个解决方案,包括期刊使用更严格的方式来筛查错误,和通过研究的质量而非数量来奖励研究人员。然而,这些建议很难落实。如今,科学界肯接受的误差量是很惊人的。我们只能希望科学界在其公信力受到不可逆的损害之前能尽快解决其困境。
点击从另一个角度了解对研究创新性的重视。