康奈尔大学教授因操纵 P 值,被撤稿及被警告文章累积达 29 篇
碗/盘子越大,人就吃得越多,换成小碗能避免吃太多。
用剧下饭容易吃撑,最多能比平时多吃 60%。
有女性在场时,男性会吃比正常饭量更多的披萨。
国内外教人健康饮食的网站没少援引这些有网感的研究。别以为这是什么爱瞎搞的机构出的调查,它们都出自康奈尔大学食物与品牌实验室 (Cornell Food and Brand Lab)。
这个实验室的负责人 Brian Wansink 是行为心理学出身,主攻饮食、健康领域的研究。除了搞科研,Wansink 还著有畅销书《无意识饮食》,经常在主流媒体露脸教人怎么吃、怎么减肥,可以说是该领域目前最火的研究者之一。
不过,这人最近又出事了。
5 月 8 日,《美国医学会杂志》(JAMA) 主编 Howard Bauchner 在其网站上贴出了对 Wansink 早前发表的 6 篇论文的关注声明 (Expression of Concern),并严词警告学术圈对这些论文中的研究效度加个小心。
JAMA主编关注声明,图片来自:JAMA Network
Bauchner 主编在声明中表示:“医学期刊最重要的特质之一是准确,而 Wansink 频繁(被)撤稿的现象给他的研究带来了很多不确定性,我们已经要求康奈尔大学重新评估他的研究,在积极的结果出现之前,我们不会撤销关注声明。”
这不是 Wansink 第一次和学术不端扯上关系。早在去年底,他就因为一年内有 5 篇论文被撤稿(其中一篇被撤两次)、论文修改 13 次,而被《科学人》列入 2017 年度十大撤稿事件。据《撤稿观察》 (Retraction Watch) 的数据显示,到目前为止,Wansink 所涉及的期刊撤稿和关注声明一共 29 个。根据撤稿时间倒序,我们将其中被撤稿的 7 篇论文整理如下:
序号 | 文章 | 发表期刊 | 发表日期 | 撤稿日期 |
1 | Shifts in the Enjoyment of Healthy and Unhealthy Behaviors Affect Short- and Long-Term Postbariatric Weight Loss | Bariatric Surgical Practice and Patient Care | 3/01/2017 | 3/19/2018 |
2 | Attractive names sustain increased vegetable intake in schools | Preventive Medicine | 07/27/2012 | 02/26/2018 |
3 | Profiling taste-motivated segments | Appetite | 10/30/2003 | 01/13/2018 |
4 | How Traumatic Violence Permanently Changes Shopping Behavior | Frontiers in Psychology | 09/06/2016 | 11/24/2017 |
5 | Can Branding Improve School Lunches? | JAMA Pediatrics | 10/01/2012 | 10/20/2017, 09/21/2017 |
6 | Low prices and high regret: how pricing influences regret at all-you-can-eat buffets | BMC Nutrition | 11/19/2015 | 09/15/2017 |
7 | Sensory Suggestiveness and Labeling: Do Soy Labels Bias Taste? | Journal of Sensory Studies | 11/01/2002 | 04/10/2017 |
所以,他的研究到底出了什么幺蛾子?
1. 论文重复发表、自我抄袭
Wansink 于 15 年发表的一篇论文和他 13 年的论文有 1376 字重复,虽然他把自己的论文加进了参考文献中,还是被期刊要求修改。
相似的,另一篇发表于 2003 年关于大豆的论文因为一稿多投而在去年被撤稿。
2. 样本年龄错误
Wansink 于 2012 年发表在期刊《预防医学》 (Preventive Medicine) 上、现已被撤稿的一篇论文,研究了小孩吃蔬菜这件事。他发现如果给难吃的蔬菜取个酷点儿的名字,比如“X 射线眼胡萝卜”,会让小孩改变心意,爱上胡萝卜,从而提高蔬菜摄入。不过,后来 Wansink 承认实验样本并不像论文里写的是 8-11 岁的学生,而是 3-5 岁的小朋友。
3. 用结论操纵数据、数据作假
Wansink 和其团队的邮件记录证实,他在许多研究中操纵数据。比如在一个有关自助餐的项目中,Wansink 要求实验室的研究生根据 p 值倒推变量,尝试不同变量,直到得出“一看就能火”的结果才行。
事实上,学术界对 Wansink 这些受欢迎的研究是否具有信度和效度早存在争议。来自波士顿东北大学的 James Heathers 自己编程,通过统计学原理,从一些已经发表的研究结果中推出原数据的可能面貌。
在跑完 Wansink 的几十篇论文数据后,他发现了 150 多处数据不一致。其中就包括上面的提到的胡萝卜实验。要得到和实验数据相匹配的结果,其中某个样本需要吃掉 60 个胡萝卜。对于 Wansink 给出的“实验用到的是只有正常大小 1/4 的小胡萝卜”,期刊编辑认为非常牵强。
Buzzfeed 对 Wansink 事件进行了一系列报道,他们结合学界其他研究者的意见,认为这些论文中出现的数据不一致,主要是 Wansink 团队在 p-hacking。
关于 p 值,以及它有什么问题?
在研究型论文中,多数研究者会使用假设检验的方法来统计概率。简单来说,假设检验的逻辑过程有 4 步:
- 提出问题,同时根据问题作出两个相反的假设,即零假设和备选假设
- 根据样本数据,算出零假设成立前提下,样本观察结果出现的概率,也就是 p 值
- 按照学术界标准,当 p<=5%,也就是我们常说的实验结果显著
- 得出结论,零假设被否认
为了让实验结果显著,大研究人员都受到不少来自 5% 这个硬指标的压力。感受一下豆瓣网友翕如这张饼图:
图片来自:豆瓣
为了使 p 值好看,统计时一旦 p 值显著就停止收集数据、根据 p 值显著性倒推变量、删掉一些初始变量改变 p 值等操作都属于 p-hacking。
这也就使容易被人为操作成为 p 值的一个黑点。反对 p 值的研究者认为,p 值应该作为衡量实验结果的参考,而不是唯一标准。意得辑专家视点此前就报道过,为了说明 p 值的存在的问题,期刊《Basic and Applied Social Psychology》(BASP) 在 2015 年宣布禁用假设检验及相关的统计程序。
此外,p 值的可重复性低也一直是个问题。弗吉尼亚大学的心理学教授 Brian Nosek 花了 3 年时间和同行研究者对 100 个已经发表的研究重新测试。这些早先 p 值显著的研究中,只有 36% 在二次实验中 p 值依然显著。p 值的不稳定性和样本体量、环境、学科领域间等因素有关。比如在上述项目中,认知心理学研究中的 p 值可复制率是社会心理学研究的两倍。
意得辑专家视点相关阅读:
- P 值用处何在?学术界争论再起
- 我的研究重要吗?为什么你不应依靠 P 值
- 怎么正确表现 P 值?
- Taylor & Francis 旗下 Basic and Applied Social Psychology 期刊宣布禁用 P 值
参考资料:
- Bauchner H. Expression of Concern: Wansink B, Cheney MM. Super Bowls: Serving Bowl Size and Food Consumption. JAMA. 2005;293(14):1727-1728.. JAMA. 2018;319(18):1869. doi:10.1001/jama.2018.4908
- Heathers, James A., et al. "Recovering data from summary statistics: Sample Parameter Reconstruction via Iterative TEchniques (SPRITE)." PeerJ PrePrints (2018).
- Wansink B, Just DR, Payne CR. Notice of Retraction and Replacement. Wansink B, Just DR, Payne CR. Can Branding Improve School Lunches? Arch Pediatr Adolesc Med. 2012;166(10):967-968. doi:10.1001/archpediatrics.2012.999. JAMA Pediatr. Published online September 21, 2017. doi:10.1001/jamapediatrics.2017.3136
- 《科学人》2017年度十大撤稿 https://www.the-scientist.com/research-round-up/top-10-retractions-of-2017-29834
- 《撤稿观察》上Wansink相关数据
- http://retractiondatabase.org/RetractionSearch.aspx?AspxAutoDetectCookieSupport=1#?AspxAutoDetectCookieSupport%3d1%26auth%3dWansink%252c%2bBrian
- Buzzfeed关于胡萝卜实验的报道 https://www.buzzfeed.com/stephaniemlee/brian-wansink-retraction-carrots?utm_term=.fr6Z32v6r#.bnyJo2Lqv
- 豆瓣饼图 http://www.douban.com/people/sociology_and_I/
- p值重复性研究 https://www.theatlantic.com/science/archive/2015/08/psychology-studies-reliability-reproducability-nosek/402466/
文章封面图片:flickr 作者 fickleandfreckled