- 人物访谈
- 热门
Jo Røislien 博士:现在是成为生物统计学家的好时机!
Jo Røislien 是著名的国际科学传播家,经常出现在电台﹑电视和印制媒体,传授关于沟通复杂讯息﹑知识传播和自身的研究,他主持过挪威最大的国家广播公司 NRK 1 台的数学和统计学节目 Stiffer,以及探索频道(Discovery Channel)的多个科学节目。去年他与导演 Christian Holm-Glad 和电影公司 Bulldozer Film 合作,拍摄以数学为主题的短篇电影 Chasing the world’s largest number。此外,他首次参与 NRK 1 的 Digits 系列,获逐挪威年度电视奖 Gullruten 奖提名 2012 的两个奖项—「最佳新节目」及「最佳生活节目」。
Røislien 发表过很多数学文章,比如《数字的故事》(2013)一书,这本书获「年度最美妙书籍奖」,被 Journal of the Norwegian Medical Association 称之为「统计学书的小宝石」。
Jo Røislien 是挪威数学家﹑生物统计学家和医学研究人员,持有挪威科技大学(Norwegian University of Science and Technology,NTNU)石油工程系及应用地质物理系的地质统计学博士学位,曾在挪威国家大学医院(Rikshospitalet University Hospital)担任研究导师和奥斯陆大学(University of Oslo,UiO)生物统计学系任博士后研究人员,之后他成为挪威飞行救护车基金会(Norwegian Air Ambulance Foundation)的高级科学家。Røislien 博士以统计学顾问和研究人员身份参与过很多医学研究项目,合作机构包括 Vestfold Hospital Trust 病态肥胖中心﹑Sunnaas Rehabilitation Hospital 和挪威公共卫生研究院(Norwegian Institute of Public Health)。他目前在挪威斯塔万格大学(University of Stavanger)健康科学系担任副教授,同时也在奥斯陆大学生物统计学系及成瘾研究中心工作。
这是他的系列访谈第一辑,Jo Røislien 博士深入剖析数据和统计学分析的议题,发人深省。
可以谈谈您的研究兴趣吗?是什么吸引您关注这些主题的?
所有的研究论文最重要的部分是“研究方法”章节。结论当然是直接从研究结果得出,而研究结果则是从使用的研究方法直接得出,因此学术辩论往不是针对研究结果,而是研究方法,如果方法不成立,研究结果就没意思。
身为统计学家,我一直支持方法学。虽然我最后从事医学研究,但年轻时对医学不大感兴趣,我读工程﹑数学﹑信息学和统计学。十年前,我取得地质统计学及石油工程学博士学位后,我的妹妹鼓励我应征奥斯陆大学医院统计学研究导师一职,我还记得第一次坐在桌子前处理一些问题,突然意识到桌子上铺满的这些纸,上面的方程式是通往生死之门的钥匙,那个感觉很震撼,自此我再没有回头。
我曾参与很多医学研究项目,覆盖的医学和统计学题目很广,然后我的研究兴趣逐渐转向时态数据分析,主要研究怎样适当分析多人的多项时态数据,还有同时处理多层时态影响的模型,比如长期非线性増长﹑季节性影响和每周影响的组合,这些议题开启我与挪威公共卫生研究院﹑成瘾研究中心还有挪威飞行救护车基金会等机构的合作。
医学研究领域历逐渐发展,数据收集随之变得精密,随机对照试验无法解决所有问题,因此为了要找出因果关系,现在的研究设计倾向得出更复杂的数据,这部分的方法学研究现在发展蓬勃,因为很多分析这种数据的统计学模式太简单,甚至不存在,因此现在入行当生物统计学家是好时机。
可以说说现在生物统计学领域中的数据本质吗?
当医学统计学家很棒,处理的问题种类﹑数据林林总总:在实验室用 6 只老鼠做研究;有两组共 50 位受试者的小型随机临床试验;以健康危机为题的大型纵向观察研究,数以千计的研究对象,每人有数十个时态测量点;涉及数以百万个研究对象的注册研究,要计算的变项有几百个;分析癌细胞放射学影像的二维﹑三维几何空间和基因组数据的一万维。
医学数据收集很少单纯只是为了收集数据,一般我们有想要检验的假设﹑有想要找到答案的问题,所以收集的数据非常专门,也很费时,博士生往往在开始研究的前几年都要专注在收集数据,然后才可能有机会分析数据,得出研究成果。我当然赞成让更多人能接触数据,但当你是数据的使用方,说起来当然容易。如果你花了多年时间收集一个你感兴趣的专门课题的数据,然后因为不愿意开放数据让所有人使用,而被指为保守﹑自私,如何公平地分享研究数据不是那么简单。
有时候收集数据的难度极高,「收集数据的方法」甚至可以自成一个研究领域。我现在跟挪威飞行救护车基金会合作,提升就医前医疗保健的知识,收集数据是其中的核心工作。当有意外造成严重伤亡,直升机首先到达现场,你第一时间不该也不能做的,是在特定表格中记下可能出现不同的干扰因子,或测量一系列的基准值,用作计算病患血液的不同生物标记,可是,当病患被送进医院后才测量这些数据,那么从你一接触到病患到他接受医院治疗这中间的数据就没了,那你怎么有办法知道在这个过程当中你采取的行动是否有帮助到病患呢?
我们一定要与工程师﹑分子生物学家等多个领域的专家合作,才能找出要测量什么﹑怎么测量,最好在真实情况连续测量,这样找出身体对多种干扰物的反应的可能性就会大大提升,我们知道时间非常关键,但究竟怎样关键?
整体来说,您觉得研究人员在数据挖掘上有什么困难或危机?
概率很有趣,概率比我们已经找出的多很多,所以谈到数据挖掘,有些人会提醒大家小心,我是其中一员,统计学分析不是要「找出数据的规律」,数据总有规律,小的﹑大的﹑简单的﹑复杂的,你越深入的分析,找出的规律就越多。
因此如果你开始挖掘,重点不是有没有找到规律,而是找到的规律能否反映数据的真实结构,还是单纯因概率而成,统计学分析是分辩真实规律与随机规律﹑真正的相关与单纯概率,最重要的是统计学量化研究成果的可信度,或者证实不可信的。
所以当我获邀在 2013 年秋天在奥斯陆进行 TED 演讲,我选择的讲题是“海量的悖论”(The Paradox of Plenty),悖论是在大数据集找到的规律自然较多,规律也较复杂,但都只是概率。可是我们对大数据集的规律较有信心,就是因为有大量的数据。
你不用上很多统计学和科研方法的课,也会发现挖掘数据引起的问题可能比什么都不做来得多,现在最大的困难不是没有数据,而是没有好的分析。
现在挪威有个叫做“Big Insights”的研究项目名为,目标是研发大数据集的统计学分析法,我很期待他们的研究成果。
不要错过下辑访谈,Røislien 博士将分享他对研究、复制研究还有同行评审的看法。