- 文章
- 热门
大数据对科学有什么意义?
几十年前,科学是 3 个互相关联模版的产物:实验、理论、计算。互联网和计算机时代的来临扩展了收集、储存和分享数据的能力,于是加快了数据的产生,快到科研数据产出已每年 30% 的速度成长,而且每二年就增加 2 倍,这种大量的数据就称为“大数据”。
大数据,或称海量数据、数据海啸,包含了从互联网、智能手机、科学研究、商业行为、政府及其他来源产生的所有数据。学术界因为大数据开启了数个科研可探索的途径,抱持欢迎的态度,而实际上很多人将大数据看作另一个模式的科学,一个奠基在收集和分析大量数据的模式。
大数据之所以这么热门不止因为它的数量,还有它的用途,这种可以取得的海量数据为科学本质带来改变,科学的演进已经变得越来越由数据驱动和数据密集,不论何领域,研究人员都可感受到大数据将转变成科研方法和流程的标准的潜力。早先只有高能粒子物理学和核聚变依靠大数据集,现在已有其他领域的研究人员加入探寻大数据的潜能,比如生物学家、化学家、物理学家、天文学家和基因组学家都尝试从大数据中创造更好的科研模式。
统计学家 David Rossell 博士提供了大数据如何帮助科学的事证,据他所称,大数据提供了前所未有的机会给客制化药物,因为分子水平的复杂疾病表征可与医学和治疗史还有诊断或影像检查结合,另一个应用大数据的例子是每秒记录4 千万次数据测试物理理论的 Large Hadron Collider。大数据集还能帮助管理城市和自然资源、研究气候变化、设计政治策略、了解舆论如何扩散等,除了这些之外,数据的全球可取得性也让科研跨越国境,研究人员可以更轻松地互相分享与合作。
科学家能取得更多数据一事看似光明,许多统计学人员觉得科学家应该要小心大数据,因为大数据也是有很多缺点,如何有效储存和管理大数据是最主要的挑战,大数据集过于复杂,不易用传统数据处理方式进行分析,还有,如果研究纯粹依赖数据,没有谨慎考虑分析的话,大数据有可能导致坏科学。大数据就是好数据吗?研究人员在处理大数据的时候还遇有哪些困难呢?我们将在后续的文章中讨论。