- Articles
- Popular
数据丢失了怎么办?
试想一下,当你醒来后,你所有的研究数据都丢失了,会怎么样?这大概是研究人员的噩梦,而确实有些人很不幸的遇到了。虽然丢掉所有的听起来很吓人,更令人震撼的是一些研究人员存储数据的方法。加拿大温哥华英属哥伦比亚大学(University of British Columbia ,UBC)的进化生态学家 Timothy Vines 曾在他的论文“The Availability of Research Data Declines Rapidly with Article Age”中报道,研究人员承认他们曾经将旧数据储存在父母的阁楼、车库的箱子或者在现已过时的软盘等地方,这种做法的后果跟丢失完整的数据一样严重。
有效管理研究数据是不管在科研生涯什么阶段的研究人员共同面对的长期问题,Nature 的一篇文章中用统计数据说明过数据存储的重要性:
数据正在迅速增长
- 世界上 90% 的数据是近2年产生的
- 科研数据正在以每年 30% 的速度增长。
尽管有显著的投资,数据还是没有被有效管理
- 目前全球对研究与开发(R&D)的总支出估计为1万5千亿美元,这可能会处于危险之中
- 大部分产生的数据已经丢失 – 数据取得性正以每年 17% 的速度在下降
- 80% 超过20年以上的数据已经消失
这些统计揭示了科学界所面临的严重问题,数据的丢失为科学界是巨大过失。缺乏足够的数据使某些研究的再现几乎无法执行,举一个实际的例子,农业研究人员 Melvin McCarty 整整花了 15 年(1958年到1973年)在布拉斯加州附近记录过种种植物以及青草的生命周期,四十年后,生态学家 Lizzie Wolkovich 开始寻找 Melvin McCarty 的数据来探究气温上升对植物生命周期的影响,然而,此时 Melvin McCarty 已经过世,也找不到他的原始数据。这些数据的丢失是无法挽回的,而且从头收集这些数据意味着额外的支出。
研究数据丢失的主要原因在于数据的唯一来源是研究人员。因此,他们应该使用数据管理工具来安全地存储他们的数据。有许多这样的工具,比如电子记事本( electronic notebooks)、云存储服务 (cloud storage services)中的 Google Drive 和代码托管网站(code hosting sites)中的 GitHub。任职于 Digital Science 的 Nathan Westgarth 在发文中指出,跨越地域界限的合作研究变得越来越普遍,也使研究数据管理变得困难。合作者间的技术经验不同、对不同工具的知识程度不同,还有实验系统与过程的限制等因素导致数据的管理更加复杂,已经有很多因为缺乏数据而终止。
除了科研人员外,期刊也是保护数据的关键,现在有很多期刊强制要求作者们在投稿时提供他们的研究数据,从而确保数据的可取得性与保护。数据共享被很多人视为朝向开放科学一步,因为它能够保护数据并促进科技的进步。研究数据是无价的,所以研究人员和期刊应携手努力来确保数据永远不会丢失。
你是否有使用数据管理工具?共享数据能有助于避免数据的丢失吗?欢迎发表你的评论。