喬斯林·凱撒,杰弗裡·布雷納德1 月 25 日在《科學》期刊上發表的<各就各位,預備,分享!>( READY, SET, SHARE!) 指出,隨著資助者推出免費提供數據的新要求,研究人員權衡成本和收益,正在開始分享它們在實驗室的研究成果。NIH 的新政策,承認如果數據可以自由共享,「科學將變得更加強大」。
文 / 葉德輝 綜合報導
喬斯林·凱撒(Jocelyn Kaiser) 是《科學》雜誌的特約撰稿人。杰弗裡·布雷納德 (Jeffrey Brainard) 於 2017 年加入《科學》雜誌,擔任副新聞編輯。他們在這篇報導中說,米勒醫學院的生理學家 Alejandro Caicedo 正在準備向美國國立衛生研究院 (NIH) 提供資助的提案。由於今天生效的一項新要求,他感到異常緊張。連同他的研究想法,為了研究為什麼胰腺中的胰島細胞停止在糖尿病患者體內產生胰島素,他將被要求提交一份計劃來管理該項目產生的數據並在公共存儲庫中共享它們。
數據可以自由共享,「科學將變得更加強大」
對於他的實驗室來說,這是一項艱鉅的任務。與神經科學或基因組學不同,Caicedo 的領域沒有通用平台或標準來存儲和共享他的實驗室生成的各種數據,例如胰島細胞對葡萄糖刺激做出反應的視頻。實驗室的博士後研究員朱莉婭·潘澤 (Julia Panzer) 指出,「龐大的」原始圖像文件目前存儲在校內數據庫中。為保護患者隱私,數據庫受到保護,不會向外人提供訪問權限。共享數據意味著將它們上傳到其他地方。
Caicedo 支持 NIH 的新政策,承認如果數據可以自由共享,「科學將變得更加強大」。但他說他的領域還沒有準備好。而且他擔心新任務將給他的博士後和研究生帶來負擔。他說,他的 600,000 美元 NIH 撥款無力為他的八人實驗室聘請數據管理員。「對很多人來說,這是一個非常有限的預算。」
在未來的歲月裡,許多研究人員將努力解決類似的問題。到 2025 年,美國對數據共享的新要求將超越生物醫學研究,涵蓋所有接受聯邦研究資助的科學學科的研究人員。歐盟和中國的一些資助者也制定了數據共享要求。美國的新舉措讓人們寄希望於全球範圍內增加共享的運動即將到來。支持者認為它可以加快科學的步伐和可靠性。
健康研究是共享數據的道德義務最高的領域
一些科學家可能只需要進行一些調整即可符合政策。這是因為數據共享在蛋白質晶體學和天文學等領域已經很普遍。但在其他領域,這項任務可能很重,因為分享往往是事後才想到的。例如,一項涉及 7750 篇醫學研究論文的研究發現,在 2015 年至 2020 年發表的論文中,只有 9% 承諾公開他們的數據,而只有 3% 的作者實際分享了,墨爾本大學的主要作者丹尼爾漢密爾頓說,誰在 2022 年 9 月的國際同行評審和科學出版物大會上描述了這一發現。即使作者承諾分享他們的數據,他們也常常無法兌現。2020 年發表在PLOS ONE上的一項研究發現,在包含數據共享計劃的 21,000 篇期刊文章中,只有不到 21% 的文章提供了指向存儲數據的存儲庫的鏈接。
在支持數據共享方面,期刊和資助者的記錄也好壞參半。在 2022 年 9 月的同行評審大會上提交的研究發現,在全球 110 家最大的衛生研究公共、企業和慈善資助者中,只有大約一半建議或要求受助者共享數據。
「健康研究是共享數據的道德義務最高的領域,」領導這項研究的悉尼大學臨床研究員 Aidan Tan 說。「人們自願參加臨床試驗,冒著風險推進醫學研究並最終改善人類健康。」
為什麼要共享科學數據?
調查顯示,在過去十年中,在許多科學領域,研究人員對共享數據的支持有所增加。但考慮到潛在的成本和復雜性,許多人對 NIH 政策和其他要遵循的要求感到擔憂。「我們現在如何到達那裡非常混亂,」發育生物學家兼亞利桑那大學研究副總裁帕克安廷說。「我真的不確定總回報是否能抵消成本。但除了嘗試去做,我不知道還有什麼其他方法可以找到答案。」
倡導者說,共享數據的科學家可以加速和改進科學並推進他們自己的職業生涯。例如,心理學、癌症研究和其他領域越來越多地努力重現已發表的研究,這取決於對基礎數據的訪問。這種訪問可以幫助解決論文中的明顯錯誤是由於無心之過還是偽造的數據造成的。例如,在 2020 年,一項備受矚目的研究聲稱服用抗瘧藥羥氯喹的 COVID-19 患者死亡風險增加,因為聲稱提供基礎數據集的公司 Surgisphere 無法生產該數據集. (當時的總統唐納德特朗普吹捧的旨在顯示該藥物益處的研究證明同樣存在問題。)
共享數據還有助於減少收集數據的重複工作。加州大學 (UC) 戴維斯分校的細胞和發育生物學家 Crystal Rogers 說,這尤其可以為小型實驗室節省時間和金錢。「也許這項政策會為公平競爭創造條件,」她說。「這將使機會民主化。」
研究決策者逐漸擴大了要求,以涵蓋所有科學領域的各種規模的資助,並提供了關於何時以及如何共享數據的更多細節。
現有數據可以幫助研究人員生成假設、設計臨床試驗和進行教學。
加州大學舊金山分校的神經科學家 Maryann Martone 說,通過匯集較小的數據集,科學家們可以進行薈萃分析,從而產生可靠或有趣的發現。她指出一項研究收集了 1990 年代進行的一系列關於脊髓損傷治療的動物研究的原始數據。個別研究的結果不一致,從未發表過。但是 2021 年對來自 1125 只動物的匯總數據進行的分析產生了顯著的相關性:脊柱手術期間血壓水平在特定窗口內的動物表現更好,這一發現在臨床研究中得到證實。「如果你能把這些小數據集放在一起,就會發現真正的黃金,」Martone 說。
對於共享數據的研究人員來說,一項已證明的回報是增加了對提供數據的論文的引用。根據 2020 年對 PLOS 和 BMC 期刊上 50,000 多篇文章的研究,提供數據鏈接的論文平均被引用次數比沒有提供的論文多 25%。
數據共享政策如何變化?
儘管越來越多的資助者希望受助者提供數據,但缺乏專業獎勵可能是造成普遍不遵守規定的原因。例如,分享通常在任期和晉升審查中沒有多大意義。根據美國大學協會和公立和贈地大學協會2021 年的一份聯合報告,學術機構應鼓勵部門制定提供此類獎勵的政策。
可能很難克服共享數據的研究人員無法從他人那裡獲得適當的信任——甚至可能被獨家報導的恐懼。「你如何確保有人不會獲取這些數據並將其作為自己的數據發表在一些小期刊上?」 Memorial Sloan Kettering 癌症中心的癌症醫師兼科學家 Jan Grimm 對此感到擔憂。數據共享的倡導者呼籲出版商通過要求使用其他科學家生成的數據的作者將他們命名為「數據作者」來阻止這種行為。
數據搜索工具 DataSeer 的創始人蒂姆·維恩斯 (Tim Vines) 表示,科學家們可能會逐漸將數據共享視為一種有用的負擔,就像同行評審一樣。「同行評審很煩人,但很多人說:’它改善了我的手稿。’ 研究人員接受了這一點。我們需要將
許多美國資助者已經制定了共享政策。美國國立衛生研究院一直是此類努力的領導者,1996 年為其人類基因組測序的受助者推出了一項政策,並於 2003 年將其擴大到涵蓋所有大型項目。現在,該機構正在擴大其規則以涵蓋其所有研究資助。
NIH 的新政策「強烈鼓勵」研究人員將項目數據存放在其他研究人員可以免費訪問的存儲庫中。該政策說,數據應該「具有足夠的質量來驗證和復制研究結果」。當有關它們的期刊文章發表或贈款結束時(以先到者為準),應存放數據。該政策延伸至未發表的調查結果,包括負面結果。
「我們真的想通過更普遍的數據共享政策來促進研究界的發展,」負責監督該政策制定的 NIH 科學政策辦公室代理主任 Lyric Jorgenson 說。
NIH 的推動可能會測試所有聯邦資助的研究人員在 2025 年 12 月之前需要做出哪些改變,屆時白宮科技政策辦公室 (OSTP)於 2022 年 8 月宣布的修訂後的數據共享政策將生效。(新政策還因要求期刊文章在發表時可以免費訪問而引起關注。)
與 NIH 的政策一樣,OSTP 要求同行評審學術論文「基礎」的所有數據在論文發表時免費公開(儘管它允許例外,包括如果採取該步驟成本太高)。該政策比其涵蓋的關鍵機構國家科學基金會 (NSF) 的現行要求嚴格得多,後者僅要求在「合理的時間段內」共享數據。預計 NSF 和其他美國研究資助機構將在今年和明年提出有關如何實施 OSTP 政策的細節。
NIH 的政策要求研究人員提交一份撥款提案,其中包括一份兩頁的數據管理計劃,列出他們將產生的數據類型、使用數據所需的軟件或工具,以及將存儲這些數據的可公開訪問的存儲庫。提交數據時,研究人員需要包括「元數據」或數據收集方式的詳細信息。他們可能需要重新格式化數據以符合存儲庫的標準。這些步驟旨在使數據符合稱為 FAIR 原則的國際準則,該原則代表「可查找、可訪問、可互操作和可重用」。
共享的支持者還呼籲 NIH 鼓勵但不要求的事情:選擇將數字對象標識符 (DOI) 附加到不同於用於識別相關論文的數據集的存儲庫。DOI——唯一的、永久的序列號——將使其他研究人員更容易找到相關數據。(作者和期刊還必須正確格式化手稿對相關數據的引用,以便搜索工具可以發現它們。)DOI 還將每個數據集標識為獨立的學術貢獻,使研究人員能夠聲稱生成和共享數據的信用。
一些最近開始根據現有 NIH 政策共享更多數據的研究人員表示,這個過程可能非常耗時。西奈山伊坎醫學院的病毒學家 Florian Krammer 說,重新標記、重新格式化和以其他方式準備論文的合著者收集的所有基礎數據可能需要半天時間——他通常在周末做這些工作。他的數據經理還需要一整天才能將數據上傳到數據庫。「我認為很多人都沒有意識到它的工作量有多大,」他說。
其他人指出,如果研究人員在項目開始時制定數據共享計劃,成本可能會下降。「實驗室管理得越好,時間就越短,因為事情是從一開始就記錄下來的,而不是在最後,」加州大學聖地亞哥分校的 Martone 說。聖裘德兒童研究醫院的病毒學家 Stacey Schultz-Cherry 是這樣說的:「我們都會抱怨,但從長遠來看,這確實有利於科學。」
難以共享的敏感數據怎麼辦?
生物醫學研究通常涉及可能不同意共享數據的人類受試者,即使他們已被剝奪了身份信息。NIH 的政策允許此類數據有例外。但該機構預計,在可能的情況下,新研究的同意書將要求參與者同意分享他們的去識別化數據。
儘管一些機構倫理委員會反對這種廣泛的同意,「我認為人們理解這是社區正在朝著什麼方向發展,」加州大學舊金山分校的醫生 Ida Sim 說。她是 Vivli 的聯合創始人,Vivli 是一些機構計劃用來共享臨床試驗參與者級數據的存儲庫。
臨床試驗研究人員以保密數據而聞名,因為他們擔心數據無法得到正確分析,或者他們仍在撰寫論文。許多人已經忽視了 2016 年 NIH 的一項規定,該規定要求在試驗主要完成日期後不遲於 1 年將摘要數據發佈在聯邦 ClinicalTrials.gov 數據庫中。但 Sim 說,NIH 數據共享政策已經被這些科學家「視為一項嚴肅的任務」。「我很高興這促進了文化變革。」
政策將如何執行?
由於生物醫學學科創建和使用數據的方式不同,NIH 表示它選擇通過不將其政策與詳細要求打包在一起來提供靈活性。
特別是,它沒有指定研究人員必須從給定數據集中共享多少數據。他們是否需要存儲分裂細胞的完整視頻或浸潤腫瘤的分子標記,這可能是千兆字節的數據,或者只是論文中呈現的靜止圖像?威斯康星醫學院心血管疾病研究員 Curt Sigmund 說:「我們中的許多人並不完全了解 NIH 期望在什麼水平上(從原始數據到完全處理和分組數據)共享數據。」 NIH 的喬根森說,答案是每個學科都需要計算出重現論文發現所需的「粒度」。
實際上,NIH 項目經理將在提交撥款提案時審查研究人員的共享計劃,並檢查進度報告以確保計劃得到遵守。該機構可以因不合規而終止撥款,儘管這種情況很少發生在違反其他 NIH 政策的情況下。但喬根森說,那些不共享數據的人可能會被禁止獲得新的資助。她補充說,實現數據共享政策的目標可能會「分階段和步驟」地實現。「我們不想把門檻定得過高,以免阻礙任何人參與。」
許多資助者和期刊一直在努力執行自己的共享要求。Vines 說,確認作者是否分享了支持一篇文章的所有數據可能需要進行仔細、耗時的檢查。出版商不會因增加的努力而獲得額外收入。
「遵守存儲數據的要求與創建一個非常適合幫助研究人員重用數據的生態系統不是一回事,」Ruediger 說。「這是一種非常不同的挑戰。」
目前,許多研究人員主要將數據存儲在他們的個人計算機上。共享數據意味著將它們轉移到幾個可能的歸屬地之一:研究機構的存儲庫;基於學科的,例如保存腦成像數據的 OpenNeuro,或存儲免疫學數據的 NIH 的 ImmPort;或通用存儲庫,例如 figshare 或 Zenodo。專家表示,許多存儲庫需要改進,以便更輕鬆地存儲、查找和檢索數據。
為了幫助駕馭這一新領域,一些大學正在加強可以提供幫助的員工,例如專門研究數據的 IT 專家和圖書館員。「我們正在重新確定我們在圖書館所做的一些事情的優先級,以適應這些要求,」北卡羅來納州 A&T 州立大學圖書館服務部主任 Vicki Coleman 說,該大學是一所歷史悠久的黑人研究機構。她說,圖書館將把工作人員從傳統的諮詢台轉移出去——其他大學也正在推行這一趨勢。
這些數據專家通常有巧妙的方法使常用的信息管理工具適應特定研究領域的需求。例如,許多大學現在為教職員工提供使用 Jupyter Notebooks 的培訓,Jupyter Notebooks 是一種旨在簡化數據共享的開源 Web 應用程序。額外的人員配備和培訓應該解決 Ruediger 在他的項目參與者中發現的一個問題,即鼓勵數據共享:「一種他們面臨的挑戰對他們來說是獨特和特殊的感覺。」
費用多少,誰來支付?
科學家們表示,很難估計清潔和準備數據以供團隊外部使用的成本。例如,西奈山的 Krammer 估計數據共享將佔用他至少 10% 的資金。僱用一名數據管理員每年可能花費 100,000 美元,但並非所有實驗室都需要一名。
美國國立衛生研究院表示,申請資助的研究人員可能會增加數據管理員的成本、工作人員準備數據的時間以及存儲庫費用。但由於 NIH 對許多資助有嚴格的美元限額,數據共享成本可能會削減可用於研究的資金。「如果你用數據共享和管理成本來增加你的資助預算,那會不會減少用於科學研究的資金?」 代表主要研究型大學的政府關係委員會副主席大衛肯尼迪說。
就大學而言,它們將不得不為支持數據共享的校園服務付費,例如圖書館員和對存儲庫的訂閱。機構可以將這些「間接」成本計入資助者通過贈款提供的間接費用。但這些報銷是有上限的。儘管大學長期以來一直利用自己的收入來幫助支付研究的間接成本,但一些人擔心數據共享將成為聯邦政府的另一項「無資金授權」。
根據對 34 名政府關係委員會成員的調查得出的初步分析,每個機構每年的成本將超過 100 萬美元,其中包括管理費用和調查人員的預算。肯尼迪說,這對較小的機構來說可能是一個特殊的負擔。喬根森承認,這是「一個巨大的擔憂」。「我們不想加劇資金結構中的不平等。」
另一個需要解決的挑戰:即使是最大的存儲庫仍在尋找可持續的商業模式。特定學科的項目通常由個別項目的贈款支持,這些項目在贈款結束後不保證資金。NIH 和 OSTP 的政策沒有詳細說明數據必須存儲和共享多長時間;喬根森說,該機構「將收集大量信息」,以便就此制定更具體的政策。
廣泛的數據共享是否值得付出努力?
懷疑論者表示,其好處尚未得到證實。Krammer 說,資助者應該收集和分析關於新的推動是否產生預期效果的數據。「需要在 2 年、5 年後進行評估,以查看
數據共享的支持者對此表示贊同——並認為結果會證實他們的看法。「我們需要一些真實的演示來說明這種級別的數據共享如何驅動發現引擎,」加州大學舊金山分校的 Sim 說。「我認為我們還沒有到那一步。但這有點像每個人都跳上了車,我們正在啟動引擎。」
本文僅代表作者立場,不代表本平台立場
Facebook Comments 文章留言