美國科研新規震動學界:共享實驗數據將成趨勢?
科學數據共享一直是學術界的期盼,但讓科學家自願把“攥”在手心的數據交出來太難了。現在,美國國立衛生研究院(NIH)要出頭當這個“惡人”。據《自然》報導,2023年1月起,NIH將要求其每年資助的30萬名研究人員和2500個機構中的大多數,在其撥款申請中包括一個“數據管理和共享”(DMS)計劃,並最終公開研究數據。
由於NIH是全球生物醫學研究領域最大的公共資助者,這項規定的影響將遠遠超出美國國界;它也向全球科學家發出信號,應該如何進行生物醫學研究。
研究人員在接受《自然》採訪時讚賞了政策背後的開放科學原則,以及所樹立的全球榜樣。但也有人擔心,由於要做大量數據收集工作,該政策或將加重青年科學家的負擔,加劇科學基金領域的不平等。
可重複性危機
“只發表論文不公開研究數據,可能會導致科學研究成果無法復現,不僅降低論文可信度,還可能衍生學術不端等行為。”《中國科學數據》常務副主編黎建輝在接受《中國科學報》採訪時曾表示。
此外,數據不共享還造成巨大的科研資源浪費。例如一項針對美國不可重複實驗的研究評估,每年有100億到500億美元浪費在使用缺陷方法的研究上,導致研究難以重複。最終,這筆巨大的成本主要由公共資助機構買單。
2021年,一場耗資200萬美元、歷時8年,旨在重複“頂級”癌症研究的嘗試就證實了這種不安:超一半的研究重複失敗。
這個項目名為《可重複性項目:癌症生物學》(RPCB),於2013年啟動,計劃重複53篇具有高影響力的癌症論文中的193個實驗。其中不少研究都發表在《自然》《科學》《細胞》等“頂刊”。
結果,由於論文數據和細節缺乏等原因,研究團隊不得不縮小了項目規模,僅對23篇論文中的50項實驗進行了重複,其中僅46%的重複結果與論文一致。
不僅如此,他們每重複一項研究就需要197週的時間,以及53000美元的成本,是預算的兩倍。
解決科學研究的“可重複性危機”,正是NIH數據管理計劃的目的之一。該計劃包含分析數據所需的軟件或工具的詳細信息,原始數據發布的時間和地點,以及訪問或分發數據時的任何特殊考慮。
NIH負責科學政策的代理副院長Lyric Jorgenson表示,不可重複的研究不僅浪費了納稅人的錢,還破壞了公眾對科學的信任。“我們想確保國家的投資有所收穫,並促進研究的透明度和問責制。”
錢從哪來?
但也有一些研究人員擔心,該計劃將帶來更多的工作量。
美國芝加哥大學免疫學家Jenna Guthmiller證實了這種擔憂。她是獲得美國國家過敏症和傳染病研究所(NIAID)項目資助的少數研究人員之一。該機構隸屬於NIH,Guthmiller所承擔的項目已經在執行與NIH新規類似的數據政策。
對Guthmiller而言,這意味著要為一個已經運行四年之久的項目溯源,找到那些消失很久的試劑和實驗條件的信息。這項工作花費了15個小時,“我很幸運,能和一名數據管理員一起工作。”
但絕大多數實驗室沒有這麼幸運,因為沒有專職的數據管理員。作為一個剛領導研究小組不到兩年的科學家,美國摩馬里蘭大學醫學院疫苗學家Lynda Coughlan對政策感到擔憂,她認為這項政策可能會給處於職業生涯早期的科學家帶來沉重的負擔。
此外,還有人擔心數據管理活動會使資金緊缺的實驗室“雪上加霜”。雖然政策指出,研究人員可以在擬議預算中增加某些費用,以抵消這項任務的新增成本,但並未說明NIH批准這些請求的標準。
因此,Jorgenson認為NIH需要明確如何授予這些費用,尤其是授予早期的科學家和資金緊缺的機構,以防加劇研究界的不平等現象。目前,NIH正在評估合理成本,並希望準備更多的指導和信息。
共享數據范圍仍模糊
實際上,NIH的數據共享政策還存在一些潛在問題。
根據該政策,除了會造成重大法律、倫理或技術負擔的數據,研究人員必須共享“驗證和重複研究結果”所需的全部“科學數據”,無論它們是否用於在學術期刊上發表論文。NIH還建議只在有信譽的存儲庫中共享數據,最終由研究人員決定將數據上傳到哪裡。
由於“科學數據”的寬泛表述,研究人員對到底要分享哪些數據感到困惑。Coughlan認為,很難預測哪些數據對其他人有用,或是否能被任何人獲取。
2020年,美國大學協會曾在針對該政策的早期草案中提出,NIH應該縮小“科學數據”的定義,並建議將其限制為只包括學術出版物的基礎數據。
但Jorgenson認為,政策的模糊性也為研究人員提供了靈活性,他們可以確定哪些數據對重現研究結果真正有用。例如,實驗不成功時收集的數據,雖然不用於出版,但對於其他研究者理解整個實驗同樣有幫助。
Jorgenson還表示,對於不遵守該政策的研究人員或機構,其未來的資金獎勵或將受到影響。