編譯 游文娟
本文展示數(shù)據(jù)共享的現(xiàn)狀和問題,通過案例分析,提出科研數(shù)據(jù)共享的建議。
你會跟大家共享你的科研數(shù)據(jù)嗎?當(dāng)把這個問題拋給科學(xué)家時,他們絕大多數(shù)都會回答說“當(dāng)然”,因?yàn)閿?shù)據(jù)共享帶來的好處太多。
那些從數(shù)據(jù)開放獲益的人往往他們本人沒有擁有大量數(shù)據(jù),同時他們也沒有機(jī)會來研究物理實(shí)驗(yàn),去野外搜集樣品,獲得臨床腦部成像等。而那些共享了數(shù)據(jù)的人也可以從交叉學(xué)科背景的專業(yè)人士的眾包審查、數(shù)據(jù)分析、數(shù)據(jù)整合中獲益,而且數(shù)據(jù)共享后,更多的人來研究數(shù)據(jù),也將帶來更多的想法,拓展更多的視角。對于科學(xué)研究的資助者而言,數(shù)據(jù)共享將減少投資成本,減少重復(fù)性勞動。而對科學(xué)本身而言,數(shù)據(jù)聯(lián)合共享后,通過統(tǒng)計(jì)學(xué)的驗(yàn)證,增加可重復(fù)性的機(jī)會,最終有助于提升科學(xué)研究的可信度。
然而,令人心酸的是,約30%~50%的報(bào)告因?yàn)闃颖静痪哂薪y(tǒng)計(jì)學(xué)意義而沒有辦法重復(fù)。
盡管共享好處多多,但2015年的一項(xiàng)研究證實(shí),已發(fā)表論文中只有13%展示了可以供別人再次驗(yàn)證的原始數(shù)據(jù)。為什么如此多的科研人員不愿意共享數(shù)據(jù)呢?因?yàn)樗麄冮_放數(shù)據(jù)后的短期回報(bào)還不足以平衡他們在研究過程中的付出,甚至還會導(dǎo)致他們競爭優(yōu)勢喪失——2002年的一項(xiàng)調(diào)研報(bào)告揭示了這一現(xiàn)狀。這在一定程度上是由于資助機(jī)構(gòu)、期刊和機(jī)構(gòu)在數(shù)據(jù)共享方面的模棱兩可的立場導(dǎo)致。例如,雖然出資機(jī)構(gòu)已經(jīng)開始強(qiáng)制要求共享,卻沒有將共享作為審查的必要內(nèi)容,這樣被資助的研究人員不共享也不需要承擔(dān)后果。被授權(quán)可以共享數(shù)據(jù)的期刊只是少數(shù),出版行業(yè)對于數(shù)據(jù)是否共享仍然可以自由選擇。而學(xué)術(shù)機(jī)構(gòu)鼓勵并積極支持?jǐn)?shù)據(jù)共享,但沒有將共享作為晉升和任期考核指標(biāo)。
即使共享的短期回報(bào)可以預(yù)見了,數(shù)據(jù)共享還將因?yàn)槿狈夹g(shù)支持和實(shí)施辦法而受挫。首先就要面對共享對基礎(chǔ)設(shè)施需求的挑戰(zhàn),當(dāng)下還缺乏便捷管理數(shù)據(jù)、處理隱私問題和數(shù)據(jù)長期維護(hù)的標(biāo)準(zhǔn)和工具。資助機(jī)構(gòu)和期刊會特別強(qiáng)調(diào)缺乏免費(fèi)數(shù)據(jù)存儲資源(例如,https://www.nitrc.org),實(shí)際上,為數(shù)據(jù)傳播而實(shí)施的準(zhǔn)備工作和組織工作是一項(xiàng)量大而艱巨的工作。在促進(jìn)數(shù)據(jù)共享方面,技術(shù)協(xié)會和機(jī)構(gòu)可以發(fā)揮重要作用,這些機(jī)構(gòu)可以通過組織一些教育活動(有些機(jī)構(gòu)已經(jīng)在推進(jìn)這類活動)來培訓(xùn)有效共享數(shù)據(jù)的技能。
盡管數(shù)據(jù)共享在促進(jìn)科學(xué)發(fā)現(xiàn)方面有潛在的益處,但就現(xiàn)階段來看其效益還不夠明顯,而且也很難評估其共享后的效益。近期在bioRxiv上發(fā)表的一篇文獻(xiàn)計(jì)量文章評估了“國際影像數(shù)據(jù)共享的倡議”(INDI)產(chǎn)生的效果。該活動是一項(xiàng)基于科學(xué)文獻(xiàn)數(shù)據(jù)方面的基層腦成像數(shù)據(jù)共享活動。研究人員發(fā)現(xiàn),過去7年間,INDI匯聚了分布在世界各地的機(jī)構(gòu)產(chǎn)生的相關(guān)數(shù)據(jù)集——大約15 000份MRI數(shù)據(jù)集,而這些數(shù)據(jù)共被900篇出版物使用,其中共涉及論文58篇。這些出版物中的90%是來自數(shù)據(jù)調(diào)研人員,而這些人員并沒有參與數(shù)據(jù)的生成過程;不僅如此,很多研究人員還來自腦成像領(lǐng)域之外。那些貢獻(xiàn)了數(shù)據(jù)的人似乎同時能夠利用更多他人的數(shù)據(jù)來增加其研究樣本量,甚至因?yàn)楣蚕矶鴮?dǎo)致更多人利用數(shù)據(jù)而使他本人在思考研究問題時獲得啟發(fā)。
雖然以上信息給大家描繪了神經(jīng)成像領(lǐng)域的數(shù)據(jù)共享帶來的積極影響,但是實(shí)際上很難將數(shù)據(jù)共享產(chǎn)生的效用統(tǒng)計(jì)起來。很顯然,我們亟須構(gòu)建一個系統(tǒng)來跟蹤共享數(shù)據(jù)的使用情況,以可靠地評估數(shù)據(jù)共享效用,并進(jìn)一步激勵潛在的共享者。
從數(shù)據(jù)量的角度來看,INDI共享的數(shù)據(jù)僅涉及15 000份數(shù)據(jù)集,這么小的一個數(shù)據(jù)量卻對科學(xué)文獻(xiàn)產(chǎn)生了很大的影響。這就意味著,應(yīng)該盡可能多地共享數(shù)據(jù),使科學(xué)研究變得可復(fù)制性更強(qiáng)。雖然作者知道若要使數(shù)據(jù)共享成為普遍的共識是很難的事,不過,這也只是時間問題,因?yàn)槟贻p一代的研究人員更傾向“開放科學(xué)” 而資助機(jī)構(gòu)和出版物也正變得越來越開放。
如果每一個機(jī)構(gòu)能夠重新審視自己的規(guī)章制度——包括強(qiáng)制共享的制度和任期審查——這將營造一種數(shù)據(jù)共享的文化,進(jìn)而促使研究人員的個人發(fā)展動機(jī)與共同利益協(xié)同起來。類似艾倫研究所、加拿大蒙特利爾神經(jīng)病學(xué)研究所(MNI)、曼哈頓的兒童心理研究所(作者就職機(jī)構(gòu))等機(jī)構(gòu)已經(jīng)在數(shù)據(jù)共享方面率先跨出了一步,這些機(jī)構(gòu)已經(jīng)將開放科學(xué)制定成原則納入其運(yùn)營過程中去。
本文作者邁克爾·米勒姆(Michael P. Milham)是美國曼哈頓的兒童心理研究所首屆主任。該機(jī)構(gòu)還推出另一項(xiàng)數(shù)據(jù)共享計(jì)劃——健康大腦網(wǎng)絡(luò),致力于多種數(shù)據(jù)的共享,涉及10000名兒童和成人,包括成像數(shù)據(jù)、電生理數(shù)據(jù)、聲音樣本、健康數(shù)據(jù)、遺傳數(shù)據(jù)等。