■秦長江 吳思潔 王丹丹
河南科技大學(xué)管理學(xué)院,河南省洛陽市開元大道263號 471000
一流的科研數(shù)據(jù)可以支撐一流的科學(xué)研究??蒲袛?shù)據(jù)(Research Data)是指研究者進(jìn)行原創(chuàng)性研究而收集、創(chuàng)建或觀察、觀測、實驗得到的各種信息[1]。它格式多樣(包括數(shù)值、文本、軟件代碼、多媒體文件、模型、特定學(xué)科及特定工具格式等)、類型豐富(包括實驗型、觀察型、模擬型、編譯型、派生型及參考型數(shù)據(jù)等)[2]??蒲袛?shù)據(jù)是研究記錄的重要組成部分,也是開放科學(xué)的關(guān)鍵要素。制定完善的科研數(shù)據(jù)管理與共享政策,使原處于割裂狀態(tài)的學(xué)術(shù)論文與科研數(shù)據(jù)融合,可以保證科研成果的完整性和透明性[3]。
目前我國對科研數(shù)據(jù)開放獲取的意識不強(qiáng),科研數(shù)據(jù)管理的實踐還未形成規(guī)模,擁有科研數(shù)據(jù)政策的科研資助機(jī)構(gòu)和學(xué)術(shù)期刊數(shù)量非常有限,這一問題在社科領(lǐng)域更為突出。因此,分析研究我國社科科研數(shù)據(jù)的產(chǎn)生和使用情況,把握和認(rèn)識社科科研數(shù)據(jù)的特征,能提高社科科研數(shù)據(jù)的可獲取性與可信度,能有效促進(jìn)科研數(shù)據(jù)增值[4]。同時對我國數(shù)據(jù)管理與數(shù)據(jù)服務(wù)、數(shù)據(jù)共享與數(shù)據(jù)再利用等有明顯的促進(jìn)作用。
由國家哲學(xué)社會科學(xué)工作辦公室管理的國家社會科學(xué)基金資助項目是我國社科研究項目的高水平代表,其資助的研究成果大部分發(fā)表在高水平期刊上,因此這些研究在一定程度上能代表我國社科研究水平。本文通過調(diào)研國家社會科學(xué)基金資助論文中科研數(shù)據(jù)的來源、類型等特征,探尋我國社科科研數(shù)據(jù)的產(chǎn)生與使用情況。由于社科數(shù)據(jù)收集方法多樣靈活,對研究者的依賴性強(qiáng),影響因素(背景、時間等)多[5],敏感數(shù)據(jù)處理和數(shù)據(jù)權(quán)益等問題更為突出,數(shù)據(jù)管理與數(shù)據(jù)共享更為困難[6]。本文對國內(nèi)社科學(xué)術(shù)期刊科研數(shù)據(jù)實踐現(xiàn)狀的深入調(diào)查結(jié)果,將有助于我國重要科研資助機(jī)構(gòu)、學(xué)術(shù)期刊等相關(guān)群體共同制定科研數(shù)據(jù)政策,為推進(jìn)社科科研數(shù)據(jù)的管理和共享重用提供參考,從而促進(jìn)我國社科研究的創(chuàng)新[7]。
國外學(xué)者對學(xué)術(shù)期刊科研數(shù)據(jù)的研究自20世紀(jì)80年代開始,目前研究已經(jīng)較為成熟、系統(tǒng)、全面,研究主要內(nèi)容可以總結(jié)為3個方面:數(shù)據(jù)政策制定內(nèi)容研究、數(shù)據(jù)可用性政策研究、數(shù)據(jù)政策制定和實施情況研究。在政策制定和實施情況研究方面,20世紀(jì)90年代,有國外研究者調(diào)查期刊制定和實施數(shù)據(jù)政策,發(fā)現(xiàn)只有少部分期刊真正制定了數(shù)據(jù)政策。Pitt和Tang[8]就科研數(shù)據(jù)共享政策制定過程中遇到的問題和部分解決方法進(jìn)行探討。Vlaeminck[9]實證分析了141種經(jīng)濟(jì)學(xué)期刊的數(shù)據(jù)政策,詳細(xì)研究了這些期刊科研數(shù)據(jù)政策的內(nèi)容。2013年,Zenk-M?ltgen和Lepthien[10]通過JCR確定了140種社會學(xué)期刊,通過研究期刊數(shù)據(jù)政策和作者在社會學(xué)中的行為來分析影響數(shù)據(jù)共享的因素。
筆者通過檢索中國知網(wǎng)全文數(shù)據(jù)庫發(fā)現(xiàn),我國有關(guān)科研數(shù)據(jù)政策的研究成果較少,起步較晚,主要研究內(nèi)容也可歸納為3個方面:數(shù)據(jù)出版政策研究、政策實施評價研究及政策實踐調(diào)查研究。在政策實踐調(diào)查研究方面:劉曉霞等[11]統(tǒng)計分析了我國中文核心期刊科研數(shù)據(jù)政策的制定情況,指出我國學(xué)術(shù)期刊科研數(shù)據(jù)政策制定非常欠缺;吳蓉等[12]通過提煉政策要素,對PLoS系列期刊、Science、Nature等國外學(xué)術(shù)期刊的數(shù)據(jù)政策實施細(xì)節(jié)進(jìn)行調(diào)研探索和分析,認(rèn)為學(xué)術(shù)期刊應(yīng)制定數(shù)據(jù)提交、數(shù)據(jù)審查和數(shù)據(jù)權(quán)益政策,指出我國應(yīng)結(jié)合自身實際情況,不斷探索適合中國學(xué)術(shù)期刊的數(shù)據(jù)政策。
以上研究表明,我國現(xiàn)有的社科科研數(shù)據(jù)管理還處于探索和規(guī)劃階段,對社科科研數(shù)據(jù)的研究較少。本文對現(xiàn)階段國內(nèi)社科學(xué)術(shù)期刊科研數(shù)據(jù)產(chǎn)生和使用情況進(jìn)行深入調(diào)研,分析總結(jié)社科科研數(shù)據(jù)的總體實踐狀況和特點,以期為我國社科科研數(shù)據(jù)政策的制定及實施提供建議,為解決我國社科科研數(shù)據(jù)管理和服務(wù)中存在的問題提供參考。
選取2011年由國家社會科學(xué)基金資助①,涉及管理學(xué)、理論經(jīng)濟(jì)、應(yīng)用經(jīng)濟(jì)、中國歷史、世界歷史、黨史黨建等23個社科學(xué)科的2883個項目所產(chǎn)生的論文進(jìn)行分析,通過文本分析法對社科論文的數(shù)據(jù)來源、類型和特征進(jìn)行提取,以詳細(xì)了解我國社科科研數(shù)據(jù)情況。
1.2.1 科研數(shù)據(jù)類型界定
調(diào)查數(shù)據(jù)是指研究人員為實現(xiàn)具體的政治、經(jīng)濟(jì)、社會、文化等目標(biāo),通過實地調(diào)查、網(wǎng)絡(luò)問卷在線調(diào)查、抽樣調(diào)查、媒體報道等方式獲得的數(shù)據(jù)。調(diào)查數(shù)據(jù)中的他有數(shù)據(jù)是指獲取渠道為其他研究者的調(diào)查數(shù)據(jù)。實驗數(shù)據(jù)是指從具體科學(xué)實驗中得到的數(shù)據(jù)。自有實驗數(shù)據(jù)是指研究者通過親自實驗獲得的數(shù)據(jù)。訪談數(shù)據(jù)是指通過實地訪談或其他文獻(xiàn)中的訪談記錄所得的數(shù)據(jù)。統(tǒng)計數(shù)據(jù)是指通過對現(xiàn)有數(shù)據(jù)進(jìn)行統(tǒng)計、分析、計算等加工處理所得的數(shù)據(jù)。圖片數(shù)據(jù)是指以圖片形式呈現(xiàn)的支撐研究結(jié)果的數(shù)據(jù),主要包括實地考察文物照片、關(guān)系示意圖、古文字圖片、模型圖等。檔案數(shù)據(jù)是指政府、權(quán)威機(jī)構(gòu)、媒體、研究人員等組織或個人公開的數(shù)據(jù)及已存在或發(fā)生過的歷史文獻(xiàn)記載或既定事實。
1.2.2 “自有數(shù)據(jù)”和“他有數(shù)據(jù)”界定
目前國際通行的數(shù)據(jù)管理要求,針對的是“有數(shù)據(jù)”的科研項目。本研究將在科研過程中通過調(diào)查、實驗、觀察、訪談等方式收集到的原始數(shù)據(jù)以及由這些數(shù)據(jù)加工處理得到的數(shù)據(jù)稱為“自有數(shù)據(jù)”;將研究過程中參考其他研究者初始數(shù)據(jù)以及在他人研究成果基礎(chǔ)上繼續(xù)實驗得到的科研數(shù)據(jù)稱為“他有數(shù)據(jù)”。具體來說:當(dāng)樣本論文中出現(xiàn)“由×××調(diào)查結(jié)果顯示”“據(jù)××××報道”“據(jù)×××調(diào)查”等文字,認(rèn)為是調(diào)查數(shù)據(jù)中的他有數(shù)據(jù);文中出現(xiàn)“測試結(jié)果顯示”“實驗得出”等關(guān)鍵詞,認(rèn)為是實驗數(shù)據(jù)中的自有數(shù)據(jù);他有實驗數(shù)據(jù)是指文中引用其他研究者實驗得來的數(shù)據(jù),關(guān)鍵詞包括“×××實驗研究數(shù)據(jù)表明”“與×××的實驗結(jié)果比較”等。
2020年1月,筆者以中國知網(wǎng)為檢索平臺,檢索由2011年國家社會科學(xué)基金資助而產(chǎn)生的論文。檢索策略如下:利用中國知網(wǎng)的高級檢索功能,選擇期刊檢索,限定期刊來源類別為CSSCI,以“項目名稱”為檢索入口,在支持基金欄目下進(jìn)行檢索。批量下載論文后按照統(tǒng)一的標(biāo)準(zhǔn)科學(xué)管理論文文檔。具體步驟分三步:第一步,建立學(xué)科總文件夾,命名為“年度+學(xué)科名稱”。第二步,在學(xué)科總文件夾中建立項目文件夾,命名為“1. 項目名稱”“ 2. 項目名稱”…(注:命名順序及序號按照國家社會科學(xué)基金文檔中的順序)。若項目產(chǎn)生論文數(shù)量為0,直接標(biāo)注論文數(shù)量為0,無需再另建文件夾。第三步,通過E-study平臺下載所有論文,并存至相關(guān)研究文件夾下的子文件夾“論文”中,命名為“1. 論文名稱”“2. 論文名稱”“3. 論文名稱”…(注:論文整理順序參照中國知網(wǎng)默認(rèn)排序“發(fā)表時間+降序”,然后采用文本分析法逐一閱讀②,按照學(xué)科分析論文情況和論文數(shù)據(jù)情況)。
①國家社會科學(xué)基金資助項目一般在當(dāng)年年中正式公布,項目研究周期一般為3~5年,論文的發(fā)表又有一定滯后性,個別期刊的出版時滯甚至達(dá)到2年之久;同時,本研究的對象不僅僅是社科科研數(shù)據(jù)的使用,還包括社科科研數(shù)據(jù)的引用特征。因此,為保證不遺漏重要的研究樣本,最大限度地保證研究的完整性和準(zhǔn)確性,本研究確定研究樣本為2011年由國家社會科學(xué)基金資助的所有論文。
②第一作者和第三作者指導(dǎo)的研究生吳思潔(第二作者)作為團(tuán)隊負(fù)責(zé)人,團(tuán)隊成員有:馬皓童、馮全利、王歡、葛力云、王悅、肖慈慧、暴文聰(均為第三作者指導(dǎo)的本科生),組成第八屆挑戰(zhàn)杯全國大學(xué)生課外學(xué)術(shù)科技作品競賽參賽團(tuán)隊,該團(tuán)隊對本研究項目進(jìn)行論文調(diào)研以及數(shù)據(jù)的整理和分析。
為了提取不同學(xué)科的數(shù)據(jù)來源及數(shù)據(jù)類型特征,在確定數(shù)據(jù)來源之后,研究者對數(shù)據(jù)類型進(jìn)行提取。由于每一種數(shù)據(jù)類型(如數(shù)據(jù)集、文本、圖片、音頻等)無統(tǒng)一標(biāo)準(zhǔn),因此數(shù)據(jù)類型的提取難度增大。為避免統(tǒng)計結(jié)果具有主觀性,以及不同學(xué)科數(shù)據(jù)類型界定存在不一致性,本研究對研究樣本按照學(xué)科建立資料庫并設(shè)計編碼表,明確每一類數(shù)據(jù)的界定范圍并給出示范,形成數(shù)據(jù)類型資料庫。在統(tǒng)計實踐中不斷地將文本分析過程中發(fā)現(xiàn)的新類型加入數(shù)據(jù)基本類型資料庫并優(yōu)化其統(tǒng)計方法,最終形成了一個相對完整的資料庫。所有編碼均按照資料庫統(tǒng)一的標(biāo)準(zhǔn)來提取數(shù)據(jù)類型,并歸類和統(tǒng)計,以保證統(tǒng)計結(jié)果的客觀性和一致性。本研究對所有樣本論文數(shù)據(jù)進(jìn)行編碼處理的方法如下:逐一提取各項目下論文的數(shù)據(jù)特征并在擬定好的表格中對每篇論文進(jìn)行編碼。具有此數(shù)據(jù)特征,在其所對應(yīng)單元格中填寫“1”;不具有此數(shù)據(jù)特征,在其所對應(yīng)單元格中填寫“0”。待本研究所有論文文本的數(shù)據(jù)特征提取完整后進(jìn)行數(shù)量匯總,填入“總計”欄目下。以此類推,再對不同學(xué)科科研數(shù)據(jù)產(chǎn)生情況進(jìn)行匯總。樣本論文數(shù)據(jù)統(tǒng)計樣例見表1。
表1 樣本論文數(shù)據(jù)統(tǒng)計樣例 單位:篇
2011年國家社會科學(xué)基金在23個社科學(xué)科共資助項目2883項,這些項目共產(chǎn)生論文13113篇,其中發(fā)表在CSSCI來源期刊的論文共7968篇,這7968篇論文中有數(shù)據(jù)(即論文中含有科研數(shù)據(jù))的論文共5132篇,占64.4%,見表2。這說明由國家社會科學(xué)基金資助的研究成果的一大半都涉及科研數(shù)據(jù),因此無論是開放科學(xué)的需要,還是為了更有效地管理社科基金資助項目所產(chǎn)生的科研成果,國家哲學(xué)社會科學(xué)工作辦公室都應(yīng)盡快出臺科研數(shù)據(jù)管理政策。
本研究針對數(shù)據(jù)來源和數(shù)據(jù)類型等的分析,均以5132篇發(fā)表在CSSCI來源期刊的論文為分析對象。由表2可知,23個學(xué)科中,CSSCI論文數(shù)量占比最高的10個學(xué)科依次是圖書館·情報與文獻(xiàn)學(xué)(79.78%)、世界歷史(71.72%)、統(tǒng)計學(xué)(67.65%)、中國歷史(65.63%)、理論經(jīng)濟(jì)(65.39%)、法學(xué)(65.14%)、國際問題研究(63.72%)、考古學(xué)(63.64%)、應(yīng)用經(jīng)濟(jì)(63.77%)、社會學(xué)(63.09%)。發(fā)表CSSCI論文數(shù)量占比最低的學(xué)科是體育學(xué)(38.46%)、馬克思主義·科學(xué)社會主義(45.40%)、黨建·黨史(50.35%)。這在一定程度上說明,由國家社會科學(xué)基金資助產(chǎn)生的科研成果質(zhì)量較高,對這些論文的科研數(shù)據(jù)進(jìn)行分析具有代表性。
分析有數(shù)據(jù)的CSSCI論文情況:有數(shù)據(jù)的CSSCI論文數(shù)量占比最高的10個學(xué)科依次是人口學(xué)(97.20%)、國際問題研究(86.86%)、應(yīng)用經(jīng)濟(jì)學(xué)(85.50%)、理論經(jīng)濟(jì)(85.10%)、社會學(xué)(83.20%)、統(tǒng)計學(xué)(82.61%)、體育學(xué)(78.18%)、新聞學(xué)(76.61%)、民族問題研究(76.25%)、圖書館·情報與文獻(xiàn)學(xué)(75.51%)。有數(shù)據(jù)的CSSCI論文數(shù)量占比最低的學(xué)科是外國文學(xué)(12.96%)、哲學(xué)(20.41%)、中國文學(xué)(21.29%)、馬克思主義·科學(xué)社會主義(33.19%)、宗教學(xué)(40.65%)、政治學(xué)(53.22%)。通過上述分析得到的啟示是:如果實施科研數(shù)據(jù)管理工作,可以首先將這些有數(shù)據(jù)的CSSCI論文數(shù)量占比較高的學(xué)科作為第一批試行的學(xué)科。
表2 2011年國家社會科學(xué)基金資助項目產(chǎn)生的論文以及論文數(shù)據(jù)情況
圖1 不同學(xué)科CSSCI論文的數(shù)據(jù)來源情況對比
從表3和圖1可以看到,5132篇發(fā)表在CSSCI來源期刊的有數(shù)據(jù)論文中,有“自有數(shù)據(jù)”的論文共942篇(占18%),有“他有數(shù)據(jù)”的論文共2990篇(占58%),既有“自有數(shù)據(jù)”,又有“他有數(shù)據(jù)”的論文共1200篇(占24%)。由此可見,使用“他有數(shù)據(jù)”的論文占比達(dá)82%,科研數(shù)據(jù)共享非常必要。如圖2所示,含有“自有數(shù)據(jù)”的論文占比超過50%的7個學(xué)科依次為語言學(xué)(占86.40%)、圖書館·情報與文獻(xiàn)學(xué)(占73.47%)、管理學(xué)(占68.81%)、人口學(xué)(占63.46%)、社會學(xué)(占62.95%)、體育學(xué)(占58.14%)、民族問題研究(占55.78%)。圖3顯示,“他有數(shù)據(jù)”除語言學(xué)(占32.80%)和圖書館·情報與文獻(xiàn)學(xué)(占48.53%)的“他有數(shù)據(jù)”占比低于50%外,其他21個學(xué)科的“他有數(shù)據(jù)”論文占比均超過75%。
表3 有數(shù)據(jù)的CSSCI論文數(shù)據(jù)來源分布
圖2 不同學(xué)科“自有數(shù)據(jù)”論文數(shù)量占比分布
2.3.1 自有數(shù)據(jù)類型分析
分析結(jié)果顯示,社科科研數(shù)據(jù)類型較為復(fù)雜多樣。各學(xué)科數(shù)據(jù)類型的不同也基本反映出學(xué)科研究特點的多樣性和差異性,如圖4所示。含有調(diào)查數(shù)據(jù)的論文數(shù)量最多的5個學(xué)科依次是社會學(xué)(209篇)、管理學(xué)(126篇)、圖書館·情報與文獻(xiàn)學(xué)(93篇)、民族問題研究(83篇)、應(yīng)用經(jīng)濟(jì)學(xué)(63篇);訪談數(shù)據(jù)最多的5個學(xué)科依次是社會學(xué)(100篇)、管理學(xué)(57篇)、民族問題研究(46篇)、人口學(xué)(12篇)、圖書館·情報與文獻(xiàn)學(xué)(12篇);統(tǒng)計數(shù)據(jù)最多的5個學(xué)科依次是圖書館·情報與文獻(xiàn)學(xué)(226篇)、法學(xué)(175篇)、社會學(xué)(161篇)、語言學(xué)(151篇)、管理學(xué)(99篇);實驗數(shù)據(jù)最多的5個學(xué)科依次是管理學(xué)(273篇)、圖書館·情報與文獻(xiàn)學(xué)(82篇)、統(tǒng)計學(xué)(43篇)、語言學(xué)(30篇)、國際問題研究(30篇);模擬數(shù)據(jù)最多的5個學(xué)科依次是圖書館·情報與文獻(xiàn)學(xué)(59篇)、社會學(xué)(53篇)、人口學(xué)(29篇)、理論經(jīng)濟(jì)(29篇);圖片數(shù)據(jù)最多的兩個學(xué)科依次是語言學(xué)(41篇)、中國歷史(26篇)。
圖3 不同學(xué)科“他有數(shù)據(jù)”占比情況對比
由于哲學(xué)、世界歷史、黨建·黨史、考古學(xué)無自有數(shù)據(jù),將其他19個學(xué)科含有“自有數(shù)據(jù)”的論文數(shù)量按占比從高到低的順序排列,依次是統(tǒng)計數(shù)據(jù)(占40%)、調(diào)查數(shù)據(jù)(占27%)、實驗數(shù)據(jù)(占16%)、訪談數(shù)據(jù)(占9%)、模擬數(shù)據(jù)(占6%)、圖片數(shù)據(jù)(占2%),如表4所示。就“自有數(shù)據(jù)”而言,占比超過50%的7個學(xué)科依次是語言學(xué)(占86.40%)、圖書館·情報與文獻(xiàn)學(xué)(占73.53%)、管理學(xué)(占68.81%)、人口學(xué)(占63.46%)、社會學(xué)(占62.95%)、體育學(xué)(占58.14%)、民族問題研究(占55.78%)。
表4 23個學(xué)科“自有數(shù)據(jù)”的數(shù)據(jù)類型分布
圖4 23個學(xué)科“自有數(shù)據(jù)”類型分布
對這7個學(xué)科的“自有數(shù)據(jù)”類型進(jìn)一步分析,發(fā)現(xiàn):語言學(xué)和圖書館·情報與文獻(xiàn)學(xué)的自有數(shù)據(jù)中最多的都是統(tǒng)計數(shù)據(jù),占比分別為61%和48%;管理學(xué)領(lǐng)域僅實驗數(shù)據(jù)(占49%)和調(diào)查數(shù)據(jù)(占23%)的占比就超過了72%;人口學(xué)領(lǐng)域則以統(tǒng)計數(shù)據(jù)(占40%)、調(diào)查數(shù)據(jù)(占25%)和模擬數(shù)據(jù)(占22%)為主;社會學(xué)領(lǐng)域最主要的數(shù)據(jù)類型是調(diào)查數(shù)據(jù)(占40%),其次是統(tǒng)計數(shù)據(jù)(占30%)和訪談數(shù)據(jù)(占19%);體育學(xué)領(lǐng)域則以統(tǒng)計數(shù)據(jù)(占40%)、調(diào)查數(shù)據(jù)(占35%)以及訪談數(shù)據(jù)(占20%)為主;民族問題研究領(lǐng)域的主要數(shù)據(jù)類型依次是調(diào)查數(shù)據(jù)(占39%)、統(tǒng)計數(shù)據(jù)(占30%)以及訪談數(shù)據(jù)(占22%)。
2.3.2 他有數(shù)據(jù)類型分析
23個學(xué)科的“他有數(shù)據(jù)”大致可以分為表5所示的7種類型。按照占比從高到低的順序排列,依次是統(tǒng)計數(shù)據(jù)(占61%)、檔案數(shù)據(jù)(占29%)、調(diào)查數(shù)據(jù)(占6%)、圖片數(shù)據(jù)(占2%)、實驗數(shù)據(jù)(占0.6%)。其中,含有調(diào)查數(shù)據(jù)的論文數(shù)量最多的學(xué)科依次是新聞學(xué)(155篇)、社會學(xué)(107篇)、人口學(xué)(20篇)、黨建·黨史(19篇);統(tǒng)計數(shù)據(jù)最多的學(xué)科依次是應(yīng)用經(jīng)濟(jì)學(xué)(795篇)、理論經(jīng)濟(jì)學(xué)(477篇)、法學(xué)(310篇)、管理學(xué)(277篇)、社會學(xué)(186篇)、政治學(xué)(140篇)、圖書館·情報與文獻(xiàn)學(xué)(136篇)、中國歷史(120篇);實驗數(shù)據(jù)最多的學(xué)科是統(tǒng)計學(xué)(10篇)、馬克思主義·科學(xué)社會主義(6篇)、語言學(xué)(3篇)、圖書館·情報與文獻(xiàn)學(xué)(3篇);檔案數(shù)據(jù)最多的學(xué)科依次是法學(xué)(300篇)、政治學(xué)(170篇)、社會學(xué)(132篇)、民族問題研究(130篇);圖片數(shù)據(jù)最多的學(xué)科依次是圖書館·情報與文獻(xiàn)學(xué)(18篇)、語言學(xué)(12篇)、中國歷史(12篇)、宗教學(xué)(11篇)、考古學(xué)(7篇);商業(yè)數(shù)據(jù)庫統(tǒng)計數(shù)據(jù)最多的學(xué)科是管理學(xué)(74篇)。此外,考古學(xué)領(lǐng)域還有獨(dú)有的一類數(shù)據(jù)——實地考古發(fā)掘數(shù)據(jù),將其歸為其他類(圖5)。對23個學(xué)科“他有數(shù)據(jù)”(包括只有“他有數(shù)據(jù)”的論文和既有“自有數(shù)據(jù)”又有“他有數(shù)據(jù)”的論文)的論文數(shù)量進(jìn)行統(tǒng)計,發(fā)現(xiàn)“他有數(shù)據(jù)”論文數(shù)量最多的7個學(xué)科依次是應(yīng)用經(jīng)濟(jì)(796篇)、理論經(jīng)濟(jì)(492篇)、法學(xué)(439篇)、管理學(xué)(362篇)、社會學(xué)(327篇)、圖書館·情報與文獻(xiàn)學(xué)(214篇)、政治學(xué)(211篇)。對這7個學(xué)科的“他有數(shù)據(jù)”類型進(jìn)行進(jìn)一步分析,發(fā)現(xiàn):“他有數(shù)據(jù)”均有“統(tǒng)計數(shù)據(jù)”這一類型數(shù)據(jù);除應(yīng)用經(jīng)濟(jì)學(xué)學(xué)科沒有檔案數(shù)據(jù)外,其余學(xué)科均有檔案數(shù)據(jù),其中法學(xué)和政治學(xué)學(xué)科的檔案數(shù)據(jù)最多;商業(yè)數(shù)據(jù)庫統(tǒng)計數(shù)據(jù)是管理學(xué)領(lǐng)域的特有數(shù)據(jù)類型;此外,應(yīng)用經(jīng)濟(jì)學(xué)和理論經(jīng)濟(jì)學(xué)中還使用他有調(diào)查數(shù)據(jù)這一類型的數(shù)據(jù)(圖6)。
表5 23個學(xué)科“他有數(shù)據(jù)”的數(shù)據(jù)類型分布
圖5 23個學(xué)科“他有數(shù)據(jù)”類型分布情況對比
圖6 含有“他有數(shù)據(jù)”的論文數(shù)量最多的7個學(xué)科的數(shù)據(jù)類型分布
引用是科學(xué)研究的基本規(guī)范,科研數(shù)據(jù)也需要正確引用。科研數(shù)據(jù)規(guī)范引用可以幫助研究者快速、準(zhǔn)確地找到所需數(shù)據(jù),也可以使數(shù)據(jù)引用像參考文獻(xiàn)引用一樣用于評價數(shù)據(jù)集影響,認(rèn)可數(shù)據(jù)產(chǎn)生者的貢獻(xiàn),擴(kuò)大其學(xué)術(shù)影響力。本研究采用內(nèi)容分析法,對4157篇含有“他有數(shù)據(jù)”的論文引用行為進(jìn)行識別。由于目前還沒有規(guī)范、統(tǒng)一的數(shù)據(jù)引用格式,無法依靠機(jī)器進(jìn)行識別,因此,本研究主要采用人工識別方式對數(shù)據(jù)引用情況進(jìn)行調(diào)研。對樣本論文中的870處引用數(shù)據(jù)進(jìn)行分析,結(jié)果見圖7。
圖7 23個學(xué)科他有數(shù)據(jù)的引用情況
引用數(shù)據(jù)時文中注/尾注的數(shù)據(jù)標(biāo)注形式最為常見,中國歷史學(xué)科在引用數(shù)據(jù)的標(biāo)注上使用文中注/尾注最多(占80.65%),使用參考文獻(xiàn)形式標(biāo)注引用他人數(shù)據(jù)的也較多。語言學(xué)學(xué)科使用參考文獻(xiàn)標(biāo)注的數(shù)據(jù)引用最多,占本學(xué)科論文數(shù)量的58.97%。文中說明是在引用他人圖片或表格時,在圖表下方聲明數(shù)據(jù)來源。文中說明也經(jīng)常被科研人員用來說明圖表來源,在引用后不再重復(fù)進(jìn)行數(shù)據(jù)引用標(biāo)注。無標(biāo)注說明是指在文中引用他人數(shù)據(jù)時,未在文中說明數(shù)據(jù)來源。調(diào)查分析發(fā)現(xiàn),政治學(xué)學(xué)科無標(biāo)注說明的占比最大,為42.85%。
世界歷史、中國歷史、語言學(xué)、社會學(xué)、政治學(xué)五大學(xué)科的引用數(shù)據(jù)總量為870條,期刊文獻(xiàn)以“文中注/尾注”形式引用數(shù)據(jù)的占比為60.8%,以“參考文獻(xiàn)”形式引用數(shù)據(jù)的占比為24.6%,以“文中說明”形式引用數(shù)據(jù)的占比為5.7%,無標(biāo)注說明數(shù)據(jù)來源的樣本占比為8.4%。中國歷史、世界歷史、社會學(xué)、政治學(xué)學(xué)科的科研人員在數(shù)據(jù)引用標(biāo)注上更偏向于使用文中注/尾注的數(shù)據(jù)標(biāo)注形式,語言學(xué)學(xué)科更偏向于使用參考文獻(xiàn)的標(biāo)注形式。整體而言,科研人員在數(shù)據(jù)引用的標(biāo)注上更偏向文中注/尾注,其次是參考文獻(xiàn),在對圖表的引用上更偏向文中說明標(biāo)注形式,但這些學(xué)科或多或少都存在一些無標(biāo)注引用數(shù)據(jù)。
目前我國社科學(xué)科有數(shù)據(jù)的CSSCI論文數(shù)占CSSCI論文總數(shù)的比例都非常高。無論是“自有數(shù)據(jù)”,還是“他有數(shù)據(jù)”,在不同學(xué)科中的占比都非常高,這說明我國社科研究產(chǎn)生的科研數(shù)據(jù)總量非常龐大,數(shù)據(jù)產(chǎn)生的具體類型和格式復(fù)雜多樣且數(shù)據(jù)分散。本研究得到的結(jié)論如下:(1)我國科研數(shù)據(jù)的研究和實踐還未受到國內(nèi)相關(guān)機(jī)構(gòu)和學(xué)者的足夠重視,科研數(shù)據(jù)管理的實踐與相關(guān)研究都相對滯后;(2)由于我國科研數(shù)據(jù)管理缺少完善的標(biāo)準(zhǔn)框架和良好的實踐環(huán)境,數(shù)據(jù)價值未得到充分發(fā)揮,數(shù)據(jù)流失嚴(yán)重,我國科研數(shù)據(jù)管理整體上比較薄弱;(3)我國大量擁有潛在開發(fā)價值的原始科研數(shù)據(jù)掌握在科研人員手中,絕大多數(shù)科研數(shù)據(jù)沒有得到良好的組織、管理、共享與重用,我國科技期刊亟須制定完善的科研數(shù)據(jù)管理政策。
據(jù)此,本研究提出以下建議:(1)我國科研資助機(jī)構(gòu)應(yīng)盡快出臺有關(guān)數(shù)據(jù)管理辦法,完善數(shù)據(jù)管理服務(wù)和相應(yīng)的配套設(shè)施平臺;(2)我國學(xué)術(shù)期刊應(yīng)遵循國家提出的法律法規(guī),盡快推出滿足期刊個性化需求、符合最佳實踐的科研數(shù)據(jù)管理政策;(3)期望國家層面制定和推廣完善的科研數(shù)據(jù)管理標(biāo)準(zhǔn)框架,推進(jìn)我國科研數(shù)據(jù)管理的落實,促進(jìn)科研數(shù)據(jù)共享,降低科研成本,提高科技資源的利用效率,增強(qiáng)我國的科技創(chuàng)新能力。
社科科研數(shù)據(jù)管理對于我國社科研究具有重要意義,希望本研究能對科研數(shù)據(jù)管理的實施產(chǎn)生積極作用,希望學(xué)者們在本研究的基礎(chǔ)上,借鑒國外科研數(shù)據(jù)管理和實施的相關(guān)經(jīng)驗,擴(kuò)大研究數(shù)據(jù)樣本容量,對我國社科科研數(shù)據(jù)管理進(jìn)行更深入的研究。