李卓 趙夢(mèng)圓 柳嘉昊 周清清 章成志
摘? ?要:文章針對(duì)目前圖書(shū)影響力評(píng)價(jià)研究的不全面性,從引文內(nèi)容的角度對(duì)圖書(shū)在其施引文獻(xiàn)中的被引用動(dòng)機(jī)情況進(jìn)行探究分析。首先,基于現(xiàn)有研究歸納出三種圖書(shū)被引動(dòng)機(jī)分類標(biāo)準(zhǔn)——使用、比較和背景引用;其次,以五個(gè)學(xué)科領(lǐng)域中文圖書(shū)為例,獲取其在施引文獻(xiàn)中的引文內(nèi)容信息,并標(biāo)注引文的動(dòng)機(jī)標(biāo)簽;最后,探究圖書(shū)的被引動(dòng)機(jī)分布及其與引用位置、引用長(zhǎng)度的關(guān)系。實(shí)證分析結(jié)果顯示,圖書(shū)被引動(dòng)機(jī)中"使用"占比較大。同時(shí),引用動(dòng)機(jī)與引用位置存在顯著相關(guān)性,而與引用長(zhǎng)度無(wú)明顯相關(guān)性。此外,不同學(xué)科領(lǐng)域圖書(shū)在施引文獻(xiàn)中的引用動(dòng)機(jī)存在差異。
關(guān)鍵詞:引文內(nèi)容;引用動(dòng)機(jī);圖書(shū)被引行為;學(xué)科差異
中圖分類號(hào):G250.7;G252? ?文獻(xiàn)標(biāo)識(shí)碼:A? ?DOI:10.11968/tsyqb.1003-6938.2019046
Citing Motivation of Book Based on Citation Content
Abstract In view of the incompleteness of the current research on the evaluation of book influence, this paper explores and analyses the motivation of books being cited in the citation literature from the perspective of citation content. Firstly, based on the existing research, three classification criteria of citation motivation are summarized: use, comparison and background citation. Then, the citation content information of Chinese books in the citation literature of five disciplines was obtained, and the motivation label of the citation was marked. Finally, the distribution of book cited motivation and its relationship with citation location and length was analyzed. Empirical analysis shows that the proportion of "use" in book-citing motivation is relatively large. At the same time, there is a significant correlation between citation motivation and citation location, but no significant correlation with citation length. In addition, there are differences in the motives of citation of books in different disciplines.
Key words citation content; citation motivation; book citation behavior; subject difference
1? ?引言
引文內(nèi)容是指文獻(xiàn)正文中引用參考文獻(xiàn)的句子,也可包括其上下文,即引文句的前后[1],依據(jù)引文內(nèi)容可以獲取引文在施引文獻(xiàn)中被引用的頻率、位置、主題、動(dòng)機(jī)等重要信息[2]。近年來(lái),從引文內(nèi)容的角度分析學(xué)術(shù)論文的影響力評(píng)價(jià)已經(jīng)取得一定的成果,如趙青[3]和王嵐[4]基于引文內(nèi)容從引用性質(zhì)和引用深度進(jìn)行引文分析,以區(qū)分每條引文的作用,從而提高目前引文數(shù)據(jù)評(píng)價(jià)的準(zhǔn)確性;劉盛博和丁堃[1]提出了引用性質(zhì)和引文質(zhì)量的評(píng)價(jià)方法,進(jìn)而應(yīng)用于評(píng)價(jià)科研人員和期刊評(píng)價(jià)。
而同樣作為學(xué)術(shù)交流重要資源的圖書(shū),目前仍主要以被引次數(shù)、專家評(píng)論等進(jìn)行影響力評(píng)價(jià)[5],也有部分學(xué)者從引文分析的角度進(jìn)行研究,如阮選敏等[6]探討了與書(shū)名、學(xué)科、出版社、作者等相關(guān)的10個(gè)對(duì)圖書(shū)被引的影響因素,采用非參數(shù)檢驗(yàn)及回歸分析等方法對(duì)學(xué)術(shù)圖書(shū)進(jìn)行分析,結(jié)果表明10個(gè)因素對(duì)圖書(shū)被引的擬合優(yōu)度較低,說(shuō)明更重要的影響因素有待于進(jìn)一步發(fā)掘。
因此本文嘗試從引文內(nèi)容的角度對(duì)圖書(shū)被引的影響進(jìn)行更加深入的分析。White[7]指出引文內(nèi)容主要有引文分類、引文內(nèi)容分析和引用動(dòng)機(jī)識(shí)別三個(gè)方面的應(yīng)用。通常引用動(dòng)機(jī)識(shí)別比較復(fù)雜,相關(guān)研究對(duì)引用動(dòng)機(jī)的分類標(biāo)準(zhǔn)和實(shí)現(xiàn)方法各有不同。目前,被引次數(shù)、h指數(shù)等方法忽略施引作者的引用動(dòng)機(jī),由此進(jìn)行影響力評(píng)價(jià)是不全面的[8]。
為此,本文以中文圖書(shū)為研究對(duì)象,基于圖書(shū)在施引文獻(xiàn)中的引文內(nèi)容,對(duì)圖書(shū)的被引動(dòng)機(jī)分布情況進(jìn)行了統(tǒng)計(jì),同時(shí)探究了圖書(shū)被引動(dòng)機(jī)與圖書(shū)被引位置、被引長(zhǎng)度之間的關(guān)系,并從學(xué)科領(lǐng)域的角度分析圖書(shū)被引動(dòng)機(jī)的差異性。具體而言,從亞馬遜中文網(wǎng)站中選取來(lái)自5個(gè)學(xué)科領(lǐng)域的399本圖書(shū)作為研究對(duì)象;然后人工采集圖書(shū)在施引文獻(xiàn)中的引文內(nèi)容及其上下文信息,構(gòu)建了含有2288條引文內(nèi)容的語(yǔ)料庫(kù);接著通過(guò)人工標(biāo)注的方法確定引用動(dòng)機(jī)、引用位置、引用長(zhǎng)度等信息;最后對(duì)圖書(shū)的被引動(dòng)機(jī)進(jìn)行深入地探究。本文的研究意義在于:一方面,選取中文圖書(shū)作為研究對(duì)象進(jìn)行引文內(nèi)容層面的分析,與現(xiàn)有較多以學(xué)術(shù)論文為對(duì)象的研究形成對(duì)比,可以擴(kuò)展引文分析研究的全面性;另一方面,從引文內(nèi)容的角度對(duì)圖書(shū)被引動(dòng)機(jī)進(jìn)行研究,為圖書(shū)影響力評(píng)價(jià)提供新視角。
2? ?相關(guān)研究工作概述
引用動(dòng)機(jī)是指施引作者對(duì)參考文獻(xiàn)的引用目的或意圖[9],其蘊(yùn)藏著豐富的信息,既能結(jié)合引文內(nèi)容的其他特征分析引文的特性,發(fā)現(xiàn)學(xué)科領(lǐng)域之間的引用規(guī)律,還可以為學(xué)術(shù)作品評(píng)價(jià)提供參考。部分學(xué)者將作者對(duì)參考文獻(xiàn)的引用目的稱為引文動(dòng)機(jī)、引文目的、引用功能,為了敘述的需要,本文將之統(tǒng)稱為引用動(dòng)機(jī)。在對(duì)引用動(dòng)機(jī)的相關(guān)研究中,1975年Moravcsik和Murugesan[10]對(duì)于引用動(dòng)機(jī)的研究具有一定的代表性,為其后學(xué)者奠定了研究基礎(chǔ)。他們從四個(gè)不同維度對(duì)引用進(jìn)行分類——概念性或操作性引用、陳述性或敷衍性引用、擴(kuò)展的或繼承性引用、質(zhì)疑的或否定性引用,并對(duì)30篇文獻(xiàn)的706次引用進(jìn)行標(biāo)注分析,發(fā)現(xiàn)概念性引用多于操作性引用,同時(shí)約40%的引用是敷衍性引用,不同的引用對(duì)引文評(píng)價(jià)有不同的影響。本文從引用動(dòng)機(jī)的研究方法和引用動(dòng)機(jī)分類兩個(gè)方面概述相關(guān)研究。
2.1? ? 引用動(dòng)機(jī)研究方法研究概述
關(guān)于引用動(dòng)機(jī)的研究方式主要有兩種[11]:首先是直接通過(guò)文章作者獲取真實(shí)引用動(dòng)機(jī),如訪談、調(diào)查問(wèn)卷等;其次是基于引文內(nèi)容來(lái)識(shí)別作者的引用動(dòng)機(jī),如人工標(biāo)注、自動(dòng)標(biāo)注等。早期由于引文文本研究的樣本量較少以及技術(shù)的限制[9],大多數(shù)學(xué)者依靠訪談、調(diào)查問(wèn)卷、人工標(biāo)注的方式獲取引用動(dòng)機(jī)。近年來(lái),計(jì)算機(jī)的技術(shù)快速發(fā)展讓學(xué)者更加傾向利用計(jì)算機(jī)自動(dòng)標(biāo)注數(shù)據(jù),且處理速度快,可處理樣本容量大,效率較高。本文針對(duì)目前研究人員獲取引用動(dòng)機(jī)的具體研究方法,將其歸納為以下三種。
(1)訪談或調(diào)查問(wèn)卷獲取引用動(dòng)機(jī)。該方法可直接通過(guò)文章作者獲取其對(duì)參考文獻(xiàn)的引用動(dòng)機(jī),如2009年,馬鳳和武夷山[12]進(jìn)行兩項(xiàng)問(wèn)卷調(diào)查工作:第1項(xiàng)是調(diào)查307位中國(guó)科技期刊研究界的科研人員對(duì)已給定的17種引用動(dòng)機(jī)的重要程度評(píng)定情況;第2項(xiàng)是調(diào)查80位文獻(xiàn)作者引用最新所發(fā)表論文的參考文獻(xiàn)的引用動(dòng)機(jī)情況,最終表明,兩個(gè)結(jié)果從整體上來(lái)看較為一致,且引用是由多種因素引發(fā)的結(jié)果。2015年,邱均平等[13]也向科研人員發(fā)放調(diào)查問(wèn)卷獲取作者的引用動(dòng)機(jī),共收到157份有效問(wèn)卷,通過(guò)分析問(wèn)卷結(jié)果來(lái)研究引用動(dòng)機(jī)之間的相互影響關(guān)系。訪談或調(diào)查問(wèn)卷都可以直接反映文章作者對(duì)參考文獻(xiàn)的引用動(dòng)機(jī),但實(shí)驗(yàn)數(shù)據(jù)少,操作復(fù)雜,容易忽略其他引文內(nèi)容信息,如引文在施引文獻(xiàn)中被引用的位置、次數(shù)、內(nèi)容長(zhǎng)度等信息。
(2)人工標(biāo)注引用動(dòng)機(jī)。早期的研究多是探究性的,且計(jì)算機(jī)技術(shù)以及電子數(shù)據(jù)庫(kù)不完善等因素,采用的語(yǔ)料規(guī)模較小,學(xué)者通過(guò)引文內(nèi)容信息人工標(biāo)注文章作者的引用動(dòng)機(jī)。在Moravcsik和Murugesan[10]關(guān)于引用動(dòng)機(jī)的研究中,通過(guò)人工標(biāo)注的方式,對(duì)不同引用進(jìn)行動(dòng)機(jī)分類,進(jìn)而分析引用動(dòng)機(jī)分布情況。人工標(biāo)注一般都是專業(yè)的標(biāo)注人員根據(jù)預(yù)先的動(dòng)機(jī)分類標(biāo)準(zhǔn)對(duì)引用進(jìn)行動(dòng)機(jī)標(biāo)注[9],而且部分計(jì)算機(jī)標(biāo)注的方法需要依靠人工標(biāo)注的結(jié)果去實(shí)現(xiàn)大規(guī)模的數(shù)據(jù)標(biāo)注任務(wù),但人工標(biāo)注主觀性太強(qiáng),且需要大量的人力和時(shí)間,樣本容量也比較小。
(3)計(jì)算機(jī)標(biāo)注引用動(dòng)機(jī)。由于訪談或調(diào)查問(wèn)卷以及人工標(biāo)注的操作都比較復(fù)雜,無(wú)法大規(guī)模獲取實(shí)驗(yàn)數(shù)據(jù),目前越來(lái)越多的學(xué)者利用計(jì)算機(jī)進(jìn)行引用動(dòng)機(jī)的標(biāo)注。2006年,Teufel等[14]驗(yàn)證了計(jì)算機(jī)標(biāo)注的可靠性,首先由3名標(biāo)注人員利用統(tǒng)一標(biāo)準(zhǔn)對(duì)計(jì)算機(jī)語(yǔ)言學(xué)的26篇文章的548次引用進(jìn)行人工標(biāo)注,通過(guò)Kappa值的計(jì)算(K=0.72),測(cè)量3人標(biāo)注的一致性;然后采用人工標(biāo)注和機(jī)器學(xué)習(xí)的方法,分別對(duì)來(lái)自計(jì)算機(jī)語(yǔ)言學(xué)的116篇文章的2829次引用進(jìn)行動(dòng)機(jī)標(biāo)注,通過(guò)計(jì)算兩種標(biāo)注方式結(jié)果的Kappa值(K=0.57)和Macro-F(Macro-F=0.57)用于度量機(jī)器標(biāo)注的準(zhǔn)確性。2013年,Abu-Jbara等[15]通過(guò)引文內(nèi)容識(shí)別以及引用動(dòng)機(jī)和引文極性自動(dòng)標(biāo)注的分析,驗(yàn)證計(jì)算機(jī)標(biāo)注方法具有較高的準(zhǔn)確率,并發(fā)現(xiàn)基于引文上下文的標(biāo)注相對(duì)于只依據(jù)引文內(nèi)容提高了計(jì)算機(jī)標(biāo)注的準(zhǔn)確性。2015年,Hernández-Alvarez 和Gomez[16]從ACL Anthology隨機(jī)選取85篇文章構(gòu)成引文語(yǔ)料庫(kù),通過(guò)對(duì)部分文章作者關(guān)于引用動(dòng)機(jī)調(diào)查的結(jié)果和相應(yīng)的計(jì)算機(jī)標(biāo)注進(jìn)行比較,說(shuō)明了計(jì)算機(jī)標(biāo)注結(jié)果有較高的準(zhǔn)確性。然而目前基于數(shù)據(jù)開(kāi)放程度以及引用內(nèi)容自動(dòng)抽取不完善等問(wèn)題,還很難從大規(guī)模文獻(xiàn)語(yǔ)料中高正確率和召回率地對(duì)引用動(dòng)機(jī)進(jìn)行自動(dòng)分類[2]。隨著自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等技術(shù)日益成熟,今后的動(dòng)機(jī)分類研究將更注重自動(dòng)分類以及從大規(guī)模文本獲取更豐富的知識(shí),以幫助引文分析研究更加細(xì)致和深入。
從現(xiàn)有研究可以看出,計(jì)算機(jī)標(biāo)注是目前學(xué)者獲取引用動(dòng)機(jī)的主要方法,相比其他方法,可以更快處理大規(guī)模數(shù)據(jù)。但是本文由于無(wú)法對(duì)引文數(shù)據(jù)進(jìn)行大規(guī)模獲取,同時(shí)考慮到對(duì)圖書(shū)的被引動(dòng)機(jī)作初步探究,不同學(xué)科之間的被引動(dòng)機(jī)可能存在差異性,為保證數(shù)據(jù)標(biāo)注結(jié)果的可靠性和準(zhǔn)確性,本文采用人工標(biāo)注的方法從引文內(nèi)容獲取引用動(dòng)機(jī)。
2.2? ? 引用動(dòng)機(jī)分類相關(guān)研究工作概述
關(guān)于引用動(dòng)機(jī)的分類目前還沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),不同的學(xué)者持有各自的觀點(diǎn)。2006年,Teufel等[14]將引用動(dòng)機(jī)分為4類——明確表明缺點(diǎn)、與其他文章對(duì)比或比較、贊同或使用其他文章、中性的,在此基礎(chǔ)上細(xì)分12個(gè)標(biāo)準(zhǔn)進(jìn)行動(dòng)機(jī)分類研究,之后又將這12個(gè)標(biāo)準(zhǔn)歸到三大類別——負(fù)面、中性、正面;然后,由3名標(biāo)注人員對(duì)計(jì)算機(jī)語(yǔ)言學(xué)的26篇文章的548次引用分別按照12個(gè)類別和3個(gè)類別進(jìn)行動(dòng)機(jī)標(biāo)注,并計(jì)算兩種標(biāo)注方式結(jié)果的Kappa值分別為:0.72(n=12,N=548,k=3)、0.75(n=3,N=548,k=3),相比而言,標(biāo)注人員按照3分類標(biāo)準(zhǔn)的標(biāo)注結(jié)果一致性較高。2013年,Abu-Jbara等[15]對(duì)自然語(yǔ)言處理領(lǐng)域30篇學(xué)術(shù)論文在施引文獻(xiàn)中的3500條引文內(nèi)容及其上下文進(jìn)行動(dòng)機(jī)標(biāo)注,他們將引用動(dòng)機(jī)劃分為6種類型——批評(píng)、比較、實(shí)驗(yàn)、證明、依據(jù)、中性。2013年,朱大明[17]基于引文原理和影響引用動(dòng)機(jī)的各種因素,將參考文獻(xiàn)的引用動(dòng)機(jī)分為學(xué)術(shù)性動(dòng)機(jī)和非學(xué)術(shù)性動(dòng)機(jī),同時(shí)將學(xué)術(shù)性動(dòng)機(jī)劃分成10種小類。2015年,邱均平等[13]將引用動(dòng)機(jī)分為內(nèi)在引用動(dòng)機(jī)(包括知識(shí)主張、價(jià)值感知)和外在引用動(dòng)機(jī)(包括信息源便利性、引用輸出、引用重要性),他們對(duì)收到的157份有效問(wèn)卷進(jìn)行引用動(dòng)機(jī)間影響關(guān)系的探究。2015年,Hernández-Alvarez 和Gomez[16]將引用動(dòng)機(jī)分為6種類型——依據(jù)或彌補(bǔ)、使用、贊同或討論、比較、不足或有待改正、模糊,從而對(duì)來(lái)自計(jì)算機(jī)語(yǔ)言處理領(lǐng)域的85篇文章的引用進(jìn)行動(dòng)機(jī)標(biāo)注。2015,Valenzuela等[18]對(duì)自然語(yǔ)言處理領(lǐng)域?qū)W術(shù)論文的465次引用進(jìn)行動(dòng)機(jī)標(biāo)注,他們將引用動(dòng)機(jī)分為使用、擴(kuò)展、相關(guān)工作、比較,并認(rèn)為如果以拓展或使用為目的的引用,對(duì)于文章來(lái)說(shuō)是重要的;如果是作為背景引用或以比較結(jié)果為目的,則被視為不重要的引用。2018年,尹莉等[8]從SCIE數(shù)據(jù)庫(kù)和CSCD數(shù)據(jù)庫(kù)中選出計(jì)算機(jī)語(yǔ)言學(xué)研究的98篇學(xué)術(shù)論文的約2540條引文記錄,并進(jìn)行動(dòng)機(jī)標(biāo)注,他們將引用動(dòng)機(jī)分為4大類和8小類,即使用(包括被依據(jù)的、供應(yīng)、有用的)、比較(包括對(duì)照)、批評(píng)(包括弱點(diǎn)、回避)和背景(包括獲得、證實(shí))。2018年,Jurgens等[19]選擇自然語(yǔ)言處理領(lǐng)域的52篇文章的1969次引用進(jìn)行動(dòng)機(jī)標(biāo)注,他們將引用動(dòng)機(jī)分為6種類別——背景、使用、比較或?qū)Ρ?、?dòng)機(jī)、擴(kuò)展、未來(lái)展望。
從上述的研究可以看出,不同的學(xué)者對(duì)引用動(dòng)機(jī)的分類標(biāo)準(zhǔn)存在差異。一方面,這與學(xué)者的研究目的和研究方法不同存在一定的關(guān)聯(lián);另一方面,不同的學(xué)者對(duì)引用動(dòng)機(jī)概念的界定有所差別,有些學(xué)者區(qū)分引用過(guò)程中的贊成和批評(píng)意見(jiàn),而有的學(xué)者則認(rèn)為都是闡述前人的工作,不必加以區(qū)分[9,20]。另外綜合近幾年的研究來(lái)看,為了保證分類效率和準(zhǔn)確性,學(xué)者對(duì)動(dòng)機(jī)類別劃分的數(shù)量較少,且類別特征多數(shù)包含“使用”“比較”和“背景引用”等[8,16,18,19]。本文主要對(duì)圖書(shū)的被引動(dòng)機(jī)作初探性的研究,其引用動(dòng)機(jī)的定義主要反映施引作者的引用目的,強(qiáng)調(diào)施引作者引用圖書(shū)對(duì)文章產(chǎn)生的作用,且為客觀存在的動(dòng)機(jī),而不考慮情感極性等其他因素,因此本文綜合以上研究將圖書(shū)的被引動(dòng)機(jī)劃分為“使用”“比較”和“背景引用”三類。
3? ?研究方法
本文通過(guò)獲取圖書(shū)在施引文獻(xiàn)中的引文內(nèi)容,分析其被引動(dòng)機(jī)的分布情況,并研究引用動(dòng)機(jī)與引用位置、引用長(zhǎng)度的相關(guān)性。本文研究框架包括數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分析等三個(gè)部分(見(jiàn)圖1)。
3.1? ? 數(shù)據(jù)采集和處理
本文研究的圖書(shū)元數(shù)據(jù)信息和圖書(shū)施引文獻(xiàn)的元數(shù)據(jù)信息分別來(lái)源于亞馬遜中文網(wǎng)站(https://www.amazon.cn/)和百度學(xué)術(shù)(http://xueshu.baidu.com/),在2016年11月完成數(shù)據(jù)采集工作。目前主流的中文全文數(shù)據(jù)庫(kù)如知網(wǎng)、萬(wàn)方、維普等均存在部分文獻(xiàn)未收錄的情況,為了盡可能地找到圖書(shū)的所有施引文獻(xiàn)信息,本研究以百度學(xué)術(shù)作為檢索入口,以中文圖書(shū)的元數(shù)據(jù)信息作為檢索關(guān)鍵詞,獲取圖書(shū)的施引文獻(xiàn)信息。相比于以單一的中文全文數(shù)據(jù)庫(kù)作為檢索入口,百度學(xué)術(shù)更可能覆蓋所有施引文獻(xiàn)的信息。本文在選取圖書(shū)的學(xué)科領(lǐng)域時(shí),首先以亞馬遜官方網(wǎng)站提供的中文圖書(shū)商品分類1的一級(jí)類目為基礎(chǔ),同時(shí)考慮到一級(jí)類目與學(xué)科分類類目的匹配程度以及自然學(xué)科和人文社會(huì)學(xué)科的差異,我們最終以計(jì)算機(jī)、法律、文學(xué)、醫(yī)學(xué)、體育五個(gè)學(xué)科領(lǐng)域?yàn)槔?,通過(guò)學(xué)術(shù)論文全文數(shù)據(jù)庫(kù)獲取圖書(shū)引文內(nèi)容數(shù)據(jù)集,通過(guò)以下兩個(gè)數(shù)據(jù)獲取的步驟,構(gòu)建圖書(shū)的引文內(nèi)容語(yǔ)料庫(kù)。
(1)根據(jù)圖書(shū)在亞馬遜中文網(wǎng)站上的評(píng)論數(shù)必須大于或等于1、圖書(shū)在百度學(xué)術(shù)上被引次數(shù)大于或等于1、并且圖書(shū)必須包含目錄信息的原則,得到計(jì)算機(jī)、法律、文學(xué)、醫(yī)學(xué)、體育五個(gè)學(xué)科領(lǐng)域的圖書(shū)6006種。
(2)為了保證引文內(nèi)容的準(zhǔn)確性,我們采用人工標(biāo)注的方法獲取這些圖書(shū)被引的引文內(nèi)容及其上下文(即引文內(nèi)容的前兩句和后兩句)。但鑒于人工標(biāo)注方法的工作量大且成本較高,因此,我們僅從6006種圖書(shū)中選擇500種作為實(shí)驗(yàn)對(duì)象。由于6006種圖書(shū)的被引分布存在差異,如被引次數(shù)在[0-5]區(qū)間的較多,而被引大于15次的相對(duì)較少,為使獲得的引文內(nèi)容數(shù)據(jù)更具有代表性,我們根據(jù)圖書(shū)被引分布,按比例(即6006種圖書(shū)在各被引區(qū)間的分布比例)抽取各個(gè)被引區(qū)間的圖書(shū)共計(jì)500種。
在獲取施引文獻(xiàn)全文信息后,主要完成引文語(yǔ)料庫(kù)的構(gòu)建。由于引文上下文中包含施引者對(duì)該文獻(xiàn)的描述與評(píng)價(jià),蘊(yùn)含了施引者的引用動(dòng)機(jī)[21],所以本文采集的引文內(nèi)容不僅包含帶有標(biāo)注序號(hào)的引文句,還有引文的前兩句和后兩句內(nèi)容。采集人員在摘取引文內(nèi)容的同時(shí),根據(jù)引文內(nèi)容所在章節(jié)段落的標(biāo)題以及全文信息判斷引用位置,本文將引用位置劃分為引言、相關(guān)工作、方法、數(shù)據(jù)、實(shí)驗(yàn)、結(jié)果、討論七個(gè)類別;引用長(zhǎng)度即為引文句的字?jǐn)?shù),可在引文內(nèi)容采集完成后進(jìn)行計(jì)算[22]。
數(shù)據(jù)處理過(guò)程主要針對(duì)以下情況進(jìn)行數(shù)據(jù)過(guò)濾:(1)合并處理。部分文獻(xiàn)作者相同,內(nèi)容無(wú)異,僅標(biāo)題有個(gè)別字的差異;部分文獻(xiàn)被翻譯成英文文獻(xiàn),且被發(fā)表在不同的期刊中,對(duì)于這些情況我們僅將其當(dāng)成一篇文章處理,其引用不重復(fù)累計(jì);(2)糾錯(cuò)處理。由于期刊的頁(yè)面排版等因素,部分文獻(xiàn)的引用出現(xiàn)在錯(cuò)版的文章中,因此這些引用無(wú)效,需要剔除掉;(3)刪除處理。部分文獻(xiàn)在引用過(guò)程中沒(méi)有標(biāo)注參考文獻(xiàn)編號(hào);部分文獻(xiàn)無(wú)法在國(guó)內(nèi)的主流數(shù)據(jù)庫(kù)檢索到,也無(wú)法在搜索引擎中獲得全文,因此這些文獻(xiàn)也無(wú)法獲取引文內(nèi)容信息。經(jīng)過(guò)數(shù)據(jù)清洗,我們最終得到399本圖書(shū)的引文句及其上下文(構(gòu)建的圖書(shū)引文內(nèi)容語(yǔ)料庫(kù)具體情況見(jiàn)表1)。
3.2? ? 數(shù)據(jù)標(biāo)注
由于本研究圍繞圖書(shū)被引動(dòng)機(jī)展開(kāi),與已有關(guān)于學(xué)術(shù)論文的被引動(dòng)機(jī)研究存在差異,其分類標(biāo)準(zhǔn)自然也不能一概而論,本文結(jié)合已有的研究,將圖書(shū)的被引動(dòng)機(jī)分為三種類別——“使用”“比較”和“背景引用”,相比而言,這三類之間的區(qū)分度也較強(qiáng)。為了使每種分類標(biāo)準(zhǔn)的定義區(qū)分更加明確,同時(shí)讓標(biāo)注人員在標(biāo)注過(guò)程中更容易判別,本文對(duì)每個(gè)類別進(jìn)行了詳細(xì)的描述。朱大明[17]基于引文原理和影響引用動(dòng)機(jī)的各種因素,將參考文獻(xiàn)的引用動(dòng)機(jī)分為學(xué)術(shù)性動(dòng)機(jī)和非學(xué)術(shù)性動(dòng)機(jī),同時(shí)將學(xué)術(shù)性動(dòng)機(jī)劃分成10小類,其描述相比而言較為詳細(xì)和全面,鑒于本文涉及的圖書(shū)被引動(dòng)機(jī)主要反映施引作者的引用目的,即科研人員學(xué)術(shù)型動(dòng)機(jī),為此本文參考了朱大明的詳細(xì)分類情況,并對(duì)其描述進(jìn)行了調(diào)整和補(bǔ)充,在此基礎(chǔ)之上使其成為三種類別的具體描述,最終得到本文所采用的動(dòng)機(jī)分類標(biāo)準(zhǔn)(見(jiàn)表2)。在實(shí)際標(biāo)注過(guò)程中,該描述基本能覆蓋所有已采集的語(yǔ)料。
為了減少標(biāo)注過(guò)程的誤差,本文標(biāo)注任務(wù)由三位標(biāo)注人員獨(dú)立完成。在正式標(biāo)注之前,三位標(biāo)注者預(yù)標(biāo)注30條數(shù)據(jù),驗(yàn)證標(biāo)注方法的可行性和可靠性。在標(biāo)注過(guò)程中,標(biāo)注者結(jié)合引文的上下文內(nèi)容判斷引文的動(dòng)機(jī),并嚴(yán)格按照人工采集數(shù)據(jù)信息表的標(biāo)準(zhǔn)和描述進(jìn)行歸類,為驗(yàn)證人工標(biāo)注結(jié)果的一致性,本文利用Kappa 系數(shù)作為一致性評(píng)價(jià)指標(biāo),對(duì)三位標(biāo)注者標(biāo)注結(jié)果的一致性進(jìn)行評(píng)估。Kappa系數(shù)定義如下[23]:
其中P(A)表示標(biāo)注結(jié)果一致性的實(shí)際觀測(cè)值,P(E)表示標(biāo)注結(jié)果一致性的期望值。
本文將三位標(biāo)注者的結(jié)果分別兩兩計(jì)算Kappa值,得到各個(gè)領(lǐng)域兩者一致性最高的結(jié)果(見(jiàn)表3)。根據(jù)Carletta[23]給出的一致性參考指標(biāo)(K≥0.8為十分可靠,K≥0.69較為可靠),每個(gè)領(lǐng)域最高的一致性結(jié)果均大于0.69,說(shuō)明標(biāo)注結(jié)果較為可靠。在此基礎(chǔ)上,為了統(tǒng)一標(biāo)注的結(jié)果,本文選取至少兩位標(biāo)注者相同的標(biāo)注結(jié)果作為參考,另外對(duì)于三者的標(biāo)注結(jié)果均不相同的情況,則將其按照分類標(biāo)準(zhǔn)重新討論確定,最終確定一份統(tǒng)一的動(dòng)機(jī)標(biāo)注結(jié)果。
3.3? ? 數(shù)據(jù)分析
數(shù)據(jù)分析部分首先分析圖書(shū)被引動(dòng)機(jī)的整體分布,考慮到動(dòng)機(jī)的分類研究是基于引文內(nèi)容的語(yǔ)義信息,而引用位置和引用長(zhǎng)度并不依賴文本的語(yǔ)義信息[9],因此本文從圖書(shū)被引位置和被引長(zhǎng)度兩個(gè)角度,對(duì)圖書(shū)被引動(dòng)機(jī)的相關(guān)性進(jìn)行探究。另外本文還分析了各個(gè)領(lǐng)域圖書(shū)被引動(dòng)機(jī)的比例分布,并通過(guò)JS(Jensen-Shannon)[24]散度計(jì)算不同領(lǐng)域圖書(shū)在被引動(dòng)機(jī)分布上的相似性。
為了探究不同領(lǐng)域之間圖書(shū)被引動(dòng)機(jī)的相似性,本文試用JS(Jensen-Shannon)距離作為引用動(dòng)機(jī)相似性的度量標(biāo)準(zhǔn),JS距離是基于KL距離的不對(duì)稱性而進(jìn)行改進(jìn)的計(jì)量指標(biāo),其公式定義如下[25]:
其中,p和q為兩個(gè)學(xué)科領(lǐng)域圖書(shū)被引動(dòng)機(jī)分布,pi和qi分別是其學(xué)科領(lǐng)域?qū)?yīng)的第i種引用動(dòng)機(jī)下的概率分布,引用動(dòng)機(jī)的類別數(shù)為n。由于兩個(gè)學(xué)科領(lǐng)域的相似性具有對(duì)稱性,JS散度能很自然地衡量不同領(lǐng)域所構(gòu)成的隨機(jī)分布之間的距離,比其他測(cè)量距離的方法更好[24]。JS 距離越小,表明概率相似度越大,其對(duì)應(yīng)的領(lǐng)域之間圖書(shū)被引動(dòng)機(jī)的相似性越大。通過(guò)對(duì)比不同領(lǐng)域之間的相似度,可以更好的分析基于引文內(nèi)容的圖書(shū)被引動(dòng)機(jī)行為,同時(shí)也可以反映不同領(lǐng)域在圖書(shū)引用動(dòng)機(jī)上的差異性。
4? ?結(jié)果分析
本文圍繞圖書(shū)的被引動(dòng)機(jī)展開(kāi)了以下分析:首先基于圖書(shū)在施引文獻(xiàn)中的引文內(nèi)容,對(duì)圖書(shū)的被引動(dòng)機(jī)整體分布情況進(jìn)行了統(tǒng)計(jì),接著探究了圖書(shū)被引動(dòng)機(jī)與圖書(shū)被引位置、被引長(zhǎng)度之間的關(guān)系,最后從學(xué)科領(lǐng)域的角度分析圖書(shū)被引動(dòng)機(jī)的差異性。
4.1? ? 圖書(shū)的被引動(dòng)機(jī)分布
本文將已標(biāo)注的引用動(dòng)機(jī)進(jìn)行統(tǒng)計(jì)得到圖書(shū)的被引動(dòng)機(jī)分布圖的結(jié)果(見(jiàn)圖2)。從圖中的總體情況來(lái)看,“使用”動(dòng)機(jī)占比較大,平均達(dá)到71.06%,說(shuō)明作者在引用圖書(shū)時(shí),更傾向于通過(guò)引用來(lái)佐證自己的觀點(diǎn),使文章有理有據(jù)?!氨尘耙谩蓖ǔS糜陉U明作者寫(xiě)作意圖和論文的新穎性,在本研究中,該動(dòng)機(jī)所占比重約為25%。相比而言,“比較”動(dòng)機(jī)占比較小,低于5%。而對(duì)于以學(xué)術(shù)論文為研究對(duì)象的引用動(dòng)機(jī)研究,Valenzuela等[18]對(duì)來(lái)自ACL文章中465次引用的數(shù)據(jù)集進(jìn)行動(dòng)機(jī)標(biāo)注,結(jié)果顯示以“相關(guān)工作”和“比較”為引用動(dòng)機(jī)的占比達(dá)到85.4%,而“使用”和“拓展”動(dòng)機(jī)僅為14.6%;Jurgens等[19]對(duì)ACL文章中1969次引用進(jìn)行動(dòng)機(jī)標(biāo)注,結(jié)果表明50%左右的引用為“背景引用”[19],這與圖書(shū)被引動(dòng)機(jī)的分布存在著差異。筆者認(rèn)為,圖書(shū)與學(xué)術(shù)論文在動(dòng)機(jī)分布產(chǎn)生差異的原因,一方面可能是不同作者的動(dòng)機(jī)分類標(biāo)準(zhǔn)不統(tǒng)一;另一方面可能是研究對(duì)象的不同,學(xué)術(shù)論文側(cè)重于研究成果公示,時(shí)效性強(qiáng),可以在一定程度上反映出該領(lǐng)域的研究熱點(diǎn)和進(jìn)展[26],因此作者引用學(xué)術(shù)論文時(shí),“背景引用”占比較大,而圖書(shū)對(duì)知識(shí)的闡述更加系統(tǒng)和完整[26],因此作者更加側(cè)重引用圖書(shū)作為理論的支撐,與本研究中圖書(shū)被引動(dòng)機(jī)“使用”占比較大的結(jié)果相印證。
4.2? ? 基于引用長(zhǎng)度的動(dòng)機(jī)分析
本文將引用內(nèi)容的長(zhǎng)度升序排列,發(fā)現(xiàn)絕大部分引用長(zhǎng)度在220字以內(nèi),僅有2.14%的引用長(zhǎng)度分布在220至600字之間。通過(guò)對(duì)引用長(zhǎng)度小于220字的引用進(jìn)行引用動(dòng)機(jī)與長(zhǎng)度的關(guān)聯(lián)分析,得到引用長(zhǎng)度的動(dòng)機(jī)分布圖(見(jiàn)圖3),其中橫坐標(biāo)為引用長(zhǎng)度區(qū)間,如10代表引用長(zhǎng)度小于10的區(qū)間,20代表引用長(zhǎng)度大于或等于10并小于20的區(qū)間,以此類推。從圖中可以看出,在每一段區(qū)間內(nèi)“使用”占比在65%-80%之間,“背景引用”占比在15%-30%之間,與圖2中三種動(dòng)機(jī)總體分布較為相符,且每段區(qū)間的比例分布起伏相對(duì)平穩(wěn),沒(méi)有出現(xiàn)某種動(dòng)機(jī)出現(xiàn)在固定長(zhǎng)度之間或者相對(duì)聚集的情況,說(shuō)明學(xué)者在引用圖書(shū)時(shí),不會(huì)因?yàn)橐脛?dòng)機(jī)的不同而控制引文的長(zhǎng)度。
4.3? ? 基于引用位置的動(dòng)機(jī)分析
在對(duì)引用位置進(jìn)行標(biāo)注過(guò)程中,我們發(fā)現(xiàn)文學(xué)和法律領(lǐng)域的文章,難以通過(guò)全文主題和其所在章節(jié)在全文中的作用來(lái)推斷引用位置,且不同作者之間的寫(xiě)作架構(gòu)存在差異,人工對(duì)引用位置的判斷難度較大。相比而言,體育、醫(yī)學(xué)、計(jì)算機(jī)三個(gè)領(lǐng)域文獻(xiàn)結(jié)構(gòu)較為直觀,章節(jié)標(biāo)題有助于標(biāo)注者判斷引用位置。因此,我們僅獲得了體育、醫(yī)學(xué)、計(jì)算機(jī)領(lǐng)域圖書(shū)在施引文獻(xiàn)中的引用位置。
我們將不同引用位置的動(dòng)機(jī)分布比例進(jìn)行比較,得到引用位置的動(dòng)機(jī)分布圖(見(jiàn)圖4)。由圖可見(jiàn),“背景引用”在引言部分和數(shù)據(jù)部分占比較大,都超過(guò)了50%,而方法部分和實(shí)驗(yàn)部分的“背景引用”占比較少,分別為13.4%和9.1%;相比而言,“比較”在引言、相關(guān)工作和討論部分占比較大,占比4.5%左右;在方法和實(shí)驗(yàn)部分,“使用”的占比較大。筆者認(rèn)為,該數(shù)據(jù)結(jié)果可能與文章中不同位置體現(xiàn)的作用存在關(guān)聯(lián)性,一般而言,引言和相關(guān)工作部分主要介紹寫(xiě)作范圍和目標(biāo)[18],因此作者更傾向“背景引用”;數(shù)據(jù)、方法和實(shí)驗(yàn)部分描述了這項(xiàng)研究是如何進(jìn)行的;結(jié)果部分展示研究的相關(guān)報(bào)告;討論部分解釋了結(jié)果的含義,并為未來(lái)的工作提供了指導(dǎo)方針[18],因此“比較”引用動(dòng)機(jī)占比也較多。與Jurgens等人的研究進(jìn)行對(duì)比,發(fā)現(xiàn)圖書(shū)與學(xué)術(shù)論文在不同位置的被引動(dòng)機(jī)分布情況存在異同。Jurgens等人同樣表明在引言部分“背景引用”的占比較大,方法和結(jié)果部分的“使用”比重較大,“比較”在討論和相關(guān)工作部分占比相對(duì)較多[19]。不同的是學(xué)術(shù)論文的相關(guān)工作部分以“背景引用”動(dòng)機(jī)為主,討論部分主要為“比較”動(dòng)機(jī)。總的來(lái)說(shuō),對(duì)于不同位置的動(dòng)機(jī)分布存在著明顯的差異,位置和動(dòng)機(jī)間有著一定的關(guān)聯(lián)性。
4.4? ? 不同學(xué)科領(lǐng)域的圖書(shū)被引動(dòng)機(jī)分布
從不同學(xué)科領(lǐng)域角度來(lái)看,學(xué)者在對(duì)圖書(shū)的引用過(guò)程中,動(dòng)機(jī)傾向不同。體育領(lǐng)域的“背景引用”占比43.19%,遠(yuǎn)遠(yuǎn)高于其他領(lǐng)域;法律領(lǐng)域相比其他領(lǐng)域,“比較”占比較大,達(dá)到10.58%;計(jì)算機(jī)和文學(xué)領(lǐng)域的“使用”占比分別為78.87%、79.97%(見(jiàn)表4)。其可能原因是,不同領(lǐng)域的作者寫(xiě)作結(jié)構(gòu)方式不同,導(dǎo)致作者的引用動(dòng)機(jī)傾向也不同。在文學(xué)領(lǐng)域,作者更傾向于直接引用作品文字,或者復(fù)述作品內(nèi)容,作為自己闡述的論據(jù),因此“使用”動(dòng)機(jī)占比較大;在法律領(lǐng)域,作者在對(duì)問(wèn)題或案例進(jìn)行剖析時(shí),更善于運(yùn)用比較法進(jìn)行論證,因此“比較”的動(dòng)機(jī)占比較大;在體育領(lǐng)域,由于理論和實(shí)踐發(fā)展較快,現(xiàn)代體育科學(xué)的綜合性較強(qiáng),背景引用的語(yǔ)句相對(duì)較多。總體而言,在對(duì)圖書(shū)的引用過(guò)程中,不同的引用動(dòng)機(jī)占比不同,同時(shí)在不同領(lǐng)域之間存在差異。
為了進(jìn)一步論證不同學(xué)科領(lǐng)域之間圖書(shū)被引動(dòng)機(jī)的差異程度,我們對(duì)不同學(xué)科領(lǐng)域的圖書(shū)被引動(dòng)機(jī)分布進(jìn)行JS散度計(jì)算,得到不同學(xué)科領(lǐng)域圖書(shū)被引動(dòng)機(jī)分布相似性比較結(jié)果(見(jiàn)表5)。比較可以發(fā)現(xiàn),“計(jì)算機(jī)”與“文學(xué)”之間的JS值較小,僅為0.0001,醫(yī)學(xué)和法律之間的JS值也只有0.0058,說(shuō)明這些領(lǐng)域的圖書(shū)被施引文獻(xiàn)引用時(shí),引用動(dòng)機(jī)表現(xiàn)較為相似,而從學(xué)科交叉的角度來(lái)看,以上學(xué)科領(lǐng)域分別來(lái)自于自然學(xué)科和人文社會(huì)科學(xué),兩者之間的交叉性較小,說(shuō)明施引作者的引用目的并不會(huì)因?yàn)閷W(xué)科交叉性的不同而存在較大差異。相比而言,體育和法律之間的JS值達(dá)0.0498,說(shuō)明兩者之間的引用動(dòng)機(jī)相似度較小。從縱向分布來(lái)看,體育與其他領(lǐng)域之間JS值均大于0.02,相似性普遍較小。
5? ?結(jié)論與研究展望
本文對(duì)引用動(dòng)機(jī)的研究方法和分類標(biāo)準(zhǔn)進(jìn)行梳理,歸納出三個(gè)動(dòng)機(jī)分類標(biāo)準(zhǔn):背景引用、比較、使用。考慮目前以中文為數(shù)據(jù)來(lái)源的研究較少,本文選取中文圖書(shū)的施引文獻(xiàn)作為研究對(duì)象,并從引文內(nèi)容的角度出發(fā),對(duì)圖書(shū)的被引動(dòng)機(jī)進(jìn)行研究。基于實(shí)驗(yàn)數(shù)據(jù)的實(shí)證分析結(jié)果顯示,在引用動(dòng)機(jī)分布中,相比而言“比較”占比較少,“使用”占比較多,不同領(lǐng)域的學(xué)者在對(duì)圖書(shū)的引用中,動(dòng)機(jī)傾向不同,其中“計(jì)算機(jī)”與“文學(xué)”之間的JS值較小,說(shuō)明動(dòng)機(jī)分布較為相似。本文還基于引用位置和引用長(zhǎng)度兩個(gè)方面,對(duì)引用動(dòng)機(jī)進(jìn)行相關(guān)性研究,結(jié)果表明,不同的引用長(zhǎng)度的動(dòng)機(jī)分布較為均勻,說(shuō)明學(xué)者對(duì)圖書(shū)的引用動(dòng)機(jī)不會(huì)受引用長(zhǎng)度的影響,而不同的引用動(dòng)機(jī)與引文位置在全文中表現(xiàn)的作用有較大的關(guān)聯(lián)性。
本文在對(duì)圖書(shū)的被引動(dòng)機(jī)研究中,仍有許多不足之處。首先在數(shù)據(jù)的獲取上,部分的施引文獻(xiàn)由于未有參考文獻(xiàn)標(biāo)號(hào),導(dǎo)致無(wú)法獲取具體的引用句,因此在數(shù)據(jù)的全面性上存在缺陷。此外,在對(duì)引用動(dòng)機(jī)的分析過(guò)程中,每個(gè)領(lǐng)域的數(shù)據(jù)量不均衡,因此在對(duì)比中,仍具有一定的片面性。
未來(lái)的研究中,可以考慮對(duì)數(shù)據(jù)進(jìn)行擴(kuò)充,使各領(lǐng)域之間的數(shù)據(jù)均衡。在標(biāo)注的過(guò)程中,可以記錄判斷的線索詞以及標(biāo)注的可信度,并結(jié)合線索詞,設(shè)計(jì)機(jī)器學(xué)習(xí)的分類規(guī)則,從而構(gòu)建更加精準(zhǔn)的分類體系。同時(shí),還可以考慮從引用情感和引用功能等語(yǔ)義角度與引用動(dòng)機(jī)對(duì)比分析,更加深入地研究圖書(shū)的被引行為,從而為不同學(xué)科領(lǐng)域的圖書(shū)評(píng)價(jià)和科研人員提供更有價(jià)值的參考。
參考文獻(xiàn):
[1]? 劉盛博,丁堃.基于引用內(nèi)容的引文評(píng)價(jià)分析[C].第九屆中國(guó)科技政策與管理學(xué)術(shù)年會(huì)論文集,2013:1-7.
[2]? 劉瀏,王東波.引用內(nèi)容分析研究綜述[J].情報(bào)學(xué)報(bào),2017,36(6):637-643.
[3]? 趙青.文學(xué)學(xué)科引用性質(zhì)與引用深度調(diào)查分析[J].情報(bào)雜志, 2010,29(10):46-50.
[4]? 王嵐.中文人文社會(huì)科學(xué)引用性質(zhì)與引用深度研究[D].南京:南京大學(xué),2009.
[5]? 章成志,童甜甜,周清清.整合不同評(píng)論平臺(tái)的圖書(shū)綜合影響力評(píng)價(jià)研究[J].情報(bào)學(xué)報(bào),2018,37(9):861-873.
[6]? 阮選敏,呂冬晴,張培,等.我國(guó)人文社會(huì)科學(xué)學(xué)術(shù)圖書(shū)被引影響因素研究[J].圖書(shū)館論壇,2019,39(5):33-45.
[7]? White H D.Citation analysis and discourse analysis revisited[J].Applied Linguistics,2004,25(1):89-116.
[8]? 尹莉,郭璐,李旭芬.基于引用功能和引用極性的一個(gè)引用分類模型研究[J].情報(bào)雜志,2018,37(7):139-145.
[9]? 王文娟,馬建霞,陳春,等.引文文本分類與實(shí)現(xiàn)方法研究綜述[J].圖書(shū)情報(bào)工作,2016,60(6):118-127.
[10]? Moravcsik M J,Murugesan P.Some Results on the Function and Quality of Citations[J].Social Studies of Science,1975,5(1):86-92.
[11]? 劉君玉.引文分析的評(píng)價(jià)[J].情報(bào)理論與實(shí)踐,1998,21(2):87-89.
[12]? 馬鳳,武夷山.關(guān)于論文引用動(dòng)機(jī)的問(wèn)卷調(diào)查研究——以中國(guó)期刊研究界和情報(bào)學(xué)界為例[J].情報(bào)雜志,2009,28(6):9-14.
[13]? 邱均平,陳曉宇,何文靜.科研人員論文引用動(dòng)機(jī)及相互影響關(guān)系研究[J].圖書(shū)情報(bào)工作,2015,59(9):36-44.
[14]? Teufel S,Siddharthan A,Tidhar D.Automatic classification of citation function[C].In:Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing (EMNLP2006),Sydney,Australia,2006:103-110.
[15]? Abu-Jbara A,Ezra J,Radev D.Purpose and Polarity of Citation:Towards NLP-based Bibliometrics[C].In:Proceedings of Human Language Technologies:The Conference of the North American Chapter of the Association for Computational Linguistics 2013 (HLT-NAACL2013),Denver,Colorado,USA,2013:596-606.
[16]? Hernández-Alvarez M,Gomez J M.Citation Impact Categorization:for Scientific Literature[C].In:Proceedings of 2015 IEEE International Conference on Computational Science & Engineering (CSE2015),Porto,Portugal,2015:307-313.
[17]? 朱大明.參考文獻(xiàn)的引用動(dòng)機(jī)[J].科技導(dǎo)報(bào),2013,31(22):84.
[18]? Valenzuela M,Ha V,Etzioni O.Identifying meaningful citations[C].In:Proceedings of 2015 in AAAI Workshop:Scholarly Big Data,Austin,Texas,USA,2015:21-26.
[19]? Jurgens D,Kumar S,Hoover S,et al.Measuring the Evolution of a Scientific Field through Citation Frames[J].Transactions of the Association for Computational Linguistics,2018(6):391-406.
[20]? 楊思洛.引文分析存在的問(wèn)題及其原因探究[J].中國(guó)圖書(shū)館學(xué)報(bào),2011,37(3):108-117.
[21]? 徐健,李綱,毛進(jìn),等.文獻(xiàn)被引片段特征分析與識(shí)別研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017,1(11):37-45.
[22]? 章成志,李卓,趙夢(mèng)圓,等.基于引文內(nèi)容的圖書(shū)被引行為研究[J].中國(guó)圖書(shū)館學(xué)報(bào),2019,45(3):96-109.
[23]? Carletta J.Assessing Agreement on Classification Tasks:The Kappa Statistic[J].Computational Linguistics,1996,22(21):249-254.
[24]? 唐曉波,祝黎,謝力.基于主題的微博二級(jí)好友推薦模型研究[J].圖書(shū)情報(bào)工作,2014,58(9):105-113.
[25]? Kullback S,Leibler R A.On information and sufficiency[J].The Annals of Mathematical Statistics,1951,22(1):79-86.
[26]? 馮晴,陳惠蘭.國(guó)內(nèi)數(shù)字圖書(shū)館領(lǐng)域?qū)W術(shù)圖書(shū)出版研究[J].圖書(shū)館雜志,2013,32(4):53-57,81.