胡志剛,章成志
文獻(xiàn)計(jì)量學(xué)自1920年代誕生以來,歷經(jīng)近百年發(fā)展,誕生了洛特卡定律[1]、布拉德福定律[2]、齊普夫定律[3]等理論,期刊影響因子[4]、半衰期、被引次數(shù)、Altmetrics[5]等評(píng)價(jià)指標(biāo),以及引文分析[5]、科學(xué)知識(shí)圖譜[6]等文獻(xiàn)計(jì)量方法,在科技評(píng)價(jià)、學(xué)科建設(shè)、科技政策制定等方面發(fā)揮著重要的作用。傳統(tǒng)的文獻(xiàn)計(jì)量學(xué)主要依據(jù)文獻(xiàn)題錄信息開展研究與實(shí)踐。近年隨著開放獲取運(yùn)動(dòng)的推進(jìn),學(xué)術(shù)論文全文,尤其是HTML/XML等結(jié)構(gòu)化全文變得越來越易得,一些新的基于全文的文獻(xiàn)計(jì)量分析方法[7],如引文內(nèi)容分析[8-13]、科學(xué)實(shí)體識(shí)別[14-16]等相繼興起。這些研究借助自然語言處理、機(jī)器學(xué)習(xí)等技術(shù),深入學(xué)術(shù)論文的文本內(nèi)部,挖掘隱藏于全文之中的知識(shí)內(nèi)涵,形成新的研究范式和內(nèi)容。從這種意義上說,文獻(xiàn)計(jì)量學(xué)正走向全文計(jì)量分析時(shí)代。如何抓住全文本時(shí)代的“數(shù)據(jù)福利”,探索新的研究方法,解決新的現(xiàn)實(shí)問題,是文獻(xiàn)計(jì)量學(xué)發(fā)展中面臨的新課題。
文獻(xiàn)計(jì)量學(xué)是以文獻(xiàn)作為考察對(duì)象,研究文獻(xiàn)信息的生產(chǎn)、離散、增長(zhǎng)與老化的規(guī)律,并廣泛用于科研評(píng)價(jià),以及學(xué)科或領(lǐng)域研究現(xiàn)狀、熱點(diǎn)、趨勢(shì)和知識(shí)體系的分析和確定的一個(gè)情報(bào)學(xué)科[17]。從統(tǒng)計(jì)目錄學(xué)[18]到文獻(xiàn)計(jì)量學(xué)、再到五計(jì)學(xué)[19],文獻(xiàn)計(jì)量學(xué)與時(shí)俱進(jìn),在信息時(shí)代的數(shù)據(jù)浪潮中開拓創(chuàng)新,在智能時(shí)代的技術(shù)前沿中縱橫馳騁,在理論、方法和應(yīng)用層面上不斷拓展自己的發(fā)展空間。正是基于文獻(xiàn)計(jì)量學(xué)由簡(jiǎn)及繁,由淺及深的歷史發(fā)展規(guī)律,文獻(xiàn)計(jì)量學(xué)正從題錄到全文,走向全文計(jì)量分析的新階段。
文獻(xiàn)的題錄數(shù)據(jù)是為文獻(xiàn)信息的存儲(chǔ)、組織、檢索和傳遞而設(shè)計(jì)開發(fā)的一種數(shù)據(jù)形式。1930年代,不滿足于圖書館的信息查詢現(xiàn)狀和方式,科學(xué)家開始研究面向期刊論文等更為細(xì)小的作品的組織和查詢方法,探索機(jī)械化和自動(dòng)化信息檢索這種更高效更先進(jìn)的信息查詢途徑。1960年代初,依托DIALOG、BRS、MEDLARS等文獻(xiàn)數(shù)據(jù)庫(kù)服務(wù),一些期刊出版社和文摘社率先嘗試借助新興的計(jì)算機(jī)技術(shù)來實(shí)現(xiàn)文獻(xiàn)的電子存儲(chǔ)和查詢。在文獻(xiàn)數(shù)據(jù)庫(kù)中,一條文獻(xiàn)記錄由篇名、作者、出版物來源和關(guān)鍵詞等題錄項(xiàng)目(字段)組成,有些數(shù)據(jù)庫(kù)(如Web of Science、Scopus)還增加了文獻(xiàn)的引用信息,從而形成文獻(xiàn)的檢索信息。在形式上,不同的文獻(xiàn)管理系統(tǒng)開發(fā)了BibTex、Refman、Refworks 等不同的樣式?;陬}錄數(shù)據(jù)的文獻(xiàn)數(shù)據(jù)庫(kù)存儲(chǔ)和檢索一直是圖書情報(bào)學(xué)科的核心研究方向之一。
題錄數(shù)據(jù)的大量出現(xiàn)推動(dòng)了文獻(xiàn)計(jì)量學(xué)的蓬勃發(fā)展。文獻(xiàn)計(jì)量學(xué)最早可以追溯到1920 年代,是作為文獻(xiàn)的統(tǒng)計(jì)目錄學(xué)[18]而存在,相繼形成三大定律,即有關(guān)作者分布的洛特卡定律、期刊分布的布拉德福定律、詞頻分布的齊普夫定律,這是文獻(xiàn)定量分析和計(jì)量研究的開端。1969年,文獻(xiàn)學(xué)家Pritchard A.提出用文獻(xiàn)計(jì)量學(xué)[20]代替統(tǒng)計(jì)目錄學(xué)。此后,文獻(xiàn)計(jì)量學(xué)正式成為圖書情報(bào)學(xué)科的一個(gè)重要分支。
基于題錄的文獻(xiàn)計(jì)量學(xué),計(jì)量對(duì)象主要包括4類信息:(1)文獻(xiàn)主體信息,論文作者、作者單位及國(guó)家等;(2)文獻(xiàn)載體信息,論文發(fā)表的期刊及其卷次號(hào)、會(huì)議論文集等;(3)文獻(xiàn)客體信息,論文的標(biāo)題、摘要和關(guān)鍵詞等;(4)文獻(xiàn)受體信息,論文的被引、下載和使用信息等。這4個(gè)方面相輔相成,構(gòu)成了科學(xué)文獻(xiàn)的必要內(nèi)涵,也是文獻(xiàn)計(jì)量的核心要素。
早期的文獻(xiàn)計(jì)量學(xué)主要采用定量統(tǒng)計(jì)的分析方法,即通過描述、推斷等基本的統(tǒng)計(jì)學(xué)方法來展現(xiàn)文獻(xiàn)主體、客體、載體和受體的分布規(guī)律及相關(guān)關(guān)系等。1960年代后,隨著復(fù)雜網(wǎng)絡(luò)分析的興起,文獻(xiàn)計(jì)量學(xué)開始從單維度的統(tǒng)計(jì)分析,拓展到基于二元共現(xiàn)關(guān)系的網(wǎng)絡(luò)分析,如文獻(xiàn)耦合分析[21]、共被引分析[22]、作者合著分析[23-24]、作者共被引分析[25]、期刊共被引分析[26]和共詞分析[27]。這些方法從不同側(cè)面揭示文獻(xiàn)集及其所代表的研究領(lǐng)域中的統(tǒng)計(jì)規(guī)律、關(guān)聯(lián)模式和演進(jìn)動(dòng)態(tài)。Morris S. A.等用盲人摸象的比喻來形容這種文獻(xiàn)計(jì)量學(xué)方法的巴別塔現(xiàn)象[28],如圖1所示。
1990年代至今,科技論文的電子化過程經(jīng)歷3個(gè)階段[29]。
(1)PDF 格式。1990 年代,在與Postscript等的格式競(jìng)爭(zhēng)中,Adobe 公司開發(fā)的PDF(Portable Document Format,便攜式文件格式)格式憑借優(yōu)良的設(shè)計(jì)和一致的顯示效果,一舉成為最流行的科技論文全文電子化格式。
圖1 盲人摸象:不同視角下的文獻(xiàn)題錄計(jì)量方法[28]
(2)HTML格式。2000年后,Elsevier、Springer等期刊出版商為提升讀者的閱讀體驗(yàn),開始將HTML(Hyper Text Markup Language,超文本標(biāo)記語言)作為科技論文在線版本的數(shù)據(jù)格式,并作為PDF格式的補(bǔ)充。2017年以來,中國(guó)CNKI數(shù)據(jù)庫(kù)嘗試在PDF和CAJ之外支持期刊論文的在線閱讀,取得了很好的效果。
(3)XML格式。XML(ExtensibleMarkupLanguage,可擴(kuò)展標(biāo)記語言)格式原用于全文本數(shù)據(jù)的存儲(chǔ)和傳輸層面,近10年來,由于開放獲取(Open Access,OA)運(yùn) 動(dòng) 的 興 起,PLOS、PeerJ、Frontiers等OA期刊出版商開始面向用戶提供這種更為通用和結(jié)構(gòu)化的數(shù)據(jù)格式,使XML格式全文從后臺(tái)走向前臺(tái),成為用戶可以直接獲取和分析的數(shù)據(jù)對(duì)象[9]。
除數(shù)據(jù)層面的迭代更新外,全文計(jì)量分析的出現(xiàn)還得益于OA運(yùn)動(dòng)打破了知識(shí)產(chǎn)權(quán)的束縛。以促進(jìn)文獻(xiàn)自由傳播和使用為目標(biāo)的OA運(yùn)動(dòng)是期刊出版業(yè)的一次革命,發(fā)端于2002年,并在過去十幾年得到快速發(fā)展。OA運(yùn)動(dòng)為文獻(xiàn)的受眾賦予了6 項(xiàng)權(quán)利[30]:閱讀權(quán)(Reader Rights)、再使用權(quán)(Reuse Rights)、版權(quán)(Copyrights)、作者發(fā)布權(quán)(Author Posting Rights)、自動(dòng)發(fā)布權(quán)(Automatic Posting)以及機(jī)讀性(Machine Readable)。這使得作為第三方的文獻(xiàn)計(jì)量學(xué)學(xué)者可以獲得海量全文數(shù)據(jù)的開放使用權(quán)。根據(jù)在Scopus 數(shù)據(jù)庫(kù)中的統(tǒng)計(jì),OA 全文文獻(xiàn)已達(dá)1,064萬篇。
在此背景下,基于全文數(shù)據(jù)的文獻(xiàn)計(jì)量分析應(yīng)運(yùn)而生。從題錄數(shù)據(jù)到全文數(shù)據(jù),文獻(xiàn)計(jì)量學(xué)轉(zhuǎn)而關(guān)注科學(xué)論文的章節(jié)結(jié)構(gòu)、論證邏輯、圖表公式、科學(xué)實(shí)體和引用語境等微觀內(nèi)在的信息。在全文計(jì)量分析中,研究對(duì)象是文獻(xiàn)中的知識(shí)單元、組織、網(wǎng)絡(luò)和系統(tǒng)。在科技論文全文中,上到章節(jié)段落下到單詞短語,從文本符號(hào)到圖表公式,都是圍繞著知識(shí)本體而展開的,只是在顆粒度或呈現(xiàn)形式上有所不同。不論哪一種形式,都是在展現(xiàn)知識(shí)單元的融貫路徑、生成過程和演化規(guī)律。
同樣借助大象作比喻,如果題錄時(shí)代的文獻(xiàn)計(jì)量學(xué)是盲人摸象的話,那么全文計(jì)量或許可以看作是解剖大象。利用仿生學(xué)的方法,全文計(jì)量分析就是通過對(duì)全文的解構(gòu),去識(shí)別文本內(nèi)部的邏輯骨架、論證脈絡(luò)、修辭肌理和信息細(xì)胞。
從微觀到宏觀,根據(jù)計(jì)量顆粒度的不同,全文計(jì)量分析可以從語詞層面、語句層面和語篇層面分別展開。
在微觀層面上,語詞構(gòu)成全文計(jì)量分析的基本單位。語詞的抽取和分析是全文計(jì)量分析的重要組成部分之一,涉及到關(guān)鍵詞提取、知識(shí)實(shí)體識(shí)別等具體問題。
2.1.1 內(nèi)容詞和線索詞的抽取與計(jì)量
作為構(gòu)成文本的基本單位,語詞包括內(nèi)容詞和線索詞兩大類。內(nèi)容詞指的是名詞短語,包含獨(dú)立且明確的含義,一般作為關(guān)鍵詞和主題;線索詞指的是連詞、副詞、代詞等表示情感、轉(zhuǎn)折等句法或語法結(jié)構(gòu)的詞,一般用作情感分析、邏輯分析等?;诮y(tǒng)計(jì)特征、詞法特征、句法特征、主題特征等篩選出重要且具有代表性的關(guān)鍵詞和線索詞,是進(jìn)行文本分類、知識(shí)挖掘、情感分析等更深層次研究的基礎(chǔ)。
在關(guān)鍵詞抽取和計(jì)量方面,楊春明等在考慮詞長(zhǎng)、位置、詞性等啟發(fā)性知識(shí)來計(jì)算詞權(quán)重基礎(chǔ)上,通過文檔凈化、領(lǐng)域詞典分詞等方法提高了關(guān)鍵詞提取的速度及準(zhǔn)確度[31]。劉智鋒等以信息計(jì)量學(xué)領(lǐng)域?yàn)槔?,?gòu)建該領(lǐng)域關(guān)鍵詞語義功能分類框架和標(biāo)注數(shù)據(jù)集,并探討這一數(shù)據(jù)集在語義分析等方面的初步應(yīng)用[32]。未來基于詞嵌入模型(Word Embedding)或者語義空間(Vector Semantics)的研究,可望更好地解決關(guān)鍵詞提取中同義詞消歧或者縮略詞消歧的問題[33-36]。
在線索詞的抽取和計(jì)量方面,胡志剛等分析學(xué)術(shù)論文中的線索詞,包括人稱代詞、行為動(dòng)詞、連接詞等,從而為判斷引用的動(dòng)機(jī)和類型奠定了基礎(chǔ)[37]。陳超美等則探討了科學(xué)論文中表達(dá)不確定性和情感評(píng)價(jià)的線索詞的抽取方法[38]。此外,線索詞還可以依據(jù)具體的詞性,用于共指消解(基于代詞)、情感分析(基于形容詞副詞)等不同的分析任務(wù)。
2.1.2 知識(shí)實(shí)體的識(shí)別與計(jì)量
命名實(shí)體(Named Entity)主要是人名、地名、機(jī)構(gòu)名等專有名詞。在科技論文中,命名實(shí)體主要指藥名、病癥、化合物、天文實(shí)體等。此外,學(xué)術(shù)論文中經(jīng)常出現(xiàn)的概念、算法、方法等學(xué)術(shù)術(shù)語也可以看作是命名實(shí)體。本文將這些命名實(shí)體統(tǒng)稱為知識(shí)實(shí)體。命名實(shí)體識(shí)別是自然語言處理中的一個(gè)重要任務(wù),主要通過統(tǒng)計(jì)模型或機(jī)器學(xué)習(xí)的方法來實(shí)現(xiàn),即通過有監(jiān)督的模型在訓(xùn)練數(shù)據(jù)上進(jìn)行訓(xùn)練得到分類器。
在生物醫(yī)學(xué)計(jì)量領(lǐng)域,學(xué)者對(duì)命名實(shí)體識(shí)別率先開展方法探索[39-41]。Takeuchi K.等通過領(lǐng)域?qū)<业臉?biāo)注樣本和支持向量機(jī)模型,實(shí)現(xiàn)論文全文中生物醫(yī)學(xué)實(shí)體(Biomedical Named Entity,BioNER)的自動(dòng)抽取[42]。Ekbal A.等采用遺傳算法對(duì)生物醫(yī)學(xué)領(lǐng)域的知識(shí)實(shí)體進(jìn)行抽取并借助其強(qiáng)大的搜索能力,實(shí)現(xiàn)生物醫(yī)學(xué)實(shí)體的分類器[43]。Settles B.專門研究蛋白質(zhì)和基因的實(shí)體識(shí)別[44]。此外,化學(xué)領(lǐng)域的知識(shí)實(shí)體識(shí)別也已發(fā)展得較為成熟[45-46]。
在文獻(xiàn)計(jì)量學(xué)領(lǐng)域,Ding Y.等提出實(shí)體計(jì)量學(xué)(Entitymetrics)概念[16],即將知識(shí)單元的計(jì)量用于知識(shí)的發(fā)現(xiàn)。章成志等抽取學(xué)術(shù)文本中有關(guān)數(shù)據(jù)挖掘算法的實(shí)體,并從提及論文數(shù)、總提及次數(shù)、提及位置等方面對(duì)不同算法的影響力進(jìn)行測(cè)度和比較[47-48]。最近他們進(jìn)一步將識(shí)別對(duì)象擴(kuò)展到研究方法實(shí)體,并比較8種神經(jīng)網(wǎng)絡(luò)模型在研究方法實(shí)體識(shí)別上的效率[15]。
語詞層面只能揭示研究的主題,而語句層面可以立體展現(xiàn)研究者的觀點(diǎn)、態(tài)度和研究對(duì)象之間的關(guān)系。因此,語句才是構(gòu)成語義的基本單位。在全文計(jì)量分析中,語句層面的分析主要包括引用語境分析、定義語句分析等。
2.2.1 引用語境的抽取和計(jì)量
引用語境(Citation Context Analysis)就是指包含引用的句子,有時(shí)也包括其前后句。在學(xué)術(shù)論文全文中,五分之一的句子為引用句[49]。引用語境是學(xué)術(shù)論文中特有的一種語句類型,很早就受到文獻(xiàn)計(jì)量學(xué)家的關(guān)注。早在E.Garfield創(chuàng)辦SCI 之初,引用語境就在其最初的考慮范圍之內(nèi)[50]。E.Garfield 認(rèn)為,引用的動(dòng)機(jī)多種多樣,研究引用語境可以破解引用動(dòng)機(jī)之謎。
近年關(guān)于引用語境的大規(guī)模抽取和計(jì)量研究開始興起,其中引用情感分析是引用語境分析中的熱點(diǎn)問題[51-52]。引用語境在學(xué)術(shù)評(píng)價(jià)[53-54]、知識(shí)交叉[55]等方面具有重要的價(jià)值。章成志等從引用位置、強(qiáng)度、長(zhǎng)度以及情感等方面,對(duì)5個(gè)不同學(xué)科領(lǐng)域中文圖書的引文內(nèi)容進(jìn)行計(jì)量分析和比較[56]。此外,他們還設(shè)計(jì)一整套完整的引文內(nèi)容標(biāo)注框架和標(biāo)準(zhǔn)化數(shù)據(jù)集,從引用對(duì)象、引文功能、引用情感、引文位置、引文重要性等方面對(duì)引用語境進(jìn)行標(biāo)注,這為基于引用語境的學(xué)術(shù)評(píng)價(jià)和預(yù)測(cè)等應(yīng)用性研究提供數(shù)據(jù)支撐[13]。在引用語境的識(shí)別和抽取方面,章成志等圍繞被引片段最佳句子數(shù)量的問題,通過加入詞語語義相似度的特征來提高被引片段的識(shí)別效果[57]。艾倫實(shí)驗(yàn)室構(gòu)建了一個(gè)引用語境的搜索引擎Semantic Scholar[58],可以提供施引文獻(xiàn)和被引文獻(xiàn)中的引用語境查詢。
2.2.2 定義語句的抽取與計(jì)量
定義語句是關(guān)于事物的本質(zhì)特征或概念的內(nèi)涵和外延的確切而簡(jiǎn)要的說明[59]。學(xué)術(shù)定義的抽取是知識(shí)抽取的重要組成部分。學(xué)術(shù)定義可以看作是對(duì)學(xué)術(shù)術(shù)語的說明,這對(duì)理解知識(shí)本體、構(gòu)建知識(shí)圖譜、開發(fā)自動(dòng)問答系統(tǒng)等具有非常重要的價(jià)值[60]。
定義語句的抽取離不開句法分析。作為自然語言處理的基礎(chǔ)性任務(wù),句法分析已經(jīng)有了比較成熟的工具,如斯坦福大學(xué)開發(fā)的Python工具包CoreNLP[61]。劉一寧綜述了學(xué)術(shù)定義語句抽取的相關(guān)技術(shù)和應(yīng)用[62],他還和其他學(xué)者一起通過混合使用模式規(guī)則、語法規(guī)則和詞頻統(tǒng)計(jì),面向?qū)W術(shù)期刊論文設(shè)計(jì)一種學(xué)術(shù)定義抽取系統(tǒng)[63]。Pollak S.等借助形態(tài)句法模型、學(xué)術(shù)術(shù)語識(shí)別和語義標(biāo)注技術(shù),提出一種面向領(lǐng)域語料的學(xué)術(shù)定義抽取工作流[64]。潘湑以航空領(lǐng)域的術(shù)語定義抽取為例,提出一種不依賴已有特征選擇方法的特征選擇框架[65]。陽萍等將定義抽取問題建模為句子中術(shù)語及相應(yīng)定義的序列標(biāo)注問題,提出一個(gè)基于雙向長(zhǎng)短時(shí)記憶(Bi-LSTM)的序列標(biāo)注神經(jīng)網(wǎng)絡(luò)模型,對(duì)輸入文本進(jìn)行自動(dòng)化定義抽取[66]。CNKI數(shù)據(jù)庫(kù)就專門提供針對(duì)論文全文中出現(xiàn)的學(xué)術(shù)定義的檢索功能,相當(dāng)于為用戶提供了一個(gè)最權(quán)威、最準(zhǔn)確的不斷更新完善的學(xué)術(shù)定義詞典[67]。但是,目前對(duì)于定義語句的計(jì)量研究還比較少。
[23] Nadege Rolland, “China’s ‘Belt and Road Initiative’: Underwhelming or Game-Changer?” The Washington Quarterly, Vol. 40, No.1 (Spring 2017), p. 137; 韋宗友:《美國(guó)對(duì)“一帶一路”倡議的認(rèn)知與中美競(jìng)合》,《美國(guó)問題研究》2018年第1輯,第57頁。
全文計(jì)量分析還可以通過解構(gòu)和分析學(xué)術(shù)論文的語篇結(jié)構(gòu),對(duì)全文有一個(gè)更宏觀和更整體的刻畫。語篇結(jié)構(gòu)主要指學(xué)術(shù)論文的章節(jié)結(jié)構(gòu)和論證結(jié)構(gòu)。通過對(duì)章節(jié)結(jié)構(gòu)和論證結(jié)構(gòu)的解碼,可以更好地認(rèn)識(shí)全文的有機(jī)性,理解文獻(xiàn)的布局、層次和理路。
2.3.1 章節(jié)結(jié)構(gòu)的識(shí)別與計(jì)量
從形式看,學(xué)術(shù)論文由章節(jié)(Section)構(gòu)成。學(xué)術(shù)論文誕生之初并沒有統(tǒng)一的章節(jié)結(jié)構(gòu),1930年代開始形成了規(guī)范的IMR&D結(jié)構(gòu),即“引言-方法-結(jié)果-討論”的四章式結(jié)構(gòu)。這種論文結(jié)構(gòu)先是在醫(yī)學(xué)領(lǐng)域出現(xiàn),然后逐漸擴(kuò)展到各理工類學(xué)科;而在社會(huì)科學(xué)和人文學(xué)科中,章節(jié)的構(gòu)成則比較靈活。此外,綜述型、評(píng)論和書信類的論文,更加不拘一格。
陸偉等基于章節(jié)標(biāo)題、章節(jié)內(nèi)容、段落和關(guān)鍵詞等視角展開探索,識(shí)別學(xué)術(shù)文本中的結(jié)構(gòu)功能[68-71]。王東波等比較在選取不同特征和機(jī)器學(xué)習(xí)模型的情況下結(jié)構(gòu)功能識(shí)別的效率和效果[72]。秦成磊等通過構(gòu)建層次注意力網(wǎng)絡(luò)模型來實(shí)現(xiàn)對(duì)學(xué)術(shù)文本章節(jié)功能類型的自動(dòng)判定[73]。李楠等對(duì)學(xué)術(shù)文本結(jié)構(gòu)功能識(shí)別在醫(yī)學(xué)、圖情、數(shù)據(jù)、出版、經(jīng)濟(jì)等5個(gè)不同學(xué)科上的適用性進(jìn)行了實(shí)驗(yàn)和對(duì)比分析[74]。胡志剛對(duì)Journal of Informetrics期刊中的論文的章節(jié)結(jié)構(gòu)進(jìn)行可視化分析,發(fā)現(xiàn)大多數(shù)論文在章節(jié)結(jié)構(gòu)和章節(jié)長(zhǎng)度上都趨于一致,但在章節(jié)標(biāo)題上存在不同的表達(dá)[49]。
2.3.2 論證結(jié)構(gòu)的識(shí)別與計(jì)量
科學(xué)論文全文中的論證結(jié)構(gòu)(Argumentation Structure)是非常重要的研究方面,主要是挖掘具有邏輯關(guān)聯(lián)的本體及其關(guān)系,如假設(shè)與檢驗(yàn)、問題與對(duì)策、數(shù)據(jù)與方法、論點(diǎn)和證據(jù)等。對(duì)論證結(jié)構(gòu)的挖掘和可視化的探索已在教育領(lǐng)域和計(jì)算機(jī)領(lǐng)域得以廣泛開展[75-76]。Andreas P.等對(duì)科學(xué)文本中的觀點(diǎn)(Claims)、前提(Premises)進(jìn)行識(shí)別和分類,并在此基礎(chǔ)上將論證分為支持(Support)、反對(duì)(Attack)等關(guān)系[77]。針對(duì)更復(fù)雜的論證結(jié)構(gòu)和框架,目前也有一些初步的探索[78]。Teufel S.等在其設(shè)計(jì)的科學(xué)論文全文論證結(jié)構(gòu)分析模型中,標(biāo)注15種不同類型的論證塊(Argumentative Zoning),并利用有監(jiān)督學(xué)習(xí)的方法探索論證塊的自動(dòng)標(biāo)注技術(shù)[79-80]。
從語義層面分析語篇的論證結(jié)構(gòu),另一種常用的模型是修辭結(jié)構(gòu)理論(Rhetorical Structure Theory)模型,即識(shí)別語篇中的核心-衛(wèi)星(Nucleus-Satellite)關(guān)系[81]。修辭結(jié)構(gòu)理論的提出者William C.M.等命名和定義了20多種結(jié)構(gòu)關(guān)系,包括因果、細(xì)化、證據(jù)、歸屬、列舉等,這些結(jié)構(gòu)關(guān)系可進(jìn)一步遞歸連接,組成更大的結(jié)構(gòu)段,直至組成有機(jī)的語篇[82]。自1987年提出至今,修辭結(jié)構(gòu)理論得到深入的發(fā)展和廣泛的應(yīng)用,如跨語言翻譯[83]、情感分析[84],并且已建立規(guī)范的語篇語料庫(kù),如Treebank Manual[85]和The Penn Discourse TreeBank[86]。
全文計(jì)量分析就是從紛繁復(fù)雜的非結(jié)構(gòu)化文本中,抽取知識(shí)單元的顆粒(實(shí)體抽取)和鏈條(關(guān)系抽取),并通過統(tǒng)計(jì)或可視化的方法進(jìn)行計(jì)量分析??偟膩砜?,全文計(jì)量分為文本分析和計(jì)量分析兩種范式。
如果把科學(xué)論文寫作看作是知識(shí)單元基于語法與語義規(guī)則的邏輯建構(gòu)和組裝,那么全文計(jì)量就是論文寫作的逆過程。它的目標(biāo)是打開全文本封裝后的黑箱,條分縷析地抽取并解讀全文中的知識(shí)訊息。
3.1.1 計(jì)算語言學(xué)方法
計(jì)算語言學(xué)主要是指通過建立形式化的數(shù)學(xué)模型來分析和處理自然語言的一門學(xué)科。對(duì)學(xué)術(shù)文本而言,計(jì)算語言學(xué)方法主要用于從正文中解析出所需的學(xué)術(shù)信息,如題錄信息、引用信息、圖表信息、章節(jié)信息,包括對(duì)全文進(jìn)行分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、關(guān)鍵詞抽取、詞義角色標(biāo)注等基礎(chǔ)性任務(wù)。學(xué)術(shù)信息的抽取技術(shù)包括基于字典、基于規(guī)則、基于機(jī)器學(xué)習(xí)等的多種方法,適用于不同的任務(wù)需求和文本類型[87]?;谝?guī)則的提取方法是指基于一系列事先設(shè)計(jì)好的規(guī)則和流程對(duì)全文中的各類學(xué)術(shù)信息進(jìn)行提取,準(zhǔn)確率較高。Groza T.等基于字體的格式或位置特征,設(shè)計(jì)了一套面向PDF格式文檔的題錄數(shù)據(jù)提取規(guī)則[88]?;跈C(jī)器學(xué)習(xí)的方法,主要包括支持向量機(jī)模型[89]、條件隨機(jī)場(chǎng)模型[90]、隱馬爾可夫模型[91]等,準(zhǔn)確度一般低于基于規(guī)則的方法,但具有更高的通用性。例如,Schwartz A. S.等利用條件隨機(jī)場(chǎng)模型來識(shí)別生物學(xué)論文中的引用語境信息,取得了較好的效果[92]。
3.1.2 社會(huì)語言學(xué)方法
社會(huì)語言學(xué)(Sociolinguistics)主要是指運(yùn)用語言學(xué)和社會(huì)學(xué)等學(xué)科的理論和方法,從不同的科學(xué)角度去研究語言的社會(huì)本質(zhì)及其差異的一門學(xué)科。話語分析是社會(huì)語言學(xué)中的一種典型方法,也是被用得最多的一種。話語分析主要研究話語的語境、語義、語法、產(chǎn)生、發(fā)展、實(shí)踐,以及話語與權(quán)力、話語與意識(shí)形態(tài)、話語與社會(huì)建構(gòu)等問題,具體又包括會(huì)話分析、批評(píng)話語分析、語料庫(kù)話語分析、多模態(tài)話語分析等[93]。
從社會(huì)語言學(xué)角度,不同文化和學(xué)科背景下的科學(xué)家具有不同的表達(dá)風(fēng)格和習(xí)慣。科學(xué)文本深受語言、文化和全球化等因素的影響[94]。盧超等利用大規(guī)模的學(xué)術(shù)文本對(duì)英語母語者和非母語者及二者合作論文的語言風(fēng)格進(jìn)行分析,結(jié)果顯示非母語者在一些指標(biāo)上較母語者存在一定的弱勢(shì)[95]。有學(xué)者認(rèn)為學(xué)術(shù)文本本質(zhì)上是一種語言游戲,包括科學(xué)語言的數(shù)學(xué)化、科學(xué)價(jià)值的認(rèn)可等[96]。社會(huì)語言學(xué)方法尤其適用于人文社科的學(xué)術(shù)文本研究。在人文社科領(lǐng)域,信息本身的“意義”大于信息本身,因此需要解構(gòu)信息背后不同的人文或社會(huì)內(nèi)涵,而文本的互文性又決定了必須從主觀的角度去理解文本的真正內(nèi)涵。
在題錄數(shù)據(jù)中,文獻(xiàn)計(jì)量元素的各項(xiàng)一般是獨(dú)立互斥的,即這些計(jì)量數(shù)據(jù)或不會(huì)重復(fù)出現(xiàn)(如篇尾引文),或與順序無關(guān)(如關(guān)鍵詞),或雖然順序相關(guān)但是位置無關(guān)(如作者)。而在全文計(jì)量分析中,計(jì)量元素之間并不滿足這一假設(shè),信息的頻次、密度、順序、位置都是需要考量的重要內(nèi)容,因此在計(jì)量過程中需要采用新的分析方法,如加權(quán)分析方法和序列分析方法。
3.2.1 加權(quán)分析方法
在全文計(jì)量分析中,由于計(jì)量信息(如篇中引用、學(xué)術(shù)實(shí)體)散落在正文中,可能出現(xiàn)多次,并且出現(xiàn)在多個(gè)不同的位置,因此需要考慮如何對(duì)這些信息進(jìn)行加權(quán)計(jì)數(shù)。以篇中引用(in-text citation)為例,在施引文獻(xiàn)中,由于一篇引文在正文中被引用(提及)可能不止1次,重要的引文可能在同一篇施引文獻(xiàn)中被引用兩次或以上[97],因此可以借助引用次數(shù)或位置的信息來為一篇引文的價(jià)值和意義賦權(quán),而不是像傳統(tǒng)的基于篇末引文列表的引文分析那樣將引文進(jìn)行同權(quán)看待。利用這種加權(quán)的方法,胡志剛等提出基于篇中引用的新的被引計(jì)數(shù)方式[98],Ding Y.等比較了傳統(tǒng)的CountOne和考慮多引的CountX兩種計(jì)數(shù)方式的不同[99]。Zhao D.等進(jìn)一步明確提出加權(quán)引文分析(weight citation analysis)的概念[100],指出除基于引用強(qiáng)度的加權(quán),還可以基于引用位置對(duì)引文賦予不同的權(quán)重。McCain K.W.很早就探索不同賦權(quán)下的引用效用指標(biāo)(utility index)[101],如對(duì)“數(shù)據(jù)與方法”一章中的引用賦予更高的權(quán)重。
3.2.2 序列分析方法
如果將篇中引用或者抽取的實(shí)體、主題詞等看作在正文中出現(xiàn)的事件,那么就可以利用事件序列的分析方法來對(duì)這些元素進(jìn)行計(jì)量、模式發(fā)現(xiàn)或可視化分析。序列分析旨在從紛繁復(fù)雜的事件序列中發(fā)現(xiàn)抽象的事件相關(guān)規(guī)律,并通過可視化技術(shù)進(jìn)行刻畫,使用戶可以結(jié)合領(lǐng)域知識(shí)來探索序列數(shù)據(jù)集中存在的演化模式和異常事件。常用的事件序列數(shù)據(jù)可視化呈現(xiàn)形式包括基于甘特圖(Gantt Chart)、基于流程圖(Flow Chart)、基于時(shí)間線(TimeLine Chart) 或故事線圖(StoryLine Chart)及基于矩陣的可視化方法[102]。Teufel S. 曾利用故事線圖來展現(xiàn)學(xué)術(shù)文本中的結(jié)構(gòu)功能脈絡(luò)[80]。胡志剛等設(shè)計(jì)了一種引用位置分布的可視化圖譜,可以展現(xiàn)引用在正文中的章節(jié)分布、密度特點(diǎn)和簇集效應(yīng)等[103]。
與基于題錄數(shù)據(jù)的文獻(xiàn)計(jì)量分析相比,全文計(jì)量在數(shù)據(jù)源的異質(zhì)性、數(shù)據(jù)規(guī)模和結(jié)構(gòu)化程度等方面更復(fù)雜,因此在計(jì)量流程、研究范式和研究?jī)?nèi)容上都有著根本的不同。站在全文本時(shí)代前沿,這種與傳統(tǒng)文獻(xiàn)計(jì)量學(xué)一脈相承但又有著顯著區(qū)別的全文計(jì)量分析技術(shù),正在為圖書情報(bào)學(xué)科翻開新的篇章。為了更好展現(xiàn)全文計(jì)量分析的全貌,本文從全文計(jì)量分析的數(shù)據(jù)來源、研究?jī)?nèi)容、研究方法等方面,對(duì)全文計(jì)量的框架和范式進(jìn)行了全面梳理和系統(tǒng)綜述。在數(shù)據(jù)方面,全文計(jì)量分析與開放獲取運(yùn)動(dòng)共生共長(zhǎng),在獲取海量、多源、異構(gòu)、異質(zhì)的全文數(shù)據(jù)的前提下,擁有非常寬廣的文獻(xiàn)計(jì)量分析研究空間。在內(nèi)容方面,分別從語詞、語句和語篇等不同層面,探討和綜述了全文計(jì)量分析中的熱點(diǎn)問題。在方法方面,全文計(jì)量分析主要包括文本分析和計(jì)量分析兩種范式,其中文本分析包括了計(jì)算語言學(xué)和社會(huì)語言學(xué)兩方面的內(nèi)容,計(jì)量分析則主要引入了加權(quán)分析和序列分析等新的思路。展望未來,隨著全文計(jì)量分析的進(jìn)一步發(fā)展,這一研究將廣泛應(yīng)用于引文推薦和寫作輔助、文獻(xiàn)管理與閱讀、語義網(wǎng)與知識(shí)圖譜、學(xué)科交叉和文本分類、圖表分類和識(shí)別等領(lǐng)域,在圖書情報(bào)學(xué)領(lǐng)域發(fā)揮越來越大的作用。