姜 霖 顧繼光
(1.南通大學(xué)經(jīng)濟與管理學(xué)院 南通 226019;2.江蘇省數(shù)據(jù)工程與知識服務(wù)重點實驗室 南京 210023)
隨著大科學(xué)時代的到來,科學(xué)系統(tǒng)及其學(xué)科分類日漸復(fù)雜。各門學(xué)科之間不再相互獨立,而是表現(xiàn)出相互聯(lián)系、彼此交叉融合的特征[1]。近年來,越來越多的學(xué)科交叉領(lǐng)域逐漸成為科學(xué)前沿,許多重大突破性科學(xué)成果的產(chǎn)生和復(fù)雜科學(xué)性問題的解決都得益于學(xué)科知識的交叉融合[2]。學(xué)科交叉的本質(zhì)是整合來自多個研究領(lǐng)域的理論、方法、工具、概念等,為復(fù)雜科學(xué)問題的解決提供更全面的視角[3]。學(xué)科交叉融合已逐步成為現(xiàn)代知識創(chuàng)新發(fā)展的新動力。
現(xiàn)有的學(xué)科交叉研究多關(guān)注宏觀層面的跨學(xué)科態(tài)勢分析,以學(xué)術(shù)論文的引證關(guān)系為研究對象,探究學(xué)科交叉程度的測度方法以及跨學(xué)科知識的轉(zhuǎn)移規(guī)律[4]。而從引用內(nèi)容角度出發(fā),從微觀層面對學(xué)科交叉中知識整合過程的研究相對較少。學(xué)科交叉中知識整合過程可理解為對不同學(xué)科的知識進行吸納并內(nèi)化到本學(xué)科核心知識體系中的過程。在對交叉領(lǐng)域知識整合過程進行分析時,知識內(nèi)化過程是核心。探究學(xué)科交叉中知識的內(nèi)化過程,對于深入了解學(xué)科間交叉融合現(xiàn)象產(chǎn)生的動力因素,理解新學(xué)科邊界的形成和發(fā)展,進而推動學(xué)科知識的創(chuàng)新和發(fā)展都有著重要意義。
近年來,引文內(nèi)容分析被視為一種傳統(tǒng)引文分析的替代方法[5]。引文內(nèi)容中蘊藏著被引文獻在施引文獻中被提及的具體知識內(nèi)容,是研究學(xué)科間知識流動的有效平臺[6]。在學(xué)科交叉研究中,將引文內(nèi)容納入分析框架,有助于從微觀層面深度揭示學(xué)科之間的知識關(guān)聯(lián),為顯性觀察學(xué)科交叉的知識吸納和內(nèi)化過程提供必要條件。引用情感作為引文內(nèi)容研究的一部分,蘊含在引用內(nèi)容中,表達(dá)了施引文獻作者對被引文獻的情感態(tài)度,可以進一步反映跨學(xué)科知識點在本學(xué)科知識體系整合過程中被接納的程度。本文結(jié)合引文分析和情感分析方法,通過挖掘引文內(nèi)容、參考文獻原文以及領(lǐng)域自身核心知識體系之間的知識匹配關(guān)系,借此理清交叉學(xué)科知識的來龍去脈,揭示學(xué)科交叉中知識的內(nèi)化過程、推動因素以及規(guī)律。本文以圖情領(lǐng)域作為研究對象,探究該學(xué)科內(nèi)的知識內(nèi)化規(guī)律,期望從知識來源的角度揭示跨學(xué)科知識的融合過程,豐富微觀層面學(xué)科交叉規(guī)律的研究,為交叉領(lǐng)域知識發(fā)現(xiàn)和知識創(chuàng)新提供路徑指導(dǎo)。
學(xué)科交叉領(lǐng)域的概念最早源于“Interdisciplinary(學(xué)科交叉/跨學(xué)科)”一詞,由Woodworth于1926年在美國社會科學(xué)研究委員會議上提出,認(rèn)為跨學(xué)科是超越一個已知學(xué)科的邊界而進行的涉及兩個或兩個以上學(xué)科的研究領(lǐng)域[7]。交叉領(lǐng)域的產(chǎn)生和演化表現(xiàn)為對來自不同學(xué)科的知識單元進行知識整合。早期關(guān)于交叉領(lǐng)域的研究主要通過引證關(guān)系來理解學(xué)科交叉的程度和揭示知識從相關(guān)學(xué)科流動到交叉領(lǐng)域的規(guī)律。
不同學(xué)科領(lǐng)域知識點在相互吸收和融匯互通的過程中,伴隨著對跨學(xué)科知識點的吸收與內(nèi)化[8]。近年來,一些學(xué)者開始關(guān)注學(xué)科之間的知識關(guān)聯(lián),研究學(xué)科交叉領(lǐng)域知識內(nèi)容層面的規(guī)律。Ba[9]等利用共詞分析方法構(gòu)建知識點網(wǎng)絡(luò),探究醫(yī)學(xué)信息學(xué)和計算機科學(xué)兩個學(xué)科的知識整合關(guān)系。溫芳芳[10]等選取Web of Science核心集中有關(guān)新冠肺炎主題的論文為研究對象,利用關(guān)聯(lián)規(guī)則挖掘方法探究新冠病毒研究領(lǐng)域的多學(xué)科知識融合特征,挖掘從知識吸收、知識內(nèi)化到知識輸出的關(guān)聯(lián)性。這些研究所得的成果和發(fā)現(xiàn)有助于發(fā)現(xiàn)和揭示多學(xué)科知識整合的規(guī)律,但它們多局限于某個領(lǐng)域文獻的元數(shù)據(jù)層面,尚未升入到引文內(nèi)容中,一些研究者發(fā)現(xiàn),通過深入到引文內(nèi)容中可以進一步揭示交叉領(lǐng)域的知識整合過程[11]。
2012年,Ding等提出了基于引文內(nèi)容分析研究框架,并指出引文內(nèi)容分析是下一代引文分析的一個重要研究方向[12]。引用內(nèi)容指的是在論文正文中有引用標(biāo)識(如[1]、[1、2]、[1-3]等)的句子的集合,它可以是一組句子,一句話或一個句子的部分。引文內(nèi)容中不但蘊藏著被引的具體知識內(nèi)容,還隱藏著作者的引用動機,引用情感等深層次信息,是研究學(xué)科知識交流過程的有效平臺。從學(xué)科交叉研究的角度來看,從引文內(nèi)容出發(fā),可以將不同學(xué)科間的知識流轉(zhuǎn)過程具象化,從而更深入地挖掘不同學(xué)科間知識的關(guān)聯(lián)性,為研究不同學(xué)科間的知識吸收與內(nèi)化過程提供了必要條件。引文內(nèi)容分析主要可以分為兩個部分,一部分是引用中文本內(nèi)容的研究,另一部分是引用中情感的研究。
引文情感反映了施引文獻作者對被引文獻的情感態(tài)度和情感傾向[13]。在引用情感研究方法方面,Moravcsik等通過對引文內(nèi)容的人工解讀來判斷引文情感,并將其分為肯定引用、否定引用等五個維度[14]。但是由于當(dāng)時技術(shù)水平的限制,引用情感識別主要通過問卷調(diào)查和人工判讀的方法,存在效率低、主觀性強等不足。隨著自然語言處理技術(shù)的發(fā)展,引文情感識別的相關(guān)研究取得了一些進展。Teufel等提出了一種基于監(jiān)督學(xué)習(xí)的引用情感自動分類框架,通過自動化情感分析技術(shù)準(zhǔn)確地進行引用情感識別[15];劉盛博等提出了一種基于數(shù)據(jù)挖掘的引用情感識別方法,通過引用內(nèi)容的語義判斷引用情感,從而構(gòu)建了一個基于引用內(nèi)容的引文評價平臺[16]。通過對引文內(nèi)容中作者對吸納知識反應(yīng)的情感態(tài)度,可以進一步反映跨學(xué)科知識單元在學(xué)科知識體系中被接納的程度,有助于發(fā)現(xiàn)新的學(xué)科知識生長點和推動知識創(chuàng)新。
為了有效探究跨學(xué)科知識吸納和內(nèi)化過程,本文以詞匯作為跨學(xué)科知識單元的觀察對象,通過識別引用內(nèi)容中蘊含的知識單元來觀察跨學(xué)科知識在學(xué)科間的流動過程,利用情感分析技術(shù),對跨學(xué)科知識在內(nèi)化過程中被本學(xué)科接納和吸收的程度進行量化分析,希望借此探尋跨學(xué)科知識從吸納到內(nèi)化過程中存在的規(guī)律。具體研究思路如下:以學(xué)科領(lǐng)域內(nèi)的參考文獻集為起點,基于參考文獻來源期刊的所屬學(xué)科,識別參考文獻集中的跨學(xué)科引用,將跨學(xué)科知識的吸納具象化為跨學(xué)科引用文本內(nèi)容中對被引文獻包含的跨知識單元(詞匯)的使用。而知識內(nèi)化則是指本學(xué)科學(xué)者在對前人知識(詞匯)進行吸納的基礎(chǔ)上,將這些知識應(yīng)用于本學(xué)科研究領(lǐng)域內(nèi)復(fù)雜問題的解決,知識的傳播和共享,推動本學(xué)科其他學(xué)者進行吸納和理解,并進一步應(yīng)用于知識創(chuàng)新的過程。
本文將跨學(xué)科知識的“吸納-內(nèi)化”過程操作化為從跨學(xué)科文獻中吸納的知識單元(詞匯)進一步被整合到本學(xué)科知識體系結(jié)構(gòu)中的過程。通過對引用內(nèi)容文本中的知識點匹配,觀察跨學(xué)科知識在學(xué)科內(nèi)部的流動,并利用情感分析技術(shù)識別、量化跨學(xué)科知識在吸納和內(nèi)化節(jié)點上被本學(xué)科知識體系所接納的程度。具體實施方法路徑如圖1所示。
圖1 跨學(xué)科知識內(nèi)化研究框架圖
2.2.1數(shù)據(jù)采集
首先,獲取學(xué)科文獻的全文數(shù)據(jù),本文選取知網(wǎng)(CNKI)作為學(xué)術(shù)文獻資源獲取平臺,利用網(wǎng)絡(luò)爬蟲對選取的期刊數(shù)據(jù)全文本進行下載,并將全文本數(shù)據(jù)解析成文獻元數(shù)據(jù)、文本內(nèi)容信息和參考文獻信息,利用XML語言對獲取的數(shù)據(jù)進行整理和持久化。通過使用正則表達(dá)式對參考文獻的文內(nèi)引用標(biāo)識進行識別匹配,進一步將參考文獻與引用文本內(nèi)容關(guān)聯(lián)起來。
2.2.2內(nèi)化知識的識別和情感量化
①跨學(xué)科知識吸納識別??鐚W(xué)科知識主要通過跨學(xué)科引用融入到本學(xué)科知識體系中,本文借鑒學(xué)科專業(yè)目錄使用人工標(biāo)識參考文獻來源期刊所屬學(xué)科的方法,來識別本學(xué)科借鑒的跨學(xué)科文獻。雖然在學(xué)科交叉、學(xué)科融合的當(dāng)下,學(xué)科界限日益模糊,但大部分期刊所刊載的研究文獻依然各自集中在本學(xué)科領(lǐng)域,通過學(xué)術(shù)期刊的學(xué)科歸屬來辨別跨學(xué)科知識的來源具有一定的合理性和可行性。本文借助FudanNLP工具包(復(fù)旦大學(xué)自然語言處理實驗室編寫的中文自然語言處理開源項目,提供了包括分詞、詞性標(biāo)注、句法分析、關(guān)鍵詞提取等多種功能,下載地址: https://github.com/FudanNLP/fnlp),挖掘文獻跨學(xué)科引用內(nèi)容中蘊含的關(guān)鍵詞,并將其作為吸納的跨學(xué)科知識,具體的跨學(xué)科知識識別樣例如圖2所示。
參考文獻盧海陽, 鄭逸芳, 黃靖洋.公共政策滿意度與中央政府信任———基于中國16個城市的實證分析[J].中國行政管理, 2016 (8) :92-99.期刊名稱中國行政管理所屬學(xué)科管理學(xué)(公共管理)文獻引用內(nèi)容公共政策的順利推行是社會運行的基礎(chǔ), 而政策受眾支持度作為政府事前評估的一項重要指標(biāo), 一方面可輔助相關(guān)部門的最終決策, 另一方面也會對當(dāng)局產(chǎn)生強大的輿論監(jiān)督, 顯著影響民眾對政府的信任機制[1,2]吸納知識點公共政策 受眾支持度 事前評估 輿論監(jiān)督 信任機制參考文獻高陽, 嚴(yán)建峰, 劉曉升.樸素并行LDA[J].計算機科學(xué), 2015 (6) :243-246期刊名稱計算機科學(xué)所屬學(xué)科工學(xué)(計算機科學(xué)與技術(shù))文獻引言內(nèi)容PLDA相較于LDA模型, 可以有效減少分析大規(guī)模文檔集或語料庫中潛藏的主題信息的計算時間[20], 提高算法的運行效率和并行的加速比, 而且在精度方面也能得到充分保證。吸納知識點PLDA LDA模型 語料庫 算法 運行效率
②跨學(xué)科知識內(nèi)化識別。本文從多學(xué)科層面,認(rèn)為跨學(xué)科知識的內(nèi)化過程本質(zhì)上是吸納的多學(xué)科知識被進一步整合到本學(xué)科知識體系結(jié)構(gòu)中的過程。本文利用標(biāo)注的跨學(xué)科參考文獻,識別跨學(xué)科引用內(nèi)容中包含的學(xué)科知識,隨著該文獻蘊含的跨學(xué)科知識再次被樣本文獻集中本學(xué)科的文獻引用和吸納,跨學(xué)科知識也隨之融入到本學(xué)科的知識體系中。為了能夠觀察引用內(nèi)容中跨學(xué)科知識隨著引用路徑的遷移過程,本文借鑒了知識點匹配算法[17],采用了2種匹配方式。
a.詞-詞匹配。對兩個來源(跨學(xué)科吸納引用文本內(nèi)容和內(nèi)化引用文本內(nèi)容)中的關(guān)鍵詞實施一對一匹配;
b.相似詞匹配。對兩個來源中的關(guān)鍵詞實施詞相似度匹配。以樣本集中的文獻標(biāo)題、關(guān)鍵詞、摘要、引用內(nèi)容作為詞向量訓(xùn)練樣本集,通過word2vec模型得到詞向量,通過余弦相似度算法對關(guān)鍵詞實施匹配,余弦相似度的閾值設(shè)定為0.9。
由于引用內(nèi)容中知識點關(guān)鍵詞提取不準(zhǔn)確,包含“算法”“領(lǐng)域”“研發(fā)”這樣的泛化詞,所以實際進行知識點匹配時,當(dāng)有超過3個詞匹配時,才認(rèn)為指代的是相同的知識點。
③引用情感量化。本文認(rèn)為學(xué)科領(lǐng)域?qū)<以谝脙?nèi)容中表達(dá)出的對于跨學(xué)科知識的情感態(tài)度,對于跨學(xué)科知識融入到本學(xué)科知識體系中的過程存在促進或者抑制作用。具體的吸納和內(nèi)化情感變化樣例如圖3所示。
被引跨學(xué)科文獻標(biāo)題基于Python自然語言處理工具包在語料庫研究中的運用跨學(xué)科知識來源學(xué)科工學(xué)(計算機科學(xué)與技術(shù))吸納文獻標(biāo)題基于LDA和戰(zhàn)略坐標(biāo)的專利技術(shù)主題分析———以石墨烯領(lǐng)域為例吸納引用內(nèi)容Python語言是一門功能強大的編程語言, 尤其是基于計算機編程語言Python的NLTK工具包是一個可用于對自然語言進行清潔、賦碼、檢索、語法及語義分析等處理的工具包, 適合用于處理語言數(shù)據(jù), 且功能全面, 可以組合起來解決復(fù)雜問題[16], 因此, 本文技術(shù)名詞提取階段主要借助Python完成, 把專利文檔轉(zhuǎn)換成由多個技術(shù)名詞所構(gòu)成的特征向量, 為下一階段的主題模型識別奠定基礎(chǔ)吸納知識點Python;編程語言;NLTK;自然語言;主題模型;特征;向量;技術(shù);名詞;專利情感詞強大 全面情感傾向正向內(nèi)化文獻標(biāo)題基于Chunk-LDAvis的核心技術(shù)主題識別方法研究內(nèi)化引用內(nèi)容伊惠芳等[18]結(jié)合LDA模型和戰(zhàn)略坐標(biāo)圖方法進行專利技術(shù)主題分析, 識別出其中的核心技術(shù)主題及其結(jié)構(gòu)特征, 對于客觀合理地追蹤技術(shù)前沿、提高研發(fā)效率具有重要意義內(nèi)化知識點戰(zhàn)略坐標(biāo);技術(shù);前沿;專利;LDA模型;主題;特征情感詞合理 提高情感傾向正向
本文借鑒了圖傳播算法[18],對蘊含在引用文本內(nèi)容中的情感傾向進行識別和量化。采word2vec構(gòu)建詞向量模型,通過余弦相似度,作為詞語之間的相似性,并將這一結(jié)果將作為后續(xù)分析中兩詞之間的圖形距離。任何詞與其自身的距離均為1。情感詞表自動構(gòu)建初始,需通過人工選擇方式分別向正向種子詞集和負(fù)向種子詞集中添加該極性引用情感中表達(dá)程度最深的詞。例如,可向正向種子詞集中添加“大大提高”,向負(fù)向種子詞集中添加“極差”,通過比較每個詞到正、負(fù)詞集中詞的平均距離,計算詞的情感極性值。詳細(xì)算法步驟如下所示。
輸入:假設(shè)輸入為無向邊加權(quán)圖G=(V,E),其中Wi,j∈[0,1]是邊的權(quán)重(vi,vj)∈E,V表示包含在情感詞典中的候選詞集,G表示節(jié)點之間的語義相似性。P,N,γ∈R,T∈NP代表正向情感種子集,N代表負(fù)向情感種子集,γ代表閾值,當(dāng)詞極性絕對值小于該閾值時,認(rèn)為該詞的詞性為中性,T代表候選詞集中的詞總數(shù)。
輸出:pol∈R|v|(pol代表詞的極性)
初始化:poli,pol+i,pol-i=0,對于所有詞i
pol+i=1 對于所有正向詞集中的向量vi∈P
pol-i=-1 對于所有負(fù)向詞集中的向量vi∈N
1.設(shè)置αii=1 ,和αij=0 對于所有的i≠j
2.對于向量vi∈Ρ
3.F={vi}
4.對于t:1…T
5.對于(vk,vj)∈E所以vk∈F
6.αij=max{αij,αik?ωkj}
F=F∪{vj}
7.對于所有的vj∈V
8.pol+j=∑vi∈Pαij
9.重復(fù)1-8,使用N來計算pol-
10.β=∑ipol+i∕∑ipol-i
11.poli=pol+i-βpol-i,對于所有的i
12.如果|poli|<γ就使poli=0.0 ,對于所有的i
通過閾值的設(shè)定可以去除引用內(nèi)容中包含的大部分中性詞,較為準(zhǔn)確地識別出情感詞及強度。但由于引用情感的復(fù)雜性和特殊性,如“訓(xùn)練時間長”“大量人工參與”等語義詞組中,單個詞并不具有明顯的情感傾向,如“訓(xùn)練時間”“長” “大量”“人工參與”,只有在作為詞組時,才能體現(xiàn)出在引用情感上的變化,所以本文利用添加外部詞表的方式,在分詞時將這些特殊的詞組視為一個整體,整體識別出語義情感傾向和強度。
2.2.3知識內(nèi)化量化分析指標(biāo)
本文主要從兩個方面來探究跨學(xué)科知識的內(nèi)化規(guī)律:跨學(xué)科知識的內(nèi)化總體特征和不同來源學(xué)科知識被本學(xué)科內(nèi)化和接納的特征。
本文使用表1的各項指標(biāo)來衡量跨學(xué)科知識的內(nèi)化特征。首先借鑒了部分前人的研究成果[19],從吸納的跨學(xué)科知識數(shù)量、內(nèi)化知識數(shù)量、知識內(nèi)化率和知識內(nèi)化時滯指標(biāo),考察整個學(xué)科領(lǐng)域跨學(xué)科知識融入的總體狀況。然后,利用引用情感作為評價交叉領(lǐng)域中不同學(xué)科知識被本學(xué)科接納和吸收程度的重要指標(biāo),并將每年跨學(xué)科引用內(nèi)容中蘊含的吸納情感和內(nèi)化情感融合起來,設(shè)置了內(nèi)化情感驅(qū)動指數(shù)以衡量不同學(xué)科內(nèi)的跨學(xué)科知識被接納的程度。希望通過這些指標(biāo)的測度來深入揭示不同來源學(xué)科知識與本學(xué)科知識之間的存在的知識關(guān)聯(lián),以及被本學(xué)科知識體系接納和吸收的程度。
本文以我國圖情領(lǐng)域作為研究對象,選擇了中文核心期刊目錄(CSSCI)圖情領(lǐng)域期刊中具有較高學(xué)術(shù)影響力和影響因子的6本期刊作為具體數(shù)據(jù)來源,包括《中國圖書館學(xué)報》《情報學(xué)報》《圖書情報工作》《情報雜志》《情報理論與實踐》《情報資料工作》,采集了期刊2017—2021年發(fā)表的文獻全文本,共6 971篇(去除了薦讀、序、通知等非規(guī)范論文)。經(jīng)過識別統(tǒng)計,數(shù)據(jù)集中包含的規(guī)范性學(xué)術(shù)引用共132 461條,其中跨學(xué)科引用61 611條,每年的跨學(xué)科引用情況分布如圖4所示。
圖4 學(xué)科引用情況年份分布圖
由圖4可知,國內(nèi)圖情領(lǐng)域研究中與其他學(xué)科存在較多的交叉研究內(nèi)容,總體引用中有超過40%的引用來自于其他學(xué)科的期刊資源,并且近年來跨學(xué)科引用的數(shù)量呈現(xiàn)逐年遞增的趨勢。
文獻關(guān)鍵詞可視為對全文核心知識內(nèi)容的凝練,本文選取代表領(lǐng)域核心知識的特定關(guān)鍵詞,并以該關(guān)鍵詞作為領(lǐng)域核心知識,從圖情領(lǐng)域文獻樣本集中,共識別出37 213個不重復(fù)的吸納知識,12 795個領(lǐng)域核心知識,以及4 012個內(nèi)化知識。利用關(guān)鍵詞匹配算法,對吸納知識,領(lǐng)域知識,內(nèi)化知識中的核心關(guān)鍵詞進行了詞頻統(tǒng)計。圖5給出了出現(xiàn)頻次前20的吸納知識和前20的領(lǐng)域核心知識關(guān)鍵詞,并在統(tǒng)計時對同義詞進行了合并。交叉部分體現(xiàn)了這些吸納的跨學(xué)科知識在圖情領(lǐng)域研究中的落腳點以及新的跨學(xué)科知識生長方向。從圖中可以看到,圖情領(lǐng)域和較多學(xué)科都存在交叉,存在交叉較多的學(xué)科有計算機科學(xué)、法學(xué)、心理學(xué)、社會學(xué)以及統(tǒng)計學(xué),主要的交叉方向集中在專利、大數(shù)據(jù)、網(wǎng)絡(luò)輿情、智慧城市、數(shù)據(jù)治理、知識共享、區(qū)塊鏈、情感分析以及健康信息等方向。
圖5 跨學(xué)科吸納知識、內(nèi)化知識和圖情領(lǐng)域核心知識集合(部分)
根據(jù)表3中提出的知識吸納和內(nèi)化指標(biāo)分析跨學(xué)科知識內(nèi)化總體特征。圖6統(tǒng)計了每年吸納知識和內(nèi)化知識的數(shù)量,圖7呈現(xiàn)了吸納知識在未來的某一年中轉(zhuǎn)化為內(nèi)化知識的比例,即知識內(nèi)化率。從圖7中可以觀察到,近年來跨學(xué)科知識的內(nèi)化率呈現(xiàn)出逐年穩(wěn)步上升的趨勢,這一現(xiàn)象表明,國內(nèi)圖情領(lǐng)域?qū)τ诳鐚W(xué)科知識的吸納呈現(xiàn)更加積極的態(tài)度,并且圖情領(lǐng)域的研究范圍越趨綜合化,越來越多地依賴于多學(xué)科知識的融入。但同時圖7也顯示2017年左右的跨學(xué)科知識內(nèi)化率較低,這是因為跨學(xué)科知識的內(nèi)化存在一定的時滯效應(yīng),而本文選取了2017年這個時間節(jié)點,因此當(dāng)年吸納的跨學(xué)科知識尚未全部內(nèi)化,所以在截取節(jié)點附近,跨學(xué)科知識內(nèi)化率會顯著偏低,但之后會隨之呈現(xiàn)為較為緩和的趨勢,綜合來看圖情領(lǐng)域的跨學(xué)科知識內(nèi)化率大致穩(wěn)定在0.16左右。
圖6 吸納知識和內(nèi)化知識數(shù)量年份分布
圖7 知識內(nèi)化率年份分布
本文也對國內(nèi)圖情領(lǐng)域跨學(xué)科知識內(nèi)化的時滯效應(yīng)進行了探究。知識內(nèi)化時滯是指樣本文獻集中借鑒的跨學(xué)科知識從吸納到融入本學(xué)科知識體系的時間間隔。圖8顯示了近5年內(nèi)化知識的時滯均值隨時間呈現(xiàn)逐漸減小的趨勢。這說明,圖情領(lǐng)域?qū)τ谛轮R的接納周期在逐漸縮短,新跨學(xué)科知識的引入對于圖情領(lǐng)域復(fù)雜問題的解決,學(xué)科的發(fā)展起到了越來越重要的作用。2021年左右呈現(xiàn)的時滯時間顯著較低主要是因為數(shù)據(jù)采集截點是2021年,2021年左右吸納的跨學(xué)科知識尚未被完全內(nèi)化。
圖8 跨學(xué)科知識內(nèi)化時滯年份分布
表2統(tǒng)計了不同來源學(xué)科的跨學(xué)科引用數(shù)量。通過觀察表2可知,國內(nèi)圖情領(lǐng)域跨學(xué)科知識主要來源于工學(xué)、教育學(xué)、法學(xué)、理學(xué)、文學(xué)和管理學(xué)方向。管理學(xué)較少是因為圖情領(lǐng)域本身屬于管理學(xué),并且與管理學(xué)中其他研究方向存在較小的學(xué)科差異,導(dǎo)致部分跨學(xué)科知識來源不明顯。除上述學(xué)科外,其他來源的學(xué)科知識被引數(shù)量并不大,且受社會環(huán)境影響存在較大的波動性。同樣,近年受疫情影響,有關(guān)醫(yī)學(xué)的研究方向受到廣泛關(guān)注,被引知識數(shù)量逐年攀升。
表2 不同學(xué)科引用數(shù)量年份分布表 單位:條
結(jié)合表3通過對比不同學(xué)科知識融合時滯時間,圖情領(lǐng)域中跨學(xué)科知識的“吸收-內(nèi)化”過程大致都需要經(jīng)歷一年半左右的時間。法學(xué)和教育學(xué)的知識內(nèi)化時滯相較于其他學(xué)科而言會稍短一些,這可能與新法律法規(guī)的出臺,新型教育理念的提出都具有其時代性特征,所以相對而言這些知識的吸納會具有時效性,因此時滯時間會偏短。從知識內(nèi)化率來分析,工學(xué)內(nèi)化率最高,其次是管理學(xué)和理學(xué)。工學(xué)中主要是計算機科學(xué)中相關(guān)新算法模型的知識,管理學(xué)主要是關(guān)于政府?dāng)?shù)據(jù)開放、數(shù)據(jù)治理,以及理學(xué)中與統(tǒng)計學(xué)相關(guān)的復(fù)雜網(wǎng)絡(luò)、評價指標(biāo)方法等跨學(xué)科知識的融入對于圖情領(lǐng)域的發(fā)展有重要影響且較容易被吸納和內(nèi)化。
表3 不同學(xué)科跨學(xué)科知識特征年份分布表
為進一步分析和比較跨學(xué)科知識內(nèi)化率和情感驅(qū)動指數(shù)間的關(guān)系,利用SPSS統(tǒng)計分析軟件對兩項指標(biāo)進行了斯皮爾曼秩相關(guān)分析。秩相關(guān)系數(shù),也稱為“等級相關(guān)系數(shù)”,是常用的反映相關(guān)程度的統(tǒng)計分析指標(biāo)[20-21],結(jié)果顯示在0.01水平(雙側(cè))兩項指標(biāo)顯著相關(guān),相關(guān)系數(shù)為0.772,說明情感驅(qū)動指數(shù)與知識內(nèi)化率高度正相關(guān),并能很好地反映跨學(xué)科知識在本學(xué)科內(nèi)部被接納的程度,為預(yù)測哪些學(xué)科的新進展會為圖情領(lǐng)域帶來新的發(fā)展契機提供幫助。
結(jié)合圖9、圖10以及表5中可知,總體而言,近5年越來越多的跨學(xué)科知識在圖情領(lǐng)域被接納和認(rèn)可,知識內(nèi)化率也同步穩(wěn)步提升。從交叉學(xué)科來看,2018年至2019年計算機領(lǐng)域中關(guān)于神經(jīng)網(wǎng)絡(luò)、人工智能方向的研究,教育學(xué)中2018至2019年間,對于高等教育體系中健康信息、數(shù)據(jù)素養(yǎng)的研究,在2020年到2021年間,法學(xué)研究方向中關(guān)于數(shù)據(jù)保護、信息保護的研究,2020至2021年間,理學(xué)中利用統(tǒng)計學(xué)理論和方法對于大數(shù)據(jù)環(huán)境下謠言傳播、社會網(wǎng)絡(luò)的研究,在2019至2020年間,文學(xué)中對于新聞環(huán)境下輿情反轉(zhuǎn)、傳播學(xué)的研究,以及2017至2018年間,管理學(xué)中對于政府?dāng)?shù)據(jù)開發(fā)、數(shù)據(jù)治理的研究,都為圖情領(lǐng)域的研究注入了新的活力和帶來了新的發(fā)展契機。
圖9 不同學(xué)科知識內(nèi)化率年份分布
圖10 不同學(xué)科情感驅(qū)動指數(shù)年份分布
學(xué)科交叉研究一直以來都是科學(xué)計量學(xué)領(lǐng)域關(guān)注的熱點主題。其重要性體現(xiàn)在學(xué)科交叉對于增強復(fù)雜科學(xué)問題的理解和認(rèn)知以及推動知識創(chuàng)新等方面具有重要作用。近年來,有關(guān)學(xué)科交叉的研究已經(jīng)從單純的宏觀層面上,對學(xué)科交叉測度、學(xué)科交叉態(tài)勢分析轉(zhuǎn)向更微觀層面的學(xué)科交叉內(nèi)容主題探究。本文在前人研究的基礎(chǔ)上,從引用內(nèi)容出發(fā),利用情感分析方法捕捉文獻主體(作者)對于跨學(xué)科知識表現(xiàn)出的情感態(tài)度,揭示學(xué)科體系中對于跨學(xué)科來源知識的整個“吸納-內(nèi)化”過程,并以圖情領(lǐng)域為例驗證了方法的有效性。
本文一方面從跨學(xué)科知識來源視角,理清圖情領(lǐng)域跨學(xué)科知識整合的微觀形成和內(nèi)化過程;另一方面,通過對不同來源學(xué)科所提供的知識的內(nèi)化特征差異的比較,深度揭示不同來源學(xué)科與圖情領(lǐng)域研究存在的內(nèi)在知識關(guān)聯(lián),深入理解不同來源學(xué)科知識在圖情領(lǐng)域中的貢獻角色差異,有助于探索圖情領(lǐng)域新的知識點生長的方向。但是,本研究也存在諸多不足和局限性,例如,在數(shù)據(jù)方面,本文僅使用了圖情領(lǐng)域6本期刊進行案例分析,數(shù)據(jù)規(guī)模較小,挖掘出的規(guī)律難以被泛化到各個學(xué)科。下一步工作將獲取更多的實驗數(shù)據(jù),以取得更加有效和一般性的結(jié)論。