●劉靜,馬建霞,范云滿
(1.中國科學(xué)院國家科學(xué)圖書館蘭州分館,蘭州730000;2.中國科學(xué)院大學(xué),北京100190)
研究前沿探測方法概述
●劉靜1,2,馬建霞1,范云滿1,2
(1.中國科學(xué)院國家科學(xué)圖書館蘭州分館,蘭州730000;2.中國科學(xué)院大學(xué),北京100190)
研究前沿;定性;定量;引文分析;詞匯分析;共詞分析
在對研究前沿相關(guān)概念進(jìn)行界定的基礎(chǔ)上,從定性、定量等角度總結(jié)歸納了當(dāng)前在探測研究前沿的方法,重點(diǎn)分析了基于引文的分析法和基于詞匯的分析法,討論了共詞分析法的改進(jìn)與完善。通過全面的歸納分析,總結(jié)比較了諸多方法的異同,提出對研究前沿探測方法的建議。
隨著科學(xué)技術(shù)的快速發(fā)展,科學(xué)出版物急劇增加,人們很難再對某一專門學(xué)科領(lǐng)域的知識結(jié)構(gòu)和發(fā)展情況給以全面的觀察和考慮,也就更談不上對科學(xué)領(lǐng)域研究前沿的把握和判斷了??萍碱I(lǐng)域前沿是一個研究領(lǐng)域的最新趨勢和概念現(xiàn)狀。從微觀的科學(xué)研究人員科研選題,中觀的科技產(chǎn)業(yè)部門的技術(shù)開發(fā)、產(chǎn)品的市場定位到宏觀的國家科技政策戰(zhàn)略的制定,都需要了解、掌握相關(guān)領(lǐng)域的研究前沿。如何能夠科學(xué)、準(zhǔn)確地把握研究前沿已經(jīng)成為科學(xué)研究人員及其管理者關(guān)注的焦點(diǎn),更成為各國政府制定科技發(fā)展戰(zhàn)略時面臨的一大問題。因此,對于科學(xué)技術(shù)研究前沿的自動分析研究,旨在幫助科學(xué)工作者從大量的學(xué)術(shù)會議和科技文獻(xiàn)中提取出有用的信息,具有重要的現(xiàn)實(shí)意義。
科學(xué)研究前沿,簡稱研究前沿,代表了科學(xué)發(fā)展的難點(diǎn)、熱點(diǎn)以及發(fā)展趨勢,從浩瀚的科技信息中探測研究前沿是科技創(chuàng)新的關(guān)鍵任務(wù)之一。針對研究前沿的專門研究是在2005年之后才興起的研究熱點(diǎn)。它涵蓋內(nèi)容廣泛,學(xué)科交叉性強(qiáng),綜合了科學(xué)學(xué)、圖書館學(xué)、情報學(xué)、人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、內(nèi)容可視化與社會網(wǎng)絡(luò)等方面的內(nèi)容。
文獻(xiàn)計量學(xué)領(lǐng)域?qū)ρ芯壳把氐亩x最早由普賴斯于1965年提出,[1]用它來描述研究領(lǐng)域的動態(tài)本質(zhì)。40多年來,不同的學(xué)者對研究前沿的概念內(nèi)涵進(jìn)行了不同的定義和詮釋。E.Garfield[2]把“共引文獻(xiàn)以及引用它們的論文”作為研究前沿的定義;Small[3]和Griffith[4]認(rèn)為共被引文章聚類表征著當(dāng)前活躍的研究領(lǐng)域;Persson[5]則認(rèn)為研究前沿和知識基礎(chǔ)的區(qū)別在于:“從文獻(xiàn)計量學(xué)來看,引文形成了研究前沿,被引文獻(xiàn)組成了知識基礎(chǔ)”;而Morris[1]將研究前沿定義為持續(xù)被一組固定的、與時間無關(guān)的基本文章引用的大量文章;Braam,Moed,Raan等[6]將一個研究領(lǐng)域定義為“一群科學(xué)研究者關(guān)注的一系列相關(guān)問題和概念”;陳超美[7]將研究前沿定義為一組突發(fā)的概念及其基本研究問題。關(guān)于研究前沿的概念分類詳見表1。
總之,關(guān)于研究前沿的探測和判斷多取決于分析時所采用的計量方法及所依據(jù)的數(shù)據(jù)源,研究前沿的內(nèi)涵隨方法和數(shù)據(jù)源的不同而有所不同。另外,研究前沿與熱點(diǎn)主題、新興主題、新興趨勢等概念互相交叉,邊界難辨,如圖1。關(guān)于熱點(diǎn)主題,馬費(fèi)成[8]等認(rèn)為如果某一關(guān)鍵詞或主題詞在其所在領(lǐng)域文獻(xiàn)中反復(fù)出現(xiàn),則可反映出該關(guān)鍵詞或主題詞所表征的研究主題是該領(lǐng)域的研究熱點(diǎn)。關(guān)于新興主題,Tu Y等[9]認(rèn)為是指一個領(lǐng)域中重要的處于成長階段但還未成為研究熱點(diǎn)的主題。關(guān)于新興趨勢(Emerging Trend),April[10]在2004年提出,是指隨著時間推移引起越來越多的研究興趣并得到愈廣泛使用的一個主題領(lǐng)域。
表1 科學(xué)研究前沿概念分類表
圖近似概念關(guān)系
在大數(shù)據(jù)時代,鑒于及時有效把握研究前沿的重要意義,人們早已對研究前沿探測展開了豐富多樣的研究,并呈現(xiàn)出了各式各樣的研究方法和研究成果(見表2)。從基本的探測方法入手,可以將這些方法以定性、定量的視角加以總結(jié)歸納。
定性方面,文獻(xiàn)綜述法和德爾菲法是比較常用也較為成熟權(quán)威的研究前沿分析方法。它們以歸納為主,廣泛收集第一手資料,從研究者的個人背景和知識積累出發(fā),對各家不同思想、觀點(diǎn)、方法進(jìn)行綜合整理、歸納分析、概括提煉,最終形成能反映該課題或?qū)n}研究水平和發(fā)展動態(tài)的階段性的回顧總結(jié)、現(xiàn)狀描述或技術(shù)預(yù)見、未來預(yù)測等。利用定性研究進(jìn)行研究前沿探測由于其分析過程的特征優(yōu)勢,一般能得到相對整體全面靈活的分析結(jié)果;但也正因?yàn)槎ㄐ匝芯恐醒芯空呒囱芯抗ぞ?,其對研究者的素質(zhì)要求過高,結(jié)果的主觀性及不精確性也是顯而易見的。
定量方面的探測分析一直是研究者們關(guān)注的焦點(diǎn),不僅因?yàn)槎ㄐ苑椒ü逃械娜毕菪枰朔?,還因?yàn)槎糠椒ㄔ谔幚泶髷?shù)據(jù)方面的分析潛質(zhì)與平民化特質(zhì)。從文獻(xiàn)計量的角度,可以將研究前沿探測方法分為基于引文的分析法和基于詞匯的分析法。
表2 研究前沿探測方法一覽表
(1)引文分析法。引文分析法是文獻(xiàn)計量學(xué)領(lǐng)域最常用的分析方法之一,包括直接引文分析、共引分析以及耦合分析。引文分析法不僅廣泛用于研究前沿探測,在主題演變、學(xué)科分析以及科研能力評價等領(lǐng)域的研究也扮演著舉足輕重的角色。人們普遍認(rèn)同運(yùn)用引文分析方法探測研究前沿,但所運(yùn)用的具體引文類型各不相同,Naoki Shibata等[11]、Persson[5]、Schiebel Edgar[12]分別基于不同的引文類型對研究前沿展開了分析和研究。但是,究竟哪種類型的引文分析法更適于研究前沿的探測,目前還未達(dá)成共識,相關(guān)研究也比較少見。其中,Klavans和Boyack[13]對共引分析、引文耦合、直接引用和基于引文耦合的混合引文方法開展了對研究前沿探測效果的對比。結(jié)果表明:直接引文網(wǎng)絡(luò)可更直接、更早地揭示科學(xué)引文網(wǎng)絡(luò)所代表的研究領(lǐng)域的結(jié)構(gòu)特征和發(fā)展趨勢;在精確度指標(biāo)上,引文耦合及混合引文方法稍優(yōu)于共引分析,直接引用是最不準(zhǔn)確的方法。Shibata[14]對同被引、引文耦合與直接引用方法的探測效果進(jìn)行了對比,直接引用能較早探測大的新出現(xiàn)的聚簇,在探測研究前沿上效果最好,直接引用法探測效果最全面,而同被引效果最差。在實(shí)際應(yīng)用中,大多數(shù)分析人員都會綜合運(yùn)用上述方法,以獲得最佳的研究效果。
(2)詞匯分析法?;谠~匯進(jìn)行研究前沿探測的分析方法主要包括詞頻分析法和共詞分析法。詞頻分析中的高頻詞能有效探測研究熱點(diǎn),低頻詞有助于預(yù)測新興主題和新興趨勢。當(dāng)前的詞頻分析主要集中在以關(guān)鍵詞或主題詞為對象的詞頻分析,如喻培珍[15]和郭凌輝[16]分別利用基于主題詞和關(guān)鍵詞的詞頻分析探測相關(guān)領(lǐng)域的熱點(diǎn)及前沿。雖然詞頻分析法相對簡單,分析結(jié)果直接且易于理解,但由于詞頻具有波動性及詞頻閾值的人工干預(yù),通常采用的固定閾值在分析時易出現(xiàn)誤差,加之需要專家依據(jù)知識背景將詞分成特定研究主題,使得詞頻分析法的分析結(jié)果主觀性太強(qiáng)。
而共詞分析法能夠在最大程度上發(fā)揮詞頻分析的優(yōu)勢,對文獻(xiàn)資料的挖掘更深入準(zhǔn)確,越來越多的研究者將目光轉(zhuǎn)向共詞分析,如Luan CJ等[17]、Xin Ying An和Qing Qiang Wu[18]、劉麗[19]等人都曾運(yùn)用共詞分析探測研究前沿。同時,共詞分析法得到了持續(xù)改進(jìn):分析詞從索引詞、關(guān)鍵詞發(fā)展到自由詞,從單個詞語、雙詞短語再到多詞短語,詞語共現(xiàn)范圍被限定在同一句子之內(nèi)、數(shù)十個詞之內(nèi)、同一段落之內(nèi)或者同一篇論文之內(nèi)等等;[20]QingQiang Wu[21]等基于LDA概率主題模型,集成共現(xiàn)理論和聚類指標(biāo)構(gòu)建了主題分割模型ATNLDA,深入挖掘文獻(xiàn)主題及其之間的關(guān)系以探究主題演化規(guī)律;葉春蕾、冷伏海[22,23]提出基于概率模型的主題識別方法,將LDA主題模型與共詞分析相結(jié)合改進(jìn)主題識別方法,體現(xiàn)了主題詞、主題和文檔間的層次語義關(guān)系。值得注意的是,在利用共詞分析處理詞匯語義關(guān)系的問題上,他們都引進(jìn)了LDA模型,并取得了可觀的分析結(jié)果。LDA(Latent Dirichlet Allocation——潛在狄利克雷分布模型)是由Blei、Ng、Jordan 2002年提出的完全概率語言模型,應(yīng)用到文本建模范疇,就是對文本進(jìn)行“隱性語義分析”(LSA)。LDA模型不僅具有強(qiáng)大的理論支撐,還具有較易控制的參數(shù)設(shè)置以及良好的泛化能力,能夠以詞組的形式充分反映主題詞—主題—文檔間的語義關(guān)系,改善了共詞分析不能有效表達(dá)詞匯間語義關(guān)系的狀況,使得分析結(jié)果更加準(zhǔn)確、成熟、可靠。與單純的主題詞統(tǒng)計、排序,進(jìn)而分析研究熱點(diǎn)的文獻(xiàn)計量方法相比,共詞分析不僅專注于高頻詞,更關(guān)注詞間聯(lián)系,更好地反映了概念及語義之間的關(guān)系。但是,因其分析對象是已發(fā)表的文獻(xiàn),故具有時滯性,無法及時有效反映還未形成熱點(diǎn)的前沿趨勢等潛在前沿主題;而且其詞頻閾值的選擇也不可避免地會影響到聚類效果,進(jìn)而影響到主題探測效果。雖然如此,在反映當(dāng)前論文關(guān)注主題的同時,共詞分析仍較基于引文的分析方法更靈活、簡單、直觀。
(1)針對研究前沿主題的判定方法研究。雖然當(dāng)前的方法可以識別出研究前沿,但定性方法過分依賴研究者主觀經(jīng)驗(yàn)和知識,而定量方法僅能做到主題聚類,具體前沿主題仍依賴研究者主觀經(jīng)驗(yàn)或者專家知識,且關(guān)于研究前沿的定義及判定標(biāo)準(zhǔn)隨所采用方法的不同而不同。故針對研究前沿主題判定方法的研究已迫在眉睫。雖然已有研究者嘗試設(shè)計一套指標(biāo)來輔助判定研究前沿,但公認(rèn)的客觀可信賴的指標(biāo)體系還有待進(jìn)一步研究。
(2)針對研究前沿探測的混合方法研究。雖然各種研究前沿探測方法都有自身特點(diǎn),但是受數(shù)據(jù)源和分析原理影響,都有不可避免的缺陷。比如基于引文方法的優(yōu)勢是其辨別力,但其缺點(diǎn)在于低估文檔間的關(guān)系以及分析的滯后性;而詞頻分析雖簡單易行,但只是從宏觀角度考察學(xué)科發(fā)展動向,對研究前沿更深入的分析還多依賴專家判讀。將共詞法與其他方法相結(jié)合的混合方法在研究前沿探測方面已成趨勢,其中引文法與共詞法結(jié)合的突出效果已廣為接受;但當(dāng)前的混合方法常以簡單直接的方式混合,并未考慮邊界語義,如此簡單組合各方法可能會導(dǎo)致預(yù)想不到的問題。
(3)針對不同類型的前沿探測方法的比較研究。目前已有多種針對科學(xué)研究前沿探測的方法,但探測效果參差不齊,研究者在面對不同的選題和目的時暫無可依據(jù)的方法遴選金指標(biāo)。為能更加科學(xué)準(zhǔn)確及時迅速地探測科學(xué)研究前沿,針對各種探測方法及其比較的研究是十分必要和緊迫的。
(4)針對研究前沿探測的數(shù)據(jù)源多樣化研究。當(dāng)前的研究前沿探測方法多以期刊論文等為數(shù)據(jù)處理對象,較少涉及其他形式的數(shù)據(jù)源。雖然文獻(xiàn)是科研產(chǎn)出的主要形式之一,但并不足以代表所有科研成果所涵蓋的信息量。諸如各國各部門的科技規(guī)劃、戰(zhàn)略藍(lán)圖、路線圖、各類機(jī)構(gòu)資助的重點(diǎn)領(lǐng)域的項(xiàng)目申請書內(nèi)容和研究報告、專利相關(guān)文件以及重要組織、學(xué)會、科研團(tuán)體撰寫的有關(guān)研究前沿的研究報告和戰(zhàn)略文件等,從某種程度上講,這些資料更能及時有效反映科學(xué)研究前沿。今后的研究前沿探測方法可以考慮從多樣化的數(shù)據(jù)源入手,也許能得到意外的收獲。
[1]Morris S A,etal.Time line visualization of research fronts[J].Journal of the American Society forⅠnformation Science and Technology,2003,54(5):413-422.
[2]Garfield E.The new 1956-1965 social-science citationindex.1.Analysis of 1988 Research fronts and the citation-classics that made them possible[J].Current Contents,1989,41:2-8.
[3]SmallH.Co-citation in the scientific literature:a new measure of the relationship between two documents[J].Journal of the American Society forⅠnformation Science,1973,24(4):265-269.
[4]Griffith BC,etal.The structure of scientific literaturesⅠⅠ:toward a macro-and microstructure for science[J].SocialStudies of Science,1974,4(4):339-365.
[5]Persson O.The intellectualbase and research fronts of JASⅠS 1986-1990[J].Journalof the American Society forⅠnformation Science,1994,45(1):31-38.
[6]Braam R R,et al.Mapping of science by combined co-citation and word analysis,Ⅰ.Structural aspects[J].Journal of the American Society forⅠnformation Science and Techology,1991,42(4):233-251.
[7]Chen C.CiteSpaceⅠⅠ:Detecting and visualizing emerging trends and transient patterns in scientific literature[J].Journal of the American Society forⅠnformation Science and Technology,2006,57(3):359-377.
[8]馬費(fèi)成,張勤.國內(nèi)外知識管理研究熱點(diǎn)——基于詞頻的統(tǒng)計分析[J].情報學(xué)報,2006,25(2):163-171.
[9]Tu Y N,Seng JL.Ⅰndices of novelty foremerging topic detection[J].Ⅰnformation Processing&Management,2012,48(2):303-325.
[10]Kontostathis A,etal.A survey of emerging trend detection in textual data mining[M].New York:2004:185-224.
[11]Shibata N,etal.Detecting emerging research fronts based on topological measures in citation networks of scientificpublications[J].Technovation,2008,28(11):758-775.
[12]Schiebel,E.Research fronts and arealdensity of bibliographically coupled publications[C]//Proceedings of 13th internationalconference of the internationalsociety for scientometrics and informetrics(ⅠSSⅠ2011). Proceedings of theⅠnternational Conference on Scientometrics andⅠnformetrics,2011,756-762.
[13]Boyack K W,Klavans R.Co-citation analysis,bibliographic coupling,and direct citation:which citation approach represents the research front mostaccurately?[J].Journalof the American Society forⅠnformation Science and Technology,2010,61(12):2389-2404.
[14]Shibata N,etal.Comparative study on methods of detecting research fronts using different types of citation[J].Journal of the American Society forⅠnformation Science and Technology,2009,60(3):571-580.
[15]喻培珍,秦惠基.從主題詞頻率變化分析我國放射診斷新技術(shù)發(fā)展趨勢[J].醫(yī)學(xué)圖書館通訊,1995,4(3):26-27.
[16]郭凌輝.知識發(fā)現(xiàn)(KD)研究熱點(diǎn)與前沿的信息可視化分析[J].圖書館理論與實(shí)踐,2011(8):27-30.
[17]Luanc,et al.Quantitative studies on frontiers of international patent bibliometrics[J].Studies in Science of Science,2008(2):20.
[18]An X Y,Wu Q Q.Co-word analysis of the trends in stem cells field based on subject heading weighting[J].Scientometrics,2011,88(1):133-144.
[19]劉麗.公共圖書館研究熱點(diǎn)領(lǐng)域知識圖譜:共詞分析視角[J].圖書館理論與實(shí)踐,2012(7):62-65.
[20]王立學(xué),冷伏海.簡論研究前沿及其文獻(xiàn)計量識別方法[J].情報理論與實(shí)踐,2010,3(10):54-58.
[21]Wu Q Q,etal.Topic segmentation modelbased on ATNLDA and co-occurrence theory and its application in stem cellfield[J].Journalof Ⅰnformation Science,2013,39(3):319-332.
[22]葉春蕾,冷伏海.基于共詞分析的學(xué)科主題演化方法改進(jìn)研究[J].情報理論與實(shí)踐,2012,35(3):79-82.
[23]葉春蕾,冷伏海.基于概率模型的主題識別方法實(shí)證研究[J].情報科學(xué),2013(2):135-142.
G250.252
A
1005-8214(2014)07-0034-04
劉靜(1990-),女,碩士研究生,研究方向:計算機(jī)信息處理與檢索;馬建霞(1972-),女,研究館員,碩士生導(dǎo)師,研究方向:文本挖掘與情報計算研究;范云滿(1980-),男,碩士研究生,研究方向:計算機(jī)信息處理與檢索。
2013-12-16
[責(zé)任編輯]王鈞梅
本文系中國科學(xué)院“西部之光”聯(lián)合學(xué)者項(xiàng)目“基于計算情報方法的甘肅省戰(zhàn)略性新興產(chǎn)業(yè)技術(shù)創(chuàng)新競爭與發(fā)展研究”(項(xiàng)目編號:Y200201001)的研究成果之一。