,, ,,
科學文獻除了作者、期刊、內(nèi)容本身的屬性之外,還有一個更為重要的屬性—時間屬性。一篇具體文獻是處于具體時間下的一個產(chǎn)物,文獻涉及的主題存在著過時與新興的差別,文獻包含的知識對于其讀者有已知和未知之分。2002年由美國國防部高級研究發(fā)展署(ARDR)與美國國家標準及技術(shù)研究所(NIST)共同主辦的文本檢索會議(TREC),首次將新穎性探測(Novelty Track)作為其中的一個正式比賽任務(wù),并拉開了新穎性探測的序幕。在TREC比賽中規(guī)定的新穎性探測要求為,當前語句與之前出現(xiàn)的語句相比較,攜帶了新信息。本文拓展了TREC會議新穎性探測的要求,根據(jù)文獻攜帶信息粒度從大到小排序,從文獻集、文獻、文獻句子這3個層面,進行新穎性探測的理論及應(yīng)用探究。3個層面的新穎性探測,分別能夠自動地、快速地發(fā)現(xiàn)某一領(lǐng)域內(nèi)新興的研究主題,描述文獻的新穎程度,或者探測具體文獻包含的新內(nèi)容。這些功能為圖書館的知識服務(wù)提供了新的思路。
文獻集層面上的新穎性探測,實質(zhì)上是文獻計量學的研究范疇,其概念的內(nèi)涵等同于研究前沿的探測、新興趨勢探測,以及科學知識圖譜。目前國內(nèi)外研究較為成熟的文獻集新穎性探測方法主要有引文分析法、詞頻分析法。引文分析法包括直接引用分析法、共被引分析法及引文耦合分析法,詞頻分析法包括詞頻頻率探測法、共詞探測法。研究前沿的探測分析多引入可視化分析技術(shù),常用的有CiteSpace、Hiscite、SPSS、Pajek、Ucinet等。
董立平[1]2010年運用引文分析法,利用Histcite可視化引文編年圖對人胚胎干細胞文獻進行分析,得出2006-2008年期間胚胎干細胞的培養(yǎng)、多能性的維持、基因表達等方面研究進一步深入,同時“誘導多能干細胞(iPS)”為此期最重要的研究主題之一。他指出2006年TAKAHASHI小組將成人成纖維細胞成功誘導為多能干細胞,這一發(fā)現(xiàn)引起了生命科學領(lǐng)域的一次巨大轟動,他的研究必將極大地促進人胚胎干細胞研究發(fā)展。2012年[2],日本科學家山中伸彌(Shinya Yamanaka)因其在細胞核重新編程研究領(lǐng)域的杰出貢獻,獲得諾貝爾生理學或醫(yī)學獎。
邱均平[3]基于關(guān)鍵詞對國際圖書情報學的前沿進行探測分析。他利用CiteSpace的膨脹詞探測算法,通過考察詞頻的時間分布,依靠詞頻的變動趨勢確定學科領(lǐng)域的研究前沿,并得出2006-2010年國際圖書情報學研究前沿主要有醫(yī)學信息學、引文分析、虛擬網(wǎng)絡(luò)社區(qū)、語義信息檢索等研究領(lǐng)域。
基于共詞分析方法探測學科研究前沿,國內(nèi)最早的研究見于崔雷[4]撰寫的《專題文獻高頻主題詞的共詞聚類分析》。該文將共詞分析定義為一種文獻計量學方法,其主要原理是對一組詞兩兩統(tǒng)計它們在同一篇文獻中出現(xiàn)的次數(shù),以此為基礎(chǔ)對這些詞進行聚類分析,從而反映出這些詞之間的親疏關(guān)系,進而分析這些詞所代表的學科或主題的結(jié)構(gòu)與變化。
以上文獻集層面上的新穎性探測方法,成功地探測到具體領(lǐng)域的研究熱點和動態(tài)。然而引文分析法中的引文網(wǎng)絡(luò)的形成較為滯后,且只考慮了文獻的影響力,忽略了文獻的重要性;詞頻分析法缺點在于標引詞和計量數(shù)據(jù)的主觀選擇。本文認為將兩種方法結(jié)合使用,能夠互相彌補不足,優(yōu)化探測結(jié)果。
目前,基于Web of Science數(shù)據(jù)庫的深度分析型研究工具ESI,能夠自動地分析ESI期刊分類下22個學科的研究前沿,具體方法是高被引論文聚類分析確定研究前沿。該公司于2015年10月與中國科學院情報中心發(fā)表了《2015研究前沿報告》[5],基于ESI各個學科領(lǐng)域研究前沿生成新興研究前沿和重點研究前沿,該報告對各個研究前沿的具體內(nèi)容給予了詳細分析。
從理論層面對文獻集層面的新穎性探測的方法論分析到ESI指標數(shù)據(jù)庫自動生成某一學科的研究前沿這一實踐,提示圖情工作者建立完善的文獻集層面新穎性探測工具。利用某學科已發(fā)表文獻探測該學科領(lǐng)域的研究前沿,能夠幫助科研人員識別當時的學科領(lǐng)域內(nèi)研究前沿和動態(tài),預(yù)測學科發(fā)展的方向,進一步解答學科研究人員如何選題,甄別已選課題是否為熱點、是否有潛力等問題。
文獻層面上的新穎性探測,能夠?qū)唧w的文獻進行新穎性評價,對科研人員在文獻調(diào)研階段尋找新穎的文獻具有指導意義。
在生物醫(yī)學領(lǐng)域,Science Navigation Group[6-7]機構(gòu)于2002年1月創(chuàng)建并推出了全球的生物學評價系統(tǒng)F1000(Faculty of 1000 Biology),隨后又于2006 年推出了全球的醫(yī)學F1000(Faculty of 1000 Medicine),2010年合并為F1000.com。F1000[8]是同行評議數(shù)據(jù)庫,每年對全球文章總數(shù)不足2‰的優(yōu)秀精品醫(yī)學論文在創(chuàng)新性、新理論、新發(fā)現(xiàn)、新技術(shù)、科學價值和實際應(yīng)用前景等6 個方面進行評價,但不能對科研工作者獲得的所有文獻的新穎性進行逐一評價。本文認為文獻層面新穎性探測是指智能地、自動地對大量的文獻進行內(nèi)容新穎性探測,即在某一科研領(lǐng)域,對待探測文獻與其之前發(fā)表的所有文獻比包含了多少新信息進行具體量化計算。計算結(jié)果是一個數(shù)量型的度量單位,一個相對指標,其值越大,說明文獻在內(nèi)容上與之前發(fā)表的所有文獻差別越大。
以往的大量研究顯示[9],文獻層面內(nèi)容新穎性探測是容易實現(xiàn)的,如同一領(lǐng)域的雜志一年內(nèi)發(fā)表的所有文獻,兩兩對比,內(nèi)容迥異的占絕大多數(shù)。因此設(shè)計一個量化指標,能夠準確地表明文獻之間的差異程度,描述待探測文獻在其涉及的研究領(lǐng)域是否新穎,是否是國內(nèi)外眾多學者研究的熱點和難點。本文認為國內(nèi)學者楊建林[10]提出的基于關(guān)鍵詞對逆文檔頻率的主題新穎度度量方法論證合理,值得借鑒。
楊建林提出了計算文獻新穎度的共詞原則、時間戳原則、詞頻原則、逆文檔頻率原則,并基于這4個原則,進一步提出了文檔新穎度的計算公式,并對該公式的實用性與合理性進行了實證研究。作者選取《情報學報》和《情報資料工作》兩種期刊2011年第一期上刊載的論文進行主題新穎度的比較。兩種期刊在學術(shù)質(zhì)量上分布處于情報學領(lǐng)域的不同層次,經(jīng)過計算得出同一學科領(lǐng)域重要核心期刊刊載論文的平均主題新穎度要高于普通期刊。
楊建林的探測過程存在不足之處:一是其實證分析的數(shù)據(jù)量過少,缺少統(tǒng)計分析;二是對于新穎度探測結(jié)果的評價方面,未做出科學合理的分析。這一點也是國內(nèi)外文獻層面新穎性探測的主要難題之一。本文認為當前文獻層面新穎性探測的理論研究較少,面臨的困難較大,需要圖情專業(yè)人員投入精力進一步研究探索。一個成熟的文獻新穎性探測指標的建立,對文獻評估、期刊評估、學術(shù)團體評估、科研人員評估都有著輔助作用,可以作為一個全新的評估因素,具有實際應(yīng)用價值。此外,文獻層面新穎性探測對文獻評價服務(wù)、推薦服務(wù)、個性化文獻提供服務(wù)起到了理論支持,幫助科研人員將有限的時間放在較為新穎的文獻閱讀上,提高閱讀學習效率,繼而提高科研效率。
語句級新穎性探測,針對的信息粒度更小,起源于文摘生成。文摘生成可針對多主題、單主題、單個文檔和多個文檔。商玥[11]等人通過自動摘要技術(shù)對生物醫(yī)學概念進行摘要抽取,利用生物醫(yī)學語義關(guān)系抽取多文檔摘要,分析了風濕病、腦脊髓炎等5種疾病的相關(guān)文獻,生成的摘要覆蓋了這幾種疾病的致病原因、類型、防治策略等語義類型。該文語句冗余去除部分采用了相似度計算方法,將同一語義類型下詞頻排序達到某一閾值下的所有語句,保留相互之間相似度低的語句作為查詢生物醫(yī)學概念的生成摘要。
語句級新穎性探測與文摘生成中冗余去除計算有著相似的理念,但具體要求不同。文摘生成的最終目標是生成一個涵蓋語義類型豐富的文摘;新穎性探測是將文獻或者多篇文獻中相異度大的語句,抽取出來形成一個包含新信息的語句集合,提供給科研人員,提高其閱讀學習效率。雖然目的不同,但二者使用的相似度計算公式可以互通,所以發(fā)展較成熟的文摘生成為語句級新穎性探測提供了許多計算思路。
語句級新穎性探測的歷史可追溯到1996年,由美國國防部發(fā)起的話題識別與追蹤(Topic Detection and Tracking)項目的一個子項目—首次報道識別(First Story Detection或New Event Detection),要求在以時間順序排列的數(shù)據(jù)流中,識別探測出首次討論某個話題的報道[12]。2002年9月,第11屆國際文本檢索會議(TREC)首次將新穎性探測(Novelty Track)作為其中的一個正式比賽任務(wù)。比賽規(guī)定的語句新穎性特征是與已有語句相比較,攜帶了新信息[13-15]。在這屆比賽中,中科院研究所、清華大學取得了不俗的成績。
中科院研究所張華平[16]團隊開發(fā)的Noovel系統(tǒng)參加了2004年的TREC比賽,參與新信息發(fā)現(xiàn)任務(wù)的全部4個子任務(wù)。在關(guān)鍵的任務(wù)l中,Noovel的“新信息探測”結(jié)果排名第一,與參賽的其他13支國際研究團隊進行綜合比較,Noovel系統(tǒng)在新穎性探測方面的研究相對較優(yōu)。中科院研究所邢美鳳在2012的博士論文中,對當時支持語句新穎性探測的算法進行了分析總結(jié)[17]。
本文認為語句級新穎性探測的過程通常有3種:一是對語句進行文本表示,將文獻中自然語言轉(zhuǎn)換成規(guī)范統(tǒng)一的計算機語言;二是語句新穎度算法設(shè)計和算法運行;三是結(jié)果閾值設(shè)置、結(jié)果評估。
文本的表示方式主要有向量空間模型,語言模型和概率模型3種[17]。向量空間模型和概率模型的表現(xiàn)形式類似,只是在每個詞項的權(quán)重計算中,向量空間模型利用詞頻的方式,概率模型計算在相關(guān)文檔和不相關(guān)文檔中出現(xiàn)的概率值來估計。基于向量空間模型和概率模型的文本新穎性檢測方法,有相似度算法、命名實體識別算法、聚類算法、K近鄰算法、概率模型方法、神經(jīng)網(wǎng)絡(luò)等;基于語言模型的文本新穎性探測方法,有風險最小化框架模型、隱馬爾可夫模型等。
結(jié)果閾值設(shè)置和結(jié)果評估設(shè)計來源于TREC會議[13-15],其主要內(nèi)容是將語句的計算結(jié)果與設(shè)置的閾值相比較。如果計算值大于閾值,認為該語句包括新信息,反之則不包括。同時利用人工標注出語句集中所有包含新信息的語句,作為系統(tǒng)評測的參考答案,引入召回率(Recall)、準確率(Precision)與F值3個評價指標。
召回率反映了計算返回的正確結(jié)果在全部正確結(jié)果中的比率,公式為:Recall=M/A,其中M指評測系統(tǒng)和人工都認為是正確語句的數(shù)量,A指由人工方式選擇的正確答案的數(shù)量;準確率反映了計算返回的結(jié)果中正確結(jié)果的比例,公式為:Precision=M/S,其中S指由評測系統(tǒng)返回的正確答案的數(shù)量。F值測度的方法聯(lián)合考慮準確率和召回率,對兩者進行了權(quán)衡,具體計算公式為F=2×M/(A+S)。語句級新穎性探測是信息粒度最細的新穎性探測研究,旨在為科研人員過濾出新的信息的語句集合,避免人員對相同信息的反復(fù)閱讀,提高其閱讀學習效率。另外,對于檢索系統(tǒng)而言,語句級新穎性探測能夠有效的避免語句信息冗余,豐富了檢索引擎的結(jié)果呈現(xiàn)。
綜上所述,如何將3個層面的新穎性探測有效地結(jié)合使用,不僅僅是從理論到實踐的一個發(fā)展,也是圖書館從傳播文獻數(shù)據(jù)到傳播知識的轉(zhuǎn)型的一個突破口。利用文獻集,勾勒相關(guān)領(lǐng)域的發(fā)展脈絡(luò),出具相關(guān)領(lǐng)域的發(fā)展態(tài)勢和研究熱點預(yù)測報告;利用文獻主題內(nèi)容,評價文獻的新穎性,為期刊、作者以及團體評價提供新的指標;利用文獻語句,標記攜帶新信息的語句供讀者閱讀。這些知識服務(wù),在將來的圖書館服務(wù)中,可體現(xiàn)服務(wù)的個性化、深層化。在信息傳媒迅速發(fā)展的時代,圖書館員對科技文獻知識的梳理及呈現(xiàn),勢必受到科研人員的認可。