,
隨著網(wǎng)絡(luò)信息技術(shù)、數(shù)據(jù)存儲處理技術(shù)的快速發(fā)展,科學(xué)文獻數(shù)量呈指數(shù)級增長態(tài)勢,急需探索一種能夠體現(xiàn)語義關(guān)聯(lián)的新表達模式。這項工作受到了語義組織、語義關(guān)聯(lián)研究專家的重視。英國皇家化學(xué)學(xué)會的“Prospect”項目啟發(fā)專家開始探索不同于傳統(tǒng)語義表達的新模式,經(jīng)過對荷蘭的“Article of the Future”、美國的“OpenMath”[1]等項目的跟進研究,最終由70多人組成的語義專家聯(lián)盟——概念網(wǎng)絡(luò)聯(lián)盟于2009年明確提出Nanopublication的概念是一種新的語義表達模式,其借助計算機程序可以實現(xiàn)語義的新標注、再組織,是一種新語義表達模式[2]。
“Nanopublication”與納米科技并無相關(guān),只是取納米的微小之意,表示一種遵守語法規(guī)則、可以通過機器輸入、識別、處理、輸出的不可拆分的最小出版信息元[3]。納米出版物與傳統(tǒng)出版物是相同事物的不同表達,前者應(yīng)用機器語言,后者應(yīng)用自然語言,是一種新的語義表達。Nanopublication將傳統(tǒng)出版物模型化為ID、結(jié)論(As)、屬性(At)、密鑰(Ik)四要素。其中“ID”唯一識別一“本”Nanopublication,“結(jié)論”是體現(xiàn)Nanopublication的核心要素,“屬性”要素包含支撐信息(Si)和出處(Pr)兩個數(shù)據(jù)項,“密鑰”約束控制數(shù)據(jù)相容有效,ID與密鑰表現(xiàn)形式為序列碼,結(jié)論與屬性均為主-謂-賓格式的三元組。模型結(jié)構(gòu)如圖1所示。
圖1 Nanopublication模型結(jié)構(gòu)圖
其源文件類似C語言編碼框架,需遵守RDF標記語言準則[4-5]。
與傳統(tǒng)出版物相比,Nanopublication更注重體現(xiàn)文獻的細粒程度。其各要素內(nèi)容與傳統(tǒng)出版物具有一一對應(yīng)關(guān)系,并將傳統(tǒng)文獻的核心內(nèi)容如研究背景、研究方法、研究結(jié)論、引用文獻及出版時間、出版單位等進行提煉,并語義標注[6]結(jié)構(gòu)重組,形成一組人機共識的結(jié)構(gòu)化語句系列。由于文獻之間的研究方法、概念原理、參考文獻相互引用和相互支撐,形成Nanopublication龐大的信息元網(wǎng)絡(luò)。面對這樣的知識節(jié)點網(wǎng)絡(luò),研究人員可以經(jīng)過發(fā)現(xiàn)挖掘、計量分析,推斷得出新的研究線索以及新的科學(xué)結(jié)論,或者大膽提出新的研究假設(shè)。研究人員不再需要閱讀大量的傳統(tǒng)文獻,僅需要將Nanopublication借助計算機運行,并結(jié)合機器可視化計算處理[7],大大加速了知識發(fā)現(xiàn)的速度、拓廣了知識發(fā)現(xiàn)的廣度、深化了知識發(fā)現(xiàn)的深度。在該信息元網(wǎng)絡(luò)中,信息流分有向、無向兩種情況,發(fā)現(xiàn)的知識也相應(yīng)不同。下面以具有5個信息元(用字母U表示)的信息流網(wǎng)絡(luò)圖分別討論。
信息有向圖中信息元之間由弧(即箭頭“→”)連接,箭頭方向的一端為弧頭,另一頭為弧尾,信息流的方向為弧尾流向弧頭,結(jié)合實際情況可以理解為弧尾信息元支撐弧頭信息元,或弧頭信息元引用弧尾信息元。由圖2“Nanopublication信息有向圖”可發(fā)現(xiàn),因U1→U2,U2→U5,故沿信息流方向可推導(dǎo)得出U1→U5,但逆方向U5是否能夠推導(dǎo)出U1不得而知,需要研究證明。由于信息流方向非時針方向,所以U3、U5的關(guān)系難以確定,可能出現(xiàn)U3→U5或U5→U3或U3、U5無關(guān)3種情況。Nanopublication有向知識發(fā)現(xiàn)直觀解析見圖3。
圖2 Nanopublication信息有向圖
圖3 Nanopublication有向知識發(fā)現(xiàn)圖
信息無向圖中信息元之間由邊(即直線“-”)連接(圖4)。
圖4 Nanopublication信息無向圖
圖4中信息元之間的邊無方向性,信息流也無方向性,兩個信息元用邊連接表示二者相關(guān),或共用某個方法、理論、概念、數(shù)據(jù)。
由圖4“Nanopublication信息無向圖”可發(fā)現(xiàn),因U1-U2,U2-U5,故通過U2可以建立U1和U5的相關(guān)性,即U1-U5,此時U1與U5的相關(guān)性不具有方向性,可以描述為U1-U5,也可以描述為U5-U1;U4-U5,U4-U3,不需考慮信息流是否滿足時針方向,U4與U3、U5均相關(guān),據(jù)無向圖的特性可推導(dǎo)出U3、U5具有相關(guān)關(guān)系,即U3-U5。
Nanopublication的無向知識發(fā)現(xiàn)直觀解析詳見圖5。
圖5 Nanopublication無向知識發(fā)現(xiàn)圖
以上的Nanopublication有向、無向圖僅用5個信息元簡單說明情況。實際的Nanopublication網(wǎng)圖的信息元數(shù)量龐大,關(guān)系錯綜復(fù)雜,但是經(jīng)過可視化處理后能夠直觀發(fā)現(xiàn)直接連接的信息元之間的關(guān)系,或者是通過有向、無向圖特性挖掘,分析它們的間接相關(guān)關(guān)系。
因此,相對于傳統(tǒng)出版物,Nanopublication的優(yōu)點是可以借助機器幫助研究人員閱讀處理,細化到信息元程度。這樣可以擴大人工閱讀數(shù)量,提高人工閱讀質(zhì)量,拓展人工閱讀的知識范圍。與傳統(tǒng)出版物相比,Nanopublication有直觀、深入、立體、簡化等許多優(yōu)點,讓研究人員更易揭示知識間隱藏關(guān)系,或探索證明知識間的可能相關(guān)關(guān)系。
為解決大數(shù)據(jù)環(huán)境下知識發(fā)現(xiàn)、知識挖掘方面的諸多難題,數(shù)據(jù)語義領(lǐng)域的專家致力于研究在開放網(wǎng)絡(luò)環(huán)境下海量數(shù)據(jù)的互操作算法。在研究中,信息專家發(fā)現(xiàn)數(shù)據(jù)可以構(gòu)建新的結(jié)構(gòu)形式,重新定義數(shù)據(jù)關(guān)系,實現(xiàn)新的數(shù)據(jù)組織、語義表達、出版模式,Nanopublication應(yīng)運而生。
Nanopublication是針對傳統(tǒng)文獻詳細、冗長、靜態(tài)線性、小數(shù)據(jù)處理的弊端而發(fā)現(xiàn)的新知識。Nanopublication依托軟件程序語言思想,遵循一定的語法規(guī)則,憑借預(yù)定義的可控詞表庫進行軟件編碼[8];借助機器實現(xiàn)其強大的大數(shù)據(jù)處理能力,發(fā)揮其文獻參考、學(xué)術(shù)交流的核心重要作用。
目前,基于Nanopublication可視化得到的均是圖狀結(jié)構(gòu)的數(shù)據(jù)關(guān)系,當(dāng)數(shù)據(jù)間的關(guān)系屬于層次結(jié)構(gòu)關(guān)系時,應(yīng)用樹型結(jié)構(gòu)模型更準確。因此,需要在可視化操作的程序中加入數(shù)型結(jié)構(gòu)的各類操作模塊,以供程序在運行中分支調(diào)運。圖狀可視化結(jié)果也有一定的改進空間,如果能夠在有向圖的“弧”、無向圖的“邊”上將精縮信息以類似標“權(quán)值”的形式標注在“弧”或者“邊”的旁邊,會更立體、明確。
Nanopublication目前在醫(yī)藥生物領(lǐng)域研究較多、成果顯著[9-10],但距離形成充足、成熟、規(guī)范通用的供學(xué)者廣泛使用的數(shù)據(jù)資源庫還有很大探索空間,需要不斷研究、不斷發(fā)現(xiàn)。另外學(xué)科發(fā)展也不均衡,人文、哲學(xué)等學(xué)科才剛剛開始探索建設(shè)詞庫,理工等領(lǐng)域還屬于空白。因此,Nanopublication的進一步發(fā)展、普及都得依賴語義專家與軟件專家不斷的知識發(fā)現(xiàn)。
Nanopublication屬于語言學(xué)范疇,知識發(fā)現(xiàn)屬于信息學(xué)范疇,從表象上不易看出二者的交集,但是通過可視化技術(shù)建立起非常緊密的聯(lián)系,使二者實現(xiàn)了融合。從Nanopublication可以發(fā)現(xiàn)許多潛在知識,通過知識發(fā)現(xiàn)可以產(chǎn)生更多、更完整的Nanopublication。
Nanopublication的發(fā)展離不開知識發(fā)現(xiàn),知識發(fā)現(xiàn)也有賴于Nanopublication的發(fā)展、普及與平衡,二者相互促進,共同發(fā)展。
Nanopublication與知識發(fā)現(xiàn)相融合的產(chǎn)物就是錯綜復(fù)雜的信息網(wǎng)圖(圖6),信息網(wǎng)圖可以有效幫助人們進行信息分析、知識發(fā)現(xiàn),而知識發(fā)現(xiàn)亦可幫助研究人員完善Nanopublication詞表庫、發(fā)現(xiàn)語法歧義、改進算法。目前國外科研機構(gòu)、網(wǎng)絡(luò)數(shù)據(jù)提供商加大發(fā)展力度,投入大量資金、人力研究Nanopublication。從事Nanopublication研究的專家開展的“知識發(fā)現(xiàn)”處在行業(yè)的前端,他們研發(fā)的Nanopublication數(shù)據(jù)庫也越來越受到重視。
圖7 Nanopublication知識網(wǎng)絡(luò)圖
目前,由歐盟的創(chuàng)新藥物計劃基金資助、英國皇家化學(xué)學(xué)會研發(fā)的支持Nanopublication的平臺系統(tǒng)PHACTS,可以實現(xiàn)Nanopublication的查詢、檢索、可視化聚合。該系統(tǒng)于2011年開始免費開放,這對Nanopublication的發(fā)展、使用將起到推動作用。
Nanopublication相互之間動態(tài)連接,若嵌入數(shù)據(jù)不規(guī)范,知識發(fā)現(xiàn)過程中會出現(xiàn)錯誤堆積情況,且閱讀Nanopublication需要有軟件程序語言基礎(chǔ)。因此Nanopublication的普及、推廣具有一定的難度,需要一定的時間。
此外,Nanopublication與傳統(tǒng)出版物不會相互影響,相互制約,更不會取代傳統(tǒng)出版物。二者利用自身優(yōu)勢服務(wù)廣大信息研究人員,幫助人們進行信息分析、知識發(fā)現(xiàn)。