雷楓 孫輝
[摘? ? 要] 在指出當前人文社科領(lǐng)域信息管理和服務(wù)不足的基礎(chǔ)上,提出知識管理是人文社科資源提供高質(zhì)量知識服務(wù)的必由之路。文章從資源組織的各個環(huán)節(jié)討論了知識管理的關(guān)鍵技術(shù)——構(gòu)建社科本體,并給出其應(yīng)用前景和應(yīng)用模式,最后介紹了基于國史學科進行的國史本體研究的具體進展。
[關(guān)鍵詞] 知識管理;信息組織;本體技術(shù);人文社會科學;中華人民共和國史
1? ? ? 人文社科領(lǐng)域信息管理和服務(wù)現(xiàn)狀
過去幾年,互聯(lián)網(wǎng)上人文社科信息資源數(shù)量迅速增長,中國社會科學院建成了大量專業(yè)數(shù)據(jù)庫和專業(yè)學科網(wǎng),但這些信息系統(tǒng)在信息組織方面大多采用傳統(tǒng)方法;部分商業(yè)數(shù)據(jù)公司雖然提供了基于統(tǒng)計的知識管理,但總體來說這些資源的信息處理和組織層次較低,信息服務(wù)遠未達到知識服務(wù)的水平。
1.1? ?關(guān)于信息導航
僅提供傳統(tǒng)的基于分類的信息導航,不能按照某一個概念及其相關(guān)概念進行導航,即不能提供關(guān)于知識的導航。
1.2? ?關(guān)于檢索方法
僅提供關(guān)鍵詞檢索和全文檢索,這兩種傳統(tǒng)的物理檢索方式效率不高。由于用戶與標引人員對語義的理解存在歧義,而同一概念有多種表達,基于關(guān)鍵詞的檢索容易造成漏檢;基于全文檢索造成海量檢索結(jié)果,大量無關(guān)信息充斥其中,用戶要花大量時間甄別,查準率低下;提供的檢索結(jié)果為線性、散列的文檔列表,呈現(xiàn)的是原始狀態(tài)信息,用戶必須通過研讀、總結(jié)提煉才能獲取知識。
1.3? ?主題詞的使用停滯在文獻著錄環(huán)節(jié)
盡管《中國分類主題詞表》第二版及其Web版本已研制成功,但該詞表還是僅用于文獻著錄環(huán)節(jié),沒有在檢索環(huán)節(jié)被大規(guī)模采用,關(guān)鍵詞檢索仍然是當前的主要手段,檢索效率問題難以解決。
1.4? ?基于統(tǒng)計的知識管理所體現(xiàn)的知識關(guān)聯(lián)不準確
當前一些商業(yè)搜索引擎和商業(yè)數(shù)據(jù)庫(如百度和同方知網(wǎng))都提供“相關(guān)搜索”或“相似詞推薦”等大規(guī)模應(yīng)答結(jié)果的聚類組織。這種知識導航雖使文獻之間學術(shù)關(guān)聯(lián)特性得到一定程度釋放和展示,但都是基于用戶訪問數(shù)據(jù)挖掘或文獻共引數(shù)據(jù)挖掘,存在一定的偶然性和不準確性,而且僅提示“相似”或“相關(guān)”信息,沒能進一步提示概念之間具體的聯(lián)系。
1.5? ?缺乏統(tǒng)籌規(guī)劃和相關(guān)標準,資源建設(shè) “各自為政”
社科院各學科開發(fā)的信息數(shù)量可觀,但異質(zhì)、異構(gòu),技術(shù)代際復雜,且?guī)缀醵际前虢Y(jié)構(gòu)化數(shù)據(jù),信息孤島大量存在,重復嚴重。統(tǒng)籌部門建立的信息系統(tǒng)也不具備從這些分布信息源中提取所需信息的“常識性知識”,從而不能自動從不同信息源中提取、集成相關(guān)信息并綜合分析,影響資源使用效率。同時當信息源越來越大,將信息結(jié)構(gòu)化是一件艱苦而耗時的工作。這些問題不僅使得跨庫檢索難以完成、也使得知識資源的深度開發(fā)利用失去可能,成為進行我院信息資源集成、共享、交換的瓶頸。
人文社科信息管理和服務(wù)水平低下,根本原因在于沒有用一種有效的手段對信息進行組織,還停留在傳統(tǒng)的信息管理階段。如果想讓用戶更直觀地、清晰地看到相關(guān)知識間的關(guān)系,個性化地選擇相關(guān)資源,就必須基于知識的結(jié)構(gòu)和關(guān)系來管理信息資源。這一癥結(jié)指向了人文社科知識管理問題。
2? ? ? 從信息管理過渡到知識管理是人文社科資源建設(shè)的必由之路
知識管理本質(zhì)是將信息組織的顆粒度從文獻單元深入到文獻中的知識元,其實現(xiàn)手段就是在用戶和現(xiàn)有的海量信息資源實體之間建立一張概念網(wǎng),把文獻信息資源“網(wǎng)”到一起,在檢索時只需找到這張概念網(wǎng)的某一個“網(wǎng)格”,就可以找到對應(yīng)這個“網(wǎng)格”的所有文獻信息,如圖1所示。這個概念網(wǎng)格與文獻信息資源結(jié)合起來構(gòu)成一個完整的知識管理系統(tǒng),大量文獻中包含的知識元及相關(guān)知識元之間的關(guān)聯(lián)將產(chǎn)生極大的知識增值,在此基礎(chǔ)上將實現(xiàn)基于知識的共享、重用、語義檢索和推理等目標。
人文社科知識管理反映在知識表示、知識組織、知識檢索等層次上,涉及語義網(wǎng)、本體論、元數(shù)據(jù)等相關(guān)理論和技術(shù),其核心內(nèi)容是構(gòu)造概念網(wǎng)格——社科本體論。本體論是用機器語言規(guī)范知識概念表示、進行知識組織、開展知識服務(wù)的科學方法論,其已成為知識網(wǎng)格建立和管理的關(guān)鍵技術(shù)。利用本體論建立人文社會科學各學科知識庫,用學科規(guī)范化的概念及其關(guān)系構(gòu)造一個網(wǎng)狀的知識原型系統(tǒng),帶有豐富語義關(guān)系和分類層次,使之成為每個學科的知識組織范式,通過其“網(wǎng)羅”人文社科信息資源實體,形成社科語義網(wǎng)。
2.1? ?在知識表示環(huán)節(jié)
通過對各學科知識進行分析,將抽象出的知識元及其關(guān)系組織在本體框架下。這些知識元分為三類:理論與方法類、事實類、數(shù)值類,包括學科概念、方法、規(guī)則、公理、事實等。所有知識元的同義特征、簇性特征以及豐富的關(guān)聯(lián)特征都以結(jié)構(gòu)化的本體形式表達,包含的相關(guān)公理和規(guī)則供推理。這樣的學科本體就是一個學科知識的全部反映,其揭示的概念之間的關(guān)系是實現(xiàn)語義挖掘和關(guān)聯(lián)導航的基礎(chǔ)。
2.2? ?在知識組織環(huán)節(jié)
利用元數(shù)據(jù)對文獻內(nèi)容所含有的知識元進行標注:用基于本體的分類體系對文獻進行學科分類,用基于本體的主題詞概念進行對文獻進行知識規(guī)范化描述。形成的描述信息實際就是知識的特征影像,可以刻畫文獻所包含的知識的全部特征。這一細粒度的標引揭示出文獻中知識及其關(guān)聯(lián)。然后利用元數(shù)據(jù)體系將信息資源實體與基于本體的知識網(wǎng)格建立關(guān)聯(lián),從而對文獻資源進行全面管理。文獻信息資源就成為一個以知識本體網(wǎng)絡(luò)為中心,結(jié)合作者、機構(gòu)、刊名、關(guān)鍵詞、相關(guān)作者、相關(guān)機構(gòu)、相關(guān)關(guān)鍵詞等外在特征單元的知識網(wǎng)絡(luò),可大大提高文獻資源的知識增值效應(yīng),為信息資源的深度開發(fā)利用提供保證。
2.3? ?在知識檢索服務(wù)環(huán)節(jié)
通過基于本體的知識呈現(xiàn)和導航,可實現(xiàn)智能推送和知識羅盤。用戶在文獻信息檢索時還是輸入關(guān)鍵詞,但這時的檢索過程和傳統(tǒng)的基于字面匹配的關(guān)鍵詞檢索有本質(zhì)的區(qū)別。首先,系統(tǒng)會根據(jù)學科知識本體網(wǎng)格中內(nèi)置的概念關(guān)系找到與關(guān)鍵詞相同和相關(guān)的概念,自動修正查詢式或再構(gòu)造出一個或多個查詢式來實現(xiàn)對知識的擴展檢索,從而找到用戶真正需要的信息,提供包括數(shù)值、學術(shù)圖形、表格、歷史事件、概念、學說、模型、規(guī)則、學術(shù)趨勢,以及資源類型、期刊、基金、作者、機構(gòu)等的搜索結(jié)果,并提供多角度的文獻聚類;其次,系統(tǒng)以可視化形式在檢索結(jié)果界面中顯示以檢索概念為中心的本體概念體系的相關(guān)部分,用戶可沿著這個知識地圖進行相關(guān)檢索——知識地圖和文獻檢索結(jié)果呈現(xiàn)出類似知識羅盤的效果,從而將傳統(tǒng)上線性、一維、散列的結(jié)果立體化、多維化,大大提高檢索效率。
在以上所有環(huán)節(jié)中,知識表示極其重要,是實現(xiàn)知識組織和智能檢索的基礎(chǔ),而本體論和語義網(wǎng)技術(shù)在知識表示、知識組織環(huán)節(jié)所起的作用也是最大的。基于本體論和語義網(wǎng)的知識服務(wù)的質(zhì)量很大程度上取決于本體構(gòu)建的質(zhì)量。
建立人文社科知識管理系統(tǒng),應(yīng)加強知識庫——人文社科本體的構(gòu)建,據(jù)此建立人文社科信息資源管理標準,將大大加強知識揭示的維度和深度,增加人文社科領(lǐng)域內(nèi)信息的相互作用,從而盤活人文社科信息資源,促進資源的深度開發(fā)和綜合利用。本體形成的對于人文社科信息組織結(jié)構(gòu)的共同理解,為現(xiàn)有社科信息資源進行知識挖掘、實現(xiàn)語義層面上的互通互連提供了基礎(chǔ),為中國社會科學院進一步建立社科語義網(wǎng)絡(luò)、提供高級社科語義服務(wù)提供保障。
3? ? ? 人文社科本體論在社科知識管理中的應(yīng)用
3.1? ?基于知識管理標準的信息資源建設(shè)
在資源庫建設(shè)中,利用人文社會科學本體對文獻信息進行知識(即內(nèi)容的主題、分類或?qū)W科其他知識特征)標引,如使用本體中的概念作為主題詞,使用本體中的概念層次體系作為其學科分類,實現(xiàn)人文社科信息資源統(tǒng)一規(guī)范下的知識描述,從而勾畫出人文社科信息資源的知識映像。
3.2? ?改善信息服務(wù)方式
人文社科本體實際上是一個以揭示各學科專業(yè)詞匯所代表的概念之間關(guān)系為基本內(nèi)容的專業(yè)知識庫系統(tǒng),是一種大百科式詞典。詞典是中文信息處理的基石,是文本挖掘的基礎(chǔ),將其嵌入學科網(wǎng)或社科期刊網(wǎng)可構(gòu)造出社科“知識節(jié)”,不僅提供知識推送,還能使檢索結(jié)果的呈現(xiàn)反映出學科概念間的關(guān)系,自動進行語義歸類聚類,有效解決關(guān)聯(lián)組合爆炸的實際問題,從而構(gòu)造“社科知網(wǎng)”。當前同方的“中國知網(wǎng)”構(gòu)造的“知識節(jié)”是基于用戶訪問數(shù)據(jù)挖掘或文獻共引數(shù)據(jù)挖掘,通過統(tǒng)計方法研究海量概念關(guān)系、分析通用關(guān)聯(lián)規(guī)則、構(gòu)造海量概念關(guān)系詞典來實現(xiàn)的。通過該知識節(jié)揭示的文獻之間引證關(guān)系而提供的推送服務(wù),在追索課題歷史、研究背景,把握目前進展和未來發(fā)展方向方面頗有助益。但該知識節(jié)提供的概念關(guān)系不如學科本體表現(xiàn)的關(guān)系豐富和準確,也就是說基于學科本體才能構(gòu)造出真正的語義網(wǎng),實現(xiàn)真正的知識導航,從而有助于對學術(shù)的激發(fā)、引導、類比和聯(lián)想。
此外,充分發(fā)揮人文社科本體作為檢索模型的工具作用,比如與搜索引擎結(jié)合,可進一步構(gòu)造人文社科搜索引擎,不僅能夠?qū)崿F(xiàn)社科信息的準確檢索,而且可以引發(fā)用戶對新的社科信息內(nèi)容的興趣,即通過豐富的詞間聯(lián)系,鏈接相關(guān)的人文社科信息,提供知識導航,為用戶使用信息提供線索。如果條件成熟,可應(yīng)用于“中國社科網(wǎng)”,或商品化應(yīng)用于互聯(lián)網(wǎng)。
3.3? ?國史學科本體應(yīng)用初探
人文社會科學各學科涉及理論(學說)、方法、規(guī)則、公理、知識(事實)等范疇,所以一般來說人文社科本體構(gòu)建工作應(yīng)按照學科等級分支原則自上而下順次進行,多領(lǐng)域?qū)<倚〗M共同完成。比如國史(1949年以后的中華人民共和國史)學科是一個二級學科,包括政治史、經(jīng)濟史、社會史、文化史等分支,其學理概念必然散落在政治、經(jīng)濟、社會、歷史、哲學等一級學科概念中。但筆者認為(知識)事實是歷史學科中最有特色的部分,也是可以獨立完成的部分。筆者所在實驗室對國史學科的事實(知識)部分進行了本體構(gòu)建探索,以中華人民共和國編年史、黨史人物傳、組織機構(gòu)史等國史文獻為知識源,研究分析出事件、人物、歷史文獻、組織、理念等核心概念及其之間錯綜復雜的關(guān)系,設(shè)計出國史知識本體概念關(guān)系模型(如圖2所示)。該模型離一個完備實用的模型還有很大差距,如子事件的劃分、多維概念的分解等都是難點,需要國史專家和技術(shù)人員共同完成。圖3是以上述概念模型為基礎(chǔ)構(gòu)建的一個簡單的國史知識本體原型系統(tǒng),圖中展示了該系統(tǒng)提供的國史知識可視化互動檢索功能。如輸入檢索詞“決議”,系統(tǒng)以可視化方式顯示出與“通過《關(guān)于建國以來黨的若干歷史問題的決議》”這個事件相關(guān)的概念,如該事件的“涉及文獻”有“《關(guān)于建國以來黨的若干歷史問題的決議》”,該事件的“相關(guān)事件”有“十一屆六中全會”、“鄧小平會見法拉奇”、“葉劍英國慶三十周年講話”、“真理標準大討論”等等。節(jié)點之間連線顯示出概念之間的不同的關(guān)系,如圖中 “通過《決議》”和“撥亂反正”之間的連線,系統(tǒng)提示是“涉及理念”的關(guān)系。進一步輸入檢索詞“胡耀邦”,系統(tǒng)從圖3檢索結(jié)果提取出與“胡耀邦”相關(guān)的概念,提供了延伸導航功能(如圖4所示)。繼續(xù)點擊圖3中其他節(jié)點,系統(tǒng)進一步呈現(xiàn)其相關(guān)概念(如圖5所示)。
筆者所在實驗室對人文社科本體構(gòu)建進行了初步探索,旨在以此為基礎(chǔ)實現(xiàn)基于語義的文獻資源檢索功能。上述原型系統(tǒng)僅僅是一種基于本體實現(xiàn)國史主題詞表的探索,在國史概念模型、協(xié)同編輯環(huán)境、知識來源和獲取等方面做得相當粗淺。筆者將在人力財力和技術(shù)加大投入的情況下,做進一步探索。
4? ? ? 總? ? 結(jié)
社科本體論提供了一種解決問題的思路,是人文社科信息服務(wù)向知識服務(wù)過渡的一條可行之路,它為實現(xiàn)真正意義上的人文社科知識服務(wù)帶來曙光?;谏缈票倔w論構(gòu)建人文社科知識管理,將解決人文社科信息資源知識組織、共享、集成、交換等瓶頸問題,是實現(xiàn)智能化檢索以及未來其他社科領(lǐng)域應(yīng)用服務(wù)系統(tǒng)的基礎(chǔ),是人文社科知識工程基礎(chǔ)設(shè)施建設(shè)的重要內(nèi)容,對人文社科知識最大限度的傳播和利用有著不可估量的作用。
主要參考文獻
[1]董慧,余傳明,楊寧.基于本體的數(shù)字圖書館檢索模型研究(III)——歷史領(lǐng)域資源本體構(gòu)建[J]. 情報學報,2006(5):564-574.
[2]彭煒明,宋繼華.《資治通鑒》歷史領(lǐng)域本體構(gòu)建及其應(yīng)用研究[J].中文信息學報,2010(2):33-38.
[3]孫輝,雷楓.中華人民共和國史本體構(gòu)建初探[J].現(xiàn)代情報,2014(2):32-42.
[4]吳麗杰.基于本體的特色數(shù)據(jù)庫知識組織研究[J].圖書館學刊,2012(3):41-43.