劉愛琴,于賈燕,尚 珊
(山西大學(xué)經(jīng)濟(jì)與管理學(xué)院)
當(dāng)前互聯(lián)網(wǎng)上海量文獻(xiàn)資源的品質(zhì)參差不齊,導(dǎo)致用戶無法及時(shí)有效地檢索目標(biāo)信息,文獻(xiàn)資源發(fā)現(xiàn)服務(wù)體系服務(wù)效率低下,查準(zhǔn)率較低,且無法實(shí)現(xiàn)對(duì)不同信息的統(tǒng)一訪問。[1]基于語義的文獻(xiàn)資源發(fā)現(xiàn)服務(wù)體系是借助人的智慧創(chuàng)建的依托于機(jī)器的智能化系統(tǒng),提供人與機(jī)器之間信息通信的中介,可借助與客戶檢索文獻(xiàn)信息相關(guān)的語義知識(shí)地圖實(shí)現(xiàn)對(duì)知識(shí)的深度挖掘以及用戶與計(jì)算機(jī)間對(duì)數(shù)據(jù)信息的一致理解和認(rèn)識(shí)。本研究致力于在語義的基礎(chǔ)上搭建將目標(biāo)文獻(xiàn)資源以“與用戶檢索內(nèi)容相匹配的數(shù)字資源的全文信息PDF匯編文檔”的形式,替代當(dāng)前簡(jiǎn)單的檢索目錄呈獻(xiàn)給用戶的文獻(xiàn)資源發(fā)現(xiàn)服務(wù)體系,進(jìn)而根據(jù)用戶需求實(shí)現(xiàn)知識(shí)重組,促進(jìn)知識(shí)創(chuàng)造的發(fā)展。
語義Web起源于英國,由國際W3C主席Tim Berners-Lee首次提出,即給出一種機(jī)器可理解的描述資源的方式,在保證查全率的基礎(chǔ)上大幅提升查準(zhǔn)率。[2]當(dāng)前,比較典型的語義數(shù)字資源服務(wù)系統(tǒng)有BRICKS、Fedora和JeromeDL。BRICKS是依托分布式開放結(jié)構(gòu)的集成化整合文化知識(shí)服務(wù)資源建設(shè)的開源軟件系統(tǒng);[3]Fedora是基于Web2.0靈活可擴(kuò)展的、通用的數(shù)字對(duì)象管理系統(tǒng);[4]JeromeDL是基于語義Web的高互操作性、高可用性、開源社會(huì)化語義數(shù)字資源服務(wù)系統(tǒng)。[5]上述三個(gè)語義數(shù)字資源服務(wù)系統(tǒng)各具特色,對(duì)語義技術(shù)有較強(qiáng)的支持作用,為數(shù)字信息領(lǐng)域提供了典型的研究范例,具有極強(qiáng)的參考價(jià)值。
中國學(xué)者劉健等為應(yīng)對(duì)傳統(tǒng)數(shù)字文獻(xiàn)資源內(nèi)容推薦服務(wù)過程中無法充分挖掘資源語義信息等問題,提出對(duì)用戶檢索關(guān)鍵詞實(shí)行語義擴(kuò)展,并嘗試采用全新的語義相似度計(jì)算方法,借助本體推理規(guī)則,計(jì)算文獻(xiàn)資源內(nèi)容相似度。[6]李佳南提出以用戶需求為核心出發(fā)點(diǎn),在館藏資源特征分析的基礎(chǔ)上提出語義知識(shí)庫構(gòu)建的方法,采用自底向上的構(gòu)建思想構(gòu)造層次化的館藏資源語義知識(shí)庫框架體系。[7]高俊峰提出一種基于語義標(biāo)簽的數(shù)字文獻(xiàn)資源組織方法,力求為新技術(shù)標(biāo)準(zhǔn)下的數(shù)字圖書館知識(shí)服務(wù)工作的開展提供解決方案。[8]但令人遺憾的是,目前國內(nèi)仍然沒有學(xué)者明確提出構(gòu)建基于語義的文獻(xiàn)資源發(fā)現(xiàn)服務(wù)體系。
本研究嘗試搭建實(shí)現(xiàn)轉(zhuǎn)變關(guān)鍵詞為主題詞、對(duì)主題詞進(jìn)行科學(xué)切分和重組,從而能夠根據(jù)用戶需求實(shí)現(xiàn)知識(shí)重組、促進(jìn)知識(shí)創(chuàng)造的基于語義的文獻(xiàn)資源發(fā)現(xiàn)服務(wù)體系。該體系可以將匹配用戶檢索信息的相關(guān)數(shù)字資源以PDF文檔格式條理化、可視化的形式呈獻(xiàn)給用戶,實(shí)現(xiàn)全文信息呈現(xiàn)替代當(dāng)前的檢索目錄可視化,進(jìn)而借助形象化、具體化的描述提高信息的可理解性和可認(rèn)知性的程度,提高數(shù)字資源的有效利用率,以達(dá)到減少用戶檢索獲取知識(shí)資源的時(shí)間與精力的目的。
提供基于語義的文獻(xiàn)資源發(fā)現(xiàn)服務(wù),更好地揭示數(shù)字文獻(xiàn)資源的語義特性,實(shí)現(xiàn)由關(guān)鍵詞到主題詞的轉(zhuǎn)變及主題詞的切分和重組,深度集成和統(tǒng)籌互聯(lián)網(wǎng)數(shù)字資源,反饋給用戶可視化的目標(biāo)文獻(xiàn)資源全文信息。以語義Web技術(shù)為支撐,從用戶層、檢索層、語義分析層、預(yù)處理層、知識(shí)集成層五個(gè)層次挖掘并整合互聯(lián)網(wǎng)數(shù)字文獻(xiàn)資源(見圖1)。
(1)用戶在用戶層進(jìn)行檢索查詢時(shí)制定的檢索策略會(huì)直接傳遞給檢索層。該層是實(shí)現(xiàn)用戶與機(jī)器直接信息交流的平臺(tái),若用戶訪問一個(gè)信息內(nèi)容實(shí)例,則把該內(nèi)容以指定的中介格式(PDF文檔)反饋給用戶。同時(shí),該層還負(fù)責(zé)以動(dòng)態(tài)跟蹤的方式實(shí)時(shí)跟蹤所提供的知識(shí)服務(wù),以主動(dòng)推送的方式優(yōu)化知識(shí)服務(wù),進(jìn)一步提升用戶滿意度。
(2)檢索層的檢索工具將用戶需求傳遞至推理機(jī),提取需求特征后進(jìn)行本體擴(kuò)展,消除語義沖突和語義分歧等,并在服務(wù)器的基礎(chǔ)上完成數(shù)字資源語義沖突的智能化識(shí)別和處理。從而在已經(jīng)建立的語義化信息或知識(shí)及相關(guān)算法的支持下,實(shí)現(xiàn)用戶需求的初步解讀。用戶需求數(shù)據(jù)庫通過推理機(jī)傳遞的經(jīng)解讀分析后的數(shù)據(jù)信息了解用戶對(duì)知識(shí)服務(wù)的需求,從而進(jìn)行整理和儲(chǔ)存。然后對(duì)用戶感興趣及習(xí)慣性的信息進(jìn)行定期跟蹤查新,并通過用戶層及時(shí)將最新信息推送給用戶。
(3)用戶需求庫將解讀后的需求信息傳輸至語義分析層數(shù)據(jù)庫,在語義Web技術(shù)的基礎(chǔ)上,從索引庫、主題詞庫、文獻(xiàn)文檔三個(gè)維度對(duì)匹配用戶需求的相關(guān)文檔進(jìn)行語義方面的逐層解析,進(jìn)而篩選調(diào)用語義標(biāo)準(zhǔn)化后的數(shù)字資源,形成基于XML的檢索目錄。
圖1 基于語義的文獻(xiàn)資源發(fā)現(xiàn)服務(wù)體系機(jī)理分析
(4)預(yù)處理層響應(yīng)語義分析層的要求,收集為匹配用戶需求而篩選調(diào)用的文獻(xiàn)文檔,然后借助語義Web技術(shù)對(duì)其進(jìn)行解析處理,具體過程如下。① 在數(shù)字資源尾部找到屬性標(biāo)簽;② 轉(zhuǎn)入數(shù)字資源文檔根對(duì)象;③ 轉(zhuǎn)入數(shù)字資源文檔頁根對(duì)象;④ 轉(zhuǎn)入內(nèi)容對(duì)象,解讀字體信息、位置信息和文本信息;⑤將所有內(nèi)容對(duì)象的解碼流連接起來,組成文本內(nèi)容流。該層基于語義技術(shù)通過突破描述異構(gòu)、傳輸異構(gòu)、兼容異構(gòu)、功能異構(gòu)以及過程異構(gòu)等多種語義本體異構(gòu)問題,將解析后形式各異的館藏?cái)?shù)字資源用統(tǒng)一化、標(biāo)準(zhǔn)化、機(jī)器可理解的語言描述,為下一步的全文內(nèi)容抽取奠定基礎(chǔ)。
(5)知識(shí)集成層由提取器、篩選器和包裝器三個(gè)模塊構(gòu)成,對(duì)語義分析層形成的檢索目錄中的資源進(jìn)行全文內(nèi)容獲取,進(jìn)而逐步實(shí)現(xiàn)推理解析、語義組別劃分和知識(shí)單元關(guān)聯(lián)匯總,基于數(shù)字信息資源聚類、分類和學(xué)習(xí)等算法研究,完成推理任務(wù)描述與分解技術(shù)研究,實(shí)現(xiàn)提取資源全文內(nèi)容的生成、重用和演化,最終打包成包含匹配用戶需求的所有文獻(xiàn)文檔全文信息的PDF集成文檔呈現(xiàn)給客戶,實(shí)現(xiàn)基于語義的智能化文獻(xiàn)資源發(fā)現(xiàn)整合服務(wù),更易于被用戶發(fā)現(xiàn)和瀏覽。
實(shí)現(xiàn)高效準(zhǔn)確的基于語義的文獻(xiàn)資源整合及知識(shí)推送服務(wù)的前提是基于語義標(biāo)準(zhǔn)化數(shù)字資源的篩選凝聚,在實(shí)現(xiàn)由關(guān)鍵詞到主題詞轉(zhuǎn)變的基礎(chǔ)上,系統(tǒng)才能高效滿足用戶的深層次知識(shí)需求,增進(jìn)知識(shí)認(rèn)知、推動(dòng)知識(shí)解讀、促進(jìn)知識(shí)整合、推進(jìn)知識(shí)創(chuàng)作。基于此,本研究構(gòu)建的基于語義的文獻(xiàn)資源發(fā)現(xiàn)服務(wù)體系由用戶層、檢索層、語義分析層、預(yù)處理層和知識(shí)集成層五個(gè)層次支撐并實(shí)現(xiàn)(見圖2)。
圖2 基于語義的文獻(xiàn)資源發(fā)現(xiàn)服務(wù)體系模型
(1)用戶層。該層與檢索層緊密相連,根據(jù)用戶的檢索需求,準(zhǔn)確得到用戶目標(biāo)信息,高效、可視化地反饋給用戶與檢索信息相匹配的文獻(xiàn)資源PDF整合文檔,這也是整個(gè)基于語義的文獻(xiàn)資源發(fā)現(xiàn)服務(wù)體系中最能直接體現(xiàn)其高速、高效、高水準(zhǔn)知識(shí)服務(wù)的模塊。
(2)檢索層。該層主要發(fā)現(xiàn)、解析并整合用戶的檢索需求,具體流程如下。① 用戶在用戶界面上的檢索欄通過關(guān)鍵詞檢索、模糊檢索、相關(guān)機(jī)構(gòu)檢索等檢索方式進(jìn)行查詢檢索。基于語義的文獻(xiàn)資源發(fā)現(xiàn)服務(wù)體系在用戶層可實(shí)現(xiàn)動(dòng)態(tài)自適應(yīng)界面功能,并將用戶需求傳遞至檢索工具。② 推理機(jī)可實(shí)現(xiàn)將事實(shí)查詢和本體概念合并為一個(gè)查詢,經(jīng)推理機(jī)借助領(lǐng)域本體規(guī)則,獲取用戶需求概念后依次進(jìn)行特征描述、特征提取、概念擴(kuò)展等處理,進(jìn)而推理整合分析后,將用戶需求、用戶偏好、用戶特點(diǎn)等信息匯總至用戶需求庫。③ 系統(tǒng)自動(dòng)將用戶需求庫匯總所得到的信息傳遞到語義分析層的特定數(shù)據(jù)庫進(jìn)行匹配,進(jìn)一步分析處理后調(diào)用語義標(biāo)準(zhǔn)化后的文獻(xiàn)文檔數(shù)據(jù)資源。
(3)語義分析層。該層基于語義Web技術(shù)首先從索引庫、主題詞庫、文獻(xiàn)文檔三個(gè)維度對(duì)需匹配用戶需求的相關(guān)文檔展開解析處理,并對(duì)書目進(jìn)行層次劃分處理,分離屬性特征,概括并提取實(shí)體和屬性的語義關(guān)系,構(gòu)建相應(yīng)的數(shù)據(jù)庫,包含關(guān)鍵詞表、作者表、期刊表、引文表等。數(shù)據(jù)庫進(jìn)而篩選調(diào)用預(yù)處理層語義標(biāo)準(zhǔn)化后的數(shù)字資源,將關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)換成RDF格式,以RDF有向圖的形式描述和表達(dá)各種關(guān)系;借助固定的、普遍的詞匯集實(shí)現(xiàn)概念規(guī)范,形成立體的組織模式;最終采用XSLT和XPATH(W3C協(xié)會(huì)提供)語言實(shí)現(xiàn)XML的目錄層集成,實(shí)現(xiàn)相關(guān)信息檢索目錄的可視化。
(4)預(yù)處理層。該層次的任務(wù)是回應(yīng)語義分析層的需求,將數(shù)據(jù)庫所需篩選調(diào)用的文獻(xiàn)文檔預(yù)先進(jìn)行標(biāo)準(zhǔn)化處理。① 收集并整合館藏?cái)?shù)字資源,通過Spider實(shí)現(xiàn)任務(wù)分發(fā),借助CNKI、萬方、維普和其他收集整理模塊形成源數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。② 由于源數(shù)據(jù)存在格式不一致的問題,必須進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理,消除數(shù)字資源之間的異構(gòu)特性。為簡(jiǎn)化語義分析層的標(biāo)準(zhǔn)化步驟,省去不必要的麻煩,故在該層事先進(jìn)行數(shù)據(jù)預(yù)處理。將出處各異、結(jié)構(gòu)不同、格式不一、類型多樣的海量數(shù)字資源進(jìn)行統(tǒng)一描述,確定各獨(dú)立資源節(jié)點(diǎn)、知識(shí)要素之間的語義關(guān)聯(lián),保障其具有一致的標(biāo)準(zhǔn),為計(jì)算機(jī)識(shí)別與知識(shí)細(xì)粒度化提供便利。
其中,語義標(biāo)準(zhǔn)化的具體過程如下。① URI、U-nicode在整個(gè)語義Web結(jié)構(gòu)中處于最底層URI對(duì)Web上所有資源進(jìn)行統(tǒng)一描述,保證唯一標(biāo)識(shí)其中任意一個(gè)資源,借助鏈接實(shí)現(xiàn)資源的引用;Unicode為確保機(jī)器能有效地識(shí)別資源編碼而使用國際上的通用字符集。② XML為文檔提供結(jié)構(gòu)化的語法,借助URI實(shí)現(xiàn)引用標(biāo)識(shí),達(dá)到資源存儲(chǔ)方式的統(tǒng)一。③ RDF(S)是一種借助數(shù)據(jù)模型提供簡(jiǎn)單的語義資源描述框架,實(shí)現(xiàn)資源描述方式的一致化。④ 本體層通過提供確切的形式化語言,幫助準(zhǔn)確定義術(shù)語及術(shù)語間的關(guān)系。⑤ 邏輯、證明和信任。邏輯層主要負(fù)責(zé)推理規(guī)則,證明層注重認(rèn)證機(jī)制,信任層著重信任機(jī)制。⑥數(shù)字簽名的本質(zhì)是一段數(shù)據(jù)加密塊,是實(shí)現(xiàn)Web信任的關(guān)鍵技術(shù)和基礎(chǔ)。
(5)知識(shí)集成層。該層是實(shí)現(xiàn)基于語義的文獻(xiàn)資源發(fā)現(xiàn)服務(wù)體系與其他知識(shí)服務(wù)不同的關(guān)鍵所在。分別通過提取器、篩選器和包裝器三部分對(duì)檢索目錄中的資源進(jìn)行全文內(nèi)容提取、語義組別劃分和知識(shí)單元關(guān)聯(lián)匯總,最終提供給用戶匹配其檢索內(nèi)容的文獻(xiàn)資源PDF集成文檔。① 提取器借助由W3C協(xié)會(huì)提供的RDF和SOAP對(duì)檢索目錄中的資源實(shí)現(xiàn)全文內(nèi)容提取。進(jìn)而采用OntoBroker推理引擎對(duì)資源全文內(nèi)容進(jìn)行深度推理解析,動(dòng)態(tài)識(shí)別資源主題,包括關(guān)鍵詞和主題詞,集成資源的核心研究問題、主要研究方法以及主要技術(shù)與工具。作為一個(gè)面向?qū)ο蟮倪壿嬐评硐到y(tǒng),OntoBroker可以實(shí)現(xiàn)以數(shù)據(jù)庫現(xiàn)有知識(shí)為基礎(chǔ)提取新知識(shí)的功能。② 系統(tǒng)通過篩選器對(duì)提取器所得數(shù)據(jù)單元進(jìn)行篩選整合,將推理擴(kuò)展得到的內(nèi)容在層次深度、區(qū)域密度、概念屬性三方面進(jìn)行語義相似度計(jì)算,進(jìn)而實(shí)現(xiàn)資源相關(guān)度計(jì)算,并按專題、年份、作者或其他因素進(jìn)行語義組劃分,接著將相似文檔聚類成組。③ 通過包裝器,對(duì)同組別知識(shí)單元實(shí)現(xiàn)關(guān)聯(lián),采用K關(guān)聯(lián)/S關(guān)聯(lián)等技術(shù)過程中通過補(bǔ)充關(guān)鍵詞、對(duì)摘要和題名進(jìn)行切分詞處理等方式,實(shí)現(xiàn)對(duì)信息資源已有知識(shí)的發(fā)現(xiàn)與重組,進(jìn)而形成全新的知識(shí)元,完成深度聚類和數(shù)據(jù)關(guān)聯(lián)。
區(qū)別于傳統(tǒng)的聚合方式,基于語義關(guān)聯(lián)的知識(shí)聚合主要從數(shù)字資源的概念關(guān)系、引證關(guān)系、等級(jí)關(guān)系、映射關(guān)系等層面進(jìn)行語義分析,然后提取語義元數(shù)據(jù)與異構(gòu)信息接口,解決異構(gòu)數(shù)字資源之間的語義沖突,進(jìn)而實(shí)現(xiàn)基于語義關(guān)聯(lián)的知識(shí)聚合。同時(shí),突破篇名、作者、機(jī)構(gòu)、內(nèi)容知識(shí)單元、來源出版物和參考文獻(xiàn)等傳統(tǒng)題錄項(xiàng)之間的顯性關(guān)系構(gòu)建,借助語義消歧、關(guān)系約簡(jiǎn)及重構(gòu)等方式綜合了題目、目錄、關(guān)鍵詞、數(shù)據(jù)、主題詞、內(nèi)容等多種類型外部特征與語義元素之間的關(guān)聯(lián)方式,實(shí)現(xiàn)動(dòng)態(tài)、多維的知識(shí)關(guān)聯(lián)。
最后,借助文件打包器對(duì)聚合的文檔進(jìn)行匯總打包,實(shí)現(xiàn)智能、可視化知識(shí)獲取,將目標(biāo)資源的全文信息以PDF文檔格式條理化、可視化地呈獻(xiàn)給用戶。取代先前簡(jiǎn)單的檢索目錄,用戶即可獲得與其查詢內(nèi)容相匹配的文獻(xiàn)數(shù)字資源的全文信息PDF匯編文檔,以期給用戶帶來更加智能化、便利化、柔性化的文獻(xiàn)資源發(fā)現(xiàn)服務(wù)。
針對(duì)當(dāng)前數(shù)字文獻(xiàn)資源數(shù)據(jù)整體上不能實(shí)現(xiàn)互相關(guān)聯(lián),只能實(shí)現(xiàn)局部范圍內(nèi)組織的現(xiàn)狀,導(dǎo)致形成了大量分散、相互獨(dú)立的信息孤島。本研究專注探索如何借助語義Web技術(shù)對(duì)數(shù)字文獻(xiàn)資源進(jìn)行統(tǒng)一描述、統(tǒng)一匯編等問題,為完成打造一個(gè)能夠?qū)崿F(xiàn)語義功能的數(shù)字資源服務(wù)平臺(tái)的任務(wù),搭建了一個(gè)基于語義的文獻(xiàn)資源發(fā)現(xiàn)服務(wù)體系。該體系核心是基于語義元數(shù)據(jù)的構(gòu)建與關(guān)聯(lián)實(shí)現(xiàn)與檢索目標(biāo)信息相匹配的數(shù)字文獻(xiàn)資源的全文內(nèi)容PDF文檔匯編,替代當(dāng)前簡(jiǎn)單的檢索目錄。不可否認(rèn),語義Web的產(chǎn)生是搭建文獻(xiàn)資源發(fā)現(xiàn)服務(wù)體系的一個(gè)良好契機(jī),提供了預(yù)處理層的語義級(jí)支持。在此基礎(chǔ)上,本系統(tǒng)匹配更加自動(dòng)化、智能化的技術(shù),如,高精度的知識(shí)篩選聚合技術(shù)、深層次的推理技術(shù)、高水平的可視化技術(shù)等,解決了傳統(tǒng)數(shù)字文獻(xiàn)資源服務(wù)推薦過程中存在的無法充分挖掘資源語義信息等問題,為用戶提供更加便利化、柔性化的知識(shí)服務(wù)。基于語義的文獻(xiàn)資源發(fā)現(xiàn)服務(wù)提升了數(shù)字文獻(xiàn)資源的篩選利用與整合匯編的效率,為知識(shí)匯總與獲取提供了有效的途徑,保障用戶能夠高效率地知識(shí)選擇、知識(shí)摘錄、知識(shí)利用、知識(shí)轉(zhuǎn)化、知識(shí)表達(dá)和知識(shí)創(chuàng)新。