馬翠嫦 司徒俊峰 曹樹金
摘要:[目的/意義]隨著人們對檢索文檔之間關聯(lián)關系的理解越來越多樣化和細粒度化,檢索文檔內(nèi)信息單元間關聯(lián)關系的構建顯得越來越重要。本研究旨在以學術文檔內(nèi)信息單元間關聯(lián)關系為基礎,構建文檔的細粒度聚合與關聯(lián)機制。[方法/過程]本研究從跨體裁聚合單元知識體系所蘊涵的各類關聯(lián)關系出發(fā),從信息組在的角度闡述支持情景和語義關聯(lián)的細粒度聚合理論框架、知識組織系統(tǒng)構建和聚合單元元數(shù)據(jù)標注等關鍵問題,并提出聚合機制。[結果/結論]研究認為構建蘊含聚合單元語義關系、學科領域語義關系、任務和文本關系的本體,采用可反應聚合單元層級與關聯(lián)關系的聚合單元元數(shù)據(jù),是細粒度聚合機制發(fā)揮效用的關鍵。
關鍵詞:網(wǎng)絡文檔;學術資源;信息聚合;聚合機制;細粒度聚合;信息組織
DOl: 10 .3969/j .issn .1008 -0821 .2019 .12 .005
[中圖分類號] G203 [文獻標識碼]A [文章編號]1008-0821( 2019) 12-0037-09
無論是從Vannevar Bush提出的Memex到TimBerners-Lee提出的語義網(wǎng),從互聯(lián)網(wǎng)出現(xiàn)初期的超鏈接到最近的關聯(lián)數(shù)據(jù),在網(wǎng)絡信息發(fā)展的各個時期,人們從沒停止對網(wǎng)絡信息資源之間關聯(lián)關系的探索,使得人們對網(wǎng)絡資源之間關聯(lián)關系的理解越來越多樣化和細粒度化。因此,網(wǎng)絡環(huán)境下信息單元之間關聯(lián)關系的構建就顯得非常重要。
在網(wǎng)絡信息組織中,人們常常按照資源之間或資源與用戶之間的各類關聯(lián)關系進行組織。最基本的是按照學科領域概念間的語義關系進行組織,如分類法、主題法、學科領域本體等知識組織系統(tǒng)提供的概念間的語義關聯(lián)關系。與此相對,還可按照用戶需求與信息之間的關聯(lián)關系進行組織,如根據(jù)用戶需求進行相似網(wǎng)絡產(chǎn)品的組織與呈現(xiàn)。這兩種類型的關聯(lián)關系正好對應廣義和狹義的語義關聯(lián)關系一狹義的語義關系僅指概念間的語義關系,如王知津的定義[1],而廣義的語義關聯(lián)關系包含多種類型語義關系,如Assefa S G的定義[2]的包含概念間的語義關系和基于用戶需求的關聯(lián)關系。由于單純基于概念間關系的主題相關性檢索匹配只能從語義層面確保檢索結果的準確性,而無法完全確保這些信息對于用戶的有用性,因此廣義的關聯(lián)關系更有利于提高信息組織的效用。
語義網(wǎng)環(huán)境下,基于概念間語義關聯(lián)關系的知識發(fā)現(xiàn)、知識關聯(lián)、知識組織系統(tǒng)構建等網(wǎng)絡信息組織既有理論、方法與工具可為基于語義關系的知識組織提供良好的基礎,關聯(lián)數(shù)據(jù)理論和實踐的盛行使得基于語義關聯(lián)的網(wǎng)絡資源組織粒度由資源載體細化到數(shù)據(jù)、信息本身,再加上學術文獻內(nèi)部結構單元的識別和自動化分技術的發(fā)展(如:[3-5]),使得語義信息組織朝著細粒度方向發(fā)展。然而,基于用戶需求的資源之間的關聯(lián)關系研究基本停留在資源或文檔整體的層面,如基于用戶需求的文檔推薦或商品網(wǎng)頁推薦等,因此難以建立用戶需求與細粒度資源之間的關聯(lián),更不能實現(xiàn)面向用戶需求和概念語義關聯(lián)的廣義的語義關聯(lián)與聚合。
面向語義關聯(lián)關系的細粒度聚合,是指以通用的或特定領域的知識體系為基礎賦予資源語義,并根據(jù)語義關系對資源進行重新序化與組織,使原本分散的、異構的資源和資源的片段形成面向用戶需求的、具有一定知識結構的序化知識。為了進一步實現(xiàn)基于概念與用戶需求的學術文檔細粒度關聯(lián)與聚合,本文將面向細粒度聚合的網(wǎng)絡學術文檔內(nèi)不同層級的信息單元稱為聚合單元。作者在前期研究中探索了學術文檔聚合單元劃分的理論與方法,嘗試建立用戶需求與若干類體裁文檔聚合單元之間的關聯(lián)關系,但如何從信息組織和知識組織的角度構建基于概念語義關系和用戶需求的語義關聯(lián)與聚合機制?這一問題仍未得到回答。
為了解決這一問題,本文首先對聚合單元間關聯(lián)關系以及細粒度聚合相關理論進行梳理和總結,提出面向情景關聯(lián)與知識發(fā)現(xiàn)的細粒度聚合信息框架,進而探索細粒度聚合知識組織系統(tǒng)構建、聚合單元元數(shù)據(jù)語義標引等關鍵問題,最終提出聚合單元細粒度聚合的整體框架與機制。
1 理論基礎
1.1 體裁理論與聚合單元劃分
功能語言學中的體裁結構理論可為網(wǎng)絡文檔聚合單元的劃分提供面向用戶認知的普遍性基礎。網(wǎng)絡學術文檔按照體裁類型不同而有各自的社會交際目標(可理解為作者的寫作目的),遵循相應的語篇結構和話語意圖,這就使得資源除了具有基于主題的語義關聯(lián)關系外,同時也具有體裁交際目標所承載的結構化語言功能特征。例如:研究論文會包括摘要、引言、研究方法、研究結果、討論/結論等一系列規(guī)范的體裁結構規(guī)則。因此,網(wǎng)絡學術信息資源的知識組織中,除了可采用傳統(tǒng)的基于學科領域術語本體外,還可以進一步利用文檔體裁結構規(guī)則所蘊含的語義關系,從而實現(xiàn)語義關系更豐富的、更面向用戶需求的細粒度聚合。
體裁早期的利用源于知識組織領域,早至亞里士多德就認識到體裁對文獻分類的功能[6]。在圖書情報學領域,體裁被廣泛用于自動分類[7]、知識組織[8-10]、網(wǎng)頁設計[6,11]和信息搜尋[12-13]等方面。
Zhang L借鑒功能語言學家Swales關于體裁分析的理論和CARS模型[14],利用體裁形式和結構特征,對心理學領域的研究論文的語言功能單元進行劃分,探索信息使用任務與不同類型的語言功能之間的關系,從而輔助信息利用[15]。在此基礎上,Zhang L更探索了信息使用任務情境下不同類型語言功能之間的關系,從而為知識組織提供參考[10]。Ma C-C和Cao S-J則借鑒體裁分析的理論對網(wǎng)絡環(huán)境下的題錄摘要、期刊論文、網(wǎng)絡百科詞條和學術博客文章進行體裁層級和類型的劃分,建立了面向細粒度聚合的聚合單元分類體系[16]。
因而,體裁理論可為網(wǎng)絡學術文檔聚合單元的劃分提供理論與方法依據(jù):一方面可為聚合單元語言功能的解釋、語義的賦予和聚合應用乃至基于學科領域體裁知識的聚合單元知識模型構建奠定基礎;另一方面為聚合單元與用戶信息獲取任務的關聯(lián)構建、面向特定任務的聚合單元之間關聯(lián)關系的構建提供理論與方法基礎。
1.2 信息資源聚合
信息資源聚合研究探索信息資源之間的各類語義關聯(lián)關系,從而提高資源組織和利用效率。按照資源類型劃分,信息資源聚合研究面向館藏資源、微博、網(wǎng)絡商業(yè)信息等多種類型。這些研究中,對基于聚合單元的細粒度聚合具有較高參考價值的研究包括:聚合單元元數(shù)據(jù)研究、多粒度語義標注機制研究、多維語義聚合、深度聚合研究等。
曹樹金等構建面向聚合搜索的細粒度聚合單元元數(shù)據(jù),以深入描述聚合單元的特征及其關系,從而促進知識發(fā)現(xiàn)并提升知識服務效率。作者主張聚合單元元數(shù)據(jù)涵蓋訪問元數(shù)據(jù)、物理元數(shù)據(jù)和語義元數(shù)據(jù)。其中,訪問元數(shù)據(jù)包括標識符、關鍵詞、來源等核心元素以及標題、主要責任者、日期、語種等資源與篇章方面的個別描述元素;物理元數(shù)據(jù)包括聚合層級.存儲路徑等核心元素以及階段單元層級、圖表類型等個別描述元素;語義元數(shù)據(jù)則包括話語意圖和語義功能兩個元素。該研究雖然構建了聚合單元元數(shù)據(jù)的框架,但并不涉及細粒度聚合信息組織框架下聚合單元元數(shù)據(jù)的標注和組織問題[17]。
多粒度語義標注機制研究方面,朱嘉賢、白偉華與李吉桂提出信息元的概念,提出構建信息元本體和信息元知識體系,并按照樹狀組織結構組織網(wǎng)絡資源及其內(nèi)部文檔的內(nèi)容。其中,資源信息元的概念與本文關注的聚合單元元數(shù)據(jù)類似,是對相關內(nèi)容單元的信息描述,但該研究只要考慮網(wǎng)絡資源本身和網(wǎng)絡資源內(nèi)部文檔兩個粒度層級,并未對文檔內(nèi)部內(nèi)容進行進一步劃分[18]。
多維語義聚合相關研究主要包括面向館藏資源的聚合和面向網(wǎng)絡資源的聚合研究。面向館藏資源聚合的研究中,相關研究可包括:邱均平團隊研究了基于資源本體的館藏資源語義聚合,如:資源本體構建、語義化與存儲研究[19]、館藏資源語義化模型與技術研究[20]、資源本體構建理論研究[21]等,為基于主題以外的多維語義關系知識系統(tǒng)的構建與應用提供重要參考。何超等提出了基于本體的圖書館數(shù)字資源語義聚合與可視化模型,為圖書館數(shù)字資源的深度語義聚合提供語義知識的支持[22]。與之相似,歐石燕等提出一個基于本體與關聯(lián)數(shù)據(jù)的圖書館多類型異構文獻資源語義整合框架,實現(xiàn)語義網(wǎng)環(huán)境下圖書館資源的語義整合[23]。
在網(wǎng)絡資源語義聚合方面,相關研究主要針對資源特征探索聚合的工具和方法,相關研究可包括:微博文本的內(nèi)容、時間、空間、人物等多維度主題聚合[24]?;谡Z義關聯(lián)和情景感知的信息資源推薦研究等[25]。
通過基于細粒度聚合相關研究我們可知,語義網(wǎng)絡環(huán)境下,面向細粒度聚合的元數(shù)據(jù)和本體構建是實現(xiàn)多源異構資源整合、多粒度標注和語義聚合的基礎和關鍵。其中,信息單元本體和樹狀組織管理結構的多粒度語義標注研究可為聚合單元本體的構建及其組織提供理論和方法參考,聚合單元元數(shù)據(jù)為網(wǎng)絡資源細粒度聚合提供基本的描述框架,語義聚合相關研究則為各類語義關聯(lián)的發(fā)現(xiàn)、構建和應用提供參考。
2 信息組組織基本理論框架
2.1 情景關聯(lián)與知識發(fā)現(xiàn)
網(wǎng)絡資源細粒度聚合作為面向用戶的應用,在于按照用戶需求對網(wǎng)絡資源進行不同粒度的重組,從而更準確地滿足用戶信息獲取的需求并支持知識發(fā)現(xiàn)。
與廣義語義關聯(lián)關系對應,用戶信息獲取需求的滿足可在兩個層次上實現(xiàn),即:主題相關性性和資源的有用性。由于資源獲取的準確性是傳統(tǒng)信息檢索系統(tǒng)的核心,用戶查詢主題和資源描述主題的匹配在信息檢索研究中已有成熟的研究結論,可為信息聚合研究提供參考。而本文提出的信息聚合則在主題相關性的基礎上,進行聚合單元劃分及及其用戶任務情景的關聯(lián)的探索,從而提高信息的有用性,這就使得基于聚合單元的信息組織與呈現(xiàn)具備了情景性的要求。由于本體可為概念的匹配和關聯(lián)提供準確性和全面性的保障,因此基于聚合單元分類體系與其任務關聯(lián)屬性的聚合單元本體,可為細粒度聚合提供主題以外更豐富的依據(jù),使得聚合結果體現(xiàn)用戶和資源的情景和語義關聯(lián)。
在主題相關性和資源有用性的基礎上,學科領域本體支持概念匹配和相關性擴展,再加上聚合單元本體所賦予的聚合單元更豐富的語義和關聯(lián)關系,從而為細粒度信息單元的語義聚合提供更多的依據(jù),使聚合單元形成具有一定知識結構的新聚合體。由于這些聚合資源之間具有知識語義關聯(lián),可以通過多種聚合網(wǎng)絡來呈現(xiàn)資源之間的語義關聯(lián),并與用戶進行可視化的呈現(xiàn)和交互。因而可為新信息和新知識的發(fā)現(xiàn)提供可能,這就使得基于聚合單元的信息組織與呈現(xiàn)具備了支持知識發(fā)現(xiàn)的要求。
2.2 網(wǎng)絡學術文檔細粒度聚合的信息組織框架
在信息資源聚合相關研究的基礎上,本文著眼于網(wǎng)絡資源細粒度聚合對于情景關聯(lián)與知識發(fā)現(xiàn)的支持,提出網(wǎng)絡資源細粒度聚合的信息組織框架,包括:網(wǎng)絡學術文本的采集與預處理一主題與聚合單元識別一本體構建一資源描述一面向用戶語義與情境需求的聚合與呈現(xiàn)5個主要步驟,如圖1所示:
1)采集與預處理。對多源異構網(wǎng)絡資源進行基于主題和非主體特征的采集,在此基礎上完成細粒度聚合前的規(guī)范性描述。
2)主題與聚合單元識別。網(wǎng)絡資源聚合單元是聚合的主要對象,對于采集的網(wǎng)絡文檔須按其體裁規(guī)則進行識別和劃分,并對不同粒度的聚合單元進行主題識別,從而為資源的細粒度組織提供對象。
3)細粒度聚合本體構建。細粒度語義聚合需以本體作為語義描述和聚合處理的主要知識體系,如:聚合單元知識體系、學科領域知識體系、文檔與任務知識體系等。
4)語義標注。依據(jù)領域本體和聚合單元本體對聚合單元的語義進行標注。其中,通過聚合單元本體劃分細粒度聚合單元,通過領域本體,識別聚合單元的語義。每個聚合單元通過多個與之相關的概念進行標注,形成了一個多維、復合的語義概念。此外,通過聚合單元元數(shù)據(jù),可對聚合單元進行全面描述與索引。
5)聚合與呈現(xiàn)。將用戶需求語義空間與資源描述的語義空間進行語義匹配后,把滿足用戶需求的資源按照聚合單元之間的語義關系進行重組。聚合處理過程主要是語義匹配的過程,在此基礎上可采用多種模式進行可視化呈現(xiàn),并與用戶進行交互。
3 支持細粒度聚合的信息組織關鍵問題
由于細粒度聚合要求組織對象從文本整體細化到文本局部,且須建立各層級文本之間以及各層級文本與用戶需求之間的關聯(lián),這就要求信息組織理論與方法在細粒度知識組織系統(tǒng)構建、基于聚合單元元數(shù)據(jù)的標注與索引等關鍵環(huán)節(jié)進行適應性的改進和發(fā)展。
3.1 細粒度知識組織系統(tǒng)構建
按照網(wǎng)絡資源細粒度聚合的信息組織框架,支持細粒度聚合的知識組織系統(tǒng)除包括學科領域概念術語組成的面向主題聚合的知識體系,還應包括面向用戶需求的、任務情景關聯(lián)的聚合單元分類體系,此外還應建立面向文檔描述與組織的文檔本體,如圖2所示。
其中,學科領域知識體系的構建已有較為成熟的理論和方法,其概念之間的等級和非等級關系可從資源內(nèi)部的句法、共現(xiàn)、耦合等關系中識別建立。以下主要對知識體系的粒度特征、聚合單元知識體系的構建兩個主要方面,對細粒度聚合的信息組織理論與方法進行探討:
學科領域概念與聚合單元概念均具有粒度特征。對于領域概念粒度而言,其粒度按照概念間的知識關系與邏輯關系(如:屬分關系、包含與被包含關系等)劃分;對于聚合單元概念所反映的粒度而言,聚合單元按照上下級之間語言功能與語義上的包含與被包含關系劃分粒度層級。
在聚合單元知識體系方面,邱均平團隊提出基于非主題因素的資源本體的館藏資源語義聚合研究,可為本文中基于聚合單元關系的多維語義知識組織系統(tǒng)構建路徑提供參考。Ma C-C和Cao S-J借鑒體裁結構理論劃分網(wǎng)絡學術文檔的聚合單元,從而構建跨體裁類型的聚合單元分類體系。該研究利用體裁的結構規(guī)定性和多粒度特性,構建包含不同層級、不同類型體裁實例的概念體系;體裁的特定社會交際目標,使得不同層級和類型體裁實例之間存在語言功能上的關聯(lián)關系。由于用戶對于學術體裁的格式和內(nèi)容能產(chǎn)生相對一致的認識和期望,按照用戶對于聚合單元的認知,調(diào)查特定任務情景下體裁及體裁單元的有用性,可構建任務相關性知識體系[16]。因而細粒度聚合知識組織系統(tǒng)中包括用戶任務情景概念。
在概念間關系構建方面,按照細粒度體裁實例劃分聚合單元,所形成的聚合單元概念之間存在3種主要的關聯(lián)關系:一是同一體裁下圍繞特定交流目的的同組聚合單元之間的推進關系。同組聚合單元之間通過推進關系實現(xiàn)上級聚合單元的交際目標;二是用戶任務情景與各層級、各類型聚合單元之間的有用性差異形成的相關關系:三是圍繞特定任務情景而形成的體裁實例之間的關聯(lián)關系。如Zhang L的研究指出,在特定任務下,感知有用性程度高的語言功能單元之間實際上已經(jīng)存在相關關系,包括同一構內(nèi)的功能單元和不同構成間的功能單元。這些功能單元之間的關系,實際上可以通過語義關系來解釋,也就是這些聚合單元之間圍繞著某一任務,可以形成一定的語義關系[15],而任務下相關功能單元之間的關系更可形成語義相關的關系,從而幫助期刊論文內(nèi)功能單元的語義信息組織[10]。
可見,聚合單元知識體系的構建的關鍵在于:建立基于體裁理論的、反應用戶情景需求的聚合單元知識體系;對聚合單元分類體系的概念、概念之間關系和實例進行形式化,就可形成反應聚合單元知識體系的本體,從而支持對于文本信息單元的組織和檢索。
3.2 基于聚合單元元數(shù)據(jù)的標注與組織
聚合單元元數(shù)據(jù),是指聚合單元元數(shù)據(jù)框架下經(jīng)標注的文檔聚合單元,是標注與搜索的基本粒度單元。按照信息組織的基本理論,元數(shù)據(jù)是信息組織的重要工具。對細粒度聚合而言,對文檔粒度屬性的描述,對各層級聚合單元的描述和索引,乃至對聚合單元內(nèi)容間的關聯(lián)與利用,都依賴于元數(shù)據(jù)。因此,基于聚合單元元數(shù)據(jù)的標注與組織,是實現(xiàn)細粒度聚合的基礎。
本文以曹樹金等提出聚合單元元數(shù)據(jù)框架為主體[17],參考朱嘉賢、白偉華與李吉桂提出的基于資源信息元的組織方式[18],從聚合單元元數(shù)據(jù)標注的角度完善基于聚合單元元數(shù)據(jù)的語義標注與組織理論與方法。
聚合單元元數(shù)據(jù)的標注本質(zhì)上是元數(shù)據(jù)方案的形式化,便于計算機對元數(shù)據(jù)信息進行存儲、查找和處理。在確定元數(shù)據(jù)屬性元素集后,先利用關系數(shù)據(jù)庫系統(tǒng)實現(xiàn)標注元數(shù)據(jù)的查詢、管理功能,再進一步進行XML置標,即:在標注元數(shù)據(jù)與文檔聚合單元之間加一層基于XML的內(nèi)容管理層,以便于將來獨立于系統(tǒng)的長期保存、與其它系統(tǒng)的互操作等。
通過關系數(shù)據(jù)庫對不同層級的聚合單元進行標注,可按照聚合單元知識體系的層級構建篇章一章節(jié)一句群三層數(shù)據(jù)庫表,并按照聚合單元元數(shù)據(jù)的3類元素:物理元數(shù)據(jù)、訪問元數(shù)據(jù)和語義元數(shù)據(jù)設置數(shù)據(jù)表字段。其中,篇章數(shù)據(jù)庫表的主要字段應包括:Article ID. Title. Authors. Institution.Sources. Reference. Content. Last—Update. KeyWord、 Genre Type等。章節(jié)數(shù)據(jù)庫表的主要字段包括:Section_ID. Article ID. Section_beginning_loca-tion. Section_Length. Last_Update. Key Word andSection_Genre_Type等。句群數(shù)據(jù)庫表的主要字段包括:Unit_ID. Section_ID. Article_ID. Unit_be-ginning_ location、 Unit—Length、 Last—Update、 KeyWord and Unit_Genre_Type等。
通過3個數(shù)據(jù)表之間的關聯(lián),構建不同層級文本聚合單元之間的包含與被包含關系:數(shù)據(jù)表中標引的體裁類型信息(即聚合單元元數(shù)據(jù)中語義元數(shù)據(jù)類要素)與聚合單元本體中的聚合單元概念對應,使得不同體裁類型下不同層級聚合單元之間基于語言功能的語義關聯(lián)成為可能:數(shù)據(jù)表中標引的關鍵詞信息(即聚合單元元數(shù)據(jù)中訪問元數(shù)據(jù)包含的要素)與學科領域本體對應,使得各體裁下各層級聚合單元實現(xiàn)基于主題的語義關聯(lián)。3個層級聚合單元數(shù)據(jù)表及其之間的關聯(lián)關系如圖3所示:
通過XML對聚合單元元數(shù)據(jù)進行標注,可采用RDF/XML來描述元數(shù)據(jù)信息。RDF的基本數(shù)據(jù)模型是由三元體組成:資源( Resource)、屬性( Property)和陳述(Statement)。其中,資源是主語( Subject),屬性是謂詞(Predicate),屬性值則是對象( Object)[26]。使用RDF作為元數(shù)據(jù)的描述工具,可支持元數(shù)據(jù)進行語義互操作,這是細粒度聚合單元未來需要實現(xiàn)的,另一方面也可以與多種元數(shù)據(jù)進行交換不改變其語義。根據(jù)聚合單元元數(shù)據(jù)方案,以下以一個帶有圖文的句群級別聚合單元為例,來實現(xiàn)它的形式化描述。
<?xml version=”1.0”?>
xmlns: rdf= http: //www. w3. org/1999/02/22 - rdf-syntax-ns#
xmlns: ns= http: //www. sysu. edu.c n/2015/meta-dataaboutAS#>
Rdf: about=”http://www. sysu. edu. cn/2015/metadataaboutAS/Picture/A1 -P01>
圖片單元
片段
網(wǎng)絡環(huán)境下論文間的引用關系模型
A1_P 01
國外網(wǎng)絡引文研究的現(xiàn)狀及展望_1前沿
我們發(fā)現(xiàn),網(wǎng)絡環(huán)境下文獻發(fā)生了巨大變化,形成了傳統(tǒng)文獻(print,P)和網(wǎng)絡文獻(web,W)兩大類型。一方面,傳統(tǒng)的學術論文仍是人們進行學術交流的主陣地;另一方面,網(wǎng)絡資源和網(wǎng)絡交流手段以其無可比擬的優(yōu)點受到人們的青睞,其關系見圖1。
jpg
16K
框架圖
C:\Users\Administrator\Desktop\數(shù)據(jù)庫\圖片單元
在聚合單元對文檔進行聚合單元劃分后,采用自下而上的方法,借助聚合單元本體實現(xiàn)聚合單元元數(shù)據(jù)的語義標注。以聚合單元元數(shù)據(jù)為結點,邏輯上按照樹狀結構組織聚合單元知識庫,將相互關聯(lián)的聚合單元元數(shù)據(jù)最終構成的知識體系,從而為檢索和聚合提供基礎。
4 基于細粒度聚合本體的語義聚合與組織機制
在明晰細粒度聚合信息組織關鍵問題的基礎上,本文在語義網(wǎng)環(huán)境下討論網(wǎng)絡資源細粒度聚合機制,從信息組織的角度進一步完善網(wǎng)絡資源細粒度聚合的理論體系。語義網(wǎng)環(huán)境下,基于聚合單元本體、元數(shù)據(jù)等知識組織工具的細粒度語義聚合機制如圖4所示。
從圖4可見,在對網(wǎng)絡文檔資源進行聚合單元的劃分、抽取、元數(shù)據(jù)標注和索引后,通過細粒度聚合本體賦予聚合單元更豐富的語義關聯(lián)關系和情景關聯(lián)關系,從而支持用戶聚合語義相關的細粒度網(wǎng)絡文檔資源。
網(wǎng)絡文檔細粒度聚合既需要學科領域本體的支持,同時也需要任務情景關聯(lián)的聚合單元本體的支持。領域本體一方面可通過其概念體系更全面地、更多維地構建語義空間描述網(wǎng)絡資源;另一方面,依據(jù)領域本體中概念之間的各種等級和非等級的關系,建立資源之間的語義關聯(lián)網(wǎng)絡。通過本體提供的語義空間和語義關系,可進一步設計語義匹配算法,將資源和用戶的聚合檢索提問進行語義匹配,并根據(jù)匹配結果將相關資源重組成內(nèi)在語義關聯(lián)的聚合結果,通過可視化等形式呈現(xiàn)給用戶,以便用戶通過知識結構發(fā)現(xiàn)更多可能的、隱藏的新資源和新知識;聚合單元本體則可為網(wǎng)絡文檔信息單元的劃分、關聯(lián)關系構建提供知識參考,建立資源之間以及資源與用戶之間的語義關聯(lián)網(wǎng)絡,成為學科領域本體的補充。
在明晰語義關系的基礎上,對聚合單元、元數(shù)據(jù)和本體均通過RDF、XML或XML Schema進行標引,將其納入語義網(wǎng)體系結構框架內(nèi),從而實現(xiàn)語義網(wǎng)環(huán)境下的資源描述、組織與揭示。 從信息組織機制來看,聚合單元元數(shù)據(jù)與細粒度聚合本體通過不同類型索引數(shù)據(jù)庫的組織,為細粒度聚合提供支持。網(wǎng)絡文檔細粒度聚合的信息組織機制如圖5所示。
從圖5可見,網(wǎng)絡文檔細粒度聚合的機制始于不同層級聚合單元元數(shù)據(jù)的構建,而聚合單元元數(shù)據(jù)的構建則以細粒度聚合本體為基礎。對于網(wǎng)絡文檔原始信息,通過聚合單元元數(shù)據(jù)描述主文檔、構成單元和聚合單元3個層級的信息對象,從而形成主元數(shù)據(jù)文檔、構成單元元數(shù)據(jù)文檔和聚合單元元數(shù)據(jù)文檔。同時,根據(jù)細粒度聚合本體提供的不同層級聚合單元之間的包含與被包含關系、同組內(nèi)聚合單元之間的語義推進關系、學科領域概念之間的等級關系、相關關系、學科領域概念與聚合單元之間的描述關系,任務情景與聚合單元之間的不同強度的相關關系、文檔與聚合單元之間的描述關系等,構建聚合關系索引。
為了支持多途徑快速檢索,根據(jù)聚合檢索元數(shù)據(jù)項構建檢索點,按照檢索點對元數(shù)據(jù)文檔進行關鍵字段的抽詞、排序、歸并、裝配倒排文檔,從而建立多組面向不同層級聚合單元的倒排文檔和倒排文檔索引。
用戶向聚合系統(tǒng)提出聚合檢索需求后,系統(tǒng)將其檢索需求映射到檢索元數(shù)據(jù)中,并從細粒度聚合本體獲得語義關系和關聯(lián)關系。系統(tǒng)按照檢索元數(shù)據(jù)對各層級聚合單元的各組倒排檔索引進行檢索,按照聚合關系索引實現(xiàn)在不同層級和不同維度的聚合單元之間進行跳轉,從而實現(xiàn)高效的多維度和細粒度聚合。
可見,要實現(xiàn)基于聚合單元分類體系的情景關聯(lián)和語義關聯(lián)的細粒度聚合,構建蘊含聚合單元語義關系、學科領域語義關系、任務與文本關系的細粒度聚合本體是關鍵。
5 討論
語義網(wǎng)環(huán)境下,網(wǎng)絡資源之間的關聯(lián)關系更復雜多樣,網(wǎng)絡資源識別、組織與利用的粒度更加細化,基于網(wǎng)絡文檔主題概念的語義關聯(lián)關系已經(jīng)不能完全滿足用戶需求。本文在基于主題的關聯(lián)關系的基礎上,提出利用用戶與多粒度體裁實例間關聯(lián)關系實現(xiàn)資源重組的信息組織路徑,以實現(xiàn)情景與語義關聯(lián)的細粒度聚合:按照語篇體裁結構劃分聚合單元,以建立用戶與聚合單元之間的關聯(lián)關系為突破口,構建反應聚合單元知識體系及其與用戶需求關聯(lián)的細粒度聚合本體和與相應的聚合單元元數(shù)據(jù),從而形成支持面向用戶特定情景的、支持知識發(fā)現(xiàn)的細粒度聚合機制。
該研究不僅能推動網(wǎng)絡學術資源細粒度聚合趨勢下信息組織和知識組織理論的完善和發(fā)展,還可豐富網(wǎng)絡學術資源細粒度聚合的理論。實踐上,結合聚合單元知識體系、聚合單元元數(shù)據(jù)相關研究成果,本研究可為各學科領域網(wǎng)絡資源細粒度聚合的實現(xiàn)提供整合的路徑和方法,從而提供學科領域信息資源組織與利用的效率與效用。
該研究明晰了細粒度聚合本體構建的必要性、可行性與本體構建的目標,因而,后續(xù)研究可進一步探索反應聚合單元之間,聚合單元與用戶之間以及聚合單元與源文檔之間多維語義關系的細粒度聚合本體,提高網(wǎng)絡學術文檔細粒度聚合的效用。
參考文獻
[1]王知津,鄭悅萍,信息組織中的語義關系概念及類型[J].圖書館工作與研究,2013,(11):13-19.
[2] Assefa S G.Human Concept Cognition and Semantic Relations inthe Unified Medical Language System: A Coherence Analysis[D].
University of North Texas, 2007.
[3]王佳敏,陸偉,劉家偉,等,多層次融合的學術文本結構功能識別研究[J].圖書情報工作,2019, 13:1-10.
[4]于豐暢,陸偉.基于機器視覺的PDF學術文獻結構識別[J].情報學報,2019, 38 (4):384-390.
[5]方龍,李信,黃永,等.學術文本的結構功能識別——在關鍵詞自動抽取中的應用[J].情報學報,2017, 36 (6):599- 605.
[6] Santini M, MehlerA,SharoffS. Riding the Rough Waves of Cenreon the Web: Concepts and Research Questions[ A]. In MehlerA, Sharoff S,&Santini M(Eds.), Cenres on the Web: Com-putational Models and Empirical Studies. Dordrecht, The Nether-lands: Springer, 2010: 3-30.
[7] Montesi M, Navarrete T.Classifying Web Cenres in Context:ACase Study Documenting the Web Genres Used by a Software Engi-neer[J]Information Processing and Management, 2008, 44:1410-1430.
[8] Crowston K,Kwasnik,B H.Can Document-Genre Metadata Im-prove Information Access to Large Digital Collections?[J]LihraryTrends, 2003, 52: 345-361.
[9] Nahotko M.Text Genres in Information Organization[C]//lnfor-mation Research, 2016, 21(4):732. http://lnformationR.net/ir/21 -4/paper732.html,
2019-05 - 04.
[10] Zhang L Linking Information through Function[ J]. Journal ofthe American Society for Information Science and Technology,2014, 63 (3):469-480.
[11] Vaughan M W, Dillon A.Leaming the Shape of Information:ALongitudinal Study of Web-News Reading[A].In Numberg P J,Hicks D L,F(xiàn)urutaR.(Ed.). Proceedings of the Fifth ACM Con-ference on Digital Libraries, New York: ACM, 2000: 236-237.
[12] Freund L.A Cross-Domain Analysis of Task and Cenre Effects onPerceptions of Usefulness[ J]. Information Processing and Man-agement, 2013, 48 (5):1108-1121.
[13] Hajibayova L,Jacob E K.An Investigation of the Levels of Ah-straction of Tags Across Three Resource Genres[J].InformationProcessing&Management, 2016. 52 (6): 1178-1187.
[14] Swales J M. Genre Analysis: English in Academic and ResearchSettings[M].Cambridge, UK: Cambridge University Press,1990.
[15] Zhang LGrasping the Structure of Joumal Articles: Utilizing theFunctions of Information Units [J]. Journal of the American Societyfor Information Science and Technology, 2012, 63 (3): 469-480.
[16] Ma C - C, Cao S -J. ldentifying Structural Genre ConventionsAcross Academic Web Documents for Information Use[A].Pro-ceedings of the Association for Information Science&Technology,Washington, 2017, 54 (1): 260-267.
[17]曹樹金,李潔娜,王志紅,面向網(wǎng)絡信息資源聚合搜索的細粒度聚合單元元數(shù)據(jù)研究[J].中國圖書館學報,2017, 43(4):74-92.
[18]朱嘉賢,白偉華,李吉桂.Web資源的多粒度語義標注及其應用技術研究[J].計算機科學,2011, 38(8):83-87.
[19]邱均平,樓雯,余凡,等,基于資源本體的館藏資源語義化研究[J]圖書館論壇,2013,33 (6):1-7.
[20]樓雯.館藏資源語義化關鍵技術及實證研究[J].中國圖書館學報,2013,39 (6):27-40.
[21]邱均平,楊強,樓雯.資源本體構建理論與實證研究[J].情報理論與實踐,2014,37 (5):1-6.
[22]何超,張玉峰.基于本體的館藏數(shù)字資源語義聚合與可視化研究[J].情報理論與實踐,2013,36 (10):73-76,39.
[23]歐石燕,胡珊,張帥.本體與關聯(lián)數(shù)據(jù)驅(qū)動的圖書館信息資源語義整合方法及其測評[J].圖書情報工作,2014,58(2):5-13.
[24]成全,周蘭芳,面向語義關聯(lián)的微博信息多維主題聚合研究[J].情報理論與實踐,2018,41 (7):136-142.
[25]李楓林,陳德鑫,梁少星,基于語義關聯(lián)和情景感知的個性化推薦方法研究[J].情報雜志,2015,34 (10):189-195.
[26] RDF Primer[ EB/OL] http://www.w3.org/TR/2004/REC-rdf -primer-20040210/,2019-05-04.
(責任編輯:孫國雷)
收稿日期:2019-09-21
基金項目:中央高校基本科研業(yè)務費項目“支持跨學科知識發(fā)現(xiàn)的學術論文信息單元識別與聚合研究”(項目編號:17wkpy56);國家社會科學基金重大項目“基于特定領域的網(wǎng)絡資源知識組織與導航機制研究”(項目編號:12&ZD222)。
作者簡介:馬翠嫦(1981-),女,副研究館員,研究方向:信息組織與行為、資源建設。司徒俊鋒(1980-),男,副研究館員,研究方向:信息組織、知識組織。曹樹金(1962-),男,教授、博士生導師,研究方向:信息組織與行為。