肖璐 孫建軍
摘要:[目的/意義]目前已有多個國家項目圍繞知識聚合開展了一系列深入研究?;诟黜椖恳寻l(fā)表論文.以項目為粒度系統(tǒng)化地歸納已有知識聚合研究進展,不僅可以揭示國內主要項目團隊的研究特色,還能歸納出知識聚合在研究開展層面上的一般共性。[方法/過程]本文對2011年以來我國圖書情報領域涉及知識聚合的國家項目所發(fā)的多篇論文進行了比較分析,歸納出9個國家項目在概念關聯(lián)(含領域本體)、關聯(lián)數(shù)據(jù)、分眾分類、用戶、社會網(wǎng)絡分析、文獻計量6種視角下的特色。[結果/結論]從研究共性上看,知識聚合的資源、方法及其所依據(jù)的知識關聯(lián)均呈多維化發(fā)展,知識聚合所依據(jù)的知識關聯(lián)向領域化與細粒度化發(fā)展。
關鍵詞:知識聚合;項目分析;圖書情報學;研究視角;研究進展
DOl:10.3969/j.issn.1008-0821.2019.01.004
[中圖分類號]G254 [文獻標識碼]A [文章編號]1008-0821(2019)01-0029-08
網(wǎng)絡信息技術的發(fā)展,促進了資源的增長與流動,但同時加劇了資源的“碎片化”利用問題,嚴重制約了用戶獲取與利用資源的效率。知識聚合旨在以資源內外部特征的語義揭示為基礎,充分挖掘資源內部知識單元的關聯(lián),從而重新組織資源使之符合用戶認知習慣與知識利用規(guī)律。在當前網(wǎng)絡環(huán)境下,知識聚合是解決資源利用問題的重要方法。
知識聚合是圖書情報領域(下文稱“圖情”)的核心問題,已連續(xù)多年有國家級科研項目圍繞知識聚合開展,其中不乏重大、重點級項目。盡管目前已有不少學者對圖情領域知識聚合相關研究進行梳理,但對于項目團隊粒度的研究特色揭示尚未有人開展。實際上,以項目為粒度進行分析,更有助于從整體層面上厘清我國當前圖情領域知識聚合研究特點,探析領域內重要研究團隊在研究思路和問題解決上的特色,由此與已有綜述研究所側重的微觀分析形成互補。基于項目特色這一新視角,本文以國家自然科學基金(下文稱“自科”)與國家社會科學基金(下文稱“社科”)項目為對象,以項目已發(fā)表論文為基礎,對其研究特色進行梳理和分析,以期明晰該領域國內研究現(xiàn)狀與特點。
1知識聚合國家級項目統(tǒng)計及其研究視角歸納
國家自科與社科基金項目代表國內高水平研究,對其中相關項目統(tǒng)計分析可初步探析知識聚合在圖情領域受關注程度及主要研究方向;對其已發(fā)論文進行反推分析,則可歸納各項目的研究視角,進而作為厘清我國知識聚合研究主要模式與特點的基礎。
1.1知識聚合國家項目統(tǒng)計
綜合利用國家社科基金項目數(shù)據(jù)庫與科學基金網(wǎng)絡信息系統(tǒng),查詢國家社科與自科項目題目中包含“聚合”+“知識”、“聚合”+“資源”、“聚合”+“信息”的項目,考慮自科項目查詢系統(tǒng)特點,檢索類目包括“信息資源管理”、“圖書情報檔案管理”、“科學計量學與科技評價”、“信息系統(tǒng)與管理”、“信息系統(tǒng)及其管理”、“知識管理”、“數(shù)據(jù)挖掘與商務分析”,得到如表1所示的結果。根據(jù)表1可知,自2011年,每年都有關于知識聚合的國家級項目立項,共16個,包括3個社科重大、1個社科重點、2個社科年度、6個社科青年、3個自科與1個自科青年。
1.2知識聚合國家項目研究視角歸納
知識聚合的開展需要一定的聚合依據(jù),例如用戶關系、資源語義關聯(lián)等。已有研究項目的聚合依據(jù)存在差異,即使采用同類聚合依據(jù)的不同項目之間,其關注的側重點也可能不一樣。因此可將項目研究中知識聚合開展的依據(jù)作為探析項目特色的研究視角。以研究視角為切入點,對項目進行歸納統(tǒng)計,有助厘清領域研究脈絡,發(fā)現(xiàn)各研究項目的特色和一般共性。對表1所列項目發(fā)表的論文進行歸納,可得到表2所示結果。由于論文發(fā)表具有滯后性,這里僅對2014年之前立項項目的研究視角分析。此外,論文包含多個項目時,將論文作者與項目負責人匹配,計入最為匹配項目的成果。
2知識聚合國家項目的研究特色視角分析
利用中國知網(wǎng)與萬方數(shù)據(jù)庫檢索表2中9個項目所發(fā)表論文,按照6個主要研究視角進行詳細分析,以梳理知識聚合研究現(xiàn)狀、明晰相關研究的重點與趨勢。
2.1基于概念關聯(lián)(含領域本體)視角的知識聚合研究
概念關聯(lián)可從不同角度表征知識語義關系.為知識語義聚合提供背景知識,輔助資源語義化描述、語義相似度計算、潛在關聯(lián)挖掘等。相關項目研究主要集中在:概念抽取與概念關聯(lián)挖掘;概念關聯(lián)網(wǎng)絡分析;領域本體構建:基于領域本體的資源語義化與聚合策略設計。具體如表3所示。
1)概念抽取與概念關聯(lián)挖掘。概念抽取方面,項目8中夏立新等改進了傳統(tǒng)基于形式概念分析與描述邏輯的概念提取方法。項目11中胡昌平等采用定量方法論證共詞分析中僅利用詞頻抽取的關鍵詞難以全面表征領域知識?;诖?,胡昌平等與陳果等考慮將分析領域融入更大背景學科中,分別提出采用詞語貢獻度與領域度、熱度指標抽取特征。項目10中蔣婷等綜合利用語言學與統(tǒng)計學方法,先利用語言學知識挖掘語術詞性組合模板,并采用支持向量回歸機構建術語概率預測模型。項目14中余凡等基于概念相關性、上下文與領域特性設計三層遞進概念篩選流程,從文本與敘詞表中提取領域概念。顏端武等提出利用N-gram復合分詞抽取領域概念。
概念關聯(lián)挖掘方面,項目10中王昊等采用形式概念分析抽取術語層次關系。蔣婷等根據(jù)文獻結構特點挖掘概念非等級關系,并且設計包含術語類型提取、等級關系概念對識別等步驟在內的本體概念等級關系抽取方法。項目15中夏立薪等利用敘詞表改進詞間關聯(lián)度計算算法。項目14中余凡等分別采用改進的相似度計算方法與自定義語法規(guī)則、改進關聯(lián)規(guī)則進行文本等級關系與非等級關系抽取。
2)概念關聯(lián)網(wǎng)絡分析。項目11中陳果等以“數(shù)字圖書館”、“信息服務”與“知識管理”3個領域為例,分析科研領域關鍵詞網(wǎng)絡的整體結構與節(jié)點特征。胡昌平等利用社會網(wǎng)絡分析中的K-core值對知識網(wǎng)絡進行層次劃分,實現(xiàn)知識網(wǎng)絡微觀層次分析。
3)領域本體構建。領域本體構建研究開展較早,資源聚合項目中較少直接涉及。但針對館藏資源語義化與聚合,項目14的學者提出計量本體與資源本體概念,解決領域本體僅涉及某一領域內概念,無法滿足館藏資源多學科聚合需求。除此之外,張玉峰等利用本體工程與敘詞表技術,復用已有本體,構建軟件企業(yè)領域本體。項目12中畢強等利用維基百科中類別信息進行計算機科學的領域本體構建。項目9中張晗等以圖書館服務性資源為對象構建服務本體。
4)基于領域本體的資源語義化與聚合策略。資源語義化方面,項目12中徐坤等利用本體對科學數(shù)據(jù)進行語義化描述與組織,提高數(shù)據(jù)的機器可讀與可理解性。鮑玉來等利用領域本體對分散、異構的開放存取資源進行語義集成檢索。
聚合策略方面,項目12中畢強等、14中何超等與項目15中李勁等分別基于領域本體與集成本體開展了館藏資源深度語義聚合研究。
2.2基于關聯(lián)數(shù)據(jù)視角的知識聚合研究
由于關聯(lián)數(shù)據(jù)采用RDF對資源本身及其關聯(lián)進行描述,在一定程度上實現(xiàn)資源及其關聯(lián)的語義化,有學者認為可將關聯(lián)數(shù)據(jù)看作是高度規(guī)范的“本體”。相關項目研究主要集中在:關聯(lián)數(shù)據(jù)創(chuàng)建、發(fā)布與本體映射;基于關聯(lián)數(shù)據(jù)的資源聚合策略。具體如表4所示:
1)關聯(lián)數(shù)據(jù)創(chuàng)建、發(fā)布與本體映射。傳統(tǒng)粗粒度對象關聯(lián)數(shù)據(jù)創(chuàng)建與發(fā)布研究較為成熟,資源聚合項目主要針對細粒度對象開展。項目15中王忠義等分別對數(shù)字圖書中層與深層關聯(lián)數(shù)據(jù)創(chuàng)建與發(fā)布開展分析,前者以目錄數(shù)據(jù)為對象,綜合利用主題詞映射、文本匹配等技術進行資源結構化表示與關聯(lián)挖掘;后者基于分布式人類計算構建對應架構與平臺,促進不同地域專家協(xié)同工作。此外,針對數(shù)據(jù)集關聯(lián)數(shù)據(jù)創(chuàng)建主要考慮數(shù)據(jù)集之間關聯(lián)而忽略數(shù)據(jù)集內部關聯(lián),王忠義等提出利用推導傳遞法挖掘內部關聯(lián),該方法對于多類型關聯(lián)挖掘有較高適用性。項目8中夏立新等利用BIBFRAME對科技報告進行關聯(lián)數(shù)據(jù)化處理。
基于關聯(lián)數(shù)據(jù)的數(shù)據(jù)集常利用本體進行數(shù)據(jù)描述,導致數(shù)據(jù)集之間異構嚴重,關聯(lián)表征受到影響,項目13中潘有能等考慮采用本體映射技術解決該問題,提出以WordNet為外部知識庫輔助計算概念相似度,并通過設定閾值完成概念到本體的映射。
2)基于關聯(lián)數(shù)據(jù)的資源聚合策略。項目12中牟冬梅等總結關聯(lián)數(shù)據(jù)在數(shù)字資源多維度、多層次及深度聚合上的優(yōu)勢,提出包含系統(tǒng)內外資源、多粒度資源等在內的資源聚合策略。項目8中夏立新等將關聯(lián)數(shù)據(jù)集抽象為分析單元,構建對應網(wǎng)絡,采用復雜網(wǎng)絡理論分析其網(wǎng)絡結構以提高關聯(lián)數(shù)據(jù)利用效率。項目10中孫建軍等在對關聯(lián)數(shù)據(jù)應用于學科網(wǎng)絡資源深度聚合可行性分析基礎上,提出具體聚合框架,設計關聯(lián)數(shù)據(jù)發(fā)布流程。項目13中丁楠等基于關聯(lián)數(shù)據(jù)構建了包含數(shù)據(jù)層、聚合層與應用層在內的政府信息聚合模型,以美國政府關聯(lián)數(shù)據(jù)集為基礎進行驗證實驗。
2.3基于分眾分類視角的知識聚合研究
分眾分類是一種以用戶為中心的分類方法,對數(shù)量巨大、碎片化程度高的網(wǎng)絡資源有較高適用性,是網(wǎng)絡資源組織與聚合研究中常用數(shù)據(jù)源。標簽是分眾分類重要元素,為資源語義描述與關聯(lián)挖掘提供數(shù)據(jù)基礎,相關項目大多以其為研究對象,主要包括:標簽語義關聯(lián)研究;基于標簽網(wǎng)絡的研究;基于標簽的資源聚合研究。具體如表5所示:
1)標簽語義關聯(lián)研究。項目12中黃微等利用共現(xiàn)原理設計關聯(lián)標簽語義距離計算算法,通過逐層統(tǒng)計目標標簽與關聯(lián)標簽共現(xiàn)關系,定量衡量標簽語義關聯(lián)。畢強等將關聯(lián)標簽思想引入標簽云,通過對用戶標簽網(wǎng)絡定量分析,挖掘網(wǎng)絡子群,構建具有表征語義關聯(lián)能力的標簽云。項目15中程秀峰等綜合利用標簽與社會網(wǎng)絡分析技術改進計算舞蹈類非物質文化遺產資源關系強度,挖掘資源潛在關聯(lián)。
2)基于標簽網(wǎng)絡的研究。項目12中滕廣青等利用復雜網(wǎng)絡中心性指標研究用戶標簽網(wǎng)絡緊密性。項目15中夏立新等通過對非遺圖片關聯(lián)標簽與共標簽網(wǎng)絡中心性與群聚性分析,挖掘資源主題特征。
3)基于標簽的資源聚合研究。項目12中畢強等綜合運用標簽云與社會網(wǎng)絡分析對社會化標注系統(tǒng)進行資源聚合研究,并引入本體與主題詞表描述標簽語義與層級關聯(lián)。
2.4基于用戶視角的知識聚合研究
用戶視角主要用于網(wǎng)絡社區(qū)資源,通過對用戶行為與關系分析,獲取知識認知與利用規(guī)律,實現(xiàn)知識利用角度的資源聚合。由于加入用戶因素,該類聚合有助于資源潛在關聯(lián)挖掘。相關項目研究主要集中在:用戶行為與關系研究;知識服務與共享研究。具體如表6所示:
1)用戶行為與關系研究。項目11中胡昌平等利用結構方程模型對高校圖書館信息共享空間的用戶交互學習行為與虛擬知識社區(qū)中用戶關系對知識共享行為的影響進行分析,前者運用了擴展技術接受模型,后者構建了包含個人、情境、知識及成員行為4個維度的影響因素模型。林鑫等分析用戶認知對標簽使用的影響,實證得出認知難度與認知風格都會對標簽使用行為產生顯著影響。胡潛等對比社會化標注系統(tǒng)中基于用戶標簽與基于用戶行為兩種興趣建模方式,認為基于行為的傳統(tǒng)興趣建模效果優(yōu)于基于標簽的建模。
2)知識服務與共享研究。知識服務方面,相關研究主要集中在用戶滿意度與使用意向上。除此之外,項目11中王鵬程等將社交網(wǎng)絡服務融入圖書館信息服務平臺中,構建包含圖書評價與學科建設交流模塊在內的系統(tǒng)架構。胡昌平等基于技術接受模型與“感知交互性”設計了可用于社會化推薦服務的用戶體驗模型。
知識共享方面,項目16中張敏等與程莉等分別對微信中知識共享行為與威客中知識共享模式進行分析。蔡小筱等從個人、人際與社區(qū)人手綜合分析影響虛擬學術社區(qū)知識共享的各種因素。
2.5基于社會網(wǎng)絡分析視角的知識聚合研究
社會網(wǎng)絡分析以社會網(wǎng)絡中的結點及其關系為研究對象,通過定量分析,探析網(wǎng)絡整體結構、挖掘關鍵結點、發(fā)現(xiàn)子群網(wǎng)絡。構建不同粒度資源網(wǎng)絡是資源聚合基礎,重點關注網(wǎng)絡關聯(lián)結構的社會網(wǎng)絡分析方法則為基于資源網(wǎng)絡的多維度語義聚合研究提供新視角。具體如表7所示:
社會網(wǎng)絡分析直接應用于資源聚合研究時間較晚,涉及該視角的研究較少。首先,項目12中鄧君等以數(shù)字資源聚合領域的關鍵詞共現(xiàn)網(wǎng)絡為基礎對社會網(wǎng)絡分析工具Ucinet與Gephi對比分析,認為Ucinet在多重關系的大量數(shù)據(jù)上適用性更高,Gephi在動態(tài)數(shù)據(jù)處理方面性能更強。其次,姜毓鋒等以專利說明書中的“發(fā)明名稱”為數(shù)據(jù)源挖掘專利之間關聯(lián),構建專利關聯(lián)網(wǎng)絡,利用社會網(wǎng)絡分析中的網(wǎng)絡結構、節(jié)點度及結構洞分析對其進行聚合研究。再者,黃微等通過用戶顯性知識挖掘用戶關系,利用社會網(wǎng)絡分析方法挖掘用戶子群與核心用戶,完成用戶隱性知識發(fā)現(xiàn)與推送。項目8中易明等認為網(wǎng)絡分析包含網(wǎng)絡結構計量分析與網(wǎng)絡動態(tài)演化分析,通過對社會化標簽系統(tǒng)中社會網(wǎng)絡進行內生與外生演化動力分析,構建對應網(wǎng)絡知識推送網(wǎng)絡演化模型。夏立新等基于用戶、資源的異質網(wǎng)絡關聯(lián),綜合考慮情感分析等其他方法,進行用戶與資源的多維度推薦研究。
2.6基于文獻計量視角的知識聚合研究
由于文獻計量主要以文獻內外部特征為分析對象,因此該方法主要運用于館藏資源聚合研究。該視角研究主要由項目14的研究團隊采用。
共現(xiàn)與耦合是該視角資源聚合最??紤]的兩種關聯(lián)。首先,邱均平等分別利用作者共被引及文獻作者、關鍵詞之間單一與交叉共現(xiàn)關系開展館藏資源深度聚合研究,設計具體聚合流程與模型。瞿輝等利用共詞分析技術進行館藏資源聚合,引入主題圖來提高傳統(tǒng)共詞分析的語義化程度。其次,邱均平等與趙蓉英等基于耦合關聯(lián)進行資源聚合研究。邱均平等綜合考慮共現(xiàn)與耦合兩種關聯(lián)構建包含數(shù)據(jù)層、分析層、聚合層與表示層在內的針對8種館藏資源的聚合模型。
值得一提的是,除了上述6個主要研究視角,學者還嘗試利用其它視角開展聚合研究,由于這些視角下的研究論文尚未形成體系,這里不再詳述。
3知識聚合研究的共性特點分析
分析表1中所列項目研究成果,總結當前知識聚合共性特點,主要包括:
3.1知識聚合向多維度方向發(fā)展
網(wǎng)絡環(huán)境下資源生產方式與交流渠道增加,為深入知識服務提供了數(shù)據(jù)保障,但傳統(tǒng)單一維度的聚合方式無法有效將多源數(shù)據(jù)轉化成可為用戶直接利用的知識,影響知識服務效果。多維度聚合以用戶需求為基礎,考慮資源類別、關聯(lián)類型、聚合方法之間差異,從不同維度聚合分析,綜合多維度分析結果,滿足新環(huán)境下知識服務需求。經總結筆者將其歸為3類:1)聚合資源的多維化。聚合資源除了包括文本數(shù)據(jù)外還包括網(wǎng)頁鏈接、用戶行為等非本文數(shù)據(jù),綜合挖掘可提高知識聚合的廣度。2)聚合方法的多維化。概念關聯(lián)、關聯(lián)數(shù)據(jù)、社會網(wǎng)絡分析等聚合方法有各自優(yōu)點與缺點,綜合運用優(yōu)勢互補,可提高知識聚合的深度。3)聚合所依據(jù)知識關聯(lián)的多維化。類型多樣的知識關聯(lián)從不同角度表征資源語義關系,例如標簽共現(xiàn)關聯(lián)與領域本體等級關聯(lián)分別從用戶角度與客觀角度表征知識關聯(lián)。融合多種關聯(lián)構建更全面知識關聯(lián)網(wǎng)絡,可提高知識聚合的語義程度。
3.2知識聚合的語義關聯(lián)向領域化與細粒度化發(fā)展
基于資源內在關聯(lián)的語義聚合解決了傳統(tǒng)關注資源內外部特征,無法從知識關聯(lián)層面聚合資源的不足。構建關系明晰的概念關聯(lián)網(wǎng)絡是知識語義聚合基礎,人工構建工程浩大、費時費力,利用語法規(guī)則或機器學習的半自動化構建成為研究主流。設計適用于多數(shù)領域的概念關聯(lián)網(wǎng)絡自動或半自動構建方法是圖情領域研究熱點。但隨著研究深入發(fā)現(xiàn),不同領域之間資源結構差異較大,根據(jù)領域特點設計針對性關聯(lián)網(wǎng)絡構建方案更為可靠,與之對應相關項目中逐漸出現(xiàn)融入學科背景的概念與概念關聯(lián)抽取方法,取得較好效果。
已有項目的開展中.概念的共現(xiàn)關系是挖掘概念關聯(lián)的重要依據(jù),通過統(tǒng)計共現(xiàn)次數(shù)可定量計算概念關聯(lián)強度,但僅根據(jù)共現(xiàn)關系無法獲取概念關聯(lián)類型,基于此構建的關聯(lián)網(wǎng)絡無法真實反映客觀世界知識關聯(lián)。有學者提出將具有明確關聯(lián)類型的概念網(wǎng)絡(如本體)與概念共現(xiàn)網(wǎng)絡相融合的方法,將共現(xiàn)網(wǎng)絡轉化為有明確關聯(lián)類型表征能力的知識網(wǎng)絡,支持知識細粒度語義聚合。
4小結
網(wǎng)絡環(huán)境下資源數(shù)量迅速增長,知識聚合研究重要性更加突顯。近年來學者嘗試了多種聚合方法,研究成果較為零散,有必要對其進行梳理與總結。國家自科與社科項目代表國內高水平研究,目前已連續(xù)多年均有國家級科研項目圍繞知識聚合開展。本文首先對2011年以來我國圖情領域與知識聚合相關的國家項目進行統(tǒng)計分析,總結出6個項目特色視角;其次重點分析2014之前立項的9個國家項目,根據(jù)其所發(fā)表論文,分析各個項目研究視角,探析主要項目團隊的研究特色;然后以知識聚合的特色視角為維度,對9個國家項目的多篇論文進行歸納分析,明晰6個特色視角下知識聚合研究現(xiàn)狀;最后總結已有知識聚合研究的共性特征,認為聚合內容、方法及依據(jù)知識關聯(lián)呈多維化,知識聚合所依據(jù)的知識關聯(lián)呈領域化與細粒度化。