郝建軍
摘 要:文章介紹了大數(shù)據(jù)時代高校圖書館開展嵌入式知識服務的內容,分析了大數(shù)據(jù)與情報的共性,并重點闡述了嵌入式知識發(fā)現(xiàn)情報分析服務的重要環(huán)節(jié),同時又設計了大數(shù)據(jù)時代高校圖書館嵌入式知識發(fā)現(xiàn)情報分析服務模型,該模型主要包括數(shù)據(jù)資源層、知識發(fā)現(xiàn)處理層和界面展示層。
關鍵詞:大數(shù)據(jù)時代;高校圖書館;嵌入式服務;知識發(fā)現(xiàn);情報分析
中圖分類號:G252文獻標識碼:A 文章編號:1003-1588(2017)02-0049-03
大數(shù)據(jù)技術的快速發(fā)展促進了科研方式的變革,基于數(shù)據(jù)緊密型的科研方式已經成為自科研經驗方式、理論方式、計算機模擬方式之后的新的發(fā)展模式[1]?,F(xiàn)階段,海量的半結構化和非結構化數(shù)據(jù)給科研帶來了巨大挑戰(zhàn),而且數(shù)據(jù)存儲和共享功能缺乏合理性和有效性,這也給高校圖書館的服務模式造成不小的影響。在大數(shù)據(jù)時代,高校圖書館應該更加重視用戶數(shù)據(jù)安全和服務質量,積極利用先進的數(shù)據(jù)分析和處理技術來提升高校圖書館服務的智能化和個性化,為高校圖書館的服務創(chuàng)新創(chuàng)造出有利條件[2]。高校圖書館應該借助大數(shù)據(jù)技術,充分了解用戶的服務需求,并以滿足用戶的服務需求為目的開展相應的服務。
1 大數(shù)據(jù)時代高校圖書館開展嵌入式知識服務的內容
1.1 用戶需求的分析
在大數(shù)據(jù)環(huán)境下,首先,高校圖書館可以收集和存儲用戶的基本信息,比如:用戶的學歷、年齡、科研成果、學習經歷以及工作單位等信息,并詳細記錄用戶的操作信息及檢索、查詢、收藏以及標識等操作行為,可以與用戶查詢資料的內容、學科類別以及相應用戶權限進行關聯(lián),還可以收集用戶具體的信息咨詢、科技前沿以及參考導航等服務情境[3]。其次,高校圖書館可以分析海量數(shù)據(jù),利用基于語義網的技術來規(guī)范用戶信息資源,并將其轉換為能夠被應用程序理解和直接調用的數(shù)據(jù),從而可以更好地感知和預測用戶行為。最后,高校圖書館利用用戶數(shù)據(jù)作為決策依據(jù),為用戶制訂當前目標、短期目標以及長期目標,并根據(jù)需求環(huán)境的變化動態(tài)分配硬件和軟件資源,從而讓高校圖書館的服務融入用戶的科研活動中。
1.2 規(guī)律趨勢的分析預測
針對某些行業(yè)或者學科進行全面收集信息資源時,在專業(yè)研究成果的基礎上進行深入分析,比如對比、推理以及綜合利用等科學分析手段,或參照專業(yè)學科發(fā)展規(guī)律,計量學發(fā)展規(guī)律等[4]。由于學科的知識特點和發(fā)展規(guī)律各不相同,因此需要運用多種分析和處理手段來構建不同的學科模型,從而能夠準確地預測學科發(fā)展規(guī)律以及發(fā)展趨勢。常見的預測方法有以下幾種:①將大量文獻內容進行數(shù)據(jù)統(tǒng)計,以歸納總結出文獻的內在規(guī)律,比如齊普夫定律、洛特卡定律以及布拉德福定律等都是常見的基于文獻內容的統(tǒng)計方式。②根據(jù)文獻的發(fā)展規(guī)律和趨勢來構建數(shù)學模型,可以達到預測文獻發(fā)展規(guī)律的目的,比如普賴斯就專門構建了基于指數(shù)增長規(guī)律的數(shù)學模型。③將其他領域的數(shù)學規(guī)律和數(shù)學模型移植到文獻發(fā)展的預測中,比如物理學中的半衰期規(guī)律、經濟學中的人口增長規(guī)律以及生物學中的成長規(guī)律等。④依據(jù)模糊理論來搜集相似文獻內容,存儲在計算機中,并利用統(tǒng)計技術進行分析和對比數(shù)據(jù),以此幫助科研人員挖掘數(shù)據(jù)關聯(lián)性。
2 大數(shù)據(jù)分析與情報分析的共性
2.1 看重對數(shù)據(jù)的定量分析
數(shù)據(jù)作為最直觀的資源,已經潛移默化地改變了分析決策的方式,如何有效地收集、篩選以及整理各種數(shù)據(jù)資源,并利用合理的方法來挖掘數(shù)據(jù)的潛在價值,已經成為評價一個組織是否具有競爭力的重要衡量方式。情報分析學科同樣十分重視數(shù)據(jù)資源的應用,在情況分析研究的初期階段,分析人員主要依靠人員的智力來分析少量數(shù)據(jù)現(xiàn)象,并從中歸納總結出情報分析的規(guī)律。隨著科學技術的快速發(fā)展,學科之間的關聯(lián)性和交叉性逐漸加強,學科知識的劃分越細致,所涉及的內容也就越專業(yè)。目前,情報分析更多地依靠先進的信息處理技術,利用“機器學習”方式來挖掘數(shù)據(jù)、分析和統(tǒng)計相關聯(lián)系,還可以利用定量化方式來關聯(lián)基于關鍵字的詞匯共現(xiàn),其核心思路就是在計算能力的基礎上利用人工分析判斷數(shù)據(jù)聯(lián)系。因此,利用數(shù)據(jù)來闡述問題已經成為情報分析的主要特點,在情報分析報告中利用數(shù)據(jù)、公式以及圖表來說明理論的方式也充分體現(xiàn)了數(shù)據(jù)分析技術在情報分析領域的重要地位。
2.2 關注多源數(shù)據(jù)融合
大數(shù)據(jù)技術可以通過各種渠道,并利用各種收集手段來獲取各種數(shù)據(jù)信息,在進行集中整理后,形成一種基于不同數(shù)據(jù)格式的統(tǒng)一處理方式,這種處理過程被稱為多源數(shù)據(jù)處理融合技術[5]。一方面,可以通過不同用戶和不同網絡途徑來獲取同一個研究方向的內容;另一方面,根據(jù)信息數(shù)據(jù)的種類和用途的不同,比如:根據(jù)視頻、音頻及文本等方式進行分類,也可以根據(jù)結構化和非結構化等方式進行分類,同時也要考慮數(shù)據(jù)的異構性。需要注意的是,相同類型的數(shù)據(jù)也有可能分布在不同的站點,并由各自的數(shù)據(jù)供應商提供,如論文分析研究的數(shù)據(jù)來源就包括中國知網、維普及萬方數(shù)據(jù)庫等[6]。一般情況下,針對前沿領域進行情報分析時,只利用一種類型的數(shù)據(jù)是不夠全面的,應該從其所涉及的期刊論文、圖書資源、專利以及項目等收集有效信息,進行整合處理,這樣才能夠體現(xiàn)出該研究的整體特征。
3 嵌入式知識發(fā)現(xiàn)情報分析服務的重要環(huán)節(jié)
3.1 知識發(fā)現(xiàn)系統(tǒng)的利用
將文獻分析方式與數(shù)據(jù)挖掘技術進行有機結合已經成為知識發(fā)現(xiàn)方面的熱門研究內容,并且取得了可以直接應用的研究成果,這為嵌入式知識發(fā)現(xiàn)情報分析服務提供了重要的研究方式。不可否認,選擇和使用合理的知識發(fā)現(xiàn)系統(tǒng)會提高信息數(shù)據(jù)的分析效果,其中比較有代表性的就是充分認識到知識發(fā)現(xiàn)系統(tǒng)的優(yōu)勢,評估數(shù)據(jù)分析結果與用戶的契合程度,從而讓數(shù)據(jù)分析服務的效果得到用戶的認同。比如:一些基于知識發(fā)現(xiàn)的軟件和系統(tǒng)比較適合大型結構化文獻數(shù)據(jù)分析,可以根據(jù)結構化數(shù)據(jù)的特點分析出信息的特定發(fā)展規(guī)律[7];還有一些基于主題和科研本身的知識發(fā)現(xiàn)模型,其可以利用文獻資源之間的相關性挖掘有效信息,并對文獻資料進行多角度分析,根據(jù)關聯(lián)原則描述該學科領域的發(fā)展趨勢圖;另外還可以利用關聯(lián)和非關聯(lián)的知識發(fā)現(xiàn)方法,再結合相關語義分析、詞匯頻率統(tǒng)計等技術,最后通過關鍵詞聚類方式來尋找潛在的知識發(fā)現(xiàn)。
3.2 準確獲取數(shù)據(jù)
知識發(fā)現(xiàn)可以分析大量數(shù)據(jù)和信息資源,并從中挖掘明顯關聯(lián)或者非關聯(lián)的科學研究的內在規(guī)律,情報分析人員可以向科研人員提供相關情報分析,一般采用的是定量和定性相結合的分析方法。在進行定量分析之前,如果要獲取較為準確的目標數(shù)據(jù),除了要分析數(shù)據(jù)源以及檢索方式之外,還要對數(shù)據(jù)進行預處理,如消除噪聲數(shù)據(jù)、集成數(shù)據(jù)等。大部分的數(shù)據(jù)分析軟件都具有數(shù)據(jù)篩選功能,其中常見的TDA(Threat Discovery Appliance)軟件就可以通過列表功能手工篩選原始數(shù)據(jù)。需要注意的是,當自動篩選數(shù)據(jù)時,常常由于數(shù)據(jù)中檢測出偶發(fā)的錯誤或者不同的存儲格式導致篩選失敗,這就無法按照要求構建知識圖譜。嵌入式的知識發(fā)現(xiàn)服務可以將篩選后的數(shù)據(jù)與專業(yè)數(shù)據(jù)分析專家共享,由此可以進一步提高數(shù)據(jù)的準確性,從而得到與研究對象關聯(lián)緊密的數(shù)據(jù)。
3.3 應用綜合分析方法
科技創(chuàng)新活動不僅包括學科和領域的創(chuàng)新,而且還涉及社會各個方面的創(chuàng)新,所以嵌入式知識發(fā)現(xiàn)服務需要為決策人員提供情報分析服務,幫助分析對象的社會行為,并為決策人員指明科研決策的發(fā)展方向;此外,還可以根據(jù)用戶的需求,結合經濟學、社會學、管理學以及情報學等學科的分析方法,多方面地展現(xiàn)科技創(chuàng)新在社會環(huán)境中的具體狀況和發(fā)展趨勢。如今,國外已經出現(xiàn)了專門提供情報分析服務的公司,比如美國的麥肯錫公司就對醫(yī)藥領域提供多方面的分析和研究服務。而國內關于情報分析的研究還處于起步階段,高校圖書館可以借鑒國外成熟的研究成果,比如可以利用波士頓矩陣方法來分析文獻資源之間的關聯(lián)性。
4 情報分析服務模型總體設計
情報分析服務的主要功能就是針對數(shù)據(jù)進行整理和分析,從而挖掘知識的內在關聯(lián)性。該研究根據(jù)內容解析方法來實施情報分析服務,并專門構建一個情報分析的服務模型。該模型采用了分層結構,自上向下共分成三個層次,即界面展示層、知識發(fā)現(xiàn)處理層、數(shù)據(jù)資源層等,具體結構示意圖如圖1所示。
首先是數(shù)據(jù)資源層,其確定研究對象包括三個步驟:確定分析目的、確定研究范圍、搜集情報等內容。其次是知識發(fā)現(xiàn)處理層,它主要包括三個方面的內容:①制定編碼標準,并借助計算機輔助工具來構建專屬詞典,其主要分為專業(yè)術語詞典、停止詞詞典、同義詞詞典等。②編碼部分,可以將文本文件轉換為計算機可識別的文本向量。③數(shù)據(jù)分析部分,可以利用相似度算法和聚類算法來處理文本向量,從而實現(xiàn)情報自動聚類和串并功能。最后是界面展示層,主要功能為針對數(shù)據(jù)進行分析。
4.1 數(shù)據(jù)資源層設計
數(shù)據(jù)資源層為情報分析提供海量的數(shù)據(jù)資源,從各個數(shù)據(jù)源中收集數(shù)據(jù)并集成在情報員數(shù)據(jù)庫中。眾所周知,數(shù)據(jù)庫的性能會直接影響情報分析服務模式的處理效率。目前,比較成熟的數(shù)據(jù)庫種類主要有兩種:關系型數(shù)據(jù)庫和非關系型數(shù)據(jù)庫。經過幾十年的發(fā)展,關系型數(shù)據(jù)庫技術相對比較成熟,其中的行和列的關系非常明確,主要采用表型結構存儲數(shù)據(jù),用戶比較容易接受。但是,隨著數(shù)據(jù)庫技術的不斷發(fā)展,關系型數(shù)據(jù)庫的弊端也逐漸顯現(xiàn)出來:①針對海量數(shù)據(jù)進行查詢和存儲操作,海量數(shù)據(jù)信息時刻充斥在互聯(lián)網上,如果關系型數(shù)據(jù)庫還是采用表型存儲海量數(shù)據(jù),這時的存儲是以億為單位。當利用SQL(Structured Query Language)語言查詢或者針對多張表進行關聯(lián)查詢時,其查詢效率是非常低的。②數(shù)據(jù)庫的擴展性較差。當處理海量數(shù)據(jù)時,數(shù)據(jù)的結構非常復雜,修改數(shù)據(jù)庫的表結構是非常耗時的,因此復雜的數(shù)據(jù)結構的處理效率無法達到用戶的要求。③數(shù)據(jù)庫的讀寫效率。針對動態(tài)的信息,每秒的讀寫次數(shù)要達到上萬次以上,而關系型數(shù)據(jù)庫的讀寫速度無法達到這種要求。
4.2 知識發(fā)現(xiàn)處理層設計
知識發(fā)現(xiàn)處理層的主要功能是針對數(shù)據(jù)資源層的數(shù)據(jù)進行深度的分析和挖掘,它可以利用內容分析方法進行數(shù)據(jù)分析和情報編碼,具體的功能模塊圖如圖2所示。知識發(fā)現(xiàn)處理層主要包括四個功能模塊:情報自動聚類處理模塊、情報串并處理模塊、文本預處理模塊、文本向量表示模塊。
4.3 界面展示層設計
界面展示層主要包括兩個部分:知識圖譜展示功能和人機交互功能。知識圖譜展示功能形象展現(xiàn)出情報數(shù)據(jù)資源的分析結果,是針對情報數(shù)據(jù)資源分析的拓展,它可以準確表達現(xiàn)象層面的具體信息,并通過更進一步的分析來找出隱藏在情報中的規(guī)律,從而協(xié)助情報分析人員更好地處理情報。人機交互功能是利用操作界面來實現(xiàn)用戶和軟件之間的信息交流,更好地幫助用戶控制軟件。
5 結語
嵌入式知識發(fā)現(xiàn)情報分析服務模式是建立在先進的信息處理技術的基礎上,為了更好地滿足科研人員對于知識服務的需求,同時也是情報服務可持續(xù)發(fā)展的重要保證??茖W技術的快速發(fā)展、大數(shù)據(jù)技術的研究以及數(shù)據(jù)分析方法的改進,都為嵌入式知識發(fā)現(xiàn)情報分析服務的個性化、智能化及多元化發(fā)展創(chuàng)造了有利條件,提供了良好的研究前景。
參考文獻:
[1]顧濤.基于大數(shù)據(jù)的競爭情報協(xié)作分析研究[J].情報科學,2013(12):114-118,135.
[2]鄧仲華,李立睿,陸穎雋.基于科研用戶情景感知的嵌入式知識服務研究(上)[J].情報理論與實踐,2014(9):16-19.
[3]韓翠峰.大數(shù)據(jù)時代圖書館的服務創(chuàng)新與發(fā)展[J].圖書館,2013(1):121-122.
[4]田瑞強,姚長青,潘云濤.關聯(lián)文獻的知識發(fā)現(xiàn)與創(chuàng)新研究進展[J].情報理論與實踐,2013(8):117-123.
[5]周曉英.數(shù)據(jù)密集型科學研究范式的興起與情報學的應對[J].情報資料工作,2012(2):5-11.
[6]化柏林.多源信息融合方法研究[J].情報理論與實踐,2013(11):16-19.
[7]Bormer K.Boyack K Mapping interdisciplinary research(sidebar,systems sciencesection)[M].New York:Oxford University Press,2010:457-460.
(編校:崔 萌)