藍(lán) 燕
(惠州學(xué)院 圖書(shū)館,廣東 惠州 516007)
隨著本體的應(yīng)用不斷深入,人工智能、知識(shí)工程和圖書(shū)情報(bào)領(lǐng)域的研究大都集中于知識(shí)概念表示和知識(shí)組織體系方面的研究[1].然而,在圖書(shū)情報(bào)領(lǐng)域,本體通常關(guān)聯(lián)的是有關(guān)某一學(xué)科或某一領(lǐng)域的術(shù)語(yǔ)詞表,并描述術(shù)語(yǔ)之間關(guān)系的規(guī)范和說(shuō)明,這為領(lǐng)域本體構(gòu)建行業(yè)知識(shí)庫(kù)提供了保證.
傳統(tǒng)的網(wǎng)絡(luò)爬蟲(chóng)較少?gòu)闹黝}相關(guān)度與時(shí)間等去采集頁(yè)面,從而導(dǎo)致計(jì)算資源和網(wǎng)絡(luò)帶寬的能耗.主題網(wǎng)絡(luò)爬蟲(chóng)則更加關(guān)注爬取與預(yù)先定義主題相關(guān)度較高的網(wǎng)頁(yè),不但能節(jié)省網(wǎng)絡(luò)資源且能進(jìn)一步提高整個(gè)數(shù)據(jù)爬取的效率[2].為快速而精準(zhǔn)地響應(yīng)圖書(shū)采購(gòu)前推介服務(wù)的請(qǐng)求,全面提升計(jì)算效率,基于文本語(yǔ)義的增量爬取是關(guān)鍵[3].然而,實(shí)現(xiàn)語(yǔ)義Web的前提是透過(guò)本體語(yǔ)言O(shè)WL(Web Ontology Language)來(lái)描述特定領(lǐng)域中的概念及其關(guān)系與公理,通過(guò)對(duì)這些概念和關(guān)系交互與推理,更好地為實(shí)現(xiàn)語(yǔ)義信息搜索提供可靠的服務(wù).因此探討一種能進(jìn)行語(yǔ)義搜索與推理的知識(shí)庫(kù)就顯得非常關(guān)鍵,而本體層在提供語(yǔ)義級(jí)的Web共享與實(shí)現(xiàn)至關(guān)重要.到目前為止,關(guān)于語(yǔ)義Web相關(guān)的研究很多.有以識(shí)別網(wǎng)絡(luò)論壇中的敏感話題為目標(biāo),根據(jù)網(wǎng)絡(luò)敏感話題具有先驗(yàn)知識(shí)和態(tài)度傾向性等特點(diǎn),提出了基于傾向性詞典的特征提取方法,用于提高網(wǎng)絡(luò)敏感話題的識(shí)別;也有提出基于語(yǔ)義學(xué)習(xí)對(duì)象組合的框架和算法,涉及到本體的元數(shù)據(jù)且能更加易于計(jì)算的方式動(dòng)態(tài)組合描述邏輯中的推理服務(wù);還有提出了支持多媒體應(yīng)用、上下文感知的個(gè)性化搜索的架構(gòu),用于內(nèi)容推薦[4].然而,針對(duì)當(dāng)前語(yǔ)義檢索建立在已有本體的基礎(chǔ)之上,缺乏與當(dāng)今不斷涌現(xiàn)的網(wǎng)絡(luò)資源自適應(yīng)動(dòng)態(tài)變化的過(guò)程,因此必須探討增量爬取的問(wèn)題,研究如何在現(xiàn)有互聯(lián)網(wǎng)資源中針對(duì)行業(yè)領(lǐng)域術(shù)語(yǔ)爬取構(gòu)建本體庫(kù)的問(wèn)題.一般地,可通過(guò)定量地計(jì)算主題詞間的相關(guān)值確定它們的類(lèi)屬關(guān)系,并能確保同一類(lèi)中的各項(xiàng)指標(biāo)盡可能相似,從而達(dá)到合理分類(lèi)的目的[5].
目前圖書(shū)館的采購(gòu)活動(dòng)通常是依賴書(shū)商推介最新出版書(shū)目,缺乏對(duì)當(dāng)前新技術(shù)、新領(lǐng)域的引導(dǎo).隨著互聯(lián)網(wǎng)技術(shù)的進(jìn)一步應(yīng)用,以網(wǎng)絡(luò)大數(shù)據(jù)為基礎(chǔ),透過(guò)主題關(guān)鍵詞的語(yǔ)義增量爬取進(jìn)而實(shí)現(xiàn)書(shū)目的推介,構(gòu)建領(lǐng)域?qū)I(yè)技術(shù)語(yǔ)義庫(kù),通過(guò)已有書(shū)目進(jìn)行相似度、相關(guān)度的定量計(jì)算,最終實(shí)現(xiàn)多目標(biāo)決策算法選擇差異性大且出版日期新的圖書(shū).
針對(duì)互聯(lián)網(wǎng)上實(shí)時(shí)動(dòng)態(tài)變化的大數(shù)據(jù),增量爬取與更新當(dāng)前語(yǔ)義庫(kù)數(shù)據(jù)就顯得非常重要.當(dāng)前,研究人員相繼提出了多種增量式大數(shù)據(jù)特征學(xué)習(xí)模型.其中,在線學(xué)習(xí)的方式獲得了學(xué)術(shù)界的巨大關(guān)注[6].這類(lèi)模型每學(xué)習(xí)一個(gè)實(shí)例便更新一次學(xué)習(xí)網(wǎng)絡(luò)的參數(shù),能不斷獲取新數(shù)據(jù)的特征.隨著網(wǎng)絡(luò)規(guī)模的擴(kuò)大,學(xué)習(xí)模型必須考量訓(xùn)練速度、學(xué)習(xí)能力和泛化能力幾大因素.因此必須選擇一種基于文本語(yǔ)義的增量學(xué)習(xí)模型,來(lái)改進(jìn)文本語(yǔ)義歸屬的識(shí)別模型,通過(guò)收集用戶反饋數(shù)據(jù),提取其中有價(jià)值的信息來(lái)更新領(lǐng)域語(yǔ)義庫(kù).由此,文本語(yǔ)義相似度計(jì)算就顯得至關(guān)重要.
通常,基于語(yǔ)法的相似度計(jì)算是建立在詞形比較的基礎(chǔ)上,實(shí)現(xiàn)的匹配較為淺顯,不能區(qū)分概念的實(shí)際語(yǔ)義,因此論文以自然語(yǔ)言本體為橋梁,通過(guò)對(duì)本體概念的語(yǔ)義解釋?zhuān)瑢?shí)現(xiàn)基于語(yǔ)義的本體概念的相似度計(jì)算[4].
基于文本的檢索方法通常指的是查詢關(guān)鍵詞與文本之間的相關(guān)性.根據(jù)向量空間模型(vector space model),關(guān)鍵詞在web文檔中的重要性用該單詞的TFIDF值來(lái)度量.假設(shè)單詞w來(lái)自第i個(gè)web文檔di中,單詞w的TF-IDF值tfIdf(w)計(jì)算公式為[7]:
其中,freq(w,di)是單詞 w 在文檔 di中的詞頻,N是文檔的總數(shù),num(w)是web文檔中含有單詞w的總數(shù).由于TF-IDF方法來(lái)源于文本處理領(lǐng)域,tfIdf(w)并不能直接地度量單詞和主題之間的相關(guān)性.因此,需要進(jìn)一步挖掘單詞和主題之間語(yǔ)義聯(lián)系.
近年來(lái),統(tǒng)計(jì)主題模型在文本分類(lèi)與信息檢索等領(lǐng)域獲得了廣泛的應(yīng)用,主要是針對(duì)文本集合通過(guò)參數(shù)估計(jì)提取一個(gè)低維的多項(xiàng)式分布,從而計(jì)算詞的相關(guān)性 .Self-AdaptationLatent Dirichlet Allocation(SALDA)從Dirichlet分布中抽樣產(chǎn)生一個(gè)文本特定的主題多項(xiàng)式分布,然后對(duì)這些主題反復(fù)抽樣產(chǎn)生文本中的每個(gè)詞.通過(guò)采用圖的形式模擬LDA中主題的產(chǎn)生過(guò)程,發(fā)現(xiàn)新的主題通常由造成主題之間相關(guān)性的詞(主題分布的重疊區(qū)域)產(chǎn)生[8-10].然而,文中提及的行業(yè)術(shù)語(yǔ)正是構(gòu)建主題的相關(guān)詞匯,因此完全可以借鑒基于HDP(Hierarchical Dirichlet Process)的最優(yōu)LDA模型選擇算法,統(tǒng)計(jì)主題詞的概率,選擇相關(guān)的詞實(shí)現(xiàn)增量爬取的過(guò)程.
LDA認(rèn)為主題是固定詞表上的一個(gè)多項(xiàng)式分布,作為一種產(chǎn)生式模型,可用LDA提取隱含的語(yǔ)義結(jié)構(gòu)和文檔表示.然而,在LDA中,主題服從Dirichlet分布,假定該分布建立在主題無(wú)關(guān)的基礎(chǔ)上,很多主題之間實(shí)際上是有關(guān)聯(lián)的.因此,這種假設(shè)與真實(shí)數(shù)據(jù)存在一定的距離,LDA將隨著主題數(shù)目K的改變較為靈敏,導(dǎo)致不能很好預(yù)測(cè)與其它主題相關(guān)的詞.Y.Teh運(yùn)用HDP的非參數(shù)特性來(lái)解決LDA中主題數(shù)目的選?。?0].
設(shè) di, dj為兩個(gè)文本,領(lǐng)域關(guān)鍵詞集合為{ k1, k2, k3,…wjk≤k≤n分別為di和dj的第 k個(gè)領(lǐng)域關(guān)鍵詞特征項(xiàng)的權(quán)重,則文本di和dj的領(lǐng)域關(guān)鍵詞的相似度為,
通常,主題詞相似度越小,模型最優(yōu).假定β矩陣中存在V維主題詞空間,用p( wvZi)表示主題向量,主題向量之間的相關(guān)性采用余弦距離計(jì)算,
伴隨著URL頁(yè)面數(shù)量不斷地增加,通過(guò)分類(lèi)結(jié)構(gòu)記錄關(guān)于某一主題的上下文與外鏈接網(wǎng)頁(yè)的數(shù)量.文章采用該方法不斷合并與產(chǎn)生新的類(lèi)別,僅需增加一個(gè)可以采用URL分類(lèi)的方法實(shí)現(xiàn)增量爬取的算法,能夠識(shí)別新的網(wǎng)頁(yè)與經(jīng)常變更的網(wǎng)頁(yè)的算法,并更新已保存在本地?cái)?shù)據(jù)庫(kù)中的網(wǎng)頁(yè),便于減少爬取的次數(shù),從而實(shí)現(xiàn)多行業(yè)主題次類(lèi)別的學(xué)習(xí),避免在龐大網(wǎng)絡(luò)中重復(fù)主題類(lèi)別的學(xué)習(xí),其結(jié)構(gòu)圖如圖1所示.因此設(shè)計(jì)一個(gè)六元組:
{URL-type,URL,Topic,Status,crawl-time}
在指定爬取時(shí)間crawl-time,確定當(dāng)前URL的狀態(tài)Status;且依據(jù)URL-type類(lèi)型記錄搜索相關(guān)主題Topic的URL類(lèi)型機(jī)器網(wǎng)址URL.
圖1 URL增量爬取網(wǎng)頁(yè)結(jié)構(gòu)圖
增量爬算法根據(jù)URL類(lèi)別爬取Web網(wǎng)頁(yè),如果URL類(lèi)型為葉子URL,而且Status是新網(wǎng)頁(yè)的,那么這個(gè)頁(yè)面就會(huì)被爬取,還會(huì)記錄這個(gè)爬取的時(shí)間.同時(shí),計(jì)算剛被爬取下來(lái)的頁(yè)面和已經(jīng)被爬取下來(lái)存儲(chǔ)到當(dāng)?shù)財(cái)?shù)據(jù)庫(kù)中的屬于同類(lèi)型頁(yè)面的爬取時(shí)間間隔.因此增量爬取的關(guān)鍵針對(duì)葉子頁(yè)面的就是關(guān)于主題詞頁(yè)面選取過(guò)程,具體見(jiàn)前一節(jié)的文本語(yǔ)義相似度計(jì)算.
眾所都知,組成行業(yè)領(lǐng)域本體的主題詞很多.針對(duì)每一個(gè)主題,為避免大量的相似度距離計(jì)算,可以將其映射成為一類(lèi)節(jié)點(diǎn)分布,通過(guò)計(jì)算主題的Entropy值實(shí)現(xiàn)層次聚類(lèi)[9].
定義2.1(本體信息熵)針對(duì)包含有W1,W2,…,Wn共n個(gè)詞匯的領(lǐng)域本體數(shù)據(jù)集S,設(shè)某詞匯V具有i個(gè)相互獨(dú)立的特征值{ v1, v2,… ,vi},主題詞vi在數(shù)據(jù)集S中出現(xiàn)的次數(shù)記為|vi|,屬于第 j類(lèi)的實(shí)例個(gè)數(shù)記為|vij|,則本體詞匯vi的信息熵為:
其中,pij= | vij||vi|是指在某詞匯V上具有本體特征值vi的樣本屬于類(lèi)Ci的概率比重.當(dāng)|vi|=|vij|時(shí),S( vi) = 0 .
定義2.2(平均相似度距離)設(shè)si,sj為任意兩個(gè)節(jié)點(diǎn)X,Y的領(lǐng)域本體集,si與sj具有n個(gè)獨(dú)立的特征值v1,v2,…,vn,則si與sj的相似度距離計(jì)算公式為:
d( Y, X ) 為任意兩個(gè)主題詞間相同主題間的平均信息熵,采用兩節(jié)點(diǎn)間相同主題間的信息熵來(lái)衡量其相似程度.
定義2.3(類(lèi)屬可信度)假定Ci表示主題類(lèi)別,R為需要識(shí)別的節(jié)點(diǎn),在N個(gè)近鄰節(jié)點(diǎn)總數(shù)中,Xi屬于Ci類(lèi)的節(jié)點(diǎn),Ni為屬于Ci類(lèi)的近鄰節(jié)點(diǎn)個(gè)數(shù).則 T ( Ci, R)為R對(duì)Ci的類(lèi)屬可信度,計(jì)算公式為:
參考文獻(xiàn)[3],基于Entrop信息熵的領(lǐng)域本體聚類(lèi)算法包含如下步驟:
(3)設(shè)定閾值范圍,合并距離范圍內(nèi)的主題節(jié)點(diǎn)為新的類(lèi)別,新類(lèi)屬子集為Cs={Ci∪ Ci+1};
(4)循環(huán)計(jì)算新生成的類(lèi)屬與其他各類(lèi)屬間的距離;
(5)通過(guò)聚類(lèi),確定各類(lèi)屬節(jié)點(diǎn)為候選節(jié)點(diǎn)集.
現(xiàn)有4類(lèi)不同主題詞的節(jié)點(diǎn),圖2(a)所示中黑色方塊為類(lèi)屬請(qǐng)求主題節(jié)點(diǎn),針對(duì)主題詞計(jì)算其信息熵,并為各主題詞聚類(lèi)做準(zhǔn)備,圖2(c-f)為屬性聚類(lèi)后的中間結(jié)果,紅色圓圈標(biāo)示的主題節(jié)點(diǎn)為各屬性的可選項(xiàng),最后生成的圖2(b)所示的4類(lèi)不同屬性節(jié)點(diǎn)候選集進(jìn)行推介.
圖2 主題詞聚類(lèi)過(guò)程示例
實(shí)驗(yàn)過(guò)程從網(wǎng)頁(yè)爬取的角度出發(fā),通過(guò)計(jì)算指定的主題詞相關(guān)性,構(gòu)建關(guān)于主題詞的領(lǐng)域本體集合.然后通過(guò)領(lǐng)域本體和主題詞基于Entropy進(jìn)行聚類(lèi),確定類(lèi)屬關(guān)系,形成候選集從而實(shí)現(xiàn)推介.
從Web上爬取與主題相關(guān)的數(shù)據(jù)資源,主要關(guān)注的是爬蟲(chóng)獲取的主題資源的覆蓋率和主題資源的準(zhǔn)確度[11].然而,考慮到預(yù)先無(wú)法預(yù)知各主題的分布情況,要準(zhǔn)確計(jì)算關(guān)于主題搜索的覆蓋半徑存在一定的困難.因此,針對(duì)主題爬取實(shí)驗(yàn)[12],可以把通過(guò)計(jì)算爬準(zhǔn)率作為評(píng)價(jià)指標(biāo).
現(xiàn)從搜狗網(wǎng)實(shí)驗(yàn)室[13]提供的網(wǎng)頁(yè)數(shù)據(jù)中抽取了5425個(gè)正文內(nèi)容來(lái)驗(yàn)證前面提出的理論和算法,其中包括大數(shù)據(jù)主題的正文內(nèi)容數(shù)3625個(gè),其它主題的文本數(shù)目一共有1800個(gè).選取主題詞并計(jì)算相應(yīng)的權(quán)值,對(duì)各網(wǎng)頁(yè)數(shù)據(jù)表示成向量空間;然后經(jīng)過(guò)以上領(lǐng)域主題的獲取方式,使用向量余弦距離度量大數(shù)據(jù)主題文本的相似度、向量間的相關(guān)性.以圖書(shū)采購(gòu)的學(xué)科分類(lèi)為例,針對(duì)學(xué)科類(lèi)別,以各二級(jí)學(xué)科進(jìn)行類(lèi)屬劃分,與網(wǎng)頁(yè)數(shù)據(jù)中抽取主題詞進(jìn)行比較,構(gòu)建學(xué)科本體庫(kù).將傳統(tǒng)TF-IDF與該文采用的AS-LDA主題提取方法進(jìn)行比較,在提取的主題數(shù)為5時(shí),各類(lèi)屬主題頁(yè)面提取的準(zhǔn)確度如表1所示,相對(duì)應(yīng)的主題爬取精度隨著頁(yè)面數(shù)量的變化趨勢(shì)如圖3所示.
表1 學(xué)科類(lèi)別相關(guān)主題類(lèi)屬主題數(shù)為5的準(zhǔn)確度
(續(xù)表1)
圖3 主題提取算法爬取精度比較
以語(yǔ)料庫(kù)為基礎(chǔ)的LDA文本建模,可以透過(guò)學(xué)科本體解析文本的主題,提取頁(yè)面主題.理論上LDA應(yīng)該具有其他模型所具有的建模速度,但是要提高主題詞提取的效率,必須輔以主題詞聚類(lèi)的方法.因此,在采購(gòu)圖書(shū)時(shí),指定主題詞關(guān)鍵字后,可對(duì)主題應(yīng)該對(duì)學(xué)科類(lèi)屬計(jì)算指定主題詞相似度、相關(guān)度從而進(jìn)行聚類(lèi).通常,相似度計(jì)算主要反映的是關(guān)于主題關(guān)鍵字和樣本集中其他文本的相似程度,在設(shè)定的閾值范圍根據(jù)相似度實(shí)現(xiàn)類(lèi)屬聚類(lèi),再通過(guò)Precision、Recall驗(yàn)證計(jì)算方法的準(zhǔn)確性.最后,將實(shí)驗(yàn)結(jié)果按照召回率10%,20%,…,100%這十個(gè)點(diǎn)進(jìn)行精確性統(tǒng)計(jì),結(jié)果如表2所示.
表2 三種相似度計(jì)算的召回率和精確率
為更加直觀地描述相似度計(jì)算的關(guān)系,對(duì)上述數(shù)據(jù)進(jìn)行分析,繪制了三種文本相似度計(jì)算的對(duì)比圖,如圖4所示.
圖4 三種文本相似度計(jì)算的對(duì)比
針對(duì)以上關(guān)于領(lǐng)域文本相似度計(jì)算的實(shí)驗(yàn),基于學(xué)科領(lǐng)域本體采用的AS-LDA算法相似度計(jì)算與傳統(tǒng)TF-IDF的主題詞的相似度計(jì)算在相同的召回率情況下,在文本相似度計(jì)算方面的準(zhǔn)確率要高些.其主要是因?yàn)轭I(lǐng)域本體關(guān)鍵詞的向量空間模型和傳統(tǒng)的關(guān)鍵詞空間模型相比,更能表示領(lǐng)域文本的主題特征,可以降低特征向量的維數(shù),增加領(lǐng)域關(guān)鍵詞的權(quán)值;同時(shí)對(duì)領(lǐng)域關(guān)鍵詞向量進(jìn)行上位概念的關(guān)鍵詞語(yǔ)義擴(kuò)充,可縮小含有相同主題的文本的特征向量的距離,提高文本間的相似度.