菊 花,那順烏日圖
(1.內(nèi)蒙古大學(xué),內(nèi)蒙古 呼和浩特 010021;2.內(nèi)蒙古師范大學(xué),內(nèi)蒙古 呼和浩特 010021)
隨著互聯(lián)網(wǎng)處理的開放連接數(shù)據(jù)與用戶應(yīng)用數(shù)據(jù)量的爆炸式增長,互聯(lián)網(wǎng)數(shù)據(jù)處理技術(shù)也在不斷增強,計算機不再只是描述網(wǎng)頁與網(wǎng)頁之間的連接關(guān)系,同時需要描述網(wǎng)頁與實體、實體與實體之間的關(guān)系,因此計算機專業(yè)術(shù)語逐漸形成[1?2]。計算機專業(yè)術(shù)語通過知識圖譜描述真實世界中實體的概念,使實體信息更加豐富。計算機專業(yè)術(shù)語知識圖譜廣泛應(yīng)用于數(shù)據(jù)挖掘、智能引擎、網(wǎng)絡(luò)工程中,而計算機專業(yè)術(shù)語知識圖譜識別的精度對專業(yè)術(shù)語的應(yīng)用有著重要影響,致使眾多學(xué)者對計算機專業(yè)術(shù)語知識圖譜自動識別方法產(chǎn)生興趣[3]。文獻[4]提出基于旋轉(zhuǎn)森林和AdaBoost分類器的專業(yè)術(shù)語知識圖譜自動識別方法,該方法采用旋轉(zhuǎn)森林算法對計算機專業(yè)術(shù)語集進行分割,并通過特征變換將完成分割的計算機專業(yè)術(shù)語集映射到新的特征空間,形成新的計算機專業(yè)術(shù)語特征子集。采用AdaBoost算法對特征子集進行多次迭代分類,構(gòu)建計算機專業(yè)術(shù)語知識圖譜并完成自動識別。文獻[5]提出基于BLSTM?CRF模型的專業(yè)術(shù)語知識圖譜自動識別方法,該方法采用雙向長短期記憶網(wǎng)絡(luò)構(gòu)建知識圖譜,并采用BLSTM與條件隨機場CRF相結(jié)合的方式深度挖掘計算機專業(yè)術(shù)語的知識圖譜,完成計算機專業(yè)術(shù)語知識圖譜的識別。
上述方法雖然能完成計算機專業(yè)術(shù)語知識圖譜識別,但識別過程復(fù)雜、識別準確率低,因此,文中提出基于數(shù)據(jù)庫的專業(yè)術(shù)語知識圖譜自動識別。
在計算機專業(yè)術(shù)語存儲數(shù)據(jù)庫的研究中,比較主流的是關(guān)系慣性存儲數(shù)據(jù)庫。此數(shù)據(jù)庫通過二維表的形式完成相關(guān)數(shù)據(jù)的存儲,其具有結(jié)構(gòu)簡單、存儲安全等特點,能夠保證存儲數(shù)據(jù)的一致性[6?8]。但隨著存儲數(shù)據(jù)量逐漸龐大,這種關(guān)系型數(shù)據(jù)庫的存儲模型已經(jīng)難以滿足現(xiàn)有數(shù)據(jù)存儲的需求。因為在進行海量數(shù)據(jù)量識別時,傳統(tǒng)關(guān)系型數(shù)據(jù)庫雖然能夠保持數(shù)據(jù)的獨立性,但是,同時會占用大量的數(shù)據(jù)庫資源,導(dǎo)致整體的數(shù)據(jù)識別性能變差。為了解決傳統(tǒng)數(shù)據(jù)庫存在的問題,本文對計算機專業(yè)術(shù)語數(shù)據(jù)庫進行了設(shè)計。數(shù)據(jù)庫模型如圖1所示。
圖1 數(shù)據(jù)庫模型
由圖1中可以看出,根據(jù)數(shù)據(jù)庫的概念進行界定,非關(guān)系型數(shù)據(jù)庫屬于圖像數(shù)據(jù)庫。非關(guān)系型數(shù)據(jù)庫是一種將數(shù)據(jù)按照點、線、面等基本元素進行存儲的數(shù)據(jù)庫,主要包括節(jié)點、關(guān)系和屬性[9]。
為了使最終的識別結(jié)果更加精準,構(gòu)建了計算機專業(yè)術(shù)語知識圖譜。通過生成數(shù)據(jù)網(wǎng)格和概念層次排列數(shù)據(jù)網(wǎng)格[10?11]。采用領(lǐng)域本體學(xué)習(xí)工具,從上述構(gòu)建的計算機專業(yè)術(shù)語存儲數(shù)據(jù)庫中自動抽取計算機專業(yè)術(shù)語的領(lǐng)域本體,獲得計算機專業(yè)術(shù)語的語義概念,以簡單的概念表示復(fù)雜的術(shù)語關(guān)系。利用抽取的計算機專業(yè)術(shù)語領(lǐng)域本體,確定計算機專業(yè)術(shù)語之間的分類學(xué)關(guān)系。知識圖譜層次結(jié)構(gòu)如圖2所示。
由圖2所示的知識圖譜層次結(jié)構(gòu)可以看出,知識圖譜可以對計算機專業(yè)術(shù)語不同實體之間的關(guān)系進行描述,因此通過知識圖譜可以提高計算機專業(yè)術(shù)語的覆蓋廣泛度。針對部分計算機專業(yè)術(shù)語實體領(lǐng)域描述不準確的問題,通過知識圖譜能夠使實體關(guān)系的描述更為完善,提高計算機專業(yè)術(shù)語的領(lǐng)域數(shù)據(jù)完整度。以專業(yè)術(shù)語領(lǐng)域關(guān)系為基礎(chǔ)構(gòu)建的知識圖譜框架結(jié)構(gòu)如圖3所示。
圖2 知識圖譜層次結(jié)構(gòu)
圖3 知識圖譜框架結(jié)構(gòu)
由圖3可以看出,專業(yè)術(shù)語知識圖譜可以為識別過程提供優(yōu)質(zhì)的實體數(shù)據(jù)關(guān)系,提升識別結(jié)果的準確性。在計算機專業(yè)術(shù)語知識圖譜識別過程中,通過知識圖譜的結(jié)構(gòu)特征,提升專業(yè)術(shù)語關(guān)聯(lián)分析的作用效果,使實體關(guān)系的覆蓋更加全面[12]。因此,通過圖3所示的知識圖譜框架,可以更好地完成計算機專業(yè)術(shù)語知識圖譜自動識別的目標。
通過上述構(gòu)建的數(shù)據(jù)庫與知識圖譜框架結(jié)構(gòu),進行計算機專業(yè)術(shù)語知識圖譜的自動識別,識別流程如圖4所示。
根據(jù)圖4所示的專業(yè)術(shù)語知識圖譜自動識別流程,設(shè)置具體的識別步驟如下:
圖4 專業(yè)術(shù)語知識圖譜自動識別流程
1)將計算機專業(yè)術(shù)語數(shù)據(jù)導(dǎo)入所構(gòu)建的非關(guān)系型數(shù)據(jù)庫中,以便更好地識別計算機專業(yè)術(shù)語數(shù)據(jù)實體之間的關(guān)系。
2)采用計算機處理技術(shù)調(diào)用Neo4j的REST API接口,完成計算機專業(yè)術(shù)語知識圖譜的構(gòu)建。
3)通過計算機專業(yè)術(shù)語知識圖譜數(shù)據(jù)實體之間的位置特征,描述數(shù)據(jù)實體位置之間的關(guān)系,實體位置越接近說明計算機專業(yè)術(shù)語之間的相關(guān)性越強[13?15]。實體間的位置關(guān)系主要有嵌套、相鄰與分離三種。其中,嵌套指一種實體中包含另一種實體,相鄰指兩種實體之間直接關(guān)聯(lián),分離指兩種實體之間存在字符。
4)通過挖掘?qū)I(yè)術(shù)語數(shù)據(jù)實體特征完成知識圖譜的自動識別。通過上述步驟獲得實體位置關(guān)系特征,進行實體特征挖掘。設(shè)置專業(yè)術(shù)語字符表D中存儲其所有相關(guān)字符,D={ }d1,d2,…,dn,di表示其中的一個實體,則獲得的實體特征向量:V={v1,v2,…,vn,vn+1,vn+2,…,v2n}。特征向量的位數(shù)為D的2倍。vi的計算公式為:
通過上述步驟,完成基于數(shù)據(jù)庫的專業(yè)術(shù)語知識圖譜自動識別。
為了驗證所提出的基于數(shù)據(jù)庫的專業(yè)術(shù)語知識圖譜自動識別方法的有效性,進行對比實驗。實驗方案為:以知識圖譜覆蓋范圍、識別精度為實驗對比指標,將所提方法與文獻[4]、文獻[5]方法進行對比驗證。
1)實驗環(huán)境。實驗環(huán)境為Windows 7 64位操作系統(tǒng),處理器AMD Phenom(tm)Ⅱ×4B97 Processor 3.2 GHz,安裝內(nèi)存(RAM)4.0 GB。仿真環(huán)境為Matlab R2012a。
2)實驗數(shù)據(jù)。從構(gòu)建的數(shù)據(jù)庫中隨機選擇6×105條語義知識圖譜數(shù)據(jù),進行驗證。在所有的數(shù)據(jù)中,共包含150種語義特征屬性。
在上述實驗環(huán)境下,以知識圖譜覆蓋范圍為實驗對比指標,進行三種方法的對比實驗。實驗對比結(jié)果如圖5所示。
圖5 知識圖譜覆蓋范圍對比結(jié)果
由圖5可以看出,所提方法的知識圖譜覆蓋范圍遠高于兩種文獻對比方法,所提方法的覆蓋率始終保持在98%。而文獻[4]方法覆蓋率波動幅度較大,難以保持廣泛的覆蓋狀態(tài),文獻[5]方法的最高覆蓋率未超過60%。因此,充分說明所提方法具有較高的知識圖譜覆蓋范圍,可以提高識別結(jié)果的有效性。
三種方法的識別精度對比結(jié)果如圖6所示。
圖6 識別精度對比結(jié)果
由圖6中可以看出,在實驗時間持續(xù)上升的情況下,所提方法的識別精度始終保持較高水平,遠高于文獻[4]、文獻[5]方法。因此,證明所提方法具有較高的專業(yè)術(shù)語知識圖譜自動識別精度。
本文以提高計算機專業(yè)術(shù)語知識圖譜識別的精度與知識圖譜覆蓋范圍為目標,提出基于數(shù)據(jù)庫的專業(yè)術(shù)語知識圖譜自動識別方法。從理論與實驗驗證兩方面對所提方法進行了設(shè)計與驗證。實驗結(jié)果表明,與現(xiàn)有識別方法相比,所提方法在知識圖譜覆蓋范圍與識別精度兩方面的性能均得到了大幅度提升。因此,證明所提方法能夠滿足計算機專業(yè)術(shù)語知識圖譜自動識別的需求,可以進行廣泛的實際應(yīng)用。