行久紅
(鄭州科技學(xué)院大數(shù)據(jù)與人工智能學(xué)院 河南 鄭州 450064)
語義相關(guān)度在廣義角度上分析,指的是兩個(gè)詞語之間的相關(guān)程度,能夠從某種程度上反映詞語之間的關(guān)聯(lián)性[1]。通俗來說,即能夠通過一個(gè)詞語,聯(lián)想到另外一個(gè)意思相近的詞語[2]。傳統(tǒng)的語義相關(guān)度多數(shù)采用布設(shè)語境的方式完成,在該語境下,計(jì)算并分析兩個(gè)詞語同時(shí)出現(xiàn)的可能性,進(jìn)而根據(jù)計(jì)算分析結(jié)果衡量詞語語義相關(guān)度[3]。此種計(jì)算衡量方式具有一定的弊端,容易將語義相關(guān)度與語義相似度混淆[4]。經(jīng)過眾多學(xué)者研究發(fā)現(xiàn),語義相似度指的是兩個(gè)不同詞語之間存在的相似性,而語義相關(guān)度指的是兩個(gè)不同詞語之間的關(guān)聯(lián),具有顯著差異[5]。根據(jù)以往學(xué)者的研究結(jié)論可以得知,若兩個(gè)不同的詞語語義相似,它們之間的語義也一定相關(guān),反之,若詞語語義相關(guān),但是其語義不一定相似。通過該結(jié)論可以得出:語言語義相似度屬于語義相關(guān)度計(jì)算的重要組成部分??茖W(xué)合理的語義相關(guān)度計(jì)算方法至關(guān)重要,能夠?yàn)楝F(xiàn)代化信息檢索、海量文本分析、自然語言處理研究、自然語言機(jī)器翻譯等領(lǐng)域提供有力的數(shù)據(jù)支持,屬于一項(xiàng)基礎(chǔ)性的研究工作。智能優(yōu)化算法能夠?yàn)檎Z義相關(guān)度計(jì)算提供一定的幫助,通過簡單信息處理單元的交互作用,求解分布式問題,收斂速度較快,在多設(shè)計(jì)變量方面應(yīng)用優(yōu)勢顯著。
基于此,為了提高自然語言語義相關(guān)度計(jì)算方法的可行性,優(yōu)化相關(guān)度計(jì)算結(jié)果,本文引入智能優(yōu)化算法,設(shè)計(jì)了一種全新的自然語言語義相關(guān)度計(jì)算模型。
本文設(shè)計(jì)的基于智能優(yōu)化算法的自然語言語義相關(guān)度計(jì)算模型中,首先,需要根據(jù)自然語言文本的具體情況與特征,選取與之適配度較高的編碼器,通過文本編碼器,解決后續(xù)語義相關(guān)度計(jì)算模型訓(xùn)練收斂問題,激勵(lì)模型的運(yùn)行。綜合考慮后,本文選取卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)文本編碼器,包含了卷積計(jì)算的前饋神經(jīng)網(wǎng)絡(luò),具有良好的性能優(yōu)勢。首先利用自然語言文本編碼器,選擇并創(chuàng)建一個(gè)完整的局部計(jì)算塊,將其遍歷在整個(gè)相關(guān)度計(jì)算網(wǎng)絡(luò)中。其次將計(jì)算塊包含的所有節(jié)點(diǎn),添加到網(wǎng)絡(luò)下層結(jié)點(diǎn)中,使用過濾器,掃描其他位置的輸出節(jié)點(diǎn),使各個(gè)節(jié)點(diǎn)的權(quán)重與偏移量共用。利用CNN編碼器,構(gòu)建自然語言文本矩陣,輸入相應(yīng)的數(shù)據(jù)信息,并陳列數(shù)據(jù)信息。在此基礎(chǔ)上,使用一個(gè)8×8的卷積核,對(duì)文本圖像進(jìn)行卷積計(jì)算,獲取其卷積特征,通過不同的通道(channels),匹配圖像RGB顏色模型。抓取圖像中的細(xì)小零件,組裝成完整的圖片信息。對(duì)自然語言文本進(jìn)行向量化操作,提取語言文本中的重要語義信息。由于多數(shù)自然語言的文本長度為固定值,在語義信息提取時(shí),可以對(duì)卷積核的寬度進(jìn)行設(shè)定。施加不同權(quán)重的卷積核,在自然語言文本中滑動(dòng),盡量全面提取自然語言文本中的重要語義信息。最后添加maxpooling操作,減少CNN自然語言文本編碼器的擬合,提高自然語言文本中語義信息提取的精度。
完成自然語言文本編碼器選取后,實(shí)現(xiàn)了自然語言文本中重要語義信息提取的目標(biāo)。接下來,對(duì)等待計(jì)算語義相關(guān)度的自然語言文本數(shù)據(jù)集進(jìn)行處理與融合,為后續(xù)語義相關(guān)度計(jì)算模型構(gòu)建提供基礎(chǔ)保障。
對(duì)自然語言文本數(shù)據(jù)集進(jìn)行全方位的識(shí)別與分析,找出語義相關(guān)度計(jì)算模型可能無法識(shí)別的文字化信息。自然語言文本數(shù)據(jù)集處理主要包括三個(gè)部分,分別為自然語言文本停用詞去除處理、自然語言文本歸一化處理、自然語言文本向量化處理,需要特別注意,以上處理方式僅針對(duì)中文自然語言文本數(shù)據(jù)集,而英文自然語言文本數(shù)據(jù)集處理中,需要采用Jieba工具包,進(jìn)行文本分詞操作。
(1)自然語言文本數(shù)據(jù)集停用詞去除處理。停用詞主要包括文本數(shù)據(jù)集中的部分功能詞,例如介詞、連詞等無任何實(shí)際意義的詞語,還有詞匯詞,即使用極其廣泛,但可有可無的詞語。采用MATLAB軟件,生成有針對(duì)性的停用詞表,以智能化與自動(dòng)化的過濾方式,過濾刪除以上兩類停用詞,節(jié)省存儲(chǔ)空間,提高自然語言文本數(shù)據(jù)集詞語的搜索效率。
(2)自然語言文本數(shù)據(jù)集歸一化處理。將數(shù)據(jù)集中存儲(chǔ)格式不同的各個(gè)文本進(jìn)行歸一化處理,使文本長度保持一致,達(dá)到自然語言文本規(guī)定的長度。
(3)自然語言文本數(shù)據(jù)集向量化處理。將自然語言文本中的文字,經(jīng)過詞嵌入表的轉(zhuǎn)換作用,轉(zhuǎn)換為高維稠密向量,并將其作為輸入層,輸入到后續(xù)構(gòu)建的語義相關(guān)度計(jì)算模型中。設(shè)定自然語言文本數(shù)據(jù)集向量為固定長度,該長度需要囊括大部分自然語言文本的長度,在此基礎(chǔ)上,對(duì)各個(gè)文本的長度進(jìn)行補(bǔ)充,初步向量化文本的內(nèi)容,獲得文本一維向量,生成自然語言文本詞向量庫。
完成自然語言文本數(shù)據(jù)集處理后,接下來,對(duì)文本數(shù)據(jù)集進(jìn)行融合。將多個(gè)數(shù)據(jù)集進(jìn)行一致化處理,統(tǒng)一其內(nèi)容與特征,轉(zhuǎn)換器處理格式,將數(shù)據(jù)集中海量不同類型的數(shù)據(jù)進(jìn)行融合,進(jìn)而擴(kuò)大數(shù)據(jù)集。除了能夠融合數(shù)據(jù)類型以外,還能夠融合數(shù)據(jù)功能,逐步擴(kuò)充完善自然語言文本數(shù)據(jù)集,提高數(shù)據(jù)集的泛化能力。設(shè)定自然語言文本數(shù)據(jù)集融合采用的編程語言為python,采用的工具包為pandas。將用戶輸入的自然語言文本數(shù)據(jù)集作為孿生網(wǎng)絡(luò)模型的輸入層,通過孿生網(wǎng)絡(luò)模型,比對(duì)融合后的數(shù)據(jù)集文本特征,使自然語言文本數(shù)據(jù)集處理與融合的結(jié)果達(dá)到最優(yōu)化目的。
基于上述自然語言文本數(shù)據(jù)集處理與融合完成后,實(shí)現(xiàn)了文本數(shù)據(jù)格式一致化的目標(biāo),為相關(guān)度計(jì)算模型構(gòu)建提供了基礎(chǔ)保障。在此基礎(chǔ)上,利用智能優(yōu)化算法,計(jì)算自然語言語義相關(guān)度,構(gòu)建語義相關(guān)度計(jì)算模型。設(shè)計(jì)智能優(yōu)化算法的運(yùn)行流程,如圖1所示。
圖1 智能優(yōu)化算法運(yùn)行流程
如圖1所示,首先基于群體智能優(yōu)化算法,設(shè)置并初始化自然語言文本種群。其次根據(jù)文本種群初始化結(jié)果,計(jì)算種群的適應(yīng)度函數(shù)。設(shè)定智能優(yōu)化算法的終止條件,將種群的適應(yīng)度函數(shù)計(jì)算結(jié)果與設(shè)定的終止條件進(jìn)行對(duì)比。若符合智能優(yōu)化算法的終止條件,則輸出智能優(yōu)化算法的全局最優(yōu)解;若不符合智能優(yōu)化算法的終止條件,則更新種群,并刪除原始解決方案,尋找另一個(gè)全新的解決方案,再次計(jì)算種群適應(yīng)度,直至滿足算法終止條件為止。通過智能優(yōu)化算法的不斷迭代,獲取最終滿意度良好的最優(yōu)解,完成智能優(yōu)化算法的整體流程。在此基礎(chǔ)上,利用智能優(yōu)化算法,尋找自然語言文本的義原最優(yōu)解,根據(jù)文本義原的上下位關(guān)系,構(gòu)建自然語言義原層次結(jié)構(gòu)體系,利用語義相關(guān)度S表示。設(shè)定自然語言文本中2個(gè)義原在層次結(jié)構(gòu)體系中的路徑距離為d,其語義相關(guān)度計(jì)算表達(dá)式為:
S(p1,p2)=δ/(d+δ)
(1)
其中,p1、p2分別表示自然語言文本中的兩個(gè)義原;δ表示語義相關(guān)度計(jì)算中的一個(gè)可調(diào)節(jié)參數(shù)。通過計(jì)算,得出文本語義相似度。根據(jù)語義相關(guān)度,將自然語言文本中義原的重要性進(jìn)行分類,分類結(jié)果如表1所示。
表1 自然語言義原分類
由表1可知,本文設(shè)計(jì)的自然語言義原分類結(jié)果,將分類結(jié)果的4個(gè)義原值進(jìn)行線性疊加,得出2個(gè)自然語言詞語M1、M2的整體相關(guān)度,計(jì)算表達(dá)式為:
(2)
其中,β表示相關(guān)度計(jì)算模型的可調(diào)節(jié)參數(shù)。通過計(jì)算表達(dá)式,得出自然文本義原的綜合相關(guān)度結(jié)果,使其文本相關(guān)度依次遞減,全面提高自然語言語義相關(guān)度計(jì)算結(jié)果的精度,完成相關(guān)度計(jì)算模型設(shè)計(jì)的目的。
上述內(nèi)容,便是本文利用智能優(yōu)化算法,設(shè)計(jì)的自然語言語義相關(guān)度計(jì)算模型的全部流程。在此基礎(chǔ)上,進(jìn)行了如下文所示的實(shí)驗(yàn)分析,檢驗(yàn)提出計(jì)算模型的可行性與應(yīng)用效果,避免直接投入使用后存在異常,降低相關(guān)度計(jì)算結(jié)果的精確度。此次實(shí)驗(yàn)以自然語言領(lǐng)域本體作為實(shí)驗(yàn)數(shù)據(jù),該領(lǐng)域本體是結(jié)合自然語言研究指南對(duì)語言的權(quán)威說明,通過protege生成的。在實(shí)驗(yàn)開始前,選取實(shí)驗(yàn)所需的工具,搭建實(shí)驗(yàn)測試環(huán)境。本次實(shí)驗(yàn)所需的工具及說明,如表2所示。
表2 實(shí)驗(yàn)工具及說明
使用ThinkServer rd430服務(wù)器,搭建此次實(shí)驗(yàn)測試的OpenStack環(huán)境。設(shè)置服務(wù)器的內(nèi)存為64 G DDR3;硬盤為2.8 T RAIDO;系統(tǒng)為Ubuntu 16.04LTS;網(wǎng)卡為1個(gè)萬兆網(wǎng)卡,3個(gè)千兆網(wǎng)卡;開發(fā)平臺(tái)為Tensorflow框架;開發(fā)語言為Python3.6;字向量訓(xùn)練工具為Word2vec。對(duì)自然語言本體概念數(shù)據(jù)集進(jìn)行全方位的存儲(chǔ)管理,通過Jena接口的解析功能,解析自然語言本體數(shù)據(jù)。利用自然語言信息內(nèi)容、語言屬性與語義距離等因素,分別計(jì)算自然語言領(lǐng)域中概念對(duì)之間的語義相關(guān)度。由于自然語言網(wǎng)頁文本較長,數(shù)量較多,為了避免影響實(shí)驗(yàn)結(jié)果的準(zhǔn)確性,本文將所有語言詞語對(duì)劃分為了10組,避免實(shí)驗(yàn)結(jié)果存在偶然性。
為了提高實(shí)驗(yàn)結(jié)果的說服性,在實(shí)驗(yàn)中,引入對(duì)比分析的方法原理,將上述本文提出的基于智能優(yōu)化算法的自然語言語義相關(guān)度計(jì)算模型設(shè)置為實(shí)驗(yàn)組,將黃承寧等[2]1152提出的基于深度學(xué)習(xí)表示的相關(guān)度計(jì)算方法、薛毅等[3]112-113提出的基于卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)度計(jì)算方法分別設(shè)置為對(duì)照組1與對(duì)照組2,分別對(duì)3種方法的應(yīng)用效果作出檢驗(yàn)。選取斯皮爾曼相關(guān)系數(shù)作為此次實(shí)驗(yàn)的評(píng)價(jià)指標(biāo),在廣義角度上指的是語言語義相關(guān)度等級(jí)變量之間的皮爾遜相關(guān)系數(shù),其數(shù)值越大,表示語言語義相關(guān)度計(jì)算結(jié)果精度越高,方法的有效性越高。評(píng)價(jià)指標(biāo)計(jì)算表達(dá)式為:
(3)
圖2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)對(duì)比示意圖
圖2中,01表示rooster-voyage自然語言詞語對(duì);02表示noon-string自然語言詞語對(duì);03表示glass-magician自然語言詞語對(duì);04表示forest-graveyard自然語言詞語對(duì);05表示asylum-madhouse自然語言詞語對(duì);06表示furnace -stove自然語言詞語對(duì);07表示magician-wizard自然語言詞語對(duì);08表示journey-voyage自然語言詞語對(duì);09表示cemetery-woodland自然語言詞語對(duì);10表示shore woodland自然語言詞語對(duì)。通過圖1的評(píng)價(jià)指標(biāo)對(duì)比結(jié)果可以看出,本文提出的基于智能優(yōu)化算法的自然語言語義相關(guān)度計(jì)算模型應(yīng)用后,較另外兩種方法相比,各組自然語言詞語對(duì)的斯皮爾曼相關(guān)系數(shù)值均較高,表明其語義相關(guān)度計(jì)算結(jié)果更加精確,提出計(jì)算模型的有效性與可行性均較高,可以投入大規(guī)模使用。
綜上所述,為了改善傳統(tǒng)自然語言語義相關(guān)度計(jì)算模型在實(shí)際應(yīng)用過程中,計(jì)算結(jié)果精度較低、計(jì)算流程復(fù)雜的問題。本文在傳統(tǒng)相關(guān)度計(jì)算模型的基礎(chǔ)上,引入智能優(yōu)化算法,作出了改進(jìn)設(shè)計(jì)。通過研究,充分地利用了網(wǎng)絡(luò)資源,提高了語言語義相關(guān)度計(jì)算結(jié)果的精度,在自然語言文本聚類、分類方面優(yōu)勢顯著。提出計(jì)算模型的實(shí)用性較強(qiáng),能夠應(yīng)用于自然語言釋義識(shí)別任務(wù)中,結(jié)合義項(xiàng)向量使用,提取更深層次的語義特征,進(jìn)而形成完整的文本語義特征向量,性能表現(xiàn)良好,計(jì)算精度與效率較高,具有良好的應(yīng)用前景。