劉輝
摘 ?要:本文基于強(qiáng)類別特征識(shí)別算法,研究一種文本語(yǔ)義相似度的計(jì)算算法并對(duì)其性能進(jìn)行評(píng)估。為實(shí)現(xiàn)該功能并形成一種通用算法,本文設(shè)計(jì)了一種基于語(yǔ)義識(shí)別碼的語(yǔ)義函數(shù)庫(kù)作為比較對(duì)象,使用兩次模糊神經(jīng)元深度卷積機(jī)器學(xué)習(xí)算法模塊,并在兩次機(jī)器學(xué)習(xí)之間使用一次基于傅立葉變換的頻域特征提取的剛性算法,最終在該算法模塊前后使用外置的數(shù)據(jù)模糊算法和解模糊算法,實(shí)現(xiàn)了一個(gè)較復(fù)雜的機(jī)器學(xué)習(xí)通用算法。而該算法也是本文的一次技術(shù)創(chuàng)新。通過基于志愿者主觀評(píng)價(jià)的性能評(píng)估,發(fā)現(xiàn)該系統(tǒng)重點(diǎn)實(shí)現(xiàn)了漢語(yǔ)言的文本語(yǔ)義相似度評(píng)價(jià),且實(shí)現(xiàn)了81.78%的人工判斷準(zhǔn)確率對(duì)比結(jié)果,且只有5.52%的志愿者認(rèn)為系統(tǒng)判斷結(jié)果與人工判斷結(jié)果完全不一致。
關(guān)鍵詞:強(qiáng)類別特征算法;機(jī)器學(xué)習(xí);文本相似度;語(yǔ)義識(shí)別;性能評(píng)估
中圖分類號(hào):TP309 ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
Text Similarity Calculation and Performance Evaluation
based on Strong Category Features
LIU Hui
(Information Office, University of Shanghai for Science and Technology, Shanghai 200093, China)
liu_hui@usst.edu.cn
Abstract: This paper studies the algorithm of text semantic similarity calculation and its performance evaluation, based on the recognition algorithm of strong category features. In order to realize this function and form a general algorithm, this paper designs a semantic function library based on the semantic identification code as the comparison object, uses two fuzzy neuron deep convolution machine learning algorithm modules. Between two machine learning modules, one frequency domain feature extraction rigid algorithm is used based on Fourier transform. Finally, a more complex general algorithm of machine learning is realized by using external data before and after the algorithm module. This algorithm is also a technical innovation. Through the subjective performance evaluation of volunteers, it is found that the system realizes the semantic similarity evaluation of Chinese text, and achieves 81.78% of the compared manual judgment accuracy rate, and only 5.52% of the volunteers think that the results of the system are completely inconsistent with the results of manual judgment.
Keywords: strong class feature algorithm; machine learning; text similarity; semantic recognition; performance
evaluation
1 ? 引言(Introduction)
如果單純比較文本的BIG碼串或者ASIC碼串,幾乎不可能獲得文本語(yǔ)義上的相似度,比如“今天是晴天。”和“It is sunny today.”兩串文本之間,如果不使用深度機(jī)器學(xué)習(xí),很難實(shí)現(xiàn)對(duì)其語(yǔ)義的比較[1-3]。再比如“今天是晴天?!焙汀岸绽镪?yáng)光和煦?!敝g,更無(wú)法使用傳統(tǒng)方式對(duì)其進(jìn)行語(yǔ)義相似度的比較。而如果單純使用任何一種神經(jīng)元網(wǎng)絡(luò)架構(gòu)對(duì)上述字符串之間進(jìn)行比較,也很難實(shí)現(xiàn)足夠精確的文本語(yǔ)義相似度的比較結(jié)果[4-6]。所以,近年來基于語(yǔ)義函數(shù)庫(kù)和頻域特征的前置機(jī)器學(xué)習(xí)比較算法提取文本語(yǔ)義特征串,結(jié)合后置機(jī)器學(xué)習(xí)文本語(yǔ)義特征串的比較算法,在當(dāng)前文本相似度比較領(lǐng)域得到了較廣泛的應(yīng)用。
2 ?語(yǔ)義函數(shù)庫(kù)的搭建模式(Building model of the semantic function library)
早期無(wú)法使用語(yǔ)義函數(shù)庫(kù)對(duì)相關(guān)語(yǔ)義比較過程進(jìn)行大數(shù)據(jù)支持,是因?yàn)楹瘮?shù)庫(kù)的數(shù)據(jù)結(jié)構(gòu)難以得到有效且高效的設(shè)置。因?yàn)闈h語(yǔ)言中的名詞、代詞、動(dòng)詞、副詞、形容詞、介詞等,均有相對(duì)獨(dú)立且?guī)缀鯖]有重合度的語(yǔ)義評(píng)價(jià)指標(biāo)[7-9]。特別是名詞用作動(dòng)詞、名詞用作形容詞、虛介詞等復(fù)雜語(yǔ)法環(huán)境下,即便使用機(jī)器判斷其真實(shí)的詞性詞義都是一個(gè)復(fù)雜的計(jì)算量。部分研究中使用多級(jí)模糊比較的方式實(shí)現(xiàn)對(duì)語(yǔ)義函數(shù)庫(kù)的搭建,即使用詞性比較模塊先劃分輸入詞的詞性,再根據(jù)其上下文和二級(jí)庫(kù)實(shí)現(xiàn)對(duì)其語(yǔ)義語(yǔ)境的判斷。
本文重點(diǎn)研究語(yǔ)義的直接模糊實(shí)現(xiàn),即該語(yǔ)義函數(shù)庫(kù)的輸出目標(biāo)并非針對(duì)人機(jī)界面的直接判斷輸出而是采用一個(gè)語(yǔ)義深度碼指標(biāo),面向后續(xù)機(jī)器學(xué)習(xí)模塊進(jìn)行語(yǔ)義識(shí)別,比如圖1所示。
如此,在語(yǔ)義識(shí)別庫(kù)中,將每個(gè)固定詞轉(zhuǎn)化為一個(gè)5位的語(yǔ)義識(shí)別碼,該識(shí)別碼在實(shí)際剛性比較過程中并未能提供數(shù)據(jù)支持,但足以在機(jī)器學(xué)習(xí)中提供異構(gòu)化自然文本數(shù)據(jù)的同構(gòu)化支持過程。
在語(yǔ)義識(shí)別庫(kù)中,可能存在一個(gè)固定詞對(duì)應(yīng)多個(gè)語(yǔ)義識(shí)別碼的情況,比如“觀察”一詞,可能對(duì)應(yīng)名詞的弱語(yǔ)義強(qiáng)度選項(xiàng),也可能對(duì)應(yīng)動(dòng)詞的強(qiáng)語(yǔ)義強(qiáng)度選項(xiàng),且其也可以用作名詞轉(zhuǎn)動(dòng)詞或者動(dòng)詞轉(zhuǎn)名詞的應(yīng)用。這就需要在卷積神經(jīng)網(wǎng)絡(luò)支持下進(jìn)行根據(jù)上下文的語(yǔ)義篩選機(jī)器學(xué)習(xí)判斷。該判斷模式將在下文重點(diǎn)分析[10]。
實(shí)際語(yǔ)義函數(shù)庫(kù)的設(shè)計(jì)過程,并不需要對(duì)現(xiàn)代漢語(yǔ)詞典中的每個(gè)詞均進(jìn)行語(yǔ)義函數(shù)特征的設(shè)計(jì),只需要對(duì)2000—3000個(gè)常用詞的語(yǔ)義語(yǔ)勢(shì)進(jìn)行囊括,即可實(shí)現(xiàn)對(duì)大部分漢語(yǔ)言詞語(yǔ)的語(yǔ)義語(yǔ)勢(shì)提供對(duì)比數(shù)據(jù)支持,即在該語(yǔ)義函數(shù)庫(kù)中,約包含8000—12000個(gè)比較關(guān)聯(lián)函數(shù)。
3 ? 強(qiáng)類別特征比較的整體算法模式分析(Analysis of the whole algorithm pattern of strong category feature comparison)
如圖2所示,系統(tǒng)中輸入兩個(gè)待比較的字符串,字符串長(zhǎng)度不限。在強(qiáng)卷積和流輸入模式下,在語(yǔ)義函數(shù)庫(kù)的支持下,使用一個(gè)模糊神經(jīng)元卷積網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)其語(yǔ)義串的生成過程。使用傅立葉變換函數(shù)為核心基函數(shù)的頻域特征分析模塊,對(duì)該算法生成的語(yǔ)義串進(jìn)行二次分析,各得到一個(gè)時(shí)域特征串。然后兩列特征串經(jīng)過一個(gè)模糊神經(jīng)元卷積網(wǎng)絡(luò)得到一個(gè)比較值Double結(jié)果,最后使用一個(gè)解模糊模塊對(duì)其進(jìn)行解模糊計(jì)算,使用一個(gè)普通格式化輸出模塊對(duì)其比較結(jié)果進(jìn)行輸出。這一整合算法共使用了兩個(gè)模糊神經(jīng)元卷積網(wǎng)絡(luò)對(duì)兩列字符串進(jìn)行了語(yǔ)義比較,可以最大程度減少每個(gè)神經(jīng)元網(wǎng)絡(luò)的算力需求,以提升系統(tǒng)效率。
3.1 ? 語(yǔ)義函數(shù)庫(kù)比較模塊設(shè)計(jì)
語(yǔ)義函數(shù)庫(kù)采用雙環(huán)卷積的流數(shù)據(jù)比較模式運(yùn)行,即針對(duì)語(yǔ)義函數(shù)庫(kù)的每記錄輸入,分別對(duì)比較字符串進(jìn)行遍歷,獲得對(duì)應(yīng)結(jié)果并進(jìn)行輸出。該模塊屬于典型的模糊神經(jīng)元深度卷積網(wǎng)絡(luò)算法,其核心控制變量為語(yǔ)義函數(shù)庫(kù)的指針變量,次要控制變量為兩列比較字符串的指針變量。輸出變量為針對(duì)兩列比較字符串指針的語(yǔ)義串?dāng)?shù)據(jù)。詳見圖3。
在圖3功能設(shè)計(jì)中,兩個(gè)比較字符串獨(dú)立實(shí)現(xiàn)比較,即實(shí)現(xiàn)一個(gè)針對(duì)比較函數(shù)庫(kù)的遍歷指針i,針對(duì)每個(gè)i,對(duì)比較串中根據(jù)比較函數(shù)庫(kù)中的目標(biāo)字符串長(zhǎng)度,使用一個(gè)指針j對(duì)比較字符串進(jìn)行逐字符遍歷,形成一個(gè)比較串指針。即對(duì)于庫(kù)輸入和比較串輸入來說,其字符串長(zhǎng)度相等。本文限定其每個(gè)比較字符串的長(zhǎng)度不超過4字符即8字節(jié)。古該模糊神經(jīng)元網(wǎng)絡(luò)的唯一兩個(gè)輸入量,長(zhǎng)度均不超過8字節(jié)的Bit數(shù)據(jù)。但因?yàn)橄到y(tǒng)需要充分考慮上下文影響,所以應(yīng)對(duì)該輸入數(shù)據(jù)進(jìn)行深度卷積,所以該模塊使用了雙環(huán)卷積的方法,其中A環(huán)和B環(huán)都是四個(gè)模塊,每個(gè)模塊按照3、7、13、5、1的隱藏層結(jié)構(gòu)進(jìn)行節(jié)點(diǎn)設(shè)計(jì),且每個(gè)卷積模塊的節(jié)點(diǎn)均按照高階多項(xiàng)式回歸的方式進(jìn)行節(jié)點(diǎn)設(shè)計(jì),其節(jié)點(diǎn)函數(shù)可寫做:
(1)
其輸入模塊輸入1個(gè)8字節(jié)bit變量,輸出一個(gè)4字節(jié)Double變量,隱藏層按照3、7、3的隱藏層結(jié)構(gòu)進(jìn)行節(jié)點(diǎn)設(shè)計(jì),采用線性函數(shù)對(duì)其節(jié)點(diǎn)進(jìn)行設(shè)計(jì)。其節(jié)點(diǎn)函數(shù)可寫做:
(2)
其輸出模塊整合A1、B1、B4三個(gè)卷積模塊的輸出量,均為Double變量,該模塊的統(tǒng)計(jì)學(xué)意義是將該三組輸入數(shù)據(jù)充分二值化,故采用二值化函數(shù)對(duì)其進(jìn)行管理。其隱藏層應(yīng)達(dá)到足夠的深度,故采用五層隱藏層設(shè)計(jì),按照5、17、31、13、3的隱藏層結(jié)構(gòu)進(jìn)行節(jié)點(diǎn)設(shè)計(jì)。其節(jié)點(diǎn)函數(shù)可寫做:
(3)
在語(yǔ)義串的輸出模塊中,根據(jù)實(shí)時(shí)輸出的比較結(jié)果,當(dāng)其結(jié)果接近1.000時(shí),讀取特征語(yǔ)義識(shí)別碼與比較串指針生成該比較串指針位置的語(yǔ)義識(shí)別碼序列,而當(dāng)其結(jié)果接近0.000時(shí),該比較串指針對(duì)應(yīng)的語(yǔ)義識(shí)別碼定義為0。當(dāng)比較串指針對(duì)應(yīng)的語(yǔ)義識(shí)別碼已經(jīng)存在定義時(shí),則使用算數(shù)平均法,給出均值結(jié)果。即使用該算法生成的機(jī)器學(xué)習(xí)語(yǔ)義串,無(wú)法從語(yǔ)義函數(shù)庫(kù)中反查其語(yǔ)義,但足以供后續(xù)的三個(gè)模塊生成機(jī)器學(xué)習(xí)結(jié)果。
綜合該模塊的子模塊設(shè)計(jì),可以得到表1。
3.2 ? 頻域特征分析模塊設(shè)計(jì)
3.1中生成的機(jī)器學(xué)習(xí)語(yǔ)義串的本質(zhì)是一個(gè)時(shí)域函數(shù),即其標(biāo)定了在輸入字符串字符順序指針序列上的語(yǔ)義識(shí)別碼信息。但該串仍存在一定的時(shí)域上的特異性。所以,頻域特征分析模塊的統(tǒng)計(jì)學(xué)意義是將該時(shí)域上的特異性進(jìn)行削弱,從而得到一個(gè)頻域特征數(shù)據(jù)。該模塊需要進(jìn)行一次基于時(shí)域數(shù)據(jù)的頻域特征提取計(jì)算過程。而該過程通過一次傅立葉變換即可實(shí)現(xiàn)。
首先根據(jù)語(yǔ)義串的指針t,得到其語(yǔ)義識(shí)別碼,對(duì)進(jìn)行基于傅立葉變換的頻域特征提?。?/p>
(4)
得到特征函數(shù)后,根據(jù)指針t的總長(zhǎng)度,將進(jìn)行劃分,并提取其結(jié)果,即可形成其頻域特征串。
該過程屬于剛性計(jì)算過程,并未牽扯到任何機(jī)器學(xué)習(xí)算法,即本文是在兩個(gè)模糊神經(jīng)元網(wǎng)絡(luò)模塊之間,進(jìn)行一個(gè)基于剛性算法的數(shù)據(jù)治理過程。
3.3 ? 核心比較模塊設(shè)計(jì)
兩列頻域特征串,即頻域特征串A與頻域特征串B,輸入到核心比較模塊中,該比較模塊也是一個(gè)模糊神經(jīng)元網(wǎng)絡(luò)卷積算法模塊。詳見圖4。
該模塊的模糊化過程核心算法是判斷兩個(gè)頻域特征串的長(zhǎng)度,使用差值法將頻域特征串進(jìn)行等長(zhǎng)轉(zhuǎn)化。然后根據(jù)等長(zhǎng)轉(zhuǎn)化后的特征串指針作為控制變量,構(gòu)成兩個(gè)輸入串,然后形成一個(gè)4模塊(A、B、C、D)的卷積模塊,其中卷積A和卷積B的統(tǒng)計(jì)學(xué)意義是整合輸入串?dāng)?shù)據(jù)(Long型變量)到卷積循環(huán)中,卷積C和卷積D的統(tǒng)計(jì)學(xué)意義是為輸出模塊各提供一個(gè)Double數(shù)據(jù)。最終在等長(zhǎng)指針的條件下,對(duì)所有比較結(jié)果提供一個(gè)算數(shù)平均值結(jié)果。該結(jié)果即是兩組待比較字符串的模糊比較結(jié)果。
該模塊的子模塊設(shè)計(jì)思路與語(yǔ)義函數(shù)庫(kù)比較模塊類似,其中兩個(gè)輸入串按照線性回歸函數(shù)進(jìn)行節(jié)點(diǎn)管理,隱藏層結(jié)構(gòu)為3、7、3,節(jié)點(diǎn)函數(shù)如函數(shù)(2),四個(gè)卷積模塊按照高階多項(xiàng)式回歸函數(shù)進(jìn)行節(jié)點(diǎn)管理,隱藏層結(jié)構(gòu)為3、7、13、5、1,節(jié)點(diǎn)函數(shù)如函數(shù)(1),一個(gè)輸出模塊按照二值化回歸函數(shù)進(jìn)行接地單管理,隱藏層結(jié)構(gòu)為3、7、3,節(jié)點(diǎn)函數(shù)如函數(shù)(3)。所以,該模塊的實(shí)際設(shè)計(jì)參數(shù)匯總表如表2。
3.4 ? 解模糊及格式化輸出模塊設(shè)計(jì)
根據(jù)前文分析,該算法的最終輸出結(jié)果,是經(jīng)過深度代數(shù)平均計(jì)算的二值化結(jié)果均值結(jié)果,所以,最終數(shù)據(jù)的二值化特征并不顯著。即該模型的最終落點(diǎn)基本集中在[0,1]區(qū)間上,也有部分結(jié)果超出了該區(qū)間。即該輸出結(jié)果是一個(gè)深度模糊化的輸出結(jié)果。
在模糊化過程中,可以限定兩個(gè)閾值,即輸出結(jié)果大于某值M時(shí),此兩段文本的相似度處于高置信區(qū),輸出結(jié)果小于某值N時(shí),此兩端文本的相似度處于低置信區(qū),但仍有較大可能處于[N,M]區(qū)間中,此時(shí)系統(tǒng)給出一個(gè)弱相似結(jié)果。即本文算法最終的格式化輸出結(jié)果中,包含三種判斷結(jié)果的輸出可能,即兩端文本的語(yǔ)義強(qiáng)相似、弱相似、不相似,而強(qiáng)相似和不相似結(jié)果的輸出頻率,應(yīng)確保在80%以上,才可以實(shí)現(xiàn)該算法的實(shí)際應(yīng)用場(chǎng)景適應(yīng)性。
4 ? 算法性能評(píng)估(The performance evaluation of algorithm )
因?yàn)槲谋菊Z(yǔ)義的相似性評(píng)價(jià)結(jié)果的本質(zhì)是用戶的主觀評(píng)價(jià)結(jié)果,所以,在進(jìn)行評(píng)估的過程中,選擇100位志愿者,均為有一定文學(xué)批評(píng)功底的漢語(yǔ)言文學(xué)、國(guó)際漢語(yǔ)、漢語(yǔ)言教育專業(yè)的本科以上在校生,選取50對(duì)文本段進(jìn)行比較,以發(fā)現(xiàn)系統(tǒng)對(duì)該50對(duì)文本段的評(píng)價(jià)結(jié)果與志愿者的人工判讀結(jié)果的一致性。志愿者將對(duì)系統(tǒng)給出的判斷結(jié)果給出非常一致(10分)基本一致(6分)不一致(3分)完全不一致(0分)的主觀評(píng)價(jià),以判斷系統(tǒng)的文本語(yǔ)義相似性判斷的準(zhǔn)確率。最終評(píng)估結(jié)果中,100位志愿者在對(duì)應(yīng)的5000次評(píng)價(jià)比較過程中,給出非常一致評(píng)價(jià)2763次,占55.26%,給出基本一致評(píng)價(jià)1326次,占26.52%,給出不一致評(píng)價(jià)635次,占12.70%,給出完全不一致評(píng)價(jià)276次,占5.52%。該系統(tǒng)的綜合判斷準(zhǔn)確率(非常一致與基本一致的綜合占比)為81.78%,綜合主觀得分為74.98分(滿分100分)。
在5000次評(píng)價(jià)中,系統(tǒng)共給出強(qiáng)相似評(píng)價(jià)1031次,占10.62%,弱相似評(píng)價(jià)391次,占7.82%,不相似評(píng)價(jià)3578次,占71.56%,其中強(qiáng)相似評(píng)價(jià)與不相似評(píng)價(jià)之和為4609次,占92.18%,滿足了本文設(shè)計(jì)需求(詳見3.4)。
5 ? 結(jié)論(Conclusion)
該系統(tǒng)重點(diǎn)實(shí)現(xiàn)了漢語(yǔ)言的文本語(yǔ)義相似度評(píng)價(jià),且實(shí)現(xiàn)了81.78%的人工判斷準(zhǔn)確率對(duì)比結(jié)果,且只有5.52%的志愿者認(rèn)為系統(tǒng)判斷結(jié)果與人工判斷結(jié)果完全不一致。因?yàn)楫?dāng)前基于機(jī)器學(xué)習(xí)的自然語(yǔ)言語(yǔ)義判斷仍屬于尖端課題,實(shí)現(xiàn)該判斷準(zhǔn)確率較相關(guān)文獻(xiàn)針對(duì)單一判斷目標(biāo)的判斷準(zhǔn)確率仍有一定的先進(jìn)性。該系統(tǒng)是一種通用語(yǔ)義判斷算法,通過對(duì)語(yǔ)義函數(shù)庫(kù)的進(jìn)一步完善,以及對(duì)兩組判斷神經(jīng)元網(wǎng)絡(luò)機(jī)器學(xué)習(xí)模塊的更深度訓(xùn)練,該判斷準(zhǔn)確率還可以進(jìn)一步提升。
參考文獻(xiàn)(References)
[1] 劉思華,曾傳祿.“能”和“會(huì)”的情態(tài)語(yǔ)義比較[J].沈陽(yáng)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2020,22(01):95-100;105.
[2] 王友良.比較語(yǔ)義關(guān)系形容詞的強(qiáng)語(yǔ)勢(shì)表達(dá)探究[J].焦作大學(xué)學(xué)報(bào),2019,33(04):7-11.
[3]祝晶.俄漢比較范疇的語(yǔ)義類型及其表達(dá)手段[J].中國(guó)俄語(yǔ)教學(xué),2020,39(01):34-43.
[4] 顏冰,張輝.框架語(yǔ)義視角下中美貿(mào)易戰(zhàn)話語(yǔ)的歷時(shí)比較分析[J].外國(guó)語(yǔ)文,2020,36(01):1-8.
[5] 馬慧芳,劉文,李志欣,等.融合耦合距離區(qū)分度和強(qiáng)類別特征的短文本相似度計(jì)算方法[J].電子學(xué)報(bào),2019,047(006):1331-1336.
[6] 王偉,朱立明,章強(qiáng),等.基于相似性分析和閾值自校正的煙箱缺條智能檢測(cè)方法[J].煙草科技,2019,52(01):97-103.
[7] 宋呈祥,陳秀宏,牛強(qiáng).文本分類中基于CHI改進(jìn)的特征選擇方法[J].傳感器與微系統(tǒng),2019,38(02):37-40.
[8] 何春輝.一種基于文本相似度的網(wǎng)頁(yè)新聞標(biāo)題自動(dòng)抽取算法[J].湖南城市學(xué)院學(xué)報(bào)(自然科學(xué)版),2019,28(01):61-64.
[9] Liu W, Ma H, Tuo T, et al. Co-occurrence distanceand discrimination based similarity measure on short Text[J]. Computer Engineering and Science, 2018, 40(7): 1281-1286.
[10] Liu Weiru, Giunchiglia, Fausto, et al. International Conference on Knowledge Science, Engineering and Management[C]. Australia: Springer, 2018(08): 67-75.
作者簡(jiǎn)介:
劉 ?輝(1984-),男,碩士,初級(jí)工程師.研究領(lǐng)域:信息研究,網(wǎng)絡(luò)安全.