• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于膠囊網(wǎng)絡(luò)的文本數(shù)據(jù)真值發(fā)現(xiàn)

      2023-03-11 05:03:24陶嘉慶樊樹海曹建軍
      計(jì)算機(jī)仿真 2023年1期
      關(guān)鍵詞:真值數(shù)據(jù)源語義

      陶嘉慶,樊樹海,曹建軍,常 宸

      (1. 南京工業(yè)大學(xué),江蘇 南京 210009;2. 國防科技大學(xué)第六十三研究所,江蘇 南京 210007;3. 陸軍工程大學(xué),江蘇 南京 210007)

      1 引言

      隨著通信網(wǎng)絡(luò)不斷進(jìn)步,移動(dòng)通信設(shè)備和互聯(lián)網(wǎng)平臺(tái)也在快速發(fā)展,數(shù)以億計(jì)的用戶每天都會(huì)產(chǎn)生海量數(shù)據(jù)。數(shù)據(jù)信息為人們的生活帶來便利的同時(shí),也使得數(shù)據(jù)質(zhì)量問題日益凸顯。由于互聯(lián)網(wǎng)的開放性和多源性,不同互聯(lián)網(wǎng)平臺(tái)所提供的關(guān)于同一實(shí)體或事件的描述常有差異,網(wǎng)絡(luò)數(shù)據(jù)存在過時(shí)、不完整甚至錯(cuò)誤等問題,用戶難以獲取準(zhǔn)確可靠的信息[1],低質(zhì)量數(shù)據(jù)也會(huì)給平臺(tái)和用戶帶來不可估量的損失。因此,提高數(shù)據(jù)質(zhì)量,充分發(fā)揮數(shù)據(jù)價(jià)值是當(dāng)前大數(shù)據(jù)領(lǐng)域的研究重點(diǎn)。

      數(shù)據(jù)沖突是造成數(shù)據(jù)準(zhǔn)確性降低的關(guān)鍵問題,提高數(shù)據(jù)質(zhì)量的首要工作是對(duì)沖突數(shù)據(jù)進(jìn)行消解。真值發(fā)現(xiàn)是對(duì)沖突數(shù)據(jù)進(jìn)行消解的重要技術(shù)手段,能從不同數(shù)據(jù)源提供的沖突信息中找出正確信息。傳統(tǒng)真值發(fā)現(xiàn)是基于結(jié)構(gòu)化數(shù)據(jù)進(jìn)行研究的,主要采用投票和求平均值的方法,這些方法假設(shè)所有數(shù)據(jù)的來源同樣可靠,但是該假設(shè)在大多數(shù)情況下并不成立[2],因此傳統(tǒng)真值發(fā)現(xiàn)方法的準(zhǔn)確率較低。大多數(shù)學(xué)者對(duì)文本數(shù)據(jù)真值發(fā)現(xiàn)問題進(jìn)行簡化,將問題轉(zhuǎn)化為二值屬性問題進(jìn)行研究[3],但是該方法難以對(duì)數(shù)據(jù)源和觀測值之間的復(fù)雜關(guān)系進(jìn)行有效表征,不能適用于真值發(fā)現(xiàn)的一般場景。

      隨著深度學(xué)習(xí)的快速發(fā)展,神經(jīng)網(wǎng)絡(luò)逐漸被應(yīng)用到結(jié)構(gòu)化數(shù)據(jù)真值發(fā)現(xiàn)中,將數(shù)據(jù)源與觀測值信息輸入前饋神經(jīng)網(wǎng)絡(luò),通過訓(xùn)練網(wǎng)絡(luò)自主學(xué)習(xí)數(shù)據(jù)源和觀測值之間的關(guān)系來尋求真值[4]。隨后神經(jīng)網(wǎng)絡(luò)應(yīng)用于文本數(shù)據(jù)真值發(fā)現(xiàn),將語義表征后的文本向量輸入CNN提取特征信息,但是傳統(tǒng)CNN池化層采用最大池化算法選擇特征信息來表征文本語義,即選擇特征值最大的特征信息,丟棄特征值小的特征信息,造成文本語義丟失,且CNN采用標(biāo)量輸出特征檢測器傳輸特征信息,無法獲取文本數(shù)據(jù)空間及位置信息。

      本文基于真值發(fā)現(xiàn)的基本假設(shè):真值應(yīng)盡可能的與各數(shù)據(jù)源所提供的觀測值接近;數(shù)據(jù)源質(zhì)量越高,則其所提供的答案與真值越相似[5],提出一種基于膠囊網(wǎng)絡(luò)的文本數(shù)據(jù)真值發(fā)現(xiàn)算法,在神經(jīng)網(wǎng)絡(luò)模型中構(gòu)造語義膠囊層,采用矢量傳播方式取代傳統(tǒng)神經(jīng)網(wǎng)絡(luò)方法中的標(biāo)量傳播方式,提取更加豐富的文本語義信息,有效提高真值發(fā)現(xiàn)的準(zhǔn)確率。

      本文的主要貢獻(xiàn)如下:

      1)采用語義膠囊替代CNN池化層,利用動(dòng)態(tài)路由算法解決最大池化算法丟失語義信息的問題,在真實(shí)數(shù)據(jù)集上Caps-Truth的平均準(zhǔn)確率相較于CNN-Truth提高了12.46%;

      2)使用矢量輸出膠囊替代傳統(tǒng)神經(jīng)網(wǎng)絡(luò)標(biāo)量輸出特征檢測器,將標(biāo)量特征轉(zhuǎn)化為向量特征,多維度獲取文本語義信息;

      3)減少了Caps-Truth對(duì)樣本量的依賴,使用小規(guī)模數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò)模型,就可取得很好效果。在小規(guī)模數(shù)據(jù)集上Caps-Truth的平均準(zhǔn)確率相較于大規(guī)模數(shù)據(jù)集提高了2.16%。

      2 相關(guān)工作

      研究者針對(duì)結(jié)構(gòu)相對(duì)簡單、場景單一的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行研究并提出一些傳統(tǒng)真值發(fā)現(xiàn)算法。Yin等人[6]首先提出TruthFinder算法,該算法打破了所有數(shù)據(jù)源同樣可靠的假設(shè),并提出兩個(gè)新的假設(shè):1)若數(shù)據(jù)源提供越多真實(shí)信息,則該數(shù)據(jù)源越可靠;2)若信息由可靠數(shù)據(jù)源提供,則該信息越可信。眾多學(xué)者在這兩個(gè)假設(shè)的基礎(chǔ)上進(jìn)行研究并提出基于優(yōu)化、迭代、概率圖模型和神經(jīng)網(wǎng)絡(luò)的傳統(tǒng)真值發(fā)現(xiàn)算法。Li等人[7]通過設(shè)置目標(biāo)函數(shù),將真值發(fā)現(xiàn)問題轉(zhuǎn)化為優(yōu)化問題進(jìn)行求解。Poler等人[10]采用坐標(biāo)下降法,通過固定一個(gè)值,迭代尋求另一個(gè)值的最優(yōu)解,從而計(jì)算數(shù)據(jù)源可靠度和觀測值可信度。Zhou等人[11]通過固定數(shù)據(jù)源可靠度,以加權(quán)平均的方式計(jì)算真值,利用本次迭代產(chǎn)生的真值評(píng)估數(shù)據(jù)源可靠度。Marshall[4]首次在真值發(fā)現(xiàn)問題中應(yīng)用神經(jīng)網(wǎng)絡(luò),利用前饋神經(jīng)網(wǎng)絡(luò)求解相關(guān)問題,以人工標(biāo)記部分對(duì)象的方式,判斷網(wǎng)絡(luò)觀測值是否為真。然而傳統(tǒng)真值發(fā)現(xiàn)算法[12-14]采用簡單函數(shù)來描述數(shù)據(jù)源與觀測值間的關(guān)系,但它們之間的依賴關(guān)系非常復(fù)雜,簡單函數(shù)無法對(duì)其準(zhǔn)確描述,所以傳統(tǒng)真值發(fā)現(xiàn)算法的適用性受到制約。

      對(duì)于文本數(shù)據(jù)真值發(fā)現(xiàn)問題,國內(nèi)外學(xué)者也提出了一些方法。Popat等人[3]通過構(gòu)建“數(shù)據(jù)源-語言風(fēng)格”輸入向量,利用Logistic回歸將問題轉(zhuǎn)化為二分類問題,判斷用戶聲明是否正確。Ma等人[15~16]通過將文本語義引入到真值發(fā)現(xiàn)中,將概率圖模型作為基礎(chǔ),提出細(xì)粒度文本數(shù)據(jù)真值發(fā)現(xiàn)算法。Li[17]提出一種從眾包用戶中提取可靠答案的方法,通過將文本信息完全融入到真值發(fā)現(xiàn)中,將觀測值分布用Beta分布模擬出來。Ouyang[18]將真值發(fā)現(xiàn)應(yīng)用于移動(dòng)眾包場景,通過對(duì)位置訪問指標(biāo)、用戶位置流行度、事件真相和用戶可靠度進(jìn)行建模,對(duì)用戶位置的訪問趨勢進(jìn)行模擬,無需監(jiān)督和位置追蹤即可自動(dòng)發(fā)現(xiàn)真實(shí)事件。但是上述方法在提取語義信息和獲取上下文關(guān)聯(lián)上仍有不足。

      膠囊網(wǎng)絡(luò)由Sara等人[19]于2017年首次提出,該網(wǎng)絡(luò)使用一組向量表示的膠囊神經(jīng)元來替代傳統(tǒng)CNN中的標(biāo)量神經(jīng)元,向量的大小和方向均可對(duì)檢測對(duì)象的特征進(jìn)行表達(dá),能夠克服CNN易丟失信息的缺點(diǎn),并且采用動(dòng)態(tài)路由算法替代傳統(tǒng)CNN的最大池化算法,能夠更有效地獲取文本數(shù)據(jù)上下文的語義信息。膠囊網(wǎng)絡(luò)首先應(yīng)用于圖像分類[19],并在MNIST數(shù)據(jù)集上取得了優(yōu)于CNN的結(jié)果。在文本數(shù)據(jù)研究中,Zhao等人[20]首次將膠囊網(wǎng)絡(luò)應(yīng)用于文本分類問題,使用卷積層提取文本數(shù)據(jù)整體特征信息,再通過膠囊網(wǎng)絡(luò)提取局部特征信息后進(jìn)行分類。Xia等人[21]在膠囊網(wǎng)絡(luò)的基礎(chǔ)上提出意圖膠囊模型,采用動(dòng)態(tài)路由機(jī)制對(duì)文本意圖進(jìn)行分類。針對(duì)小規(guī)模數(shù)據(jù)集,Renkens[22]提出雙向循環(huán)神經(jīng)網(wǎng)絡(luò)編碼的膠囊網(wǎng)絡(luò)模型,利用有限的數(shù)據(jù)集進(jìn)行訓(xùn)練,由于動(dòng)態(tài)路由機(jī)制可以獲取文本細(xì)粒度語義信息,該算法在小規(guī)模數(shù)據(jù)集上取得的效果要優(yōu)于CNN等方法。

      3 問題描述

      文本數(shù)據(jù)真值發(fā)現(xiàn)是指對(duì)給定的某個(gè)問題,從不同用戶提供的眾多答案中找出正確答案。表1所列為不同用戶對(duì)問題“How to prevent COVID-19 effectively?”的回答。

      表1 用戶回答實(shí)例

      由表1可知,不同用戶關(guān)于“How to prevent COVID-19 effectively?”這一問題的回答都不相同,但用戶1、用戶2、用戶4的答案包含了正確答案的不同關(guān)鍵因素,因此這三個(gè)答案是部分正確的。文本數(shù)據(jù)具有詞語使用多樣性、答案多因素屬性等自然語言特性,只有對(duì)文本數(shù)據(jù)進(jìn)行細(xì)粒度特征提取,獲取到每個(gè)細(xì)粒度單元的準(zhǔn)確語義信息,才能評(píng)估用戶答案的可信度。

      定義文本數(shù)據(jù)真值發(fā)現(xiàn)模型如下:

      1)定義問題:給定問題q,用戶集合U={uj|j=1,2,…,m},其中uj表示第j名用戶,m表示用戶數(shù)量。問題q由m名用戶回答,每名用戶提供一個(gè)答案,構(gòu)成問題q的答案集合A={aj|j=1,2,…,m}。

      4 用戶答案預(yù)處理

      文本數(shù)據(jù)的預(yù)處理對(duì)真值發(fā)現(xiàn)研究至關(guān)重要,有效的預(yù)處理可以提高真值發(fā)現(xiàn)的準(zhǔn)確率。用戶答案預(yù)處理包括語義表征和用戶答案去噪。

      4.1 語義表征

      語義表征是將文本轉(zhuǎn)化為包含語義信息的g維向量,采用GloVe(Global Vectors for Word Representation)詞嵌入工具和SIF(Smooth Inverse Frequency)[16]方法對(duì)用戶答案aj進(jìn)行語義表征。語義表征過程如圖1所示,主要分為以下兩個(gè)步驟:

      1)獲取詞向量。

      圖1 語義表征過程示意圖

      對(duì)于用戶答案aj,首先通過GloVe詞嵌入工具獲取到aj中每個(gè)單詞的詞向量。GloVe考慮文本數(shù)據(jù)細(xì)粒度問題,從語義相似性的角度對(duì)用戶答案進(jìn)行細(xì)粒度度量,將用戶答案中的每個(gè)詞映射到一個(gè)詞向量,降低了詞語使用多樣性對(duì)語義表征的影響,式(1)為GloVe的表征公式

      xjt=fGloVe(ajt)(t=1,2,…,l)

      (1)

      式(1)中,ajt表示第j個(gè)文本答案中的第t個(gè)單詞,l表示aj中單詞總數(shù),xjt為單詞ajt的詞向量,fGloVe表示GloVe的映射函數(shù)。

      2)詞向量加權(quán)。

      用戶答案中關(guān)鍵詞的語義信息很大程度上決定了該答案的可信度,第二步利用SIF方法根據(jù)單詞的詞頻來計(jì)算每個(gè)單詞的權(quán)重值,提升答案關(guān)鍵詞在句向量中的比重。式(2)為單詞ajt的權(quán)重計(jì)算公式。

      (2)

      式(2)中,wjt表示單詞ajt的權(quán)重值,?為權(quán)重值wjt的調(diào)整參數(shù),?的取值范圍為(10-4,10-3),pjt為單詞ajt的詞頻。詞頻pjt的設(shè)置使得頻次越低的詞,其重要性就越大,而詞頻越高的詞,其重要性也就相對(duì)越小。采用加權(quán)平均的方式,降低了答案中非關(guān)鍵詞的語義信息對(duì)用戶答案整體語義的干擾,提高了句向量的表征能力。

      通過加權(quán)平均,得到aj的句向量xj。式(3)為句向量xj的計(jì)算公式

      (3)

      答案集合A={aj|j=1,2,…,m}經(jīng)過語義表征后生成用戶答案矩陣X=[x1,x2,…,xm]。

      4.2 用戶答案去噪

      如表1所列,某一問題的眾多答案中,存在著一些不能提供有效信息的答案,將這些答案稱為噪聲答案(如用戶3的答案)。噪聲答案的存在,會(huì)對(duì)真值發(fā)現(xiàn)造成干擾,因此通過構(gòu)造用戶答案高維向量空間將其剔除。噪聲答案不能提供可靠信息,其向量結(jié)構(gòu)與有效答案的向量結(jié)構(gòu)差異較大,將其嵌入到高維向量空間后,與有效答案的空間距離較遠(yuǎn)。

      根據(jù)真值發(fā)現(xiàn)的基本假設(shè):真值應(yīng)盡可能的與各觀測值接近;高質(zhì)量數(shù)據(jù)源所提供的觀測值與真值也越接近。噪聲答案的語義信息與求解問題無關(guān),因此與正確答案或者部分正確答案的相似度較低。通過將所有用戶答案嵌入到高維向量空間,計(jì)算各答案間的余弦距離dis,當(dāng)某個(gè)用戶答案與φ個(gè)用戶答案的距離超過?時(shí),則將其視為噪聲答案并將其從用戶答案矩陣X中剔除,否則該答案為有效答案。式(4)為高維向量空間中用戶答案間余弦距離dis的計(jì)算公式

      (4)

      經(jīng)高維向量空間去噪后生成新的用戶答案矩陣X=[x1,x2,…,xn],n為去除噪聲答案后的用戶答案數(shù)量。

      5 Caps-Truth模型

      傳統(tǒng)CNN包括卷積層和池化層,池化層利用最大池化算法提取文本語義信息時(shí)會(huì)丟失部分信息,導(dǎo)致用戶答案語義信息不全。Caps-Truth模型對(duì)傳統(tǒng)CNN進(jìn)行改進(jìn),在網(wǎng)絡(luò)模型中構(gòu)造了語義膠囊層替換池化層,用于表征用戶答案的語義信息。改進(jìn)后的網(wǎng)絡(luò)解決了傳統(tǒng)CNN丟失語義信息的問題,使用膠囊神經(jīng)元作為用戶答案上下文語義信息表征的基本結(jié)構(gòu),挖掘用戶答案細(xì)粒度的語義信息。Caps-Truth真值發(fā)現(xiàn)算法模型如圖2所示,模型由輸入層、網(wǎng)絡(luò)層和輸出層組成,本節(jié)將對(duì)模型的主要網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行介紹。

      圖2 Caps-Truth模型結(jié)構(gòu)圖

      5.1 輸入層

      模型的輸入層為n×g的輸入矩陣,其中n為去噪后的用戶答案數(shù)量,g為用戶答案向量的維度。

      5.2 網(wǎng)絡(luò)層

      Caps-Truth網(wǎng)絡(luò)層包含四層網(wǎng)絡(luò)結(jié)構(gòu):卷積層、初始膠囊層、語義膠囊層和全連接層。首先通過卷積層提取用戶答案整體標(biāo)量信息,然后初始膠囊層對(duì)上層提取的特征信息進(jìn)行初始特征向量化,再由語義膠囊層中的語義膠囊利用動(dòng)態(tài)路由算法對(duì)特征向量進(jìn)行重新組合,得到能夠進(jìn)一步表征用戶答案關(guān)鍵語義信息的特征向量;最后將特征向量輸入全連接神經(jīng)網(wǎng)絡(luò)挖掘用戶答案可信度,輸出用戶答案可信度矩陣。

      5.2.1 卷積層

      卷積核是CNN的核心組件,卷積層通過卷積核提取用戶答案的全局特征。與傳統(tǒng)卷積層使用單一尺寸的卷積核不同,本文為了適應(yīng)輸入的用戶答案向量,使用不同尺寸的卷積核生成多個(gè)特征映射來豐富全局特征。

      (5)

      式(5)中,R為卷積核數(shù)量,b1為卷積層偏置項(xiàng),f1為非線性激活函數(shù)。用戶答案矩陣X=[x1,x2,…,xn]經(jīng)過卷積層提取特征后的生成全局特征矩陣Y=[y1,y2,…,yn-N1+1]。

      5.2.2 初級(jí)膠囊層

      與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中標(biāo)量神經(jīng)元不同,膠囊網(wǎng)絡(luò)由一組向量神經(jīng)元組成,向量神經(jīng)元可將標(biāo)量信息轉(zhuǎn)化為向量信息,向量信息的長度和方向均可對(duì)用戶答案的特征信息進(jìn)行表達(dá),使得特征信息更加豐富。用戶答案中單詞語義和單詞在用戶答案中的位置等屬性可由膠囊神經(jīng)元的活動(dòng)表達(dá),這些屬性通常包含著許多不同類型的實(shí)例化參數(shù)。初級(jí)膠囊層采用矢量輸出膠囊替代傳統(tǒng)神經(jīng)網(wǎng)絡(luò)標(biāo)量輸出特征檢測器,對(duì)卷積層輸出的全局特征矩陣做向量化處理,輸出特征向量同時(shí)保存用戶答案屬性的實(shí)例化參數(shù)。

      設(shè)膠囊維度為d,則初始膠囊層有n-N1+1個(gè)d維膠囊。初級(jí)膠囊層滑動(dòng)窗口濾波器為W2,濾波器數(shù)量為G,步長為N2。式(6)為初級(jí)膠囊層實(shí)例化參數(shù)vr的表達(dá)式。

      vr=f2(yj°W2+b2)(r=1,2,…,G)

      (6)

      式(6)中,b2為初級(jí)膠囊層偏執(zhí)項(xiàng),f2為非線性激活函數(shù)。全局特征矩陣Y=[y1,y2,…,yn-N1+1]經(jīng)過矢量輸出膠囊向量化處理后生成特征矩陣V=[v1,v2,…,vG]。

      5.2.3 語義膠囊層

      為了提取細(xì)粒度的語義信息,本文在Caps-Truth模型的網(wǎng)絡(luò)結(jié)構(gòu)中添加了語義膠囊層,通過語義膠囊神經(jīng)元來提取更豐富的語義信息和編碼單詞位置,整合零散語義,獲取用戶答案關(guān)鍵詞語義信息的表征。

      語義膠囊層采用動(dòng)態(tài)路由算法將初始膠囊層輸出的特征矩陣V傳送到下一層級(jí)網(wǎng)絡(luò)。膠囊神經(jīng)元?jiǎng)討B(tài)路由算法示意圖如圖3所示。

      動(dòng)態(tài)路由算法的運(yùn)算原理如式(7~10)所示。

      圖3 動(dòng)態(tài)路由算法示意圖

      hk=Dkvk

      (7)

      s=c1h1+c2h2+…+cGhG

      (8)

      v=fSquash(s)

      (9)

      (10)

      式(7~10)中,D1,D2,…,DG為權(quán)重矩陣,c1,c2,…,cG為耦合系數(shù),其中權(quán)重矩陣為固定參數(shù),耦合系數(shù)是膠囊神經(jīng)元的核心參數(shù),隨著膠囊神經(jīng)元的活動(dòng)動(dòng)態(tài)更新。fquash為膠囊內(nèi)部非線性壓縮函數(shù),用來替代傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中Relu激活函數(shù),將短向量壓縮為接近0的向量,將長向量壓縮為接近1的向量。上層輸出的特征矩陣v1,v2,…,vG經(jīng)膠囊神經(jīng)元處理后輸出向量φ,向量長度在0到1之間。若有F個(gè)語義膠囊神經(jīng)元,則特征矩陣V=[v1,v2,…,vG]經(jīng)語義膠囊層提取語義特征后生成細(xì)粒度特征矩陣φ=[φ1,φ2,…,φF]。

      5.2.4 全連接層

      全連接層通過構(gòu)建高維的向量空間結(jié)構(gòu),將語義膠囊層輸出的細(xì)粒度特征向量φ嵌入到高維向量空間,對(duì)特征向量進(jìn)行矩陣變換。全連接神經(jīng)網(wǎng)絡(luò)基于真值發(fā)現(xiàn)的基本假設(shè),無監(jiān)督挖掘用戶答案間的依賴關(guān)系并輸出用戶答案可信度矩陣Z。

      5.3 輸出層

      5.4 真值發(fā)現(xiàn)

      本節(jié)主要根據(jù)Caps-Truth模型的輸出結(jié)果為每個(gè)用戶答案計(jì)算可信度分?jǐn)?shù),包括損失函數(shù)設(shè)計(jì)和用戶答案評(píng)分兩部分。

      5.4.1 損失函數(shù)設(shè)計(jì)

      根據(jù)本文假設(shè):真值應(yīng)盡可能的與各數(shù)據(jù)源所提供的觀測值接近;數(shù)據(jù)源質(zhì)量越高,則其所提供的答案與真值越相似,設(shè)計(jì)Caps-Truth模型的損失函數(shù)如式(11)所示。

      (11)

      (12)

      5.4.2 用戶答案評(píng)分

      (13)

      根據(jù)式(13)計(jì)算各用戶答案分?jǐn)?shù),分?jǐn)?shù)越高,則答案越可信。將用戶答案按分?jǐn)?shù)進(jìn)行排名,從眾多用戶答案中找到可靠答案。

      6 實(shí)驗(yàn)與分析

      6.1 實(shí)驗(yàn)環(huán)境與實(shí)驗(yàn)數(shù)據(jù)

      本文使用tensorflow和capslayer框架搭建并訓(xùn)練網(wǎng)絡(luò),CPU為Inter Xeon E5-2630,內(nèi)存為192GB,GPU為Nvidia Tesla P40×2,操作系統(tǒng)為64位CentOS 7。

      本文在真實(shí)數(shù)據(jù)集Automated Essay Scoring(https:∥www.kaggle.com/c/asap-sas)上驗(yàn)證Caps-Truth算法。數(shù)據(jù)集來自Kaggle競賽,答案平均長度150-550個(gè)單詞,每條答案都經(jīng)過相關(guān)人員打分。

      6.2 評(píng)價(jià)指標(biāo)和超參數(shù)設(shè)置

      評(píng)價(jià)指標(biāo)為歸一化的Top-k均分:將用戶答案按評(píng)分從大到小進(jìn)行排序,選取前k個(gè)用戶答案計(jì)算其平均分,再將平均分進(jìn)行歸一化處理作為評(píng)價(jià)指標(biāo)。下表2為實(shí)驗(yàn)超參數(shù)設(shè)置。

      表2 實(shí)驗(yàn)超參數(shù)設(shè)置

      6.3 實(shí)驗(yàn)結(jié)果分析

      6.3.1 對(duì)比實(shí)驗(yàn)分析

      采用NN-Truth、CCN-Truth、Bi-GRU[23]三種對(duì)比算法進(jìn)行對(duì)比試驗(yàn)。表3所列為對(duì)比實(shí)驗(yàn)結(jié)果。

      NN-Truth:使用SIF對(duì)用戶答案進(jìn)行語義表征,再通過NN網(wǎng)絡(luò)提取用戶答案特征,計(jì)算用戶答案間相似度進(jìn)行真值發(fā)現(xiàn)。

      表3 對(duì)比實(shí)驗(yàn)結(jié)果

      CNN-Truth:在SIF語義表征后,采用CNN網(wǎng)絡(luò)提取用戶答案語義信息進(jìn)行真值發(fā)現(xiàn)。

      CRH[8]:是傳統(tǒng)真值發(fā)現(xiàn)算法中表現(xiàn)優(yōu)異的算法,將文本答案相似度融入CRH算法中,應(yīng)用到本文場景中進(jìn)行的真值發(fā)現(xiàn)。

      Bi-GRU[23]:是目前效果較好的基于神經(jīng)網(wǎng)絡(luò)的真值發(fā)現(xiàn)算法,利用Bi-GRU網(wǎng)絡(luò)表征用戶答案的語義信息,同時(shí)結(jié)合雙層注意力機(jī)制分別學(xué)習(xí)關(guān)鍵詞可靠度及用戶答案可靠度。

      由表3可知,Caps-Truth算法的Top-k均分在k=10,30,50,70,90時(shí)較四種對(duì)比算法有所提升,實(shí)驗(yàn)效果優(yōu)于四種對(duì)比算法。NN網(wǎng)絡(luò)由于在迭代時(shí)需要大量的樣本數(shù)據(jù)來訓(xùn)練和優(yōu)化網(wǎng)絡(luò)參數(shù),在樣本量較少時(shí),網(wǎng)絡(luò)訓(xùn)練效果較差。CNN池化層采用最大池化算法,導(dǎo)致答案關(guān)鍵詞語義信息不全,真值發(fā)現(xiàn)準(zhǔn)確率較低。CRH屬于傳統(tǒng)真值發(fā)現(xiàn)算法,算法假設(shè)數(shù)據(jù)源與觀測值間的關(guān)系可用簡單函數(shù)表示,而這種關(guān)系無法準(zhǔn)確描述數(shù)據(jù)的底層分布,且CRH算法需要數(shù)據(jù)源提供大量觀測值,對(duì)數(shù)據(jù)源可靠性進(jìn)行評(píng)估,而對(duì)于文本數(shù)據(jù)真值發(fā)現(xiàn)場景,數(shù)據(jù)源眾多而觀測值較少,不能準(zhǔn)確的評(píng)估數(shù)據(jù)源可靠度,造成真值發(fā)現(xiàn)效果不佳。Bi-GRU算法效果相對(duì)較好,但GRU網(wǎng)絡(luò)作為RNN的變體,仍然具有RNN網(wǎng)絡(luò)不能并行運(yùn)算的弊端,導(dǎo)致網(wǎng)絡(luò)運(yùn)算量和模型體量不斷增大,實(shí)驗(yàn)效果較低于Caps-Truth。相較于對(duì)比算法,Caps-Truth算法通過初始膠囊層、語義膠囊層提取用戶答案語義信息,獲取用戶答案間的復(fù)雜關(guān)系,適用于數(shù)據(jù)源眾多且每個(gè)數(shù)據(jù)源提供少量答案的稀疏性文本數(shù)據(jù)真值發(fā)現(xiàn)場景,可有效降低文本數(shù)據(jù)的自然語言特性對(duì)真值發(fā)現(xiàn)的影響。

      6.3.2 消融實(shí)驗(yàn)分析

      為驗(yàn)證膠囊網(wǎng)絡(luò)的有效性,進(jìn)行如下消融實(shí)驗(yàn)。

      Caps-Truth 1:同時(shí)刪除初始膠囊層和語義膠囊層,保留卷積層和全連接層。

      Caps-Truth 2:刪除語義膠囊層,保留卷積層、初始膠囊層和全連接層。

      Caps-Truth 3:刪除初始膠囊層,保留卷積層、語義膠囊層和全連接層。

      將Caps-Truth 1、Caps-Truth 2、Caps-Truth 3三種算法與Caps-Truth算法進(jìn)行對(duì)比。消融實(shí)驗(yàn)Top-k結(jié)果如表4所列。

      表4 消融實(shí)驗(yàn)結(jié)果

      由表4可知,Caps-Truth算法的Top-k均分在k=10,30,50,70,90時(shí)較其它三種算法有所提升,表明膠囊網(wǎng)絡(luò)可以有效提高真值發(fā)現(xiàn)的準(zhǔn)確率。Caps-Truth 1算法只有卷積層和全連接層,其網(wǎng)絡(luò)結(jié)構(gòu)與CNN類似,由于卷積層只能提取全局特征信息,而無法獲取細(xì)粒度的語義相關(guān)性,因此實(shí)驗(yàn)效果不佳。Caps-Truth 2和Caps-Truth 3分別刪除了語義膠囊層和初始膠囊層,只保留單層的膠囊網(wǎng)絡(luò),通過膠囊神經(jīng)元挖掘文本的語義信息和位置關(guān)系,實(shí)驗(yàn)效果都優(yōu)于Caps-Truth 1,驗(yàn)證了初始膠囊層和語義膠囊層的有效性。

      6.3.3 學(xué)習(xí)率對(duì)實(shí)驗(yàn)結(jié)果的影響

      學(xué)習(xí)率是神經(jīng)網(wǎng)絡(luò)的重要參數(shù),學(xué)習(xí)率的設(shè)置會(huì)影響神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)效果,選擇合適的學(xué)習(xí)率非常重要。本節(jié)分別采用五種不同的學(xué)習(xí)率,對(duì)比驗(yàn)證學(xué)習(xí)率對(duì)實(shí)驗(yàn)結(jié)果的影響,圖4為實(shí)驗(yàn)結(jié)果。

      由圖4可知,算法受學(xué)習(xí)率影響較小,當(dāng)學(xué)習(xí)率為0.01時(shí),實(shí)驗(yàn)效果最佳。

      圖4 學(xué)習(xí)率對(duì)實(shí)驗(yàn)結(jié)果的影響

      6.3.4 數(shù)據(jù)集規(guī)模對(duì)實(shí)驗(yàn)結(jié)果的影響

      為了驗(yàn)證數(shù)據(jù)集規(guī)模對(duì)實(shí)驗(yàn)結(jié)果的影響,將數(shù)據(jù)集進(jìn)行了切分,分為樣本量為2000的Data1數(shù)據(jù)集和樣本量為8000的Data2數(shù)據(jù)集進(jìn)行對(duì)照實(shí)驗(yàn),表5所列為兩個(gè)數(shù)據(jù)集的Top-k值。

      表5 不同規(guī)模數(shù)據(jù)集Top-k值

      根據(jù)表5,得到實(shí)驗(yàn)結(jié)果如圖5所示。

      由圖5可知,Caps-Truth算法在小規(guī)模數(shù)據(jù)集上的實(shí)驗(yàn)效果要優(yōu)于大規(guī)模數(shù)據(jù)集,由于語義膠囊層使用少量樣本數(shù)據(jù)就可獲取準(zhǔn)確的語義信息,并建立特征信息間的位置關(guān)系,使得算法在小規(guī)模數(shù)據(jù)集上的收斂速度快于大規(guī)模數(shù)據(jù)集,訓(xùn)練效果優(yōu)于大規(guī)模數(shù)據(jù)集。

      圖5 不同規(guī)模數(shù)據(jù)集對(duì)比實(shí)驗(yàn)結(jié)果

      7 總結(jié)

      由于文本數(shù)據(jù)存在答案多因素性、詞語使用多樣性及文本數(shù)據(jù)稀疏性等自然語言特性,傳統(tǒng)神經(jīng)網(wǎng)絡(luò)無法有效克服這些自然語義特性為文本數(shù)據(jù)真值發(fā)現(xiàn)帶來的影響,本文對(duì)傳統(tǒng)CNN進(jìn)行改進(jìn),將卷積層和語義膠囊層進(jìn)行融合,提出基于膠囊網(wǎng)絡(luò)的文本數(shù)據(jù)真值發(fā)現(xiàn)算法。通過語義表征對(duì)文本答案進(jìn)行細(xì)粒度度量,在卷積層獲取到用戶答案全局特征的基礎(chǔ)上,利用語義膠囊層挖掘用戶答案上下文語義信息。算法有效地提取并整合了用戶答案的語義,并且在小規(guī)模數(shù)據(jù)集上就能獲取很好的訓(xùn)練效果。在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,Caps-Truth算法的實(shí)驗(yàn)效果優(yōu)于對(duì)比算法。

      猜你喜歡
      真值數(shù)據(jù)源語義
      語言與語義
      Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
      10kV組合互感器誤差偏真值原因分析
      電子制作(2017年1期)2017-05-17 03:54:35
      基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評(píng)價(jià)研究
      “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
      真值限定的語言真值直覺模糊推理
      基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評(píng)價(jià)算法
      認(rèn)知范疇模糊與語義模糊
      分布式異構(gòu)數(shù)據(jù)源標(biāo)準(zhǔn)化查詢設(shè)計(jì)與實(shí)現(xiàn)
      寫真法、寫假法探析
      衡阳市| 乐陵市| 泾阳县| 邓州市| 岑溪市| 侯马市| 宜昌市| 来安县| 平塘县| 扎赉特旗| 谢通门县| 洞口县| 泾川县| 神池县| 舟曲县| 蓝田县| 昔阳县| 辉县市| 泾阳县| 独山县| 河北区| 荥阳市| 和政县| 清水县| 大渡口区| 保靖县| 紫云| 剑川县| 忻城县| 禹州市| 河南省| 剑川县| 无棣县| 天门市| 乌拉特前旗| 乾安县| 阳山县| 峡江县| 安徽省| 紫云| 宁乡县|