• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于密度優(yōu)先策略的答案源搜索方法研究

      2019-02-16 01:30:10李偉康洪宇陳鑫鄒博偉張民
      關(guān)鍵詞:文檔排序密度

      李偉康,洪宇,陳鑫,鄒博偉,張民

      (蘇州大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

      0 引言

      現(xiàn)有問答系統(tǒng)在實用過程中面臨的一項重要挑戰(zhàn)是如何既精準(zhǔn)且快捷地獲取答案。檢索式的問答系統(tǒng)往往具有較高的效率,但對預(yù)先組織的知識庫(例如“知乎”)或知識圖譜有著極大的依賴,使得檢索式問答在未經(jīng)加工且富含噪聲的大規(guī)模文本上往往呈現(xiàn)偏低的可靠性。相比而言,基于深度語義分析的閱讀理解系統(tǒng)往往具有較高的精度,比如,利用SQuAD數(shù)據(jù)集開展的閱讀理解評測顯示,基于深度學(xué)習(xí)的答案抽取方法已在限定域內(nèi)接近或超越了人工水平(如RNet[1]、BiDAF[2]和QANet[3]等閱讀理解系統(tǒng))。然而,這類方法的訓(xùn)練、開發(fā)和實際應(yīng)用都對計算能力和時空開銷有著較高的要求,從而效率偏低。

      可以通過下述類比體察上述兩種研究流派的應(yīng)用鴻溝:將問題“崔永元為什么曝光天價合同”視作查詢,一套基于Lucene的檢索式問答系統(tǒng)即可快速返回潛在的相關(guān)結(jié)果,但距離精準(zhǔn)與確切的答案水平往往相去甚遠(yuǎn)(如“崔永元因曝光天價合同受到威脅”);相反,基于深度語義表示與計算的閱讀理解系統(tǒng)往往能夠抽取諸如“報私仇”的確切答案,然而,閱讀理解系統(tǒng)的主流技術(shù)集中于神經(jīng)網(wǎng)絡(luò)的應(yīng)用,其通過遍歷所有自由文本實現(xiàn)語義計算的過程漫長而低效。針對上述問題的一種解決思路是“先高速后精準(zhǔn)”的二步策略,即優(yōu)先利用檢索式問答技術(shù)的高效性優(yōu)勢,快速獲取符合答案抽取需求的文本片段(本文稱其為答案源),并在此基礎(chǔ)上利用閱讀理解系統(tǒng)實現(xiàn)答案的精準(zhǔn)抽取。

      集中于二步策略中的“高速”(答案源的高速獲取)這一關(guān)鍵問題開展研究,提出了一種基于密度優(yōu)先策略的相關(guān)度計算和候選答案源排序方法。其求解原理是利用問題關(guān)鍵詞在文本中的最大分布密度,衡量查詢和文檔的相關(guān)度。該方法結(jié)合簡易的幾何知識,根據(jù)問題關(guān)鍵詞在候選文本中的分布特征和編輯距離,形成了局部覆蓋面積的求解算法,并將覆蓋面積作為關(guān)鍵詞分布密度的衡量標(biāo)準(zhǔn)。本文將該方法應(yīng)用于基于Lucene的答案檢索系統(tǒng)后端,作為后處理對檢索系統(tǒng)反饋的偽相關(guān)文字片段進(jìn)行的重排序(高密度高排,低密度低排),旨在將富含潛在答案的高質(zhì)量答案源實施優(yōu)先推薦,從而為現(xiàn)有閱讀理解系統(tǒng)提供可靠的答案抽取源信息。本文方法適用于結(jié)合了檢索與抽取式問答的聯(lián)合系統(tǒng),并可植入兩者的中間環(huán)節(jié)提供輔助,一方面優(yōu)化檢索結(jié)果的質(zhì)量,一方面最小限度地影響答案抽取的效率。實驗側(cè)重檢驗正確答案源在檢索結(jié)果中的排序位置,以及排序第一候選答案源的可靠性,利用SQuAD數(shù)據(jù)集的實驗結(jié)果顯示,基于密度優(yōu)先的相關(guān)性排序方法在該任務(wù)上優(yōu)于現(xiàn)有基于統(tǒng)計策略的相關(guān)性排序方法,并超越了絕大部分基于神經(jīng)網(wǎng)絡(luò)模型的相關(guān)性排序方法。

      傳統(tǒng)相關(guān)性度量方法集中于無監(jiān)督的統(tǒng)計策略,包括Salton等提出的向量空間模型;Stephen等提出的BM25和Zhai等提出的狄利克雷平滑語言模型[4]。在此基礎(chǔ)上,基于相關(guān)性的有監(jiān)督排序?qū)W習(xí)模型得到廣泛研究,并主要集成于Joachims提出的支持向量機(jī)排序架構(gòu)[5],以及Donald 等提出的坐標(biāo)上升策略架構(gòu)[6]。排序?qū)W習(xí)模型通常需要融入多種特征進(jìn)行聯(lián)合訓(xùn)練,除上述統(tǒng)計特征,往往還包含布爾合取與析取、坐標(biāo)匹配、詞頻-逆文檔頻率、JM平滑系數(shù)[7]和雙向平滑[8]等特征。

      目前,基于神經(jīng)網(wǎng)絡(luò)的相關(guān)性度量與排序方法漸入主流,主要包括基于表示學(xué)習(xí)和基于交互的研究成果?;诒硎緦W(xué)習(xí)的相關(guān)性度量方法嘗試建立可靠的文檔和查詢的分布式表示,相關(guān)性得分則根據(jù)分布式特征向量的相似度。比如,He等提出的深度結(jié)構(gòu)化語義模型DSSM[9],以及在此基礎(chǔ)上的利用卷積模型實現(xiàn)的神經(jīng)語義模型CDSSM[10]。這類模型也已成功集成于相關(guān)性排序模型,比如,Severyn等提出的RankProb模型[11]?;诮换サ姆椒ㄔ谠~級別上進(jìn)行文檔和查詢匹配的建模,其核心思想是在文檔和查詢間構(gòu)建一個詞對的翻譯矩陣,排序得分會通過矩陣內(nèi)的特征進(jìn)行總結(jié)。這類方法繼承了翻譯模型的主要挑戰(zhàn),即詞對齊知識的稀疏性導(dǎo)致的學(xué)習(xí)瓶頸。針對這一問題,Mikolov等[12]引入了詞向量進(jìn)行優(yōu)化。此外,卷積神經(jīng)網(wǎng)絡(luò)也應(yīng)用于深度語義特征的提取過程。Guo等提出深度相關(guān)度匹配模型DRMM[13],引入了直方圖池化技術(shù)。Mitra等提出局部分布式表示的DUEL模型[14]。

      利用密度這一概念實現(xiàn)文本處理技術(shù)并不鮮見。其核心思想是通過“文本至向量空間”的映射,形成文本在特定空間中的分布表示,從而支持利用分布稠密性和稀疏性的計算與應(yīng)用。比如,密度聚類即利用文本在向量空間中的上述分布特性,實現(xiàn)類簇邊界的精確劃分。如Este等提出了DBSCAN密度聚類算法[15]以及Ankerst等提出了OPTICS算法[16]。

      本文將密度這一概念直接應(yīng)用于句子級的文本表示、計算與相關(guān)性度量,與上述工作并不一致,密度聚類策略和本文提出的密度優(yōu)先策略具有兩面的差異。其一,兩者參與解決的任務(wù)不同,密度聚類策略用于解決文檔級的類簇劃分問題,而密度優(yōu)先策略用于句子之間的相關(guān)性匹配,以及按相關(guān)性實現(xiàn)優(yōu)劣判定和排序的問題。其二,密度計算的內(nèi)涵不同,聚類研究中,密度用于表征所有目標(biāo)文檔在向量空間中的分布稠密性;相較而言,本文所提的密度特指查詢中的關(guān)鍵詞在目標(biāo)語句中的分布特性。密度優(yōu)先策略是一種簡單的統(tǒng)計策略,在計算層面僅僅包含幾何運(yùn)算的基本原理,相較于目前主流的深度學(xué)習(xí)策略,在計算和運(yùn)行效率上具有一定優(yōu)勢。

      1 答案源搜索的任務(wù)定義

      答案源搜索是信息檢索領(lǐng)域中的一項由任務(wù)驅(qū)動的研究點,其目標(biāo)是為特定自然語言問句提供相關(guān)的答案抽取對象,換言之,是一種面向問題的相關(guān)文本發(fā)現(xiàn)與獲取的任務(wù)。其主要特點符合短文本搜索的要求,區(qū)別是其面向的查詢是一條自然語言問句。具體定義如下:

      查詢輸入(Query):自然語言問句;

      數(shù)據(jù)資源(Data Resources):大規(guī)模開放域非結(jié)構(gòu)化自由文本集合;

      結(jié)果輸出(Results):相關(guān)于目標(biāo)問句且蘊(yùn)含正確答案的短文本(答案源);

      結(jié)果評測(Evaluation):結(jié)果列表的排序質(zhì)量評估,以及排序第一結(jié)果正確與否的檢驗。

      其中,短文本定義為小型語篇結(jié)構(gòu),本文實驗包含了3種短文本數(shù)據(jù),包括句子、N個結(jié)構(gòu)上連續(xù)的句子形成的片段和段落。

      2 密度優(yōu)先策略的動機(jī)與原理

      本節(jié)分別對密度優(yōu)先策略的設(shè)計動機(jī)(包括數(shù)據(jù)觀測經(jīng)驗和基本假設(shè))以及計算求解的基本原理進(jìn)行陳述。

      表1 來源于SQuAD真實候選答案源(框住的為關(guān)鍵詞)

      ● 觀測經(jīng)驗

      基于密度優(yōu)先的相關(guān)性測量是一種經(jīng)驗性的方法,其設(shè)計動因來源于實際數(shù)據(jù)的觀測結(jié)果,即問題關(guān)鍵詞在正確答案源中的分布往往體現(xiàn)出密集出現(xiàn)的現(xiàn)象。比如,表1羅列了針對問題“WhobroadcasttheSuper BowlonTV?”(誰在電視上播出冠軍超級杯?)的三個候選答案源,其中,文本片段(Ⅰ)是可靠的答案源,而文本片段(Ⅱ)和(Ⅲ)是錯誤或不確切的答案源??梢园l(fā)現(xiàn)自然語言問句中的關(guān)鍵詞較為密集地分布于文本片段(Ⅰ)中的局部區(qū)域,而在文本片段(Ⅱ)和(Ⅲ)中,這類關(guān)鍵詞或離散分布,或存在缺失現(xiàn)象。

      ● 基本假設(shè)

      根據(jù)上述觀測經(jīng)驗,本文形成一種假設(shè):非推理性的問答過程中,自然語言問句中的關(guān)鍵詞往往與潛在答案中的關(guān)鍵詞存邏輯層面的緊密關(guān)系,而一條正確答案所在的文字片段(正確答案源)往往天然地蘊(yùn)含了這層邏輯關(guān)系,并借助語義、句法、依存、修辭和語篇關(guān)系的表述手段進(jìn)行了呈現(xiàn)。那么,根據(jù)人們組織語言實現(xiàn)邏輯關(guān)系表示的習(xí)慣,雙方(問題與答案)的相關(guān)詞匯單元將較為集中地出現(xiàn)于句子、段落或小型語篇結(jié)構(gòu)中,其分布密度往往也會在局部范圍內(nèi)呈現(xiàn)較高的水平。從而,當(dāng)自然語言問句中的關(guān)鍵詞集中出現(xiàn)于一段文字時,該段文字內(nèi)蘊(yùn)含正確答案的概率將較大?;谶@一假設(shè),本文提出了面向文句的密度優(yōu)先相關(guān)性度量方法,將問題關(guān)鍵詞分布密度較高的文字片段作為緊密相關(guān)的答案源。

      ● 求解原理

      本文所提密度計算方法是對觀測人員實際體驗的一種模擬,采用了簡單幾何運(yùn)算模式,將問句關(guān)鍵詞在特定文字片段內(nèi)的分布特點,利用幾何圖形進(jìn)行刻畫,并采用圖形所占面積作為衡量密度的關(guān)鍵指標(biāo)。下面主要陳述圖形化和面積計算的基本原理,具體算法細(xì)節(jié)及異常處理將在下一節(jié)進(jìn)行具體介紹。

      Fig.1 Examples of distribution areas formed by keywords in a question and comparison圖1 問句關(guān)鍵詞分布面積實例及對比實例

      假設(shè)目標(biāo)問句中存在n個關(guān)鍵詞,某一文字片段包含了這類關(guān)鍵詞,那么直觀的面積構(gòu)造方法是在這一文字片段中,將出現(xiàn)的關(guān)鍵詞視為節(jié)點,并在兩兩節(jié)點之間建立邊線,如圖1中左圖所示,由此形成一個全包圍無缺口的無向圖,上文所提的關(guān)鍵詞分布面積即為這一無向圖所占的面積。在此基礎(chǔ)上,本文假定分布面積的大小直接反映了分布密度的高低,而分布密度的高低決定了文字片段與目標(biāo)問題的相關(guān)性(即作為潛在答案源的可能性),由此,分布面積的比較也能夠反映關(guān)鍵詞分布密度的高低差異,對于基于相關(guān)性的排序起到輔助作用。如圖1中右圖所示,如果自然問句的關(guān)鍵詞出現(xiàn)于實心圓位置,其形成的分布面積小于關(guān)鍵詞出現(xiàn)于叉心圓的情況。此時,在關(guān)鍵詞個數(shù)相同的情況下,我們將認(rèn)定前一情況的分布密度大于后一情況的分布密度,且由此推斷前者的“文本-問題”相關(guān)性高于后者。

      然而,值得注意的是,上述圖示和原理解釋是基于標(biāo)注人員視覺的直觀判斷,在實際演算方面則存在諸多困難,比如,1)如何度量節(jié)點連邊的長度,且度量方法的設(shè)計不能依賴文本展示平臺的具體規(guī)格與模式,原因在于不同文本編輯器平鋪文本的間距和縮放模式不同,其將影響節(jié)點連邊長度的統(tǒng)一度量標(biāo)準(zhǔn);2)對于高于3個問句關(guān)鍵詞(節(jié)點)的情況,節(jié)點連邊的方法多樣,將產(chǎn)生多種幾何形狀,其面積對比將無法在統(tǒng)一標(biāo)準(zhǔn)下進(jìn)行;3)如何計算幾何無向圖的面積?針對這些問題,下一節(jié)將從數(shù)學(xué)建模與計算算法方面逐一闡述。

      3 密度優(yōu)先相關(guān)度計算

      本節(jié)首先介紹分布面積無向圖的邊長測量方法,然后給出一種統(tǒng)一的構(gòu)圖和面積計算方法,最后陳述基于密度優(yōu)先的相關(guān)性度量算法。

      3.1 無向圖邊長測量

      本文采用關(guān)鍵詞之間間隔的句子數(shù)量作為上述分布面積無向圖的邊長。其中,如果兩個關(guān)鍵詞共同出現(xiàn)于同一句子,則兩者連邊后的邊長設(shè)定為1;由此,如果兩個關(guān)鍵詞之間間隔的句子數(shù)量為nsen(nsen>=1),則邊長設(shè)置為len=1+nsen.

      比如,圖2中關(guān)鍵詞w1和w2之間間隔了3個句子(其所在句子不計),即句子s3、s4和s5,則w1和w2之間的邊長為len(w1,w2)=1+3=4.

      Fig.2 Measuring lengths of edges based on the numbers of sentences between keywords圖2 基于句子間隔的邊長計算方法

      3.2 統(tǒng)一的分布面積計算

      如前文所述,特定自然問句中的關(guān)鍵詞數(shù)量可能多于3項,在這種情況下,將關(guān)鍵詞作為節(jié)點進(jìn)行無向圖構(gòu)建時往往可以形成多種多邊形。比如,當(dāng)自然問句有4個關(guān)鍵詞出現(xiàn)于特定文字片段內(nèi)時,其可構(gòu)成6種多邊形(如圖3所示)。

      Fig.3 Examples of 4-nodes polygons圖3 四節(jié)點多邊形樣例

      形狀的變化將直接影響分布面積的計算和數(shù)值,因此選取其中哪一種多邊形進(jìn)行計算就成為一個棘手的問題。此外,當(dāng)問句關(guān)鍵詞只有兩項出現(xiàn)于特定樣本時,兩者僅僅能夠構(gòu)建一條無向邊,無法形成無向圖進(jìn)行分布面積計算。更為嚴(yán)重的問題是,一條問句中的所有關(guān)鍵詞在不同文本片段中出現(xiàn)的數(shù)量并不統(tǒng)一,由此形成的節(jié)點數(shù)不同的多邊形無法進(jìn)行統(tǒng)一公正的分布面積對比。比如,3個關(guān)鍵詞節(jié)點形成的無向圖與4個關(guān)鍵詞節(jié)點形成的無向圖中,前者的分布面積略小于后者,是否可以認(rèn)為前者的分布密度高于后者,從而判定前者所在文字片段更為相關(guān)于目標(biāo)問句呢?顯然這一判定過于武斷。

      針對上述問題,本文提出建立統(tǒng)一的分布面積無向圖構(gòu)建和計算方法。其核心步驟包含兩個方面,其一是建立包含了偽節(jié)點且節(jié)點數(shù)統(tǒng)一的多邊形,其二是經(jīng)過末位節(jié)點的圓周轉(zhuǎn)換形成一致的直角三角形進(jìn)行分布面積計算。其中,偽節(jié)點是人工累加的額外節(jié)點,其前提條件是特定問句中的關(guān)鍵詞數(shù)量不能超越人為約束的節(jié)點總數(shù)。

      假設(shè),給定自然問句q,其包含的n個關(guān)鍵詞在文字片段d中出現(xiàn),規(guī)定節(jié)點總數(shù)為N+1,且N的值為查詢中不同關(guān)鍵詞個數(shù),此處加1是為了考慮當(dāng)查詢中只存在一個關(guān)鍵詞時,算法也能計算密度分布面積。則基于d面向q建立的多邊形將包含N+1個節(jié)點,形成N個邊,其中前n+1個節(jié)點為真實關(guān)鍵詞節(jié)點和添加的起始輔助節(jié)點,后N-n個節(jié)點為人工增設(shè)的偽節(jié)點,偽節(jié)點為文檔中相對查詢?nèi)笔〉年P(guān)鍵詞。值得注意的是,這一方法將不顧及問句關(guān)鍵詞在不同文字片段中出現(xiàn)的實際數(shù)量,統(tǒng)一地建立N+1個節(jié)點的多邊形,區(qū)別僅在于,不同文字片段內(nèi)形成的N+1節(jié)點多邊形內(nèi)的真實關(guān)鍵節(jié)點數(shù)不同。在統(tǒng)一規(guī)范節(jié)點數(shù)量的基礎(chǔ)上,本文對無向圖的多邊形性狀也進(jìn)行了一致性約束,借助線性排位和末位節(jié)點圓周轉(zhuǎn)換兩個手段,建立統(tǒng)一的直角三角形進(jìn)行后續(xù)分布面積的計算方法。

      ● 節(jié)點線性排位

      其目標(biāo)是將多邊形的N+1個節(jié)點按照兩兩節(jié)點之間的邊長進(jìn)行排序,邊長較小的兩個節(jié)點排序靠前,較長的節(jié)點排序靠后,形成一條分節(jié)排列的直線。值得注意的是,一個節(jié)點與其他N個節(jié)點都可形成長度不一的邊,此時,本文只記錄并應(yīng)用最小邊長進(jìn)行上述排位。此外,偽節(jié)點始終排列在所有真實關(guān)鍵詞節(jié)點之后。為了考慮當(dāng)查詢只存在一個關(guān)鍵詞的時候也能構(gòu)成分布面積,于是引入節(jié)點w0,且該節(jié)點與第一個節(jié)點的連邊距離為固定長度1。比如,給定關(guān)鍵詞w1、w2和w3,其兩兩之間所有可能的邊長包括len(w1,w2)=3,len(w1,w3)=5和len(w2,w3)=1,但實際排位中,只有邊長len(w2,w3)=1和len(w1,w2)=3用于排位參考,形成排位w0、w3、w2和w1,而其他N-3個偽節(jié)點全部排位于w0、w3、w2和w1之后,從而形成了圖4所示的分節(jié)排列的直線。邊長從小到大的排序為的是在后續(xù)計算面積的時候讓有效且密集的那些關(guān)鍵詞優(yōu)先起到作用。這里所有偽節(jié)點之間的邊長統(tǒng)一設(shè)置為一個可調(diào)參數(shù)λlen。

      Fig.4 Example of ranking nodes linearly圖4 節(jié)點線性排位樣例

      Fig.5 Uniformed orthogonal distribution area圖5 統(tǒng)一直角三角形分布區(qū)域

      ● 末位節(jié)點圓周轉(zhuǎn)換

      將節(jié)點排位的最后一個節(jié)點(通常為偽節(jié)點)通過圓周轉(zhuǎn)換,移動至與排位第一的真實關(guān)鍵詞節(jié)點縱向垂直的位置(如圖5所示),從而為構(gòu)建統(tǒng)一的直角多邊形建立基礎(chǔ),以便后續(xù)進(jìn)行面積計算。在圓周轉(zhuǎn)換時,末位節(jié)點以排位第一的節(jié)點為圓心,并將上述形成的排位直線視作半徑進(jìn)行圓周移動。

      表2 問句和候選答案源樣例

      排位中倒數(shù)第K個節(jié)點稱為計算節(jié)點(如圖5中的wp3),此處將倒數(shù)第K個節(jié)點作為計算節(jié)點而非最后一個節(jié)點,是為了在計算面積的時候,可以有效減輕排在最后的偽節(jié)點或者噪音關(guān)鍵詞節(jié)點在面積分布中的影響程度。將計算節(jié)點wp3與經(jīng)過圓周轉(zhuǎn)換位置的末位節(jié)點wpk進(jìn)行連邊(如圖5中的加粗斜線),并將計算節(jié)點與第一個節(jié)點連線(圖5中關(guān)鍵詞w0和wpk的連線),以及排位第一節(jié)點與圓周轉(zhuǎn)換后的末位節(jié)點之間的連線,共稱為統(tǒng)一直角分布區(qū)域的邊,該直角三角形的面積即為最終所求的問句關(guān)鍵詞分布面積,計算公式如下:

      (1)

      (2)

      (3)

      其中,G表示最終的分布面積,Lu為前N+1-K個節(jié)點連邊的長度,Lk為倒數(shù)K個節(jié)點連邊的長度,Lu和Lk的和為線性排位中所有節(jié)點的連邊長度(即圓周轉(zhuǎn)換中圓的半徑長度)。在此基礎(chǔ)上,本文采用公式(1)中G倒數(shù)作為關(guān)鍵詞的分布密度,G越大,密度越小,反之越大。同時,按照全文開篇的假設(shè),G也將作為相關(guān)性(答案源可靠性)衡量標(biāo)準(zhǔn),G越大,相關(guān)性越小,反之越大。

      借助上述定長的節(jié)點排位、圓周轉(zhuǎn)換和正交三角形面積求解,可以在統(tǒng)一框架下,對關(guān)鍵詞出現(xiàn)個數(shù)不同的情況,公平地計算和比較分布密度(相關(guān)性)的高低,同時也解決了僅有兩個甚至一個關(guān)鍵詞出現(xiàn)時的分布面積求解。這一計算模型僅僅涉及兩個參數(shù),即K和λlen,兩者對于公平比較關(guān)鍵詞出現(xiàn)個數(shù)不同情況下的分布面積有著直接的關(guān)系。實驗中,本文通過訓(xùn)練確定兩者的具體數(shù)值。

      4 實驗及分析

      4.1 數(shù)據(jù)來源

      本文將SQuAD語料中的問題、文檔和答案作為問答語料來源,考慮到SQuAD中的文檔較長,首先對文檔進(jìn)行切割,為了體現(xiàn)各個模型在不同文檔長度上的性能,本文采用多個粒度進(jìn)行文檔切割,分別設(shè)定每個備選答案源為單句、雙句和三句話。本文使用Lucene工具對切割后不同粒度的文檔分別建立索引,接著用問題作為查詢進(jìn)行檢索,如果檢索獲得的答案源中包含正確答案,則將該答案源標(biāo)記為正例,否則標(biāo)記為負(fù)例。通過上述方式,本文共建立了4套不同粒度的答案源集合,即單句(SQuAD@1)、雙句(SQuAD@2)、三句(SQuAD@3)以及未經(jīng)切割的原文(SQuAD@full)。實驗將在上述不同數(shù)據(jù)集上分別進(jìn)行。

      對于深度學(xué)習(xí)模型,本文使用35K條查詢文檔對其進(jìn)行訓(xùn)練,10K條進(jìn)行開發(fā),5K條進(jìn)行測試。傳統(tǒng)的模型則為無監(jiān)督方法,無訓(xùn)練階段,本文使用5K數(shù)據(jù)對其進(jìn)行測試。本文提出的模型有一個待調(diào)參數(shù),即在關(guān)鍵詞缺省的時候,需要給出多大的懲罰。鑒于參數(shù)較少,本文采用5K條數(shù)據(jù)對其進(jìn)行訓(xùn)練,同時也選擇了5K條數(shù)據(jù)進(jìn)行測試。傳統(tǒng)模型和深度學(xué)習(xí)模型在訓(xùn)練和開發(fā)的階段數(shù)據(jù)有一些差異,但測試時均為同一數(shù)據(jù)。

      4.2 對比模型

      本文的對比模型主要包括傳統(tǒng)的相關(guān)性度量模型BM25和VSM,以及深度語義匹配模型DSSM、MatchPyramid[17]、DRRM、DRRM-TKS和ANMM[18]。

      BM25和VSM:采用無監(jiān)督的統(tǒng)計策略進(jìn)行文檔的相關(guān)性計算,核心思想是利用詞與詞的共現(xiàn)特征進(jìn)行匹配計算;

      DSSM:基于“詞散列”(Word hashing)[9]表征句子的深度語義架構(gòu)模型;

      MatchPyramid:匹配金字塔模型,借鑒了圖像處理的方法對匹配問題進(jìn)行建模。主要思想是構(gòu)建文本與文本的相似度矩陣,采用CNN對矩陣進(jìn)行層級特征抽取[19];

      DRRM:引入了直方圖池技術(shù)[13]的深度相關(guān)度匹配模型;

      DRRM-TKS:將DRMM中的直方圖池改成了最大池化層(取前k個),以此提取有效的匹配特征;

      ANMM:基于注意力機(jī)制的神經(jīng)匹配模型,以不同的匹配信號為參照,采用共享權(quán)重的方式替代位置共享權(quán)重,并將問題重要性學(xué)習(xí)融入基于注意力機(jī)制的網(wǎng)絡(luò)中。

      4.3 評價指標(biāo)

      本文采用四種評價指標(biāo)對相關(guān)方法進(jìn)行評價,包括ACC@1、NDCG@3、NDCG@5、MAP。其中,ACC@1表示系統(tǒng)反饋排名第一的答案的準(zhǔn)確性,其計算需要考慮系統(tǒng)對所有待測問題的反饋結(jié)果,并只限定在第一個答案,檢驗正確答案的占比。選擇ACC@1作為指標(biāo)的目的是直接測量實用環(huán)境下的問答系統(tǒng)用戶滿意度,在這一場景下,排序第一的系統(tǒng)反饋是否為正確答案直接影響了用戶的應(yīng)用體驗,且這一影響最為突出。其他三項屬于常見排序評價指標(biāo),其中NDCG@3代表只考慮排序前三的反饋結(jié)果,并對其中每項計算DCG值,最終計算平均DCG指標(biāo)。NDCG@5同理,區(qū)別僅在于評價對象擴(kuò)大為排序前五的系統(tǒng)反饋結(jié)果。MAP為平均準(zhǔn)確率,反映系統(tǒng)在全部查詢以及相關(guān)文檔上性能的單值指標(biāo)。NDCG和MAP計算方式如下:

      (4)

      (5)

      (6)

      其中,DCGp代表采用逐元素的方式進(jìn)行評價,reli代表第i個文檔的得分,p代表取前p個文檔進(jìn)行計算。IDCGp為理想情況下的DCGp值,|REL|代表文檔按照相關(guān)性從大到小的順序排序。文中的NDCG@n代表p為n時候的NDCG值。

      (7)

      其中,AP代表平均精度(average),QR代表查詢集合。

      4.4 實驗結(jié)果

      本文在預(yù)設(shè)的4套SQuAD問答數(shù)據(jù)集上(即SQuAD@1-full)分別進(jìn)行了測試,測試以答案源檢索及排序為場景,側(cè)重檢驗正確答案源是否被作為最相關(guān)的系統(tǒng)反饋(排名置頂)和排名靠前。在不同顆粒度(長度)答案源上實現(xiàn)相同檢索過程和評估的目的是,檢驗密度優(yōu)先策略對不同規(guī)格答案源的適應(yīng)性,以此支持實際應(yīng)用。本節(jié)給出了具有代表性的系統(tǒng)性能,分別獲得于SQuAD@2和SQuAD@full之上,并使用相同數(shù)據(jù)和測試場景對前人提出的模型(如4.2小節(jié))進(jìn)行了測試與對比。面向全語料的實驗測試與分析將在4.5節(jié)展示。

      表3 SQuAD@2實驗性能對比較

      表4 SQuAD@full實驗性能對比

      表3給出了針對SQuAD@2的測試性能??梢园l(fā)現(xiàn),本文所提模型在精確性ACC@1上達(dá)到了74%的性能,相較于統(tǒng)計策略的Baseline模型(BM25)提升了約8%。此外,本文所提模型相較DSSM、DRMM,MatchPyramid等深度學(xué)習(xí)方法也存在較為明顯的優(yōu)勢。值得注意的是,神經(jīng)網(wǎng)絡(luò)模型ANMM獲得了最優(yōu)性能,在精確性ACC@1上,優(yōu)于本文方法接近4%。不同的是,這種差異在NDCG測度上并不明顯,本文方法與ANMM取得了趨近可比的性能。上述測試結(jié)果說明:

      ● 密度優(yōu)先策略是一種簡單且相對可靠的統(tǒng)計方法,在相關(guān)性的度量上,依賴一致詞形的分布能夠取得較好的答案源挖掘效果;

      ● 密度優(yōu)先策略在相關(guān)答案源排序與判別方面,優(yōu)于部分深度學(xué)習(xí)模型,但相比于語義理解深度較高的模型而言,則仍有一定差距。鑒于SQuAD@2中包含答案源長度較短,密度計算往往在缺乏充分信息量的情況下,產(chǎn)生了較多的不確定性;

      ● 針對規(guī)格較短的文本,在實用過程中,ANMM是更適合采信的模型,而非密度策略。

      相較而言,測試性能在SQuAD@full上則呈現(xiàn)了不同的情況。此時,本文所提的密度優(yōu)先策略在各項評測指標(biāo)上,皆優(yōu)于全部對比模型(包括ANMM)。但在這一數(shù)據(jù)集上的測試結(jié)果顯示,傳統(tǒng)統(tǒng)計模型都有良好表現(xiàn),包括BM25、VSM和密度優(yōu)先策略在內(nèi)的方法,皆取得了優(yōu)于深度語義匹配方法的性能。這一測試結(jié)果說明:

      ● 統(tǒng)計模型對于長度較大的答案源有著較好的適應(yīng)性,這本身取決于統(tǒng)計策略的確定性與信息量之間的密切關(guān)系,即信息量較高,則模型的確定性較大,由此進(jìn)行的判別往往能夠產(chǎn)生較為精確的結(jié)果;

      ● 密度優(yōu)先策略在統(tǒng)計模型中表現(xiàn)較為優(yōu)異,因此在長文本答案源的獲取中取得最優(yōu)性能;

      ● 密度優(yōu)先策略僅依賴詞形及分布,不依賴深度語義理解,對答案源包含的詞匯量有著更高的依賴性,當(dāng)詞匯量更大時,其基于分布面積求解的密度值能夠更確切地體現(xiàn)相關(guān)性的強(qiáng)弱。由此,在實用過程中,針對長度較大的答案源,密度計算是更適合采信的方法。這對于針對段落級文檔進(jìn)行精確答案抽取的閱讀理解技術(shù)而言,形成了直接的支持。

      4.5 性能分析

      為了更好地表現(xiàn)模型在不同文本句子級上的性能,圖6-圖9展示了各個模型在不同文檔句子級別上的性能折線圖。當(dāng)文檔句子個數(shù)增多時,從圖中可以發(fā)現(xiàn)各個模型性能呈現(xiàn)上升趨勢。這主要原因有兩點,其一,文檔的句子數(shù)目越多,構(gòu)造出的整個語料量便會越少,相應(yīng)的排序候選文檔中的干擾項也會有一定區(qū)分度,大部分模型都能更容易地區(qū)分出與查詢相關(guān)的文檔。其二,當(dāng)文檔中句子數(shù)目越多,包含答案的可能性越大,而恰恰本文評價查詢和文檔相關(guān)與否,觀測的是答案是否在文檔中出現(xiàn)。而本文提出的模型在四個指標(biāo)上呈現(xiàn)平滑的上升趨勢,這也體現(xiàn)出該模型在不同文檔級別數(shù)據(jù)上的魯棒性。

      Fig.6 Performance on ACC@1圖6 ACC@1上的性能對比

      Fig.7 Performance on MAP圖7 MAP上的性能對比

      在該任務(wù)中,傳統(tǒng)的模型明顯比深度學(xué)習(xí)的度量方法有一定優(yōu)勢。一則是因為語料量偏少,二則是因為SQuAD語料中大部分問答對是存在詞共現(xiàn)的情況,這也是傳統(tǒng)模型優(yōu)勢所在,因為傳統(tǒng)模型往往是靠捕捉詞共現(xiàn)完成匹配任務(wù)。本文提出的模型在句子級別為一和二的時候,相比較ANMM相差了3%,而ANMM也優(yōu)于所有傳統(tǒng)的模型,可見在短文本匹配任務(wù)中,引入注意力機(jī)制的匹配模型能夠很好地對齊文檔詞和查詢詞之間的關(guān)系。但是隨著句子數(shù)量的增加,ANMM模型的劣勢慢慢體現(xiàn),該模型的性能開始趨于平滑,而統(tǒng)計模型性能有上升的趨勢,當(dāng)句子級別為三的時候,本文提出的模型性能指標(biāo)已經(jīng)接近于ANMM模型。

      Fig.8 Performance on NDCG@3圖8 NDCG@3上的性能對比

      Fig.9 Performance on NDCG@5圖9 NDCG@5上的性能對比

      當(dāng)文檔級別為全文檔時,本文的模型略優(yōu)于ANMM,且基于統(tǒng)計的3種模型均已超過ANMM。由圖可見,不單單是ANMM,其他基于深度學(xué)習(xí)的模型在隨著句子數(shù)目的增加,性能均呈現(xiàn)上升緩慢的趨勢,而DRMM和DSSM兩者在全文檔時相比句子級別為三的文檔上性能有所下降。此時深度學(xué)習(xí)模型的短板便體現(xiàn)出來了,而且在將來的很長一段時間內(nèi),這將會是深度學(xué)習(xí)很難克服的障礙點,即深度學(xué)習(xí)還無法很好的捕捉長文本語義。

      同樣,在模型時效上,本文也進(jìn)行了對比分析。深度學(xué)習(xí)模型首先在訓(xùn)練這一階段上,其時間效率相比統(tǒng)計模型較差。本文的模型雖加入了訓(xùn)練過程,但需要的訓(xùn)練語料較少,且很快(3 min)便可以完成訓(xùn)練過程,而實驗中給出的深度學(xué)習(xí)的模型訓(xùn)練過程均需要將近20 min(GPU支持下)。當(dāng)完成訓(xùn)練后,測試階段深度學(xué)習(xí)在無GPU支持的情況下預(yù)測500條數(shù)據(jù)將近需要3 min時耗(考慮模型加載時間),而本文的模型以及傳統(tǒng)的模型可在1 min之內(nèi)完成排序得分的計算??梢姳疚奶岢龅哪P筒粌H在性能上有所優(yōu)勢,在時效上也能達(dá)到較好的水準(zhǔn),這對于答案源高速獲取有著極大的幫助。

      5 結(jié)論

      本文構(gòu)造了無監(jiān)督的密度計算排序模型,并分析了目標(biāo)文檔中的詞序?qū)γ芏扔嬎愕挠绊?。實驗在SQuAD閱讀理解數(shù)據(jù)上進(jìn)行測試,采用多種評價指標(biāo)進(jìn)行評價,取得了可見的相關(guān)段落發(fā)現(xiàn)的性能優(yōu)勢。未來,我們將開發(fā)完成融合神經(jīng)網(wǎng)絡(luò)的密度計算模型,用于對幾何圖模型的計算參數(shù)進(jìn)行高維計算,同時也將考慮精準(zhǔn)匹配之外的語義模糊匹配,提升其度量精度。本文也正在嘗試將該模型引入到問答系統(tǒng)中,形成問答系統(tǒng)的檢索模塊,以輔助問答系統(tǒng)更準(zhǔn)確的尋找出相關(guān)文檔。

      猜你喜歡
      文檔排序密度
      排序不等式
      『密度』知識鞏固
      密度在身邊 應(yīng)用隨處見
      有人一聲不吭向你扔了個文檔
      恐怖排序
      “玩轉(zhuǎn)”密度
      密度應(yīng)用知多少
      節(jié)日排序
      刻舟求劍
      兒童繪本(2018年5期)2018-04-12 16:45:32
      基于RI碼計算的Word復(fù)制文檔鑒別
      武邑县| 阳山县| 溧水县| 西乌珠穆沁旗| 宣威市| 珠海市| 亚东县| 保定市| 嘉善县| 安宁市| 望都县| 政和县| 英德市| 鄂伦春自治旗| 白河县| 丰原市| 宁远县| 尼玛县| 岗巴县| 鹤岗市| 庄浪县| 新和县| 芒康县| 故城县| 莱阳市| 武夷山市| 晋江市| 上高县| 分宜县| 巢湖市| 郧西县| 南平市| 和林格尔县| 象山县| 馆陶县| 盐津县| 弥渡县| 安溪县| 马鞍山市| 行唐县| 长沙市|