• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于改進孿生網(wǎng)絡(luò)結(jié)構(gòu)的相似法律案例檢索研究

    2019-01-29 05:48:54李蘭君周俊生顧顏慧曲維光
    關(guān)鍵詞:網(wǎng)絡(luò)結(jié)構(gòu)層級文檔

    李蘭君 周俊生 顧顏慧 曲維光

    南京師范大學(xué)計算機科學(xué)與技術(shù)學(xué)院, 南京 210023; ? 通信作者, E-mail: zhoujs@njnu.edu.cn

    各種法律數(shù)據(jù)庫已經(jīng)存儲了大量電子格式數(shù)據(jù)。由于目前的數(shù)據(jù)庫僅能做簡單的案件分類, 所以通過數(shù)據(jù)庫查詢相似案例費時費力。如何從海量法律案例中更快、更方便地查詢相似案例, 是一項值得探討的工作。隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展, 一些學(xué)者已經(jīng)在研究與機器學(xué)習(xí)相關(guān)的法律案例檢索技術(shù)。利用這些技術(shù), 可以更快地查詢相似案例,降低時間成本和人力成本, 提高效率。

    文檔相似度計算是法律案例檢索的重要環(huán)節(jié),旨在比較文檔對的相似程度。文檔相似度計算的研究成果可以應(yīng)用到很多自然語言處理任務(wù)中, 例如信息檢索、機器翻譯、自動問答、復(fù)述問題以及對話系統(tǒng)等。在一定程度上, 這些自然語言處理任務(wù)都可以抽象為文檔相似度計算問題。例如, 信息檢索可以歸結(jié)為查詢項與數(shù)據(jù)庫中文檔的相似度計算問題。

    目前, 有一些與法律相關(guān)的信息檢索技術(shù)[1-3]也是基于文檔相似度計算。Lau 等[1]開發(fā)了一個運用信息檢索和結(jié)構(gòu)信息匹配進行法規(guī)相關(guān)性分析的系統(tǒng), 其中結(jié)構(gòu)信息匹配采用的是向量空間模型。Ashley 等[2]研究糾紛判決的信息檢索方法, 并提供在線糾紛解決平臺, 案例間的文檔相似度計算方法采用基于關(guān)鍵特征的最近鄰算法。Carneiro 等[3]研究從法律案例文檔中檢索出與論據(jù)有關(guān)的信息, 其中涉及案例文檔相似度的計算, 采用基于詞頻的貝葉斯統(tǒng)計方法。

    上述方法均基于關(guān)鍵詞(特征)和統(tǒng)計信息進行文檔相似度計算, 由于特征是根據(jù)特定任務(wù)人工設(shè)計的, 因此在很大程度上限制了模型的泛化能力。深度學(xué)習(xí)方法可以自動地從原始數(shù)據(jù)中抽取特征[4],根據(jù)訓(xùn)練數(shù)據(jù)的不同, 方便地適配到其他文檔相似度的相關(guān)任務(wù)中。有較多學(xué)者提出基于深度學(xué)習(xí)方法的文檔相似度計算方法[6-11], 其中一些與孿生網(wǎng)絡(luò)相關(guān)的計算模型已取得較好的實驗結(jié)果。根據(jù)采用的網(wǎng)絡(luò)結(jié)構(gòu)不同, 這些孿生網(wǎng)絡(luò)計算模型可以分為基于全連接的方法、基于卷積網(wǎng)絡(luò)的方法以及基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法。這些方法將整個文檔看成模型的輸入序列, 由于不同文檔的長度可能相差較大, 容易導(dǎo)致數(shù)據(jù)稀疏。此外, 目前還沒有公開的中文法律案例文檔相似度數(shù)據(jù)集或其他相關(guān)任務(wù)的中文文檔相似度數(shù)據(jù)集。

    針對上述問題, 我們開發(fā)了法律案例文檔相似度標注數(shù)據(jù)集, 并提出一種能有效地避免數(shù)據(jù)稀疏問題的文檔相似度計算方法。本文的主要貢獻有 3個方面: 1)開發(fā)法律案例文檔相似度標注數(shù)據(jù)集,這是本文實驗的基礎(chǔ); 2)提出層級注意力機制的孿生網(wǎng)絡(luò)計算模型; 3)提出一種引入文檔內(nèi)容壓縮的兩步驟文檔相似度計算方法。

    1 相關(guān)工作

    孿生網(wǎng)絡(luò)[5]是一類包含兩個或更多相同子網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)架構(gòu)。這里的“相同”是指它們具有相同的配置, 即具有相同的參數(shù)和權(quán)重, 參數(shù)更新在兩個子網(wǎng)上同時進行。孿生網(wǎng)絡(luò)利用同質(zhì)的網(wǎng)絡(luò)得到兩個文檔的向量表達, 然后通過向量表達的相似度來衡量兩個文檔的相似度。

    目前, 已經(jīng)有一些基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的文檔相似度算法的研究。深度語義結(jié)構(gòu)模型(Deep Structured Semantic Model, DSSM)[6]是最早將孿生網(wǎng)絡(luò)應(yīng)用在文檔相似度計算的工作之一, 該模型主要對查詢內(nèi)容和文檔的相似度進行建模, 每個文檔對象都是由 5 層的網(wǎng)絡(luò)單獨進行向量化, 最后通過計算兩個文檔向量的余弦相似程度來確定兩個文檔的相似度。DSSM 的子網(wǎng)絡(luò)結(jié)構(gòu)可以分成兩個主要部分, 第一部分是將查詢內(nèi)容和文檔中的單詞通過哈希方式映射到單詞級別的向量, 第二部分是在哈希層之后連接 3 層的全連接神經(jīng)網(wǎng)絡(luò)來表達整個文檔的主題向量。該方法利用詞袋模型輸入數(shù)據(jù), 忽略文檔中的詞序關(guān)系, 因此對于文檔相似度計算這種任務(wù), 無法將一些學(xué)習(xí)到的局部相似度信息應(yīng)用到全局。除此之外, 全連接神經(jīng)網(wǎng)絡(luò)的參數(shù)太多, 不利于優(yōu)化。Shen 等[7-8]改進基于全連接神經(jīng)網(wǎng)絡(luò)的深度語義結(jié)構(gòu)模型, 提出基于單詞序列的卷積深度語義結(jié)構(gòu)模型(Convolutional Deep Semantic Model,CDSSM)。CDSSM 與 DSSM 的區(qū)別在于: 1)將中間生成主題向量的全連接層換成卷積神經(jīng)網(wǎng)絡(luò)的卷積層和池化層; 2)將查詢內(nèi)容和文檔中的每個單詞都表示為一個詞向量。雖然卷積神經(jīng)網(wǎng)絡(luò)減少了訓(xùn)練參數(shù), 但無法捕捉句子長距離的依存關(guān)系。考慮到長短時記憶網(wǎng)絡(luò)[9]能夠保持并利用長距離信息的特性, Palangi等[10]提出基于長短時記憶網(wǎng)絡(luò)的文檔相似度算法(Long Short-Term Memory, LSTM)。LSTM的查詢內(nèi)容與文檔分別經(jīng)由長、短時記憶網(wǎng)絡(luò)得到其向量表達。Neculoiu 等[11]提出基于多層雙向長短期記憶網(wǎng)絡(luò)的文檔相似度算法(Bi-Directional Long Short-Term Memory, BiLSTM), 孿生網(wǎng)絡(luò)的每個網(wǎng)絡(luò)分支是多層雙向的長短期記憶網(wǎng)絡(luò)。

    用 DSSM, CDSSM 或 LSTM 等模型進行文檔相似度計算時, 都是將整個文檔看成一個序列, 并將其作為模型的輸入。由于不同文檔的長度可能相差很大, 這樣的簡單處理容易導(dǎo)致數(shù)據(jù)稀疏。針對這些模型的不足, 我們提出一種改進的基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的文檔相似度計算方法。

    2 法律案例文檔相似度標注數(shù)據(jù)集的開發(fā)

    實驗數(shù)據(jù)集是驗證文檔相似度計算模型有效性的基礎(chǔ)。但是, 目前尚沒有公開的法律案例文檔相似度標注數(shù)據(jù)集或者其他相關(guān)任務(wù)的中文文檔相似度數(shù)據(jù)集, 因此, 我們開發(fā)了一個中文法律案例文檔相似度標注數(shù)據(jù)集。

    2.1 數(shù)據(jù)集來源及標注過程

    中文法律案例文檔相似度標注數(shù)據(jù)集來源于中國裁判文書網(wǎng)(http://wenshu.court.gov.cn/)上的案例。我們通過自動爬蟲程序, 下載裁判文書網(wǎng)上的部分案例文檔。文檔覆蓋 3 個較常見的法律案例類別:借貸案、離婚案、勞務(wù)糾紛案。該數(shù)據(jù)集的文檔長度為 126~344 字。我們標注的法律案例文檔相似度數(shù)據(jù)集共有 2500 對文檔, 去掉自身匹配對文檔后,還有 1225 對文檔。

    我們借鑒 Lee 等[12]的 50 標準文檔相似度測試數(shù)據(jù)集(該數(shù)據(jù)集集合來自澳大利亞廣播公司文檔)的標注方法。為了提高標注速度和質(zhì)量, 首先設(shè)計一個文檔相似度標注輔助工具, 用于展示待標注文檔的全文。評分者被要求閱讀并判斷成對展示的文檔的相似性, 并在系統(tǒng)提供的文本框中輸入相似度值。我們設(shè)定的文檔間的相似度值是 1~5, 其中 1表示兩個文檔最不相似, 5 表示兩個文檔最相似。標注系統(tǒng)界面中左右側(cè)同時展示的文檔隨機出現(xiàn)。對標注結(jié)果中置信度低的文檔對, 重新進行標注。最后, 對結(jié)果相差較大(例如相似度差值大于 1)的文檔對, 采取投票法標注。

    2.2 標注數(shù)據(jù)集的統(tǒng)計分析

    所有實驗的評級分布顯示, 標注結(jié)果嚴重傾向低相似度值, 文檔標注的相似度值1, 2, 3, 4和5出現(xiàn)的頻率分別為0.4, 0.2, 0.2, 0.1和0.1。

    為了測試相似性等級的個體差異, 計算一個主題下的每對文檔對的評分與該文檔對的評分總平均值間的差異。在 5 點量表上, 顯示平均絕對差約為0.44, 超過 92%的差異小于 1。我們還通過對每一對文檔隨機選擇一個評級, 并測量其與其余評分者判斷的平均值的相關(guān)性, 從而產(chǎn)生評分者之間的相關(guān)性。1000 對文檔相關(guān)系數(shù)的平均值為 0.615, 說明個體差異產(chǎn)生的影響可以忽略。

    為了測試標注系統(tǒng)界面中文檔所處位置不同是否影響文檔對的相似性判斷, 我們計算不同位置平均相似度的差異。在 5 點量表上的平均差異是 0.4,差異在 1 以內(nèi)的占 93%以上, 說明可以忽略文檔所處位置的影響。

    以上結(jié)果表明, 在不同的主題之間, 相似性判斷沒有顯著的差異, 也不受標注系統(tǒng)中文檔出現(xiàn)位置的影響。將所得的 5 點相似性評分標準化為 0~1尺度, 即 0.2, 0.4, 0.6, 0.8 和 1, 以便與各種相似性模型進行比較。

    3 改進的基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的法律案例文檔相似度計算方法

    在現(xiàn)有的研究中, 大多將整個文檔看成模型輸入序列, 易導(dǎo)致數(shù)據(jù)稀疏。針對這些模型的不足,我們提出利用層級注意力機制改進文檔的向量表示??紤]到文檔的層級特性(單詞組成句子, 句子構(gòu)成一個文檔), 我們在構(gòu)建一個文檔表達的時候,首先構(gòu)建句子的向量表達, 然后將它們聚合成一個文檔表達。其次, 由于單詞和句子的重要性高度依賴于上下文, 即同一個詞或句子在不同的上下文中重要性不同, 因此在單詞層級和句子層級, 我們的模型分別采用注意力機制[13]。由于基于層級注意力機制的文檔相似度計算方法是選取文檔中的部分句子作為模型的輸入, 如果采用隨機或其他簡單方式, 將導(dǎo)致文檔中部分關(guān)鍵性句子被忽略。我們進一步提出引入文檔內(nèi)容壓縮的兩步驟文檔相似度計算方法。使用文檔內(nèi)容壓縮方法, 選取文檔中一些重要句子, 將這些重要句子作為層級注意力機制模型的輸入。為驗證我們改進的基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的法律案例文檔相似度計算方法的有效性, 選取基于多層雙向長短期記憶網(wǎng)絡(luò)的文檔相似度計算方法[11]作為基線(baseline)系統(tǒng)。

    3.1 基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的法律案例文檔相似度計算的基線系統(tǒng)

    全連接神經(jīng)網(wǎng)絡(luò)參數(shù)過多, 導(dǎo)致訓(xùn)練時間長;卷積神經(jīng)網(wǎng)絡(luò)無法捕捉句子長距離的依存關(guān)系; 循環(huán)神經(jīng)網(wǎng)絡(luò)能夠保持并利用長距離信息的特性。因此, 我們選取長短期記憶模型作為孿生結(jié)構(gòu)網(wǎng)絡(luò)的一部分, 設(shè)計并實現(xiàn)基于多層雙向長短期記憶模型的文檔相似度計算[11]的基線系統(tǒng)。

    3.1.1 孿生網(wǎng)絡(luò)結(jié)構(gòu)

    在文檔相似度計算任務(wù)中, 將文檔表示成一個向量, 稱為文檔的向量表達。如圖 1 所示, 基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的文檔相似度計算方法利用相同子網(wǎng)絡(luò)得到兩個對象的向量表達, 然后利用向量表達的相似度來計算文檔間的相似度。

    圖1 基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的文檔相似度計算框架Fig.1 Framework of document similarity calculation based on siamese network structure

    3.1.2 基于多層雙向長短時記憶網(wǎng)絡(luò)的文檔相似度計算

    Neculoiu 等[11]提出基于多層的雙向長短期記憶網(wǎng)絡(luò)孿生結(jié)構(gòu)計算文檔相似度的方法, 其模型結(jié)構(gòu)分為兩部分: 1)由兩個平行的雙向長短期記憶網(wǎng)絡(luò)構(gòu)成的特征抽取部分; 2)由全連接詞構(gòu)成的分類/擬合層。最終, 通過能量函數(shù)組合這兩個網(wǎng)絡(luò)分支。選取的能量函數(shù)為余弦相似度函數(shù), 如式(1)所示。將最終輸出的實數(shù)作為文檔間的相似度值。

    其中,fw(x1)和fw(x2)分別代表文檔對的特征表達向量。

    模型的輸入是中文文檔序列x=(x0,x1,x2, …,xn),y=(y0,y1,y2, …,yn)。通過詞嵌入矩陣We,將詞映射為向量(Ii=Wexi,Ji=Weyi)。

    3.2 利用層級注意力機制的孿生網(wǎng)絡(luò)模型計算法律案例文檔相似度

    目前已有一些基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的文檔相似度算法研究, 這些方法的研究主體是整個文本。從內(nèi)容來看, 文本可能是短語、句子或文檔, 但訓(xùn)練模型時都是將整個文本看成一個序列, 將其作為同質(zhì)網(wǎng)絡(luò)的輸入。這種做法雖然簡單, 但存在明顯的問題, 即對于長度相差較大的文檔, 由于是兩個相同的網(wǎng)絡(luò)分支, 它們具有相同的參數(shù)規(guī)模, 從而會出現(xiàn)數(shù)據(jù)稀疏問題。根據(jù)經(jīng)驗可知, 文檔中不同的單詞和句子, 其重要程度是不同的; 相同的單詞和句子, 在不同的上下文中重要程度也不同。

    基于以上事實, 我們提出層級注意力機制的孿生網(wǎng)絡(luò)模型(Hierarchical Attention Semantic Model,HASM)。在構(gòu)建一個文檔表達的時候, 首先構(gòu)建句子的向量表達, 然后將它們聚合成一個文檔表達。在單詞級別和句子級別, 采用注意力機制。孿生網(wǎng)絡(luò)結(jié)構(gòu)中每個分支如圖2所示。

    其次,與兩代血親的長期共同生活與緊密聯(lián)系,滋長著沈從文慈孝友悌的特殊性血緣親情??疾焐驈奈膶ψ约河啄暝诩业纳罱?jīng)歷與離家后謀生的斷續(xù)描敘,可以看出沈從文與父母以及兄弟姐妹之間的關(guān)系十分和諧。正如《太上感應(yīng)篇·友悌》說“孝悌本一。今又專言者。欲人隨事而盡之也。兄友則愛而且敬。弟悌則畏而且和。兄弟乃我身同氣。只此幾人。人生最為難得?!鄙驈奈脑谒淖髌分袑⑦@種孝悌人倫寓于日常生活瑣事的敘述之中。

    圖2 層級注意力機制結(jié)構(gòu)Fig.2 Hierarchical attention mechanism structure

    該孿生網(wǎng)絡(luò)是一個 4 層的結(jié)構(gòu), 先是通過雙向GRU (gated recurrent unit)層[14]得到單詞的編碼, 連接一個注意力機制層, 得到一個包含重要信息的句子向量表示。將文檔中句子的向量表示連接起來,作為下一層(雙向 GRU 層)的輸入, 雙向 GRU 層的輸出可以看成句子的編碼。與單詞編碼層相同, 再連接一個注意力機制層。權(quán)值共享的孿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包含上述提到的單詞編碼層、單詞級別的注意力機制層、句子編碼層和句子級別的注意力機制層?;诰渥蛹墑e的注意力機制層得到的向量連接一個前饋神經(jīng)網(wǎng)絡(luò)是整個文檔的向量表達, 這個向量有 128 個維度。

    3.2.1 編碼層

    單詞編碼層和句子編碼層都利用雙向 GRU 模型, 它們的不同之處在于單詞編碼層的輸入是句子中每個詞通過詞嵌入矩陣映射的二維向量, 而句子編碼層的輸入是由單詞級別注意力機制向量連接而來。

    給定一個句子, 由一個序列組成, 即為wit,t∈[0,T],T表示句子長度。通過詞嵌入矩陣We, 將詞映射為向量,Xij=Wewij。

    通過雙向 GRU 模型, 獲取單詞或句子的向量表達, 可以提供給輸出層過去時刻和未來時刻兩個方向的信息。雙向 GRU 模型包含一個向前隱藏層和向后隱藏層

    其中,L表示句子數(shù)量。

    3.2.2 注意力機制層

    句子中每個詞項的重要程度不同。同樣地, 不同的句子, 由于其在文檔中所處的位置和內(nèi)容不同,其重要程度也不同。此外, 相同的單詞和句子在不同的上下文中重要程度也不同。在進行單詞編碼和句子編碼后, 分別采用注意力機制獲取文檔的重要信息。本文采用的注意力機制可以表示為

    3.3 引入文檔內(nèi)容壓縮的兩步驟文檔相似度計算

    基于層級注意力機制的孿生網(wǎng)絡(luò)計算模型在輸入時可能產(chǎn)生忽略文檔中重要句子的問題, 為此我們提出引入文檔內(nèi)容壓縮的兩步驟文檔相似度計算方法, 計算框架如圖 3 所示。首先將文檔內(nèi)容壓縮,從案例文檔中抽取部分重要的句子, 然后將壓縮后的內(nèi)容分別送入相同的層級注意力機制網(wǎng)絡(luò)中。

    我們采用的文檔內(nèi)容壓縮方法是一種用于文本處理的基于圖的排序算法——TextRank 算法[15], 其基本思想來源于谷歌的 PageRank 算法, 通過將法律案例文檔分割成若干組成單元(單詞、句子)來建立圖模型, 法律案例文檔中的重要成分通過投票機制進行排序, 僅利用單篇法律案例文檔的信息, 就可以實現(xiàn)關(guān)鍵詞提取。TextRank 算法與 LDA 和HMM 等模型不同, 不需要事先對多篇文檔進行學(xué)習(xí)訓(xùn)練, 因其簡潔有效而得到廣泛應(yīng)用。對案例文檔使用 TextRank 算法進行文檔內(nèi)容壓縮, 可以提取重要句子, 刪除冗余內(nèi)容。通過文檔內(nèi)容壓縮, 可以解決層級注意力機制孿生網(wǎng)絡(luò)模型容易忽略文檔中關(guān)鍵句子的問題。

    圖3 基于兩步驟的文檔相似度計算框架Fig.3 Two-step document similarity calculation framework

    TextRank 算法將每個句子看成圖中的一個節(jié)點, 若兩個句子之間有相似性, 則認為對應(yīng)的兩個節(jié)點之間有一個無向有權(quán)邊, 權(quán)值是相似度。兩個句子相似度的計算公式如下:

    其中, 分子表示兩個句子中都出現(xiàn)的單詞的數(shù)量,|Si|和|Sj|分別表示兩個句子的單詞數(shù)量。

    TextRank算法提取重要句子的計算公式如下:

    其中, WS(Vi)表示句子Vi的重要程度,d是阻尼系數(shù), ln(Vi)是與句子Vi存在連接邊的節(jié)點。

    4 實驗

    4.1 評價方法

    為了判斷不同文檔相似度計算方法的優(yōu)劣, 需要對比實驗結(jié)果與評分者提供的文檔對相似度量值的相關(guān)性和差異性, 實驗中分別采用皮爾遜相關(guān)系數(shù)(r)和均方誤差(MSE)來衡量相關(guān)性和差異性。r取值范圍為[-1, 1],r> 0 表示實驗結(jié)果與標準觀察者所提供文檔對的相似度量值正相關(guān)。MSE>0, 值越小, 表示預(yù)測模型描述實驗數(shù)據(jù)具有更好的精確度。實驗中, 通過將標注數(shù)據(jù)集按照 7:3 的比例分割, 獲得訓(xùn)練集和測試集。訓(xùn)練集和測試集的文檔相似度分布與標注數(shù)據(jù)集相同。實驗中設(shè)置一些超參數(shù), 取值如表 1 所示。超參數(shù)值的設(shè)定依據(jù)經(jīng)驗和實驗驗證。

    4.2 評價結(jié)果

    通過實驗, 驗證層級注意力機制孿生網(wǎng)絡(luò)結(jié)構(gòu)的可用性以及文檔內(nèi)容壓縮方法的有效性。

    4.2.1 驗證層級注意力機制孿生網(wǎng)絡(luò)結(jié)構(gòu)的可用性

    為了驗證層級注意力機制孿生網(wǎng)絡(luò)結(jié)構(gòu)的可用性, 將層級注意力機制孿生結(jié)構(gòu)網(wǎng)絡(luò)與基線系統(tǒng)基于長短時記憶網(wǎng)絡(luò)的方法進行實驗對比, 結(jié)果表明,前者可以學(xué)習(xí)到文檔中的重要信息。我們適當(dāng)修改基線系統(tǒng)的方法, 在長短時記憶網(wǎng)絡(luò)層之后連接注意力機制層(與 3.2.2 節(jié)的做法相同), 最后與我們的HASM 方法進行對比, 實驗結(jié)果如表 2 所示。實驗中, 基于長短期記憶模型的方法取所有案例文檔長度均值180作為模型輸入序列的長度。

    表1 超參數(shù)設(shè)置Table 1 Super parameter settings

    表2 顯示, 與原有方法相比, 結(jié)合注意力機制的基線方法皮爾遜相關(guān)系數(shù)和均方誤差結(jié)果分別提升 0.09 和 0.013。與結(jié)合注意力機制的基線方法相比, 層級注意力機制的孿生網(wǎng)絡(luò)模型皮爾遜相關(guān)系數(shù)提升 0.01。實驗結(jié)果表明, 結(jié)合注意力機制的基線方法明顯優(yōu)于原有方法, 層級注意力機制的孿生網(wǎng)絡(luò)模型優(yōu)于結(jié)合注意力機制的基線方法。

    4.2.2 驗證文檔內(nèi)容壓縮方法的有效性

    對于本文提出的層級注意力機制的孿生網(wǎng)絡(luò)結(jié)構(gòu), 我們分別設(shè)置不包含文檔內(nèi)容壓縮方法和包含文檔內(nèi)容壓縮方法的兩組實驗, 每個文檔選取的句子數(shù)為 10, 單句字數(shù)為 15, 實驗結(jié)果如表3所示??梢钥闯? 結(jié)合文檔內(nèi)容壓縮方法的層級注意力機制網(wǎng)絡(luò)的文檔相似度計算方法在皮爾孫相關(guān)系數(shù)和均方誤差指標上均優(yōu)于層級注意力機制網(wǎng)絡(luò), 分別提升 0.01 和 0.001, 說明在進行層級注意力機制孿生網(wǎng)絡(luò)訓(xùn)練前先進行文檔內(nèi)容壓縮是必要的。

    表2 層級注意力機制孿生網(wǎng)絡(luò)與基線系統(tǒng)的實驗結(jié)果對比Table 2 Experimental comparison results of hierarchical attention mechanism and baseline system

    表3 驗證文檔內(nèi)容壓縮方法有效性的實驗結(jié)果對比Table 3 Experimental comparison results of validating the effectiveness of document content compression methods

    5 結(jié)論及下一步工作

    本文采用基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的文檔相似度計算方法, 對相似法律案例的檢索問題進行探索性的研究。首先通過搜集實際法律案例文書, 開發(fā)一個法律案例文檔相似度的標注數(shù)據(jù)集; 然后將層級注意力機制的孿生網(wǎng)絡(luò)結(jié)構(gòu)與文檔內(nèi)容壓縮相結(jié)合, 提出一種改進的基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的文檔相似度計算方法。首先對案例文檔進行文檔內(nèi)容壓縮處理, 同質(zhì)網(wǎng)絡(luò)采用層級注意力機制網(wǎng)絡(luò)。通過壓縮文檔內(nèi)容, 可以獲得文檔中關(guān)鍵性句子, 解決了基于層級注意力機制的孿生網(wǎng)絡(luò)計算模型在輸入時可能忽略文檔中重要句子的問題。層級注意力機制模型較好地解決了已有研究中將整個文檔看成模型輸入序列, 易導(dǎo)致數(shù)據(jù)稀疏的問題。在法律案例文檔相似度標注數(shù)據(jù)集上的實驗結(jié)果顯示, 該方法可以提高文檔相似度計算的準確率。

    目前, 我們的法律案例文檔相似度標注數(shù)據(jù)集規(guī)模相對較小。在下一步工作中, 我們計劃擴展該數(shù)據(jù)集。另外, 后續(xù)工作中將進一步對神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進行調(diào)整(例如在循環(huán)網(wǎng)絡(luò)層之外再設(shè)置卷積層),以期更好地提高文檔相似度計算的準確率。

    猜你喜歡
    網(wǎng)絡(luò)結(jié)構(gòu)層級文檔
    有人一聲不吭向你扔了個文檔
    軍工企業(yè)不同層級知識管理研究實踐
    基于軍事力量層級劃分的軍力對比評估
    基于RI碼計算的Word復(fù)制文檔鑒別
    任務(wù)期內(nèi)多層級不完全修復(fù)件的可用度評估
    基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
    知識網(wǎng)絡(luò)結(jié)構(gòu)維對于創(chuàng)新績效的作用機制——遠程創(chuàng)新搜尋的中介作用
    滬港通下A+ H股票網(wǎng)絡(luò)結(jié)構(gòu)演化的實證分析
    復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)比對算法研究進展
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    灵石县| 宁波市| 瑞丽市| 宜宾县| 宜宾市| 确山县| 台东市| 浠水县| 巴塘县| 施秉县| 信丰县| 台中县| 宜川县| 五家渠市| 长岛县| 杂多县| 定兴县| 塘沽区| 温泉县| 金门县| 乌兰县| 左权县| 宜春市| SHOW| 托克托县| 柘城县| 高台县| 苏尼特右旗| 兴海县| 宁都县| 长春市| 眉山市| 财经| 牟定县| 简阳市| 营山县| 台前县| 辉南县| 叶城县| 游戏| 奇台县|