• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種采用機(jī)器閱讀理解模型的中文分詞方法

    2022-08-18 14:43:34周裕林陳艷平黃瑞章秦永彬林川
    關(guān)鍵詞:歧義分詞損失

    周裕林,陳艷平,黃瑞章,秦永彬,林川

    (1.公共大數(shù)據(jù)國家重點(diǎn)實(shí)驗(yàn)室,550025,貴陽;2.貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,550025,貴陽)

    中文分詞是中文信息處理中的首要任務(wù)。與英語使用分隔符來分割單詞不同,漢語是一種由本族語素(漢字)發(fā)展而成的多合成語言[1]。在漢語中,語素也可以獨(dú)立成詞。語素和復(fù)合詞的模糊導(dǎo)致了漢語中對(duì)詞的概念比較弱。另外,與英語使用分隔符來分割單詞不同,漢語句子采用連續(xù)書寫。詞與詞之間沒有分隔符。因此,在中文文本里,經(jīng)常存在分詞歧義。單個(gè)句子會(huì)產(chǎn)生多種可能的切分路徑。例如,“世界冠軍”“抽象概念”“銀行流水”等,這些詞既可單獨(dú)成詞,又可以切分成粒度更小的多個(gè)詞語,例如“世界/冠軍”“抽象/概念”“銀行/流水”等。

    中文分詞作為中文信息處理的第一步,直接用于支撐多種下游任務(wù),如文本分類、機(jī)器翻譯等。分詞結(jié)果的不同將會(huì)對(duì)下游任務(wù)產(chǎn)生不同的影響。錯(cuò)誤的分詞結(jié)果會(huì)產(chǎn)生錯(cuò)誤擴(kuò)散,直接影響下游任務(wù)的性能。所以,中文分詞是中文信息處理中一項(xiàng)重要任務(wù)。

    現(xiàn)有的神經(jīng)網(wǎng)絡(luò)模型很難捕獲句子中的長距離語義依賴,使得模型對(duì)文本語義特征理解不夠充分,從而對(duì)文本中的歧義詞邊界識(shí)別性能較差。然而,在序列標(biāo)注任務(wù)中,歧義詞的邊界樣本又相對(duì)較少,存在樣本不平衡問題。例如,“世界冠軍”“抽象概念”等歧義詞屬于難分類樣本,文本中存在著的歧義詞與大量的非歧義詞樣本造成了難易樣本不平衡。傳統(tǒng)的序列標(biāo)注模型(如LSTM、CRF、Transformer的雙向編碼器(BERT)等)在歧義詞上識(shí)別性能都較差,不能很好地解決難易樣本不平衡問題。盡管在解決中文分詞歧義性上提出了各種解決方案,但仍然存在不足。目前,主流的中文分詞模型主要采用序列標(biāo)注模型。序列標(biāo)注模型只依賴每個(gè)字周圍的局部特征對(duì)字的分類標(biāo)簽進(jìn)行預(yù)測。該模型存在輸入特征使用不充分、難易樣本中難分類樣本得不到重點(diǎn)關(guān)注的問題,使得模型識(shí)別歧義詞性能較差。

    針對(duì)中文分詞模型輸入特征使用不充分、難易樣本不平衡的問題,本文提出了基于機(jī)器閱讀理解的中文分詞模型。本文設(shè)計(jì)模型的動(dòng)機(jī)是構(gòu)建問題信息作為先驗(yàn)知識(shí)以豐富模型輸入特征。針對(duì)中文詞組的歧義性帶來的難易樣本不平衡問題,本文改進(jìn)了損失函數(shù)。在Bakeoff2005語料庫的4個(gè)公共數(shù)據(jù)集上進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明了本文方法的有效性。本文的主要貢獻(xiàn)如下。

    (1)采用基于機(jī)器閱讀理解模型的方法,通過構(gòu)建問題信息作為先驗(yàn)知識(shí)以豐富模型輸入特征,增強(qiáng)模型對(duì)文本語義特征的理解,實(shí)現(xiàn)歧義詞的更好識(shí)別。

    (2)在充分分析中文詞組特點(diǎn)的基礎(chǔ)上,改進(jìn)損失函數(shù)以緩解歧義詞所帶來的難易樣本不平衡問題。

    (3)本文首次將機(jī)器閱讀理解模型應(yīng)用于中文分詞任務(wù)中,為中文分詞提供了一種新思路。

    1 相關(guān)工作

    目前,主流的中文分詞方法是基于神經(jīng)網(wǎng)絡(luò)模型。許多方法都將中文分詞作為序列標(biāo)注任務(wù)進(jìn)行處理,然而這些方法都存在輸入特征使用不充分和無法緩解難易樣本不平衡問題。

    隨著深度神經(jīng)網(wǎng)絡(luò)模型不斷發(fā)展[2],出現(xiàn)了許多應(yīng)用于各項(xiàng)自然語言處理任務(wù)的神經(jīng)網(wǎng)絡(luò)模型[3]。Collobert等[4]提出將神經(jīng)網(wǎng)絡(luò)的方法應(yīng)用于序列標(biāo)注任務(wù)。此后,許多方法相繼應(yīng)用于中文分詞。Chen等[5]提出用長短記憶(LSTM)神經(jīng)網(wǎng)絡(luò)來解決傳統(tǒng)神經(jīng)網(wǎng)絡(luò)存在的長期依存關(guān)系的問題;Yao等[6]在Chen等的基礎(chǔ)上,提出雙向長短記憶(Bi-LSTM)神經(jīng)網(wǎng)絡(luò)來充分利用上下文信息進(jìn)行分詞;Chen等[7]提出帶門結(jié)構(gòu)的遞歸神經(jīng)網(wǎng)絡(luò)(GRNN)來保留上下文;Chen等[8]使用對(duì)抗神經(jīng)網(wǎng)絡(luò)來使用多個(gè)語料庫進(jìn)行聯(lián)合訓(xùn)練;Ma等[9]在Bi-LSTM上引入預(yù)訓(xùn)練、dropout、超參數(shù)調(diào)參這3項(xiàng)深度學(xué)習(xí)技術(shù),以簡單的模型實(shí)現(xiàn)復(fù)雜模型的性能;Yang等[10]利用外部知識(shí)提高中文分詞的準(zhǔn)確率;Gong等[11]提出一個(gè)將每個(gè)標(biāo)準(zhǔn)分割成若干標(biāo)準(zhǔn)的Swich-LSTM結(jié)構(gòu);Zhou等[12]引入多種漢字Embedding來增強(qiáng)語義;He等[13]提出利用多標(biāo)準(zhǔn)進(jìn)行中文分詞;郭振鵬等[14]提出結(jié)合詞典的CNN-BiGRU-CRF網(wǎng)絡(luò)中文分詞模型。

    大規(guī)模預(yù)訓(xùn)練模型BERT[15]和ELMo[16]的出現(xiàn)刷新了NLP領(lǐng)域各項(xiàng)任務(wù)的記錄。Diao等[17]提出基于BERT的N-gram增強(qiáng)中文文本編碼器,以方便識(shí)別出可能的詞組合;Tian等[18]提出基于雙通道注意力機(jī)制的分詞及詞性標(biāo)注模型;Tian等[19]提出基于鍵值記憶神經(jīng)網(wǎng)絡(luò)的中文分詞模型;Chen等[20]提出在基于全局字符聯(lián)機(jī)制的神經(jīng)網(wǎng)絡(luò)模型GCA-FL,通過聯(lián)邦學(xué)習(xí)的方式增強(qiáng)模型在中文分詞上的性能。

    以上模型盡管在公共數(shù)據(jù)集上取得了不錯(cuò)的效果,但還存在以下的不足:①傳統(tǒng)的序列標(biāo)注模型對(duì)文本語義特征使用不充分;②中文分詞文本存在難易樣本不平衡問題無法得到有效緩解。近年來,有把序列標(biāo)注任務(wù)轉(zhuǎn)換成智能問答(QA)任務(wù)的趨勢。Li等[21]將實(shí)體識(shí)別任務(wù)轉(zhuǎn)換成機(jī)器閱讀理解(MRC)任務(wù),每個(gè)實(shí)體類型R(x,y)都能被參數(shù)化為帶答案y的一個(gè)問題q(x);Li等[22]將關(guān)系抽取任務(wù)轉(zhuǎn)換為一個(gè)多回合的問答任務(wù)。此外,構(gòu)建問題信息作為先驗(yàn)知識(shí),能使輸入特征更加豐富。然而,以上模型無法緩解難易樣本不平衡問題。Lin等[23]在目標(biāo)檢測中通過降低易分類樣本的損失權(quán)重,從而更加關(guān)注難分類樣本,能夠有效緩解難易樣本之間的不平衡;Liu等[24]引入密度函數(shù),在目標(biāo)檢測中既抑制了易分類樣本損失權(quán)重,又不太過于關(guān)注難分類樣本。

    2 機(jī)器閱讀理解模型

    2.1 BERT預(yù)訓(xùn)練模型

    Vaswani等[25]最早提出Transformer的模型架構(gòu)。它能夠更好地學(xué)習(xí)到句子當(dāng)中單詞與單詞之間的聯(lián)系,并完全依賴于自注意力機(jī)制來計(jì)算其輸入和輸出從而結(jié)合上下文語境來提高模型的性能。自注意力機(jī)制的公式為

    (1)

    式中:Q、K、V表示3個(gè)矩陣向量;d為Q向量的維度;通過softmax對(duì)得到的分?jǐn)?shù)歸一化。由于BERT的目標(biāo)是生成語言模型,只需要用到Transformer編碼器的機(jī)制,所以對(duì)Transformer的解碼器部分不再作過多敘述。

    BERT預(yù)訓(xùn)練模型中的Embedding層是由3種Embedding求和得到。其中,Token Embeddings是詞向量。Segment Embeddings是用來區(qū)分兩種句子,因?yàn)轭A(yù)訓(xùn)練不只做語言模型,還要做以兩個(gè)句子為輸入的分類任務(wù)。Position Embeddings是用來表示句子中單詞的位置。BERT預(yù)訓(xùn)練模型通過3個(gè)Embeddings相加能更好地提取句子語義特征。

    2.2 閱讀理解分詞標(biāo)注

    本文是在大規(guī)模預(yù)訓(xùn)練BERT模型上構(gòu)建的機(jī)器閱讀理解模型。給定一個(gè)輸入句子X={x1,x2,…,xn},其中,n代表句子中第n個(gè)字,然后在X中發(fā)現(xiàn)每一個(gè)詞組。首先,需要將數(shù)據(jù)集轉(zhuǎn)換成(QUESTION,ANSWER,CONTEXT)的三元組形式,其中,QUESTION表示問題生成模板,ANSWER使用xstart,end來表示在句子中詞組的開始和結(jié)束下標(biāo),CONTEXT為整個(gè)句子的文本。對(duì)于詞組,產(chǎn)生一個(gè)問題q={q1,q2,…,qm},其中m代表問題中第m個(gè)字。通過產(chǎn)生一個(gè)問題qy就能獲得一個(gè)三元組(qy,xstart,end,X),也就是先前定義的三元組(QUESTION,ANSWER,CONTEXT)。由于構(gòu)建了關(guān)于詞組先驗(yàn)知識(shí)的問題,生成問題的內(nèi)容對(duì)最后的結(jié)果有一定影響。Li等[22]采用基于規(guī)則的過程來構(gòu)建問題。在本文中,采用問句和詞定義的方式來構(gòu)建問題。詞定義表示為詞概念的描述,它描述得盡可能通用、精準(zhǔn)且沒有歧義。兩種問題的構(gòu)建方式如表1所示。

    表1 問題的構(gòu)建方式

    問題內(nèi)容構(gòu)建的不同,與文本拼接輸入模型時(shí)會(huì)帶有不同的先驗(yàn)知識(shí),從而對(duì)最后的預(yù)測結(jié)果產(chǎn)生一定的影響,如圖1所示。本文給定文本“學(xué)生會(huì)組織義演活動(dòng),他馬上從南京市長江大橋過來”。由于詞定義構(gòu)建的問題內(nèi)容相較于問句式產(chǎn)生的輸入特征更加豐富,使得對(duì)“學(xué)生會(huì)”“南京市長江大橋”上分詞更加準(zhǔn)確。

    圖1 不同問題內(nèi)容構(gòu)建對(duì)分詞結(jié)果的影響

    2.3 機(jī)器閱讀理解

    機(jī)器閱讀理解分詞模型結(jié)構(gòu)如圖2所示。在BERT預(yù)訓(xùn)練模型的基礎(chǔ)上,加入已構(gòu)建問題詞組的先驗(yàn)知識(shí),輸入BERT編碼器后得到隱藏層特征,最后通過解析特征輸出結(jié)果。

    圖2 機(jī)器閱讀理解分詞模型

    輸入包含了問題和文本兩個(gè)部分,通過BERT預(yù)訓(xùn)練模型獲得隱藏層表征矩陣

    (2)

    式中:f為BERT編碼函數(shù);Q為問題信息;C為文本信息;E為BERT編碼器輸出的表征矩陣。

    通過多層感知向量機(jī)(MLP)[26]得到預(yù)測的詞組索引。在MLP中,獲得句子中每個(gè)字是詞組的開始和結(jié)束索引的概率

    (3)

    式中Tstart和Tend是學(xué)習(xí)權(quán)重。對(duì)Pstart和Pend每一行使用arg max函數(shù),得到預(yù)測的每個(gè)詞組的開始和結(jié)束索引

    (4)

    Pistart,jend=sigmoid(mconcat(Eistart,Ejend))

    (5)

    式中m是學(xué)習(xí)權(quán)重。將獲得的結(jié)果合并得到范圍概率分布矩陣

    式中pij表示句中索引i到索引j組成詞組的概率。最后,通過人工設(shè)定閾值,輸出匹配的詞組結(jié)果。

    2.4 改進(jìn)損失函數(shù)

    盡管機(jī)器閱讀理解模型通過編碼問題信息豐富了輸入特征,但在數(shù)據(jù)集中存在著很多易分類樣本和難分類樣本。這使得難易樣本之間存在不平衡,從而降低了分詞的準(zhǔn)確度。為了解決上述問題,本文改進(jìn)了交叉熵?fù)p失函數(shù)

    (6)

    式中:y∈{-1,1}是一個(gè)真實(shí)類;p∈[0,1]是模型對(duì)標(biāo)簽為y=1的類的估計(jì)概率。交叉熵函數(shù)在機(jī)器閱讀理解模型使用為

    (7)

    式中Ystart,end表示每個(gè)起始索引的真實(shí)標(biāo)簽??偟膿p失函數(shù)為上述3個(gè)損失函數(shù)之和。然而,即使是容易識(shí)別的樣本也會(huì)因?yàn)榻徊骒負(fù)p失而遭受非顯著程度的損失。這些微小的損失值在大量容易識(shí)別的樣本中匯總起來,可以淹沒稀有類。通常,在樣本不平衡問題上,普遍存在著的是正負(fù)樣本不平衡,即正(負(fù))例太多、負(fù)(正)例太少。一個(gè)解決正負(fù)類別不平衡的常用方法是為類別引入一個(gè)權(quán)重因子α∈[0,1][27]。最后,權(quán)重之和重寫為

    L=αtLstart+βtLend+γtLspan

    (8)

    在本文實(shí)驗(yàn)中,訓(xùn)練機(jī)器閱讀理解中文分詞模型時(shí)會(huì)遇到普遍不平衡現(xiàn)象壓倒了交叉熵?fù)p失。易分類樣本占了損失值的大部分,并主導(dǎo)了梯度。盡管αt、βt、γt能夠平衡正負(fù)樣本不平衡,但是無法平衡難易樣本。因此,需要降低易分類樣本權(quán)重并關(guān)注難分類樣本。本文借鑒目標(biāo)檢測中平衡正負(fù)難易樣本的方法,對(duì)交叉熵函數(shù)引入一個(gè)平滑因子[23]

    (9)

    式中θ≥0是關(guān)注度參數(shù)。因此,定義新的損失函數(shù)

    F(p,y)=ptg(p,y)

    (10)

    在式(10)中可以通過參數(shù)θ來平滑地調(diào)整易分類樣本的損失權(quán)重。例如,在θ=2和樣本概率p=0.9時(shí),可計(jì)算出與沒有平滑因子相比,這個(gè)樣本對(duì)損失的貢獻(xiàn)權(quán)重降低為原來的1%。在p=0.1時(shí),這個(gè)樣本顯然是難分類樣本,計(jì)算出的平滑因子要比易分類樣本要高,意味著模型在梯度更新過程中應(yīng)該更加關(guān)注這個(gè)樣本。合并式(7)~(10),得到最終的損失函數(shù)

    L=αtF(Pstart,Ystart)+βtF(Pend,Yend)+

    γtF(Pstart,end,Ystart,end)

    (11)

    通過改進(jìn)交叉熵函數(shù)緩解了難易樣本間的不平衡問題。

    3 實(shí)驗(yàn)與結(jié)果分析

    3.1 數(shù)據(jù)集

    進(jìn)行基于機(jī)器閱讀理解模型的中文分詞任務(wù),實(shí)驗(yàn)所用數(shù)據(jù)集來自Bakeoff2005語料庫中的4個(gè)公共數(shù)據(jù)集PKU、MSRA、CITYU、AS。因機(jī)器閱讀理解任務(wù)不同于序列標(biāo)注任務(wù),需將原本的訓(xùn)練集和測試集轉(zhuǎn)換成MRC所需格式(MRC所用訓(xùn)練集和測試集均與原數(shù)據(jù)集相同),轉(zhuǎn)換后數(shù)據(jù)集樣本數(shù)詳細(xì)信息如表2所示,表中顯示了未登錄詞(out of vocabulary,OOV)在測試集中的比例。

    表2 訓(xùn)練集、測試集和OOV樣本數(shù)的統(tǒng)計(jì)信息

    3.2 評(píng)測指標(biāo)

    實(shí)驗(yàn)采用精準(zhǔn)率P、召回率R、F1值為評(píng)測指標(biāo),其中主要以F1值為主要評(píng)測指標(biāo)。P、R、F1值的計(jì)算公式分別為

    (12)

    (13)

    (14)

    式中:Wc為正確分詞樣本數(shù);Wa為全部樣本數(shù);Wt為測試集中正確的樣本數(shù)。

    未登錄詞是指已知詞典中不存在的新詞,識(shí)別出未登錄詞也是評(píng)價(jià)中文分詞模型性能優(yōu)劣的重要指標(biāo)之一。未登錄詞召回率計(jì)算公式為

    (15)

    式中:Ws為數(shù)據(jù)集中正確的分詞答案;Wp為模型預(yù)測分詞的結(jié)果;V(Ws)為Ws中的詞組未在詞典中出現(xiàn)的詞數(shù)。

    3.3 超參數(shù)及訓(xùn)練設(shè)置

    超參數(shù)的選擇對(duì)模型訓(xùn)練結(jié)果有很大影響,超參數(shù)設(shè)計(jì)如下:優(yōu)化算法使用Adam,初始學(xué)習(xí)率為0.000 05,以0.05速度進(jìn)行衰減;每個(gè)batch_size為16,Dropout為0.2,迭代20輪;概率分布矩陣閾值為0.5。本文選擇BERT中的base版本。

    3.4 實(shí)驗(yàn)結(jié)果及分析

    將本文模型與中文分詞常用的經(jīng)典模型CRF、LSTM、ELMo、BERT以及近年來其他中文分詞模型等進(jìn)行實(shí)驗(yàn)對(duì)比,結(jié)果如表3所示。

    表3 中文分詞模型實(shí)驗(yàn)結(jié)果對(duì)比

    從表3可以看出,本文模型盡管在PKU數(shù)據(jù)集上效果略差,但與近年深度學(xué)習(xí)的中文分詞模型相比還是取得了不錯(cuò)的結(jié)果。這主要緣于以下3點(diǎn)。一是本文模型在構(gòu)建時(shí)區(qū)別于序列標(biāo)注任務(wù),將模型的構(gòu)建分為3個(gè)步驟:首先,將序列標(biāo)注數(shù)據(jù)集格式轉(zhuǎn)換成機(jī)器閱讀理解格式;其次,構(gòu)建問題信息以豐富輸入特征;最后,改進(jìn)損失函數(shù)緩解難易樣本不平衡,從而提高模型的性能。二是問題內(nèi)容構(gòu)建上采用詞定義的方式,比問句式所獲得的輸入特征要更加豐富。三是本文模型適用于中文分詞中結(jié)構(gòu)明確、詞組邊界清晰、存在歧義詞等特點(diǎn)的特定領(lǐng)域數(shù)據(jù)。

    為驗(yàn)證改進(jìn)損失函數(shù)對(duì)于平衡難易樣本的有效性,改變改進(jìn)損失中的參數(shù)θ進(jìn)行實(shí)驗(yàn),結(jié)果如表4所示。

    表4 不同θ下的實(shí)驗(yàn)結(jié)果對(duì)比

    當(dāng)θ=0時(shí),交叉熵?fù)p失函數(shù)與改進(jìn)的損失函數(shù)相等。從表4可以看出,相比于不加平滑因子,加入平滑因子后性能都有提升。在PKU、MSRA、CITYU、AS數(shù)據(jù)集上,F1分別提升了1.46%、0.89%、0.7%、1.04%。式(9)以及實(shí)驗(yàn)結(jié)果表明,當(dāng)θ=1時(shí),模型對(duì)易分類樣本的損失抑制和對(duì)難分類樣本關(guān)注度變化較小,使得在緩解難易樣本不平衡上效果較弱。θ=2時(shí)模型性能最好。這是因?yàn)棣?2時(shí),本文模型能夠較好地抑制易分類樣本損失和關(guān)注難分類樣本。但是,當(dāng)θ=5時(shí),過度的抑制易分類樣本損失和關(guān)注難分類樣本,使得模型性能反而下降。這是因?yàn)檫^度抑制易分類樣本損失反而會(huì)造成模型對(duì)易分類樣本識(shí)別錯(cuò)誤。若在模型已經(jīng)收斂的情況下去過度關(guān)注那些非常難分類的樣本,也會(huì)使模型產(chǎn)生誤判。上述兩種情況會(huì)導(dǎo)致模型的準(zhǔn)確度降低。

    未登錄詞是影響中文分詞準(zhǔn)確性的關(guān)鍵問題之一。為驗(yàn)證閱讀理解分詞模型在OOV上的表現(xiàn),對(duì)比了閱讀理解模型和表3中的經(jīng)典模型在OOV上的性能,結(jié)果如表5所示。可以看出,本文方法在OOV識(shí)別效果上均優(yōu)于經(jīng)典模型。其原因在于:①大規(guī)模預(yù)訓(xùn)練模型BERT通過海量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,掌握更好的通用語言能力,下游任務(wù)只需微調(diào)即可獲得優(yōu)異性能;②OOV中也包含歧義詞和難分類樣本。本文在預(yù)訓(xùn)練模型BERT基礎(chǔ)上豐富輸入特征和改進(jìn)損失函數(shù),在提高歧義詞識(shí)別的基礎(chǔ)上,也增強(qiáng)了OOV的識(shí)別。盡管如此,由于新詞的不斷出現(xiàn),中文分詞中OOV的識(shí)別仍具挑戰(zhàn)性。

    表5 不同模型的OOV召回率實(shí)驗(yàn)結(jié)果對(duì)比

    在對(duì)實(shí)驗(yàn)過程進(jìn)一步分析后,發(fā)現(xiàn)本文方法在樣本數(shù)較少的情況下也呈現(xiàn)出不錯(cuò)的結(jié)果。本文將4個(gè)公共數(shù)據(jù)集按10%、20%、40%、80%、100%的比例劃分訓(xùn)練集,測試集保持不變,實(shí)驗(yàn)結(jié)果如圖3所示??梢钥闯?4個(gè)公共數(shù)據(jù)集按比例劃分訓(xùn)練集,送入模型訓(xùn)練20個(gè)epoch后,在測試集上得到的實(shí)驗(yàn)結(jié)果相差不大;隨著訓(xùn)練集規(guī)模的增大,實(shí)驗(yàn)結(jié)果提升較小;本文提出的機(jī)器閱讀理解模型能夠在樣本數(shù)較少的情況下,達(dá)到較好的中文分詞結(jié)果。

    (a)PKU數(shù)據(jù)集

    最后,對(duì)本文模型進(jìn)行消融實(shí)驗(yàn)分析。表6對(duì)原始MRC方法[21]和本文方法進(jìn)行了實(shí)驗(yàn)對(duì)比,并在問題信息構(gòu)建上采用了表1中的兩種方式。

    從表6可以看出,改進(jìn)損失函數(shù)和問題信息構(gòu)建的不同會(huì)帶來明顯的提升。在PKU、MSRA、CITYU、AS數(shù)據(jù)集上,比原始MRC方法[21]分別提升了1.52%、1.05%、0.91%、1.29%。由此說明對(duì)基礎(chǔ)的MRC模型改進(jìn)損失函數(shù)后,能更好地緩解難易樣本的不平衡。在問題信息構(gòu)建上,詞定義的方式比問句的方式能帶來更加豐富的特征,使得模型在4個(gè)數(shù)據(jù)集上都獲得了一定的提升。

    表6 消融實(shí)驗(yàn)結(jié)果

    綜上所述可知,本文提出的基于機(jī)器閱讀理解的中文分詞方法可以有效解決中文分詞領(lǐng)域的分詞問題。

    4 結(jié) 論

    本文提出了一種機(jī)器閱讀理解模型的中文分詞方法,解決了序列標(biāo)注模型很難獲取句子長距離依賴導(dǎo)致輸入特征使用不充分、邊界樣本少導(dǎo)致數(shù)據(jù)不平衡問題。本文將序列標(biāo)注任務(wù)轉(zhuǎn)換為機(jī)器閱讀理解任務(wù)并改進(jìn)損失函數(shù),進(jìn)而有效地增強(qiáng)輸入特征使用和緩解數(shù)據(jù)不平衡。實(shí)驗(yàn)結(jié)果表明,本文提出的方法相比于序列標(biāo)注模型的中文分詞方法具有明顯優(yōu)勢。

    本文是機(jī)器閱讀理解模型在中文分詞上的初步探索,該方法還有進(jìn)一步改進(jìn)的空間。在下一步工作中,可以使用不同的預(yù)訓(xùn)練模型和改進(jìn)注意力機(jī)制來更好地捕獲上下文信息。通過探索新的模型架構(gòu)、設(shè)計(jì)新的問題構(gòu)建方式,進(jìn)一步提升機(jī)器閱讀理解模型在中文分詞上的應(yīng)用。

    猜你喜歡
    歧義分詞損失
    少問一句,損失千金
    胖胖損失了多少元
    eUCP條款歧義剖析
    中國外匯(2019年12期)2019-10-10 07:26:58
    結(jié)巴分詞在詞云中的應(yīng)用
    玉米抽穗前倒伏怎么辦?怎么減少損失?
    English Jokes: Homonyms
    值得重視的分詞的特殊用法
    “那么大”的語義模糊與歧義分析
    一般自由碰撞的最大動(dòng)能損失
    高考分詞作狀語考點(diǎn)歸納與疑難解析
    男女边吃奶边做爰视频| www.熟女人妻精品国产| 在现免费观看毛片| 夫妻性生交免费视频一级片| 久久久国产一区二区| 午夜免费成人在线视频| 亚洲一卡2卡3卡4卡5卡精品中文| 一级黄片播放器| 亚洲黑人精品在线| 99九九在线精品视频| 亚洲,欧美,日韩| www.熟女人妻精品国产| a级片在线免费高清观看视频| 免费av中文字幕在线| 欧美在线黄色| 日韩av免费高清视频| 一区福利在线观看| √禁漫天堂资源中文www| 在线观看免费视频网站a站| 日本猛色少妇xxxxx猛交久久| videos熟女内射| 一本—道久久a久久精品蜜桃钙片| 91成人精品电影| 国产精品亚洲av一区麻豆| 亚洲欧美色中文字幕在线| xxx大片免费视频| 久久精品熟女亚洲av麻豆精品| 国产男女内射视频| 美女午夜性视频免费| 日本猛色少妇xxxxx猛交久久| av视频免费观看在线观看| 欧美另类一区| 欧美激情 高清一区二区三区| 青青草视频在线视频观看| 久久av网站| 精品第一国产精品| 九草在线视频观看| 午夜福利视频精品| 久久精品aⅴ一区二区三区四区| 一区二区三区精品91| av电影中文网址| 久久久国产精品麻豆| 不卡av一区二区三区| 国产成人精品久久二区二区91| 一级a爱视频在线免费观看| 国产女主播在线喷水免费视频网站| 亚洲欧美中文字幕日韩二区| 叶爱在线成人免费视频播放| 大片免费播放器 马上看| 狠狠婷婷综合久久久久久88av| 2021少妇久久久久久久久久久| 亚洲七黄色美女视频| 超碰成人久久| 久久99一区二区三区| 秋霞在线观看毛片| 亚洲天堂av无毛| 亚洲精品一区蜜桃| 啦啦啦在线观看免费高清www| 久久精品aⅴ一区二区三区四区| 熟女少妇亚洲综合色aaa.| av一本久久久久| 精品国产乱码久久久久久男人| 蜜桃国产av成人99| 免费在线观看日本一区| 亚洲七黄色美女视频| 欧美 日韩 精品 国产| 国产成人欧美在线观看 | 亚洲精品久久久久久婷婷小说| 韩国精品一区二区三区| 国产亚洲欧美精品永久| 国产不卡av网站在线观看| 欧美在线黄色| 亚洲专区中文字幕在线| 青青草视频在线视频观看| 人人妻人人澡人人看| 久久久久久久久久久久大奶| 黄色视频不卡| 一边摸一边抽搐一进一出视频| 一区在线观看完整版| 国产精品香港三级国产av潘金莲 | 少妇精品久久久久久久| 欧美黄色淫秽网站| 另类亚洲欧美激情| 丁香六月欧美| 日韩av在线免费看完整版不卡| 久久人人97超碰香蕉20202| 欧美中文综合在线视频| 国产三级黄色录像| 国产视频一区二区在线看| 操出白浆在线播放| 国产淫语在线视频| 色视频在线一区二区三区| 男女下面插进去视频免费观看| 久久久久久免费高清国产稀缺| 少妇人妻久久综合中文| 91麻豆精品激情在线观看国产 | www.自偷自拍.com| 久久久精品94久久精品| 女性生殖器流出的白浆| 国产视频一区二区在线看| 狂野欧美激情性xxxx| www.999成人在线观看| 国产精品熟女久久久久浪| 欧美精品一区二区免费开放| 国产亚洲精品第一综合不卡| 欧美久久黑人一区二区| 久久精品国产亚洲av高清一级| 少妇粗大呻吟视频| 国产精品人妻久久久影院| 国产亚洲欧美在线一区二区| 国产精品免费视频内射| 日韩大片免费观看网站| 久久鲁丝午夜福利片| 一二三四在线观看免费中文在| 日本vs欧美在线观看视频| 欧美黄色片欧美黄色片| 欧美国产精品va在线观看不卡| 久久人妻福利社区极品人妻图片 | 99国产精品一区二区蜜桃av | 久久av网站| 免费看十八禁软件| 国产一区二区三区av在线| 国产伦理片在线播放av一区| 久久国产精品大桥未久av| 亚洲色图 男人天堂 中文字幕| 欧美日韩亚洲国产一区二区在线观看 | 97人妻天天添夜夜摸| 在线观看www视频免费| 亚洲国产欧美日韩在线播放| 亚洲av在线观看美女高潮| 丝瓜视频免费看黄片| 免费av中文字幕在线| 大型av网站在线播放| 国产片特级美女逼逼视频| 一级,二级,三级黄色视频| 日韩电影二区| 亚洲色图综合在线观看| 国产精品国产三级专区第一集| 精品一区二区三卡| 国产在视频线精品| 国产成人av教育| 久久久久精品人妻al黑| 国产无遮挡羞羞视频在线观看| 日韩av免费高清视频| 在线看a的网站| 欧美老熟妇乱子伦牲交| 欧美在线一区亚洲| 免费少妇av软件| 高清不卡的av网站| 婷婷色综合大香蕉| 在线天堂中文资源库| 另类精品久久| 搡老乐熟女国产| 男女下面插进去视频免费观看| 国产成人系列免费观看| 夜夜骑夜夜射夜夜干| 十分钟在线观看高清视频www| 色网站视频免费| 黑人巨大精品欧美一区二区蜜桃| 成人18禁高潮啪啪吃奶动态图| 男女边摸边吃奶| 日本午夜av视频| 成人黄色视频免费在线看| 老鸭窝网址在线观看| 欧美日韩综合久久久久久| 色94色欧美一区二区| 99国产综合亚洲精品| 精品人妻一区二区三区麻豆| 99久久综合免费| 少妇的丰满在线观看| 人成视频在线观看免费观看| av欧美777| 亚洲精品日本国产第一区| 大码成人一级视频| 欧美日韩综合久久久久久| 国产爽快片一区二区三区| 99九九在线精品视频| 一级毛片 在线播放| 搡老乐熟女国产| 国产高清videossex| 国产精品 欧美亚洲| 高清av免费在线| 多毛熟女@视频| 欧美大码av| 黄色怎么调成土黄色| 99热网站在线观看| 国产精品av久久久久免费| 国产免费又黄又爽又色| 亚洲精品成人av观看孕妇| 青青草视频在线视频观看| 免费观看a级毛片全部| 亚洲成色77777| videos熟女内射| 97人妻天天添夜夜摸| 成人18禁高潮啪啪吃奶动态图| 别揉我奶头~嗯~啊~动态视频 | 午夜福利视频在线观看免费| 日本欧美国产在线视频| 国产男人的电影天堂91| 1024视频免费在线观看| 亚洲,欧美精品.| 国产爽快片一区二区三区| 欧美 亚洲 国产 日韩一| 亚洲成国产人片在线观看| 久久免费观看电影| 人妻 亚洲 视频| 妹子高潮喷水视频| 精品少妇内射三级| 国产97色在线日韩免费| 日韩一本色道免费dvd| 成人亚洲精品一区在线观看| 国产精品免费视频内射| 人人妻人人添人人爽欧美一区卜| 日韩伦理黄色片| 香蕉丝袜av| 宅男免费午夜| 天天躁夜夜躁狠狠躁躁| 亚洲精品日本国产第一区| 亚洲情色 制服丝袜| 99香蕉大伊视频| 色网站视频免费| 国产欧美日韩一区二区三 | 在线av久久热| 亚洲精品日韩在线中文字幕| 亚洲国产日韩一区二区| 丁香六月天网| 97精品久久久久久久久久精品| 50天的宝宝边吃奶边哭怎么回事| 黄色片一级片一级黄色片| 51午夜福利影视在线观看| 亚洲国产精品999| 成在线人永久免费视频| 一区二区日韩欧美中文字幕| 欧美日韩亚洲高清精品| 欧美精品啪啪一区二区三区 | 日韩,欧美,国产一区二区三区| 男女午夜视频在线观看| 一二三四在线观看免费中文在| 人人妻人人添人人爽欧美一区卜| 首页视频小说图片口味搜索 | 夜夜骑夜夜射夜夜干| 亚洲情色 制服丝袜| 国产成人欧美在线观看 | 中文字幕人妻丝袜一区二区| 波多野结衣av一区二区av| 午夜两性在线视频| 一本久久精品| 黑人猛操日本美女一级片| 国产成人一区二区三区免费视频网站 | 国产日韩欧美亚洲二区| 成年人午夜在线观看视频| 亚洲欧美日韩高清在线视频 | 亚洲专区国产一区二区| 精品卡一卡二卡四卡免费| 久久ye,这里只有精品| 18禁裸乳无遮挡动漫免费视频| 亚洲美女黄色视频免费看| 亚洲七黄色美女视频| 美女高潮到喷水免费观看| 国产精品国产av在线观看| av线在线观看网站| 欧美成人午夜精品| 不卡av一区二区三区| 国语对白做爰xxxⅹ性视频网站| 一边摸一边抽搐一进一出视频| 亚洲欧美色中文字幕在线| 亚洲欧美精品自产自拍| 操出白浆在线播放| 热re99久久国产66热| 精品人妻在线不人妻| 亚洲,欧美,日韩| 亚洲精品在线美女| 在线 av 中文字幕| 啦啦啦视频在线资源免费观看| 男女边吃奶边做爰视频| 久久久久视频综合| 久久影院123| 久久青草综合色| 下体分泌物呈黄色| 999久久久国产精品视频| 美女中出高潮动态图| 久久精品人人爽人人爽视色| 亚洲五月婷婷丁香| 日韩大码丰满熟妇| 丝袜人妻中文字幕| 日韩人妻精品一区2区三区| 亚洲七黄色美女视频| 一级毛片黄色毛片免费观看视频| 亚洲成色77777| 五月开心婷婷网| 成年人免费黄色播放视频| 国产欧美日韩一区二区三 | 国产一区二区三区综合在线观看| h视频一区二区三区| 欧美老熟妇乱子伦牲交| 欧美日韩综合久久久久久| 波多野结衣一区麻豆| 亚洲国产中文字幕在线视频| 久久影院123| 五月天丁香电影| www.自偷自拍.com| 日韩,欧美,国产一区二区三区| 国产欧美日韩精品亚洲av| 久久精品国产亚洲av涩爱| 中文字幕人妻丝袜一区二区| 在线精品无人区一区二区三| 国产91精品成人一区二区三区 | 欧美日韩成人在线一区二区| 电影成人av| 精品福利永久在线观看| 日本a在线网址| 欧美激情高清一区二区三区| 免费高清在线观看日韩| 亚洲人成77777在线视频| 五月开心婷婷网| 视频区欧美日本亚洲| 国产精品一区二区在线观看99| 亚洲中文av在线| 五月开心婷婷网| 在线天堂中文资源库| 人妻一区二区av| 成人午夜精彩视频在线观看| 97在线人人人人妻| 国产爽快片一区二区三区| 久久精品久久久久久久性| 国产黄色视频一区二区在线观看| 一级毛片我不卡| 男男h啪啪无遮挡| 亚洲色图综合在线观看| 丰满迷人的少妇在线观看| svipshipincom国产片| 一本—道久久a久久精品蜜桃钙片| 亚洲av成人精品一二三区| 国产黄频视频在线观看| 国产精品久久久久久人妻精品电影 | 国产精品久久久av美女十八| 最近最新中文字幕大全免费视频 | 亚洲中文日韩欧美视频| 欧美大码av| 久久国产精品人妻蜜桃| √禁漫天堂资源中文www| 成人国语在线视频| 七月丁香在线播放| 菩萨蛮人人尽说江南好唐韦庄| 欧美日韩福利视频一区二区| 久久99精品国语久久久| 国产精品 国内视频| 人成视频在线观看免费观看| 大型av网站在线播放| 亚洲av欧美aⅴ国产| 久久女婷五月综合色啪小说| www.av在线官网国产| 久久久久精品人妻al黑| 精品久久蜜臀av无| 精品久久久精品久久久| 亚洲精品国产av成人精品| 中文字幕精品免费在线观看视频| 99国产精品99久久久久| 黄色a级毛片大全视频| 我的亚洲天堂| 校园人妻丝袜中文字幕| 国产99久久九九免费精品| 真人做人爱边吃奶动态| 99国产精品一区二区三区| 99热全是精品| 好男人电影高清在线观看| 国产在线观看jvid| a级片在线免费高清观看视频| 一本一本久久a久久精品综合妖精| 在线精品无人区一区二区三| 亚洲av电影在线进入| 国产免费福利视频在线观看| 日韩大码丰满熟妇| 人人妻人人澡人人看| 大片电影免费在线观看免费| 国产精品一区二区在线不卡| 亚洲精品av麻豆狂野| 夜夜骑夜夜射夜夜干| 亚洲五月色婷婷综合| 韩国精品一区二区三区| 国产xxxxx性猛交| 亚洲,欧美,日韩| 国产熟女欧美一区二区| 伊人亚洲综合成人网| 99精品久久久久人妻精品| 成人国产av品久久久| 国产精品一区二区免费欧美 | 亚洲成国产人片在线观看| 不卡av一区二区三区| 国产精品一二三区在线看| 丝瓜视频免费看黄片| 欧美黑人精品巨大| 美女高潮到喷水免费观看| 欧美在线一区亚洲| 香蕉国产在线看| av又黄又爽大尺度在线免费看| 男男h啪啪无遮挡| 色播在线永久视频| 亚洲午夜精品一区,二区,三区| 欧美 日韩 精品 国产| 欧美97在线视频| 九草在线视频观看| 久久久久久久久久久久大奶| 视频区图区小说| 日本猛色少妇xxxxx猛交久久| 高清不卡的av网站| 日韩 亚洲 欧美在线| 韩国精品一区二区三区| 51午夜福利影视在线观看| 一级毛片女人18水好多 | 男女边摸边吃奶| 国产日韩一区二区三区精品不卡| 亚洲av综合色区一区| 国产三级黄色录像| 女人精品久久久久毛片| 男人爽女人下面视频在线观看| 丝瓜视频免费看黄片| 99国产精品免费福利视频| 欧美在线一区亚洲| 女人精品久久久久毛片| 国产av国产精品国产| 另类精品久久| 国产男女超爽视频在线观看| 亚洲国产av影院在线观看| 天堂8中文在线网| 精品福利观看| 涩涩av久久男人的天堂| 国产一区二区三区综合在线观看| 麻豆av在线久日| 91麻豆av在线| 大片免费播放器 马上看| 久久久久久免费高清国产稀缺| 日韩大码丰满熟妇| 精品卡一卡二卡四卡免费| 天天躁狠狠躁夜夜躁狠狠躁| 一本一本久久a久久精品综合妖精| 老司机午夜十八禁免费视频| 另类精品久久| 国产精品偷伦视频观看了| 狂野欧美激情性bbbbbb| 大型av网站在线播放| 在线观看免费高清a一片| 中文字幕人妻丝袜一区二区| 亚洲精品乱久久久久久| 一级黄片播放器| av网站免费在线观看视频| 老司机深夜福利视频在线观看 | 欧美日韩综合久久久久久| 国产成人免费无遮挡视频| 熟女av电影| 一本色道久久久久久精品综合| 成人国产一区最新在线观看 | 亚洲五月色婷婷综合| 免费观看a级毛片全部| 中文字幕色久视频| 男人舔女人的私密视频| 亚洲人成电影免费在线| 欧美亚洲日本最大视频资源| 飞空精品影院首页| 操出白浆在线播放| 中文字幕高清在线视频| 亚洲成人国产一区在线观看 | 亚洲av综合色区一区| 久久九九热精品免费| 日日爽夜夜爽网站| 欧美黄色片欧美黄色片| 黑人欧美特级aaaaaa片| 亚洲第一青青草原| 欧美中文综合在线视频| 欧美在线黄色| 国产男人的电影天堂91| 国产淫语在线视频| 日韩人妻精品一区2区三区| 侵犯人妻中文字幕一二三四区| 最近最新中文字幕大全免费视频 | 永久免费av网站大全| 亚洲精品日本国产第一区| 欧美日韩亚洲综合一区二区三区_| 丝袜美足系列| 国产高清不卡午夜福利| 真人做人爱边吃奶动态| 亚洲成人免费av在线播放| 777米奇影视久久| 国产精品香港三级国产av潘金莲 | 丝袜喷水一区| 99热网站在线观看| 亚洲国产欧美日韩在线播放| 婷婷色综合大香蕉| 国产在视频线精品| 中文字幕人妻丝袜制服| 王馨瑶露胸无遮挡在线观看| 日本黄色日本黄色录像| 亚洲综合色网址| 天天躁夜夜躁狠狠躁躁| 久久性视频一级片| 久久人人爽人人片av| 国产精品国产三级专区第一集| 亚洲精品成人av观看孕妇| 亚洲成人手机| 人人妻人人爽人人添夜夜欢视频| 国产精品三级大全| 亚洲欧美色中文字幕在线| 黄色片一级片一级黄色片| 国产亚洲av高清不卡| 亚洲黑人精品在线| 五月天丁香电影| 看免费成人av毛片| 久久久久久免费高清国产稀缺| 国产成人av教育| 人人妻人人添人人爽欧美一区卜| netflix在线观看网站| 久久久精品免费免费高清| 欧美日韩视频精品一区| 国产老妇伦熟女老妇高清| 欧美黄色片欧美黄色片| 一区二区三区四区激情视频| 国产成人一区二区在线| 热re99久久国产66热| 人人妻人人澡人人爽人人夜夜| 99九九在线精品视频| 五月开心婷婷网| 91精品国产国语对白视频| 日本a在线网址| 97精品久久久久久久久久精品| 免费观看a级毛片全部| 久久久久久久国产电影| 自拍欧美九色日韩亚洲蝌蚪91| a级片在线免费高清观看视频| 亚洲 欧美一区二区三区| 在线精品无人区一区二区三| 热re99久久国产66热| 亚洲国产欧美一区二区综合| 欧美成人精品欧美一级黄| 午夜老司机福利片| 狠狠精品人妻久久久久久综合| 欧美黄色淫秽网站| 日韩视频在线欧美| 人人妻人人添人人爽欧美一区卜| 国产男女超爽视频在线观看| 一二三四在线观看免费中文在| 久久久亚洲精品成人影院| 少妇粗大呻吟视频| 在线观看免费午夜福利视频| 国产真人三级小视频在线观看| 人人澡人人妻人| 亚洲av电影在线进入| 水蜜桃什么品种好| 日本一区二区免费在线视频| 欧美97在线视频| 精品少妇久久久久久888优播| 女人久久www免费人成看片| 热99国产精品久久久久久7| 亚洲人成77777在线视频| 女性被躁到高潮视频| 国产精品一国产av| 国产在线观看jvid| 国产成人av激情在线播放| 精品国产乱码久久久久久男人| 在线观看www视频免费| e午夜精品久久久久久久| 1024香蕉在线观看| 久久精品国产综合久久久| 婷婷色麻豆天堂久久| 亚洲专区中文字幕在线| 国产男人的电影天堂91| 国产一区二区激情短视频 | 婷婷成人精品国产| 日韩中文字幕视频在线看片| 中文字幕人妻丝袜一区二区| 国产精品久久久久成人av| 亚洲av欧美aⅴ国产| 亚洲精品国产av蜜桃| www.精华液| 成人免费观看视频高清| 水蜜桃什么品种好| 色婷婷av一区二区三区视频| av视频免费观看在线观看| 中文字幕高清在线视频| 亚洲一区二区三区欧美精品| 日本五十路高清| 中国国产av一级| 岛国毛片在线播放| 99九九在线精品视频| 性色av乱码一区二区三区2| av国产久精品久网站免费入址| 亚洲,欧美,日韩| 一边亲一边摸免费视频| 午夜福利视频在线观看免费| 又大又黄又爽视频免费| 美女国产高潮福利片在线看| 久久中文字幕一级| 91九色精品人成在线观看| av不卡在线播放| 另类精品久久| 超色免费av| 亚洲精品在线美女| 亚洲精品日韩在线中文字幕| a级毛片黄视频| 一级片免费观看大全| 一级黄片播放器| 丝袜人妻中文字幕| 一边摸一边抽搐一进一出视频| 亚洲欧美一区二区三区黑人| 亚洲国产精品成人久久小说| 少妇裸体淫交视频免费看高清 | xxxhd国产人妻xxx| av视频免费观看在线观看| 两个人看的免费小视频| 久久精品国产a三级三级三级| 亚洲av男天堂| 日韩制服丝袜自拍偷拍| 亚洲一卡2卡3卡4卡5卡精品中文| 国产欧美日韩一区二区三区在线| 免费在线观看黄色视频的| 免费在线观看影片大全网站 |