• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于雙向LSTM神經(jīng)網(wǎng)絡(luò)模型的中文分詞

    2018-04-16 07:23:46李維華金緒澤郭延哺
    中文信息學(xué)報 2018年2期
    關(guān)鍵詞:分詞雙向標(biāo)簽

    金 宸,李維華,姬 晨,金緒澤,郭延哺

    (1.云南大學(xué) 信息學(xué)院,云南 昆明 650503;2.河南師范大學(xué) 教育學(xué)院,河南 新鄉(xiāng) 453007)

    0 引言

    中文分詞是指將連續(xù)的中文字符串按照一定的規(guī)范分割成詞序列的過程。中文不同于英文,其自身的特點(diǎn)在于中文是以字為基本書寫單位,句子和段落之間通過分界符來劃界,但詞語之間并沒有一個形式上的分界符,而在自然語言處理中,詞是最小的能夠獨(dú)立運(yùn)用的有意義的語言成分,所以分詞質(zhì)量的好壞直接影響之后的自然語言處理任務(wù)[1]。

    中文分詞問題作為中文自然語言處理領(lǐng)域的重要基礎(chǔ)研究,從20世紀(jì)80年代提出到現(xiàn)在,常用的研究方法可以分為以下四類:(1)基于字典的字符串匹配方法[2-3];(2)基于語言規(guī)則的方法[4-5];(3)基于傳統(tǒng)概率統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型的方法;(4)基于深度神經(jīng)網(wǎng)絡(luò)模型的方法。

    隨著SIGHAN國際中文分詞評測Bakeoff的展開,將中文分詞任務(wù)視為序列標(biāo)注問題來解決逐漸成為主流。基于傳統(tǒng)機(jī)器學(xué)習(xí)模型的方法主要為基于字標(biāo)注的概率統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型方法,在Bakeoff展開的初期,基于字標(biāo)注的中文分詞方法廣泛應(yīng)用,在評測中取得性能領(lǐng)先的系統(tǒng)均應(yīng)用了此類思想[6]?;诮y(tǒng)計(jì)的自然語言處理方法在消除歧義和句法分析等方面得到越來越廣泛的應(yīng)用,是近年來興起的一種新的、也是最常使用的方法。對于給定的輸入詞串,該方法先確定其所有可能的詞性串,選出得分最高的作為最佳輸出。其中應(yīng)用比較廣泛的主要有隱馬爾可夫模型(hidden markov model,HMM)[7]、最大熵模型(maximum entropy model,MEM)[8]和條件隨機(jī)場(conditional random fields,CRF)[9-11]。以上基于傳統(tǒng)機(jī)器學(xué)習(xí)模型的性能受限于特征的選擇和提取,模型的訓(xùn)練是基于提取出的人為設(shè)定的特征。

    為了盡可能避免特征工程的影響,深度學(xué)習(xí)網(wǎng)絡(luò)模型逐漸應(yīng)用到中文分詞等自然語言處理任務(wù)中。2011年Collobert[12]將神經(jīng)網(wǎng)絡(luò)模型應(yīng)用到自然語言處理中。2013年,Zheng等人[13]首先將神經(jīng)網(wǎng)絡(luò)模型應(yīng)用到中文分詞任務(wù),同時還提出了一種感知器算法,在幾乎不損失性能的前提下加速了訓(xùn)練過程。在此基礎(chǔ)上,Pei等人[14]通過利用標(biāo)簽嵌入和基于張量的轉(zhuǎn)換,提出了MMTNN的神經(jīng)網(wǎng)絡(luò)模型的方法,并用于中文分詞任務(wù)。2015年,Chen等人[15]使用LSTM神經(jīng)網(wǎng)絡(luò)來解決中文分詞問題,克服了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)無法長期依賴信息的問題,取得了很好的分詞效果,同年,Chen等人[16]構(gòu)造了一種基于棧結(jié)構(gòu)的GRU神經(jīng)網(wǎng)絡(luò)模型,使用樹形結(jié)構(gòu)來捕捉長期依賴信息。這些方法都取得了非常不錯的效果。

    然而,單向LSTM神經(jīng)網(wǎng)絡(luò)只能記住過去的上文信息,但中文句子的結(jié)構(gòu)較為復(fù)雜,有時需要聯(lián)系下文的信息才能做出判斷。2015年Huang[17]提出了一種雙向LSTM-CRF模型,并把它用在了序列標(biāo)注的任務(wù)上,取得了很好的效果。受此啟發(fā),在Chen[15]模型的基礎(chǔ)上,本文提出使用雙向的LSTM神經(jīng)網(wǎng)絡(luò)模型進(jìn)行分詞,在單向LSTM神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上增加一層自后向前的LSTM神經(jīng)網(wǎng)絡(luò)層,并引入貢獻(xiàn)率α對前傳LSTM層和后傳LSTM層輸入隱藏層的權(quán)重矩陣進(jìn)行調(diào)節(jié),綜合雙向的記憶信息,實(shí)現(xiàn)更加準(zhǔn)確的分詞。

    1 雙向LSTM神經(jīng)網(wǎng)絡(luò)模型

    1.1 LSTM神經(jīng)網(wǎng)絡(luò)模型

    RNN(recurrent neural network)模型是Rumelhart等人[18]在1986年提出的具有循環(huán)結(jié)構(gòu)的網(wǎng)絡(luò)結(jié)構(gòu),具備保持信息的能力。RNN模型中的循環(huán)網(wǎng)絡(luò)模塊將信息從網(wǎng)絡(luò)的上一層傳輸?shù)较乱粚?,網(wǎng)絡(luò)模塊的隱含層每個時刻的輸出都依賴于以往時刻的信息。RNN模型的鏈?zhǔn)綄傩员砻髌渑c序列標(biāo)注問題存在著緊密的聯(lián)系,但在經(jīng)典RNN模型的訓(xùn)練中,存在梯度爆炸和梯度消失的問題,且經(jīng)典RNN模型很難處理長期依賴的問題。

    LSTM神經(jīng)網(wǎng)絡(luò)(Long short-term memory neural network)模型[19]是RNN的擴(kuò)展,專門設(shè)計(jì)用來處理長期依賴缺失的問題。與經(jīng)典RNN網(wǎng)絡(luò)不同,LSTM的循環(huán)單元模塊具有不同的結(jié)構(gòu),存在四個以特殊方式相互影響的神經(jīng)網(wǎng)絡(luò)層。

    LSTM網(wǎng)絡(luò)的關(guān)鍵在于LSTM單元的細(xì)胞狀態(tài)。在LSTM單元中,通過門(gates)結(jié)構(gòu)來對細(xì)胞狀態(tài)增加或刪除信息,而門結(jié)構(gòu)是選擇性讓信息通過的方式,如圖1所示。LSTM單元具有輸入門(input gates)、忘記門(forget gates)和輸出門(output gates)三種門結(jié)構(gòu),用以保持和更新細(xì)胞狀態(tài),以下公式中it、ft、ot和Ct表示t時刻對應(yīng)的三種門結(jié)構(gòu)和細(xì)胞狀態(tài)。

    LSTM神經(jīng)網(wǎng)絡(luò)模型已經(jīng)在許多應(yīng)用中取得重大成功,諸如文本、情感分類[20-21]、機(jī)器翻譯[22]、語意識別[23]、智能問答[24]和對圖像進(jìn)行文本描述[25]等自然語言處理任務(wù)中。由于LSTM神經(jīng)網(wǎng)絡(luò)模型通過記憶單元去學(xué)習(xí)從細(xì)胞狀態(tài)中忘記信息、去更新細(xì)胞狀態(tài)的信息,而且具有學(xué)習(xí)文本序列中遠(yuǎn)距離依賴的特性,很自然地想到可以使用LSTM神經(jīng)網(wǎng)絡(luò)模型進(jìn)行中文分詞的任務(wù)。

    圖1 LSTM結(jié)構(gòu)圖

    1.2 雙向LSTM神經(jīng)網(wǎng)絡(luò)模型

    雙向RNN(BRNN)模型是Schuster[26]在1997年提出的,目的是解決單向RNN無法處理后文信息的問題,單向的RNN只能在一個方向上處理數(shù)據(jù),則雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的基本思想是提出每一個訓(xùn)練序列向前和向后分別是兩個循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),而且這兩個都連接著一個輸出層。圖2展示的是一個沿著時間展開的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)。

    其中自前向后循環(huán)神經(jīng)網(wǎng)絡(luò)層的更新公式為:

    (4)

    自后向前循環(huán)神經(jīng)網(wǎng)絡(luò)層的更新公式為:

    (5)

    兩層循環(huán)神經(jīng)網(wǎng)絡(luò)層疊加后輸入隱藏層:

    (6)

    圖2 雙向RNN結(jié)構(gòu)圖

    雙向LSTM神經(jīng)網(wǎng)絡(luò)(Bi-direction long short-term memory neural network)模型是結(jié)合雙向RNN和LSTM兩個模型的優(yōu)點(diǎn)形成的新模型,簡單來說就是用LSTM單元替換掉經(jīng)典雙向RNN模型中的循環(huán)單元。2005年Graves[27]首次將雙向LSTM神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于分類問題,并取得了較單向LSTM神經(jīng)網(wǎng)絡(luò)模型更為出色的結(jié)果。隨后這個模型被推廣到自然語言處理的各項(xiàng)任務(wù)中:2009年Wollmer[28]將雙向LSTM模型應(yīng)用于關(guān)鍵字提取;2013年Graves[29]將其應(yīng)用于語音識別;2015年Wang[30]將其應(yīng)用于字嵌入中;2015年Huang將其應(yīng)用于詞性標(biāo)注[17];2016年Kiperwasser[31]將其應(yīng)用于句法分析中。這些應(yīng)用均取得了很好的效果。

    2 基于雙向LSTM神經(jīng)網(wǎng)絡(luò)的中文分詞模型

    中文分詞可視為字符級別的序列標(biāo)注問題,因此可以將分詞過程視為對字符串中每一個字符標(biāo)注的機(jī)器學(xué)習(xí)過程。目前,學(xué)術(shù)界使用最廣泛的字符標(biāo)注方法是四詞位標(biāo)注集{B,M,E,S},其中B(begin)代表標(biāo)注詞的開始字符,M(middle)代表標(biāo)注詞的中間字符,E(end)代表標(biāo)注詞的結(jié)束字符,S(single)代表標(biāo)注詞是單字字符。通過為字符序列中的每一個字符確定相應(yīng)的標(biāo)簽,我們可將此問題轉(zhuǎn)化為一個多分類的問題,然后通過神經(jīng)網(wǎng)絡(luò)模型的多分類層實(shí)現(xiàn)相關(guān)的標(biāo)簽分類。

    基于神經(jīng)網(wǎng)絡(luò)的中文分詞模型主要由三個部分組成:

    (1) 文本向量化層;

    (2) 神經(jīng)網(wǎng)絡(luò)層;

    (3) 標(biāo)簽推斷層。

    基于雙向LSTM神經(jīng)網(wǎng)絡(luò)的中文分詞模型如圖3所示。

    圖3 雙向LSTM神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)圖

    2.1 文本向量化層

    使用神經(jīng)網(wǎng)絡(luò)模型來處理數(shù)據(jù),需要先將輸入的數(shù)據(jù)進(jìn)行向量化處理。文本向量化的方式主要有兩種。

    (1) 獨(dú)熱表示(onehot representation):就是用一個很長的向量來表示一個詞,向量的長度為詞典的大小,向量的分量只有一個1,其它全為0。1的位置對應(yīng)該詞在詞典中的位置。但這種詞表示有兩個缺點(diǎn):

    ① 會因?yàn)樵~典過大造成數(shù)據(jù)的維數(shù)非常大,而所構(gòu)成的矩陣非常稀疏,不易進(jìn)行訓(xùn)練,就是所謂的“維數(shù)災(zāi)難”問題;

    ② 不能很好地刻畫詞與詞之間的相似性,也就是所謂的詞匯鴻溝問題。

    (2) 分布式表示(distributed representation)[32]是針對獨(dú)熱表示這兩大缺點(diǎn)而提出的方法[31]。通過訓(xùn)練將某種語言中的每一個詞映射成一個固定長度的短向量,將所有這些向量放在一起就形成一個詞向量空間,而每一向量則為該空間中的一個點(diǎn),在這個空間中引入“距離”,就可以根據(jù)詞之間的距離來判斷它們之間的語義相似性了。分布式表示通常又稱embedding字嵌入(embedding)。

    已有的研究表明,加入預(yù)先訓(xùn)練的字嵌入向量可以提升自然語言處理任務(wù)的性能。Word2Vec[33-34]是Google公司于2013年開源推出的一個獲取字向量的工具包,它簡單、高效、易于使用。本文的實(shí)驗(yàn)部分用Word2Vec作為第一層,把輸入數(shù)據(jù)預(yù)先處理成字嵌入向量?;谧謽?biāo)注的分詞方法則基于一個局部滑動窗口,假設(shè)一個字的標(biāo)簽極大地依賴于其相鄰位置的字。給定長度為n的文本序列c(1:n),大小為k的窗口從文本序列的第一個字c(1)滑動至最后一個字c(n)。對序列中每個字c(t),當(dāng)窗口大小為5時,上下文信息(c(t-2),c(t-1),c(t)c(t+1)c(t+2))將被送入查詢表中,當(dāng)字的范圍超過了序列邊界時,將以諸如“start”和“end”等特殊標(biāo)記來補(bǔ)充。然后,將查詢表中提取的字向量連接成一個向量X(t)。

    2.2 雙向LSTM神經(jīng)網(wǎng)絡(luò)層

    雙向LSTM神經(jīng)網(wǎng)絡(luò)層由兩個部分構(gòu)成:(1)自前向后的單層LSTM; (2)自后向前的單層LSTM。

    設(shè)窗口大小為k,字向量維度為d,窗口內(nèi)的文本數(shù)據(jù)通過訓(xùn)練好的字嵌入查找表,得到一個分布式表示向量,將此分布式表示向量從前往后輸入到一個獨(dú)立的LSTM單元中;又從后往前將其逆序后輸入到一個獨(dú)立的LSTM單元中。同時我們引入貢獻(xiàn)率變量α來調(diào)整兩個獨(dú)立的單向LSTM層對后續(xù)數(shù)據(jù)的貢獻(xiàn)影響,加權(quán)之后輸入隱藏層進(jìn)行線性變換,得到一個與標(biāo)簽集維度相等的向量。

    2.3 標(biāo)簽得分計(jì)算

    中文分詞問題可以轉(zhuǎn)換成字符序列中字符的標(biāo)簽分類問題。對于字符序列中的每個字符,基于雙向LSTM神經(jīng)網(wǎng)絡(luò)的中文分詞模型都會給出一個它在每類標(biāo)簽的得分。

    以一個輸入序列c(1:n)為例,概率Ct,設(shè)窗口大小為k,字向量維度為d,則通過訓(xùn)練好的字嵌入查找表,從前往后在m時刻得到一個維度為k×d向量x(mk+1,(m+1)k),輸入到一個獨(dú)立的LSTM單元中;從后往前在m時刻得到一個維度為k×d向量x((n-m)k+1,(n-m+1)k),將其逆序后輸入到一個獨(dú)立的LSTM單元中。兩個輸入作為雙向LSTM神經(jīng)網(wǎng)絡(luò)的輸入。

    通過常識我們判斷,對于分詞任務(wù)來說,自前文的信息量與自后文的信息量是不對等的,前者要大于后者,也就是說通過自前往后LSTM層獲得的gf(x(t))與通過自后向前LSTM層獲得的gb(x(t))貢獻(xiàn)不同。因此,我們引入一個貢獻(xiàn)率變量α,并且α≥0.5。在引入α的條件下,雙向LSTM神經(jīng)網(wǎng)絡(luò)經(jīng)過變換之后得到一個輸出y(t),如式(7)所示。

    y(t)=αgf(x(t))+(1-α)gb(x(t))

    (7)

    y(t)再經(jīng)過隱藏層的線性變換,可以得到一個與標(biāo)簽集維度相等的向量y(t),表示ct屬于各個標(biāo)簽的得分。

    2.4 標(biāo)簽推斷層

    在{B,M,E,S}標(biāo)簽系統(tǒng)中,相鄰標(biāo)簽的分布并不是相互獨(dú)立的,如標(biāo)簽B之后出現(xiàn)標(biāo)簽B、S的概率為0,也就是說標(biāo)簽B之后只可能出現(xiàn)標(biāo)簽M、E。故本文使用Collobert[12]提出了標(biāo)簽轉(zhuǎn)移權(quán)重矩陣A的方法表示這個依賴關(guān)系,其中Aij表示從標(biāo)簽i轉(zhuǎn)移到標(biāo)簽j的權(quán)重大小。Aij的值越高,表示標(biāo)簽i轉(zhuǎn)移到標(biāo)簽j的可能性越大。那么,對于訓(xùn)練數(shù)據(jù)集中的一個輸入字符序列c(1:n),其標(biāo)簽序列為y(1:n),則將該字符標(biāo)簽序列的得分定義為s(c1:n,y1:n,θ),如式(8)所示。

    (8)

    (9)

    其中,s(x,y,θ)來自式(8),是字符標(biāo)簽序列的得分。

    2.5 模型訓(xùn)練

    (10)

    (11)

    其中,

    (12)

    訓(xùn)練過程中用Dropout[35-36]來控制在模型訓(xùn)練時隨機(jī)讓網(wǎng)絡(luò)中的某些隱藏層節(jié)點(diǎn)不工作,阻止了某些特征僅僅在其他特定特征下才有效果的情況。最后用小批量AdaGrad優(yōu)化算法[37]對目標(biāo)函數(shù)進(jìn)行優(yōu)化,其計(jì)算過程中采用誤差反向傳播[19]的方式逐層求出目標(biāo)函數(shù)對神經(jīng)網(wǎng)絡(luò)各層權(quán)值的偏導(dǎo)數(shù),并更新全部權(quán)值和偏置值。

    3 實(shí)驗(yàn)

    3.1 實(shí)驗(yàn)環(huán)境、數(shù)據(jù)集和評測指標(biāo)

    本文所用實(shí)驗(yàn)環(huán)境的主要參數(shù)為處理器:Intel(R)Core(TM)i7-6700k CPU @ 4.00GHz;圖形加速卡:NVIDIA GeForce GTX 1060 6 GB;內(nèi)存:16GB;操作系統(tǒng):Ubuntu 16.04 LTS(64bit);使用Google開源深度學(xué)習(xí)框架TensorFlow 0.12構(gòu)建所有神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練和測試;使用Word2Vec對字向量進(jìn)行訓(xùn)練預(yù)處理。

    本文的實(shí)驗(yàn)數(shù)據(jù)集來自當(dāng)前學(xué)術(shù)界普遍采用的訓(xùn)練語料和測試語料,其中本文神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練語料和測試語料來自MSRA數(shù)據(jù)集和PKU 數(shù)據(jù)集,這個由SIGHAN舉辦的第二屆國際中文分詞評測Bakeoff 2005所提供的封閉語料。其中訓(xùn)練語料按照通常做法,取90%作為訓(xùn)練集,10%作為開發(fā)集,且用來訓(xùn)練詞向量的語料混合了搜狗實(shí)驗(yàn)室提供的全網(wǎng)新聞數(shù)據(jù)(SogouCA)以及MSRA數(shù)據(jù)集和PKU數(shù)據(jù)集中的訓(xùn)練集。其語料規(guī)模如表1所示。

    表1 實(shí)驗(yàn)所用語料庫規(guī)模統(tǒng)計(jì)信息

    在對中文分詞性能的評估中,采用了Bakeoff 2005提供的評分腳本,其中包括分詞評測常用的R(召回率)、P(準(zhǔn)確率)和F1(召回率和準(zhǔn)確率的調(diào)和平均值),以F1值作為評測的主要參考指標(biāo)。

    3.2 實(shí)驗(yàn)設(shè)計(jì)

    本文設(shè)計(jì)了四個實(shí)驗(yàn)。

    實(shí)驗(yàn)一為了驗(yàn)證文本向量化的必要性,設(shè)計(jì)了在其他條件都相同的情況下,實(shí)驗(yàn)得到通過未使用字嵌入層在PKU數(shù)據(jù)集中測試數(shù)據(jù)P、R、F1的值,以及不同維度下的字嵌入層在PKU數(shù)據(jù)集中測試數(shù)據(jù)的P、R、F1值,如表2所示。由于獨(dú)熱向量的“維數(shù)災(zāi)難”問題,故未使用字嵌入層的實(shí)驗(yàn),只使用MSRA 數(shù)據(jù)集和PKU數(shù)據(jù)集中的訓(xùn)練集和開發(fā)集的數(shù)據(jù),將其轉(zhuǎn)化為獨(dú)熱表示。而使用字嵌入層的實(shí)驗(yàn)則混合使用SogouCA數(shù)據(jù)集以及MSRA、 PKU 數(shù)據(jù)集中訓(xùn)練集和開發(fā)集,通過Word2Vec轉(zhuǎn)化為不同維度的詞向量。

    表2 隨著字嵌入維度的變化,分詞模型在PKU數(shù)據(jù)集上評測指標(biāo)的變化

    實(shí)驗(yàn)二為了驗(yàn)證Dropout的有效性,并確定合適的丟棄率,設(shè)計(jì)了不使用Dropout以及Dropout丟棄率為20%和Dropout丟棄率為50%的實(shí)驗(yàn)。在保證實(shí)驗(yàn)其他參數(shù)相同的條件下,測試在MSRA 數(shù)據(jù)集和PKU數(shù)據(jù)集中每一次迭代后的F1測試數(shù)據(jù)的變化情況。實(shí)驗(yàn)結(jié)果如圖4所示。

    實(shí)驗(yàn)三為了測試本文所構(gòu)建的雙向LSTM神經(jīng)網(wǎng)絡(luò)模型的效果,本文使用了如下幾個基準(zhǔn)模型:基于條件隨機(jī)場模型的分詞模型CRF++[38];Chen[15]提出的單向LSTM分詞模型;雙向RNN分詞模型。對基準(zhǔn)模型與本文使用的雙向LSTM分詞模型在MSRA數(shù)據(jù)集和PKU數(shù)據(jù)集下進(jìn)行實(shí)驗(yàn)對比,在確保其他變量都一致的情況下(如使用相同維度的字嵌入,在輸出層均使用丟棄率相同的Dropout),記錄得到P、R、F1測試數(shù)據(jù),對比模型參數(shù)均基于原作者給出的參數(shù)設(shè)置,實(shí)驗(yàn)統(tǒng)計(jì)數(shù)據(jù)均使用在可信范圍內(nèi)的最佳數(shù)據(jù)。實(shí)驗(yàn)結(jié)果如表3所示。

    實(shí)驗(yàn)四為了驗(yàn)證本文提出的貢獻(xiàn)率α是否會影響到實(shí)驗(yàn)效果,并確定效果最佳的貢獻(xiàn)率α,本文設(shè)計(jì)了六個α取值,從0.5到1.00,相鄰單位取值相差為0.1。以六個α值為基礎(chǔ)構(gòu)建了本文設(shè)計(jì)的雙向LSTM神經(jīng)網(wǎng)絡(luò)模型,并保證其他參數(shù)都相同的條件下,在MSRA 數(shù)據(jù)集和PKU數(shù)據(jù)集下進(jìn)行分詞實(shí)驗(yàn),并得到在不同的貢獻(xiàn)率α下的測試數(shù)據(jù)P、R、F1,并進(jìn)行對比。實(shí)驗(yàn)結(jié)果如表4所示。

    表4 隨著α的增長,分詞模型評測指標(biāo)的變化

    3.3 實(shí)驗(yàn)參數(shù)設(shè)置

    通過多次實(shí)驗(yàn)優(yōu)化參數(shù),我們最終把各項(xiàng)參數(shù)設(shè)置如下:初始學(xué)習(xí)率設(shè)置為0.2,最小批處理尺寸設(shè)置為20,隱藏層節(jié)點(diǎn)數(shù)設(shè)置為150,字嵌入向量的維度為100。對于輸入窗口,我們將窗口分為左右兩邊,左窗口設(shè)置為0,右窗口設(shè)置為2。即將t到t+2的三個字符同時輸入。為防止神經(jīng)網(wǎng)絡(luò)過擬合,我們采用l2正則化,參數(shù)設(shè)置成10-4,同時采用Dropout,并設(shè)置Dropout的丟棄率為0.2。

    3.4 實(shí)驗(yàn)結(jié)果分析

    實(shí)驗(yàn)一通過對比表2第2行和第3、4、5行數(shù)據(jù)可知,文本向量化的處理是非常必要的,加入字嵌入層會極大地提高模型的正確率。由使用大數(shù)據(jù)集SougouCA轉(zhuǎn)化獨(dú)熱表示失敗可知:只能在較小的規(guī)模下使用獨(dú)熱表示,若訓(xùn)練數(shù)據(jù)集較大,會導(dǎo)致詞典過大而造成數(shù)據(jù)的維數(shù)非常大,且構(gòu)成的矩陣非常稀疏,不易進(jìn)行訓(xùn)練。其次,通過對比表2第3、4、5行數(shù)據(jù)可知:文本向量化使用的維度也會對結(jié)果有一定的影響,故本文采用結(jié)果相對較好的100維作為字嵌入向量的維度。

    實(shí)驗(yàn)二通過觀察圖4中數(shù)據(jù)點(diǎn)的分布和走向有如下三個方面的結(jié)論。(1)不設(shè)置Dropout的模型在迭代前幾次表現(xiàn)得較好,但隨著迭代次數(shù)的增加,模型評測數(shù)據(jù)趨于穩(wěn)定后,Dropout丟棄率為20%的模型表現(xiàn)優(yōu)于不設(shè)置Dropout的模型; (2)Dropout丟棄率設(shè)置為50%的模型在整個迭代過程中都表現(xiàn)得比較糟糕,說明Dropout的丟棄率不宜過大,過大后可能會丟失重要信息; (3)無論是在MSRA數(shù)據(jù)集還是在PKU數(shù)據(jù)集,二者的趨勢都較為接近,說明本文模型在不同數(shù)據(jù)集上表現(xiàn)較為一致,可以使用相同的參數(shù)設(shè)置。

    實(shí)驗(yàn)三通過對比表3第6行和第4、5行數(shù)據(jù)可知:本文模型在MSRA數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果F1,較單向LSTM提升0.72%,較雙向RNN提升1.67%;在PKU數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果F1,較單向LSTM提升1.04%,較雙向RNN提升2.76%。通過數(shù)據(jù)的分析比較,說明文本所提出的模型在分詞的準(zhǔn)確度上確有提高。

    實(shí)驗(yàn)四通過對表4的各項(xiàng)數(shù)據(jù)的比較可知:(1)貢獻(xiàn)率α對實(shí)際分詞表現(xiàn)作用比較明顯,P、R、F1的值隨著α的增長,先變大后變小,在0.8處到達(dá)峰值。(2)無論是在MSRA數(shù)據(jù)集還是PKU數(shù)據(jù)集,二者的趨勢都較為接近,這說明本文模型在不同數(shù)據(jù)集上表現(xiàn)較為一致,可以使用相同的參數(shù)設(shè)置。

    4 結(jié)束語

    本文的工作主要有兩點(diǎn):(1)將雙向的LSTM神經(jīng)網(wǎng)絡(luò)模型運(yùn)用到中文分詞任務(wù)中,并構(gòu)建了完整的模型;(2)創(chuàng)新地引入了貢獻(xiàn)率α,通過α對前傳LSTM層和后傳LSTM層輸入隱藏層的權(quán)重矩陣進(jìn)行調(diào)節(jié),設(shè)計(jì)了四個實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明:①使用文本向量化的字嵌入和在輸入層設(shè)置Dropout會對實(shí)驗(yàn)結(jié)果帶來影響; ②本文構(gòu)建的雙向LSTM神經(jīng)網(wǎng)絡(luò)中文分詞模型在正確率上要優(yōu)于其他基準(zhǔn)模型; ③本文提出的貢獻(xiàn)率α的確會對實(shí)驗(yàn)結(jié)果帶來影響。

    本文模型還存在著以下不足:(1)雙向LSTM模型較單向LSTM模型在模型結(jié)構(gòu)上更為復(fù)雜,從而在模型訓(xùn)練和測試的時候效率不如單向LSTM模型;(2)由于條件所限,本文實(shí)驗(yàn)在設(shè)置精度上比較粗糙,并沒有優(yōu)化到最理想的參數(shù)設(shè)置。

    接下來值得研究改進(jìn)的方向:(1)使用GRU等LSTM的變種單元替換傳統(tǒng)LSTM,使得模型進(jìn)一步簡化,在效率上進(jìn)行提升;(2)引入注意力機(jī)制完善模型,爭取在正確率上進(jìn)一步提升;(3)將本文所用的分詞模型和貢獻(xiàn)率α進(jìn)一步套用在其他序列標(biāo)注的相關(guān)問題(如詞性標(biāo)注、命名實(shí)體識別)上。

    [1]黃昌寧,趙海.中文分詞十年回顧[J].中文信息學(xué)報,2007,21(3):8-19.

    [2]梁南元.書面漢語自動分詞系統(tǒng)——CDWS[J].中文信息學(xué)報,1987,1(2):46-54.

    [3]趙海,揭春雨.基于有效子串標(biāo)注的中文分詞[J].中文信息學(xué)報,2007,21(5):8-13.

    [4]Wu A,Jiang Z.Word segmentation in sentence analysis[C]// Proceedings of the 1998 International Conference on Chinese Information Processing,1998:169-180.

    [5]Sui Z,Chen Y.The research on the automatic term extraction in the domain of information science and technology[C]//Proceedings of the 5th East Asia Forum of the Terminology,2002.

    [6]任智慧,徐浩煜,封松林,等.基于LSTM網(wǎng)絡(luò)的序列標(biāo)注中文分詞法[J].計(jì)算機(jī)應(yīng)用研究,2017,34(5):1321-1324.

    [7]李月倫,常寶寶.基于最大間隔馬爾可夫網(wǎng)模型的漢語分詞方法[J].中文信息學(xué)報,2010,24(1):8-14.

    [8]Xue N,Converse S P.Combining classifiers for Chinese word segmentation[C]//Proceedings of the first SIGHAN workshop on Chinese language processing-Volume 18.Association for Computational Linguistics,2002:1-7.

    [9]Peng F,Feng F,McCallum A.Chinese segmentation and new word detection using conditional random fields[C]//Proceedings of the 20th International Conference on Computational Linguistics.Association for Computational Linguistics,2004:562.

    [10]羅彥彥,黃德根.基于CRFs邊緣概率的中文分詞[J].中文信息學(xué)報,2009,23(5):3-8.

    [11]方艷,周國棟.基于層疊CRF模型的詞結(jié)構(gòu)分析[J].中文信息學(xué)報,2015,29(4):1-7.

    [12]Collobert R,Weston J,Bottou L,et al.Natural language processing(almost)from scratch[J].Journal of Machine Learning Research,2011,12(1):2493-2537.

    [13]Zheng X,Chen H,Xu T.Deep learning for Chineseword segmentation and POS tagging[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing,2013:647-657.

    [14]Pei W,Ge T,Chang B.Max-margin tensor neural network for Chinese word segmentation[C]//Proceedings of the Meeting of the Association for Computational Linguistics,2014:293-303.

    [15]Chen X,Qiu X,Zhu C,et al.Long short-term memory neural networks for Chinese word segmentation[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing,2015:1197-1206.

    [16]Chen X,Qiu X,Zhu C,et al.Gated recursive neural network for Chinese word segmentation[C]//Proceedings of the ACL(1),2015:1744-1753.

    [17]Huang Z,Xu W,Yu K.Bidirectional LSTM-CRF models for sequence tagging[J].arXiv preprint arXiv:1508.01991,2015.

    [18]Rumelhart D E,Hinton G E,Williams R J.Learning representations by back-propagating errors[J].Nature,1986,323(6088):533-536

    [19]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.

    [20]Liu P,Qiu X,Chen X,et al.Multi-timescale long short-term memory neural network for modelling sentences and documents[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing:2326-2335.

    [21]Wang X,Liu Y,Sun C,et al.Predicting polarities of tweets by composing word embeddings with Long Short-Term Memory[C]//Proceedings of Meeting of the Association for Computational Linguistics and the International Joint Conference on Natural Language Processing,2015:1343-1353.

    [22]Sutskever I,Vinyals O,Le Q V.Sequence to sequence learning with neural networks[C]//Proceedings of the 20th NIPS,2014:3104-3112.

    [23]Graves A,Mohamed AR,Hinton G.Speech recognition with deep recurrent neural networks[C]//Proceedings of IEEE International Confenence on Acoustics,2013,38(2003):6645-6649.

    [24]Wang D,Nyberg E.A long short-term memory model for answer sentence selection in question answering[C]// Meeting of the Association for Computational Linguistics and the International Joint Conference on Natural Language Processing,2015:707-712.

    [25]Vinyals O,Toshev A,Bengio S,et al.Show and tell:A neural image caption generator[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2015:3156-3164.

    [26]Schuster M,Paliwal K K.Bidirectional recurrent neural networks[J].IEEE Transactions on Signal Processing,1997,45(11):2673-2681.

    [27]Graves A,Schmidhuber J.Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J].Neural Networks,2005,18(5):602-610.

    [28]Wollmer M,Eyben F,Keshet J,et al.Robust discriminative keyword spotting for emotionally colored spontaneous speech using bidirectional LSTM networks[C]//Proceedings of the ICASSP 2009.International Conference on IEEE,2009:3949-3952.

    [29]Graves A,Jaitly N,Mohamed A.Hybrid speech recognition with deep bidirectional LSTM[C]//Proceedings of the 2013 IEEE Workshop on Automatic Speech Recognition and Understanding(ASRU).IEEE,2013:273-278.

    [30]Wang P,Qian Y,Soong F K,et al.A unified tagging solution:Bidirectional LSTM recurrent neural network with word embedding[J].arXiv preprint arXiv:1511.00215,2015.

    [31]Kiperwasser E,Goldberg Y.Simple and accurate dependency parsing using bidirectional LSTM feature representations[J].arXiv preprint arXiv:1603.04351,2016.

    [32]Hinton G E.Learning distributed representations of concepts[C]//Proceedings of the eighth annual conference of the cognitive science society.1986:1-12.

    [33]Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[C]//Proceedings of International Conference on Learning Representation,2013:1-12.

    [34]Mikolov T,Sutskever I,Chen K,et al.Distributed representations of words and phrases and their compositionality[J].Advances in Neural Information Processing Systems,2013(26):3111-3119.

    [35]Hinton G E,Srivastava N,Krizhevsky A,et al.Improving neural networks by preventing co-adaptation of feature detectors[J].Computer Science,2012,3(4):212-223.

    [36]Srivastava N,Hinton G,Krizhevsky A,et al.Dropout:a simple way to prevent neural networks from overfitting[J].Journal of Machine Learning Research,2014,15(1):1929-1958.

    [37]Duchi J,Hazan E,Singer Y.Adaptive subgradient methods for online learning and stochastic optimization[J].Journal of Machine Learning Research,2011,12(7):2121-2159.

    [38]Taku.CRF++:Yet Another CRF toolkit[CP10L].http://taku910.github.io/crtpp/2005.

    金宸(1991—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理、機(jī)器學(xué)習(xí)。E-mail:chenjin0721@gmail.com

    李維華(1977—),通信作者,博士,副教授,主要研究領(lǐng)域?yàn)閿?shù)據(jù)與知識工程。E-mail:lywey@163.com

    姬晨(1993—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。E-mail:418445839@qq.com

    猜你喜歡
    分詞雙向標(biāo)簽
    雙向度的成長與自我實(shí)現(xiàn)
    出版人(2022年11期)2022-11-15 04:30:18
    結(jié)巴分詞在詞云中的應(yīng)用
    智富時代(2019年6期)2019-07-24 10:33:16
    無懼標(biāo)簽 Alfa Romeo Giulia 200HP
    車迷(2018年11期)2018-08-30 03:20:32
    不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
    海峽姐妹(2018年3期)2018-05-09 08:21:02
    值得重視的分詞的特殊用法
    標(biāo)簽化傷害了誰
    一種軟開關(guān)的交錯并聯(lián)Buck/Boost雙向DC/DC變換器
    基于多進(jìn)制查詢樹的多標(biāo)簽識別方法
    一種工作頻率可變的雙向DC-DC變換器
    基于雙向預(yù)測的圖像去噪
    河南科技(2014年19期)2014-02-27 14:15:24
    镇赉县| 连平县| 廉江市| 寻乌县| 象州县| 五常市| 布尔津县| 西昌市| 鸡西市| 黔西县| 石阡县| 九江县| 喀喇| 巴东县| 手游| 乾安县| 昭觉县| 黄梅县| 井研县| 德令哈市| 钟祥市| 荆门市| 山丹县| 潼关县| 察雅县| 藁城市| 洛隆县| 曲麻莱县| 松桃| 阜阳市| 定远县| 乡城县| 涟源市| 天祝| 永平县| 云阳县| 中西区| 新津县| 九江县| 平安县| 军事|