• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度學(xué)習(xí)的《辭?!贩衷~方法

    2020-07-21 06:30:44陳美李頓偉高洪美吳小麗
    現(xiàn)代計(jì)算機(jī) 2020年16期
    關(guān)鍵詞:辭海新華字典分詞

    陳美,李頓偉,高洪美,吳小麗

    (上海計(jì)算機(jī)軟件技術(shù)開發(fā)中心,上海201112)

    0 引言

    《辭?!穂1]是我國文化資產(chǎn)最重要代表之一,目前唯一的一部以字帶詞、兼有字典、語文詞典和百科詞典主要功能于一體的大型綜合性辭典,被譽(yù)為“歷史和時(shí)代的檔案館、大事記和里程碑”,對我經(jīng)濟(jì)、社會(huì)以及文化等發(fā)展具有重要支撐。《辭?!肥占俗匀豢茖W(xué)與工程技術(shù)、哲學(xué)社科、歷史地理、文學(xué)藝術(shù)等領(lǐng)域知識,集成了中華上下五千年文化的精粹,具有重要的研究價(jià)值。隨著新一代信息技術(shù)的快速發(fā)展,利用大數(shù)據(jù)、人工智能、知識圖譜等技術(shù)研究數(shù)字《辭?!罚苿?dòng)知識內(nèi)容創(chuàng)新、知識服務(wù)創(chuàng)新等成為發(fā)展趨勢。

    分詞是數(shù)字《辭?!返难芯炕A(chǔ),本文將開展《辭海》的分詞研究。目前中文分詞技術(shù)[2]主要包括基于詞典[3]、基于統(tǒng)計(jì)[4]、基于深度學(xué)習(xí)[5-6]三種分詞類型。每種類型各有其優(yōu)缺點(diǎn),如規(guī)則分詞簡單、效率高,但是對歧義詞和新詞分詞效果不佳;統(tǒng)計(jì)分詞基于詞頻統(tǒng)計(jì),對歧義詞和新詞分詞表現(xiàn)較好,但是效率和復(fù)雜度居中;深度學(xué)習(xí)方法借助詞向量技術(shù)將詞轉(zhuǎn)化成為向量,能夠很好的提取詞語特征,分詞效果相對最佳,但是效率較低、復(fù)雜度高。隨著硬件技術(shù)的突破,基于深度學(xué)習(xí)的分詞目前成為主流,典型的深度學(xué)習(xí)分詞模型包括基于RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))[7]、LSTM(長短記憶神經(jīng)網(wǎng)絡(luò))[8,9]、BILSTM(雙向長短記憶神經(jīng)網(wǎng)絡(luò))[10-13]等。

    由于《辭海》的內(nèi)容比較復(fù)雜,即引用了大量的文言文、詩、歌等古文,如《漢書》、《史記》、《左轉(zhuǎn)》等內(nèi)容,又包含了自然科學(xué)與工程技術(shù)、哲學(xué)社科、歷史地理、文學(xué)藝術(shù)等領(lǐng)域知識,對分詞任務(wù)帶來巨大的挑戰(zhàn)。本文通過深入分析《辭?!穬?nèi)容特點(diǎn),同時(shí)結(jié)合目前分詞技術(shù)成果,提出了基于深度學(xué)習(xí)的《辭?!贩衷~方法。首先,鑒于目前在古文分詞不成熟,同時(shí)《辭海》引用了大量各個(gè)朝代的文言文、詩、歌等古文,目前基本上找不到合適的古文數(shù)據(jù)集進(jìn)行訓(xùn)練,因此本文分詞工作先移除古文;其次,針對《辭?!穬?nèi)容涉及領(lǐng)域廣問題,本文擬選擇《新華字典》,利用CBOW 模型訓(xùn)練字向量;最后,基于《新華字典》訓(xùn)練的字向量,選擇目前比較主流的BI-LSTM-CRF 模型執(zhí)行《辭?!贩衷~任務(wù)。

    1 分詞算法

    1.1 分詞框架

    本文針對《辭?!穬?nèi)容特點(diǎn),提出了基于深度學(xué)習(xí)的分詞方法,分詞框架如圖1 所示。

    圖1 分詞框架

    從圖1 可知,分詞任務(wù)包括三部分:首先,對《辭?!穬?nèi)容進(jìn)行預(yù)處理,去除古文等;其次,利用CBOW 模型訓(xùn)練字向量;最后,利用BI-LSTM-CRF 模型執(zhí)行《辭?!贩衷~任務(wù)。

    1.2 字向量訓(xùn)練

    字向量訓(xùn)練,本文選擇目前主流的CBOW 模型,訓(xùn)練框架如圖2 所示。

    圖2 字向量訓(xùn)練框架

    字向量訓(xùn)練主要工作包括:利用結(jié)巴分詞工具對《新華字典》分詞,然后利用CBOW 模型訓(xùn)練字向量,最后輸出字向量矩陣。

    (1)分詞

    首先,輸入《新華字典》,利用結(jié)巴分詞工具對《新華字典》分詞,然后去除特殊符號、標(biāo)點(diǎn)符號、停用詞、字母等。

    (2)CBOW 訓(xùn)練

    CBOW 是Mikolov 等人提出的Word2Vec[14]分布式表示的一種實(shí)現(xiàn)。Word2Vec 具有效率高和表示效果好的優(yōu)勢,已經(jīng)成為主流的詞向量和字向量訓(xùn)練模型。Word2Vec 模型提供兩種實(shí)現(xiàn)CBOW 和Skip-Gram,文獻(xiàn)[15]提到CBOW 比較適合常見詞,在本研究中,主要為常見詞,故選擇CBOW 實(shí)現(xiàn)。CBOW 模型核心思想是通過目標(biāo)詞wt的上下文詞Context(wt)預(yù)測目標(biāo)詞:Context(wt)=(wt-c,...,wt-1,wt+1,...wt+c) →predictwt。其中,c為窗口,圖3 為c=2 的CBOW 模型結(jié)構(gòu)。

    圖3 CBOW模型結(jié)構(gòu)

    在CBOW 中,訓(xùn)練之前需要進(jìn)行相關(guān)初始化,包括利用語料庫建立詞典W={w1,…,wN}、基于詞典和詞頻建立哈夫曼樹、隨機(jī)初始化詞向量Wword={v1,…,vN}和哈夫曼樹內(nèi)部節(jié)點(diǎn)Wnode={θ1,…,θN-1}等,其中,N為詞典長度,wi、vi分別為第i詞和詞向量,θi為第i節(jié)點(diǎn)向量參數(shù)。

    CBOW 各層功能如下。

    ①輸入層

    設(shè)目標(biāo)詞wt,c為窗口,則依次執(zhí)行輸入上下文:Context(wt) ,熱詞編碼:OneHot(Context(wt)) ,查詢詞向量:

    ②投影層

    將上下文詞向量(vt-c,…,vt-1,vt+1,…,vt+c)首尾相連拼接或者求和取平均值,作為的一個(gè)新特征Vt去預(yù)測目標(biāo)詞wt。

    ③輸出層依據(jù)wt的哈夫曼樹二進(jìn)制編碼,采用邏輯回歸遍歷wt葉子節(jié)點(diǎn),遍歷過程中根據(jù)定義的優(yōu)化目標(biāo)函數(shù),利用梯度上升方法去更新相關(guān)參數(shù),詳細(xì)實(shí)現(xiàn)可參閱文獻(xiàn)[14]。

    在CBOW 輸出層計(jì)算中,通常采用交叉熵?fù)p失函數(shù)(Cross Entropy Loss),其中Sigmoid 函數(shù)如式(1),邏輯回歸分類函數(shù)如式(2),則交叉熵?fù)p失函數(shù)定義和推導(dǎo)如式(3)所示。最后,采用梯度下降訓(xùn)練,并更新相關(guān)的參數(shù)。

    其中,li為wordi的Huffman 樹路徑長度,θj為wordi的Huffman 樹路徑上第j節(jié)點(diǎn)參數(shù)。

    CBOW 模型是基于中心詞的上下文預(yù)測中心詞,每次預(yù)測遍歷一次和學(xué)習(xí)訓(xùn)練一次,訓(xùn)練效率高,復(fù)雜度為O(N)(N為詞典長度)。CBOW 主要利用上下文信息生成詞向量,能夠較好的提取上下文語義特征,表示文本信息。

    1.3 分詞模型

    分詞模型,本文采用經(jīng)典的BI-LSTM-CRF 模型執(zhí)行分詞任務(wù),模型結(jié)構(gòu)如圖4 所示。

    圖4 BI-LSTM-CRF分詞模型

    BI-LSTM-CRF 主要包括文本表示、句子特征提取和標(biāo)簽預(yù)測三層。

    (1)文本表示層

    文本表示功能是將輸入句子向量化,為BI-LSTM模型提供輸入。首先將句子轉(zhuǎn)化成One-Hot 熱詞表示,然后通過Wword={v1,…,vN}查詢詞向量,得到整個(gè)句子詞向量X=(x1,x2,…,xO)(xi為輸入句子第i詞的詞向量,且xi∈Wword,O為句子長度),同時(shí)設(shè)置Dropout 以緩解過擬合。

    (2)句子特征提取

    句子特征提取是采用BI-LSTM 模型。首先,提取正向LSTM 隱狀態(tài)序列與反向的序列,接著對正反向輸出序列拼接形成最后,接著將隱狀態(tài)向量ht∈Rm×O映射到k維(k是標(biāo)注集的標(biāo)簽數(shù)),得到句子特征矩陣P=(p1,p2,…,pn)∈RO×k。

    (3)標(biāo)簽預(yù)測

    標(biāo)簽預(yù)測層是在局部最優(yōu)P基礎(chǔ)上,利用CRF 模型[16-17]和Viterbi 算法[18]產(chǎn)生全局最優(yōu)句子序列。

    首先,利用CRF 模型產(chǎn)生標(biāo)簽轉(zhuǎn)移矩陣A,其中Aij表示第i個(gè)標(biāo)簽轉(zhuǎn)移到第j個(gè)標(biāo)簽的概率;pij表示第i個(gè)詞為第j個(gè)標(biāo)簽的概率。設(shè)CRF 模型輸出為y=(y1,y2,...,yO) ,則對句子的打分計(jì)算:

    接著,利用Softmax 對y=(y1,y2,...,yO)進(jìn)行歸一化。

    其中Yx:{B,M,E,S},表示四個(gè)分類標(biāo)簽,B表示詞的開始,M表示詞的中間,E表示詞的結(jié)束,S表示單獨(dú)詞。對BI-LSTM-CRF 分詞模型,主流采用交叉熵?fù)p失函數(shù),同樣利用梯度下降訓(xùn)練,并更新相關(guān)的參數(shù)。

    最后,在預(yù)測過程時(shí)使用Viterbi 算法求解最優(yōu)句子序列y*:

    2 實(shí)驗(yàn)結(jié)果與分析

    2.1 實(shí)驗(yàn)設(shè)置

    (1)實(shí)驗(yàn)數(shù)據(jù)

    《新華字典》主要來自文獻(xiàn)[19],收錄包括14032 條歇后語,16142 個(gè)漢字,264434 個(gè)詞語,31648 個(gè)成語。《辭?!酚蓢倚侣劤霭鎻V電總局“大數(shù)據(jù)治理與服務(wù)”重點(diǎn)實(shí)驗(yàn)室提供,收錄單字(包括異體字、繁體字),約700 萬字,約78754 條字詞。

    此外,從《辭?!分须S機(jī)選擇10000 條字詞進(jìn)行標(biāo)注,用于執(zhí)行評估。數(shù)據(jù)標(biāo)注采用四位序列標(biāo)注法BMES:B 表示一個(gè)詞的詞首位值,M 表示一個(gè)詞的中間位置,E 表示一個(gè)詞的末尾位置,S 表示一個(gè)單獨(dú)的字詞。

    (2)評價(jià)方法

    為了評估模型的分詞性能,采用評價(jià)標(biāo)準(zhǔn)包括準(zhǔn)確率P(Precision)、召回率R(Recall)和綜合性能F1。具體定義如下。

    (3)實(shí)驗(yàn)參數(shù)設(shè)置

    CBOW 模型參數(shù)見表1 和BILSTM-CRF 模型參數(shù)見表2。

    表1 CBOW 模型參數(shù)

    表2 BI-LSTM-CRF 模型參數(shù)

    2.2 結(jié)果與分析

    (1)分詞效果實(shí)驗(yàn)與分析

    本組實(shí)驗(yàn)評估提出的分詞方法效果,實(shí)驗(yàn)結(jié)果如表3 所示。

    表3 分詞效果評估結(jié)果

    從表3 可知,提出的分詞方法,P、R和F1分別達(dá)到94.18%、94.09%和94.13%,取得了比較理性的分詞效果。首先,本文選擇《新華字典》訓(xùn)練字向量,基本上可以滿足《辭海》知識領(lǐng)域廣的分詞需求;其次,CBOW模型基于中心詞的上下文預(yù)測中心詞,能夠較好提取上下文語義特征,能夠較好地表示文本;最后,BILSTM(雙向長短記憶神經(jīng)網(wǎng)絡(luò))采用雙向LSTM,一個(gè)作為正向輸入序列,一個(gè)作為反向輸入序列,再將正反向輸出結(jié)合作為最終的結(jié)果,考慮了上文的特征和下文的特征,所以BI-LSTM 模型既能保持上下文信息,又能考慮到未來的上下文信息,從而表現(xiàn)出較好的分詞性能。因此本文提出的分詞方法能夠取得比較理想的分詞效果。

    (2)詞頻分析

    對《辭?!贩衷~結(jié)果進(jìn)行處理,除去單字、停用詞等操作,有效提?。?97976 詞語,包含1416148 漢字,非重復(fù)詞語154041 個(gè)。

    接下來,對《辭?!返脑~語特點(diǎn)進(jìn)行分析,首先開展詞頻統(tǒng)計(jì)分析,重點(diǎn)分析《辭?!稵op50 高頻詞語,如表4 所示。同時(shí)選擇Top1000 高頻詞語,做詞云圖分析,實(shí)驗(yàn)結(jié)果如圖5 所示。

    表4 《辭?!稵op10 詞頻分析

    圖5 《辭?!稵op1000詞云圖

    分析表4 和圖5 可知,Top50 和Top1000 高頻詞語主要以解釋性詞義為主,突出內(nèi)容的解釋特點(diǎn),印證了《辭?!穬?nèi)容的本質(zhì)。其次,解釋具有兩種特點(diǎn),一是通俗性解釋,如指、比喻、形容、泛指等,用于解釋詞義含義;二是引用性解釋,如古代、漢代、佛教、帝王等,通過引經(jīng)據(jù)典,證明解釋的出處,強(qiáng)調(diào)解釋內(nèi)容的科學(xué)性和權(quán)威性。

    3 結(jié)束

    本文圍繞《辭海》數(shù)字化建設(shè),開展了《辭海》的分詞研究。針對《辭海》內(nèi)容特點(diǎn),包括古文類型廣和知識領(lǐng)域廣等特點(diǎn),提出了基于深度學(xué)習(xí)的分詞方法。首先,針對古文類型廣問題,鑒于古文分詞不成熟問題,先移除;針對知識領(lǐng)域廣問題,選擇《新華字典》訓(xùn)練字向量;最后,選擇目前比較主流的BI-LSTM-CRF模型執(zhí)行《辭海》分詞。實(shí)驗(yàn)結(jié)果顯示,提出的分詞方法,準(zhǔn)確率、召回率和F1 值到分別達(dá)到94.18%、94.09%和94.13%,取得了比較理性的分詞效果。

    今后研究方向是聚焦《辭?!返墓盼姆衷~方法,以及開展《辭?!返闹R內(nèi)容創(chuàng)新、知識服務(wù)創(chuàng)新等數(shù)字化建設(shè)。

    猜你喜歡
    辭海新華字典分詞
    開展《 辭?!费芯浚烦霭?/a>
    出版與印刷(2024年6期)2024-12-25 00:00:00
    科學(xué)導(dǎo)報(bào)(2022年22期)2022-04-27 00:43:08
    新華字典
    漢語世界(2021年5期)2021-11-24 01:25:40
    結(jié)巴分詞在詞云中的應(yīng)用
    值得重視的分詞的特殊用法
    《新華字典》獲兩項(xiàng)吉尼斯世界紀(jì)錄
    新版《新華字典》將收入網(wǎng)絡(luò)用語
    《新華字典》背后那些事兒
    高考分詞作狀語考點(diǎn)歸納與疑難解析
    論英語不定式和-ing分詞的語義傳承
    伊春市| 舟曲县| 河间市| 揭阳市| 临沭县| 黄石市| 大连市| 漳平市| 邯郸市| 海盐县| 昌乐县| 丘北县| 龙州县| 梅河口市| 墨江| 根河市| 科技| 永泰县| 鄯善县| 大连市| 汝阳县| 长岛县| 犍为县| 苏州市| 石柱| 临颍县| 宝坻区| 凉山| 定远县| 赣榆县| 会东县| 榕江县| 隆昌县| 舒兰市| 吉林市| 通河县| 盘山县| 宾川县| 确山县| 益阳市| 诏安县|