• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學(xué)習(xí)的領(lǐng)域?qū)嶓w屬性詞聚類抽取研究*

      2016-04-13 09:52:40蘇豐龍謝慶華邱繼遠(yuǎn)岳振軍
      關(guān)鍵詞:語料聚類向量

      蘇豐龍,謝慶華,邱繼遠(yuǎn),岳振軍

      (1. 解放軍理工大學(xué) 通信工程學(xué)院,江蘇 南京 210007; 2. 解放軍理工大學(xué) 國防工程學(xué)院,江蘇 南京 210007)

      基于深度學(xué)習(xí)的領(lǐng)域?qū)嶓w屬性詞聚類抽取研究*

      蘇豐龍1,謝慶華2,邱繼遠(yuǎn)1,岳振軍1

      (1. 解放軍理工大學(xué) 通信工程學(xué)院,江蘇 南京 210007; 2. 解放軍理工大學(xué) 國防工程學(xué)院,江蘇 南京 210007)

      屬性詞的聚類是領(lǐng)域?qū)嶓w屬性抽取中的一個(gè)重要步驟。在未知領(lǐng)域和大量文本中,人工標(biāo)注尋找十分困難。本文將一種基于深度學(xué)習(xí)框架的詞語嵌入表示方法(Word Embedding)引入到領(lǐng)域?qū)嶓w屬性詞聚類研究中,在無監(jiān)督條件下解決大規(guī)模語料、領(lǐng)域?qū)嶓w屬性詞表人工參與構(gòu)建代價(jià)較高的問題,并進(jìn)行了適當(dāng)?shù)臄U(kuò)展,取得了較好的效果,可以為信息抽取等后續(xù)高級(jí)任務(wù)提供較好服務(wù)。

      詞向量;深度學(xué)習(xí);詞語聚類;屬性抽取

      0 引言

      隨著機(jī)器學(xué)習(xí)理論的發(fā)展,基于自然語言處理的傳統(tǒng)信息抽取技術(shù)面臨著各種機(jī)遇和挑戰(zhàn)。特別是有監(jiān)督的學(xué)習(xí)方法需要大量人工去標(biāo)注語料,代價(jià)昂貴,成本較高,在現(xiàn)行的機(jī)器學(xué)習(xí)應(yīng)用研究當(dāng)中,逐步被半監(jiān)督、無監(jiān)督和混合學(xué)習(xí)方法取代。

      在領(lǐng)域?qū)嶓w屬性抽取這一課題中,數(shù)據(jù)來源廣泛,載體形式多樣,大量的信息載體在互聯(lián)網(wǎng)上生成和傳播,從結(jié)構(gòu)化的數(shù)據(jù)庫,半結(jié)構(gòu)化的百科網(wǎng)頁,到完全非結(jié)構(gòu)化的自由文本,給信息抽取工作帶來了各種挑戰(zhàn)和機(jī)遇。傳統(tǒng)的監(jiān)督學(xué)習(xí)方法通過對(duì)大量已經(jīng)標(biāo)注的樣本來學(xué)習(xí)得到映射模型,然后再對(duì)未知樣本進(jìn)行標(biāo)簽預(yù)測(cè)。本文針對(duì)前人在使用監(jiān)督學(xué)習(xí)過程中語料標(biāo)注工作量大、代價(jià)高的實(shí)際,提出了一種基于詞語嵌入式表示的無監(jiān)督詞語聚類方法。假設(shè)同類別的屬性詞在文本中具有相同或相近的語用和語境,利用深層神經(jīng)網(wǎng)絡(luò)架構(gòu)學(xué)習(xí)出詞語的嵌入式表示,也稱詞向量(Word Embedding),使其帶上文本空間的各種特征信息,有助于降低大規(guī)模語料人工尋找構(gòu)建屬性詞表的困難。實(shí)踐證明此方法聚類出的詞語再通過后續(xù)的擴(kuò)展及過濾步驟,基本能夠達(dá)到專家要求的構(gòu)建標(biāo)準(zhǔn)。

      1 相關(guān)理論

      領(lǐng)域詞匯的自動(dòng)聚類可以看成是自然語言處理領(lǐng)域的一項(xiàng)重要任務(wù),并發(fā)展出較多的研究成果。如Sven Martin等提出了基于困惑度為代價(jià)函數(shù)的貪婪聚類算法對(duì)詞表中的詞進(jìn)行歸類,可使訓(xùn)練語料的困惑度最小,但算法時(shí)間代價(jià)高[1];陳浪舟等在前人研究的基礎(chǔ)上進(jìn)行了優(yōu)化,提出基于詞的相似性分層聚類算法,并用于基于詞類的可變長統(tǒng)計(jì)語言模型研究當(dāng)中,取得了較好的效果,但是需要借助于專家預(yù)先設(shè)定的分類系統(tǒng)[2];程顯毅等利用屬性和屬性值組合的概念模板,并借助于Google搜索進(jìn)行頻繁挖掘,但實(shí)現(xiàn)過程較復(fù)雜,增加了人力成本[3];另外還有基于LDA分析進(jìn)行詞語聚類等方法,但其需要人工預(yù)先設(shè)置主題數(shù)目[4]。以上論文所使用的方法基本上可以分為基于規(guī)則的方法、基于統(tǒng)計(jì)的方法以及規(guī)則加統(tǒng)計(jì)的混合方法,多數(shù)花費(fèi)代價(jià)大,依賴性較高。

      深度學(xué)習(xí)(Deep Learning)是近年來研究的熱點(diǎn),在圖像、語音和文本這三大信息載體領(lǐng)域均有突破性進(jìn)展?;谏疃葘W(xué)習(xí)的詞向量是近年來研究比較多的一種無監(jiān)督的學(xué)習(xí)方法[5],在研究海量高維文本、未知領(lǐng)域?qū)I(yè)文本、陌生語種文本等問題中體現(xiàn)出極大的優(yōu)越性,其人工參與程度小、自動(dòng)化程度高,受到越來越多的學(xué)者關(guān)注,并且產(chǎn)生了多種擴(kuò)展模型。其中,word2vec(Word to Vector)是Google在2013年開發(fā)的詞向量轉(zhuǎn)化工具,可以學(xué)習(xí)出詞語的語義、語法和語用信息,計(jì)算詞語的相似度,是本文研究的工具之一。

      1.1 word2vec理論描述

      詞向量是訓(xùn)練神經(jīng)網(wǎng)絡(luò)語言模型過程中的產(chǎn)物,與傳統(tǒng)的向量空間模型VSM(Vector Space Model)相比具有維度低、快速、精確等優(yōu)點(diǎn)[6]。

      如圖1所示,最下方表示的是前n-1個(gè)詞語:wt-n+1,…,wt-2,wt-1,利用神經(jīng)網(wǎng)絡(luò)語言模型可以預(yù)測(cè)出下一個(gè)詞wt。

      圖1 訓(xùn)練詞向量的神經(jīng)網(wǎng)絡(luò)語言模型

      網(wǎng)絡(luò)的第一層為輸入層:將前n-1個(gè)詞語的向量首尾拼接,組成(n-1)×m維的長向量,其中m是初始規(guī)定的詞向量維度。

      網(wǎng)絡(luò)的第二層為為隱藏層:與普通神經(jīng)網(wǎng)絡(luò)類似,偏置項(xiàng)可以隨機(jī)初始化,激活函數(shù)選用tanh。

      網(wǎng)絡(luò)的第三層為輸出層:使用softmax函數(shù)將輸出值的概率歸一化。

      1.2 循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型

      循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型(Recurrent Neural Network Language Model,RNNLM)是Mikolov于2010年提出的一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、用來訓(xùn)練語言模型的改進(jìn)方法[7],比Bengio的神經(jīng)網(wǎng)絡(luò)模型更出色,也是本文所使用word2vec工具的算法原理模型。循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型如圖2所示。

      通過調(diào)查發(fā)現(xiàn),很多國企管理思想落后,仍然分不清“財(cái)務(wù)管理”和“財(cái)務(wù)會(huì)計(jì)”。在日常工作中,財(cái)務(wù)人員需要花費(fèi)大量時(shí)間處理會(huì)計(jì)工作,忽視了財(cái)務(wù)管理工作。財(cái)務(wù)管理是一項(xiàng)綜合性工作,對(duì)財(cái)務(wù)人員的素質(zhì)要求(特別是工作經(jīng)驗(yàn))比較高,這一點(diǎn)需要引起企業(yè)的重視[2]。除此之外,財(cái)務(wù)管理人員專業(yè)能力和知識(shí)水平不高,公司對(duì)財(cái)務(wù)人員的培訓(xùn)也不夠,這些也將導(dǎo)致財(cái)務(wù)管理人員的知識(shí)水平不能滿足企業(yè)改革發(fā)展需要。

      圖2 循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型

      圖2中,RNNLM包含一個(gè)輸入層w(t),代表在t時(shí)刻輸入詞的1-of-N編碼,以向量形式輸入;一個(gè)循環(huán)連接的隱含層s(t),維持了句子的歷史信息和輸出層y(t);輸出層輸出詞的概率分布,以及它們對(duì)應(yīng)的權(quán)重矩陣U,V,W。

      其中,隱含層s(t)和輸出層y(t)的值可以通過下面公式得出:

      s(t)=f(U×w(t)+W×s(t-1))

      y(t)=g(V×s(t))

      1.3 基于語義相似度的聚類

      詞語作為一種符號(hào)的集合,其在文本中有著特殊存在和表示形式,在中文領(lǐng)域的分詞、文法、語境、修飾等各種難點(diǎn)對(duì)機(jī)器學(xué)習(xí)來說均是巨大的挑戰(zhàn)。其中,基于語義相似度詞聚類依舊是研究的重點(diǎn)和難點(diǎn)。

      本文結(jié)合領(lǐng)域?qū)嶓w屬性抽取這一課題,利用維基百科中文語料無監(jiān)督地訓(xùn)練出詞向量,然后再利用向量的夾角余弦距離公式計(jì)算詞語之間的距離,挖掘出領(lǐng)域?qū)嶓w所需的屬性詞,為后續(xù)的工作做準(zhǔn)備。

      對(duì)于兩個(gè)n維樣本點(diǎn)a(x11,x12,…,x1n)和b(x21,x22,…,x2n),可以使用類似于夾角余弦的概念來衡量它們間的相似程度。

      夾角余弦距離公式:

      2 實(shí)驗(yàn)分析與驗(yàn)證

      2.1 實(shí)驗(yàn)預(yù)處理

      本文從維基百科中爬取了部分裝備語料,如圖3所示。由于內(nèi)容的開放性,用戶可以自由添加更改百科的內(nèi)容,部分內(nèi)容不規(guī)范,經(jīng)過預(yù)處理篩選后共有2 800篇能夠用于實(shí)驗(yàn)。借助于中科院的ICTCLAS分詞系統(tǒng)和CRF++-0.58工具包,語料經(jīng)過分詞、詞性標(biāo)注、斷句、命名實(shí)體識(shí)別后,以備后用。

      2.2 屬性詞的聚類挖掘和擴(kuò)展

      考慮到人工尋找屬性詞語會(huì)出現(xiàn)遺漏、費(fèi)時(shí)等困難,本文使用Python2.7中g(shù)ensim工具包(Google的word2vec工具源碼python封裝)進(jìn)行詞向量的訓(xùn)練和屬性詞的挖掘,選用大規(guī)模維基中文語料(截止2015年1月,共1.2 GB)進(jìn)行學(xué)習(xí),確保屬性詞語的覆蓋。研究在設(shè)置不同維度、不同窗口條件下對(duì)屬性詞挖掘效果的影響。借助于實(shí)驗(yàn)室已有的領(lǐng)域?qū)I(yè)詞典,設(shè)置了兩組對(duì)比實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)效果進(jìn)行初步分析。測(cè)試評(píng)價(jià)選用通用的準(zhǔn)確率P、召回率R和查全率F作為評(píng)價(jià)標(biāo)準(zhǔn)。

      圖3 未處理語料樣例

      根據(jù)先驗(yàn)知識(shí),選取軍事裝備領(lǐng)域常用的屬性詞語“速度”、“重量”、“航程”、“排水量”等進(jìn)行聚類挖掘,部分結(jié)果如表1、表2所示。

      表1 與“速度”距離最近的10個(gè)詞語

      表2 與“重量”距離最近的10個(gè)

      實(shí)驗(yàn)過程中,預(yù)先訓(xùn)練出40、200、1 000維度詞向量模型,窗口大小均有5、10、15三種,共9種組合,為了防止漏詞,設(shè)置最小詞頻總數(shù)為1。經(jīng)過反復(fù)調(diào)整,部分結(jié)果如圖4、圖5所示。

      2.3 結(jié)果分析

      由于領(lǐng)域文本的特殊性,非專業(yè)人員容易遺漏特定的屬性詞,在網(wǎng)絡(luò)大規(guī)模海量語料面前會(huì)顯得束手無策。

      表1和表2中所展示的結(jié)果是利用詞向量模型計(jì)算出的與“速度”、“重量”距離最近的10個(gè)詞語(窗口為5、維度為40),部分結(jié)果不是很準(zhǔn)確,個(gè)別詞語與“速度”、“重量”關(guān)系不大,如:“級(jí)位”、“反應(yīng)時(shí)間”、“M240B”、“車高”等,經(jīng)過仔細(xì)分析,有些詞語雖然不是嚴(yán)格意義上的同義詞或者近義詞,但也是相關(guān)的,如擴(kuò)展出“推重比”、“恒功”、“扭矩”等陌生領(lǐng)域相關(guān)詞匯,這與語料的質(zhì)量有很大關(guān)系。

      圖4 固定窗口10,不同維度的詞向量模型對(duì)實(shí)驗(yàn)的影響

      圖5 固定維度200,不同窗口的詞向量模型對(duì)實(shí)驗(yàn)的影響

      圖4和圖5表明,在窗口為10、維度為200時(shí),屬性詞的聚類抽取效果最好。經(jīng)過分析,可能的原因是:窗口太小,不能足夠考慮上下文歷史信息(圖5中33.7%和27.4%),而窗口太大又容易造成信息冗余,產(chǎn)生“噪聲”,影響屬性詞的抽取(圖5中61.2%和66.1%);在模型維度選取方面,向量維度過小F值較差(圖4中20.4%和17.7%),與模型的構(gòu)建不合理以及訓(xùn)練不夠充分有關(guān),當(dāng)維度為1 000時(shí),又引入了大量的相關(guān)詞,也使F值下降(圖4中35.9%和25.6%),同時(shí)硬件的計(jì)算開銷也將增大。經(jīng)過反復(fù)驗(yàn)證,最終設(shè)定維度為200、窗口為10,效果最好(圖4、5中76.6%和84.6%),這與屬性詞在文本中出現(xiàn)的行文表達(dá)結(jié)構(gòu)有關(guān),需要根據(jù)不同任務(wù)反復(fù)調(diào)整。

      3 結(jié)論與展望

      本文在前人工作的基礎(chǔ)上,做出了一些改進(jìn)和簡單嘗試,將深度學(xué)習(xí)中的詞向量模型引入到屬性詞語聚類抽取研究當(dāng)中,然后再結(jié)合專家詞典進(jìn)行評(píng)測(cè),取得了不錯(cuò)的效果,對(duì)于后續(xù)的研究有一定的借鑒意義。但也有較多不足:文本的分詞以及語料的規(guī)范性都需要進(jìn)一步提高;在訓(xùn)練神經(jīng)網(wǎng)絡(luò)語言模型時(shí),需要大規(guī)模語料覆蓋,如何獲取高質(zhì)量的大規(guī)模語料依舊是需要考慮的問題;本文僅僅是用向量的夾角余弦公式指定泛化詞語進(jìn)行相似度查詢聚類,會(huì)產(chǎn)生偏差,且結(jié)果還需要進(jìn)一步清洗過濾。下一步研究將從文本的語言學(xué)特征入手,結(jié)合其他詞語距離度量方法,更好地實(shí)現(xiàn)信息抽取任務(wù)。

      [1] MARTIN S, NEY H. Algorithms for bigram and trigram word clustering[C].In:Proc European Conference Speech Communication and Technology,Madrid,1995:1253-1256.

      [2] 陳浪舟,黃泰翼.一種新穎的詞聚類算法和可變長統(tǒng)計(jì)語言模型[J].計(jì)算機(jī)學(xué)報(bào),1999,22(9):942-948.

      [3] 程顯毅,施佺,沈?qū)W華,等.屬性和屬性值組合的概念模板[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,49(1):15-19.

      [4] 彭云,萬常選,江騰蛟,等.一種詞聚類LDA的商品特征提取算法[J].小型微型計(jì)算機(jī)系統(tǒng),2015,7(7):1458-1463.

      [5] 劉樹杰,董力,張家駿,等.深度學(xué)習(xí)在自然語言處理中的應(yīng)用[J].中國計(jì)算機(jī)學(xué)會(huì)通訊,2015,11(3):9-16.

      [6] BENGIO Y,DUCHARME R,VINCENT P,et al. A neural probabilistic language model[J].The Joural of Machine Research,2003(3):1137-1155.

      [7] MIKOLOV T,KOMBRINK S,BURGET L,et al. Extensions of recurrent neural network language model[C].Acoustics,Speech and Signal Processing(ICASSP),2011 IEEE International Conference on,IEEE,2011:5528-5531.

      Study on word clusting for attribute extraction based on deep learning

      Su Fenglong1,Xie Qinghua2,Qiu Jiyuan1,Yue Zhenjun1

      (1. Institute of Communication Engineering, PLA University of Science and Technology, Nanjing 210007, China;2. Institute of National Defense Engineering, PLA University of Science and Technology, Nanjing 210007, China)

      Attributes word clustering is an important step for entity attributes extraction in domain. It is very difficult for man to find them out in a large number of texts about unknown domain. We introduced Word Embedding which is based on a deep learning framework into the study of attributes word clustering, in that we should solve the problem of the higher cost of building the attibutes words lists in large scale corpus. Then we brought them to develop more vocabularies and expressions, and the results was good. It can provide us better service in some senior tasks in the follow-up work, such as information extraction .

      word distributed representation; deeping learning; word clustering; attribute extraction

      江蘇省自然科學(xué)基金資助項(xiàng)目(BK2012511)

      TP391

      A

      1674-7720(2016)01-0053-03

      蘇豐龍,謝慶華,邱繼遠(yuǎn),等.基于深度學(xué)習(xí)的領(lǐng)域?qū)嶓w屬性詞聚類抽取研究[J].微型機(jī)與應(yīng)用,2016,35(1):53-55,59.

      2015-07-13)

      蘇豐龍(1988-),男,碩士,助理工程師,主要研究方向:自然語言處理、文本挖掘、情報(bào)分析。

      謝慶華(1971-),男,博士,副教授,主要研究方向:情報(bào)可視化。

      邱繼遠(yuǎn)(1985-),男,碩士,工程師,主要研究方向:信息檢索、情報(bào)分析對(duì)抗。

      猜你喜歡
      語料聚類向量
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      基于DBSACN聚類算法的XML文檔聚類
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      向量垂直在解析幾何中的應(yīng)用
      基于改進(jìn)的遺傳算法的模糊聚類算法
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      《苗防備覽》中的湘西語料
      商都县| 读书| 昆明市| 西贡区| 赤城县| 兰考县| 江西省| 桐庐县| 桑植县| 陇川县| 桃园县| 望奎县| 奉化市| 长岭县| 松江区| 凤山市| 山阳县| 栖霞市| 新建县| 方城县| 岱山县| 杨浦区| 鲜城| 石首市| 九龙县| 白城市| 小金县| 扶沟县| 崇明县| 北流市| 赣州市| 大厂| 罗定市| 兰西县| 儋州市| 新泰市| 顺平县| 博白县| 清水县| 新乡市| 杂多县|