• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于改進(jìn)分詞標(biāo)注集的中文微博命名實(shí)體識(shí)別方法?

    2019-03-01 02:52:18
    關(guān)鍵詞:博文分詞命名

    王 超 王 崢

    (1.南京烽火星空通信發(fā)展有限公司 南京 210019)(2.武漢郵電科學(xué)研究院 武漢 430074)

    1 引言

    隨著社交網(wǎng)絡(luò)的近幾年的快速發(fā)展,推特、微博、微信等以短文本為主的社交網(wǎng)絡(luò)平臺(tái)已成為實(shí)時(shí)信息的主要來(lái)源,對(duì)社交媒體的分析也受到越來(lái)越多的關(guān)注[1~2]。目前在國(guó)內(nèi),微博平臺(tái)發(fā)展迅猛,其用戶量大,傳播速度快,貼近日常生活,在熱點(diǎn)事件的報(bào)導(dǎo)和傳播方面占據(jù)主導(dǎo)地位[3],諸多基于此類社交網(wǎng)絡(luò)的應(yīng)用如關(guān)系抽取以及實(shí)體鏈接[4~5]等,首先必須依賴于微博文本中所涉及到的命名實(shí)體,因此對(duì)微博文本內(nèi)容進(jìn)行命名實(shí)體識(shí)別,從而挖掘出社交媒體中的包含的信息如人物關(guān)系、輿論走向、熱點(diǎn)事件跟蹤等是一項(xiàng)很有意義的研究。

    目前,國(guó)內(nèi)外命名實(shí)體識(shí)別的研究已趨于成熟,但主要是針對(duì)正式文本[6~8],而對(duì)非正式文本的研究也多集中在英文[9],針對(duì)中文非正式文本如中文微博的研究則相對(duì)較少[10~11]。對(duì)于亞洲語(yǔ)種(中文,日文,韓文等),詞與詞之間沒(méi)有固定的分隔符,對(duì)中文進(jìn)行分詞通常是處理中文信息任務(wù)的基礎(chǔ),因此分詞的準(zhǔn)確性會(huì)很大程度上影響命名實(shí)體識(shí)別效果,加之微博文本本身文本短,用語(yǔ)不規(guī)范,詞匯新奇,噪聲多的特點(diǎn),使得分詞的準(zhǔn)確性大大降低,從而導(dǎo)致傳統(tǒng)命名實(shí)體識(shí)別方法的性能在微博文本上會(huì)下降 20%[12]。

    文獻(xiàn)[12]提出了基于拼音相似距離以及文本相似距離聚類算法對(duì)微博文本進(jìn)行規(guī)范化,消除了微博的語(yǔ)言表達(dá)不規(guī)范造成的干擾。文獻(xiàn)[13]則是字位置嵌入來(lái)表征分詞信息,即在字嵌入的基礎(chǔ)上附加字的位置信息,其研究表明字的位置信息對(duì)命名實(shí)體識(shí)別有較大影響。

    本文結(jié)合文獻(xiàn)[13]的研究,首先構(gòu)建微博語(yǔ)料對(duì)到LSTM中文分詞模型進(jìn)行訓(xùn)練,以提高分詞的準(zhǔn)確性,然后對(duì)的分詞結(jié)果標(biāo)注集合進(jìn)行改進(jìn),使其分詞結(jié)果不僅攜帶字的位置信息,而且附加詞性信息,根據(jù)分詞結(jié)果選取適當(dāng)?shù)腃RFs的特征模板,提高了命名實(shí)體識(shí)別的效果。

    2 模型

    2.1 字嵌入

    詞嵌入通過(guò)在一個(gè)連續(xù)的低維度空間中表示單詞,能夠捕獲詞匯的語(yǔ)義或語(yǔ)法的屬性,即相似的單詞會(huì)用相似的低維度向量表示,詞嵌入已經(jīng)在各種自然語(yǔ)言處理任務(wù)中取得了較好的效果[14]。而對(duì)于中文語(yǔ)言處理,由于沒(méi)有詞邊界,因此會(huì)為每一個(gè)漢字訓(xùn)練一個(gè)字嵌入,這時(shí)通常會(huì)存在一個(gè)大小為|C|字符字典C,該字符字典一般從訓(xùn)練集中提取,部分未知字符將會(huì)人工標(biāo)注為一個(gè)特定的符號(hào)添加到字典中去。每一個(gè)中文字符c∈C會(huì)被表示成一個(gè)實(shí)向量vc∈Rd,其中d為向量空間的維數(shù),然后該向量會(huì)被加入到字嵌入矩陣M∈Rd×||C中去。在本文中,字嵌入向量將通過(guò)word2vec[15]獲取,作為2.2中分詞系統(tǒng)的輸入。

    2.2 LSTM中文分詞

    LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的擴(kuò)展,用來(lái)避免RNN長(zhǎng)期依賴問(wèn)題,是目前應(yīng)用廣泛的分詞模型,它的核心是一個(gè)記憶細(xì)胞c用來(lái)保持和更新當(dāng)前狀態(tài)。記憶細(xì)胞的行為由三個(gè)“門(mén)”控制:輸入門(mén)(i)、忘記門(mén)(f)和輸出門(mén)(o)。定義在門(mén)上的操作為元素依次相乘,因此當(dāng)門(mén)為非零向量是可以對(duì)輸入進(jìn)行縮放,當(dāng)門(mén)為零向量時(shí)可以忽略此時(shí)的輸入。輸出門(mén)上的輸出將會(huì)反饋給下一時(shí)刻t+1作為隱藏狀態(tài)以及作為神經(jīng)網(wǎng)絡(luò)當(dāng)前時(shí)刻t的上一層輸入。“門(mén)”的定義以及細(xì)胞的更新和輸出如下:

    其中σ表示sigmoid函數(shù),tanh表示雙曲正切函數(shù);i(t),f(t),o(t),c(t),分表示表示輸入門(mén),忘記門(mén),輸出門(mén)以及記憶細(xì)胞在時(shí)刻t的激活向量,均與隱藏向量h(t)∈RH2大小相同;帶有不同下標(biāo)的參數(shù)矩陣Ws均為方陣,其中Wic,Wfc,Woc為對(duì)角矩陣。

    在中文分詞任務(wù)中,LSTM記憶單元的輸入來(lái)自上下文窗口的漢字,對(duì)于每一個(gè)漢字,記憶單元的輸入為

    由c(t-k1):(t+k2)中的字嵌入連接而成,其中k和k12分別表示距離當(dāng)前漢字向左或向右的索引位置。其輸出會(huì)經(jīng)過(guò)一個(gè)線性變換:

    之后,通過(guò)推理函數(shù):

    來(lái)計(jì)算整個(gè)句子分詞標(biāo)注序列級(jí)總得分。

    已有的研究工作中常用的標(biāo)注集有三種[16]:二詞位、四詞位和六詞位標(biāo)注集,各詞位標(biāo)注集的定義如表1所示。

    表1 三類詞位標(biāo)注集的定義

    以上各詞位標(biāo)注都是在不斷強(qiáng)化詞位置信息,而忽略了詞性信息,考慮到詞性是信息抽取中一個(gè)常用且有效的特征,且命名實(shí)體大多為名詞和動(dòng)詞,極少含有形容詞、量詞和代詞等其他詞性的詞語(yǔ)且大多數(shù)命名實(shí)體都在兩個(gè)字及意思,為了減少標(biāo)記任務(wù)的求解空間,本文采用三詞性-四詞位標(biāo)注集作為L(zhǎng)STM的分詞標(biāo)注,標(biāo)注集的定義如表2所示。

    表2 三詞性-四詞位標(biāo)注集

    2.3 CRFs命名實(shí)體識(shí)別

    條件隨機(jī)場(chǎng)(Conditional random fields)是一種用來(lái)計(jì)算在給定輸入隨機(jī)變量時(shí),輸出隨機(jī)變量的條件概率的無(wú)向圖模型,它結(jié)合了最大熵模型和隱馬爾可夫模型的特征,具有表達(dá)長(zhǎng)距離依賴性和交疊性特征的能力,能夠較好地解決標(biāo)注偏置等問(wèn)題,因此在命名實(shí)體識(shí)別等方面有著廣泛的應(yīng)用。

    線性鏈CRFs是基于一階馬爾科夫鏈的假設(shè),對(duì)于給定的觀測(cè)序列o=<o(jì)1,o2,…oT>,其對(duì)應(yīng)的狀態(tài)序列s‘的概率定義如式(9):

    其中Λ為模型的參數(shù)集,Z0為所有狀態(tài)序列上的歸一化因子,λk為特征權(quán)重可在模型訓(xùn)練中采用極大似然估計(jì)獲得,fk為二值特征函數(shù)。

    本文利用鏈?zhǔn)綏l件隨機(jī)場(chǎng)的推理過(guò)程對(duì)微博文本的觀測(cè)序列和訓(xùn)練產(chǎn)生的參數(shù)λ,找出一個(gè)能夠準(zhǔn)確標(biāo)注微博文本中命名實(shí)體的最優(yōu)標(biāo)記,利用維特比算法求取后驗(yàn)概率Y*=argmaxp(Y|X)最大時(shí)的標(biāo)記序列。

    確定求解過(guò)程之后,需要選擇對(duì)應(yīng)的文本特征,此處特征選取依然基于字級(jí)別的特征,由于2.2中的LSTM中文分詞已經(jīng)提供了當(dāng)前字符詳細(xì)的分詞信息,因此可以大大簡(jiǎn)化特征模板。文獻(xiàn)[17]選取了比較合適的基于詞語(yǔ)的特征模板和標(biāo)記集合用于微博命名實(shí)體識(shí)別以及事件抽取,并取得相對(duì)較好的結(jié)果,本文將其特征模板和標(biāo)記集合進(jìn)行適當(dāng)修改,選取了一個(gè)大小為5的觀測(cè)窗口用來(lái)提取當(dāng)前字符的上下文特征,用來(lái)構(gòu)建特征模板,具體含義如表3所示。

    表3 CRFs特征模板

    由于特征模板是基于字級(jí)別的特征,所以本文定義了一個(gè)基于實(shí)體位置的標(biāo)記集合用來(lái)表示當(dāng)前字的實(shí)體類型,如表4所示。

    表4 實(shí)體類型標(biāo)注集合

    3 實(shí)驗(yàn)與分析

    3.1 數(shù)據(jù)集

    本文利用新浪微博平臺(tái)提供的接口隨機(jī)抽取了2015年9月到2017年4月份的21之間的未標(biāo)注的1,404,026條微博用于訓(xùn)練word2vec字嵌入,word2vec采用Skip-Gram訓(xùn)練目標(biāo),參數(shù)設(shè)置為默認(rèn)值,所有的字嵌入為100維。

    然后又抽取了同時(shí)間段的2600條至少包含三個(gè)命名實(shí)體的微博作為命名實(shí)體識(shí)別的語(yǔ)料庫(kù),其中1800條經(jīng)過(guò)人工添加分詞標(biāo)注以及命名實(shí)體類型標(biāo)注作為訓(xùn)練集,剩下未標(biāo)注800條作為測(cè)試集。

    3.2 實(shí)驗(yàn)設(shè)計(jì)

    本文設(shè)置了3組實(shí)驗(yàn)。

    1)ICTCLAS+四詞位標(biāo)注:利用ICTCLAS2016分詞軟件對(duì)微博文本進(jìn)行分詞,然后依照2.3構(gòu)建CRFs特征模板進(jìn)行命名實(shí)體識(shí)別。

    2)LSTM+四詞位標(biāo)注:利用LSTM神經(jīng)網(wǎng)絡(luò)模型對(duì)微博文本進(jìn)行中文分詞,沿用文獻(xiàn)[18]的LSTM分詞模型的參數(shù)設(shè)置,分詞結(jié)果采用四位詞標(biāo)注結(jié)果,然后依照2.3構(gòu)建CRFs特征模板進(jìn)行命名實(shí)體識(shí)別。

    3)LSTM+三詞性-四詞位標(biāo)注:用LSTM神經(jīng)網(wǎng)絡(luò)模型對(duì)微博文本進(jìn)行中文分詞沿用Chen等LSTM分詞模型參數(shù)設(shè)置,分詞結(jié)果采用三詞性-四詞位標(biāo)注結(jié)果,然后依照2.3構(gòu)建CRFs特征模板進(jìn)行命名實(shí)體識(shí)別。

    3.3 實(shí)驗(yàn)結(jié)果

    在命名實(shí)體識(shí)別性能評(píng)估中,采用了的P(準(zhǔn)確率)、R(召回率)和F(綜合指F值)等評(píng)測(cè)指標(biāo),以F值為主要評(píng)測(cè)指標(biāo)。

    通過(guò)對(duì)測(cè)試集中的800條微博文本人工標(biāo)記命名實(shí)體類型,將以上三組實(shí)驗(yàn)的處理結(jié)果與人工標(biāo)注結(jié)果進(jìn)行對(duì)比,分別得到每組實(shí)驗(yàn)的P值,R值以及F值如表5所示。

    表5 不同實(shí)驗(yàn)結(jié)果的比較

    實(shí)驗(yàn)表明,相比于通用分詞軟件,本文使用特定的微博文本對(duì)LSTM神經(jīng)網(wǎng)絡(luò)分詞模型進(jìn)行訓(xùn)練得到的分詞結(jié)果能夠明顯提升中文微博命名實(shí)體識(shí)別的效果;而在分詞標(biāo)注中添加了詞性信息在一定程度上也提高了命名實(shí)體識(shí)別的的效果。

    4 結(jié)語(yǔ)

    本文結(jié)合目前應(yīng)用廣泛的LSTM中文分詞模型以及CRFs命名實(shí)體識(shí)別模型,通過(guò)特定的訓(xùn)練集以及改進(jìn)的分詞標(biāo)注集,能夠有效提升中文微博命名實(shí)體識(shí)別的效果,但也存在以下兩點(diǎn)不足:1)只能針對(duì)特定中文微博文本領(lǐng)域;2)需要大量的人工標(biāo)注。因此后續(xù)的研究工作要著重于將該方法應(yīng)用到開(kāi)放領(lǐng)域,以及尋找一種自動(dòng)標(biāo)注的機(jī)器學(xué)習(xí)方法進(jìn)行改善。

    猜你喜歡
    博文分詞命名
    第一次掙錢(qián)
    命名——助力有機(jī)化學(xué)的學(xué)習(xí)
    結(jié)巴分詞在詞云中的應(yīng)用
    有一種男人以“暖”命名
    東方女性(2018年3期)2018-04-16 15:30:02
    誰(shuí)和誰(shuí)好
    為一條河命名——在白河源
    值得重視的分詞的特殊用法
    Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
    打電話2
    高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
    射洪县| 绵竹市| 阜南县| 广昌县| 东丽区| 成武县| 浦北县| 湟源县| 凤庆县| 亳州市| 疏附县| 东山县| 米林县| 乌拉特中旗| 甘泉县| 呼和浩特市| 隆回县| 资溪县| 宜兰县| 原平市| 淳安县| 云安县| 长春市| 乌兰察布市| 温泉县| 陆河县| 绥芬河市| 鄯善县| 六安市| 应用必备| 嫩江县| 芜湖县| 烟台市| 扬州市| 林西县| 颍上县| 革吉县| 双柏县| 太原市| 曲松县| 柏乡县|