喬 磊
(山西大眾電子信息產(chǎn)業(yè)集團(tuán)有限公司,山西 太原 030024)
2019年8月30日,中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心在北京發(fā)布了第44次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》?!秷?bào)告》中顯示,截止到2019年6月,我國(guó)互聯(lián)網(wǎng)用戶達(dá)到了8.54億之多,較2018年年底增加了2598萬(wàn)人,互聯(lián)網(wǎng)的普及率達(dá)到了61.2%,較2018年年底提高了1.6%?!秷?bào)告》中還指出,截止到2019年6月,我國(guó)利用網(wǎng)絡(luò)購(gòu)物的用戶達(dá)到了6.39億,較2018年增加了2871萬(wàn),占網(wǎng)民總體將近75%之多,網(wǎng)購(gòu)市場(chǎng)正在飛速發(fā)展?!秷?bào)告》中各項(xiàng)數(shù)據(jù)均表明:網(wǎng)絡(luò)已經(jīng)和我們的日常生活密不可分。
隨著網(wǎng)絡(luò)的迅速發(fā)展,電商的崛起,互聯(lián)網(wǎng)成了人們交流的重要平臺(tái)。人們能夠在各大購(gòu)物網(wǎng)站上瀏覽到關(guān)于各種商品的評(píng)論,迅速實(shí)現(xiàn)“貨比三家”,節(jié)約了大量的時(shí)間、金錢(qián)與精力。消費(fèi)者發(fā)表自己對(duì)于商品的觀點(diǎn),供其他消費(fèi)者參考。同時(shí),商家也能夠借助消費(fèi)者發(fā)布的評(píng)價(jià)信息,掌握自家產(chǎn)品的優(yōu)劣,及時(shí)做出調(diào)整以迎合市場(chǎng)需求。然而往往產(chǎn)品的評(píng)價(jià)信息規(guī)模龐大,僅靠人工去篩選并不現(xiàn)實(shí),所以為了幫助消費(fèi)者和商家快速獲取有效的信息,就需要一種可以自動(dòng)識(shí)別評(píng)論中關(guān)鍵信息的方法。
本文基于條件隨機(jī)場(chǎng)(CRF)模型[1],引入了協(xié)同訓(xùn)練(Co-training)算法,設(shè)計(jì)了一種能夠快速識(shí)別評(píng)論中關(guān)鍵信息的方法。該算法可以借助很小一部分人工標(biāo)注信息,在大量信息中快速地識(shí)別出評(píng)價(jià)對(duì)象和評(píng)價(jià)詞。消費(fèi)者可以通過(guò)識(shí)別出的信息,來(lái)幫助自己更好地做出判斷;同時(shí)商家也能夠通過(guò)這些信息掌握自家產(chǎn)品的優(yōu)劣,及時(shí)做出調(diào)整以適應(yīng)廣大消費(fèi)者的需求。
2001年Lafferty等人提出了條件隨機(jī)場(chǎng)(CRF)模型,它吸取了隱馬爾科夫模型和最大熵模型的優(yōu)點(diǎn),又在其基礎(chǔ)上進(jìn)行了擴(kuò)展。條件隨機(jī)場(chǎng)模型在特征的選擇上比隱馬爾科夫模型更加靈活,同時(shí)還避免了最大熵模型的標(biāo)記偏置問(wèn)題,在處理序列標(biāo)注問(wèn)題上有著良好的表現(xiàn)。該模型的核心思想是借助有少量變量的局部函數(shù)的積,來(lái)描述大量的隨機(jī)變量的分布概率。其模型如圖1所示。
圖1 條件隨機(jī)場(chǎng)模型
模型中,X代表輸入數(shù)據(jù),Y代表對(duì)應(yīng)的標(biāo)注序列,其概率定義為:
.
(1)
式(1)中,tk(yi-1,yi,x,i),sk(yi,x,i)表示特征函數(shù),λk,μk表示權(quán)重。歸一化函數(shù)Z(x)定義如下:
.
(2)
條件隨機(jī)場(chǎng)模型的特征模板比較靈活,不同的問(wèn)題,特征模板可以不同。
本方法要識(shí)別的評(píng)價(jià)要素包括評(píng)價(jià)對(duì)象[2]、評(píng)價(jià)詞,兩者共同構(gòu)成了評(píng)價(jià)中的關(guān)鍵信息,特征選用了詞、詞性和上下文。
詞是表達(dá)語(yǔ)義的最小單位,輸入數(shù)據(jù)時(shí),需要先對(duì)評(píng)價(jià)信息進(jìn)行分詞處理,所以詞特征至關(guān)重要。
評(píng)價(jià)對(duì)象一般由名詞或名詞短語(yǔ)構(gòu)成,評(píng)價(jià)詞一般由形容詞或形容詞短語(yǔ)構(gòu)成。所以選擇詞性作為特征之一將會(huì)十分有效。
上下文是指目標(biāo)對(duì)象前后出現(xiàn)的詞或短語(yǔ),很多情況下,評(píng)價(jià)對(duì)象和評(píng)價(jià)詞不是單一的一個(gè)詞,而是由多個(gè)詞構(gòu)成的短語(yǔ),有必要結(jié)合上下文來(lái)識(shí)別。
特征模板的格式如圖2所示。
圖2 特征模板格式
“%x[行位置,列位置]”表示相對(duì)當(dāng)前詞的行偏移量和列的絕對(duì)位置。
以圖3訓(xùn)練集為例,其中第一列絕對(duì)位置為0,是詞語(yǔ);第二列絕對(duì)位置為1,是詞性;第三列的絕對(duì)位置是2,表示該內(nèi)容的標(biāo)注信息,B代表標(biāo)注開(kāi)始,I代表在標(biāo)注內(nèi)部,O代表在標(biāo)注外部。模板U00:%x[-2,0]中,-2表示當(dāng)前目標(biāo)詞“沉重”之前兩個(gè)位置的“轉(zhuǎn)向vB”;0表示第一列的詞,即“轉(zhuǎn)向”。
圖3 訓(xùn)練集
1998年A.Blum和T.Mitchell提出了一種機(jī)器學(xué)習(xí)的方法——標(biāo)準(zhǔn)協(xié)同訓(xùn)練(Co-training)算法,它是一種有效的半監(jiān)督學(xué)習(xí)方法。該算法要求兩個(gè)特征集滿足以下兩個(gè)條件:第一,每一個(gè)特征集合都足以充分的表述問(wèn)題,在有足有訓(xùn)練集的情況下,用每一個(gè)特征集都能有較好地學(xué)習(xí)效果;第二,在標(biāo)注的情況下,特征集合之間互不相交。協(xié)同訓(xùn)練算法如圖4所示。
圖4 協(xié)同訓(xùn)練算法
協(xié)同訓(xùn)練算法在滿足需求的基礎(chǔ)上,利用較少的標(biāo)注數(shù)據(jù),在大量未標(biāo)注的數(shù)據(jù)上學(xué)習(xí),既有效利用了數(shù)據(jù),又避免了人力的投入,節(jié)約了大量時(shí)間。
在協(xié)同訓(xùn)練算法中,要求特征集分為兩個(gè)互不相交的子集,本方法采用了三個(gè)特征,所以劃分方式如表1所示。
表1 特征集的劃分
在條件隨機(jī)場(chǎng)模型中,訓(xùn)練集的質(zhì)量在很大程度上將影響到測(cè)試結(jié)果,所以為了得到更準(zhǔn)確的結(jié)果,就需要精確標(biāo)注大量數(shù)據(jù)作為訓(xùn)練集,這一步驟將耗費(fèi)很長(zhǎng)的時(shí)間。引入?yún)f(xié)同訓(xùn)練算法,則可以有效解決這一問(wèn)題。該方法只需利用較小規(guī)模的標(biāo)注數(shù)據(jù),就可以標(biāo)注更大規(guī)模的未標(biāo)注數(shù)據(jù),從而獲得大規(guī)模的標(biāo)注數(shù)據(jù)作為訓(xùn)練集,從而提高效率。
具體做法如圖5所示。
圖5 引入?yún)f(xié)同訓(xùn)練算法
輸入:已標(biāo)記的訓(xùn)練集L、未標(biāo)記的測(cè)試集U、特征集F
過(guò)程:
1) 將特征集F分為互不相交的兩個(gè)子集F1和F2;
2) 分別用兩個(gè)子集作為特征模板進(jìn)行訓(xùn)練,得到兩個(gè)模板;
3) 用步驟2)得到的兩個(gè)模板測(cè)試,得到兩個(gè)測(cè)試結(jié)果;
4) 對(duì)比兩個(gè)測(cè)試結(jié)果,將其中標(biāo)注為B或者I,并且標(biāo)記概率大于某一閾值的數(shù)據(jù)添加到訓(xùn)練集中,以擴(kuò)充訓(xùn)練集;
5) 用新的訓(xùn)練集重復(fù)2)~4),直至訓(xùn)練集規(guī)模不再擴(kuò)大為止。
至此,就得到了大規(guī)模的準(zhǔn)確標(biāo)注的訓(xùn)練集,再利用特征模板F,訓(xùn)練、測(cè)試,就能得到最終結(jié)果,過(guò)程圖如圖6所示。
圖6 評(píng)價(jià)對(duì)象、評(píng)價(jià)詞識(shí)別過(guò)程
這樣,就實(shí)現(xiàn)了只利用較小規(guī)模的已標(biāo)注數(shù)據(jù),在大規(guī)模的未標(biāo)注數(shù)據(jù)中標(biāo)注新的數(shù)據(jù),不斷擴(kuò)充訓(xùn)練集,以提供條件隨機(jī)場(chǎng)模型使用,從而達(dá)到自動(dòng)、高效地獲取結(jié)果的目的。
評(píng)價(jià)對(duì)象和評(píng)價(jià)詞都可以用條件隨機(jī)場(chǎng)模型識(shí)別出來(lái),隨后采用近鄰法將其組合為一組評(píng)價(jià)信息:在識(shí)別出的評(píng)價(jià)對(duì)象前后9個(gè)詞的范圍匹配評(píng)價(jià)詞;若匹配到評(píng)價(jià)詞,則在其前后3個(gè)詞的范圍尋找否定詞。最后,就可以將評(píng)價(jià)對(duì)象和與其對(duì)應(yīng)的評(píng)價(jià)詞組成一組評(píng)價(jià)組合。
本方法在2014COAE評(píng)測(cè)數(shù)據(jù)上做了驗(yàn)證,最終的識(shí)別效果如表2所示,2014COAE評(píng)測(cè)效果如表3所示。
表2 結(jié)果統(tǒng)計(jì)
表3 COAE2014評(píng)測(cè)結(jié)果
對(duì)比表2、表3可以看出,本方法的識(shí)別效果雖然不如評(píng)測(cè)的最佳效果,但是遠(yuǎn)高于平均效果。由此可見(jiàn),本方法可以完成自動(dòng)識(shí)別評(píng)價(jià)信息的需求。
本方法將協(xié)同訓(xùn)練算法引入到條件隨機(jī)場(chǎng)模型當(dāng)中,節(jié)約了大量人工操作,實(shí)現(xiàn)了自動(dòng)識(shí)別評(píng)價(jià)對(duì)象、評(píng)價(jià)詞的目的,且效果優(yōu)于平均水平,有較強(qiáng)的可行性。