• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于協(xié)同訓(xùn)練的CRF模型評(píng)價(jià)信息識(shí)別的設(shè)計(jì)

    2020-08-20 08:56:26
    山西電子技術(shù) 2020年4期
    關(guān)鍵詞:機(jī)場(chǎng)模板協(xié)同

    喬 磊

    (山西大眾電子信息產(chǎn)業(yè)集團(tuán)有限公司,山西 太原 030024)

    2019年8月30日,中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心在北京發(fā)布了第44次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》?!秷?bào)告》中顯示,截止到2019年6月,我國(guó)互聯(lián)網(wǎng)用戶達(dá)到了8.54億之多,較2018年年底增加了2598萬(wàn)人,互聯(lián)網(wǎng)的普及率達(dá)到了61.2%,較2018年年底提高了1.6%?!秷?bào)告》中還指出,截止到2019年6月,我國(guó)利用網(wǎng)絡(luò)購(gòu)物的用戶達(dá)到了6.39億,較2018年增加了2871萬(wàn),占網(wǎng)民總體將近75%之多,網(wǎng)購(gòu)市場(chǎng)正在飛速發(fā)展?!秷?bào)告》中各項(xiàng)數(shù)據(jù)均表明:網(wǎng)絡(luò)已經(jīng)和我們的日常生活密不可分。

    隨著網(wǎng)絡(luò)的迅速發(fā)展,電商的崛起,互聯(lián)網(wǎng)成了人們交流的重要平臺(tái)。人們能夠在各大購(gòu)物網(wǎng)站上瀏覽到關(guān)于各種商品的評(píng)論,迅速實(shí)現(xiàn)“貨比三家”,節(jié)約了大量的時(shí)間、金錢(qián)與精力。消費(fèi)者發(fā)表自己對(duì)于商品的觀點(diǎn),供其他消費(fèi)者參考。同時(shí),商家也能夠借助消費(fèi)者發(fā)布的評(píng)價(jià)信息,掌握自家產(chǎn)品的優(yōu)劣,及時(shí)做出調(diào)整以迎合市場(chǎng)需求。然而往往產(chǎn)品的評(píng)價(jià)信息規(guī)模龐大,僅靠人工去篩選并不現(xiàn)實(shí),所以為了幫助消費(fèi)者和商家快速獲取有效的信息,就需要一種可以自動(dòng)識(shí)別評(píng)論中關(guān)鍵信息的方法。

    本文基于條件隨機(jī)場(chǎng)(CRF)模型[1],引入了協(xié)同訓(xùn)練(Co-training)算法,設(shè)計(jì)了一種能夠快速識(shí)別評(píng)論中關(guān)鍵信息的方法。該算法可以借助很小一部分人工標(biāo)注信息,在大量信息中快速地識(shí)別出評(píng)價(jià)對(duì)象和評(píng)價(jià)詞。消費(fèi)者可以通過(guò)識(shí)別出的信息,來(lái)幫助自己更好地做出判斷;同時(shí)商家也能夠通過(guò)這些信息掌握自家產(chǎn)品的優(yōu)劣,及時(shí)做出調(diào)整以適應(yīng)廣大消費(fèi)者的需求。

    1 條件隨機(jī)場(chǎng)模型

    2001年Lafferty等人提出了條件隨機(jī)場(chǎng)(CRF)模型,它吸取了隱馬爾科夫模型和最大熵模型的優(yōu)點(diǎn),又在其基礎(chǔ)上進(jìn)行了擴(kuò)展。條件隨機(jī)場(chǎng)模型在特征的選擇上比隱馬爾科夫模型更加靈活,同時(shí)還避免了最大熵模型的標(biāo)記偏置問(wèn)題,在處理序列標(biāo)注問(wèn)題上有著良好的表現(xiàn)。該模型的核心思想是借助有少量變量的局部函數(shù)的積,來(lái)描述大量的隨機(jī)變量的分布概率。其模型如圖1所示。

    圖1 條件隨機(jī)場(chǎng)模型

    模型中,X代表輸入數(shù)據(jù),Y代表對(duì)應(yīng)的標(biāo)注序列,其概率定義為:

    .

    (1)

    式(1)中,tk(yi-1,yi,x,i),sk(yi,x,i)表示特征函數(shù),λk,μk表示權(quán)重。歸一化函數(shù)Z(x)定義如下:

    .

    (2)

    2 特征模板的選擇

    條件隨機(jī)場(chǎng)模型的特征模板比較靈活,不同的問(wèn)題,特征模板可以不同。

    本方法要識(shí)別的評(píng)價(jià)要素包括評(píng)價(jià)對(duì)象[2]、評(píng)價(jià)詞,兩者共同構(gòu)成了評(píng)價(jià)中的關(guān)鍵信息,特征選用了詞、詞性和上下文。

    詞是表達(dá)語(yǔ)義的最小單位,輸入數(shù)據(jù)時(shí),需要先對(duì)評(píng)價(jià)信息進(jìn)行分詞處理,所以詞特征至關(guān)重要。

    評(píng)價(jià)對(duì)象一般由名詞或名詞短語(yǔ)構(gòu)成,評(píng)價(jià)詞一般由形容詞或形容詞短語(yǔ)構(gòu)成。所以選擇詞性作為特征之一將會(huì)十分有效。

    上下文是指目標(biāo)對(duì)象前后出現(xiàn)的詞或短語(yǔ),很多情況下,評(píng)價(jià)對(duì)象和評(píng)價(jià)詞不是單一的一個(gè)詞,而是由多個(gè)詞構(gòu)成的短語(yǔ),有必要結(jié)合上下文來(lái)識(shí)別。

    特征模板的格式如圖2所示。

    圖2 特征模板格式

    “%x[行位置,列位置]”表示相對(duì)當(dāng)前詞的行偏移量和列的絕對(duì)位置。

    以圖3訓(xùn)練集為例,其中第一列絕對(duì)位置為0,是詞語(yǔ);第二列絕對(duì)位置為1,是詞性;第三列的絕對(duì)位置是2,表示該內(nèi)容的標(biāo)注信息,B代表標(biāo)注開(kāi)始,I代表在標(biāo)注內(nèi)部,O代表在標(biāo)注外部。模板U00:%x[-2,0]中,-2表示當(dāng)前目標(biāo)詞“沉重”之前兩個(gè)位置的“轉(zhuǎn)向vB”;0表示第一列的詞,即“轉(zhuǎn)向”。

    圖3 訓(xùn)練集

    3 協(xié)同訓(xùn)練算法

    1998年A.Blum和T.Mitchell提出了一種機(jī)器學(xué)習(xí)的方法——標(biāo)準(zhǔn)協(xié)同訓(xùn)練(Co-training)算法,它是一種有效的半監(jiān)督學(xué)習(xí)方法。該算法要求兩個(gè)特征集滿足以下兩個(gè)條件:第一,每一個(gè)特征集合都足以充分的表述問(wèn)題,在有足有訓(xùn)練集的情況下,用每一個(gè)特征集都能有較好地學(xué)習(xí)效果;第二,在標(biāo)注的情況下,特征集合之間互不相交。協(xié)同訓(xùn)練算法如圖4所示。

    圖4 協(xié)同訓(xùn)練算法

    協(xié)同訓(xùn)練算法在滿足需求的基礎(chǔ)上,利用較少的標(biāo)注數(shù)據(jù),在大量未標(biāo)注的數(shù)據(jù)上學(xué)習(xí),既有效利用了數(shù)據(jù),又避免了人力的投入,節(jié)約了大量時(shí)間。

    在協(xié)同訓(xùn)練算法中,要求特征集分為兩個(gè)互不相交的子集,本方法采用了三個(gè)特征,所以劃分方式如表1所示。

    表1 特征集的劃分

    4 條件隨機(jī)場(chǎng)模型引入?yún)f(xié)同訓(xùn)練

    在條件隨機(jī)場(chǎng)模型中,訓(xùn)練集的質(zhì)量在很大程度上將影響到測(cè)試結(jié)果,所以為了得到更準(zhǔn)確的結(jié)果,就需要精確標(biāo)注大量數(shù)據(jù)作為訓(xùn)練集,這一步驟將耗費(fèi)很長(zhǎng)的時(shí)間。引入?yún)f(xié)同訓(xùn)練算法,則可以有效解決這一問(wèn)題。該方法只需利用較小規(guī)模的標(biāo)注數(shù)據(jù),就可以標(biāo)注更大規(guī)模的未標(biāo)注數(shù)據(jù),從而獲得大規(guī)模的標(biāo)注數(shù)據(jù)作為訓(xùn)練集,從而提高效率。

    具體做法如圖5所示。

    圖5 引入?yún)f(xié)同訓(xùn)練算法

    輸入:已標(biāo)記的訓(xùn)練集L、未標(biāo)記的測(cè)試集U、特征集F

    過(guò)程:

    1) 將特征集F分為互不相交的兩個(gè)子集F1和F2;

    2) 分別用兩個(gè)子集作為特征模板進(jìn)行訓(xùn)練,得到兩個(gè)模板;

    3) 用步驟2)得到的兩個(gè)模板測(cè)試,得到兩個(gè)測(cè)試結(jié)果;

    4) 對(duì)比兩個(gè)測(cè)試結(jié)果,將其中標(biāo)注為B或者I,并且標(biāo)記概率大于某一閾值的數(shù)據(jù)添加到訓(xùn)練集中,以擴(kuò)充訓(xùn)練集;

    5) 用新的訓(xùn)練集重復(fù)2)~4),直至訓(xùn)練集規(guī)模不再擴(kuò)大為止。

    至此,就得到了大規(guī)模的準(zhǔn)確標(biāo)注的訓(xùn)練集,再利用特征模板F,訓(xùn)練、測(cè)試,就能得到最終結(jié)果,過(guò)程圖如圖6所示。

    圖6 評(píng)價(jià)對(duì)象、評(píng)價(jià)詞識(shí)別過(guò)程

    這樣,就實(shí)現(xiàn)了只利用較小規(guī)模的已標(biāo)注數(shù)據(jù),在大規(guī)模的未標(biāo)注數(shù)據(jù)中標(biāo)注新的數(shù)據(jù),不斷擴(kuò)充訓(xùn)練集,以提供條件隨機(jī)場(chǎng)模型使用,從而達(dá)到自動(dòng)、高效地獲取結(jié)果的目的。

    評(píng)價(jià)對(duì)象和評(píng)價(jià)詞都可以用條件隨機(jī)場(chǎng)模型識(shí)別出來(lái),隨后采用近鄰法將其組合為一組評(píng)價(jià)信息:在識(shí)別出的評(píng)價(jià)對(duì)象前后9個(gè)詞的范圍匹配評(píng)價(jià)詞;若匹配到評(píng)價(jià)詞,則在其前后3個(gè)詞的范圍尋找否定詞。最后,就可以將評(píng)價(jià)對(duì)象和與其對(duì)應(yīng)的評(píng)價(jià)詞組成一組評(píng)價(jià)組合。

    5 結(jié)果的驗(yàn)證

    本方法在2014COAE評(píng)測(cè)數(shù)據(jù)上做了驗(yàn)證,最終的識(shí)別效果如表2所示,2014COAE評(píng)測(cè)效果如表3所示。

    表2 結(jié)果統(tǒng)計(jì)

    表3 COAE2014評(píng)測(cè)結(jié)果

    對(duì)比表2、表3可以看出,本方法的識(shí)別效果雖然不如評(píng)測(cè)的最佳效果,但是遠(yuǎn)高于平均效果。由此可見(jiàn),本方法可以完成自動(dòng)識(shí)別評(píng)價(jià)信息的需求。

    6 結(jié)束語(yǔ)

    本方法將協(xié)同訓(xùn)練算法引入到條件隨機(jī)場(chǎng)模型當(dāng)中,節(jié)約了大量人工操作,實(shí)現(xiàn)了自動(dòng)識(shí)別評(píng)價(jià)對(duì)象、評(píng)價(jià)詞的目的,且效果優(yōu)于平均水平,有較強(qiáng)的可行性。

    猜你喜歡
    機(jī)場(chǎng)模板協(xié)同
    機(jī)場(chǎng)罷工
    鋁模板在高層建筑施工中的應(yīng)用
    鋁模板在高層建筑施工中的應(yīng)用
    蜀道難:車(chē)與路的協(xié)同進(jìn)化
    如何避免GSM-R無(wú)線通信系統(tǒng)對(duì)機(jī)場(chǎng)電磁干擾
    “四化”協(xié)同才有出路
    面部識(shí)別使機(jī)場(chǎng)安檢提速
    三醫(yī)聯(lián)動(dòng) 協(xié)同創(chuàng)新
    最有創(chuàng)意的機(jī)場(chǎng)
    鋁模板在高層建筑施工中的應(yīng)用
    中江县| 蒲江县| 巨野县| 扎鲁特旗| 阳曲县| 滨州市| 普格县| 清徐县| 图片| 崇仁县| 麻阳| 施秉县| 北京市| 鹰潭市| 丹寨县| 山东省| 台江县| 铅山县| 读书| 盐城市| 永清县| 双柏县| 花莲市| 道孚县| 韩城市| 聂荣县| 铜陵市| 平潭县| 江永县| 鄂托克旗| 长海县| 庐江县| 塔河县| 晋宁县| 新津县| 灵丘县| 崇明县| 邓州市| 太仓市| 吉水县| 克什克腾旗|