• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于多層注意力機(jī)制的服裝電商評(píng)論情感分析

    2022-02-22 12:20:28胡新榮劉軍平何儒漢
    關(guān)鍵詞:注意力向量服裝

    胡新榮,王 哲,劉軍平*,彭 濤,何儒漢

    (1.湖北省服裝信息化工程技術(shù)研究中心,湖北 武漢 430200;2.武漢紡織大學(xué) 數(shù)學(xué)與計(jì)算機(jī)學(xué)院,湖北 武漢 430200)

    0 引 言

    Web2.0時(shí)代,網(wǎng)購(gòu)逐漸走入人們生活,網(wǎng)購(gòu)后會(huì)留下大量評(píng)論。這些文本會(huì)蘊(yùn)含一些買(mǎi)家的使用信息和使用態(tài)度。通過(guò)深度神經(jīng)網(wǎng)絡(luò)算法對(duì)這些文本進(jìn)行分析,提取商品評(píng)論中蘊(yùn)含的情感傾向,廣泛運(yùn)用于商品的推薦中,為推薦系統(tǒng)提供參考。

    目前,關(guān)于商品評(píng)論的情感分析,主流方法有如下兩種:一種是通過(guò)人工構(gòu)建對(duì)應(yīng)的情感詞典,然后用規(guī)則詞典去完成情感分析。步驟是,首先需要通過(guò)人工構(gòu)建一系列的情緒詞典,然后去指定一些規(guī)則,通過(guò)構(gòu)建的詞典把文本中非結(jié)構(gòu)化的情緒特征提取出來(lái)。但人工構(gòu)建詞典會(huì)浪費(fèi)許多時(shí)間,在魯棒性方面表現(xiàn)很一般。另外一種就是通過(guò)機(jī)器學(xué)習(xí)算法來(lái)完成情感分類(lèi),人工標(biāo)注好實(shí)驗(yàn)數(shù)據(jù)集,然后運(yùn)用機(jī)器學(xué)習(xí)算法來(lái)提取文本的情感特征,最后完成文本的情感預(yù)測(cè)結(jié)果。主要的機(jī)器學(xué)習(xí)分類(lèi)算法有支持向量機(jī)(SVM)、決策樹(shù)等。這些算法雖然可以很簡(jiǎn)單快速地對(duì)文本進(jìn)行情感分類(lèi),但是在文本情感特征提取方面比較弱,而且忽略了文本上下的結(jié)構(gòu)關(guān)系。很難達(dá)到比較高的準(zhǔn)確率。

    近幾年,隨著深度學(xué)習(xí)的飛速發(fā)展,各類(lèi)的神經(jīng)網(wǎng)絡(luò)模型也被運(yùn)用于很多方面,在自然語(yǔ)言處理中也得到了廣泛的運(yùn)用。但是因?yàn)槲谋敬嬖谝欢ǖ目谡Z(yǔ)表達(dá),缺乏邏輯性,情感特征表現(xiàn)不明顯,而且很容易忽略文本上下文的結(jié)構(gòu)信息,因此深度學(xué)習(xí)方法雖然取得了不錯(cuò)的效果,但仍然存在一定的缺陷。

    為了解決以上問(wèn)題,該文提出一種基于多層注意力機(jī)制(SD-Attention),融合雙向門(mén)控循環(huán)網(wǎng)絡(luò)(BiGRU)的服裝電商評(píng)論情感分析模型(BiGRU-SD-Attention)。因?yàn)閷W(xué)術(shù)界缺乏現(xiàn)有的數(shù)據(jù)集,難以對(duì)模型的準(zhǔn)確性進(jìn)行驗(yàn)證。因此,該文首先采用了分布式爬蟲(chóng)框架從各大電商網(wǎng)站采集到服裝評(píng)論數(shù)據(jù)集,對(duì)數(shù)據(jù)集進(jìn)行清洗,通過(guò)gensim訓(xùn)練出文本專(zhuān)有的情感詞向量,對(duì)詞向量進(jìn)行一定的拼接并作為服裝電商評(píng)論情感模型的輸入。利用雙向門(mén)控循環(huán)網(wǎng)絡(luò)來(lái)提取文本的情感特征,并針對(duì)詞語(yǔ)級(jí)和句子級(jí)分別使用注意力機(jī)制,重新加權(quán)計(jì)算得到最后的情感特征權(quán)重,輸出分析結(jié)果并進(jìn)行可視化。實(shí)驗(yàn)結(jié)果表明,該模型相對(duì)目前的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)循環(huán)神經(jīng)網(wǎng)絡(luò)在各方面都取得了不錯(cuò)的效果,驗(yàn)證了模型的有效性。

    1 相關(guān)工作

    文本情感分類(lèi)任務(wù)主要是通過(guò)算法分析文本中蘊(yùn)含的情感傾向,來(lái)判斷用戶存在的主觀態(tài)度。最早期Pang在文本情感分類(lèi)方面,運(yùn)用人工構(gòu)建的詞袋模型來(lái)進(jìn)行研究。后續(xù)有研究人員嘗試設(shè)計(jì)更合理的詞典來(lái)提高情感分類(lèi)的準(zhǔn)確率,但是這些方法都是基于詞典規(guī)則的。Taboada等人根據(jù)不同的詞性構(gòu)建了不同強(qiáng)度的情感詞典,然后對(duì)文本中進(jìn)行加權(quán)得分最后實(shí)現(xiàn)文本情感分類(lèi)。肖紅等人通過(guò)人工構(gòu)建情感詞典,然后與文本句法相結(jié)合,最后運(yùn)用于網(wǎng)絡(luò)輿情的情感分析研究。楊鑫等人通過(guò)人工構(gòu)建民宿方面的情感詞典,來(lái)完成民宿評(píng)論的情感分析。

    為了解決傳統(tǒng)機(jī)器學(xué)習(xí)方法中構(gòu)建特征工程存在的問(wèn)題,人們開(kāi)始將深度學(xué)習(xí)方法運(yùn)用于文本情感分類(lèi)中。Hinton首次提出了詞向量的概念。主要對(duì)分詞處理后的文本,運(yùn)用對(duì)應(yīng)的映射關(guān)系,將文本詞語(yǔ)投影到低維向量空間,從而極大地保留了文本詞語(yǔ)之間的語(yǔ)義關(guān)系。Bengio實(shí)現(xiàn)了n-gram三層神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,Mikolov首次提出Word2Vec模型,還實(shí)現(xiàn)了CBOW方法。隨著詞向量的提出,極大地促進(jìn)了深度學(xué)習(xí)在自然語(yǔ)言處理文本情感分類(lèi)方面的運(yùn)用。如Kim等將卷積神經(jīng)網(wǎng)絡(luò)(CNN)運(yùn)用于電影評(píng)論文本的情感分析。雖然這些深度學(xué)習(xí)方法相比傳統(tǒng)的機(jī)器學(xué)習(xí)和人工構(gòu)建情感詞典的方法取得了不錯(cuò)的效果,但是也存在一定的缺陷。因?yàn)楹雎粤宋谋局g存在的上下文關(guān)系,無(wú)法獲取到文本的結(jié)構(gòu)信息。對(duì)此,Mikolov首次將循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)運(yùn)用于文本情感分類(lèi),取得了比CNN更好的效果,但是在處理時(shí)序性文本的時(shí)候,也會(huì)出現(xiàn)梯度爆炸、梯度消失等現(xiàn)象。Wang等在Twitter文本數(shù)據(jù)集上采用了LSTM網(wǎng)絡(luò)模型來(lái)進(jìn)行情感傾向的預(yù)測(cè)。

    注意力機(jī)制最先應(yīng)用在圖像處理方面。隨后Bahdanau等將注意力機(jī)制運(yùn)用于機(jī)器翻譯,Google也采用了這項(xiàng)技術(shù)。而后注意力機(jī)制得到了廣泛應(yīng)用,比如在關(guān)聯(lián)提取、命名體識(shí)別、文本摘要中都有不錯(cuò)的效果。

    深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)已經(jīng)在人工智能領(lǐng)域取得了不錯(cuò)的效果,但是作為算法模型驗(yàn)證的基礎(chǔ),一個(gè)良好的數(shù)據(jù)集,加上優(yōu)秀的算法模型,才能更好地解決遇到的各種實(shí)際問(wèn)題。針對(duì)目前學(xué)術(shù)界尚未存在公開(kāi)的服裝電商評(píng)論文本數(shù)據(jù)集的問(wèn)題,該文首先設(shè)計(jì)了一種分布式爬蟲(chóng)系統(tǒng),可以有效地從各類(lèi)電商網(wǎng)站采集到服裝評(píng)論文本,并經(jīng)過(guò)清洗處理制作成文本實(shí)驗(yàn)所需數(shù)據(jù)集。其次針對(duì)現(xiàn)有算法存在的缺陷,提出了一種融合多層注意力機(jī)制的電商服裝情感分類(lèi)模型(BiGRU-SD-Attention)。經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,得出該模型可以更有效地提取到評(píng)論文本中的情感傾向特征,通過(guò)多層注意力機(jī)制對(duì)這些情感特征加權(quán),達(dá)到提高準(zhǔn)確率的效果。

    2 研究?jī)?nèi)容及框架模型

    該文構(gòu)建的用于情感分析的模型結(jié)構(gòu)如圖1所示。

    該算法框架主要包含文本輸入層、多層情感特征提取層、多層注意力機(jī)制層和情感分析輸出層。

    2.1 文本輸入層

    對(duì)于文中算法模型,在學(xué)術(shù)界缺乏相關(guān)的服裝電商評(píng)論文本。而文本數(shù)據(jù)集作為算法模型最重要的部分,數(shù)據(jù)集的質(zhì)量往往對(duì)算法模型起著至關(guān)重要的作用。為了解決這一問(wèn)題,采用分布式爬蟲(chóng)技術(shù)從各類(lèi)服裝電商網(wǎng)站采集了眾多服裝電商評(píng)論文本,經(jīng)過(guò)清洗整理后,作為文中算法模型的驗(yàn)證數(shù)據(jù)集和輸入。

    因?yàn)榉b評(píng)論文本包含了人們?cè)u(píng)價(jià)的主觀色彩,具有很強(qiáng)的口語(yǔ)化,因此在使用文中算法模型訓(xùn)練的時(shí)候,需要將采集好的電商文本情感數(shù)據(jù)集進(jìn)行清洗。刪除掉重復(fù)文本,去掉停用詞及一些特除的符號(hào),然后分詞。如“這件、衣服、質(zhì)量、還不錯(cuò),手感、舒服、顏色、鮮艷”,將切分好的詞語(yǔ)文本進(jìn)行詞向量訓(xùn)練,通過(guò)Word2Vec模型生成服裝電商文本的詞向量,將獲取到的詞向量輸入到后續(xù)的詞編碼器。

    圖1 算法框架

    2.2 多層BiGRU特征提取層

    GRU作為L(zhǎng)STM的一種變體模型,取消了單元狀態(tài),通過(guò)隱藏狀態(tài)來(lái)傳遞信息。相對(duì)于LSTM更加簡(jiǎn)單高效,提高了訓(xùn)練的速度。BiGRU模型如圖2所示。

    圖2 BiGRU模型

    z

    =

    σ

    (

    x

    +

    h

    -1)

    (1)

    其中,

    x

    為輸入序列

    X

    的第

    t

    個(gè)分量,通過(guò)線性變換與矩陣相乘。

    h

    -1為前一時(shí)刻

    t

    -1的分量,通過(guò)線性變換與矩陣相乘,相加輸入到Sigmoid中并壓縮。更新門(mén)決定多少信息傳輸?shù)轿磥?lái)。

    r

    =

    σ

    (

    x

    +

    h

    -1)

    (2)

    重置門(mén)

    r

    與更新門(mén)一樣,

    x

    h

    -1通過(guò)線性變換與矩陣相乘然后相加。

    (3)

    x

    h

    -1通過(guò)線性變換,分別右乘矩陣和,然后計(jì)算與重置門(mén)的Hadamard乘積,該乘積決定需要保留和遺忘的信息。

    (4)

    最后需要計(jì)算

    h

    ,它表示當(dāng)前單元信息傳遞到下一個(gè)單元。

    z

    為更新門(mén)的激活結(jié)果,它同樣控制了信息的輸入。

    (5)

    GRU作為一種前向傳播算法,但是單向傳播忽略了反向的特征信息,因此本模型針對(duì)服裝電商評(píng)論文本的特殊性,采用了雙向的GRU算法Bi-GRU作為提取到文本的前后有用信息。

    2.3 多層注意力機(jī)制層

    該文將采集好的服裝電商評(píng)論文本數(shù)據(jù)集,按照詞語(yǔ)級(jí)別和句子級(jí)別進(jìn)行劃分,然后分別對(duì)詞語(yǔ)級(jí)別和句子級(jí)別使用注意力機(jī)制,通過(guò)不斷的調(diào)整計(jì)算,分權(quán)求和,最后求出最終影響較大的權(quán)重特征,有效提高了情感分類(lèi)的準(zhǔn)確效果。

    基于詞語(yǔ)級(jí)別的注意力機(jī)制的具體流程如下所示:

    u

    =tanh(

    W

    h

    +

    b

    )

    (6)

    (7)

    s

    α

    h

    (8)

    式(6)中的

    u

    表示為BiGRU輸出

    h

    的隱藏單元,然后通過(guò)式(7)中softmax歸一化得到更新后的權(quán)重系數(shù)

    α

    。

    u

    是一個(gè)初始訓(xùn)練參數(shù),

    s

    是最后得到第

    i

    個(gè)句子的向量。

    基于句子級(jí)別的注意力機(jī)制的具體流程如下所示:

    u

    =tanh(

    W

    h

    +

    b

    )

    (9)

    (10)

    v

    α

    h

    (11)

    在句子級(jí)別方面,式(9)~式(11)計(jì)算方式類(lèi)似于上面,最后通過(guò)雙層的注意力機(jī)制,輸出得到最終整條評(píng)論基于單詞和句子文本的情感特征向量

    v

    。

    2.4 情感分類(lèi)輸出層

    服裝文本情感向量

    v

    是文本的高級(jí)表示方法,在向量

    v

    上通過(guò)式(12)softmax分類(lèi)輸出服裝電商評(píng)論文本的最后情感傾向。

    p

    =softmax(

    W

    v

    +

    b

    )

    (12)

    與其對(duì)應(yīng)的損失函數(shù)如式(13)所示:

    L

    =-∑log

    p

    (13)

    3 實(shí)驗(yàn)設(shè)計(jì)與分析

    3.1 實(shí)驗(yàn)環(huán)境設(shè)置

    實(shí)驗(yàn)環(huán)境配置如表1所示。

    表1 實(shí)驗(yàn)環(huán)境配置

    3.2 實(shí)驗(yàn)流程

    實(shí)驗(yàn)流程如圖3所示。

    圖3 實(shí)驗(yàn)流程

    3.2.1 數(shù)據(jù)的獲取和處理

    數(shù)據(jù)的獲取和預(yù)處理作為算法模型的第一步,任何一個(gè)算法模型的訓(xùn)練都離不開(kāi)基礎(chǔ)數(shù)據(jù)的獲取和處理。而文中的算法模型,服裝電商評(píng)論文本情感分析,現(xiàn)有的學(xué)術(shù)界難以找到存在的相關(guān)數(shù)據(jù)集。為了驗(yàn)證算法模型的有效性,文中利用相關(guān)技術(shù),從服裝電商網(wǎng)站采集了相關(guān)的服裝電商評(píng)論文本數(shù)據(jù)。

    首先搭建了一個(gè)分布式爬蟲(chóng)系統(tǒng),通過(guò)本系統(tǒng)的相關(guān)功能,從主流電商平臺(tái)爬取了關(guān)于電商服裝的評(píng)論。各類(lèi)電商網(wǎng)站,為了防止惡意訪問(wèn)和采集數(shù)據(jù),也設(shè)置了一定的反爬蟲(chóng)措施,禁止同一時(shí)刻多次采集網(wǎng)站內(nèi)容,從而影響了服裝電商評(píng)論文本數(shù)據(jù)的采集效率。文中的分布式爬蟲(chóng)系統(tǒng),通過(guò)設(shè)置IP代理池,偽造請(qǐng)求頭,采用分布式Redis緩存,可以高效采集文本數(shù)據(jù)集。

    經(jīng)過(guò)人工刪除部分重復(fù)的評(píng)論和少數(shù)沒(méi)有情感傾向的評(píng)論,最終收集到服裝電商評(píng)論文本10 000條。通過(guò)人工對(duì)采集好的服裝電商文本進(jìn)行簡(jiǎn)單的標(biāo)注。Pos、Neg傾向分別標(biāo)注為1、0。最后根據(jù)實(shí)驗(yàn)需要,劃分好數(shù)據(jù)比例,如表2所示。

    表2 商品評(píng)論數(shù)據(jù)集劃分

    而電商文本通常具有一定的口語(yǔ)化特征,也會(huì)融入一些特殊的字符和表情符號(hào),例如,好評(píng):“面料不錯(cuò),穿起來(lái)很舒服,夏天穿著很涼爽”,差評(píng):“質(zhì)量不是一般的差,褪色粘毛,還起球”。在算法模型訓(xùn)練之前需要對(duì)這些電商文本進(jìn)行預(yù)處理。去掉重復(fù)字、繁體字及特殊字符,劃分好服裝電商評(píng)論文本,然后用jieba進(jìn)行分詞,用Word2Vec訓(xùn)練文本的情感詞向量,作為后續(xù)算法模型的輸入。

    3.2.2 模型的訓(xùn)練與參數(shù)設(shè)置

    本模型是在PyCharm開(kāi)發(fā)工具上面,基于TensorFlow深度學(xué)習(xí)框架搭建的服裝商品評(píng)論模型。通過(guò)清洗、劃分、訓(xùn)練詞向量,輸入到本文構(gòu)建的服裝商品評(píng)論模型中。訓(xùn)練過(guò)程中,為了使得模型訓(xùn)練參數(shù)最優(yōu),模型最后輸出結(jié)果最佳,采用了網(wǎng)格調(diào)參法。

    為了得到更好的模型參數(shù),對(duì)采集到的服裝電商評(píng)論文本做了簡(jiǎn)單的分析,如圖4所示。

    圖4 服裝文本數(shù)據(jù)長(zhǎng)度分布

    根據(jù)文本數(shù)據(jù)長(zhǎng)度得知,當(dāng)選取長(zhǎng)度為42時(shí),可以覆蓋91%的長(zhǎng)度文本。具體的參數(shù)設(shè)置如表3所示。

    表3 模型參數(shù)設(shè)置

    最后根據(jù)模型在驗(yàn)證集上的效果,來(lái)決定是否進(jìn)行下一次迭代。

    3.2.3 實(shí)驗(yàn)結(jié)果分析

    在模型驗(yàn)證過(guò)程中,設(shè)置了對(duì)比實(shí)驗(yàn)。分別采用SVM、LSTM、BILSTM、BiLSM-Attention與文中提出的基于多層注意力機(jī)制的BiGRU-SD-Attention進(jìn)行對(duì)比。在服裝電商評(píng)論文本分類(lèi)過(guò)程中,為了驗(yàn)證模型的優(yōu)劣,主要采用精確率(Precision)、準(zhǔn)確率(Accuracy)、召回率(Recall)和F1值(F1-score)作為評(píng)價(jià)指標(biāo),結(jié)果如表4所示。

    表4 實(shí)驗(yàn)結(jié)果比較 %

    根據(jù)表4的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析對(duì)比:

    (1)基于深度學(xué)習(xí)的循環(huán)神經(jīng)網(wǎng)絡(luò)模型LSTM、BILSTM對(duì)比機(jī)器學(xué)習(xí)模型SVM在性能上有了顯著的提升,考慮了服裝電商文本存在一定的時(shí)序性,因此證明循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)比傳統(tǒng)的機(jī)器學(xué)習(xí)算法在性能上有了不錯(cuò)的提升。

    (2)加入注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)Attention-BILSTM相比LSTM、BILSTM在性能上有了顯著的提升。因?yàn)樽⒁饬C(jī)制的引入,可以更好地分配不同詞語(yǔ)特征之間的特征權(quán)重,從而得到更加準(zhǔn)確的服裝電商評(píng)論文本的最終情感傾向,進(jìn)一步證明了注意力機(jī)制在本算法模型中的有效性。

    (3)文中提出的基于多層注意力機(jī)制的BiGRU-SD-Attention模型,既考慮了服裝電商文本的時(shí)序性,融入了BiGRU門(mén)控循環(huán)網(wǎng)絡(luò),又考慮了在不同層次之間情感特征權(quán)重的不同,在詞語(yǔ)級(jí)別和句子級(jí)別分別引入了Attention注意力機(jī)制。最終的實(shí)驗(yàn)結(jié)果也很理想,其中準(zhǔn)確率達(dá)到了94.23%,相比其他算法有了顯著的提升??梢愿玫亟鉀Q文中提出的服裝電商評(píng)論文本情感分析問(wèn)題。因此,BiGRU-SD-Attention模型對(duì)比其他的算法模型取得了較高的性能提升和不錯(cuò)的效果。

    3.3 實(shí)驗(yàn)結(jié)果可視化

    為了驗(yàn)證模型算法的可靠性,將部分驗(yàn)證集的服裝電商文本權(quán)重特征進(jìn)行了可視化。通過(guò)不同的顏色深度反映在注意力權(quán)重計(jì)算中不同情感特征的影響力。顏色越深代表影響越重,反之如此。從圖5可以看出,對(duì)于積極和消極影響權(quán)重較大的詞語(yǔ)都做了標(biāo)注,由此驗(yàn)證了BiGRU-SD-Attention模型的有效性。

    圖5 注意力機(jī)制情感特征可視化

    4 結(jié)束語(yǔ)

    針對(duì)傳統(tǒng)的機(jī)器學(xué)習(xí)分類(lèi)方法存在文本特征提取不足的缺陷,該文提出一種基于多層注意力機(jī)制的BiGRU-SD-Attention模型。通過(guò)實(shí)驗(yàn)表明,經(jīng)過(guò)分布式爬蟲(chóng)采取到的數(shù)據(jù)集,通過(guò)預(yù)處理訓(xùn)練出來(lái)的詞向量,通過(guò)雙向門(mén)控網(wǎng)絡(luò)來(lái)提取特征,最后融入注意力機(jī)制來(lái)提高重要特征的權(quán)重,進(jìn)行電商文本的情感分類(lèi),得到了不錯(cuò)的效果。

    猜你喜歡
    注意力向量服裝
    向量的分解
    讓注意力“飛”回來(lái)
    讓人心碎的服裝
    聚焦“向量與三角”創(chuàng)新題
    “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
    現(xiàn)在可以入手的mina風(fēng)高性?xún)r(jià)比服裝
    A Beautiful Way Of Looking At Things
    向量垂直在解析幾何中的應(yīng)用
    向量五種“變身” 玩轉(zhuǎn)圓錐曲線
    服裝家紡個(gè)股表現(xiàn)
    浙江省| 蒙阴县| 资中县| 曲阳县| 涿州市| 长沙市| 吴堡县| 綦江县| 义乌市| 区。| 南靖县| 赤峰市| 集贤县| 胶州市| 施甸县| 巴中市| 许昌市| 香格里拉县| 青田县| 进贤县| 咸丰县| 江安县| 牡丹江市| 丰顺县| 恩施市| 横山县| 进贤县| 株洲市| 东安县| 准格尔旗| 项城市| 涟水县| 桂阳县| 城固县| 常山县| 江安县| 肃南| 焦作市| 五常市| 麻栗坡县| 尉犁县|