• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    Python自然語(yǔ)言處理方法在文本情感分析中的應(yīng)用

    2020-02-22 03:35:44張永成王懷彬
    電腦知識(shí)與技術(shù) 2020年36期
    關(guān)鍵詞:自然語(yǔ)言處理情感分析深度學(xué)習(xí)

    張永成 王懷彬

    摘要:文本情感分析又被稱(chēng)之為意見(jiàn)挖掘,其基本原理是利用自然語(yǔ)言處理方法、文本挖掘方法以及計(jì)算機(jī)語(yǔ)言學(xué)方法等,對(duì)需要挖掘的主觀(guān)信息進(jìn)行識(shí)別和提取。通過(guò)開(kāi)展Python自然語(yǔ)言處理方法在文本情感分析中的應(yīng)用研究,從基于Python自然語(yǔ)言處理的文本預(yù)處理、文本情感特征降維、文本情感分類(lèi),提出一種全新的文本情感分析方法。通過(guò)實(shí)驗(yàn)證明,該方法與傳統(tǒng)文本情感分析方法相比可有效降低對(duì)文本的判錯(cuò)率,保證最終情感分析的準(zhǔn)確性,以期為Python自然語(yǔ)言處理方法的廣泛應(yīng)用提供新的路徑。

    關(guān)鍵詞:深度學(xué)習(xí);自然語(yǔ)言處理;情感分析;Python

    中圖分類(lèi)號(hào):TP181? ? 文獻(xiàn)標(biāo)識(shí)碼:A

    文章編號(hào):1009-3044(2020)36-0087-02

    文本情感分析是對(duì)帶有情感色彩的主觀(guān)性文本進(jìn)行分析、處理、推理等操作。文本情感分析自提出以來(lái),受到了極大的關(guān)注,雖然在提出之前,該領(lǐng)域研究人員便已對(duì)情感分析進(jìn)行了深入的 研究,但由于當(dāng)時(shí)互聯(lián)網(wǎng)并未得到廣泛的應(yīng)用,因此可以進(jìn)行分析的數(shù)據(jù)量較少,所以當(dāng)時(shí)情感分析并未得到大規(guī)模的研究。大數(shù)據(jù)時(shí)代的到來(lái),使得網(wǎng)絡(luò)環(huán)境中的信息量不斷增加,如何更加便捷地從海量的文本當(dāng)中挖掘出更加有意義的信息,是當(dāng)前情感分析領(lǐng)域中最受關(guān)注的研究話(huà)題。Python自然語(yǔ)言處理方法與其他情感分析技術(shù)相比,具有易學(xué)、易讀和易維護(hù)的優(yōu)勢(shì),針對(duì)海量的文本信息進(jìn)行分析可以在保證傳統(tǒng)編譯語(yǔ)言的強(qiáng)大性以及通用性的基礎(chǔ)上,借鑒更加簡(jiǎn)單的腳本與解釋語(yǔ)言的易用性[1]。除此之外,Python自然語(yǔ)言處理方法還具有網(wǎng)絡(luò)爬蟲(chóng)功能以及強(qiáng)大的數(shù)據(jù)分析功能,將大多數(shù)編程語(yǔ)言融為一體。雖然其算法的本質(zhì)仍然是采用傳統(tǒng)神經(jīng)網(wǎng)絡(luò)或機(jī)器學(xué)習(xí),但從應(yīng)用角度可以看出,其在實(shí)際應(yīng)用中操作更加簡(jiǎn)單,并且更加容易產(chǎn)生結(jié)果。綜合上述分析,本文基于Python自然語(yǔ)言處理,提出一種全新的文本情感分析方法。

    1 基于Python自然語(yǔ)言處理的文本情感分析方法

    1.1 基于Python自然語(yǔ)言處理的文本預(yù)處理

    在對(duì)海量文本信息進(jìn)行情感分析時(shí),第一步要對(duì)文本進(jìn)行預(yù)處理,基本操作步驟是對(duì)文本信息當(dāng)中所有包含詞匯進(jìn)行劃分,并在劃分階段采用Python自然語(yǔ)言處理方法實(shí)現(xiàn)。Python自然語(yǔ)言處理可實(shí)現(xiàn)對(duì)文本分詞、句法分析、語(yǔ)義分析以及篇章分析等功能,與字符相比,詞是最小可以進(jìn)行獨(dú)立活動(dòng),并且含有一定意義的文本組成成分。因此,本文在對(duì)文本進(jìn)行預(yù)處理時(shí),采用將文本信息劃分為多個(gè)詞的形式,針對(duì)文本信息中的分詞預(yù)處理可分為人工分詞和機(jī)械分詞兩種,但由于傳統(tǒng)人工分詞會(huì)出現(xiàn)效率低、速度慢的問(wèn)題[2]。因此,本文采用機(jī)械分詞方法,結(jié)合計(jì)算機(jī)技術(shù)實(shí)現(xiàn)對(duì)文本的自動(dòng)分詞。利用Python自然語(yǔ)言處理中的字符串匹配分詞,將文本中一串完整的字符串最長(zhǎng)詞條包含字符數(shù)量為x個(gè),將其進(jìn)行正向最大匹配,并進(jìn)行分詞預(yù)處理,按照從左到右的順序提出x個(gè)字符,并將這x個(gè)字符看作是一個(gè)字符串,與對(duì)應(yīng)的文本進(jìn)行比較。若該字符串當(dāng)中所有字符均與相應(yīng)的文本匹配,則說(shuō)明通過(guò)將文本詞條分離處理后的詞條為分詞結(jié)果[3]。再?gòu)脑~條的第x個(gè)字符之后的一個(gè)字符開(kāi)始,按照從左至右的順序,再次尋找x個(gè)字符,并將尋找到的字符組成一個(gè)詞條,再重新進(jìn)行上述匹配操作。若匹配未成功,則將這一組x個(gè)字符組成詞條,并將最后一個(gè)字符去掉。再?gòu)脑~條的第x個(gè)字符前一個(gè)字符開(kāi)始,重復(fù)上述操作進(jìn)行匹配,直到完成對(duì)文本中所有詞差分為止[4]。針對(duì)存在兩個(gè)或多個(gè)詞條的互現(xiàn)文本,對(duì)其詞條的共同出現(xiàn)概率可用公式(1)表示:

    公式(1)中,L(M1,M2)表示為文本當(dāng)中詞語(yǔ)M1和詞語(yǔ)M2出現(xiàn)相鄰情況時(shí)的概率;L(M1)表示為詞M1在語(yǔ)料庫(kù)當(dāng)中出現(xiàn)的次數(shù);L(M2)表示為詞M2在語(yǔ)料庫(kù)當(dāng)中出現(xiàn)的次數(shù)。根據(jù)公式(1)計(jì)算得出的結(jié)果可以充分將兩個(gè)或多個(gè)詞條之間的緊密程度反映。當(dāng)?shù)贸龅挠?jì)算結(jié)果越高,說(shuō)明該字符串能夠構(gòu)成一組完成詞語(yǔ)的概率越大。

    1.2 文本情感特征降維

    利用Python自然語(yǔ)言處理完成對(duì)文本的預(yù)處理后,還需要對(duì)文本中的情感特征進(jìn)行降維,通常情況下,對(duì)文本進(jìn)行詞條分類(lèi)時(shí),需要將每個(gè)詞條看作是一個(gè)維度,因此對(duì)于篇幅較長(zhǎng)、詞條較多的文本,經(jīng)過(guò)處理后會(huì)形成一個(gè)維度較高的特征空間[5]。通過(guò)文本情感特征降維可以有效提高分類(lèi)算法的效率并將受到外界環(huán)境噪聲的影響降到最低,使最終的分類(lèi)準(zhǔn)確度更高。根據(jù)卡方統(tǒng)計(jì)量計(jì)算公式,按照統(tǒng)計(jì)量衡量詞條與情感標(biāo)簽之間存在的關(guān)聯(lián)度,得出其公式如下:

    公式(2)中,[χ2]表示統(tǒng)計(jì)量;[ai]表示為衡量詞條;[Dj]表示為情感分類(lèi)標(biāo)簽;[N]表示為訓(xùn)練文本當(dāng)中共包含的文本量;[S]表示為包含在情感分類(lèi)標(biāo)簽[Dj]并同時(shí)文本中也有詞條[ai]的文檔數(shù)量;[T]表示為不包含在情感分類(lèi)標(biāo)簽[Dj]但文本中有詞條[ai]的文檔數(shù)量;[U]表示為包含在情感分類(lèi)標(biāo)簽[Dj]但文本中沒(méi)有詞條[ai]的文檔數(shù)量;V表示為不包含在情感分類(lèi)標(biāo)簽[Dj]并且文本中也沒(méi)有詞條[ai]的文檔數(shù)量。假設(shè)在計(jì)算過(guò)程中詞條[ai]與情感分類(lèi)標(biāo)簽[Dj]二者均滿(mǎn)足有一階自由度的[χ2]分布,則通過(guò)公式(2)得出的結(jié)果數(shù)值大,則表示詞條與情感分類(lèi)標(biāo)簽之間的關(guān)聯(lián)程度大,其中攜帶的信息量也較多。反之,說(shuō)明該詞條與該類(lèi)的關(guān)聯(lián)程度小,所攜帶的該類(lèi)別的信息量少。

    1.3 文本情感分類(lèi)

    在本文提出的基于Python自然語(yǔ)言處理的文本情感分析方法中,文本情感分類(lèi)是影響最終分析結(jié)果的主要因素,本文采用最簡(jiǎn)單、最基本的K近鄰分類(lèi)算法作為本文分析方法中的文本情感分類(lèi)算法[6]。結(jié)合概率統(tǒng)計(jì)算法,對(duì)文本進(jìn)行情感分類(lèi),利用得出的結(jié)果對(duì)各個(gè)待分析的本文所屬情感類(lèi)別可能性進(jìn)行預(yù)測(cè)。最終根據(jù)計(jì)算結(jié)果得出數(shù)值最大的情感類(lèi)別作為最終結(jié)果。假設(shè),給定一個(gè)已經(jīng)完成降維處理后的文本測(cè)試數(shù)據(jù)集。定義一種距離的度量方式,并在訓(xùn)練過(guò)程中查找出距離最近的K個(gè)訓(xùn)練樣本。則在這K個(gè)訓(xùn)練樣本當(dāng)中,某一類(lèi)的訓(xùn)練樣本最多,根據(jù)概率統(tǒng)計(jì)將輸入的訓(xùn)練樣本歸為一個(gè)情感分類(lèi)標(biāo)簽[7]。具體計(jì)算過(guò)程為:第一步,輸入訓(xùn)練文文本測(cè)試數(shù)據(jù)集:Q={(a1,d1),(a2,d2),…,(an,dn)},其中a∈A表示為輸入訓(xùn)練文本中的特征向量,d∈D表示為所屬情感類(lèi)別。第二步,輸出與訓(xùn)練文本a相對(duì)應(yīng)的情感類(lèi)別d。第三步,根據(jù)分類(lèi)前事先給定的計(jì)算距離數(shù)值,在文本測(cè)試數(shù)據(jù)集當(dāng)中找出與設(shè)定距離最近的K個(gè)點(diǎn),將覆蓋所有點(diǎn)的區(qū)間定義為a的領(lǐng)域。第四步,在a的領(lǐng)域當(dāng)中根據(jù)投票規(guī)則,按照少數(shù)服從多數(shù),判斷a所述的情感類(lèi)別。第五步,由輸入的訓(xùn)練文本的K個(gè)鄰近訓(xùn)練文本中的大多數(shù)決定所述的情感標(biāo)簽,實(shí)現(xiàn)文本情感分類(lèi)。

    2 實(shí)驗(yàn)論證分析

    選取某部電影的評(píng)論詞條組成一個(gè)完整的文本,將該文本作為實(shí)驗(yàn)對(duì)象,實(shí)驗(yàn)對(duì)象中字符為2434個(gè),需要進(jìn)行分析的字符為1200個(gè)。分別利用傳統(tǒng)文本情感分析方法與本文提出的基于Python自然語(yǔ)言處理的文本情感分析方法對(duì)該文本進(jìn)行情感分析。針對(duì)電影文本當(dāng)中主體的特殊性以及機(jī)器分析的機(jī)械性,為保證實(shí)驗(yàn)結(jié)果的有效性,利用兩種方法分析時(shí),將文本中“一個(gè)”這樣類(lèi)似的無(wú)效詞匯自動(dòng)屏蔽。將兩種分析方法得到的結(jié)果進(jìn)行記錄,并繪制成如表1所示的實(shí)驗(yàn)結(jié)果對(duì)比表。

    由表1可以看出,本文方法與傳統(tǒng)方法在對(duì)含有1200個(gè)字符的文本進(jìn)行情感分析時(shí),隨著字符數(shù)的增加,兩種方法判錯(cuò)率均隨著字符數(shù)的增加而表現(xiàn)出降低的趨勢(shì)。但從整體來(lái)看,本文在對(duì)1200個(gè)字符的文本進(jìn)行情感分析時(shí)判錯(cuò)字符量明顯少于傳統(tǒng)方法,并且在對(duì)600個(gè)字符進(jìn)行分析后,基本可以實(shí)現(xiàn)準(zhǔn)確的判斷與分析。因此,通過(guò)實(shí)驗(yàn)證明,本文提出的基于Python自然語(yǔ)言處理的文本情感分析方法判錯(cuò)率更低,對(duì)文本情感分析準(zhǔn)確,并且隨著文本中的字符數(shù)增加,分析更準(zhǔn)確。

    3 結(jié)束語(yǔ)

    本文結(jié)合Python自然語(yǔ)言處理方法,提出了一種全新的文本情感分析方法,在實(shí)際應(yīng)用中可以在一定程度上,有效降低在文本分詞過(guò)程中信息的缺失程度,提高最終分析結(jié)果的準(zhǔn)確性。但本文采用了K近鄰分類(lèi)算法在實(shí)際應(yīng)用中會(huì)受到K值選擇、文本長(zhǎng)度等因素的影響,仍然存在分析受到影響的情況。利用機(jī)器處理實(shí)現(xiàn)對(duì)文本情感分析仍然是從數(shù)學(xué)統(tǒng)計(jì)的角度融合自然語(yǔ)言處理,而情感是一個(gè)十分復(fù)雜的研究課題。因此,在后續(xù)的研究中還將針對(duì)機(jī)器對(duì)人類(lèi)情感深入、細(xì)膩的把握與分析進(jìn)行更加深入的研究,并采取更加精確的分類(lèi)算法,實(shí)現(xiàn)對(duì)文本的無(wú)判錯(cuò)情感分析。

    參考文獻(xiàn):

    [1] 陳珂,梁斌,左敬龍,等.一種用于中文微博情感分析的多粒度門(mén)控卷積神經(jīng)網(wǎng)絡(luò)[J].鄭州大學(xué)學(xué)報(bào)(理學(xué)版),2020,52(3):21-26,33.

    [2] 徐紅霞,于倩倩,錢(qián)力. 基于主題模型和情感分析的話(huà)題交互數(shù)據(jù)觀(guān)點(diǎn)對(duì)抗性分析[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2020,42(7):110-117.

    [3] 楊秀璋,武帥,夏換,等.基于主題挖掘和情感分析的 “新冠肺炎疫情” 輿情分析研究[J].計(jì)算機(jī)時(shí)代,2020(8):31-36.

    [4] 成永坤,朱菊芳,牟向前. 滑雪游客的產(chǎn)品認(rèn)知、情感表達(dá)及滿(mǎn)意度——基于網(wǎng)絡(luò)評(píng)價(jià)文本分析[J].體育成人教育學(xué)刊,2020,36(4):15-21.

    [5] 楊莉,王敏,程宇.基于LDA和XGBoost模型的環(huán)境公共服務(wù)微博情感分析[J].南京郵電大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2019,21(6):23-39.

    [6] 李佳晶,尹華光. 基于網(wǎng)絡(luò)文本分析的張家界市旅游酒店游客生態(tài)文化感知研究[J].旅游縱覽(下半月),2019,31(12):62-64,67.

    [7] 劉惠,趙海清.基于TF-IDF和LDA主題模型的電影短評(píng)文本情感分析 ——以《少年的你》為例[J].現(xiàn)代電影技術(shù),2020(3):42-46.

    【通聯(lián)編輯:梁書(shū)】

    猜你喜歡
    自然語(yǔ)言處理情感分析深度學(xué)習(xí)
    基于組合分類(lèi)算法的源代碼注釋質(zhì)量評(píng)估方法
    基于SVM的產(chǎn)品評(píng)論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
    基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
    在線(xiàn)評(píng)論情感屬性的動(dòng)態(tài)變化
    MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
    大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
    深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
    基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
    軟件工程(2016年8期)2016-10-25 15:47:34
    面向機(jī)器人導(dǎo)航的漢語(yǔ)路徑自然語(yǔ)言組塊分析方法研究
    文本觀(guān)點(diǎn)挖掘和情感分析的研究
    大姚县| 南和县| 迁安市| 奉节县| 嘉义市| 安西县| 新河县| 屯昌县| 太康县| 莲花县| 敖汉旗| 洮南市| 淮南市| 逊克县| 星子县| 吐鲁番市| 永靖县| 长武县| 大足县| 大关县| 开江县| 琼海市| 龙里县| 高唐县| 高要市| 南乐县| 麻城市| 靖江市| 赞皇县| 拜城县| 射洪县| 缙云县| 沁水县| 紫金县| 灵寿县| 宿迁市| 渝北区| 闸北区| 延长县| 山东省| 惠水县|