• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于卷積神經網絡的輿情觸發(fā)詞解析方法*

      2021-08-06 08:05:36李陽陽王亞珅
      科技與創(chuàng)新 2021年14期
      關鍵詞:分類器輿情解析

      李陽陽,王亞珅,金 昊

      (中國電子科技集團公司電子科學研究院,北京100041)

      1 背景

      輿情,全稱“輿論情況”,是指在一定的社會空間內,圍繞中介性社會事件的發(fā)生、發(fā)展和變化,作為主體的民眾對作為客體的社會管理者、企業(yè)、個人及其他各類組織及其政治、社會、道德等方面的取向產生和持有的社會態(tài)度。簡而言之,“輿情”一詞是中國特有的表述,是大多數民眾對待某一社會事件所持的社會態(tài)度。其中,網絡輿情是現(xiàn)代信息社會的一種主要的輿情類型。在網絡環(huán)境下,這類輿情信息的主要來源是各種主流社交媒體諸如微博、論壇和貼吧等,具有自由性、交互性、多元性、偏差性和突發(fā)性等特點[1]。

      隨著中國互聯(lián)網的普及與高速發(fā)展,輿情監(jiān)測工作已經成為政府和企業(yè)工作內容中不可或缺的一部分。2006年,黨的十六屆六中全會通過的《關于構建社會主義和諧社會若干重大問題的決定》中明確指出:“堅持正確導向,營造積極健康的思想輿論氛圍。正確的思想輿論導向是促進社會和諧的重要因素。新聞出版、廣播影視、文學藝術、社會科學,要堅持正確導向”?!凹訌妼ヂ?lián)網等的應用和管理,理順管理體制,倡導文明辦網、文明上網,使各類新興媒體成為促進社會和諧的重要陣地。”可見輿情的監(jiān)測與管理對于和諧社會建設的重要意義,也可以看出,在互聯(lián)網時代,對網絡輿情進行監(jiān)測是政府及時體察社情民意、準確把控輿情走向、快速處理突發(fā)事件的必要手段。于企業(yè)而言,第一時間掌握和了解企業(yè)相關的負面熱點信息尤為必要。對企業(yè)相關負面輿情進行監(jiān)測,并對異常情況進行預警,有利于及時獲取和處理企業(yè)的負面信息,維護企業(yè)的健康良好形象。

      在現(xiàn)代信息社會,輿情管理存在四個主要問題,分別是缺乏預警性、缺乏系統(tǒng)機制、具有嚴重的滯后性和缺乏影響力。其中提高預警性是加強輿情監(jiān)管的首要問題,也是建立一套輿情監(jiān)測系統(tǒng)的前提。而提高預警性的首要任務是能夠準確獲取輿情信息,并對其進行分析,進而對輿情民意的趨勢進行研判。在全媒體時代如何高效及時準確地從網絡上魚龍混雜的信息中獲取輿情信息,并對其進行解析是一個不小的挑戰(zhàn)。

      2 相關工作

      輿情是大多數民眾對待某一社會事件所持的社會態(tài)度,從而可以看出,輿情是社會事件引發(fā)的。想要準確的獲取輿情,核心是抓住文本信息中關鍵的事件以及該事件的觸發(fā)詞。

      在目前國內外的研究中,對輿情的事件觸發(fā)研究并不多。大多數關于輿情的研究都停留在對已出現(xiàn)的輿情的分析和總結上,即針對一個已經產生影響的輿情事件,從它的傳播特點和規(guī)模角度出發(fā),去總結歸納得到輿情的規(guī)律,然而這種思路本身就具有滯后性和過于泛化的缺點。想要具有預警性地監(jiān)測和辨別輿情信息,從輿情事件觸發(fā)詞角度出發(fā),進行識別和解析,是一種全新的思路。

      要對輿情事件的事件觸發(fā)詞進行解析,首先需要明確事件的定義,自動內容抽?。ˋutomatic Content Extraction,ACE)評測會議對事件[3]的定義為:事件是指發(fā)生了的事情,包含直接引起事件發(fā)生的觸發(fā)詞和事件的參與者。

      以人民網輿論版塊上的一條新聞(簡化版)進行說明:“六千人員信息泄露引發(fā)社會關注”。我們的目標是對上述文本信息中事件觸發(fā)詞進行識別,判斷該文本信息中每個詞語成為觸發(fā)詞的概率,進而對該事件進行抽取,以達到解析輿情信息的目的。

      近年來,在信息識別抽取的研究領域,對事件的抽取引發(fā)許多關注。HAI等提出采用最大熵模型進行事件抽取[8];AHN等提出的MAXENT方法使用了MEGAM等分類器[9];SAHA則使用支持向量機分類器對生物醫(yī)學事件進行檢測[10]。這一類方法主要是將事件抽取視作多分類問題,使用不同的分類器進行特征的提取,但是其學習能力較差,模型難以泛化。GRISHMAN提出基于模式匹配和分類器的事件抽取系統(tǒng)ACEJET[11];KIM提出將WORDNET語義數據庫與模式獲取相結合的方法[12]。這類方法主要是基于預先定義的模式匹配,應用范圍相對比較固定。之后,NGUYEN等[13]和CHEN等[14]提出將卷積神經網絡(CNN)應用到事件檢測和抽取的任務中,NGUYEN等使用CNN自動挖掘隱含特征[13],可以大大降低誤傳率;CHEN等提出了動態(tài)多池卷積神經網絡模型(DMCNN)[14],可以同時對多個事件進行檢測,并達到了不錯的效果。將事件抽取的方法對輿情的觸發(fā)詞進行研究和解析是從大數據時代海量信息中捕捉輿情信息的一種新型有效的研究思路。本文擬提出一種新的事件檢測模型,將卷積神經網絡CNN與分類器進行結合,從而進一步提高事件檢測的準確性。

      3 方法

      本文主要介紹一種基于卷積神經網絡模型的輿情觸發(fā)詞解析方法,整體流程結構如圖1所示。

      圖1 基于卷積神經網絡模型整體流程結構圖

      本方法主要包括四個部分,分別是特征的選取、多卷積融合、最大值池化和觸發(fā)詞分類。在選取特征之前,需要對信息進行分詞的預處理,以便進行特征的選取和嵌入。接下來,本文就方法的處理順序以事件“六千人員信息泄露引發(fā)社會關注”為例依次介紹說明,如圖2所示。

      圖2 基于卷積神經網絡模型方法

      3.1 特征的選取

      對于已經預處理完成的文本信息,M={m1,m2,m3,…,mn}需要在這一步驟進行重要特征的提取。本方法中,主要使用以下四種方法依次對文本信息進行處理,擬從四個維度去盡可能全面而準確地捕獲輿情事件中觸發(fā)詞的特征。

      3.1.1 詞嵌入特征

      文本嵌入特征(Word Embedding),是處理文本信息的所有方式中最普遍、應用范圍最廣的一種。本方法使用詞嵌入特征下已經訓練好的GloVe模型對文本信息進行訓練,將訓練得到的特征作為基本特征。

      3.1.2 實體嵌入特征

      現(xiàn)有的研究表明,數據庫中的文本信息往往附帶有人工標注的實體信息。本方法對所有帶有的人工標注的實體信息進行實體特征嵌入,并在每次訓練過程中對實體信息進行隨機初始化和更新,將得到的特征作為本方法中的附加特征。

      3.1.3 位置嵌入特征

      詞語的位置信息也是捕獲輿情事件觸發(fā)詞的關鍵所在,可以作為一種語義信息進行訓練和提取。對文本的詞語位置進行逐一的處理和嵌入,訓練完成后得到本方法的位置特征。

      3.1.4 詞性嵌入特征

      觸發(fā)詞的詞性往往比較固定,通常是動詞和動名詞。對文本中詞性的抓取是獲取觸發(fā)詞的重要手段之一。本方法對句子中的詞語的詞性進行標注處理和嵌入,訓練完成后得到本方法的詞性特征。

      經過以上四個特征嵌入的操作,將分別訓練得到的基本特征、附加特征、位置特征和詞性特征進行合并,得到一個四維的向量E∈R4×n。

      3.2 多卷積融合

      這一步需要對已經提取好的特征向量進行多卷積融合處理。即在每個卷積層都包含一個濾波器w,逐一與特征向量進行卷積操作,用于產生一個新的特征映射。

      其中濾波器w∈Rh×4,h為窗口長度,對特征向量ei,ei+1,…,ei+j∈E進行卷積處理如下:

      式(1)中:ci為每一次卷積操作產生的新的映射,ci的個數取決于濾波器的個數l,而其個數l則由文本的長度n和濾波器的長度h決定;f為非線性函數處理,本方法使用ReLU方法進行非線性化;b∈R為偏差項,用于每次訓練的更新。

      本部分的輸出為新的特征映射的集合:

      3.3 最大值池化

      在這一部分,需要對新的特征映射的集合C進行最大值池化,目的是從特征映射中捕捉最為重要的特征。

      具體的操作方法是,首先需要對特征映射集合中的每一個特征映射進行單獨的最大值池化:

      然后再將所有的最大池化值進行特征融合:

      式(4)中:輸出的向量MP∈Rl為高層次的主要特征;⊕為拼接符號。

      3.4 觸發(fā)詞分類

      最后需要利用最終提取處理完成的高層次主要特征進行分類,輸出結果為每個詞語成為觸發(fā)詞的概率pi,包括文本信息中無事件觸發(fā)詞的可能。即:

      式(5)中:n為文本信息預處理之后得到的該條文本信息的詞語個數,選取n+1作為最終的分類個數是包括了該文本信息中無輿情事件觸發(fā)詞的概率Pn+1。

      具體的觸發(fā)詞的分類方法是,對于上一部分得到的高層次主要特征{f1,f2,…,f1}∈MP,和給定的輸出分類標簽T={t1,t2,…,t(n+1)}∈Rn+1,之間存在如下關系:

      得到簡化的公式為:

      通過訓練和測試,得到最佳的α,作為最終的輸出分類權重值,進而得到詞語成為觸發(fā)詞的概率,作為最終的輸出。

      定義分類器的目標函數為:

      使目標函數達到最小值,進而主要使用softmax函數計算概率的方法得到每個詞語最可能成為觸發(fā)詞的概率。

      4 結論

      本文提出了一種基于卷積神經網絡的輿情觸發(fā)詞解析方法,利用卷積神經網絡CNN自動學習隱藏特征,從不同的維度上對輸入的文本信息進行特征的提取,然后進行融合,并通過多層次卷積的操作處理得到一個新的特征映射的集合,再對其進行最大值池化,進而得到一個高層次的主要特征向量,作為最終觸發(fā)詞分類的依據權重,在模型訓練的過程中,使用分類器進行觸發(fā)詞的分類,并不斷對輸出向量權重進行更新。在使目標函數最小化的同時,得到一個最為接近實測概率的輸出概率向量,作為本方法的輸出預測分類。

      本方法從解析輿情觸發(fā)詞的角度出發(fā),可以高效檢測文本信息的事件觸發(fā)詞,進而能夠對關鍵事件進行抽取,從而可以判斷文本信息是否為輿情信息,并且能夠對輿情信息的事件觸發(fā)有一個快捷清晰的定位,有利于短時間內在海量信息中準確監(jiān)測輿情信息,并把握其觸發(fā)事件,進而找到輿情源頭,實現(xiàn)對輿情的有效預警。

      猜你喜歡
      分類器輿情解析
      三角函數解析式中ω的幾種求法
      BP-GA光照分類器在車道線識別中的應用
      電子測試(2018年1期)2018-04-18 11:52:35
      睡夢解析儀
      電競初解析
      商周刊(2017年12期)2017-06-22 12:02:01
      加權空-譜與最近鄰分類器相結合的高光譜圖像分類
      結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      輿情
      中國民政(2016年16期)2016-09-19 02:16:48
      相機解析
      輿情
      中國民政(2016年10期)2016-06-05 09:04:16
      輿情
      中國民政(2016年24期)2016-02-11 03:34:38
      兰溪市| 兰西县| 乡宁县| 枣庄市| 卢龙县| 衡水市| 青岛市| 阳朔县| 临朐县| 西和县| 静安区| 恩平市| 嵩明县| 广东省| 涪陵区| 嘉峪关市| 探索| 乌苏市| 哈巴河县| 英超| 峨眉山市| 金沙县| 荔波县| 张家界市| 巢湖市| 阳高县| 尚义县| 米脂县| 南召县| 长海县| 建平县| 高清| 平昌县| 沅江市| 景德镇市| 黄骅市| 荥经县| 突泉县| 安顺市| 印江| 乐陵市|