• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      網(wǎng)絡(luò)輿情分析系統(tǒng)中關(guān)鍵技術(shù)研究

      2019-03-20 03:06:24李麗蓉
      關(guān)鍵詞:輿情聚類分類

      □李麗蓉

      (山西警察學(xué)院,山西 太原 030401)

      隨著我國網(wǎng)絡(luò)媒體的快速發(fā)展和網(wǎng)民數(shù)量的高速增長,論壇、微博、微信群、QQ群等社交平臺(tái)越來越成為輿論傳播的主場(chǎng),它的全球性、快捷性、開放性和互動(dòng)性給網(wǎng)絡(luò)輿情的傳播帶來了便捷,同時(shí)它的隱蔽性和虛擬性又使得輿情傳播走向放大化和無序化。公安機(jī)關(guān)應(yīng)強(qiáng)化輿情監(jiān)測(cè)、分析和研判能力,準(zhǔn)確把握輿情發(fā)展規(guī)律并對(duì)其進(jìn)行有效管控。在大數(shù)據(jù)牽引公安工作跨越發(fā)展的思想指導(dǎo)下,使用網(wǎng)絡(luò)輿情分析系統(tǒng),通過自然語言處理、數(shù)據(jù)分析與挖掘、機(jī)器學(xué)習(xí)等技術(shù)對(duì)海量輿情數(shù)據(jù)進(jìn)行多種分析,從中發(fā)現(xiàn)重點(diǎn)、熱點(diǎn)和事件的各種特征、知識(shí)及發(fā)展趨勢(shì),對(duì)互聯(lián)網(wǎng)內(nèi)容進(jìn)行治理,有利于維護(hù)網(wǎng)絡(luò)信息交往秩序,促進(jìn)互聯(lián)網(wǎng)健康發(fā)展,從而營造風(fēng)清氣正的網(wǎng)絡(luò)空間,保障網(wǎng)絡(luò)社會(huì)的安全。

      一、網(wǎng)絡(luò)輿情的定義與分類

      (一)定義

      網(wǎng)絡(luò)輿情是指“個(gè)人或某些社會(huì)群體以網(wǎng)絡(luò)為平臺(tái),通過新聞、評(píng)論、發(fā)帖、回復(fù)等為載體,對(duì)與自身相關(guān)或感興趣的事情發(fā)表評(píng)論、意愿、意見而表現(xiàn)出來的輿情?!盵1]

      (二)公安工作中的網(wǎng)絡(luò)輿情分類

      1.警情產(chǎn)生輿情類

      指線下突發(fā)、重大涉警事件發(fā)生后迅速被曝光于網(wǎng)絡(luò)而產(chǎn)生輿情。

      2.輿情引發(fā)警情類

      指線上網(wǎng)民違法、維權(quán)活動(dòng),線上內(nèi)部泄密情況或檢舉、舉報(bào)行為引發(fā)涉網(wǎng)絡(luò)安全警情。

      3.輿情次生輿情類

      指已處理的涉警輿情被網(wǎng)民再次借機(jī)炒作或輿情已平息,但處置過程中某些不適當(dāng)行為又被網(wǎng)民惡意攻擊衍生出新一輪輿情。

      二、網(wǎng)絡(luò)輿情分析系統(tǒng)架構(gòu)

      網(wǎng)絡(luò)輿情分析系統(tǒng)實(shí)時(shí)監(jiān)控網(wǎng)頁、論壇、博客、微博、微信、視頻等互聯(lián)網(wǎng)信息,對(duì)采集的信息進(jìn)行分類整理,利用智能化的輿情分析技術(shù)對(duì)網(wǎng)絡(luò)輿情進(jìn)行監(jiān)測(cè)和預(yù)警,并形成簡報(bào)、報(bào)告、圖表等分析結(jié)果。輿情分析系統(tǒng)主要包括輿情信息采集、數(shù)據(jù)預(yù)處理、輿情分析研判和輿情報(bào)告等四個(gè)模塊。

      (一)輿情信息采集

      輿情信息采集是輿情分析系統(tǒng)的基礎(chǔ),通常利用爬蟲技術(shù)從互聯(lián)網(wǎng)上采集信息。網(wǎng)絡(luò)爬蟲的工作原理是選擇待抓取網(wǎng)頁,以這些網(wǎng)頁的鏈接地址作為種子URL,按順序放入待抓取URL隊(duì)列,系統(tǒng)通過DNS解析依次將URL轉(zhuǎn)換為網(wǎng)站服務(wù)器對(duì)應(yīng)的IP地址。然后將網(wǎng)頁下載到本地,按順序進(jìn)行存儲(chǔ)和標(biāo)記,避免重復(fù)抓取。之后,再繼續(xù)執(zhí)行新一輪的抓取,循環(huán)往復(fù),直到待抓取URL隊(duì)列為空。當(dāng)前主要的爬蟲技術(shù)有通用型爬蟲、主題爬蟲和分布式爬蟲。由于互聯(lián)網(wǎng)中的海量信息及數(shù)據(jù)結(jié)構(gòu)復(fù)雜多樣,相關(guān)部門大多采用分布式、并行計(jì)算的爬蟲技術(shù),可以高效分割信息采集任務(wù),實(shí)時(shí)獲取網(wǎng)絡(luò)輿情信息。

      (二)數(shù)據(jù)預(yù)處理

      數(shù)據(jù)預(yù)處理是對(duì)爬取的網(wǎng)頁信息進(jìn)行清洗,抽取有價(jià)值的輿情信息文本特征集,如事件的主體、發(fā)生時(shí)間、事件地點(diǎn)、事件核心詞等基本信息,并存儲(chǔ)抽取信息。網(wǎng)頁信息包括大量的圖片、音頻、視頻、文檔等非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),不利于檢索、統(tǒng)計(jì)和存儲(chǔ)等操作,因此,需要通過結(jié)構(gòu)化處理,轉(zhuǎn)換成規(guī)范的數(shù)據(jù)文件存儲(chǔ),便于后面的輿情分析處理。相關(guān)部門主要采用網(wǎng)頁數(shù)據(jù)抽取、網(wǎng)頁相似性識(shí)別和非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)等技術(shù)。

      (三)輿情分析研判

      輿情分析研判是網(wǎng)絡(luò)輿情分析系統(tǒng)的核心部分,包括熱點(diǎn)和敏感話題識(shí)別、主題跟蹤、話題傾向性分析等功能。通過對(duì)預(yù)處理后的初始輿情文本數(shù)據(jù)進(jìn)行分析和挖掘后,運(yùn)用文本聚類技術(shù)形成輿情話題中心,運(yùn)用分類技術(shù)完成話題的跟蹤,運(yùn)用話題檢測(cè)與跟蹤技術(shù)分析輿情話題的相關(guān)評(píng)價(jià)、時(shí)間等,產(chǎn)生出熱點(diǎn)話題,并對(duì)話題進(jìn)行敏感性分析。

      (四)輿情報(bào)告

      輿情報(bào)告用可視化的方式呈現(xiàn)輿情信息,是用直觀可見的方式展示原始數(shù)據(jù)間的復(fù)雜關(guān)系、潛在信息以及發(fā)展趨勢(shì),包括輿情快報(bào)、專題瀏覽、熱點(diǎn)推送、信息匯總統(tǒng)計(jì)和輿情預(yù)警等。

      三、網(wǎng)絡(luò)輿情數(shù)據(jù)分析中采用的關(guān)鍵技術(shù)

      (一)輿情文本聚類技術(shù)

      文本聚類是按照某種相近程度的度量對(duì)沒有標(biāo)簽的數(shù)據(jù)集分成不同的簇,將具有高相似度的數(shù)據(jù)聚集到相同的簇中,不同簇中的數(shù)據(jù)差異性盡可能大。它是一種無監(jiān)督的機(jī)器學(xué)習(xí)算法,不需要使用訓(xùn)練樣本學(xué)習(xí),可以將數(shù)據(jù)集進(jìn)行自動(dòng)分類,在分類后發(fā)現(xiàn)分類標(biāo)準(zhǔn),常常作為其它算法的預(yù)處理算法。網(wǎng)絡(luò)輿情分析的主要任務(wù)是發(fā)現(xiàn)輿情話題,通過聚類技術(shù)可以將經(jīng)過預(yù)處理后的輿情文本聚成多個(gè)簇,即話題。聚類算法主要包括劃分聚類算法、層次聚類算法、密度聚類算法、網(wǎng)格聚類算法和模型聚類算法等。

      1.劃分聚類算法

      它的主要思想是:給定一個(gè)有N條記錄的數(shù)據(jù)集,按照一定的規(guī)則劃分成K個(gè)簇(K

      2.層次聚類算法

      它的主要思想是:對(duì)給定的數(shù)據(jù)集按照層次逐級(jí)分解,設(shè)定一定的簇規(guī)模和閾值,當(dāng)滿足這種閾值和規(guī)模時(shí)聚類完成,若不滿足則繼續(xù)按層次形成一種樹結(jié)構(gòu),最終達(dá)到設(shè)定的滿足條件。根據(jù)層次分解的方向不同,把自頂而下的算法稱為分裂方法,自底而上的算法稱為凝聚方法。典型的層次聚類算法有BIRCH算法、CURE算法、ARHP算法和PDDP算法等。

      3.基于密度的聚類算法

      它的主要思想是:將簇看成是有一定數(shù)據(jù)密度的區(qū)域,當(dāng)相鄰區(qū)域的密度超過某個(gè)閾值就繼續(xù)聚類,直到相對(duì)高密度區(qū)域被相對(duì)低密度區(qū)域分割開形成簇,它可以過濾掉與已形成的簇沒有相似性的噪聲數(shù)據(jù)。典型的密度聚類算法有DBSCAN算法、OPTICS算法等。

      4.基于網(wǎng)格的聚類算法

      它的主要思想是:首先采用網(wǎng)格結(jié)構(gòu)把數(shù)據(jù)空間劃分成有限數(shù)目的單元集,所有的聚類操作都在單個(gè)的單元網(wǎng)格中進(jìn)行,然后計(jì)算該單元的密度,去除掉密度低于閾值的單元,最后將相連的高密度單元生成簇。典型的網(wǎng)格聚類算法有STING算法、OPTIGRID算法等。

      5.基于模型的聚類算法

      它的主要思想是:假定數(shù)據(jù)集符合一系列的概率分布,用概率分布模型聚類數(shù)據(jù)。首先給每個(gè)簇設(shè)定一個(gè)模型,然后尋找能最好滿足該模型的數(shù)據(jù)。這個(gè)模型可能是數(shù)據(jù)點(diǎn)的概率分布模型或是其它,包括統(tǒng)計(jì)學(xué)方法和神經(jīng)網(wǎng)絡(luò)方法。典型的模型聚類算法有COBWEB算法、CLASSIT算法、SOM算法等。

      (二)輿情文本分類技術(shù)

      文本分類是一種有監(jiān)督的機(jī)器學(xué)習(xí)算法,通過對(duì)帶標(biāo)簽的訓(xùn)練樣本進(jìn)行學(xué)習(xí),建立一個(gè)最優(yōu)模型(函數(shù)集合),再利用這個(gè)模型對(duì)未知數(shù)據(jù)集進(jìn)行分類。在輿情分析中可以根據(jù)已經(jīng)發(fā)現(xiàn)的話題簇對(duì)后續(xù)獲得的輿情文本按照相似度匹配和歸類,從而實(shí)現(xiàn)跟蹤話題的目標(biāo)。分類算法主要包括K鄰近算法、決策樹算法、神經(jīng)網(wǎng)絡(luò)算法和支持向量機(jī)算法等。

      1.K鄰近算法

      它的主要思想是:如果被分析文本與在特征空間中的K(通常K≤20)個(gè)最相似樣本中的多數(shù)屬于同一類別,則被分析文本屬于該類別,其中所選擇的樣本都已經(jīng)正確分類。首先通過計(jì)算測(cè)試數(shù)據(jù)與各訓(xùn)練樣本數(shù)據(jù)之間的距離,按照距離遞增排序,然后選取距離最小的K個(gè)點(diǎn),計(jì)算K個(gè)點(diǎn)所在類別的出現(xiàn)頻率,按照最高出現(xiàn)頻率對(duì)測(cè)試數(shù)據(jù)分類。

      2.決策樹算法

      它的主要思想是:通過對(duì)樣本數(shù)據(jù)的學(xué)習(xí),選定判斷節(jié)點(diǎn),構(gòu)造出合適的決策樹模型,每個(gè)非葉子節(jié)點(diǎn)是一個(gè)判斷條件,每個(gè)葉子節(jié)點(diǎn)是結(jié)論。利用決策樹模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行分析,從根節(jié)點(diǎn)開始依次遍歷各判斷節(jié)點(diǎn),最后到達(dá)葉子節(jié)點(diǎn),經(jīng)過多次判斷得出分類結(jié)果。決策樹的構(gòu)建算法主要有ID3、C4.5和CART等。

      3.貝葉斯算法

      它的主要思想是:以貝葉斯定理為基礎(chǔ),利用概率統(tǒng)計(jì)知識(shí)進(jìn)行分類,依據(jù)某些特征條件獨(dú)立假設(shè),計(jì)算出相似概率,確定被分析文本是否屬于已知的文本類中。首先確定并劃分每個(gè)特征屬性,再由人工對(duì)一部分待分類數(shù)據(jù)進(jìn)行分類,形成訓(xùn)練樣本集。然后進(jìn)行分類訓(xùn)練,計(jì)算每個(gè)類在訓(xùn)練樣本中出現(xiàn)的頻率以及每個(gè)特征屬性對(duì)每個(gè)類的條件概率估計(jì),得到分類器。最后使用分類器對(duì)測(cè)試數(shù)據(jù)進(jìn)行分類。

      4.神經(jīng)網(wǎng)絡(luò)算法

      它的主要思想是:是一種基于數(shù)學(xué)統(tǒng)計(jì)學(xué)類型,模擬生物神經(jīng)網(wǎng)絡(luò),進(jìn)行分布式并行信息處理的算法,由大量結(jié)構(gòu)和功能簡單的神經(jīng)元按照一定的規(guī)則和模式,相互連接而成的一種復(fù)雜而功能強(qiáng)大的網(wǎng)絡(luò)系統(tǒng),是一種非線性自適應(yīng)動(dòng)態(tài)系統(tǒng)。首先設(shè)計(jì)神經(jīng)網(wǎng)絡(luò),確定網(wǎng)絡(luò)結(jié)構(gòu)、作用函數(shù)和學(xué)習(xí)算法,對(duì)神經(jīng)網(wǎng)絡(luò)初始化,然后利用訓(xùn)練數(shù)據(jù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,最后使用訓(xùn)練后的網(wǎng)絡(luò)處理輸入信息。

      5.支持向量機(jī)算法

      它的主要思想是:是二類分類模型,以統(tǒng)計(jì)學(xué)習(xí)理論的VC理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理為基礎(chǔ),給定訓(xùn)練樣本,建立一個(gè)最優(yōu)超平面,盡可能把兩類數(shù)據(jù)正確分開,并且使兩類數(shù)據(jù)距超平面之間的距離最大。

      (三)話題檢測(cè)與跟蹤技術(shù)

      話題檢測(cè)與跟蹤(Topic Detect and Tracking,TDT)是輿情分析的一個(gè)重要功能,它可以準(zhǔn)確地發(fā)現(xiàn)輿情熱點(diǎn)話題,并跟蹤話題的動(dòng)態(tài)演化過程,從而分析整個(gè)輿情事件的起因、發(fā)展和消亡的全過程。圖1是話題檢測(cè)與跟蹤技術(shù)研究體系結(jié)構(gòu)。當(dāng)前TDT研究方法主要采用基于聚類算法的改進(jìn)算法和挖掘新的話題特征來提高檢測(cè)和跟蹤效果。話題檢測(cè)與跟蹤技術(shù)與聚類算法很相似但不等同,一個(gè)熱點(diǎn)話題可以包括多個(gè)子話題,屬于多層次聚類。首先對(duì)海量網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行聚類分析,發(fā)現(xiàn)熱點(diǎn)話題,然后在后續(xù)新增加的數(shù)據(jù)中采用增量聚類算法,對(duì)已有的話題追蹤分析。話題特征包括話題的時(shí)間聚集性、特征詞、生命演變特征以及命名實(shí)體等,可以利用話題的各種特征來尋找和控制話題閾值,從而改進(jìn)話題檢測(cè)效果。

      四、構(gòu)建網(wǎng)絡(luò)輿情監(jiān)測(cè)指標(biāo)體系

      網(wǎng)絡(luò)輿情監(jiān)測(cè)指標(biāo)體系將各種相互關(guān)聯(lián)的統(tǒng)計(jì)指標(biāo)組成一個(gè)可測(cè)的有機(jī)整體,是輿情分析和研判的重要依據(jù),“科學(xué)地選擇指標(biāo)維度可以對(duì)輿情熱度做出綜合有效的評(píng)判,能夠更深刻地認(rèn)識(shí)輿情熱度漲落規(guī)律,明晰深層影響原因,也為輿情發(fā)展階段劃分、控制提供依據(jù)。[2]”根據(jù)網(wǎng)絡(luò)輿情發(fā)展規(guī)律,網(wǎng)絡(luò)輿情監(jiān)測(cè)指標(biāo)體系分為傳播擴(kuò)散、發(fā)布主體、內(nèi)容要素和輿情受眾等四個(gè)維度的指標(biāo),基本結(jié)構(gòu)如表1所示。體系中的各項(xiàng)指標(biāo),按照其對(duì)整個(gè)輿情事件的影響程度大小分別賦予不同權(quán)重,進(jìn)行加權(quán)分析。

      表1 網(wǎng)絡(luò)輿情監(jiān)測(cè)指標(biāo)體系

      (一)傳播擴(kuò)散

      持續(xù)時(shí)間指對(duì)輿情事件關(guān)注的時(shí)間跨度,即從第一條信息發(fā)出到事件結(jié)束整個(gè)過程所用時(shí)間。地理范圍指輿情傳播影響在現(xiàn)實(shí)地理位置的涉及范圍,可以通過IP、ID來獲取地址,對(duì)重點(diǎn)區(qū)域進(jìn)行管控。通過統(tǒng)計(jì)微博、論壇、電子郵件、交友網(wǎng)站、即時(shí)通訊軟件等傳播方式在輿情信息總量中的百分比來確定重點(diǎn)監(jiān)測(cè)的媒介。

      (二)發(fā)布主體

      發(fā)布主體是發(fā)布輿情和推動(dòng)輿情發(fā)展的人員,需要分析他們?cè)谳浨槭录械纳矸?、在網(wǎng)絡(luò)中的影響力、活躍度(一定時(shí)間內(nèi)發(fā)帖量和回復(fù)量的總和)和對(duì)事件所持有的態(tài)度。

      (三)內(nèi)容要素

      主題內(nèi)容是指輿情事件屬于哪類主題,分為社會(huì)熱點(diǎn)、政治新聞、個(gè)人隱私、宗教政治、涉穩(wěn)維權(quán)、涉警等類別。通過分析搜索量、瀏覽量、轉(zhuǎn)發(fā)量和評(píng)論量來判斷輿情話題熱度,檢索給定敏感詞來判斷輿情事件的敏感度。視聽化程度指發(fā)布主體在網(wǎng)絡(luò)中傳播的圖像、音頻和視頻等聲像資料在其全部信息量中的比例,聲像資料能最真實(shí)直觀地反映事件本身,容易傳播,造成更大影響力,可以通過監(jiān)測(cè)它的標(biāo)題關(guān)鍵詞和文件格式來加以管控。內(nèi)容詳略度與事件的真實(shí)性密切相關(guān),可以用文本長度、圖片連貫性和聲像時(shí)長來衡量。

      (四)輿情受眾

      輿情受眾是輿情事件的接受者,通過分析他們對(duì)事件所持的態(tài)度以及訪問輿情話題的人數(shù)與訪問量來判斷輿情的發(fā)展熱度和趨勢(shì)。

      五、網(wǎng)絡(luò)輿情分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

      本系統(tǒng)基于Hadoop開發(fā),包括輿情信息采集、數(shù)據(jù)預(yù)處理、輿情分析研判和輿情報(bào)告四個(gè)模塊。輿情信息采集模塊采用在Hadoop中集成Nutch進(jìn)行分布式網(wǎng)絡(luò)爬蟲,從新聞、微博、論壇、電子郵件、交友網(wǎng)站、即時(shí)通訊等輿情載體上爬取輿情信息。數(shù)據(jù)預(yù)處理模塊采用正向最大匹配算法進(jìn)行分詞處理,TFIDF法計(jì)算特征詞的權(quán)值,獲取文本的特征向量。采用MongoDB存儲(chǔ)Nutch爬取的數(shù)據(jù),其它模塊采用MySQL來存儲(chǔ)和管理數(shù)據(jù)。輿情分析研判模塊采用BIRCH聚類算法對(duì)文本信息挖掘,發(fā)現(xiàn)網(wǎng)絡(luò)輿情話題,再通過分析話題的搜索量、瀏覽量、轉(zhuǎn)發(fā)量和評(píng)論量等數(shù)據(jù),發(fā)現(xiàn)熱點(diǎn)話題,通過與敏感詞庫匹配,識(shí)別敏感話題。采用“基于超球結(jié)構(gòu)的漸進(jìn)直推式支持向量機(jī)”[3]算法對(duì)新采集的輿情信息進(jìn)行文本分類處理,并保存到數(shù)據(jù)庫中,根據(jù)分類結(jié)果實(shí)現(xiàn)話題跟蹤。輿情報(bào)告模塊中對(duì)熱點(diǎn)話題及其詳情用圖型和圖表展示,輿情話題跟蹤用發(fā)展趨勢(shì)圖展示,敏感話題用可視化的輿情預(yù)警展示,并提供其詳細(xì)信息。系統(tǒng)完成部署后,經(jīng)測(cè)試具有較好的可用性和準(zhǔn)確性。

      猜你喜歡
      輿情聚類分類
      分類算一算
      分類討論求坐標(biāo)
      數(shù)據(jù)分析中的分類討論
      基于DBSACN聚類算法的XML文檔聚類
      教你一招:數(shù)的分類
      輿情
      中國民政(2016年16期)2016-09-19 02:16:48
      輿情
      中國民政(2016年10期)2016-06-05 09:04:16
      輿情
      中國民政(2016年24期)2016-02-11 03:34:38
      基于改進(jìn)的遺傳算法的模糊聚類算法
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      泸水县| 惠水县| 陆良县| 邵阳市| 太和县| 仪征市| 同德县| 华亭县| 沙坪坝区| 麻阳| 新巴尔虎左旗| 府谷县| 长子县| 兖州市| 玉溪市| 集贤县| 都匀市| 茶陵县| 武穴市| 沁阳市| 大余县| 江永县| 南雄市| 永兴县| 余江县| 伊川县| 依安县| 海安县| 宿迁市| 阿鲁科尔沁旗| 丹阳市| 全州县| 尚志市| 行唐县| 张家川| 临沧市| 阿拉善左旗| 安丘市| 宜川县| 甘孜| 长兴县|