• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      K-means聚類(lèi)算法及其在網(wǎng)絡(luò)輿情中的應(yīng)用

      2018-11-19 11:05:10徐建國(guó)韓青君
      軟件導(dǎo)刊 2018年11期
      關(guān)鍵詞:熱點(diǎn)話(huà)題熱點(diǎn)輿情

      徐建國(guó),韓青君,李 青

      (1.山東科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,山東 青島 266590;2.山東政法學(xué)院 公共管理學(xué)院,山東 濟(jì)南 250014)

      0 引言

      2018年8月20日,中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)在北京發(fā)布第42次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,截至2018年6月,中國(guó)網(wǎng)民規(guī)模已高達(dá)8.02億,普及率達(dá)到57.7%,2018年上半年新增網(wǎng)民數(shù)量較上一年末增長(zhǎng)3.8%[1]。互聯(lián)網(wǎng)成為社會(huì)大眾獲取信息、發(fā)布信息、交流觀點(diǎn)最主要的平臺(tái)[2]。網(wǎng)絡(luò)輿情成為社會(huì)輿情的最主要組成部分,而網(wǎng)絡(luò)因其特有的開(kāi)放性、自由性、傳播速度快等特點(diǎn),很容易使網(wǎng)民在發(fā)表自己觀點(diǎn)的同時(shí)受到外界誘導(dǎo),也非常易于虛假信息的傳播。因此,網(wǎng)絡(luò)輿情熱點(diǎn)的準(zhǔn)確獲取與分析對(duì)政府掌握輿情動(dòng)態(tài)以及維護(hù)社會(huì)穩(wěn)定具有重要的現(xiàn)實(shí)意義。

      通過(guò)檢索相關(guān)文獻(xiàn)發(fā)現(xiàn),國(guó)外很早就已經(jīng)出現(xiàn)輿情熱點(diǎn)相關(guān)研究。1996年,首次出現(xiàn)話(huà)題檢測(cè)與跟蹤技術(shù)(Topic Detection and Tracking,TDT)[3],主要研究報(bào)道切分、關(guān)聯(lián)發(fā)現(xiàn)、話(huà)題跟蹤、新事件發(fā)現(xiàn)、話(huà)題發(fā)現(xiàn)5個(gè)方面;而后,馬賽諸塞大學(xué)探索形成了語(yǔ)料庫(kù),為T(mén)DT研究打下堅(jiān)實(shí)基礎(chǔ);Manquan Yu等[4]采用層次聚類(lèi)算法將新聞?wù)Z料進(jìn)行分類(lèi),避免了相似話(huà)題聚攏的問(wèn)題,也可將時(shí)間跨度較大的幾個(gè)話(huà)題組間聚類(lèi)為一個(gè)話(huà)題;Zheng等[5]利用Aging Theory對(duì)BBS中熱點(diǎn)話(huà)題進(jìn)行識(shí)別,可快速挖掘任意時(shí)間段內(nèi)的熱點(diǎn)話(huà)題。國(guó)內(nèi)關(guān)于輿情熱點(diǎn)的研究起步較晚,但隨著互聯(lián)網(wǎng)技術(shù)發(fā)展,越來(lái)越多學(xué)者關(guān)注輿情熱點(diǎn)問(wèn)題。其中,王偉、許鑫[6]構(gòu)建了基于聚類(lèi)的網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)及分析系統(tǒng),通過(guò)二次聚類(lèi)提高輿情相關(guān)度質(zhì)量及輿情分析準(zhǔn)確度;張壽華、劉振鵬[7]針對(duì)網(wǎng)絡(luò)輿情發(fā)生和傳播的特點(diǎn),提出自動(dòng)挖掘熱點(diǎn)關(guān)鍵詞并根據(jù)關(guān)鍵詞進(jìn)行話(huà)題聚類(lèi)的方法;王亞民、胡悅[8]提出一種基于BTM模型的微博輿情熱點(diǎn)發(fā)現(xiàn)方法,有效解決了傳統(tǒng)模型在文本建模中的高維度、稀疏性問(wèn)題,改善了熱點(diǎn)話(huà)題的發(fā)現(xiàn)質(zhì)量;鄧先均、楊雅茜等[9]使用幾種聚類(lèi)算法對(duì)網(wǎng)絡(luò)輿情熱點(diǎn)話(huà)題監(jiān)測(cè)進(jìn)行對(duì)比試驗(yàn),進(jìn)而分析出更適用于熱點(diǎn)話(huà)題監(jiān)測(cè)的算法。因此,本文結(jié)合網(wǎng)路輿情特點(diǎn),在理解K-means算法的基礎(chǔ)上,將改進(jìn)后的K-means算法運(yùn)用于輿情熱點(diǎn)獲取與分析中,提高網(wǎng)絡(luò)輿情分析準(zhǔn)確度,為政府輿情管理工作提升技術(shù)保障。

      1 K-means聚類(lèi)算法

      K-means聚類(lèi)的基本原理是,首先隨機(jī)選取需要的k個(gè)聚類(lèi)中心,計(jì)算每個(gè)樣本到聚類(lèi)中心的距離,根據(jù)樣本點(diǎn)與k個(gè)聚類(lèi)中心的距離可將所有樣本聚類(lèi)成k個(gè)類(lèi),然后不斷地修正聚類(lèi)中心,再計(jì)算每個(gè)樣本到新的聚類(lèi)中心的距離,將所有樣本聚成k個(gè)類(lèi),由此循環(huán)往復(fù)直到每個(gè)類(lèi)的大小幾乎不再發(fā)生變化,在閾值范圍內(nèi)停止,聚類(lèi)完成[10]。5種常見(jiàn)的聚類(lèi)算法分別是:劃分式聚類(lèi)算法、層次式聚類(lèi)算法、基于網(wǎng)格的聚類(lèi)算法、基于密度的聚類(lèi)算法和基于模型的聚類(lèi)算法[11]。

      K-means聚類(lèi)算法中,指定聚類(lèi)C=V2{V1}中心的特點(diǎn)使得到的聚類(lèi)結(jié)果受人為干預(yù)影響大,還會(huì)導(dǎo)致不準(zhǔn)確的話(huà)題聚類(lèi)結(jié)果。為解決該問(wèn)題,進(jìn)一步改進(jìn)K-Means聚類(lèi)算法,步驟如下[12]:

      第一步,按照特征項(xiàng)個(gè)數(shù)由多到少對(duì)論壇主題特征向量排序,并存儲(chǔ)在D′={V1,V2,V3,…Vn}中,將V1作為第一個(gè)聚類(lèi)中心,使聚類(lèi)中心集合C={V1},確定聚類(lèi)個(gè)數(shù)k。

      第二步,設(shè)定n=0,從V2開(kāi)始,依次比較D′中元素與聚類(lèi)中心集合C中的元素是否含有相同特征項(xiàng)。若有,從D′中刪除該元素,反之,把該元素放入聚類(lèi)中心集合C中,且n=n+1,直到n=k時(shí)停止,聚類(lèi)中心集合為C={V1,V2,V3,…Vk}。

      第四步,循環(huán)往復(fù)前2步,直到每個(gè)類(lèi)的大小幾乎不再發(fā)生變化,在閾值范圍內(nèi)停止,聚類(lèi)完成。

      第五步,輸出聚類(lèi)結(jié)果。

      對(duì)于給定的論壇主題特征向量集D={T1,T2,T3,…Tn},可以得到k個(gè)聚類(lèi)中心,這樣就把每個(gè)特征向量對(duì)應(yīng)的主題分到k個(gè)聚類(lèi)中心。話(huà)題聚類(lèi)后,根據(jù)話(huà)題存在的實(shí)際意義,對(duì)話(huà)題進(jìn)行過(guò)濾,以提高準(zhǔn)確性。

      2 K-means聚類(lèi)算法在網(wǎng)絡(luò)輿情中的應(yīng)用

      K-means聚類(lèi)分析目前在電子商務(wù)、圖情分析、生物科學(xué)、企業(yè)經(jīng)濟(jì)等領(lǐng)域都得到了有效應(yīng)用,如人體體型分類(lèi)、圖書(shū)館主題挖掘、高校學(xué)生消費(fèi)數(shù)據(jù)、卷煙零售門(mén)店庫(kù)存分析等[14-17]。同時(shí),該算法也適用于網(wǎng)絡(luò)輿情中的輿情熱點(diǎn)獲取與分析,因?yàn)榫W(wǎng)絡(luò)輿情分散在互聯(lián)網(wǎng)各個(gè)網(wǎng)頁(yè)中,針對(duì)某一個(gè)網(wǎng)絡(luò)輿情事件的每一句留言或評(píng)論都是輿情熱點(diǎn)分析的范疇。所以,使用K-means聚類(lèi)算法有助于將網(wǎng)民的相同觀點(diǎn)與不同觀點(diǎn)劃分到不同類(lèi),它是輿情數(shù)據(jù)處理的關(guān)鍵一步,算法精確與否關(guān)系到數(shù)據(jù)處理的精確度。

      2.1 K-means聚類(lèi)算法應(yīng)用流程

      網(wǎng)絡(luò)輿情熱點(diǎn)提取主要是將獲取的輿情數(shù)據(jù)經(jīng)熱點(diǎn)提取算法劃分到不同話(huà)題簇中,并在需要時(shí)對(duì)話(huà)題簇進(jìn)行更新,以便政府管理人員快速發(fā)現(xiàn)有用信息,有助于監(jiān)督和了解互聯(lián)網(wǎng)上的輿論情況。本文分析使用K-means聚類(lèi)算法實(shí)現(xiàn)以上要求,該算法的簡(jiǎn)易流程如圖1所示。

      圖1 K-means聚類(lèi)算法應(yīng)用流程

      2.2 實(shí)現(xiàn)過(guò)程

      算法實(shí)現(xiàn)過(guò)程主要代碼如下:

      print' Start Kmeans'

      from sklearn.cluster import Kmeans

      For k in range(3,5,1):

      Clf=Kmeans(n_clusters=k)

      S=clf,fit(weight)

      Centroids=clf.cluster_centers_

      #進(jìn)行降維處理

      From sklearn.decomposition import PCA

      Pca=PCA(n_components=2)

      #輸出兩維

      newData=pca.fit_transform(weight)

      載入N維

      Mark=['or','ob','og','oy','^r','+r','sr','dr','

      For i in range(0,455,1):

      Sign=''

      markIndex=clf.labels_[i]

      Plt.plot(newData[i][0],newData[i][1],mark[markIndex]

      For j in range(numword):

      If weight[i][j]>0.4:

      Sign=sign+word[j]

      Plt.text(newData[i][0],newData[i][1],sign,fontsize=6)

      Plt.show()

      3 結(jié)語(yǔ)

      互聯(lián)網(wǎng)不斷發(fā)展使得網(wǎng)絡(luò)輿情的形成、傳播和發(fā)展復(fù)雜多變[18]。本文通過(guò)對(duì)比分析,對(duì)近年來(lái)網(wǎng)絡(luò)輿情熱點(diǎn)的獲取方法進(jìn)行了研究,在理解K-means聚類(lèi)算法的基礎(chǔ)上進(jìn)一步改進(jìn)該算法,對(duì)新聞中的關(guān)鍵詞進(jìn)行聚類(lèi)分析以獲得輿情熱點(diǎn),最后給出該算法的實(shí)現(xiàn)過(guò)程,以提高聚類(lèi)性能的精度和穩(wěn)定性[19]。研究表明,該方法能為引導(dǎo)網(wǎng)絡(luò)輿情的發(fā)展方向提供依據(jù),也可及時(shí)防范誤導(dǎo)性言論對(duì)社會(huì)公眾的消極影響。然而,如何更加全面、準(zhǔn)確、深入地獲取輿情熱點(diǎn),深入挖掘輿情信息,仍需要更深入的研究。

      猜你喜歡
      熱點(diǎn)話(huà)題熱點(diǎn)輿情
      熱點(diǎn)
      熱點(diǎn)
      車(chē)迷(2019年10期)2019-06-24 05:43:28
      結(jié)合熱點(diǎn)做演講
      2017年高考作文熱點(diǎn)話(huà)題預(yù)測(cè)
      輿情
      基于SVM的熱點(diǎn)話(huà)題跟蹤實(shí)現(xiàn)過(guò)程研究
      輿情
      輿情
      熱點(diǎn)話(huà)題排行榜
      熱點(diǎn)
      包头市| 石台县| 方城县| 聂拉木县| 蓬安县| 景泰县| 沙雅县| 武平县| 登封市| 彝良县| 武汉市| 佛坪县| 沧州市| 武冈市| 商洛市| 宁武县| 灵璧县| 雅江县| 饶河县| 宝山区| 师宗县| 西华县| 普格县| 台江县| 富锦市| 辽中县| 沐川县| 卢龙县| 宁德市| 两当县| 香河县| 大连市| 淮安市| 邯郸市| 北安市| 白山市| 鞍山市| 温宿县| 平原县| 防城港市| 友谊县|