徐建國 韓琮師
摘 要:互聯(lián)網(wǎng)時代,網(wǎng)絡(luò)焦點話題討論對當(dāng)代高校學(xué)生的思想有很大影響,因此對高校輿情進行監(jiān)測具有十分重要的意義。通過改進的K-means算法對高校輿情進行聚類,獲取輿情熱點。通過聚類算法獲取熱點話題,進而對熱點輿情話題進行引導(dǎo),對改進高校學(xué)生思想政治工作作用顯著。對改進算法進行實驗,結(jié)果表明該算法準(zhǔn)確率達到75%,比傳統(tǒng)算法高出8%,改善了傳統(tǒng)算法的聚類效果。
關(guān)鍵詞:高校輿情;聚類;K-means算法
DOI:10. 11907/rjdk. 191734 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
中圖分類號:TP319文獻標(biāo)識碼:A 文章編號:1672-7800(2019)007-0142-03
Application of Improved K-means Algorithm in University Public Opinion
XU Jian-guo, HAN Cong-shi
( College of Computer Science and Engineering,Shandong University of Science and Technology,Qingdao 266590,China)
Abstract: In the Internet age, the discussion of network focus topics has a great influence on the thinking of contemporary college students. Therefore, it is of great significance to monitor public opinion in colleges and universities. Through the improved K-means algorithm, the college public opinion clusters, the hotspots and the hot topics of the current colleges and universities are obtained through the clustering algorithm, which can guide the hot topic of the hot topics and play an important role in the development of college students' thoughts. Experiments on the improved algorithm show that the accuracy of the algorithm reaches 75%, which is 8% higher than the traditional algorithm, which improves the clustering effect of the traditional algorithm.
Key Words: university public opinion; clustering; K-means algorithm
基金項目:國家重點研發(fā)計劃項目(2017YFC0804406)
作者簡介:徐建國(1964-),男,山東科技大學(xué)計算機科學(xué)與工程學(xué)院副教授、碩士生導(dǎo)師,研究方向為智能信息處理、網(wǎng)絡(luò)輿情分析、商務(wù)智能;韓琮師(1993-),女,山東科技大學(xué)計算機科學(xué)與工程學(xué)院碩士研究生,研究方向為大數(shù)據(jù)分析、圖書情報與數(shù)字圖書館、智能信息處理。
0 引言
提高大學(xué)生思想水平,正確引導(dǎo)培養(yǎng)其價值觀,是我國教育界的重要任務(wù)。隨著科技進步,網(wǎng)絡(luò)成為信息傳播的主要渠道[1]。據(jù)統(tǒng)計,網(wǎng)絡(luò)傳播了90%以上的虛假詐騙信息、消極負(fù)面信息等,思想尚未完全成熟的高校學(xué)生極易受到網(wǎng)絡(luò)信息沖擊,從而產(chǎn)生消極思想,可能做出危害社會的行為。
K-means算法應(yīng)用廣泛,文獻[2]提出將K-means算法用在網(wǎng)絡(luò)輿情分析中;文獻[3]將K-means算法應(yīng)用在微博熱點話題分析中,對實時微博話題進行聚類分析;文獻[4]將K-means算法用于大學(xué)生消費水平統(tǒng)計,獲取大學(xué)生消費水平層次;文獻[5]通過K-means算法對航空旅客出行目的進行聚類分析,從而有效地推送產(chǎn)品。K-means算法的不足主要表現(xiàn)在選取聚類中心時決策的隨機性,這種隨機性使得聚類結(jié)果浮動性較大。此外在更新聚類中心時,通過樣本點的均值求取新的聚類中心容易受孤立點影響。本文借鑒此算法在其它領(lǐng)域的應(yīng)用情況,提出改進算法并將其應(yīng)用在高校輿情分析中。
1 改進算法
1.1 K-means聚類算法
K-means算法是基于劃分的聚類算法[6-9],其基本思想是對給定的數(shù)據(jù)集隨機選取K個初始聚類中心,將其余數(shù)據(jù)進行相似性度量,將相似性度量大的數(shù)據(jù)樣本劃分到同一類中;然后在每個類中重新計算聚類中心,循環(huán)迭代,直到滿足終止條件。在K-means算法中,初始聚類中心的選擇直接影響聚類結(jié)果,而隨機選取初始聚類中心具有隨機性[10-13],聚類效果差且很不穩(wěn)定。因此,本文對聚類中心選擇進行改進。
對于一個給定的樣本集[D={Xi,Xi?Xn}],將其劃分為K個簇[C={C1,C2?Ck}],簇內(nèi)的聚類中心點分別為[ci(i=1,2,?k)],方式如下:
首先,通過式(1)計算樣本間的距離。
[dist(Xi,Xj)=(Xi-Xj)T(Xi-Xj)]? ? (1)
其中[Xi]為樣本點。
然后,隨機選取一個樣本點作為初始聚類中心[c1]。如果樣本點[Xi]滿足式(2),則將樣本點[Xi]作為初始聚類中心[c2],如果樣本點[Xj≠ck(k=1,2,3?)]且和前面所選取的聚類中心點也滿足式(2),則將其作為下一個聚類中心。重復(fù)進行直到找到第k個聚類中心[ck]。
[θ=σni≠jndist(Xi,Xj)]? ? ? ?(2)
其中[σ]為調(diào)節(jié)聚類中心間距離參數(shù)。通過相似性原則將每個樣本點歸類,通過下式更新每一個類的聚類中心[ck]。
[c'k=1nkXi∈CkXi]? ? ? (3)
[ck={Xi|minXi∈Ckdist(Xi,c'k)}]? ? ?(4)
其中,[nk]為第K個聚類中心所包含的樣本個數(shù),[ck]為第K個聚類中心。
通過對初始聚類中心調(diào)整,減小了隨機選取聚類中心的影響,增大了各類之間的距離,提高了聚類準(zhǔn)確性;在更新聚類中心時,本文通過選取類中的樣本點作為新的聚類中心,降低了孤立點[14-18]帶來的影響。
1.2 改進算法流程
改進的算法流程如圖1所示。
圖1 算法流程
輸入:樣本集合[D={Xi,Xi...Xn}],聚類數(shù)目K。
輸出:聚類后形成的簇[C={C1,C2…Ck}]。
算法流程如下:①輸入樣本集合D,聚類數(shù)目K;②選擇初始聚類中心c1,計算各樣本間的距離[dist(Xi,Xj)],并根據(jù)公式(2)挑選出全部聚類中心;③根據(jù)公式(1)計算各樣本[Xi(i=1,2,?,N)]到各聚類中心[ck(k=1,2?k)]的相似性,并將樣本歸入K個類中;④根據(jù)公式(3)、公式(4)更新聚類中心。如果聚類中心不變,輸出聚類后的簇C,否則返回步驟③。
2 實驗與分析
2.1 數(shù)據(jù)處理與試驗指標(biāo)
本文通過對比實驗驗證改進算法的有效性。在數(shù)據(jù)獲取上,首先構(gòu)建一個抓取文本的API工具[19-21],通過此工具對貼吧、微博和論壇等高校學(xué)生喜歡瀏覽并參與的網(wǎng)站進行數(shù)據(jù)抓取,并通過ICTCLAS分詞系統(tǒng)[22-23]對爬取到的數(shù)據(jù)進行過濾,得到最終所需數(shù)據(jù)集。
使用傳統(tǒng)TDT[24-26]評價標(biāo)準(zhǔn)作為實驗評價指標(biāo),評價指標(biāo)分別為:準(zhǔn)確率acr,指正確分類的樣本數(shù)量所占比重;召回率rec,指特定話題樣本集在所有相關(guān)信息中所占比重;漏報率mir,指未獲取的樣本集在所有相關(guān)樣本集中所占比重;誤報率fpr,指錯誤判斷的話題信息集在其應(yīng)該存在的集合中所占比重。公式分別如下:
[acr=A/(A+B)]? ? ? ? ? (5)
[rec=A/(A+C)]? ? ?(6)
[mir=C/(A+C)]? ?(7)
[fpr=B/(B+D)]? ? ? ? ? (8)
其中,A為分類正確的樣本數(shù)目,B為錯誤歸類的樣本數(shù)目,C為未檢索到的樣本數(shù)量,D為不相關(guān)樣本數(shù)量。
2.2 實驗結(jié)果對比
對得到的數(shù)據(jù)集進行仿真實驗,將傳統(tǒng)K-means算法作為對比實驗,實驗結(jié)果如表1所示,算法平均指標(biāo)如表2所示。
表1 實驗結(jié)果對比
從實驗結(jié)果可以看出,傳統(tǒng)的K-means算法平均準(zhǔn)確率為0.671 375,通過改進算法進行聚類得到的準(zhǔn)確率為0.750 25,提高了8%。在召回率rec上,本文提出的改進算法比傳統(tǒng)算法高出10%,體現(xiàn)了本文算法的聚類準(zhǔn)確性。在漏報率mir及誤報率fpr上,本文算法均低于傳統(tǒng)的K-means聚類算法。
表2 實驗結(jié)果的平均指標(biāo)值
通過進一步實驗分析,得出高校學(xué)生所關(guān)注的焦點主要集中在游戲、晨跑打卡、周邊游、掙錢、晚自習(xí)、曠課、網(wǎng)吧、美食、戀愛等項目中。除了對晚自習(xí)進行討論外,對學(xué)習(xí)關(guān)心很少,需要對學(xué)生的學(xué)習(xí)態(tài)度進行引導(dǎo);此外在戀愛涉及的話題中,很多高校學(xué)生對戀愛不知所措,也需要對其進行積極引導(dǎo)。
在高校輿情處理中,本文所提算法提高了聚類準(zhǔn)確性。通過改進算法對高校輿情進行分析,能更準(zhǔn)確地獲取高校輿情熱點,進而對學(xué)生的思想態(tài)度進行引導(dǎo)。
3 結(jié)語
本文對傳統(tǒng)的K-means算法進行改進,通過閾值逐步選取初始聚類中心,避免了隨機挑選聚類中心帶來的弊端。在聚類中心更新上,通過樣本間距離指標(biāo)選取樣本點作為新的聚類中心,有效降低了孤立點對樣本聚類的影響。實驗表明,改進算法在性能上得到提升,在很大程度上提高了聚類準(zhǔn)確性。通過改進算法對高校輿情進行聚類分析,可有效獲取高校學(xué)生所關(guān)注的話題焦點,從而對其思想狀態(tài)進行積極引導(dǎo)。
參考文獻:
[1] 章永來,周耀鑒. 聚類算法綜述[J]. 計算機應(yīng)用,2019(5):1-14.
[2] 徐建國,韓青君,李青. K-means聚類算法及其在網(wǎng)絡(luò)輿情中的應(yīng)用[J]. 軟件導(dǎo)刊,2018,17(11):65-67.
[3] 劉榮凱,孫忠林. PCA-KDKM算法及其在微博輿情中的應(yīng)用[J]. 山東科技大學(xué)學(xué)報:自然科學(xué)版,2018,37(6):84-92.
[4] 馬幸飛,李引. 基于改進的K-means算法在高校學(xué)生消費數(shù)據(jù)中的應(yīng)用[J]. 無錫商業(yè)職業(yè)技術(shù)學(xué)院學(xué)報,2016,16(6):82-85.
[5] 龔婷,普慧潔,張嘉偉,等. 基于K-means的航空旅客聚類研究[J]. 價值工程,2018,37(35):52-54.
[6] 東方.? 改進的聚類算法在電子商務(wù)中的應(yīng)用[D]. 南昌:南昌大學(xué),2019.
[7] 鄧林培. 經(jīng)典聚類算法研究綜述[J]. 科技傳播,2019,11(5):108-110.
[8] 李鵬浩,朱立敬,石秀君. 基于K-means算法微博熱點話題預(yù)測分析[J]. 數(shù)字通信世界,2019(3):84-122.
[9] 馮彩英,劉玉. K-means初始聚類中心優(yōu)化研究[J]. 計算機產(chǎn)品與流通,2019(2):152-153.
[10] 徐建國,藺珍,張鵬,等. 網(wǎng)絡(luò)輿情熱點獲取與分析算法研究[J]. 軟件導(dǎo)刊,2019,18(1):1-5.
[11] 馬廷博,劉太安,徐建國,等. 基于改進的K-means聚類算法的汽車市場競爭情報分析[J]. 山東科技大學(xué)學(xué)報:自然科學(xué)版,2019,38(1):74-84.
[12] 劉葉,吳晟,周海河,等. 基于K-means聚類算法優(yōu)化方法的研究[J]. 信息技術(shù),2019,43(1):66-70.
[13] 楊丹,朱世玲,卞正宇. 基于改進的K-means算法在文本挖掘中的應(yīng)用[J]. 計算機技術(shù)與發(fā)展,2019,29(4):68-71.
[14] 陳艷紅,向軍,劉嵩. 高校網(wǎng)絡(luò)輿情分析的K-means算法優(yōu)化研究[J]. 湖北民族學(xué)院學(xué)報:自然科學(xué)版,2018,36(4):442-447.
[15] 楊莉云,顏遠海. 基于孤立點自適應(yīng)的K-means算法[J]. 河南科學(xué),2019,37(4):507-513.
[16] 賀艷芳,梁書田. 優(yōu)化加權(quán)多視角K-means聚類算法[J]. 計算機技術(shù)與發(fā)展,2019,29(3):81-84.
[17] 黃靈,王云鋒,陳光武. 基于密度標(biāo)準(zhǔn)差優(yōu)化初始聚類中心的K-means改進算法[J]. 電腦知識與技術(shù),2019,15(6):147-151.
[18] 王輝,趙瑋,祁薇. 基于用戶特征的K-means聚類算法應(yīng)用與改進研究[J]. 電腦知識與技術(shù),2018,14(35):17-19.
[19] 杜佳穎,段隆振,段文影,等. 基于Spark的改進K-means算法的并行實現(xiàn)[J]. 計算機應(yīng)用研究:2018(7):1-5.
[20] 徐思,孫仁誠. 結(jié)合聚類的半監(jiān)督分類方法[J]. 青島大學(xué)學(xué)報:自然科學(xué)版,2018,31(4):49-53.
[21] 楊濤. 中文信息處理中的自動分詞方法研究[J]. 現(xiàn)代交際,2019(7):93-95.
[22] 劉燕. 基于抽樣和最大最小距離法的并行K-means聚類算法[J]. 智能計算機與應(yīng)用,2018,8(6):37-39,43.
[23] 唐海波,林煜明,李優(yōu). 一種基于K-Means的平衡約束聚類算法[J]. 華東師范大學(xué)學(xué)報:自然科學(xué)版,2018(5):164-171.
[24] 劉榮凱,孫忠林. 針對K-means初始聚類中心優(yōu)化的PCA-TDKM算法[J]. 軟件導(dǎo)刊,2018,17(9):85-87,91.
[25] 許強. 基于Spark的話題檢測與跟蹤技術(shù)研究[D]. 成都:電子科技大學(xué),2018.
[26] 張尚韜. 網(wǎng)絡(luò)輿情話題檢測技術(shù)研究[J]. 廣東石油化工學(xué)院學(xué)報,2017,27(3):41-45.
(責(zé)任編輯:杜能鋼)