毛正標 彭勇
摘 要: 針對傳統(tǒng)信息化處理平臺一直存在耗時高、平臺響應滯后以及信息聚類精度低等問題。提出并設計了基于移動互聯(lián)的信息化智能處理平臺和平臺的物理架構(gòu)。該平臺由資訊服務模塊、信息推送模塊和智慧信息熱點發(fā)現(xiàn)模塊三大功能模塊構(gòu)成,分析了各功能模塊的操作流程,這些功能模塊協(xié)同運作,實現(xiàn)信息的智能化處理。通過ICTCLAS分詞系統(tǒng)對新聞文本進行分詞處理,完成對關鍵詞的采集,利用向量空間模型獲取新聞文本的知識描述模型,對新聞標題詞頻進行采集,得到K個原始聚類中心,通過匯總新聞標題詞頻的改進K?Means算法,對新聞特征向量實施話題聚類,得到熱點信息。實驗結(jié)果說明,所設計的處理平臺具有較高的運行效率和聚類精度,信息化處理性能強。
關鍵詞: 移動互聯(lián); 信息化處理; 智能處理; 聚類; K?Means算法
中圖分類號: TN929.5?34; TP311.5 文獻標識碼: A 文章編號: 1004?373X(2017)20?0046?03
Abstract: Since there are many problems existing in the traditional information processing platform, such as high time consumption, delay platform response and low?precision information clustering, the intelligent information processing platform based on mobile Internet and physical architecture of the platform are proposed and designed. The platform consists of information service module, information push module and intelligence hot information finding module. The operation process of each function module is analyzed. These function modules operate collaboratively to realize informatization intelligent processing. The participle processing of news texts is conducted by ICTCLAS participle system to complete the acquisition of news text keywords. The vector space model is adopted to achieve the knowledge representation model of news texts, collect the word frequency of news titles, and get K numbers of original clustering centers. The improved K?Means algorithm for summarizing the news headlines frequency is used to execute the topic clustering of news feature vector and get hot information. The experimental results show that the designed processing platform has high operation efficiency, high clustering accuracy and strong informatization processing performance.
Keywords: mobile Internet; informatization processing; intelligent processing; clustering; K?Means algorithm
當前的互聯(lián)網(wǎng)廣泛應用在人們的生產(chǎn)和生活中,基于移動互聯(lián)網(wǎng)設計的軟件在不同行業(yè)中的應用價值也逐漸提升。由于移動互聯(lián)的發(fā)展,我國無線網(wǎng)絡覆蓋區(qū)域逐漸提升,給商業(yè)、工業(yè)以及軍事領域中的無線互聯(lián)帶來了便捷性[1]。對移動互聯(lián)網(wǎng)絡中的信息實施高效、智能處理,能夠提升相應領域信息交互以及管理的質(zhì)量。而傳統(tǒng)基于推理的信息化處理平臺,通過語義推理分析完成信息的分析,存在耗時高、平臺響應滯后以及信息聚類精度低等問題,無法實現(xiàn)信息的智能化處理。
因此提出基于移動互聯(lián)的信息化智能處理平臺,采用移動互聯(lián)網(wǎng)技術(shù)實現(xiàn)用戶對信息的實時訪問[2],通過信息推送框架,對用戶不同調(diào)用申請自主配置合理的推送模式,完成信息的最優(yōu)控制。
1 基于移動互聯(lián)的信息化智能處理平臺設計
1.1 平臺物理架構(gòu)
設計基于移動互聯(lián)的信息化智能處理平臺包括服務器端和移動產(chǎn)品終端,系統(tǒng)的物理架構(gòu)如圖1所示。
圖1描述的信息化智能處理平臺中的用戶端通過智能手機和平板電腦,采用信號塔將信號傳遞到移動智能服務器端,移動智能服務器對信息進行處理、分析、推送,并通過路由器同信息數(shù)據(jù)庫相連[3],完成信息的采集和存儲。
1.2 主要功能模塊設計
信息推送模塊主要負責完成信息的最新動態(tài)的推送,為用戶提供有價值的信息。本文基于MINA以及AndroidPN技術(shù),設計信息推送模塊。為了增強服務器推送的應用性能,通過調(diào)度申請以及切換狀態(tài)方案,完成對服務器資源的有效分配[4?5],提高資源利用程度,減少能耗。信息推送模塊基于資訊服務模塊用戶偏好數(shù)據(jù),向客戶端推送有價值的信息。信息推送模塊的流程如圖2所示,詳細過程如下:endprint
(1) 對用戶興趣進行研究。利用資訊服務模塊中用戶個性和行為關聯(lián)的數(shù)據(jù),建立用戶興趣庫,若有新信息被推送,則從庫內(nèi)采集同該條信息相關聯(lián)的用戶列表。
(2) 管理員對信息的接收者實施關聯(lián)配置[6],將信息發(fā)送給相應的個人或群組。
(3) 依據(jù)信息推送服務,用XMPP協(xié)議對信息組裝。
(4) 基于信息的重要度、接收用戶種類,獲取信息推送優(yōu)先級[7],得到相應推送方案,增強服務器資源利用率。
(5) 通過MINA框架以及客戶端對信息傳遞的長連接進行建立,基于該連接向客戶端應用程序傳遞信息。
1.3 智慧信息熱點發(fā)現(xiàn)模塊
智慧信息熱點發(fā)現(xiàn)模塊將資訊模塊采集到新聞文本實施操作,采用改進距離算法從新聞報道流內(nèi)采集到新事件和相關的報道,對固定時間內(nèi)受關注度最高和指定話題進行檢測。智慧信息熱點發(fā)現(xiàn)模塊的結(jié)構(gòu)如圖3所示,從圖中可以看出其操作過程為:
(1) 通過ICTCLAS分詞系統(tǒng)對數(shù)據(jù)庫內(nèi)的新聞實施中文分詞預操作。
(2) 采用設置的閾值,在分詞操作后的文本內(nèi)采集可描述文本內(nèi)容的特征項,使得文本維度減小。
(3) 依據(jù)空間向量模型與物元模型,把文本特征項轉(zhuǎn)換為文本知識描述模型進行分析。
(4) 通過匯總新聞標題詞頻的優(yōu)化K?Means算法,對新聞特征向量實施話題聚類。
2 實驗結(jié)果分析
為了驗證本文設計的基于移動互聯(lián)的信息化智能處理方法的性能,進行如下實驗數(shù)據(jù)分析。實驗對比分析本文方法、K?Means方法以及Single?Pass方法的時間耗費情況。實驗過程是:從某大學的“校園動態(tài)”欄目(http://news.kxl.xlws.cn/reox/cofl.setgzws=22)內(nèi)采集2014年6月5日—2015年6月5日的新聞報道數(shù)據(jù),構(gòu)成樣本庫;再從樣本中采集不同篇數(shù)的文章當成實驗檢測對象。實驗分別采用三種方法對檢測對象實施聚類分析,得到的時間消耗情況如圖4所示。
分析圖4可得,本文方法以及K?Means方法在100篇新聞樣本的時間大大低于Single?Pass方法,聚類時間較低,具有較高的運行速率。實驗對不同方法進行信息聚類的精度實施對比,實驗的檢測指標如下:
如果用于測試的新聞樣本數(shù)量為n,針對某話題i,全部n個樣本中有a篇話題i存在關聯(lián)性的新聞報道,本文方法采用智慧信息熱點發(fā)現(xiàn)模塊檢測到屬于話題i的新聞是m篇,通過人工判斷,檢測到m篇中準確屬于話題i的新聞存在b篇,則該算法漏掉正確新聞概率為:
式中:[CMin]是方法遺漏本屬于話題i新聞報道導致后果;[CFa]代表把和話題i無關新聞報道納入i中導致后果,在進行實驗過程中,需最大程度地將準確新聞分配至話題i中,系統(tǒng)會將部分和話題i無關新聞分配其中,所以本節(jié)假設[CFa]干擾較低,[CMin]的干擾較高,并設置[CMin=1.0],[CFa=0.1];[PTraget]和[PNan-traget]是兩個根據(jù)以往經(jīng)驗獲取系數(shù),實驗分別設置它們的值是0.02和0.98;[(GDet)Nam]值越低說明方法精度越高。
實驗基于上述設置內(nèi)容檢測本文方法、K?Means方法以及Single?Pass方法的[(GDet)Nam]值,如圖5所示。
分析圖5可得,隨著實驗操作新聞樣品的篇數(shù)不斷增加,不同方法[(GDet)Nam]值也不斷提升,說明各方法聚類精度不斷降低。在新聞樣本是100篇的情況下,K?Means方法與 Single?Pass方法聚類精度相差不大;在新聞樣本是800篇情況下,Single?Pass方法聚類精度高于K?Means方法。主要是由于K?Means方法容易受到原始聚類中心干擾,如果檢測新聞樣本數(shù)較高,無法隨機采集合理的K個中心,本文方法采用的智慧信息熱點發(fā)現(xiàn)模塊能夠解決該問題,其[(GDet)Nam]值不會受到新聞樣本數(shù)量的干擾,有較高聚類精度,實現(xiàn)信息處理。
3 結(jié) 論
本文設計了基于移動互聯(lián)的信息化智能處理平臺,通過實驗驗證可得,所設計的處理平臺具有較高的運行效率和聚類精度,信息化處理性能強。
參考文獻
[1] 李靜.移動互聯(lián)網(wǎng)下的智能會議系統(tǒng)的應用研究[J].數(shù)碼世界,2016,11(4):41?42.
[2] 寧永強,段敏燕,余重玲.互聯(lián)網(wǎng)街景安全保密信息處理平臺設計與實現(xiàn)[J].遙感信息,2016,31(3):76?81.
[3] 祝忠方,張新淼.基于Android的高校智能課堂系統(tǒng)設計與實現(xiàn)[J].軟件導刊,2016,15(2):73?74.
[4] 王祝琳,陳典書,李玲.基于Hadoop云平臺個性化信息定制系統(tǒng)設計與實現(xiàn)[J].吉林大學學報(信息科學版),2016,34(2):271?277.
[5] 朱偉麗.移動互聯(lián)網(wǎng)時代信息素養(yǎng)教育的微策略[J].中華醫(yī)學圖書情報雜志,2015,24(1):71?74.
[6] 徐毅.感染病毒后網(wǎng)絡自我保護控制中的最優(yōu)通信節(jié)點選擇[J].現(xiàn)代電子技術(shù),2016,39(18):65?68.
[7] 王志堅.基于大數(shù)據(jù)平臺的電力營銷信息化建設分析[J].內(nèi)蒙古電力技術(shù),2016,34(4):17?22.endprint