張婉君
國家新聞出版廣電總局293臺,河南鄭州 451162
新媒體用戶行為模式分析
張婉君
國家新聞出版廣電總局293臺,河南鄭州 451162
對新媒體用戶現(xiàn)狀進行調(diào)研,通過問卷調(diào)查的方式獲取新媒體用戶使用行為數(shù)據(jù)和基本數(shù)據(jù),完成了基于自組織特征映射神經(jīng)網(wǎng)絡的新媒體用戶行為模式分析,基于所發(fā)現(xiàn)的用戶興趣偏好,可以為新媒體用戶提供更為有效的個性化服務。
新媒體;用戶行為;聚類分析;自組織特征映射網(wǎng)絡
隨著新媒體技術(shù)的快速發(fā)展,以互聯(lián)網(wǎng)、移動多媒體網(wǎng)絡為載體的新媒體得以廣泛應用。新媒體具有形式豐富、互動性強等特點,其用戶規(guī)模正在迅速擴大[1]。各類新媒體都具有其獨特的技術(shù)和傳播特點,因而新媒體的用戶類型和結(jié)構(gòu)也不相同,不同年齡、不同性別、不同教育程度的用戶可能對同一媒體的認知、操作等都不相同。為使新媒體更好地服務于用戶,需要了解用戶使用新媒體的規(guī)律性特點。
自組織特征映射神經(jīng)網(wǎng)絡由輸入層和競爭層組成。輸入層是一維的神經(jīng)元,輸入層神經(jīng)元數(shù)與樣本維數(shù)相等[2]。競爭層為輸出層,神經(jīng)元個數(shù)是變量,需要在建立網(wǎng)絡時給出,神經(jīng)元的排列呈一維線陣、二維平面和三維柵格陣等多種形式。輸出層按二維平面組織是自組織特征映射神經(jīng)網(wǎng)絡最典型的組織方式[3]。
對新媒體用戶現(xiàn)狀進行調(diào)研,通過問卷調(diào)查的方式調(diào)研用戶對新媒體的接觸情況,對調(diào)研階段采集到的新媒體使用行為數(shù)據(jù)進行數(shù)據(jù)選取和預處理,得到適合分析的目標數(shù)據(jù)集。應用自組織特征映射算法對新媒體用戶行為模式進行分析。
3.1 數(shù)據(jù)采集
通過問卷調(diào)查的形式搜集用戶對博客、網(wǎng)絡視頻、論壇、即時通訊工具、SNS社區(qū)和網(wǎng)絡游戲的接觸及使用情況。調(diào)查問卷包括兩部分,即用戶的新媒體使用行為調(diào)查和用戶基本信息調(diào)查。在用戶新媒體使用行為調(diào)查部分,針對每種新媒體的特點對用戶的使用方式進行調(diào)研,如調(diào)查用戶在博客上發(fā)帖和閱讀別人博客的頻率;收看網(wǎng)絡視頻的頻率和上傳視頻的情況;在論壇上發(fā)表新帖的頻率;使用即時通訊工具的頻率;登錄SNS社區(qū)的類型及頻率;玩網(wǎng)絡游戲的頻率等。用戶基本信息的采集包括用戶的年齡、性別、教育程度等。問卷調(diào)查選取北京地區(qū)20至49歲的490名用戶為被調(diào)查者,經(jīng)統(tǒng)計被調(diào)查者性別、年齡、教育程度分布均勻。
3.2 數(shù)據(jù)預處理
問卷調(diào)查采集到的原始數(shù)據(jù)無法直接進行數(shù)據(jù)挖掘,需要對數(shù)據(jù)進行預處理,使后面的數(shù)據(jù)挖掘過程有較高質(zhì)量的輸入數(shù)據(jù),最終得到準確的挖掘結(jié)果。數(shù)據(jù)預處理的重點是將問卷調(diào)查采集到的數(shù)據(jù)處理成適合用戶行為模式分析的輸入數(shù)據(jù)。數(shù)據(jù)處理過程如圖1所示。
圖1 數(shù)據(jù)預處理過程
如果被調(diào)查者選擇“從不上網(wǎng)”,則該被調(diào)查者對互聯(lián)網(wǎng)沒有接觸行為,該用戶數(shù)據(jù)視為無效數(shù)據(jù)將其刪除,共統(tǒng)計出該類數(shù)據(jù)46個。原始數(shù)據(jù)以天、周、月為單位對被調(diào)查者使用新媒體的頻率進行記錄,預處理時統(tǒng)一處理為以月為單位統(tǒng)計的頻次,涉及“是”“否”選項時分別以“1”和“0”表示。預處理后每位被調(diào)查者網(wǎng)絡新媒體接觸情況部分的原始數(shù)據(jù)被處理為13個屬性,分別為:
A更新博客的頻率(取值0、1、2、4、12、30、60);B閱讀別人博客的頻率(取值0、1、2、4、12、30、60);C收看網(wǎng)絡視頻的頻率(取值0、2、6、15、30);D是否上傳網(wǎng)絡視頻(取值0、1);E常使用的論壇個數(shù)(取值0、1、3、5);F論壇上發(fā)布新帖的頻率(取值0、1、2、4、12、30、60);G使用即時通訊工具的頻率(取值0、2、6、15、30);H玩網(wǎng)絡游戲的頻率(取值0、2、6、15、30);I登錄門戶網(wǎng)站的頻率(取值0、2、6、15);J登錄即時通訊軟件社區(qū)的頻率(取值0、2、6、15);K登錄電子商務網(wǎng)站的頻率(取值0、2、6、15);L登錄通信運營商社區(qū)的頻率(取值0、2、6、15);M登錄獨立SNS社區(qū)的頻率(取值0、2、6、15)。
統(tǒng)計13個屬性取值全為0的被調(diào)查者,則說明該被調(diào)查者雖然有上網(wǎng)行為,但是對博客、網(wǎng)絡視頻、論壇、即時通訊工具、SNS社區(qū)和網(wǎng)絡游戲沒有使用行為,該數(shù)據(jù)也為無效數(shù)據(jù)需要刪除,共統(tǒng)計出該類數(shù)據(jù)22個。采集到的原始數(shù)據(jù)記錄共有490個,刪除無效數(shù)據(jù)后得到有效數(shù)據(jù)422個。
表1 新媒體用戶行為模式分析結(jié)果
3.3 數(shù)據(jù)測試
由于對新媒體用戶媒體使用行為數(shù)據(jù)所進行的聚類分析并不存在先驗知識,是在完全未知的狀態(tài)下進行的預測性挖掘,所以需要通過大量實驗來確定競爭層的神經(jīng)元個數(shù)及相關(guān)參數(shù)。對UCI機器學習數(shù)據(jù)庫中的Iris和Wine兩個典型數(shù)據(jù)集進行測試,得到排序階段學習率選取0.9且調(diào)整階段學習率選取0.09時,能得到較好的聚類效果。當競爭層設(shè)置為16個輸出神經(jīng)元時,網(wǎng)絡在不斷增加訓練步數(shù)的情況下能夠達到穩(wěn)定狀態(tài)。創(chuàng)建一個采用4×4陣列的六角層拓撲結(jié)構(gòu)的自組織特征映射網(wǎng)絡,設(shè)置排序階段的學習率初始值為0.9,調(diào)整階段的學習率為0.09,調(diào)整階段鄰域半徑為1.0。在Pentium(R) Dual-Core 2.00GHz,內(nèi)存2G的PC機上,對新媒體用戶使用行為數(shù)據(jù)進行訓練。
該網(wǎng)絡訓練步數(shù)為19 500次,總耗時2小時42分鐘,算法將422個數(shù)據(jù)聚合成16類,同一類別數(shù)據(jù)激發(fā)相同輸出神經(jīng)元,以激發(fā)的神經(jīng)元的序號作為其類別值,具體信息如下:第1類數(shù)據(jù)27個;第2類數(shù)據(jù)11個;第3類數(shù)據(jù)23個;第4類數(shù)據(jù)16個;第5類數(shù)據(jù)19個;第6類數(shù)據(jù)31個;第7類數(shù)據(jù)13個;第8類數(shù)據(jù)88個;第9類數(shù)據(jù)9個;第10數(shù)據(jù)15個;第11類數(shù)據(jù)20個;第12類數(shù)據(jù)22個;第13類數(shù)據(jù)28個;第14類數(shù)據(jù)13個;第15類數(shù)據(jù)42個;第16類數(shù)據(jù)45個。
3.4 結(jié)果分析
引入VBA宏程序,結(jié)合用戶性別、年齡和教育程度三項基本信息對上述聚類結(jié)果進行分析,統(tǒng)計出每類用戶使用每種新媒體的特點,如表1所示。
表1(續(xù)) 新媒體用戶行為模式分析結(jié)果
通過自組織特征映射算法對大量新媒體用戶的使用行為數(shù)據(jù)進行數(shù)據(jù)挖掘,使具有相似偏好的用戶以群的模式聚集起來,而后分析得到不同的用戶群偏好,可以使新媒體服務提供商準確預測用戶的需求,便于為用戶提供更加符合其興趣偏好的增值業(yè)務,更好地滿足用戶多層次、多樣化、個性化、專業(yè)化的需求。
[1]景東,蘇寶華.新媒體定義新論[J].新聞界,2008(3):57-59.
[2]曹志勝,林和平,李迎斌.SOM人工神經(jīng)網(wǎng)絡在客戶分類中的應用[J].信息技術(shù),2008(11):85-87.
[3]魏海坤.神經(jīng)網(wǎng)絡結(jié)構(gòu)設(shè)計的理論與方法[M].北京:國防工業(yè)出版社,2005:80-81.
G2
A
2096-0360(2016)19-0030-03
張婉君,國家新聞出版廣電總局293臺。