薛娟
摘要:云計算是基于互聯(lián)網(wǎng)的一種超級計算模式,能夠為將Web中的所有數(shù)據(jù)信息集中在一起,為其提供各種服務(wù)。數(shù)據(jù)挖掘是獲取Web網(wǎng)頁中的有用的信息,隨著互聯(lián)網(wǎng)的快速發(fā)展,Web網(wǎng)頁中的數(shù)據(jù)信息量顯著增加,傳統(tǒng)挖掘算法已經(jīng)無法滿足用戶的實際需求,基于云計算的Web結(jié)構(gòu)挖掘算法,能夠打破傳統(tǒng)挖掘算法的桎梏,對于Web網(wǎng)頁信息和知識的發(fā)現(xiàn)提供了很大的便利。文章分析了云計算的特點以及服務(wù)模式,探析了一種基于云計算的Web結(jié)構(gòu)挖掘算法,即基于MapReduce的PageRank算法,以供參考。
關(guān)鍵詞:云計算;Web;結(jié)構(gòu)挖掘算法
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2015)06-0010-02
數(shù)據(jù)挖掘指的是對大量、復(fù)雜的數(shù)據(jù)信息進(jìn)行分析,然后從中獲取有用的數(shù)據(jù)信息?,F(xiàn)如今,重要的數(shù)據(jù)信息都儲存在Web網(wǎng)頁上,由此可見研究Web數(shù)據(jù)挖掘的重要性。但是,隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,Web網(wǎng)頁上的數(shù)據(jù)信息量不斷地增加,網(wǎng)絡(luò)環(huán)境也越來越復(fù)雜,想要從Web網(wǎng)頁中挖掘出有用的信息,傳統(tǒng)的節(jié)點計算、儲存算法已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足需求,基于云計算的Web結(jié)構(gòu)挖掘算法,能夠有效地解決傳統(tǒng)算法存在的問題,例如,基于MapReduce的PageRank算法,以其強(qiáng)大的網(wǎng)絡(luò)數(shù)據(jù)信息獲取能力、計算能力、儲存能力,能夠更加快速、高效的挖掘、計算和儲存Web網(wǎng)頁的信息和知識。因此,文章針對基于云計算的Web結(jié)構(gòu)挖掘算法的研究具有非常重要的現(xiàn)實意義。
1 云計算的特點以及服務(wù)模式分析
1.1 云計算的特點
云計算是一種基于用戶需求,為用戶提供主動服務(wù)的超級計算模式。云計算能夠為用戶提供共享的服務(wù)模式,并且能夠支持多個用戶的不同需求。云計算能夠滿足不同規(guī)模的計算需求,由信息和資源處理中心對需求進(jìn)行快速的分析和調(diào)節(jié),并進(jìn)行云計算。云計算采用按量計費的方式,用戶不需要對沒有消費的服務(wù)買單,這樣既能夠降低成本,又能夠避免造成浪費。
1.2 云計算的服務(wù)模式分析
云計算的服務(wù)模式主要包括以下幾個方面:
1)IaaS,Infraslruelure as a Service——基礎(chǔ)設(shè)施即服務(wù),根據(jù)用戶權(quán)限,可以直接方位云計算提供的網(wǎng)絡(luò)寬帶、分布式儲存、并行運算等基礎(chǔ)設(shè)置,同時可以根據(jù)自己的需求,搭建負(fù)荷自己需求的平臺;
2)PaaS,Platform as a Service——平臺即服務(wù),云計算能夠為用戶提供一個平臺,包括工具集與軟件開發(fā)語言,其能夠為用戶組建一個虛擬的操作系統(tǒng),用戶根據(jù)自己的需求在該平臺上開發(fā)以及部署相應(yīng)的平臺與應(yīng)用;
3)SaaS,Software as a service——軟件即服務(wù),用戶根據(jù)自己的需求,使用基于云計算架構(gòu)的應(yīng)用程序為自己服務(wù),例如網(wǎng)絡(luò)儲存、在線表格、在線文檔、電子郵件等。
2 基于MapReduce的PageRank算法分析
2.1 基于MapReduce的PageRank算法的實現(xiàn)
2.1.1 算法數(shù)據(jù)準(zhǔn)備
按照鏈接結(jié)構(gòu)文件格式將文件轉(zhuǎn)換成針對每一個節(jié)點的出鏈接結(jié)構(gòu)文件,其中預(yù)處理數(shù)據(jù)包由網(wǎng)頁上的海量數(shù)據(jù)信息組成,在map執(zhí)行的過程中,按照map方法,生成所有起始節(jié)點的目標(biāo)點的
2.1.2 算法的實現(xiàn)
PageRank算法輸出的每個節(jié)點,按照Map方法對輸入每一行記錄的目標(biāo)節(jié)點順序,按照每個key歸類MapReduce框架采集map方法對應(yīng)的value。按照reduce方法,將每一個key:頁面y,對的所有項進(jìn)行加和,然后帶入公式:Pk+1= dATPk+(1-d)(公式1)計算,其中,PK表示第k次迭代后的PageRank向量,AT表示矩陣的轉(zhuǎn)置矩陣,然后輸出所有頁面全新的PageRank,即獲得所有key初始化的PageRank值,在HDFS中儲存所有的計算結(jié)果,進(jìn)行下一次迭代計算。在迭代計算過程中,Mapper對所有起點的目標(biāo)點生成一個與之對應(yīng)的partial,然后把所有的partial傳送至Mapreduce中。
2.2 基于MapReduce的PageRank算法的改進(jìn)分析
2.2.1 迭代并行PageRank改進(jìn)算法分析
按照PageRank算法的傳統(tǒng)計算公式,推算PageRank算法的向量公式,即公式1,因此按照初始向量P0進(jìn)行向量Pk的遞推,過程表現(xiàn)為:
P1= dATP0+(1-d)e (公式2)
P2= d2(AT)2P0+d(1-d)ATe+(1-d)e (公式3)
Pk=+dk(AT)kP0+ dk-1(1-d)(AT)k-1e+…d(1-d)ATe+(1-d)e (公式4)
通過上述遞推過程,以跨度為2計算公式為:P2= d2(AT)2P0+d(1-d)ATe+(1-d)e
迭代并行PageRank改進(jìn)算法的過程表現(xiàn)為以下幾個方面:1)在計算之前,應(yīng)該先生成和跨度相關(guān)的鄰接矩陣,以k=2為例,采用MapReduce計算AT,根據(jù)MapReduce過程獲得(AT)2,MapReduce在迭代的過程中,以初始PageRank向量、AT以及(AT)2為輸入文件,最后生成相應(yīng)的PageRank向量,按照上述步驟進(jìn)行反復(fù)迭代,如圖1所示。按照“移動計算比移動數(shù)據(jù)更經(jīng)濟(jì)”的思想,應(yīng)該盡可能將被計算的數(shù)據(jù)儲存在原來的位置,避免出現(xiàn)數(shù)據(jù)大量移動的現(xiàn)象,這樣既能夠提高系統(tǒng)吞吐量,又不至于造成網(wǎng)絡(luò)的堵塞。因此,HDFS中儲存的AT以及(AT)2不會隨著迭代的改變而改變。當(dāng)k=2時,可將算法分為三個階段:1)輸入上述階段生成的鏈接構(gòu)成文件G,并用G代替鄰接矩陣的AT,將首列作為目標(biāo)節(jié)點,第i行,第j列節(jié)點用ATi,j表示;2)使用第一階段獲得的AT,生成相應(yīng)的鏈接結(jié)構(gòu)文件,然后獲得相應(yīng)的矩陣,通過計算獲得(AT)2;3)k=2,因此每次的迭代跨度都為2,采用迭代并行PageRank算法計算向量,輸入第一階段獲得的AT,計算d(1-d)ATe+(1-d)e,輸入第二階段獲得的(AT)2,計算d2(AT)2P0,獲得新的PageRank向量,并保存在HDPS中,再進(jìn)行下一次迭代計算。
3 基于新聞關(guān)鍵詞的搜索統(tǒng)計而進(jìn)行的網(wǎng)絡(luò)傳播量化之方式
現(xiàn)階段,國內(nèi)網(wǎng)民進(jìn)行新聞信息搜索的最常用、最普遍的方式就是“關(guān)鍵字搜索”,當(dāng)前眾多互聯(lián)網(wǎng)的搜索引擎當(dāng)中,最具有代表性的就是谷歌和百度。這兩個引擎所分別提供的兩種工具——谷歌關(guān)鍵字以及百度指數(shù),能夠讓網(wǎng)絡(luò)用戶較為直觀地感知以及分析關(guān)鍵詞的傳播效果。本文選取的分析工具是百度指數(shù),以“神舟十號”作為搜索的關(guān)鍵詞,以開展對網(wǎng)絡(luò)傳播量化的研究和分析統(tǒng)計。
打開百度指數(shù)的頁面(http://index.baidu.com)以后,在搜索欄中輸入“神舟十號”,并進(jìn)行搜索,便會呈現(xiàn)出百度指數(shù)在一個月以來關(guān)于這個關(guān)鍵詞的媒體關(guān)注度、用戶關(guān)注度以及這兩個參數(shù)的表述趨勢。在這個頁面當(dāng)中,百度指數(shù)會依照用戶的關(guān)注度高低,把同一時期里所出現(xiàn)的新聞報道羅列在右側(cè),并附上對應(yīng)的標(biāo)注,這就能讓使用者得知關(guān)于這新聞的網(wǎng)絡(luò)傳播情況以及量化的指標(biāo),通過分析新聞用戶的關(guān)注度的量化指標(biāo),使用者就能夠從某個角度獲知網(wǎng)民當(dāng)月所關(guān)注的熱點。百度指數(shù)不僅可以獲取以月為單位的量化指標(biāo),還可以得知以季度、年、半年或者多年為單位的量化指標(biāo),供使用者根據(jù)需要進(jìn)行選擇,以獲取不同時期內(nèi)網(wǎng)民對于網(wǎng)絡(luò)熱點的關(guān)注程度以及相關(guān)的變化趨勢。
在同一個頁面當(dāng)中,百度指數(shù)還會針對同一時期里的不同區(qū)域的網(wǎng)民搜索該關(guān)鍵字的數(shù)量實施量化的統(tǒng)計對比,并分類為不同色彩,分別一一標(biāo)注于全國的地圖之上。與此同時,也會產(chǎn)生一個現(xiàn)實網(wǎng)民所在的城市分布的柱狀圖。百度指數(shù)還能根據(jù)入群的屬性,對搜索了該關(guān)鍵詞的網(wǎng)民進(jìn)行量化分析,比如年齡分布、學(xué)歷分布、性別比例、職業(yè)分布等等各方面,經(jīng)過統(tǒng)計和分析之后,用柱狀圖或者餅狀圖的方式清晰地呈現(xiàn)在使用者面前。
針對上述的各個示意圖開展系統(tǒng)化、全面化的分析和樹立以后,用具備高可比性的其他關(guān)鍵字來進(jìn)行輔助,所得出的量化結(jié)果和統(tǒng)計結(jié)果,能夠使使用者較為客觀全面地對該關(guān)鍵字的傳播效果和現(xiàn)狀進(jìn)行總結(jié)和統(tǒng)計。經(jīng)過對多年來新聞熱點變化的規(guī)律和趨勢進(jìn)行總結(jié)和分析,新聞從業(yè)人員就能夠更加科學(xué)地對今后網(wǎng)絡(luò)新聞傳播的規(guī)律和發(fā)展方向進(jìn)行系統(tǒng)性客觀性的預(yù)測、定位和研究,也能更好地部署、調(diào)整今后的網(wǎng)絡(luò)新聞的宣傳工作。
4結(jié)束語
通過對網(wǎng)絡(luò)傳播中的新聞關(guān)鍵詞之重要性和作用進(jìn)行定位和分析,能夠?qū)﹃P(guān)鍵詞的選定方法進(jìn)行掌握,從而建立起科學(xué)系統(tǒng)的關(guān)鍵詞庫,能夠發(fā)掘基于關(guān)鍵詞的搜索和統(tǒng)計來進(jìn)行的網(wǎng)絡(luò)傳播量化指標(biāo)和規(guī)律。利用搜索引擎,對新聞關(guān)鍵詞進(jìn)行多角度、多時段的搜索、統(tǒng)計和研究,可以使網(wǎng)絡(luò)傳播得到有效、全面、系統(tǒng)化的量化評價。本文以講述新聞網(wǎng)絡(luò)傳播中關(guān)鍵字的作用為切入點,對關(guān)鍵詞如何選定進(jìn)行闡述,并探討建立關(guān)鍵詞庫的重要性與意義,進(jìn)而列舉以新聞關(guān)鍵詞的搜索和統(tǒng)計為基礎(chǔ)的網(wǎng)絡(luò)傳播量化之方法,期望能為現(xiàn)實中的新聞宣傳實踐提供具有借鑒價值的建議和參考。
參考文獻(xiàn):
[1] 化柏林.圖書情報學(xué)核心期刊論文關(guān)鍵詞計量分析研究[J].情報科學(xué),2007(8):1176-1189.