丁沂
摘要:當(dāng)前網(wǎng)絡(luò)挖掘還處在一個(gè)不斷發(fā)展的階段,還未形成一個(gè)被大眾廣泛接受的研究框架,關(guān)于網(wǎng)絡(luò)挖掘的主要問(wèn)題、研究方法、技術(shù)和應(yīng)用相關(guān)的研究文獻(xiàn)也比較少。文章對(duì)網(wǎng)絡(luò)挖掘領(lǐng)域的研究問(wèn)題以及未來(lái)的研究方向進(jìn)行了探討。
關(guān)鍵詞:網(wǎng)絡(luò);結(jié)構(gòu);數(shù)據(jù)挖掘
在過(guò)去的十幾年中,人們對(duì)現(xiàn)實(shí)世界中表現(xiàn)出的復(fù)雜的“連通性”表現(xiàn)出與日俱增的興趣,這種興趣的核心是網(wǎng)絡(luò)。網(wǎng)絡(luò)是現(xiàn)實(shí)事物之間相互關(guān)聯(lián)的一種模式,在很多場(chǎng)合人們都能發(fā)現(xiàn)網(wǎng)絡(luò)的存在。首先,人們身在其中的社會(huì)網(wǎng)絡(luò),它體現(xiàn)了人與人之間的社交聯(lián)系。這種社交聯(lián)系的復(fù)雜性隨著人類歷史進(jìn)程所發(fā)生的各種技術(shù)進(jìn)步不斷增強(qiáng),這些技術(shù)包括方便人們長(zhǎng)途旅行的交通技術(shù)、網(wǎng)絡(luò)通信技術(shù)和無(wú)線互聯(lián)技術(shù)等。過(guò)去半個(gè)世紀(jì)以來(lái),社會(huì)網(wǎng)絡(luò)在地理上的含義越來(lái)越弱化,但在其他方面卻變得越來(lái)越豐富。人們使用的信息也有類似的網(wǎng)絡(luò)結(jié)構(gòu),它們的復(fù)雜性也在不斷增加。大量信息源對(duì)少數(shù)高質(zhì)量信息提供者支配信息生產(chǎn)的傳統(tǒng)局面形成了沖擊。在這樣的環(huán)境中要理解任何一條信息,不僅要看其內(nèi)容本身,還要理解其引用其他信息的方式。社會(huì)的技術(shù)系統(tǒng)和經(jīng)濟(jì)系統(tǒng)也日益依賴于復(fù)雜的網(wǎng)絡(luò)。這使得人們?cè)絹?lái)越難以推理它們的行為,對(duì)它們進(jìn)行調(diào)整的風(fēng)險(xiǎn)也越來(lái)越大。網(wǎng)絡(luò)使人們的技術(shù)和經(jīng)濟(jì)系統(tǒng)容易受到很大的影響,這種影響會(huì)通過(guò)網(wǎng)絡(luò)結(jié)構(gòu)傳播開來(lái),有時(shí)局部問(wèn)題會(huì)導(dǎo)致全局的崩潰。在某些情況下,網(wǎng)絡(luò)研究的重點(diǎn)通常不在網(wǎng)絡(luò)結(jié)構(gòu)本身,而在于它所帶來(lái)的另一種復(fù)雜性,即網(wǎng)絡(luò)作為一個(gè)大型的、由各種關(guān)聯(lián)成分構(gòu)成的總體,以一種難以預(yù)知的方式,反作用于中央權(quán)威行動(dòng)的復(fù)雜性。
在電子商務(wù)、市場(chǎng)營(yíng)銷、知識(shí)管理、Web挖掘等眾多領(lǐng)域,人們?cè)谧鰶Q策的時(shí)候往往需要考慮各種類型的網(wǎng)絡(luò)。從20世紀(jì)90年代末開始,大量關(guān)于新的網(wǎng)絡(luò)模型、技術(shù)和應(yīng)用的論文發(fā)表在《自然》《科學(xué)》以及很多高級(jí)別的學(xué)術(shù)期刊上。與此同時(shí),F(xiàn)aceBook和MySpace等社交網(wǎng)絡(luò)站點(diǎn)也隨著這股潮流越來(lái)越流行,社會(huì)網(wǎng)絡(luò)數(shù)據(jù)挖掘,也可以簡(jiǎn)稱為網(wǎng)絡(luò)挖掘受到越來(lái)越多研究者的關(guān)注。網(wǎng)絡(luò)數(shù)據(jù)挖掘和傳統(tǒng)的數(shù)據(jù)挖掘有著本質(zhì)的區(qū)別,比如關(guān)聯(lián)規(guī)則挖掘旨在從單個(gè)數(shù)據(jù)對(duì)象中提取模式,而網(wǎng)絡(luò)挖掘是從Internet,WWW和社交網(wǎng)絡(luò)等網(wǎng)絡(luò)數(shù)據(jù)中提取不同對(duì)象之間的關(guān)系,即有價(jià)值的結(jié)構(gòu)模式。
1網(wǎng)絡(luò)挖掘中的主要研究問(wèn)題
網(wǎng)絡(luò)挖掘主要包括靜態(tài)結(jié)構(gòu)挖掘和動(dòng)態(tài)結(jié)構(gòu)挖掘兩個(gè)方面:靜態(tài)結(jié)構(gòu)挖掘關(guān)注網(wǎng)絡(luò)的一個(gè)快照,在某一個(gè)指定的時(shí)間點(diǎn)觀測(cè)到的節(jié)點(diǎn)和連邊;與靜態(tài)網(wǎng)絡(luò)挖掘相比,動(dòng)態(tài)網(wǎng)絡(luò)挖掘基于多個(gè)不同時(shí)間點(diǎn)的網(wǎng)絡(luò)數(shù)據(jù)分析網(wǎng)絡(luò)。靜態(tài)分析關(guān)注某一個(gè)觀測(cè)時(shí)間點(diǎn)網(wǎng)絡(luò)節(jié)點(diǎn)和連邊配置的結(jié)構(gòu)規(guī)則;動(dòng)態(tài)分析旨在發(fā)現(xiàn)網(wǎng)絡(luò)隨時(shí)間變化的模式??偠灾?,靜態(tài)分析的重點(diǎn)在網(wǎng)絡(luò)結(jié)構(gòu),動(dòng)態(tài)分析的重點(diǎn)在于網(wǎng)絡(luò)演化的過(guò)程和機(jī)制。
1.1靜態(tài)結(jié)構(gòu)挖掘
靜態(tài)網(wǎng)絡(luò)結(jié)構(gòu)挖掘有3個(gè)主要的研究問(wèn)題:(1)如何定位網(wǎng)絡(luò)中的重要資源?(2)如何降低網(wǎng)絡(luò)的復(fù)雜性并生成網(wǎng)絡(luò)的“最大圖像”?(3)如何從網(wǎng)絡(luò)中提取拓?fù)鋵傩裕?/p>
1.1.1定位網(wǎng)絡(luò)資源
網(wǎng)絡(luò)可以看作是資源的集合,網(wǎng)絡(luò)中重要資源包括重要的節(jié)點(diǎn)、連邊以及網(wǎng)絡(luò)中的關(guān)鍵路徑。例如在WWW網(wǎng)絡(luò)中,Web文檔的內(nèi)容就是WWW網(wǎng)絡(luò)中的重要資源,用戶在WWW網(wǎng)絡(luò)中搜索與他們需求匹配的高質(zhì)量的Web頁(yè)面。網(wǎng)絡(luò)中的用戶、文檔、關(guān)系以及通信渠道對(duì)于一個(gè)網(wǎng)絡(luò)的功能至關(guān)重要。重要資源定位技術(shù)在網(wǎng)絡(luò)科學(xué)中得到廣泛的應(yīng)用,例如:在Web上搜索高質(zhì)量的頁(yè)面;在Internet上定位某些關(guān)鍵的電纜,這些電纜的故障會(huì)降低互聯(lián)網(wǎng)的健壯性;在協(xié)作網(wǎng)絡(luò)中發(fā)現(xiàn)解決某些特定問(wèn)題的專家等等。
1.1.2降低網(wǎng)絡(luò)的復(fù)雜性
由于網(wǎng)絡(luò)由大量節(jié)點(diǎn)和連邊組成,因此網(wǎng)絡(luò)顯得非常復(fù)雜。隨著網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大,理解網(wǎng)絡(luò)的結(jié)構(gòu)也變得越發(fā)困難。例如:當(dāng)一個(gè)市場(chǎng)管理者面臨著一個(gè)由成千上萬(wàn)的消費(fèi)者組成的網(wǎng)絡(luò)時(shí)將變得手足無(wú)措;一個(gè)研究者試圖理解一個(gè)不太熟悉學(xué)科中的引文網(wǎng)絡(luò)所包含的智能結(jié)構(gòu)也是一件困難的事情。因此,研究者需要從復(fù)雜網(wǎng)絡(luò)中提取“最大圖像”,從而降低網(wǎng)絡(luò)的復(fù)雜性,并確保這個(gè)“最大圖像”與原來(lái)網(wǎng)絡(luò)具有一致的結(jié)構(gòu)。為了達(dá)到這個(gè)目的,網(wǎng)絡(luò)首先被分割為若干子群,每個(gè)子群包含若干節(jié)點(diǎn)和連邊,從而提取子群之間的關(guān)系。網(wǎng)絡(luò)分隔技術(shù)在Web社區(qū)發(fā)現(xiàn)、引文網(wǎng)絡(luò)中的主題發(fā)現(xiàn),犯罪網(wǎng)絡(luò)中的主要成員發(fā)現(xiàn)等領(lǐng)域也得到了廣泛的應(yīng)用。
1.1.3提取網(wǎng)絡(luò)拓?fù)鋵傩?/p>
近年來(lái),對(duì)大規(guī)模網(wǎng)絡(luò)的拓?fù)鋵傩缘难芯渴艿皆絹?lái)越多研究者的關(guān)注,很多因素導(dǎo)致了這種趨勢(shì)。首先,計(jì)算機(jī)不斷提高的計(jì)算能力讓大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)的搜集和分析成為可能。例如,對(duì)Web網(wǎng)絡(luò)研究需要處理的節(jié)點(diǎn)多達(dá)上百萬(wàn)。其次,近年來(lái)小世界和無(wú)標(biāo)度網(wǎng)絡(luò)模型的流行也激勵(lì)了研究者去發(fā)現(xiàn)現(xiàn)實(shí)世界中存在的統(tǒng)一的組織原則。最后,F(xiàn)aceBook,MySpace等在線社會(huì)網(wǎng)絡(luò)站點(diǎn)的流行促使研究者去研究這種網(wǎng)絡(luò)現(xiàn)象。
靜態(tài)結(jié)構(gòu)挖掘提供了一個(gè)發(fā)現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)模式的方法,但是網(wǎng)絡(luò)不是靜態(tài)的而是不斷變化的,如何揭示網(wǎng)絡(luò)的動(dòng)力學(xué)以及網(wǎng)絡(luò)的演化機(jī)制導(dǎo)所致的拓?fù)浣Y(jié)構(gòu)是動(dòng)態(tài)結(jié)構(gòu)挖掘領(lǐng)域的研究重點(diǎn)。
2動(dòng)態(tài)網(wǎng)絡(luò)挖掘
回顧人類歷史的長(zhǎng)河,任何一次傳染病的大規(guī)模流行,都是人類文明進(jìn)程帶來(lái)的,反過(guò)來(lái),每一次大規(guī)模的傳染病又對(duì)人類文明本身產(chǎn)生深遠(yuǎn)的影響。人類社會(huì)的日益網(wǎng)絡(luò)化促進(jìn)了現(xiàn)代公共衛(wèi)生體系的不斷完善,以努力減少疾病的威脅,但另一方面,這種網(wǎng)絡(luò)化進(jìn)程使得人員和物資的流動(dòng)日益頻繁和便捷,反過(guò)來(lái)加速了傳染病的快速擴(kuò)散。在技術(shù)網(wǎng)絡(luò)領(lǐng)域,如果不加干預(yù),整個(gè)Internet可以在幾十秒至幾十分鐘內(nèi)因?yàn)橛?jì)算機(jī)病毒的蔓延而完全崩潰。一次次嚴(yán)峻的考驗(yàn)讓人們不得不重新考慮如下問(wèn)題:在擁有發(fā)達(dá)醫(yī)療水平和生物技術(shù)的現(xiàn)代公共衛(wèi)生體系的今天,為什么新的病毒還能迅速蔓延?為什么在每年投入了巨額費(fèi)用的防止病毒措施之后,Internet上計(jì)算機(jī)病毒的傳播仍然防不勝防?人們可以將生物種群和計(jì)算機(jī)網(wǎng)絡(luò)中的個(gè)體定義為節(jié)點(diǎn),而將個(gè)體之間存在的關(guān)聯(lián)途徑定義為節(jié)點(diǎn)之間的邊。迅速發(fā)展的復(fù)雜網(wǎng)絡(luò)理論正有效地增進(jìn)人們對(duì)爆發(fā)大規(guī)模生物和計(jì)算機(jī)病毒流行的傳染機(jī)制的認(rèn)識(shí)。研究表明,當(dāng)網(wǎng)絡(luò)規(guī)模無(wú)限增大時(shí),無(wú)標(biāo)度網(wǎng)絡(luò)的臨界值趨于零,即使是很微小的傳染病源也足以在龐大的網(wǎng)絡(luò)中蔓延。
網(wǎng)絡(luò)是在不斷變化的,新節(jié)點(diǎn)可能會(huì)加入系統(tǒng),老節(jié)點(diǎn)可能會(huì)被移除。另外,新的連邊可能會(huì)出現(xiàn)在以前并不相連的兩個(gè)節(jié)點(diǎn)之間,節(jié)點(diǎn)之間原有的連邊可能在某個(gè)時(shí)刻崩潰。因此,理解網(wǎng)絡(luò)的演化機(jī)制和動(dòng)力學(xué)至關(guān)重要。網(wǎng)絡(luò)的演化機(jī)制會(huì)導(dǎo)致某種類型的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的形成,從而直接影響系統(tǒng)的功能。動(dòng)態(tài)網(wǎng)絡(luò)挖掘主要包含兩個(gè)研究問(wèn)題:(1)如何描述網(wǎng)絡(luò)動(dòng)力學(xué);(2)如何對(duì)網(wǎng)絡(luò)建模以及預(yù)測(cè)網(wǎng)絡(luò)動(dòng)力學(xué)。網(wǎng)絡(luò)動(dòng)力學(xué)的描述方法通常相對(duì)簡(jiǎn)單,通常都是利用在一段時(shí)間內(nèi)觀測(cè)到的拓?fù)浣y(tǒng)計(jì)量的變化,例如網(wǎng)絡(luò)平均度和聚集系數(shù)的變化。
網(wǎng)絡(luò)結(jié)構(gòu)動(dòng)力學(xué)的建模和預(yù)測(cè)是一個(gè)極具挑戰(zhàn)性的問(wèn)題。由于大多數(shù)網(wǎng)絡(luò)都呈現(xiàn)出無(wú)標(biāo)度特征,當(dāng)前大多數(shù)研究都關(guān)注在無(wú)標(biāo)度網(wǎng)絡(luò)的演化過(guò)程。其中關(guān)鍵的問(wèn)題是究竟什么機(jī)制導(dǎo)致了網(wǎng)絡(luò)中節(jié)點(diǎn)度的冪律分布。生長(zhǎng)、偏好依附、競(jìng)爭(zhēng)、獨(dú)立偏好等機(jī)制通常用來(lái)解釋大量真實(shí)網(wǎng)絡(luò)中無(wú)標(biāo)度拓?fù)涮卣鞯男纬伞?/p>
3結(jié)語(yǔ)
網(wǎng)絡(luò)挖掘未來(lái)研究主要包括理論研究、技術(shù)研究和實(shí)證研究3個(gè)方面。在理論研究方面,隨著網(wǎng)絡(luò)結(jié)構(gòu)挖掘研究的日益成熟,需要建立一個(gè)更加綜合的研究框架,新的研究問(wèn)題、技術(shù)和發(fā)現(xiàn)可以融合到這個(gè)框架里面,例如,網(wǎng)絡(luò)中信息、創(chuàng)新和疾病的傳播都是非常具有前景的研究領(lǐng)域。另外在網(wǎng)絡(luò)演化研究方面,需要開發(fā)新的模型從而揭示網(wǎng)絡(luò)演化的機(jī)制,這些研究對(duì)網(wǎng)絡(luò)理論的建立極具價(jià)值。在技術(shù)研究方面,未來(lái)的研究將瞄準(zhǔn)網(wǎng)絡(luò)結(jié)構(gòu)模式挖掘新技術(shù)和新方法的開發(fā)。傳統(tǒng)的網(wǎng)絡(luò)分隔方法仍然缺乏有效性,這種方法從大規(guī)模網(wǎng)絡(luò)中提取子結(jié)構(gòu)的能力是非常有限的。在實(shí)證研究領(lǐng)域,網(wǎng)絡(luò)結(jié)構(gòu)挖掘在支持知識(shí)管理和決策應(yīng)用方面的意義和影響仍然需要被驗(yàn)證,大量實(shí)證研究也需要被用來(lái)驗(yàn)證和解釋這些新的結(jié)構(gòu)挖掘技術(shù)和方法。