李 江 殷之明
摘要在調(diào)研近十余年國(guó)內(nèi)外鏈接分析研究的相關(guān)文獻(xiàn)的基礎(chǔ)上,歸納了鏈接分析研究的四大視角,即網(wǎng)絡(luò)計(jì)量學(xué)視角、檢索優(yōu)化視角、Web結(jié)構(gòu)挖掘視角和Web結(jié)構(gòu)圖建模的視角,并詳細(xì)分析了各個(gè)研究視角的現(xiàn)狀,然后在此基礎(chǔ)上提出了鏈接分析發(fā)展中的問(wèn)題及發(fā)展趨勢(shì)。
關(guān)鍵詞 鏈接分析 網(wǎng)絡(luò)計(jì)量學(xué) 檢索優(yōu)化 Web結(jié)構(gòu)挖掘 Web結(jié)構(gòu)圖建模
鏈接分析(Link Analysis),如果從李彥宏1996年提出的鏈接分析算法[1]算起,已有十余年的研究歷史了。綜觀十余年來(lái)國(guó)內(nèi)外鏈接分析研究的相關(guān)文獻(xiàn),便會(huì)發(fā)現(xiàn)其主要著者為文獻(xiàn)計(jì)量學(xué)、網(wǎng)絡(luò)計(jì)量學(xué)、信息檢索等領(lǐng)域的學(xué)者,不同領(lǐng)域的學(xué)者研究的側(cè)重點(diǎn)有所不同。本文在國(guó)內(nèi)外鏈接分析研究相關(guān)文獻(xiàn)的基礎(chǔ)上將其綜述為四大研究視角,并提出了鏈接分析發(fā)展中的問(wèn)題及發(fā)展趨勢(shì)。
1 鏈接分析研究四大視角
1.1 網(wǎng)絡(luò)計(jì)量學(xué)的視角
邱均平等從網(wǎng)絡(luò)計(jì)量學(xué)的角度提出了鏈接分析的研究?jī)?nèi)容包括如下幾個(gè)方面[2]:鏈接和被鏈接量、鏈接網(wǎng)頁(yè)的類(lèi)型、鏈接的頻次和變化、鏈接網(wǎng)頁(yè)之間的關(guān)系和網(wǎng)絡(luò)電子圖書(shū)、期刊引證分析等。在這樣的研究框架下,部分學(xué)者用統(tǒng)計(jì)的方法研究網(wǎng)站網(wǎng)頁(yè)的鏈接特征;部分學(xué)者借助入鏈數(shù)量與網(wǎng)絡(luò)影響因子評(píng)價(jià)網(wǎng)絡(luò)信息資源及網(wǎng)站的網(wǎng)絡(luò)影響力,并以此與電子期刊及大學(xué)評(píng)價(jià)排行榜類(lèi)比;還有一部分學(xué)者則對(duì)鏈接分析的理論基礎(chǔ)提出質(zhì)疑,并嘗試論證其有效性。
1.1.1 鏈接特征分析
邱均平等將鏈接特征分析的指標(biāo)歸納如圖1所示,并從101個(gè)美國(guó)商學(xué)院和醫(yī)學(xué)院網(wǎng)站中抽取40個(gè)作為樣本,考查了網(wǎng)站鏈接特征的相似性,站內(nèi)外鏈接數(shù)量的比例等[3]。以相似的研究方法,馬大川等分析了中美心血管學(xué)網(wǎng)站的鏈接特征,以探討網(wǎng)站質(zhì)量與鏈接特征之間的關(guān)系[4];段宇鋒分析了中美大學(xué)網(wǎng)站的鏈接特征及中國(guó)財(cái)經(jīng)類(lèi)院校[5]、美國(guó)商學(xué)院和醫(yī)學(xué)院網(wǎng)站的鏈接特征[6],以探討網(wǎng)站評(píng)價(jià)的指標(biāo)體系,并將網(wǎng)站分層,對(duì)不同頁(yè)面層的鏈接數(shù)量分布、鏈接密度、頁(yè)面平均鏈接數(shù)進(jìn)行比較,進(jìn)而得出結(jié)論:網(wǎng)站各層在規(guī)模、文件類(lèi)型和所擁有的網(wǎng)絡(luò)鏈接數(shù)量等方面的變化具有明顯的規(guī)律性,它取決于各層的功能定位[7]。鏈接,作為網(wǎng)絡(luò)形成的樞紐,是互聯(lián)網(wǎng)研究的重要研究對(duì)象之一,通過(guò)對(duì)鏈接特征的分析,可以深入了解網(wǎng)絡(luò)信息資源的網(wǎng)狀結(jié)構(gòu)及資源分布狀況。
1.1.2 網(wǎng)絡(luò)信息資源評(píng)價(jià)
網(wǎng)絡(luò)計(jì)量學(xué)中的鏈接分析法猶如文獻(xiàn)計(jì)量學(xué)中的引文分析法,可用于科學(xué)評(píng)價(jià),其基本假設(shè)為:鏈接代表認(rèn)可,其評(píng)價(jià)對(duì)象主要為網(wǎng)絡(luò)信息資源,如網(wǎng)站等。在網(wǎng)絡(luò)信息資源的評(píng)價(jià)中,鏈接分析主要作為一種定量評(píng)價(jià)方法,通常與定性方法相結(jié)合,構(gòu)成綜合性的評(píng)價(jià)指標(biāo)體系[8][9][10][11]。
而在網(wǎng)站評(píng)價(jià)的實(shí)證研究中,網(wǎng)絡(luò)影響因子通常扮演著不可忽視的作用。1998年,Ingwerson在The Calculation of Impact Factor[12]一文中提出了“網(wǎng)絡(luò)影響因子(Web Impact Factor)”這一概念,用于計(jì)算網(wǎng)站的影響因子,類(lèi)似于期刊的影響因子(也稱(chēng)加菲爾德因子[13]),進(jìn)而評(píng)價(jià)網(wǎng)站的網(wǎng)絡(luò)影響力。Ingwerson將網(wǎng)絡(luò)影響因子定義為:指定時(shí)間內(nèi),指向某一國(guó)家或網(wǎng)站的外部鏈接與自鏈接頁(yè)面數(shù)的累計(jì)和與該國(guó)家或網(wǎng)站內(nèi)部頁(yè)面數(shù)的比值,并特意強(qiáng)調(diào)這一算法中的分子是外部鏈接與自鏈接的頁(yè)面數(shù)量之和,而不是外部鏈接與自鏈接數(shù)量之和。而自WIF誕生至今,其適用范圍問(wèn)題、有效性問(wèn)題一直飽受爭(zhēng)議,有許多學(xué)者紛紛提出了改進(jìn)算法,如將分子中的內(nèi)部鏈接數(shù)剔除[14],將分母改為“大學(xué)全職科研人員總數(shù)”,用于大學(xué)網(wǎng)站的評(píng)價(jià)[14][15][16][17][18]等。
在WIF用于網(wǎng)站評(píng)價(jià)的過(guò)程中,學(xué)者們多結(jié)合實(shí)例,多選取國(guó)內(nèi)外不同學(xué)科、不同大學(xué)、不同院系的網(wǎng)站作為評(píng)價(jià)對(duì)象,而對(duì)于評(píng)價(jià)結(jié)果與效果,大多也各執(zhí)己見(jiàn)[21][22][23][24][25][26]。除了用鏈接分析的方法評(píng)價(jià)國(guó)家、大學(xué)、院系網(wǎng)站、電子學(xué)術(shù)期刊等,F(xiàn)ranz Barjak,Xuemei Li和Mike Thelwall還用鏈接分析的方法評(píng)價(jià)了科學(xué)家,作者選取歐洲6個(gè)國(guó)家5個(gè)學(xué)科的456名科學(xué)家的個(gè)人主頁(yè)作為研究對(duì)象,對(duì)其進(jìn)行了評(píng)價(jià)[27]。不僅如此,學(xué)者們還將網(wǎng)絡(luò)影響因子評(píng)價(jià)網(wǎng)站的結(jié)果與電子期刊的影響因子比較[28],與大學(xué)評(píng)價(jià)的排行榜比較 [29][30][31]。
1.1.3 對(duì)鏈接分析有效性的論證
十余年來(lái),鏈接分析在蓬勃發(fā)展的同時(shí),因沿用引文分析的理論方法而受到重重質(zhì)疑,如網(wǎng)絡(luò)影響因子這一指標(biāo)是否合理、商業(yè)搜索引擎作為鏈接分析工具得出的數(shù)據(jù)是否可靠、用鏈接分析這一方法評(píng)選核心網(wǎng)站是否可行等[32] [33],畢竟,網(wǎng)絡(luò)環(huán)境與學(xué)術(shù)期刊環(huán)境有著本質(zhì)的不同。
劉雁書(shū)、方平認(rèn)為站外鏈接關(guān)系反映的是被鏈網(wǎng)頁(yè)被利用與被推薦的總體情況,與被鏈網(wǎng)頁(yè)質(zhì)量存在正向(肯定)聯(lián)系,因此利用站外鏈接評(píng)價(jià)網(wǎng)絡(luò)信息是可行的[34][35]。張晗為研究該方法的可靠性,選擇Medical Matrix作為對(duì)照工具,將專(zhuān)家對(duì)網(wǎng)站的評(píng)價(jià)等級(jí)與鏈接分析法的評(píng)價(jià)結(jié)果做相關(guān)性檢驗(yàn),檢驗(yàn)二者的一致性[36]。邱均平、李江從鏈接分析與引文分析比較的角度對(duì)鏈接分析的有效性進(jìn)行論證,并對(duì)鏈接分析理論沿用引文分析理論的適用范圍作了說(shuō)明[37]。
當(dāng)前網(wǎng)絡(luò)計(jì)量學(xué)視角的鏈接分析的有效性可謂見(jiàn)仁見(jiàn)智,作為網(wǎng)絡(luò)計(jì)量學(xué)的重要組成部分,作為情報(bào)學(xué)的重要研究方法,鏈接分析在不斷發(fā)展著,也在不斷完善著。
1.2 檢索優(yōu)化的視角
網(wǎng)絡(luò)計(jì)量學(xué)視角的鏈接分析研究自然在網(wǎng)絡(luò)計(jì)量學(xué)誕生(以1997年T.Almind和P.Ingwersen發(fā)表Informetric Analyses on the World Wide Web:Methodological Approaches to “Webometrics”[38]為標(biāo)志)之后,但在此之前,用于信息檢索結(jié)果相關(guān)性排序的鏈接分析算法就已經(jīng)誕生了。隨著網(wǎng)絡(luò)計(jì)量學(xué)研究的深入,搜索引擎被用作鏈接分析工具,鏈接分析效果也反過(guò)來(lái)作為搜索引擎性能的測(cè)度指標(biāo)。當(dāng)前,搜索引擎主題不明確等問(wèn)題日益突顯,為解決這一問(wèn)題,聚焦爬蟲(chóng)成了研究熱點(diǎn),鏈接分析也在其中有了應(yīng)用。
1.2.1 檢索結(jié)果相關(guān)性排序
1998年P(guān)agerank算法[39]和HITS算法[40]的誕生改變了檢索結(jié)果相關(guān)性排序的歷史。Pagerank算法在google中應(yīng)用至今,商業(yè)上取得了很大成功,以至于催生了網(wǎng)絡(luò)中的SEO(Search Engine Optimization)的誕生,雖然其在應(yīng)用過(guò)程中也暴露出了一些缺陷,也出現(xiàn)了各種各樣的改進(jìn)算法[41][42],包括IBM Almaden 實(shí)驗(yàn)室的CLEVER 系統(tǒng)、Compaq 系統(tǒng)研究中心的Web Archaeology 項(xiàng)目以及王曉宇提出的STED算法[43]。但基本都遵循了Pagerank算法的迭代原理。而HITS算法更大程度上是一種實(shí)驗(yàn)性質(zhì)的嘗試,它必須在網(wǎng)絡(luò)信息檢索系統(tǒng)進(jìn)行面向內(nèi)容的檢索操作之后,基于內(nèi)容檢索的結(jié)果頁(yè)面及其直接相連的頁(yè)面之間的鏈接關(guān)系進(jìn)行計(jì)算。這使得在實(shí)際應(yīng)用環(huán)境中使用HITS算法變得十分困難,盡管有人嘗試通過(guò)算法改進(jìn)和專(zhuān)門(mén)設(shè)立鏈接結(jié)構(gòu)計(jì)算服務(wù)器等操作,可以實(shí)現(xiàn)一定程度的在線實(shí)時(shí)計(jì)算,但這對(duì)于每天要處理超過(guò)幾十億次用戶(hù)需求的商用搜索引擎而言,這樣的計(jì)算代價(jià)仍然是不可接受的。此外,HITS算法在主題提取中有著廣泛的應(yīng)用,但因存在如下缺陷:①站點(diǎn)內(nèi)部網(wǎng)頁(yè)在權(quán)威度數(shù)值上的相互加強(qiáng);②網(wǎng)頁(yè)輔助制作工具自動(dòng)生成的鏈接條目的干擾;③與主題無(wú)關(guān)的網(wǎng)頁(yè)或者主題漂移[44]。其誕生后的改進(jìn)算法也層出不窮[45][46][47][48][49][50][51] [52]。
1.2.2 對(duì)搜索引擎性能的評(píng)價(jià)
鏈接分析研究初期,對(duì)鏈接數(shù)量等各指標(biāo)進(jìn)行統(tǒng)計(jì)時(shí),主要以商業(yè)搜索引擎Google、Alltheweb、Altavista等為工具。國(guó)外初期的鏈接分析工具以Altavista為代表。如Larson[53],Ronald Rousseau[54],Peter Ingwersen[55],Owen Thomas和Peter Willett[56]在做實(shí)證分析時(shí),均以Altavista為鏈接分析工具;國(guó)內(nèi)早期的鏈接分析的實(shí)證研究中,呂俊生[57]、劉雁書(shū)等以Fast Search為工具[58],邱均平[25][59]、段宇鋒[5][20][30]、朱雷[60]等以Alltheweb為工具,馬大川以Google為工具[4]。
而反過(guò)來(lái),搜索引擎用作鏈接分析工具時(shí)的效果可用于評(píng)價(jià)搜索引擎的性能,如Peter Ingwerson指出,計(jì)算WIF值時(shí),搜索引擎統(tǒng)計(jì)結(jié)果時(shí)的性能可以作為搜索引擎質(zhì)量評(píng)價(jià)的一個(gè)測(cè)度[55]。國(guó)外學(xué)者紛紛用“一致性/不一致性(Irregularity[61]、Flexibility[62]、Inconsistency[63][64][65]、Stability[66])”描述搜索引擎對(duì)于同一檢索式在不同時(shí)刻返回不同結(jié)果的特征,許多學(xué)者也將不同搜索引擎用作鏈接分析工具時(shí)的性能做了比較研究[67][68][69][70][71],邱均平、李江等人通過(guò)嚴(yán)格的數(shù)學(xué)計(jì)算和統(tǒng)計(jì)分析得出結(jié)論為:Google、Alltheweb、Altavista 三者之間的檢索結(jié)果一致性存在顯著性差異,Google 檢索結(jié)果一致性最好,Alltheweb 次之,Altavista 再次之[72]。
1.2.3 聚集爬蟲(chóng)(Focused Crawler)
隨著網(wǎng)絡(luò)的迅速發(fā)展,萬(wàn)維網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個(gè)巨大的挑戰(zhàn)。搜索引擎,例如傳統(tǒng)的通用搜索引擎AltaVista,Yahoo!和Google等,作為一個(gè)輔助人們檢索信息的工具成為用戶(hù)訪問(wèn)萬(wàn)維網(wǎng)的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性[73]:①不同領(lǐng)域、不同背景的用戶(hù)往往具有不同的檢索目的和需求,通用搜索引擎所返回的結(jié)果包含大量用戶(hù)不關(guān)心的網(wǎng)頁(yè);②通用搜索引擎的目標(biāo)是追求盡可能大的網(wǎng)絡(luò)覆蓋率,有限的搜索引擎服務(wù)器資源與無(wú)限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾將進(jìn)一步加深;③萬(wàn)維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,圖片、數(shù)據(jù)庫(kù)、音頻/視頻多媒體等不同數(shù)據(jù)大量出現(xiàn),通用搜索引擎往往對(duì)這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無(wú)能為力,不能很好地發(fā)現(xiàn)和獲取;④通用搜索引擎大多提供基于關(guān)鍵字的檢索,難以支持根據(jù)語(yǔ)義信息提出的查詢(xún)。
為了解決上述問(wèn)題,定向抓取相關(guān)網(wǎng)頁(yè)資源的聚焦爬蟲(chóng)應(yīng)運(yùn)而生。聚焦爬蟲(chóng)是一個(gè)自動(dòng)下載網(wǎng)頁(yè)的程序,它根據(jù)既定的抓取目標(biāo),有選擇地訪問(wèn)萬(wàn)維網(wǎng)上的網(wǎng)頁(yè)與相關(guān)的鏈接,獲取所需要的信息。與通用爬蟲(chóng)不同,聚焦爬蟲(chóng)并不追求大的覆蓋,而將目標(biāo)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁(yè),為面向主題的用戶(hù)查詢(xún)準(zhǔn)備數(shù)據(jù)資源[73]。在聚焦爬蟲(chóng)的研究方面,鏈接分析也起到了各種各樣的作用,G. Almpanidis等人開(kāi)發(fā)了基于潛在語(yǔ)義的、結(jié)合文本與鏈接分析的分類(lèi)器[74];汪濤等人則利用鏈接分析對(duì)主題爬蟲(chóng)的爬取算法進(jìn)行了改進(jìn),并通過(guò)實(shí)驗(yàn),比較引入鏈接分析前后的結(jié)果,論證了其設(shè)計(jì)的可行性與可操作性[75]。
1.3 Web結(jié)構(gòu)挖掘的視角
蘇新寧將Web數(shù)據(jù)挖掘分為三類(lèi)[76]:Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web日志挖掘。Web結(jié)構(gòu)挖掘主要對(duì)Web中頁(yè)面鏈接關(guān)系進(jìn)行處理和挖掘,以此了解Web站點(diǎn)的主題、用戶(hù)接口、標(biāo)記語(yǔ)言、連接與響應(yīng)速度、站點(diǎn)信息構(gòu)建、潛在關(guān)聯(lián)內(nèi)容等,并從這些內(nèi)容中發(fā)現(xiàn)站點(diǎn)的受重視程度、站點(diǎn)主體的信息化水平等。
1.3.1 Web頁(yè)聚類(lèi)
聚類(lèi)就是將數(shù)據(jù)對(duì)象組成不同的類(lèi)(或簇),使得類(lèi)間的相似性盡量小,而類(lèi)內(nèi)的相似性盡量大[76]。Web文檔中不僅包含內(nèi)容,還包含指明Web文檔間關(guān)系的鏈接,利用其間的鏈接關(guān)系可將Web頁(yè)聚類(lèi)。事實(shí)上,Web頁(yè)聚類(lèi)是數(shù)據(jù)挖掘中的一個(gè)重要研究分支,可應(yīng)用于信息檢索、網(wǎng)絡(luò)計(jì)量學(xué)等領(lǐng)域,筆者按方法特性將其放在Web結(jié)構(gòu)挖掘視角下進(jìn)行探討。
Web頁(yè)聚類(lèi)研究中,有學(xué)者直接利用頁(yè)面間的鏈接關(guān)系提出或改進(jìn)聚類(lèi)算法,用于Web頁(yè)聚類(lèi),如何擁軍等[77]、王元珍等[78]在鏈接分析的基礎(chǔ)上提出了將檢索結(jié)果聚類(lèi)的方法,用于提高檢索效率;也有學(xué)者利用共鏈分析法挖掘頁(yè)面間的潛在關(guān)聯(lián)后將其聚類(lèi),如牛春華、沙勇忠運(yùn)用鏈接分析方法,探討了我國(guó)38所“985工程”院校網(wǎng)站W(wǎng)eb空間內(nèi)部的鏈接情況,并采用聚類(lèi)分析、多維尺度分析進(jìn)行了網(wǎng)站聚類(lèi)[79]。
1.3.2基于共鏈分析的潛在資源發(fā)現(xiàn)
Web結(jié)構(gòu)挖掘的實(shí)證研究中,網(wǎng)絡(luò)共鏈分析(Web Colink Analysis,WAC)是有一種常用而有效的方法,尤其是在獲取一些隱性網(wǎng)絡(luò)信息資源方面。雖然當(dāng)前共鏈分析研究的學(xué)者多為網(wǎng)絡(luò)計(jì)量學(xué)領(lǐng)域的學(xué)者,多從將共鏈分析與文獻(xiàn)計(jì)量學(xué)中的共引分析比較的角度著手,但因?yàn)楣叉湻治鲈缭诰W(wǎng)絡(luò)計(jì)量學(xué)誕生之前就已出現(xiàn)(1996年[53]),因此筆者未將其放在網(wǎng)絡(luò)計(jì)量學(xué)視角下敘述,而從應(yīng)用的角度將其放在了Web結(jié)構(gòu)挖掘的視角下。
1996年,美國(guó)加州大學(xué)伯克利分校的情報(bào)學(xué)家Ray R.Larson率先研究了共鏈現(xiàn)象。他認(rèn)為通過(guò)Web 網(wǎng)頁(yè)共鏈關(guān)系可以觀察網(wǎng)絡(luò)空間(cyberspaces)的結(jié)構(gòu),并做了相應(yīng)的實(shí)證分析——利用Altavista搜索引擎獲取數(shù)據(jù)并分析了地球科學(xué)、地理信息系統(tǒng)、衛(wèi)星遙感三個(gè)學(xué)科的相互關(guān)系以及發(fā)展趨勢(shì)[53]。2003年,Mike Thelwall等人利用共鏈和耦合理論進(jìn)行了網(wǎng)絡(luò)中相似學(xué)術(shù)網(wǎng)站的發(fā)現(xiàn)與識(shí)別研究[80]。2004年,Vaughan 分析了32家電信企業(yè)在“雅虎全球”和“雅虎中國(guó)”上的共鏈情況,得出各企業(yè)在全球和中國(guó)兩個(gè)市場(chǎng)中的相對(duì)競(jìng)爭(zhēng)地位[81]。2006年,Alesia Zuccala將網(wǎng)絡(luò)共鏈分析(Web Colink Analysis,WAC)和作者共引分析(Author Cocitation Analysis,ACA)從數(shù)據(jù)選取、數(shù)據(jù)搜索策略、數(shù)據(jù)矩陣、數(shù)據(jù)地圖和聚類(lèi)、對(duì)共引共鏈的解釋五個(gè)角度進(jìn)行了比較分析,認(rèn)為二者可稱(chēng)為網(wǎng)絡(luò)計(jì)量學(xué)與文獻(xiàn)計(jì)量學(xué)中的姐妹技術(shù),但因鏈接分析理論尤其是鏈接動(dòng)機(jī)分析理論方興未艾,WAC的適用性有待深入考證[82]。
Web在發(fā)展過(guò)程中存在著大量的社區(qū),這些社區(qū)是Web組織中非常重要的信息。通過(guò)對(duì)社區(qū)信息的認(rèn)識(shí)可以幫助我們總覽Web的全貌。而將Web按照社區(qū)來(lái)組織有許多優(yōu)點(diǎn):社區(qū)可以引導(dǎo)用戶(hù)找到感興趣的信息;社區(qū)可以幫助Internet/Intranet服務(wù)提供者有效地組織門(mén)戶(hù);社區(qū)可以幫助制造商準(zhǔn)確地找到消費(fèi)者;社區(qū)還代表了Web的社會(huì)活動(dòng),因?yàn)閃eb就是一個(gè)社會(huì)性的網(wǎng)絡(luò)。因此,“網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)”便成了鏈接分析研究的又一個(gè)應(yīng)用?;诠惨门c共耦合關(guān)系的社區(qū)發(fā)現(xiàn)方法便是一種有效的發(fā)現(xiàn)Web上根據(jù)“主題”聚集在一起的多個(gè)社區(qū)的方法[83]。
1.4 Web結(jié)構(gòu)圖建模的視角
將互聯(lián)網(wǎng)的整個(gè)結(jié)構(gòu)圖作為對(duì)象來(lái)研究不僅對(duì)理解互聯(lián)網(wǎng)的各種屬性有直接意義,同時(shí)還對(duì)很多互聯(lián)網(wǎng)算法(例如搜索、爬取以及社區(qū)發(fā)現(xiàn)等)都有重要幫助。另一方面,在研究這些互聯(lián)網(wǎng)算法的同時(shí),很多實(shí)驗(yàn)和觀察也進(jìn)一步促進(jìn)了Web結(jié)構(gòu)圖的研究。
1.4.1 隨機(jī)模型
Kumar R等人認(rèn)為,將頁(yè)面和頁(yè)面上的鏈接視為結(jié)點(diǎn)和邊便形成了有向圖,根據(jù)創(chuàng)建結(jié)點(diǎn)和刪除結(jié)點(diǎn)的隨機(jī)特性,認(rèn)為Web結(jié)構(gòu)圖是一種隨機(jī)模型[84]。這種圖不同于傳統(tǒng)的圖模型,傳統(tǒng)的圖模型是靜態(tài)的,即模型一旦被創(chuàng)建,則圖中節(jié)點(diǎn)和邊的數(shù)目就固定了。但是, Web結(jié)構(gòu)圖模型中有新的結(jié)點(diǎn)和邊隨著時(shí)間的變化不斷在圖中出現(xiàn),而已有的一些結(jié)點(diǎn)可能在圖中消失。
1.4.2 Internet小世界模型
小世界現(xiàn)象通??山忉尀椋喝艟W(wǎng)絡(luò)中兩點(diǎn)間的平均距離L隨網(wǎng)絡(luò)大小(網(wǎng)絡(luò)中結(jié)點(diǎn)數(shù)N)呈對(duì)數(shù)增長(zhǎng),即LlnN,當(dāng)網(wǎng)絡(luò)中結(jié)點(diǎn)數(shù)增加很快時(shí),L變化相對(duì)緩慢。六度分離現(xiàn)象中,平均距離L便等于6。有學(xué)者設(shè)計(jì)了一種軟件,通過(guò)這種軟件對(duì)Internet做數(shù)據(jù)采集分析發(fā)現(xiàn),Internet中的平均距離是19個(gè)鏈接,也就是說(shuō),在Internet上隨機(jī)任意取兩點(diǎn),不斷地點(diǎn)擊這上面的鏈接,點(diǎn)擊19次即可到達(dá)另一點(diǎn),這便是Internet小世界特征[85]。用這樣的模型來(lái)描繪Web結(jié)構(gòu)圖,有助于我們深化對(duì)Web結(jié)構(gòu)的理解。不僅如此,研究Web結(jié)構(gòu)圖模型可以改善Internet的信息交流過(guò)程,如利用小世界網(wǎng)絡(luò)特征來(lái)縮短Internet上信息傳播的路徑長(zhǎng)度和提高網(wǎng)絡(luò)的可靠性。
總之,鏈接分析不僅局限于上述四大視角,還有學(xué)者從其他視角研究鏈接分析,但因停留于嘗試階段,未能得到廣泛認(rèn)同。因此,我們并未將其作為一大研究視角單獨(dú)列出。如楊光以海爾和LG集團(tuán)為例,說(shuō)明鏈接分析原理和方法除在網(wǎng)絡(luò)計(jì)量學(xué)等領(lǐng)域得到較廣泛的應(yīng)用外,也可以應(yīng)用到企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)的建設(shè)中[86];Peter Stephenson提出鏈接分析可用于跟蹤網(wǎng)絡(luò)中各種類(lèi)型的欺詐[87]等。
2 鏈接分析的發(fā)展趨勢(shì)
鏈接分析盡管已得到蓬勃發(fā)展,但作為新興研究領(lǐng)域,其理論基礎(chǔ)、研究工具、研究方法等方面仍需進(jìn)一步研究。理論基礎(chǔ)方面,筆者認(rèn)為最需研究的是對(duì)鏈接的認(rèn)識(shí),如鏈接類(lèi)型、鏈接動(dòng)機(jī)等,對(duì)鏈
接認(rèn)識(shí)不足便進(jìn)行鏈接分析是不嚴(yán)謹(jǐn)?shù)模?研究工具方面,專(zhuān)業(yè)鏈接分析工具是網(wǎng)絡(luò)計(jì)量學(xué)視角下鏈接分析得以發(fā)展的基礎(chǔ),對(duì)其深入研究也是當(dāng)務(wù)之急;研究方法方面,除了當(dāng)前的研究方法外,可借鑒社會(huì)網(wǎng)絡(luò)分析法等其他學(xué)科方法以豐富其內(nèi)容和拓寬其應(yīng)用。
2.1 鏈接類(lèi)型識(shí)別
當(dāng)前國(guó)內(nèi)外鏈接分類(lèi)研究可謂鏈接分析中的熱點(diǎn)之一,關(guān)于鏈接分類(lèi)的依據(jù)及分類(lèi)結(jié)果則是眾說(shuō)紛紜,表1列舉了國(guó)內(nèi)外幾種有代表性的分類(lèi)依據(jù)與分類(lèi)結(jié)果。
除此之外,還有很多學(xué)者將鏈接分類(lèi),結(jié)果可謂五花八門(mén)[91][92][93][94][95]。根據(jù)當(dāng)前鏈接分析的研究現(xiàn)狀及鏈接分析分類(lèi)的應(yīng)用研究,筆者贊同Smith A,G將鏈接分為實(shí)質(zhì)性鏈接與非實(shí)質(zhì)性鏈接兩類(lèi),前者代表“認(rèn)可”,而后者則通指不代表“認(rèn)可”的鏈接。這樣簡(jiǎn)單分類(lèi)可提高鏈接分類(lèi)的可操作性,分類(lèi)后的實(shí)質(zhì)性鏈接可用于鏈接分析的各大算法及測(cè)度指標(biāo),以提高其有效性,如實(shí)質(zhì)性PR值,實(shí)質(zhì)性共鏈分析等。因此,鏈接分析的下一步工作便是將鏈接按這一標(biāo)準(zhǔn)分類(lèi),當(dāng)然,是計(jì)算機(jī)自動(dòng)分類(lèi),而不是手工分類(lèi)。
基于上文的論述,我們將鏈接類(lèi)型識(shí)別定義為:計(jì)算機(jī)根據(jù)鏈接源頁(yè)面和目標(biāo)頁(yè)面之間的關(guān)系,自動(dòng)識(shí)別鏈接類(lèi)型的過(guò)程。鏈接類(lèi)型識(shí)別是鏈接分析的難點(diǎn)之一,也是發(fā)展趨勢(shì)之一。
2.2 專(zhuān)業(yè)鏈接分析工具的開(kāi)發(fā)
所謂鏈接分析工具,是指用于統(tǒng)計(jì)鏈接總數(shù)、入鏈數(shù)、出鏈數(shù)、鏈接密度、頁(yè)面平均鏈接數(shù)、共鏈頻次、共鏈次數(shù)等鏈接分析指標(biāo)的工具,即網(wǎng)絡(luò)計(jì)量學(xué)視角的鏈接分析工具。鏈接分析研究初期,對(duì)鏈接數(shù)量等各指標(biāo)進(jìn)行統(tǒng)計(jì)時(shí),主要以商業(yè)搜索引擎Google、Alltheweb、Altavista等為工具。發(fā)現(xiàn)商業(yè)搜索引擎的缺陷無(wú)法避免之后,部分學(xué)者從中擇優(yōu)使用,另一部分學(xué)者則嘗試自制鏈接分析工具。1999年,Lei Cui等人參照引文分析的方法,以自制的“Checkweb”為工具,分析鏈接狀況,為統(tǒng)計(jì)鏈接數(shù)量作準(zhǔn)備[96];2001年,M. Thelwall針對(duì)商業(yè)搜索引擎檢索結(jié)果的不一致性,自制了鏈接分析軟件,用于測(cè)度網(wǎng)絡(luò)影響因子[14];2005年,段宇鋒以自制“Webstat”為工具做了鏈接分析的實(shí)證研究[97]。
商業(yè)搜索引擎存在檢索結(jié)果的“不一致性”的缺陷,且網(wǎng)頁(yè)收錄范圍不同,使用不同的搜索引擎作工具,便會(huì)得出不同的結(jié)論;而自制鏈接分析工具功能簡(jiǎn)單、適用范圍小[98],因此開(kāi)發(fā)專(zhuān)業(yè)鏈接分析工具是鏈接分析研究中的大勢(shì)所趨。
2.3 社會(huì)網(wǎng)絡(luò)分析法的應(yīng)用
社會(huì)網(wǎng)絡(luò)分析(Social Network Analysis , SNA) 方法一般是研究組織中諸如咨詢(xún)、信任、友誼、情報(bào)、溝通和工作流程等關(guān)系的網(wǎng)絡(luò), 以解釋組織內(nèi)部的決策、溝通、人事變動(dòng)和組織沖突等問(wèn)題[99]。社會(huì)網(wǎng)絡(luò)研究發(fā)端于上世紀(jì)二三十年代英國(guó)人類(lèi)學(xué)的研究,目前在情報(bào)學(xué)領(lǐng)域已有了多種應(yīng)用,裴雷等列舉了SNA方法在Web、網(wǎng)絡(luò)計(jì)量學(xué)、網(wǎng)絡(luò)鏈接行為和動(dòng)機(jī)及知識(shí)管理等方面的應(yīng)用[99],Linda S等人則將社會(huì)網(wǎng)絡(luò)分析與引文網(wǎng)絡(luò)分析比較,并認(rèn)為二者都是科學(xué)交流研究的重要方法[100],韓璽分析了社會(huì)網(wǎng)絡(luò)分析在競(jìng)爭(zhēng)情報(bào)中的應(yīng)用[101]。
不僅如此,在鏈接分析的研究中,社會(huì)網(wǎng)絡(luò)分析法可與鏈接網(wǎng)絡(luò)比較,用于為Web結(jié)構(gòu)圖建模,結(jié)構(gòu)洞理論(羅納德?伯特1992 年在《結(jié)構(gòu)洞》一書(shū)中提出[102])可用于分析結(jié)點(diǎn)網(wǎng)頁(yè)的信息保持與信息控制能力,也可用于挖掘鏈接結(jié)構(gòu)中處于核心位置的結(jié)點(diǎn)網(wǎng)頁(yè)。在深化我們對(duì)鏈接的認(rèn)識(shí)方面,社會(huì)網(wǎng)絡(luò)分析將起到重要作用。
3 結(jié)束語(yǔ)
鏈接分析研究自網(wǎng)頁(yè)間以“鏈接”形成Web開(kāi)始,并將隨著Web的發(fā)展而不斷深入。不同領(lǐng)域的學(xué)者的研究視角不同,圖書(shū)情報(bào)領(lǐng)域?qū)W者多從網(wǎng)絡(luò)計(jì)量學(xué)視角研究,計(jì)算機(jī)領(lǐng)域?qū)W者則多從檢索優(yōu)化、Web結(jié)構(gòu)挖掘、Web結(jié)構(gòu)圖建模等視角研究。不僅如此,鏈接分析研究中也逐漸滲入其他學(xué)科的研究方法。鏈接分析作為一個(gè)新興研究領(lǐng)域,在僅十余年的發(fā)展時(shí)間里,已經(jīng)取得了矚目的成就,如Pagerank算法成功的商業(yè)化應(yīng)用等。但從頗具爭(zhēng)議的網(wǎng)站影響力評(píng)價(jià)、不成熟的鏈接動(dòng)機(jī)判斷與鏈接類(lèi)型識(shí)別、難以提供準(zhǔn)確數(shù)據(jù)的鏈接分析工具以及對(duì)Web結(jié)構(gòu)圖粗略的認(rèn)識(shí)之中,我們可以發(fā)現(xiàn)當(dāng)前鏈接分析研究的諸多不足之處,解決這些問(wèn)題是我們共同努力的方向。
參考文獻(xiàn)
1 李彥宏.一鍵中的.中國(guó)計(jì)算機(jī)用戶(hù),2000(6): 54-55
2 邱均平,黃曉斌.WWW網(wǎng)頁(yè)的鏈接分析及其意義.中國(guó)圖書(shū)館學(xué)報(bào),2002,28(6):44-47
3 邱均平,段宇鋒.網(wǎng)絡(luò)信息計(jì)量學(xué)研究(Ⅲ)——大學(xué)網(wǎng)站鏈接特征指標(biāo)的計(jì)量分布規(guī)律.情報(bào)學(xué)報(bào),2005,24(4):407-413
4 馬大川,邱均平,段宇峰,陳敬全.中美學(xué)術(shù)型網(wǎng)站鏈接特征的比較研究.情報(bào)學(xué)報(bào),2003(6):659-664
5 段宇鋒,邱均平.中美大學(xué)網(wǎng)站評(píng)價(jià)的比較研究.中國(guó)圖書(shū)館學(xué)報(bào),2005,31(5):22-28
6 段宇峰.網(wǎng)站特征的定量研究(一)——對(duì)大學(xué)網(wǎng)站鏈接特征的探討.情報(bào)理論與實(shí)踐,2005,28(1):82-86
7 段宇鋒,趙蓉英,邱均平.網(wǎng)絡(luò)信息計(jì)量學(xué)研究(Ⅳ)——網(wǎng)站鏈接特征的分層研究.情報(bào)學(xué)報(bào),2005,24(5):573-584
8 陳文靜,陳耀盛.網(wǎng)絡(luò)信息資源評(píng)價(jià)研究述評(píng).四川圖書(shū)館學(xué)報(bào),2004(1):25-31
9 張?jiān)?網(wǎng)絡(luò)信息資源評(píng)價(jià)方法.圖書(shū)情報(bào)工作,2002(10):41-47,61
10 黃奇,李偉.基于鏈接分析的學(xué)術(shù)性WWW網(wǎng)絡(luò)資源評(píng)價(jià)與分類(lèi)方法.情報(bào)學(xué)報(bào),2001,20(2):186-192
11 劉雁書(shū).鏈接關(guān)系在網(wǎng)絡(luò)信息評(píng)價(jià)中的應(yīng)用研究.圖書(shū)情報(bào)工作,2001(12):80-80
12 Peter Ingwersen. The calculation of web impact factors. Journal of Documentation. 1998(2):236-243
13 Peter Vinkler. Characterization of the Impact of Sets of Scientific Papers: The Garfield (Impact) Factor. Journal of the American Society for Information Science and Technology, 55(5):431–435, 2004
14 Thelwall,M.Results from a Web Impact Factor Crawler.Joutnal of Documentation,2001,57(2):177-191
15 Thelwall M. Comparison of Sources of Links for Academic Web Impact Factor Calculations. Journal of Documentation ,2002 (1):66-78
16 Smith A ,Thelwall M. Web impact factors and university research links. In : Proceedings of the 8th International Conference on Scientometrics and Informetrics , Sydney,Australia ,Jul16-21 ,2001: 657-664
17 Junping Qiu ,Jingquan Chen. An analysis of backlink counts and Web impact factors for Chinese university Websites. In :Proceedings of the 9th International Conference on Scientometrics and Informetrics ,Beijing ,China ,Sep28-Oct02 ,2003: 221-229
18 Mike Thelwall.Extracting Macroscopic Information from Web Links. Journal of the American Society for Information Science and Technology,Nov. 2001, 52, (13):1157-1168
19 Owen Thomas,Peter Willett. Webometric analysis of departments of librarianship and information science,Journal of Information Science,2000 (6): 421-428
20 段宇鋒,邱均平.基于鏈接分析的網(wǎng)站評(píng)價(jià)研究.中國(guó)圖書(shū)館學(xué)報(bào),2005,31(4):19-23,41
21 朱雷.中美兩國(guó)醫(yī)院網(wǎng)站網(wǎng)絡(luò)影響力指標(biāo)對(duì)比評(píng)測(cè)研究.現(xiàn)代圖書(shū)情報(bào)技術(shù),2006(3):64-67,81
22 段宇鋒.網(wǎng)站特征的定量研究(Ⅱ)——大學(xué)網(wǎng)站影響力探討.情報(bào)理論與實(shí)踐,2005,28(2):191-194,175
23 沙勇忠,歐陽(yáng)霞.中國(guó)省級(jí)政府網(wǎng)站的影響力評(píng)價(jià)——網(wǎng)站鏈接分析及網(wǎng)絡(luò)影響因子測(cè)度.情報(bào)資料工作,2004(6):17-22
24 沙勇忠,牛春華.中國(guó)信息化優(yōu)秀企業(yè)網(wǎng)站鏈接分析與網(wǎng)絡(luò)影響因子測(cè)度.蘭州大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2004, 32(5):99-107
25 邱均平,陳敬全,段宇鋒.中國(guó)大學(xué)網(wǎng)站鏈接分析及網(wǎng)絡(luò)影響因子探討.中國(guó)軟科學(xué),2003(6):151-155
26 王宏鑫.我國(guó)省級(jí)以上公共圖書(shū)館網(wǎng)站的鏈接分析.中國(guó)圖書(shū)館學(xué)報(bào),2005,31(3):86-89,97
27 Franz Barjak,Xuemei Li and Mike Thelwall.Which Factors Explain the Web Impact of Scientists餚ersonal Homepages? Journal of the American Society for Information Science and Technology, 2007,58(2):200-211
28 Liwen Vaughan,Mike Thelwall .Web link counts correlate with IS1 Impact Factors:Evidence from two Disciplines. In:Proceedings of the AS-IST Annual Metting,2002:436-443
29 Tang,R.,Thelwall,M..Exploring the pattern of links between Chinese university Web sites.Proceedings of the 65th Annual Meeting of the American Society for Informati on Science and Technology,2002,(39):417-424
30 段宇鋒,邱均平.網(wǎng)絡(luò)信息計(jì)量學(xué)研究(Ⅴ)——鏈接分析在大學(xué)評(píng)價(jià)中的應(yīng)用研究.情報(bào)學(xué)報(bào),2005,24 (6):735-741
31 謝奇,張晗.中國(guó)大學(xué)網(wǎng)站的網(wǎng)絡(luò)計(jì)量學(xué)研究.現(xiàn)代圖書(shū)情報(bào)技術(shù),2005(7):74-77
32 袁毅.鏈接分析用于學(xué)術(shù)網(wǎng)站評(píng)價(jià)存在的問(wèn)題及解決辦法.情報(bào)學(xué)報(bào),2005,24(5):585-593
33 楊濤.鏈接分析法存在的問(wèn)題及改進(jìn)方法.圖書(shū)情報(bào)知識(shí),2002(3):62-63
34 劉雁書(shū),方平.Web網(wǎng)站站外鏈接類(lèi)型與特征調(diào)查——鏈接分析法可行性研究.大學(xué)圖書(shū)館學(xué)報(bào),2001,19(5):65-68
35 劉雁書(shū),方平.利用鏈接關(guān)系評(píng)價(jià)網(wǎng)絡(luò)信息的可行性研究.情報(bào)學(xué)報(bào),2002,21(4):401-406
36 張晗,郭文,崔雷.鏈接分析法評(píng)價(jià)醫(yī)學(xué)網(wǎng)絡(luò)資源的可靠性研究.醫(yī)學(xué)情報(bào)工作,2005,26(6):427-430
37 邱均平,李江.鏈接分析與引文分析的比較.中國(guó)圖書(shū)館學(xué)報(bào),2007(5)
38 T.Almind, P.Ingwersen. Informetric analyses on the World Wide Web:Methodological approaches to “webometrics”.Journal of Documentation,1997,53:404-426
39 Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd. The PageRank Citation Ranking: Bringing Order to the Web, 1998. [2006-10-26]. http://dbpubs.stanford.edu:809 0/pub/showDoc.F
40 J Kleinberg. Authoritative Sources in a Hyperlinked Environment.1998. [2006-10-26]. http://www.cs.cornell.edu/home/kleinber/auth.pdf
41 吳明禮,施水才.一種結(jié)合超鏈接分析的搜索引擎排序方法.計(jì)算機(jī)工程,2004,30(15):143-145
42 王秀平,李治柱.一種改進(jìn)的搜索引擎網(wǎng)頁(yè)排序算法.計(jì)算機(jī)科學(xué),2004,31(9):17-19
43 王曉宇,周傲英.萬(wàn)維網(wǎng)的鏈接結(jié)構(gòu)分析及其應(yīng)用綜述.軟件學(xué)報(bào),2003,14(10):1768-1780
44 搜索引擎中鏈接分析的HITS.2007-04-11.[2007-4-18]. http://www.seo886.com/Articles/20070411/sou_suo_yin_qing_zhong_lian_jie_fen_xi_de_1_863.html
45 王曉宇,熊方,凌波,周傲英.一種基于相似度分析的主題提取和發(fā)現(xiàn)算法.軟件學(xué)報(bào),2003,14(9):1578-1585
46 石晶,龔震宇等.一種更穩(wěn)定的鏈接分析算法——子空間HITS算法.吉林大學(xué)學(xué)報(bào):理學(xué)版,2003,41(1):49-53
47 楊沛,鄭啟倫,彭宏.Inherit/Feedback:一種新的Web主題挖掘方法.計(jì)算機(jī)研究與發(fā)展,2004,41(5): 807-811
48 韓亞洪,許卓明,董逸生.Web信息檢索中主題精選算法的研究與改進(jìn).計(jì)算機(jī)工程與應(yīng)用,2004,40(17): 174-178
49 傅向華,馬兆豐,何明,馮博琴.一種個(gè)性化的主題提取和層次發(fā)現(xiàn)算法.西安交通大學(xué)學(xué)報(bào),2005,39(2): 119-122
50 傅向華,馮博琴,馬兆豐,何明.基于查詢(xún)擴(kuò)展的Web鏈接主題提取算法.小型微型計(jì)算機(jī)系統(tǒng),2005,26(11): 1951-1954
51 王勇,楊華千,李建福.Web結(jié)構(gòu)挖掘中基于熵的鏈接分析法.計(jì)算機(jī)工程與設(shè)計(jì),2006,27(9): 1622-1624,1688
52 Qiang Wang, Yan Liu, and JunYong Luo.Exploiting Link Analysis with a Three-Layer Web Structure Model. K. Aberer et al. (Eds.): WISE 2006, LNCS 4255,2006:187-198
53 Larson R R,Bibliometrics of the World Wide Web : an Exploratory Analysis of the Intellectual Structure of Cyberspace,Proceedings of the American Society for Information Science (ASIS) 59th Annual Meeting,1996
54 Rousseau R,Sitation: an exploratory study,Cybermetrics,1997,1(1).[2006-10-26].http: //www.cindoc.csic.es/cybermetrics/articles/v1i1p1.html
55 Peter Ingwersen. The calculation of web impact factors,Journal of Documentation,1998(2): 236-243
56 Owen Thomas,Peter Willett. Webometric analysis of departments of librarianship and information science. Journal of Information Science,2000 (6): 421-428
57 呂俊生.網(wǎng)上信息資源的鏈接分析研究.情報(bào)科學(xué),2005,23(1):78-82,139
58 劉雁書(shū),方平.利用鏈接關(guān)系評(píng)價(jià)網(wǎng)絡(luò)信息的可行性研究.情報(bào)學(xué)報(bào),2002(4): 401-406
59 邱均平,安璐.中文期刊影響因子與網(wǎng)絡(luò)影響因子和外部鏈接數(shù)的關(guān)系研究.情報(bào)學(xué)報(bào),2003,22(4):
60 朱雷.中美兩國(guó)醫(yī)院網(wǎng)站網(wǎng)絡(luò)影響力指標(biāo)對(duì)比評(píng)測(cè)研究.現(xiàn)代圖書(shū)情報(bào)技術(shù),2006(3): 64-81
61 Rousseau R.,Daily time series of common single word searches in Altavista and NorthernLight,Cybermetrics: International Journal of Scientometrics,Informetrics and Bibli ome trics,1999(2).[2006-11-11].http: //www.cindoc.csic.es/cybermetrics/articles/v2i1p2.pdf
62 Greg R.Notess,On-the-fly Search Engine Analysis,Online,1999,23(5): 63-65
63 Greg R.Notess,Search engine inconsistencies,Online,2000,24(2): 66-68
64 Maryellen Mott Allen.Six degrees of affiliation: the small world of search tools,Online,2000,24(5): 49-51
65 Owen Thomas,Peter Willett,Webometric analysis of departments of librarianship and information science,Journal of Information Science,2000 (6): 421-428
66 Judit Bar-llan,Evaluating the stability of the search tools hotbot and snap: a case study,Online Information Review,2000,24(6): 439
67 吳茵茵.網(wǎng)絡(luò)影響因子實(shí)證研究:基于不同搜索引擎的大學(xué)網(wǎng)站影響力分析.圖書(shū)情報(bào)工作, 2005, 49 (4) :107-111
68 徐家坤.網(wǎng)絡(luò)信息計(jì)量學(xué)中常用的四種搜索引擎的比較研究.現(xiàn)代圖書(shū)情報(bào)技術(shù), 2004(11) : 46-48 69 吳茵茵.不同搜索引擎在網(wǎng)絡(luò)影響因子分析中的比較研究.情報(bào)科學(xué),2005(3):431-435
70 楊木容.搜索引擎在網(wǎng)絡(luò)鏈接分析中的應(yīng)用研究.圖書(shū)情報(bào)工作,2006,50(11):91-94
71 呂俊生,楊金鳳.用于鏈接關(guān)系檢索的搜索引擎的比較研究.情報(bào)雜志,2005,24(2):98-100
72 邱均平,李江,于琦.搜索引擎用于測(cè)定網(wǎng)絡(luò)影響因子時(shí)的一致性比較及原因分析.情報(bào)學(xué)報(bào),2006(6):686-694
73 什么是網(wǎng)絡(luò)爬蟲(chóng)?[2007-4-20].ttp://zhidao.baidu.com/question/3378135.html
74 G. Almpanidis, C. Kotropoulos,I. Pitas. Combining text and link analysis for focused crawling—An application for vertical search engines,2006(9):1-23
75 汪濤,樊孝忠.鏈接分析對(duì)主題爬蟲(chóng)的改進(jìn).計(jì)算機(jī)應(yīng)用,2004,24(B12):174-176
76 蘇新寧.數(shù)據(jù)挖掘理論與技術(shù).北京:科學(xué)技術(shù)文獻(xiàn)出版社,2003
77 何擁軍,駱嘉偉,孫星明.應(yīng)用鏈接分析的web搜索結(jié)果聚類(lèi).計(jì)算機(jī)工程與應(yīng)用,2005,41( 2):179-183
78 王元珍,陳濤.基于歸類(lèi)的鏈接分析技術(shù).計(jì)算機(jī)工程與應(yīng)用,2005,41(13):172-173,203
79 牛春華,沙勇忠.Web空間內(nèi)部鏈接特征的聚類(lèi)分析.圖書(shū)情報(bào)知識(shí),2006(6):22-27
80 Thelwall M, Wilkinson. Finding similar academic Web sites with links, bibliometric couplings and colinks. Information Processing and Management. 2004,40(3):515-526
81 Vaughan L, You J. Mapping business competitive positions using Web co-link analysis. In: Ingwerson P, Larsen B eds. The Proceeding of ISSI. Sweden: ISSI, 2005
82 Alesia Zuccala.Author Cocitation Analysis Is to Intellectual Structure As Web Colink Analysis Is to . . . ? Journal of the American Society for Information Science and Technology, 2006,57(11):1487–1502
83 高琰,谷士文,唐琎.基于鏈接分析的Web社區(qū)發(fā)現(xiàn)技術(shù)的研究.計(jì)算機(jī)應(yīng)用研究,2006,23(7):183-185
84 Kumar R, Raghavan P, Rajagopalan S, Sivakumar D, Tomkins A, Upfal E. The Web as a graph. In: Serge A, ed. Proceedings of the 18th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems. Pennsylvania: ACM Press, 1999:109-118
85 司徒俊峰. Internet的小世界網(wǎng)絡(luò)模型.情報(bào)雜志,2004(12):86-88
86 楊光.鏈接分析在企業(yè)競(jìng)爭(zhēng)情報(bào)活動(dòng)中的應(yīng)用.圖書(shū)情報(bào)工作,2005, 49(1):19-21,68
87 Peter Stephenson.Manual Link Analysis and Trace Back. Computer Fraud and Security,2003(6):17-20
88 Smith A,G.Classifying links for substantive Web Impact Factors. In: Proceedings of the 9th International Conference onScientometrics and Informetrics, Beijing, China, Sep 28- Oct02,2003:305-311
89 HTML 4.01 Specification.[2006-12-24].http://www.w3.org/TR/1999/REC— html401— 19991224
90 袁毅.核心網(wǎng)站評(píng)選的理論與方法.北京:北京圖書(shū)館出版社,2005
91 Hak Joon Kim. Motivations for hyperlinking in scholarly electronic articles: A qualitative study. Journal of the American Society for Information Science. 2000,51(10): 887
92 James Allan.Automatic Hypertext Link Typing. In Proe.For Hypertext96,conf.,W ashington,D.C.,USA ,1996,3:42—52
93 Yoshiaki Mizuuehi and Keishi Tajima.Finding context paths for Web pages.In Proe.of the lOth ACM Conf.on Hypertext and hypermedia.Darmstadt,Germany,pages, 1999,2,13—22
94 Ellen Spertus. ParaSite:Mining structural information on the Web.Computer Network and ISDN System,1997(29):1205—1215
95 Heting Chu.Taxonomy of inlinked Web entities: What does it imply for webometric research?Library & Information Science Research 27 (2005): 8-27
96 Lei Cui,MD,MS .Rating Health Web sites using the principles of Citation Analysis: A Bibliometric Approach,Journal of Medical Internet Research,1999,1(1): 1438-1471
97 段宇鋒.網(wǎng)絡(luò)鏈接分析與網(wǎng)站評(píng)價(jià)研究.北京: 北京圖書(shū)館出版社,2005
98 邱均平,李江.當(dāng)前鏈接分析工具的缺陷及其解決方案.情報(bào)科學(xué),2007(5) :641-647
99 裴雷,馬費(fèi)成.社會(huì)網(wǎng)絡(luò)分析在情報(bào)學(xué)中的應(yīng)用和發(fā)展.圖書(shū)館論壇,2006,26(6):40-45
100 Linda S. Marion, Eugene Garfield, Lowell L. Hargens, Leah A. Lievrouw, Howard D. White, Concepción S. Wilson. Social network analysis and citation network analysis: Com plementary approaches to the study of scientific communication. Proceedings of the American Society for Information Science and Technology, 2003,40(1):486-487
101 韓璽.競(jìng)爭(zhēng)情報(bào)人際關(guān)系網(wǎng)絡(luò)及其構(gòu)建.圖書(shū)情報(bào)工作,2006,50(4):43-46,76
102 胡蓉,鄧小昭.基于結(jié)構(gòu)洞理論的個(gè)人人際網(wǎng)絡(luò)分析系統(tǒng)研究.情報(bào)學(xué)報(bào),2005,24(4):485-489 お
作者單位:南京大學(xué)信息管理系,南京,200093
集美大學(xué)科技處,廈門(mén),361000
收稿日期:2007年6月21日
A Review on Link Analysis
Li Jiang Yin Zhiming
Abstract:Based on the relative study of link analysis during the past years, the authors summarized the four perspectives of Link analysis including Webometrics, Optimization of Information Retrieval, Web structure mining and Modeling for the Web structure. Furthermore, the status quo of each perspective are analyzed.
Keywords:Link Analysis; Webometrics; Optimization of Information Retrieval; Web Structure Mining; Modeling for the Web Structure