• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      搜索引擎垃圾網(wǎng)頁檢測模型研究

      2011-09-12 01:00:34賈志洋夏幼明王勇剛
      重慶高教研究 2011年5期
      關(guān)鍵詞:搜索引擎分類器網(wǎng)頁

      賈志洋,夏幼明,高 煒,王勇剛

      (1.云南大學旅游文化學院,云南 麗江 674100;2.云南師范大學信息學院,云南 昆明 650092)

      隨著互聯(lián)網(wǎng)各種網(wǎng)頁數(shù)量爆炸式增長,用戶使用搜索引擎查找信息已經(jīng)成為了最近幾年信息檢索的主要方式.大多數(shù)網(wǎng)站管理者都希望他們的網(wǎng)站在搜索引擎的搜索結(jié)果中排名靠前,很多的網(wǎng)站管理者會采取合理的搜索引擎優(yōu)化技術(shù)(SEO)[1],通過在網(wǎng)頁中提供給用戶更多、更有效的信息,以提升他們的網(wǎng)站在搜索引擎的搜索結(jié)果中的排名.而有些網(wǎng)站則通過一些“不道德”的方式來提升在搜索引擎的搜索結(jié)果中的排名.更有甚者,為了吸引訪問量,手動或自動地制造一些網(wǎng)頁.這些網(wǎng)頁沒有提供給用戶任何有效信息.這些網(wǎng)頁是直接針對搜索引擎的,但是在搜索引擎的搜索結(jié)果中獲得了很高的排名,當用戶查詢某些關(guān)鍵詞的時候,就有可能訪問這些搜索引擎垃圾網(wǎng)頁(Web Spam)[2].

      搜索引擎垃圾網(wǎng)頁導致的主要后果為:搜索引擎檢索結(jié)果質(zhì)量下降,搜索引擎公司的資源的消耗和用戶體驗的降低.為解決數(shù)量日益增長的垃圾網(wǎng)頁產(chǎn)生的各種問題,國內(nèi)外學者對垃圾網(wǎng)頁及垃圾網(wǎng)頁檢測都進行了深入的研究.為方便各國學者進行對比研究,Castillo C.等[3]組織志愿者收集整理了WEBSPAM-UK2006垃圾網(wǎng)頁集.WEBSPAM-UK2006于2006年5月開始,收集了150 000個UK域名下的總計77 900 000個網(wǎng)頁,其中的垃圾網(wǎng)頁都由志愿者手工挑選出,提供給相關(guān)實驗研究免費使用.大量的學者都使用WEBSPAM-UK2006作為其實驗樣本集.

      1 垃圾網(wǎng)頁常見檢測模型

      國內(nèi)外的學者提出了各種基于機器學習的垃圾網(wǎng)頁檢測模型.大多數(shù)基于機器學習的垃圾網(wǎng)頁檢測模型都將垃圾網(wǎng)頁的檢測視為一個二元分類問題.它首先需要學習一個網(wǎng)頁分類器,這個網(wǎng)頁分類器可以預測網(wǎng)頁的類別:正常網(wǎng)頁或垃圾網(wǎng)頁.其分類原理為:首先模擬搜索引擎的網(wǎng)絡(luò)爬蟲從Web爬行一定數(shù)量的網(wǎng)頁,然后手工識別已下載的網(wǎng)頁是否為垃圾網(wǎng)頁.下載的網(wǎng)頁集被劃分為訓練網(wǎng)頁集和測試網(wǎng)頁集,根據(jù)機器學習的算法,使用訓練網(wǎng)頁集學習分類器,然后使用分類器對測試網(wǎng)頁集中的每一個網(wǎng)頁進行分類預測,以測試分類器的分類效果[4].

      1.1 基于內(nèi)容的垃圾網(wǎng)頁檢測模型

      基于網(wǎng)頁內(nèi)容特征分析的垃圾網(wǎng)頁檢測模型主要針對采用了關(guān)鍵詞堆砌技術(shù)的垃圾網(wǎng)頁,其典型為Alexandros Ntoulas等[5]設(shè)計的垃圾網(wǎng)頁檢測模型.Alexandros Ntoulas等根據(jù)正常網(wǎng)頁和垃圾網(wǎng)頁的內(nèi)容差別,對網(wǎng)頁的內(nèi)容特征進行了提取,統(tǒng)計了數(shù)據(jù)集中網(wǎng)頁的語言相關(guān)和語言無關(guān)的各種內(nèi)容特征,并根據(jù)統(tǒng)計結(jié)果分析可以作為構(gòu)建網(wǎng)頁分類器的內(nèi)容特征.為了檢測網(wǎng)頁中是否采用了關(guān)鍵詞堆砌等作弊技術(shù),Alexandros Ntoulas等將數(shù)據(jù)集中的網(wǎng)頁壓縮并計算其被壓縮前后所占空間大小的比值,這個比值被稱為網(wǎng)頁壓縮率(Compression ratio)[5],并計算了數(shù)據(jù)集中每個網(wǎng)頁的壓縮率,統(tǒng)計得出網(wǎng)頁壓縮率的分布如圖1[5].從圖1中可以觀察到,網(wǎng)頁壓縮率的分布服從正態(tài)分布,在2.0位置達到最高點,在壓縮率大于4.0時,網(wǎng)頁是垃圾網(wǎng)頁的可能性大于70%,故網(wǎng)頁壓縮率為判定網(wǎng)頁是否作弊的一個較好的特征.除了網(wǎng)頁壓縮率特征外,Alexandros Ntoulas等還統(tǒng)計分析了網(wǎng)頁單詞數(shù)量、標題單詞數(shù)量、單詞平均長度、鏈接數(shù)量、可視文本率、常用詞出現(xiàn)率、n-gram相似度、網(wǎng)頁URL長度等內(nèi)容特征.根據(jù)提取的網(wǎng)頁內(nèi)容特征,然后將垃圾網(wǎng)頁的檢測看成一個二元分類問題,基于C4.5決策樹算法通過訓練網(wǎng)頁集學習一個分類器,對測試網(wǎng)頁集的網(wǎng)頁的類別進行預測.由于忽略了網(wǎng)頁之間的鏈接關(guān)系,這種基于網(wǎng)頁內(nèi)容的垃圾網(wǎng)頁檢測模型在檢測關(guān)鍵詞堆砌類型的垃圾網(wǎng)頁時具有較好的效果,而對鏈接堆砌類型的垃圾網(wǎng)頁檢測效果則不佳,故此基于內(nèi)容特征的垃圾網(wǎng)頁檢測模型的準確率有限.

      圖1 網(wǎng)頁壓縮率的分布與垃圾網(wǎng)頁

      1.2 基于鏈接結(jié)構(gòu)的垃圾網(wǎng)頁檢測模型

      大多數(shù)垃圾網(wǎng)頁都采用了鏈接堆砌技術(shù)以提高其在搜索結(jié)果中的排名.基于鏈接結(jié)構(gòu)的垃圾網(wǎng)頁檢測模型可以有效地檢測此類垃圾網(wǎng)頁.這類垃圾網(wǎng)頁檢測模型都基于某一個假設(shè):正常網(wǎng)頁只指向(被指向)正常網(wǎng)頁或垃圾網(wǎng)頁指向(被指向)垃圾網(wǎng)頁.這類算法的原理都很類似,都是可信度(不可信度)傳播算法,從一個已經(jīng)標定為可信(垃圾)網(wǎng)頁的集合開始(種子網(wǎng)頁集),通過可信度或不可信度傳播的原則對所有的網(wǎng)頁節(jié)點進行可信度和不可信度的計算,其中經(jīng)典模型為可信度正向傳播的TrustRank算法[6].

      1.2.1 TrustRank檢測模型

      TrustRank 模型是 PageRank[7]算法的一個變形,區(qū)別在于TrustRank算法從種子集合起始向其他網(wǎng)頁傳播可信度,而PageRank算法在全局根據(jù)鏈接信息進行 PageRank值的計算.TrustRank算法的前提假設(shè)是:“可信網(wǎng)頁的鏈接所指向的網(wǎng)頁通常也是可信網(wǎng)頁”[6].TrustRank算法分為兩個步驟:

      第一步,它根據(jù)逆向PageRank計算的數(shù)值向量,對所有節(jié)點進行從高到低的排序,挑選出一定數(shù)量的PR值較高的網(wǎng)頁節(jié)點,形成種子集合,通過專家評測這些種子網(wǎng)頁節(jié)點,把他們標記為垃圾網(wǎng)頁(spam)和可信網(wǎng)頁(reputable).經(jīng)過人工評測后的種子集合才可以作為真正的種子集合被TrustRank所使用.所有選出的種子節(jié)點在評測后形成向量d,如公式(1)[6]所示.

      第二步,為了利用PageRank的算法傳播信任值,需要對d進行歸一化操作,如公式(2)[6]所示.

      然后將d替換為均一向量ln,利用同樣的算法進行迭代計算,直至算法收斂,TrustRank的計算公式為[6]:

      公式(3)中,t是TrustRank值向量,d偏向于在種子集中的可信網(wǎng)頁,而在PageRank算法中隨機跳轉(zhuǎn)的向量元素皆為1/N.因為在網(wǎng)絡(luò)中普通的鏈接并不都具有可信任性,而TrustRank中評測的可信網(wǎng)頁所發(fā)出的鏈接常具有可信任性,進而比PageRank算法更加的可靠,因為它利用了人工評測的可信信息,并將這些信息通過鏈接結(jié)構(gòu)進行傳播.與PankRank算法類似,TrustRank的可信度進行可信度傳播時采取了衰減和分裂策略,即距離種子網(wǎng)頁越遠(從鏈接的層次考慮),其從種子網(wǎng)頁獲取到的可信度就越小.假如一個網(wǎng)頁從種子網(wǎng)頁集中的一個網(wǎng)頁的出鏈接獲取到可信度β,那么這個網(wǎng)頁的出鏈接指向的網(wǎng)頁可以從這個網(wǎng)頁獲取到可信度為β×β,這種策略稱之為可信度衰減(Trust dampening)[6].假如一個可信網(wǎng)頁只有一個出鏈接,那么這個鏈接指向的網(wǎng)頁應具有較高的可信度;相反,如果一個可信網(wǎng)頁具有上百個出鏈接,那么這些鏈接中的某一個就可能指向垃圾網(wǎng)頁.這是基于這樣一個假設(shè):“TrustRank算法在網(wǎng)頁的可信度進行傳播的時候?qū)⒆陨淼目尚哦确至?Trust splitting).[6]”

      TrustRank可以有效地區(qū)分垃圾網(wǎng)頁和可信網(wǎng)頁,因為它使用了人工評測的信息(種子網(wǎng)頁集),這些信息不容易被垃圾網(wǎng)頁(制造者)所影響.因此同PageRank相比,TrustRank通過種子集合和鏈接結(jié)構(gòu)能夠賦予可信網(wǎng)頁較高的TrustRank值,而給作弊節(jié)點較低的TrustRank值,從而有效地檢測作弊行為.但是TrustRank所依賴的種子集合的質(zhì)量和數(shù)量會對它的算法性能產(chǎn)生影響.首先,如果種子網(wǎng)頁集合的可信網(wǎng)頁數(shù)量比較小,或者其中可信網(wǎng)頁的比例比較小,根據(jù)TrustRank定義的衰減傳播方法,種子網(wǎng)頁集合對于其他網(wǎng)頁的影響會較小,因此就失去了TrustRank算法的傳播可信度的意義.此外,如果種子網(wǎng)頁集合只隸屬于少數(shù)的話題或者領(lǐng)域,TrustRank的排序結(jié)果會把沒有出現(xiàn)的話題和領(lǐng)域的網(wǎng)頁排名靠后,而提升那些同種子集中相同話題或領(lǐng)域的網(wǎng)頁.再次,如果網(wǎng)頁集合中的網(wǎng)頁含有從可信網(wǎng)頁到垃圾網(wǎng)頁的鏈接,這樣的種子集合也不適用于做種子網(wǎng)頁,因為它們不符合可信網(wǎng)頁指向可信網(wǎng)頁的前提.TrustRank算法的效率會依賴于種子集合的質(zhì)量和數(shù)量,若要較好地發(fā)揮TrustRank算法的垃圾網(wǎng)頁檢測效果,就要能保證找到一個合適的種子集合.此外,此類基于鏈接結(jié)構(gòu)的迭代算法都具有類似的弱點,即忽略了網(wǎng)頁本身的內(nèi)容信息,而且會對部分垃圾網(wǎng)頁造成誤判.針對以上問題,Baoning Wu等[8]提出了Topical TrustRank算法,其主要思想是:首先使用主題信息將種子子集進行分類,然后針對每個主題單獨計算可信度.這一算法克服了TrustRank的缺點.

      1.2.2 類TrustRank檢測模型

      BadRank[9]與 Anti-TrustRank[10]檢測模型十分類似,皆為不可信度的傳播算法.以BadRank為例,BadRank基于這樣一個假設(shè):如果一個網(wǎng)頁的一個出鏈接指向了一個BadRank值較高的網(wǎng)頁,那么這個網(wǎng)頁的BadRank值也應該較高.如圖2[9]所示,與 PageRank 和 TrustRank不同,BadRank的值是反向傳播的.BadRank的計算公式如(4)[9]式所示.

      其中 BR(A)為網(wǎng)頁 A的 BadRank值,BR(Ti)為網(wǎng)頁A的出鏈接所指向的網(wǎng)頁Ti的BadRank值,C(Ti)為網(wǎng)頁Ti的入鏈接數(shù),d為阻尼因數(shù),E(A)為網(wǎng)頁A的初始化BadRank值.

      圖2 BadRank不可信度反向傳播示意圖

      既然網(wǎng)頁的可信度可以表明網(wǎng)頁是正常網(wǎng)頁的可能性,網(wǎng)頁的不可信度可以表明網(wǎng)頁是垃圾網(wǎng)頁的可能性,那么將網(wǎng)頁的可信度和不可信度結(jié)合起來就是個很自然的想法.Wu Baoning[11]等給網(wǎng)頁同時賦予 Trust與 DisTrust兩個屬性,并認為它們都可以在網(wǎng)頁間傳播(如圖3[11]所示),可信度(Trust)是正向傳播的,而不可信度(Distrust)是反向傳播的.算法最終使用可信度和不可信度兩個特征的結(jié)合作為其是否為垃圾網(wǎng)頁的最終判斷標準,其判斷公式如(5)[11]式所示,

      其中,Total(i)表示網(wǎng)頁i的可信度與不可信度的差異,TR(i)表示網(wǎng)頁 i的可信度,DIS_TR(i)表示網(wǎng)頁i的不可信度,η和β分別是兩個權(quán)重系數(shù)(0<η<1,0<β<1).在試驗中,Baoning Wu等令η=1-β,并測試了各種η取值對垃圾網(wǎng)頁檢測效果的影響.實驗表明,當η=0.1時的垃圾網(wǎng)頁檢測效果最佳.

      圖3 結(jié)合可信度正向傳播與不可信度反向傳播的模型

      1.3 結(jié)合內(nèi)容特征和鏈接信息垃圾網(wǎng)頁檢測模型

      由于基于內(nèi)容特征的垃圾網(wǎng)頁檢測模型忽略了網(wǎng)頁之間的鏈接關(guān)系,基于鏈接結(jié)構(gòu)的垃圾網(wǎng)頁檢測模型又忽略了網(wǎng)頁的內(nèi)容特征,Gan Qingqing等[12]設(shè)計了基于網(wǎng)頁內(nèi)容特征的改進模型.此模型不但利用了網(wǎng)頁的內(nèi)容特征,而且根據(jù)網(wǎng)頁之間的鏈接結(jié)構(gòu)對檢測結(jié)果進行了修正,其垃圾網(wǎng)頁的檢測效果明顯好于基于網(wǎng)頁內(nèi)容特征的檢測模型.此模型首先根據(jù)網(wǎng)頁的內(nèi)容特征和鏈接特征構(gòu)建了基準分類器,然后根據(jù)網(wǎng)頁的鄰居結(jié)點網(wǎng)頁的分類結(jié)果對網(wǎng)頁的分類進行修正.Gan Qingqing等對網(wǎng)頁的內(nèi)容特征進行了提取,提取的特征包括:網(wǎng)頁包含單詞數(shù)量、網(wǎng)頁內(nèi)所有單詞的平均長度、常用詞出現(xiàn)率、可視文本率、網(wǎng)頁標題長度、網(wǎng)頁包含的超級鏈接數(shù)量、網(wǎng)頁HTML源代碼的壓縮率等.除了網(wǎng)頁的內(nèi)容特征,Gan Qingqing等也提取了網(wǎng)頁的鏈接特征(網(wǎng)站級別鏈接特征).提取的鏈接特征包括:網(wǎng)頁的平均出鏈接數(shù)量、網(wǎng)頁的平均入鏈接數(shù)量、入鏈接平均層次、出鏈接平均層次、網(wǎng)頁的平均層次等特征.根據(jù)以上的內(nèi)容特征和鏈接特征,使用C4.5決策樹算法訓練分類器,并對數(shù)據(jù)集中的網(wǎng)頁的類別進行了分類預測.為進一步使用網(wǎng)頁的鏈接結(jié)構(gòu)信息,Gan Qingqing等根據(jù)分類器的分類結(jié)果,結(jié)合網(wǎng)頁之間的鏈接信息對分類結(jié)果進行了修正.Gan Qingqing等統(tǒng)計分析了網(wǎng)頁的鄰居結(jié)點(指向網(wǎng)頁的鄰居結(jié)點)的垃圾網(wǎng)頁比率,如果網(wǎng)頁的鄰居結(jié)點的鄰居網(wǎng)頁中的垃圾網(wǎng)頁大于0.5,那么就將這個網(wǎng)頁標號為垃圾網(wǎng)頁.

      雖然Gan Qingqing等的檢測模型利用了網(wǎng)頁之間的鏈接結(jié)構(gòu)信息,但其檢測準確率受基準分類器的分類效果影響較大,故垃圾網(wǎng)頁的檢測準確率的提高有限.

      現(xiàn)有的基于內(nèi)容特征的垃圾網(wǎng)頁檢測模型忽略了網(wǎng)頁之間的鏈接關(guān)系,故筆者[13]構(gòu)建了軟間隔支持向量機分類器,以網(wǎng)頁的內(nèi)容特征作為支持向量,根據(jù)網(wǎng)頁之間的鏈接具有相似性的特點定義了懲罰函數(shù),使用樣本集學習出了線性支持向量機網(wǎng)頁分類器,并對分類器的分類效果進行了測試.實驗結(jié)果表明,基于支持向量機的分類器的效果明顯好于使用內(nèi)容特征構(gòu)建的決策樹分類器.但此模型基于一個假設(shè)[13]:“正常網(wǎng)頁的出鏈接只指向正常網(wǎng)頁,正常網(wǎng)頁的出鏈接幾乎不指向垃圾網(wǎng)頁.”,而且構(gòu)建了線性支持向量機,其對于樣本的分布的依賴性過強,分類效果穩(wěn)定性不強.

      1.4 其他檢測模型

      1)基于圖挖掘的檢測模型.Hiroo Saito等[14]將整個Web視為一個有向圖,將其分解成強連通分支(Strongly Connected Component),除了最大的強連通分支以外,其他的比較大的強連通分支基本上都是鏈接工廠(垃圾網(wǎng)頁的一種),根據(jù)圖論的算法計算出較大團,并將它們作為垃圾網(wǎng)頁種子集,然后將種子集繼續(xù)擴充,直到得到最終的垃圾網(wǎng)頁集.這種檢測模型實際上還是對網(wǎng)頁之間的鏈接結(jié)構(gòu)進行分析挖掘,同樣忽略了網(wǎng)頁的內(nèi)容信息,處理海量網(wǎng)頁數(shù)據(jù)的效率較佳.

      2)武磊等[15]從多個網(wǎng)絡(luò)鏈接圖中提取結(jié)構(gòu)信息與時域信息,并且提出了一種將結(jié)構(gòu)信息與時域信息結(jié)合起來的檢測模型.武磊等使用了由某商業(yè)搜索引擎提供的從2006年3月至2006年6月連續(xù)4個月的網(wǎng)絡(luò)鏈接圖的抽樣子圖,每張子圖均包含網(wǎng)站的URL以及網(wǎng)站之間的鏈接數(shù)等信息.根據(jù)對數(shù)據(jù)集中的網(wǎng)站數(shù)據(jù)進行統(tǒng)計分析,將網(wǎng)站分為三類,武磊等針對數(shù)據(jù)信息量的不同抽取不同數(shù)量的信息特征,并訓練不同的分類器加以預測其類別.該檢測模型的優(yōu)點在于充分利用了垃圾網(wǎng)站的域名等信息變化比較頻繁且與正常網(wǎng)站的變化具有較大的差別這一特點,能夠比較好地檢測大部分垃圾網(wǎng)頁.但由于垃圾網(wǎng)站的變化規(guī)律不穩(wěn)定,故此模型需要不間斷地學習垃圾網(wǎng)站的域名等信息的變化規(guī)律以調(diào)整其網(wǎng)站分類方式.

      3)清華大學的劉奕群等[16]通過對搜索引擎的用戶訪問日志進行了統(tǒng)計和分析,其數(shù)據(jù)集共收集了2007年7月1日至2007年8月26日之間,27.4億人次在搜狗搜索引擎的8億個網(wǎng)頁訪問記錄和221 000萬個用戶會話(session).劉奕群等的研究基于這樣一個假設(shè):垃圾網(wǎng)頁的內(nèi)容對用戶毫無價值,故此很少有用戶主動直接訪問垃圾網(wǎng)頁,所以網(wǎng)頁的訪問量一般都是由搜索引擎而來.劉奕群等根據(jù)用戶的訪問記錄統(tǒng)計分析了網(wǎng)站3種訪問模式,第一種為網(wǎng)頁來自搜索引擎的訪問率(SEOV rate),第二種為網(wǎng)頁作為其他網(wǎng)頁的來路率(SP),第三種為用戶在網(wǎng)站的網(wǎng)頁訪問量.通過這3種訪問模式以學習訓練其對垃圾網(wǎng)頁的分類預測.

      4)為了從另一個角度了解web的結(jié)構(gòu),Yang Haixuan等提出了一個名為DiffusionRank的檢測模型[17].DiffusionRank的思想來源于物理學中的熱擴散現(xiàn)象.熱內(nèi)核(Heatkemel)[17]用來描述介質(zhì)中一點從另外一點處所吸收到的熱量.近來,熱內(nèi)核的思想被借鑒到諸如降維和分類等應用中.DiffusionRank算法把網(wǎng)頁間的鏈接看作熱量流動的管道,把Web上的活動看作熱量的擴散,利用熱內(nèi)核解決Web網(wǎng)頁排名問題.Yang Haixuan等的研究發(fā)現(xiàn),DiffusionRank算法不僅具有檢測垃圾網(wǎng)頁的能力,而且還可以用來發(fā)現(xiàn)Web上關(guān)系密切的社區(qū).

      5)針對垃圾博客(splog)[18],劉緯等[19]和Lin Yu-Ru等[20]根據(jù)垃圾博客和正常博客在統(tǒng)計特征上的差異,對多種針對博客分類有效的統(tǒng)計特征進行了分析,提出基于博客網(wǎng)頁統(tǒng)計特征的過濾方法.

      6)基于目的分析的垃圾網(wǎng)頁分類方法.于佳慧[21]等人根據(jù)垃圾網(wǎng)頁的作弊目的,將垃圾網(wǎng)頁分成若干個熱門的主題類別,以方便根據(jù)不同類別進行精確檢測.

      2 結(jié)語

      基于內(nèi)容特征的垃圾網(wǎng)頁檢測模型可以快速有效地檢測早期的垃圾網(wǎng)頁,但由于作弊技術(shù)的不斷更新和改進,其垃圾網(wǎng)頁檢測效果有限,改進的余地較小.基于鏈接結(jié)構(gòu)的垃圾網(wǎng)頁檢測模型仍舊是垃圾網(wǎng)頁檢測研究領(lǐng)域的主流,其可信度/不可信度的傳播算法不易受到作弊者的影響,但種子網(wǎng)頁集的選擇為其瓶頸,也是今后的研究熱點.基于內(nèi)容和鏈接結(jié)構(gòu)的垃圾網(wǎng)頁檢測模型利用了網(wǎng)頁的鏈接信息,其垃圾網(wǎng)頁檢測效果明顯要高于基于內(nèi)容的垃圾網(wǎng)頁檢測模型,但其垃圾網(wǎng)頁檢測效果仍舊依賴于基于內(nèi)容的垃圾網(wǎng)頁檢測模型.

      垃圾網(wǎng)頁檢測的研究仍舊有很多問題待解決[22],結(jié)合網(wǎng)頁的鏈接結(jié)構(gòu)和搜索引擎用戶的使用與反饋信息的垃圾網(wǎng)頁檢測技術(shù)更具有實用前景.

      [1]譚龍江.基于搜索引擎優(yōu)化的網(wǎng)絡(luò)宣傳機模型[J].計算機應用,2010,30(8):2232-2234.

      [2]Zoltán Gy?ngyi,Hector Garcia-Molina.Web spam taxonomy[M].In Proceedings of the First International Workshop on Adversarial Information Retrieval on the Web,Chiba,Japan.New York:ACM,2005:39-48.

      [3]Castillo C,Donato D,Becchetti L,et al.A reference collection forweb spam[J].SIGIR Forum,2006,40(2):11-24.

      [4]賈志洋,李偉偉,張海燕.基于內(nèi)容的搜索引擎垃圾網(wǎng)頁檢測[J].計算機應用與軟件,2009,26(11):165-167.

      [5]Alexandros Ntoulas,Marc Najork,Mark Manasse,etal.Detecting spam web pages through content analysis[M].In Proceedings of the 15th International Conference on World Wide Web,Edinburgh,Scotland.New York:ACM,2006:83-92.

      [6]Zoltán Gy?ngyi,Hector Garcia-Molina,Jan Pedersen.Combating web spam with TrustRank[M].In Proceedings of the 30st International Conference on Very Large Data Bases,Trondheim,Toronto,Canada.San Francisco:Morgan Kaufmann.,2004:576-583.

      [7]Avier Ortega F,Craig Macdonald,Troyano JoséA,et al.spam detection with a content-based randomwalk algorithm[M].Proceedings of the 2nd internationalworkshop on Search and mining user-generated contents,Toronto,Canada.New York:ACM,2010:45-51.

      [8]Wu Bao-ning,Vinay Goel,Brian D Davison.Topical TrustRank:Using topicality to combat web spam[M].In Proceedings of the 15th International World Wide Web Conference,Edinburgh,Scotland.New York:ACM,2006:63-72.

      [9]Google.PR0-Google's PageRank 0 Penalty[J/OL].2010-12-28(2011-03-21).http://pr.efactory.de/e-pr0.shtm l.

      [10]Vijay Krishnan,RashmiRaj.Web spam detection with anti-trust rank[M].In Proceedings of the Second International Workshop on Adversarial Information Retrieval on the Web,Washington,USA.New York:ACM,2006:37-43.

      [11]Wu Baoning,Vinay Goel,Brian D D.Propagating trust and distrust to demote web spam[M].In Proceedings of Models of Trust for the Web,Edinburgh,Scotland.New York:ACM,2006.

      [12]Gan Qingqing,Torsten Suel.Improving web spam classifiers using link structure[M].In Proceedings of the Third InternationalWorkshop on Adversarial Information Retrieval on the Web,Banff,Alberta,Cana-da.New York:ACM,2007:17-20.

      [13]賈志洋,李偉偉,高煒,等.基于支持向量機的搜索引擎垃圾網(wǎng)頁檢測[J].云南民族大學學報:自然科學版,2011,20(3):173-176.

      [14]Hiroo Saito,Masashi Toyoda,Masaru Kitsuregawa,et al.A large-scale study of link spam detection by graph algorithms[M].In Proceedings of the Third International Workshop on Adversarial Information Retrieval on the Web,Banff,Alberta,Canada.New York:ACM,2007:45-48.

      [15]武磊,高斌,李京.基于結(jié)構(gòu)信息和時域信息的垃圾網(wǎng)頁檢測技術(shù)[J].計算機應用研究,2008,l25(4):57-60.

      [16]Liu Yiqun,Cen Rongwei,Zhang Min,et al.Web Spam with user behavior analysis[M].Proceedings os AIRWeb’08,Beijing,China,2008:108-110.

      [17]Yang Haixuan,Irwin King,Michael R Lyu.Diffusion-Rank:a possible penicillin for web spamming[M].In Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval,Amsterdam,Netherlands.2007:431-438.

      [18]Franco Salvetti,Nicolas Nicolov.Weblog classification for fast splog filtering:a URL languagemodel segmentation approach[M].In Proceedings of the Human Language Technology Conference of the NAACL,New York,USA.Stroudsburg:Association for Computational Linguistics,2006:137-140.

      [19]劉瑋,廖祥文,許洪波,等.基于統(tǒng)計特征的垃圾博客過濾[J]. 中文信息學報,2008,22(6):86-91.

      [20]Lin Yuru,Had Sundaram,Yun Chi.Splog detection using content,time and link structures[M].In Proceedings of 2007 IEEE International Conference on Multimedia and Expo,Beijing,China.New York:IEEE,2007:2030-2033.

      [21]余慧佳,劉奕群,張敏,等.基于目的分析的作弊頁面分類[J]. 中文信息學報,2009,23(2):42-46.

      [22]Hayati P,Potdar V.Toward Spam 2.0:an evaluation ofweb 2.0 anti-spam methods[M].In Proceedings of the 7th IEEE International Conference on Industrial Informatics,Cardiff,Wales.New York:IEEE,2009:875-880.

      猜你喜歡
      搜索引擎分類器網(wǎng)頁
      基于CSS的網(wǎng)頁導航欄的設(shè)計
      電子制作(2018年10期)2018-08-04 03:24:38
      BP-GA光照分類器在車道線識別中的應用
      電子測試(2018年1期)2018-04-18 11:52:35
      基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      網(wǎng)頁制作在英語教學中的應用
      電子測試(2015年18期)2016-01-14 01:22:58
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
      10個必知的網(wǎng)頁設(shè)計術(shù)語
      麟游县| 吐鲁番市| 阳新县| 灌阳县| 连江县| 开封县| 龙州县| 广平县| 久治县| 新津县| 五寨县| 高邑县| 溧水县| 侯马市| 安仁县| 隆回县| 柞水县| 江安县| 阿克苏市| 手机| 合江县| 武强县| 九龙坡区| 定南县| 张家界市| 保德县| 内黄县| 云林县| 华阴市| 海南省| 蕉岭县| 华安县| 沂源县| 城步| 邢台市| 牙克石市| 安塞县| 承德市| 武山县| 江口县| 罗平县|