• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種改進的PageRank算法—STPR

    2014-11-19 09:50:46李宜兵郭玉堂潘潔珠
    電子技術與軟件工程 2014年20期
    關鍵詞:時間相關性排序

    李宜兵 郭玉堂 潘潔珠

    摘 要 PageRank算法是一種基于網(wǎng)頁結(jié)構(gòu)的排序算法。充分考慮了網(wǎng)頁的權(quán)威性質(zhì),但是沒有考慮內(nèi)容的相關性,與此同時,對權(quán)威性的側(cè)重,導致主題漂移現(xiàn)象更為突出。同時PageRank算法沒有考慮時間對網(wǎng)頁鏈接的影響,在一定的時間范圍內(nèi),隨后時間推移,網(wǎng)頁的鏈接數(shù)應該越多。本文基于網(wǎng)頁內(nèi)容和網(wǎng)頁的時間對PageRank算法進行了改進,提出了改進算法STPR。

    【關鍵詞】PageRank 排序 相關性 時間

    PageRank算法首先應用于Google搜索引擎,并且取得了巨大的商業(yè)成功。是一種典型的基于web結(jié)構(gòu)的算法。統(tǒng)計每個頁面web圖的出度和入度,然后通過迭代的方法計算出每個頁面的PageRank值,PageRank值越大,表明網(wǎng)頁的權(quán)重越高。然而,PageRank算法,只注意了網(wǎng)頁的權(quán)威性,沒有考慮相關性。很有可能計算出的結(jié)果與用戶所需要的信息不大。另外PageRank算法對于網(wǎng)頁權(quán)威性計算也有缺陷。沒有考慮到時間對于網(wǎng)頁權(quán)威性的影響,例如一個很重要的網(wǎng)頁,信息發(fā)布之初也很少有其他網(wǎng)頁鏈接指向它。針對以上缺點,本文提出了一個基于網(wǎng)頁內(nèi)容和時間的改進算法PageRank算法——STRP。

    1 PageRank算法

    PageRank 算法簡單描述如下:將Web 對應成有向圖:G=(V,E),其中V是節(jié)點(網(wǎng)頁)集,E是邊(當且僅當從頁面i到頁面j存在鏈接時)Ni是頁面i指向的所有頁面的集合,Bi是指向頁面i的所有頁面的集合。則頁面i的等級PageRank 值PR(i)的計算公式如公式(1-1)所示。

    公式(1-1)有一個很大的缺陷,它是基于互聯(lián)網(wǎng)上網(wǎng)頁處于連通的狀態(tài),即從任一個網(wǎng)頁出發(fā)都能到達任一個網(wǎng)頁,然而實際上并不是所有的網(wǎng)頁都有向外鏈接,總有一些網(wǎng)頁是處于孤立的狀態(tài)。

    為了解決這個問題學者對對其進行了改進, 引入E(u) (等級源)來不斷的補充每個網(wǎng)頁的PageRank值,E(u)對應網(wǎng)頁集的某一向量。則改進的PageRank算法如公式(1-2)所示。

    2 基于內(nèi)容改進

    PageRank算法一個很大的缺點是主題漂移。所謂的主題漂移,即所查詢結(jié)果與查詢期望不一致。主題漂移使得查詢的相關性造成很大的破壞。PageRank只是基于超鏈接分析排序算法,沒有基于內(nèi)容考慮。PageRank算法解決了權(quán)威性的問題,這反而使得主題漂移現(xiàn)象更為加重。一般情況下如果一個網(wǎng)頁的鏈出網(wǎng)頁與本網(wǎng)頁內(nèi)容是同一個主題,那么該鏈出鏈接應該更具有價值。相反如果是垃圾鏈接,即兩個網(wǎng)頁是毫不相關的,那么該鏈接對權(quán)重的影響應該是很小的。所以在這里引入了兩個網(wǎng)頁內(nèi)容相似性來改進PageRank算法。這樣可以進一步的杜絕網(wǎng)頁作弊者通過不相關的網(wǎng)頁鏈接來提高網(wǎng)頁的排名。算法的改進公式如下:

    公式(1-4)中W(v,u)表示網(wǎng)頁v與u的相似度。其中網(wǎng)頁u與v的相似性可以用VSM模型來求得。假設網(wǎng)頁u與v的文檔向量空間為u=(u1, u2, u3…un), v=( v1, v2, v3… vn),根據(jù)前面介紹的求文檔之間的相似性知識可知:

    3 基于時間改進

    在以上基于網(wǎng)頁內(nèi)容和結(jié)構(gòu)的基礎上,考慮網(wǎng)頁的更新時間。一般情況下一個非常重要的信息會在12小時以內(nèi)被廣泛傳播。假定隨著時間推移12小時后,網(wǎng)頁鏈接達到峰值。改進的公式如下:

    4 結(jié)論

    通過對pageRank算法的研究,基于其存在漂移的問題,進行了內(nèi)容的改進,利用VSM模型解決了相似性問題。針對新上網(wǎng)頁對鏈接解構(gòu)影響,根據(jù)網(wǎng)頁時間對網(wǎng)頁pagerank值進行了權(quán)重系數(shù)。

    參考文獻

    [1]原福永,張園園.基于鏈接分析的相關排序方法的研究和改進[J].計算機工程與設計,2007,07(28):1630-1662.

    [2]黃德刁,戚華春.PageRank算法研究.計算機工程,2006,32(4):145-162.

    [3]楊炳儒,李巖,陳新中等.Web結(jié)構(gòu)挖掘.計算機工程,2003,29(20):28-30.

    [4]Xing Wenpu,Ghorbani A. Weighted PageRank algorithm[C].Communication Networks and Services Research,Proceedingsof Second Annual Conference,2004:305-314.

    作者簡介

    李宜兵(1985-),男,安徽省桐城市人。碩士學位?,F(xiàn)為合肥師范學院助教。研究方向為信息檢索和數(shù)據(jù)挖掘。

    郭玉堂(1962-),男,安徽省安慶市人。博士學位?,F(xiàn)為合肥師范學院教授、碩士生導師。主要研究方向為人工智能和圖形處理。

    作者單位

    合肥師范學院計算機學院 安徽省合肥市 230601endprint

    摘 要 PageRank算法是一種基于網(wǎng)頁結(jié)構(gòu)的排序算法。充分考慮了網(wǎng)頁的權(quán)威性質(zhì),但是沒有考慮內(nèi)容的相關性,與此同時,對權(quán)威性的側(cè)重,導致主題漂移現(xiàn)象更為突出。同時PageRank算法沒有考慮時間對網(wǎng)頁鏈接的影響,在一定的時間范圍內(nèi),隨后時間推移,網(wǎng)頁的鏈接數(shù)應該越多。本文基于網(wǎng)頁內(nèi)容和網(wǎng)頁的時間對PageRank算法進行了改進,提出了改進算法STPR。

    【關鍵詞】PageRank 排序 相關性 時間

    PageRank算法首先應用于Google搜索引擎,并且取得了巨大的商業(yè)成功。是一種典型的基于web結(jié)構(gòu)的算法。統(tǒng)計每個頁面web圖的出度和入度,然后通過迭代的方法計算出每個頁面的PageRank值,PageRank值越大,表明網(wǎng)頁的權(quán)重越高。然而,PageRank算法,只注意了網(wǎng)頁的權(quán)威性,沒有考慮相關性。很有可能計算出的結(jié)果與用戶所需要的信息不大。另外PageRank算法對于網(wǎng)頁權(quán)威性計算也有缺陷。沒有考慮到時間對于網(wǎng)頁權(quán)威性的影響,例如一個很重要的網(wǎng)頁,信息發(fā)布之初也很少有其他網(wǎng)頁鏈接指向它。針對以上缺點,本文提出了一個基于網(wǎng)頁內(nèi)容和時間的改進算法PageRank算法——STRP。

    1 PageRank算法

    PageRank 算法簡單描述如下:將Web 對應成有向圖:G=(V,E),其中V是節(jié)點(網(wǎng)頁)集,E是邊(當且僅當從頁面i到頁面j存在鏈接時)Ni是頁面i指向的所有頁面的集合,Bi是指向頁面i的所有頁面的集合。則頁面i的等級PageRank 值PR(i)的計算公式如公式(1-1)所示。

    公式(1-1)有一個很大的缺陷,它是基于互聯(lián)網(wǎng)上網(wǎng)頁處于連通的狀態(tài),即從任一個網(wǎng)頁出發(fā)都能到達任一個網(wǎng)頁,然而實際上并不是所有的網(wǎng)頁都有向外鏈接,總有一些網(wǎng)頁是處于孤立的狀態(tài)。

    為了解決這個問題學者對對其進行了改進, 引入E(u) (等級源)來不斷的補充每個網(wǎng)頁的PageRank值,E(u)對應網(wǎng)頁集的某一向量。則改進的PageRank算法如公式(1-2)所示。

    2 基于內(nèi)容改進

    PageRank算法一個很大的缺點是主題漂移。所謂的主題漂移,即所查詢結(jié)果與查詢期望不一致。主題漂移使得查詢的相關性造成很大的破壞。PageRank只是基于超鏈接分析排序算法,沒有基于內(nèi)容考慮。PageRank算法解決了權(quán)威性的問題,這反而使得主題漂移現(xiàn)象更為加重。一般情況下如果一個網(wǎng)頁的鏈出網(wǎng)頁與本網(wǎng)頁內(nèi)容是同一個主題,那么該鏈出鏈接應該更具有價值。相反如果是垃圾鏈接,即兩個網(wǎng)頁是毫不相關的,那么該鏈接對權(quán)重的影響應該是很小的。所以在這里引入了兩個網(wǎng)頁內(nèi)容相似性來改進PageRank算法。這樣可以進一步的杜絕網(wǎng)頁作弊者通過不相關的網(wǎng)頁鏈接來提高網(wǎng)頁的排名。算法的改進公式如下:

    公式(1-4)中W(v,u)表示網(wǎng)頁v與u的相似度。其中網(wǎng)頁u與v的相似性可以用VSM模型來求得。假設網(wǎng)頁u與v的文檔向量空間為u=(u1, u2, u3…un), v=( v1, v2, v3… vn),根據(jù)前面介紹的求文檔之間的相似性知識可知:

    3 基于時間改進

    在以上基于網(wǎng)頁內(nèi)容和結(jié)構(gòu)的基礎上,考慮網(wǎng)頁的更新時間。一般情況下一個非常重要的信息會在12小時以內(nèi)被廣泛傳播。假定隨著時間推移12小時后,網(wǎng)頁鏈接達到峰值。改進的公式如下:

    4 結(jié)論

    通過對pageRank算法的研究,基于其存在漂移的問題,進行了內(nèi)容的改進,利用VSM模型解決了相似性問題。針對新上網(wǎng)頁對鏈接解構(gòu)影響,根據(jù)網(wǎng)頁時間對網(wǎng)頁pagerank值進行了權(quán)重系數(shù)。

    參考文獻

    [1]原福永,張園園.基于鏈接分析的相關排序方法的研究和改進[J].計算機工程與設計,2007,07(28):1630-1662.

    [2]黃德刁,戚華春.PageRank算法研究.計算機工程,2006,32(4):145-162.

    [3]楊炳儒,李巖,陳新中等.Web結(jié)構(gòu)挖掘.計算機工程,2003,29(20):28-30.

    [4]Xing Wenpu,Ghorbani A. Weighted PageRank algorithm[C].Communication Networks and Services Research,Proceedingsof Second Annual Conference,2004:305-314.

    作者簡介

    李宜兵(1985-),男,安徽省桐城市人。碩士學位?,F(xiàn)為合肥師范學院助教。研究方向為信息檢索和數(shù)據(jù)挖掘。

    郭玉堂(1962-),男,安徽省安慶市人。博士學位?,F(xiàn)為合肥師范學院教授、碩士生導師。主要研究方向為人工智能和圖形處理。

    作者單位

    合肥師范學院計算機學院 安徽省合肥市 230601endprint

    摘 要 PageRank算法是一種基于網(wǎng)頁結(jié)構(gòu)的排序算法。充分考慮了網(wǎng)頁的權(quán)威性質(zhì),但是沒有考慮內(nèi)容的相關性,與此同時,對權(quán)威性的側(cè)重,導致主題漂移現(xiàn)象更為突出。同時PageRank算法沒有考慮時間對網(wǎng)頁鏈接的影響,在一定的時間范圍內(nèi),隨后時間推移,網(wǎng)頁的鏈接數(shù)應該越多。本文基于網(wǎng)頁內(nèi)容和網(wǎng)頁的時間對PageRank算法進行了改進,提出了改進算法STPR。

    【關鍵詞】PageRank 排序 相關性 時間

    PageRank算法首先應用于Google搜索引擎,并且取得了巨大的商業(yè)成功。是一種典型的基于web結(jié)構(gòu)的算法。統(tǒng)計每個頁面web圖的出度和入度,然后通過迭代的方法計算出每個頁面的PageRank值,PageRank值越大,表明網(wǎng)頁的權(quán)重越高。然而,PageRank算法,只注意了網(wǎng)頁的權(quán)威性,沒有考慮相關性。很有可能計算出的結(jié)果與用戶所需要的信息不大。另外PageRank算法對于網(wǎng)頁權(quán)威性計算也有缺陷。沒有考慮到時間對于網(wǎng)頁權(quán)威性的影響,例如一個很重要的網(wǎng)頁,信息發(fā)布之初也很少有其他網(wǎng)頁鏈接指向它。針對以上缺點,本文提出了一個基于網(wǎng)頁內(nèi)容和時間的改進算法PageRank算法——STRP。

    1 PageRank算法

    PageRank 算法簡單描述如下:將Web 對應成有向圖:G=(V,E),其中V是節(jié)點(網(wǎng)頁)集,E是邊(當且僅當從頁面i到頁面j存在鏈接時)Ni是頁面i指向的所有頁面的集合,Bi是指向頁面i的所有頁面的集合。則頁面i的等級PageRank 值PR(i)的計算公式如公式(1-1)所示。

    公式(1-1)有一個很大的缺陷,它是基于互聯(lián)網(wǎng)上網(wǎng)頁處于連通的狀態(tài),即從任一個網(wǎng)頁出發(fā)都能到達任一個網(wǎng)頁,然而實際上并不是所有的網(wǎng)頁都有向外鏈接,總有一些網(wǎng)頁是處于孤立的狀態(tài)。

    為了解決這個問題學者對對其進行了改進, 引入E(u) (等級源)來不斷的補充每個網(wǎng)頁的PageRank值,E(u)對應網(wǎng)頁集的某一向量。則改進的PageRank算法如公式(1-2)所示。

    2 基于內(nèi)容改進

    PageRank算法一個很大的缺點是主題漂移。所謂的主題漂移,即所查詢結(jié)果與查詢期望不一致。主題漂移使得查詢的相關性造成很大的破壞。PageRank只是基于超鏈接分析排序算法,沒有基于內(nèi)容考慮。PageRank算法解決了權(quán)威性的問題,這反而使得主題漂移現(xiàn)象更為加重。一般情況下如果一個網(wǎng)頁的鏈出網(wǎng)頁與本網(wǎng)頁內(nèi)容是同一個主題,那么該鏈出鏈接應該更具有價值。相反如果是垃圾鏈接,即兩個網(wǎng)頁是毫不相關的,那么該鏈接對權(quán)重的影響應該是很小的。所以在這里引入了兩個網(wǎng)頁內(nèi)容相似性來改進PageRank算法。這樣可以進一步的杜絕網(wǎng)頁作弊者通過不相關的網(wǎng)頁鏈接來提高網(wǎng)頁的排名。算法的改進公式如下:

    公式(1-4)中W(v,u)表示網(wǎng)頁v與u的相似度。其中網(wǎng)頁u與v的相似性可以用VSM模型來求得。假設網(wǎng)頁u與v的文檔向量空間為u=(u1, u2, u3…un), v=( v1, v2, v3… vn),根據(jù)前面介紹的求文檔之間的相似性知識可知:

    3 基于時間改進

    在以上基于網(wǎng)頁內(nèi)容和結(jié)構(gòu)的基礎上,考慮網(wǎng)頁的更新時間。一般情況下一個非常重要的信息會在12小時以內(nèi)被廣泛傳播。假定隨著時間推移12小時后,網(wǎng)頁鏈接達到峰值。改進的公式如下:

    4 結(jié)論

    通過對pageRank算法的研究,基于其存在漂移的問題,進行了內(nèi)容的改進,利用VSM模型解決了相似性問題。針對新上網(wǎng)頁對鏈接解構(gòu)影響,根據(jù)網(wǎng)頁時間對網(wǎng)頁pagerank值進行了權(quán)重系數(shù)。

    參考文獻

    [1]原福永,張園園.基于鏈接分析的相關排序方法的研究和改進[J].計算機工程與設計,2007,07(28):1630-1662.

    [2]黃德刁,戚華春.PageRank算法研究.計算機工程,2006,32(4):145-162.

    [3]楊炳儒,李巖,陳新中等.Web結(jié)構(gòu)挖掘.計算機工程,2003,29(20):28-30.

    [4]Xing Wenpu,Ghorbani A. Weighted PageRank algorithm[C].Communication Networks and Services Research,Proceedingsof Second Annual Conference,2004:305-314.

    作者簡介

    李宜兵(1985-),男,安徽省桐城市人。碩士學位?,F(xiàn)為合肥師范學院助教。研究方向為信息檢索和數(shù)據(jù)挖掘。

    郭玉堂(1962-),男,安徽省安慶市人。博士學位。現(xiàn)為合肥師范學院教授、碩士生導師。主要研究方向為人工智能和圖形處理。

    作者單位

    合肥師范學院計算機學院 安徽省合肥市 230601endprint

    猜你喜歡
    時間相關性排序
    排序不等式
    恐怖排序
    節(jié)日排序
    刻舟求劍
    兒童繪本(2018年5期)2018-04-12 16:45:32
    時間消滅空間?
    新聞界(2016年12期)2016-11-08 21:36:56
    “時間”面前人人平等
    基于Kronecker信道的MIMO系統(tǒng)通信性能分析
    科技視界(2016年21期)2016-10-17 17:37:34
    小兒支氣管哮喘與小兒肺炎支原體感染相關性分析
    腦梗死與高同型半胱氨酸的相關性研究(2)
    腦梗死與高同型半胱氨酸的相關性研究
    阜康市| 洪湖市| 明溪县| 阜城县| 沧州市| 新源县| 武威市| 阳山县| 阜宁县| 洛川县| 灯塔市| 丰都县| 镇沅| 荔波县| 辉南县| 建瓯市| 多伦县| 凉城县| 政和县| 抚顺县| 洪洞县| 潍坊市| 田阳县| 澄迈县| 蓝山县| 汶川县| 宁南县| 南江县| 桑植县| 南木林县| 措美县| 岳池县| 上林县| 双鸭山市| 沾化县| 大名县| 娱乐| 银川市| 清远市| 金阳县| 炎陵县|