• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    加權(quán)HITS 算法在論文評價指標(biāo)中的應(yīng)用?

    2023-11-21 06:17:52彭丹丹
    計算機(jī)與數(shù)字工程 2023年8期
    關(guān)鍵詞:定律頁面次數(shù)

    費(fèi) 鵬 彭丹丹

    (南京信息工程大學(xué)電子與信息工程學(xué)院 南京 210044)

    1 引言

    對學(xué)術(shù)論文進(jìn)行客觀、準(zhǔn)確的評價是對學(xué)者學(xué)術(shù)貢獻(xiàn)進(jìn)行評估的重要前提。論文評價方法有很多,對于數(shù)據(jù)庫中的海量論文來說,同行評議法[1]評價論文需要投入大量的人力資源,評審人水平差距大,主觀性太強(qiáng),往往會造成評價錯誤。而大型科學(xué)引文數(shù)據(jù)庫的存在,越來越多的人使用論文引文網(wǎng)絡(luò)對論文進(jìn)行重要性排序,其中應(yīng)用最為廣泛的方法是根據(jù)論文被引數(shù)量對論文進(jìn)行評價[2],論文的被引數(shù)量越多,則論文的重要性程度越高。論文被引數(shù)評價論文也有局限性,論文被引數(shù)忽略了被引論文的差異性[3],將所有論文的引用視為同等重要,其不合理是不言而喻的。

    近年來,許多研究者將網(wǎng)絡(luò)鏈接算法運(yùn)用到學(xué)術(shù)評價中[4~14],喻依等將PageRank 算法[15]和HITS算法[16]用于期刊評價研究并討論了影響因子、PageRank值和authority值之間的區(qū)別[17]。李仲謀等在PageRank 算法基礎(chǔ)上考慮了時間對論文的影響,提出一種新的PageRank 算法的學(xué)術(shù)論文評價方法[18]。本文在HITS 算法的基礎(chǔ)上進(jìn)一步進(jìn)行研究,提出加權(quán)HTS 算法,對其是否可以應(yīng)用于論文評價進(jìn)行了研究與探索。

    2 相關(guān)研究

    2.1 HITS算法

    HITS算法中將網(wǎng)頁分為兩種:Authority頁面與Hub 頁面,Authority 頁面的Authority 值反映了頁面的權(quán)威性,Hub 頁面的Hub 值反映了頁面的中心度。Authority 頁面的Authority 值越大,則頁面越具有權(quán)威、聲望。HITS 算法的目的是經(jīng)過一系列的迭代得到最具價值的網(wǎng)頁,即Authority值最大的頁面。HITS算法使用如下公式迭代:

    用Ai表示頁面i的權(quán)威度,用Hi表示頁面i的中心度。

    2.2 齊普夫定律

    齊普夫定律是用來表述文獻(xiàn)中詞匯出現(xiàn)頻率分布規(guī)律的重要定律之一[19],齊普夫定律可以表述為:把一篇文章的單詞出現(xiàn)頻率按從高到低的次序排列,則每個單詞出現(xiàn)的頻率與它的名次存在簡單的反比關(guān)系,這種分布為齊普夫定律。該定律說明使用頻率高的單詞占少數(shù),使用頻率低的單詞占多數(shù)。該定律同樣適用于論文,將引文網(wǎng)絡(luò)中的論文按照質(zhì)量從高到底進(jìn)行排序,則論文質(zhì)量與論文數(shù)量滿足式(3):

    r為論文質(zhì)量,v為論文數(shù)量,c為論文總數(shù)量,這個公式可以表示成一條斜率為-α的直線,表明在引文網(wǎng)絡(luò),質(zhì)量高的論文占少數(shù),質(zhì)量低的論文占多數(shù)。

    3 加權(quán)HITS算法

    本文將引文網(wǎng)絡(luò)表示為矩陣M,其元素mi,j?[0,1]。如果論文i 被論文j 引用,則mi,j=1;如果論文i 未被論文j 引用,則mi,j=0。加權(quán)HITS 算法將論文分為兩種:Authority論文與Hub論文,Authority論文的Authority 值反映了論文的權(quán)威性,Authority論文的Authority值越大,則論文的權(quán)威性越高。

    3.1 算法初始化

    第一次迭代中,計算Authority 論文的Authority值,論文的Authority值等于所有引用該論文的論文Hub 值之和,Hub 值之和越大,Authority 論文的Authority值越大,則Authority論文的權(quán)威性越高。

    計算Hub論文的Hub值,論文的Hub值等于所有被該論文引用的論文Authority 值之和,Authority值之和越大,Hub 論文的Hub 值越大,則論文利用外部資源能力的越大。

    在式(4)中,默認(rèn)每篇Hub 論文對Authority 論文產(chǎn)生的影響相同,即每篇論文的重要性程度相同,實(shí)際上每篇論文的重要性程度是不同的,所以需要引入一個加權(quán)系數(shù)ρi,j來表示Hub 論文對Authority 論文的重要性程度。加權(quán)系數(shù)ρi,j越大,則代表Hub論文對Authority論文越重要。

    且滿足:

    在式(5)中,默認(rèn)每篇Authority 論文對Hub 論文產(chǎn)生的影響相同,即每篇論文的重要性程度相同,實(shí)際上每篇論文的重要性程度是不同的,所以需要引入一個加權(quán)系數(shù)ηi,j來表示Authority 論文對Hub 論文的重要性程度。加權(quán)系數(shù)ηi,j越大,則代表Authority論文對Hub論文越重要。

    且滿足:

    3.2 迭代更新

    將權(quán)值ρi,j帶入式(4)中,得到新的Ai值。

    將權(quán)值ηi,j帶入式(5)中,得到新的Hj值。

    4 實(shí)驗(yàn)結(jié)果與分析

    4.1 數(shù)據(jù)收集與處理

    為了保證數(shù)據(jù)的連續(xù)性,抓取了2018 年到2020 年發(fā)表的5118 篇論文,計算每篇論文的Authority 值并與論文被引次數(shù)進(jìn)行對比。如圖1 所示,圖1(a)是論文被引次數(shù)與論文數(shù)量關(guān)系圖,圖1(b)是加權(quán)HITS 算法的論文Authority 值與論文數(shù)量關(guān)系圖。在5118 篇論文中,有1796 篇論文被其他論文引用,其余論文的被引數(shù)為0。被引數(shù)為0的論文Authority 值為0,本文重點(diǎn)分析被引數(shù)不為0的1796篇論文。

    圖1 論文被引次數(shù)與加權(quán)HITS算法評價方法對比圖

    4.2 HITS算法與加權(quán)HITS算法對比

    圖2(b)為HITS 算法的論文評價方法,將HITS算法的論文Authority值按論文被引次數(shù)降序排序,從圖2(b)可以看出,只有少數(shù)論文Authority 值很高,大多數(shù)論文Authority 值很低,這是因?yàn)镠ITS 算法存在TKC 效應(yīng)(緊密鏈接社區(qū)現(xiàn)象)。TKC 效應(yīng)是指HITS 算法在authority 值和hub 值在相互迭代加強(qiáng)的過程中,權(quán)重會越來越集中于緊密度最大的社區(qū)[20]。HITS 算法的TKC 效應(yīng)導(dǎo)致部分論文的Authority 值過高,盡管這些論文真正的價值很低,說明HITS算法不能直接用于論文評價。

    圖2 論文被引次數(shù)與HITS算法評價方法對比圖

    本文在HITS 算法基礎(chǔ)上對其進(jìn)行了改進(jìn),在HITS 算法的基礎(chǔ)上加入了論文權(quán)重,提出加權(quán)HITS算法。如圖1所示,加權(quán)HITS算法的論文Authority 值總體上與論文被引次數(shù)趨勢相同,都是呈現(xiàn)下降趨勢,且下降的趨勢越來越緩。說明在整個引文網(wǎng)絡(luò)中,質(zhì)量越高的論文,在整個引文網(wǎng)絡(luò)中占比越少,相反,質(zhì)量越低的論文,在整個引文網(wǎng)絡(luò)中占比越多。

    表1 為論文被引次數(shù)、HITS 算法與加權(quán)HITS算法前50 名論文評分與總論文評分之比,三種評價方法前50 名論文評分與總論文評分之比可以反應(yīng)論文評分的集中程度。由于HITS算法的TKC效應(yīng),HITS 算法的前十名論文的占比為0.201,而加權(quán)HITS 算法和論文被引次數(shù)的占比為0.087 和0.05。HITS 算法的前五十名論文的占比為0.593,而加權(quán)HITS 算法和論文被引次數(shù)的占比為0.225和0.167,加權(quán)HITS算法和論文被引次數(shù)的前50論文評分占比遠(yuǎn)低于HITS 算法的占比,加權(quán)HITS 算法大大降低了TKC 效應(yīng)。本文使用了兩個不同的數(shù)據(jù)集測試了三種評價方法的評價值占比,分別是2424 篇論文、5118 篇論文的數(shù)據(jù)集。如圖3 所示,加權(quán)HITS 算法和論文被引次數(shù)的前50 論文評分占比均遠(yuǎn)低于HITS 算法的占比,說明加權(quán)HITS 算法大大降低了TKC 效應(yīng),而加權(quán)HITS 算法與論文被引次數(shù)的前50 論文評分占比相差不大,說明加權(quán)HITS算法比HITS算法更加適合論文評價研究。

    表1 論文被引次數(shù)、HITS算法與加權(quán)HITS算法前50論文評分與總論文評分之比

    圖3 前50論文評分與總論文評分比值圖

    4.3 相關(guān)性分析

    為了進(jìn)一步說明論文被引次數(shù)、HITS 算法的論文Authority 值與加權(quán)HITS 算法的論文Authority值之間的關(guān)系,本文進(jìn)行了相關(guān)性分析,利用Pearson相關(guān)系數(shù)來計算兩個變量間的線性相關(guān)程度[21]。

    本文使用了兩個不同的數(shù)據(jù)集來對論文的評價方法進(jìn)行相關(guān)性分析,圖4 為HITS 算法的論文Authority 值與論文被引次數(shù)的散點(diǎn)圖,圖5 為加權(quán)HITS 算法的論文Authority 值與論文被引次數(shù)的散點(diǎn)圖。HITS 算法的論文Authority 值與論文被引次數(shù)的Pearson 相關(guān)系數(shù)分別為0.431、0.449,兩者相關(guān)性低,導(dǎo)致這種結(jié)果的原因是HITS 算法的TKC效應(yīng)導(dǎo)致論文Authority值預(yù)測的不準(zhǔn)確,從而造成兩者的相關(guān)性低。而加權(quán)HITS算法的論文Authority 值與論文被引次數(shù)的Pearson 相關(guān)系數(shù)分別為0.851、0.795,兩者顯著相關(guān),由于加權(quán)HITS 算法大大降低了TKC效應(yīng),提高了論文Authority值預(yù)測的準(zhǔn)確性,從而使兩者線性相關(guān)性顯著。加權(quán)HITS算法的論文Authority 值與論文被引次數(shù)在論文影響力的衡量上,總體變化趨勢是一樣的。但加權(quán)HITS 算法的論文Authority 值是一個綜合性、復(fù)雜度更高的指標(biāo),相比于論文被引次數(shù)指標(biāo)僅考慮了論文被引次數(shù),加權(quán)HITS 算法的論文Authority 值還考慮了被引論文的質(zhì)量,因此更為綜合全面。

    圖4 論文被引次數(shù)與HITS算法的論文Authority值散點(diǎn)圖

    圖5 論文被引次數(shù)與加權(quán)HITS算法的論文Authority值散點(diǎn)圖

    綜上所述,一方面由于HITS 算法的TKC 效應(yīng)導(dǎo)致論文Authority 值預(yù)測的不準(zhǔn)確,而加權(quán)HITS算法降低了TKC效應(yīng),從而提高了論文Authority值預(yù)測的準(zhǔn)確性,說明加權(quán)HITS 算法比HITS 算法更加適合評價論文。另一方面加權(quán)HITS算法因不僅考慮了論文被引次數(shù),還考慮了被引論文質(zhì)量,相比于論文被引次數(shù)指標(biāo)可以更加全面地評價一篇論文的學(xué)術(shù)影響力。

    4.4 齊普夫定律分析

    本文將論文被引次數(shù)與論文Authority 值按照從高到低的次序排序,從圖6 可以看出論文被引次數(shù)與論文數(shù)量存在簡單的反比關(guān)系,滿足式(3),說明論文被引次數(shù)與論文數(shù)量的分布滿足齊普夫定律。

    圖6 論文被引次數(shù)與論文數(shù)量關(guān)系圖

    從圖7可以看出加權(quán)HITS算法的論文Authority值與論文數(shù)量的分布也滿足此定律,說明質(zhì)量越高的論文,在整個引文網(wǎng)絡(luò)中占比越少,質(zhì)量越低的論文,在整個引文網(wǎng)絡(luò)中占比越多,也解釋了為什么圖1(b)中加權(quán)HITS算法的論文Authority值下降的趨勢越來越緩。圖8 可知由于HITS 算法的TKC 效應(yīng),導(dǎo)致HITS 算法的論文Authority 值與論文數(shù)量的分布不滿足齊普夫定律,通過對比發(fā)現(xiàn)加權(quán)HITS算法與論文被引數(shù)在論文評價方面具有高度的相似性,這也說明加權(quán)HITS 算法相比于HITS算法更適合評價論文。

    圖7 加權(quán)HITS算法的論文Authority值與論文數(shù)量關(guān)系圖

    圖8 HITS算法的論文Authority值與論文數(shù)量關(guān)系圖

    5 結(jié)語

    本文在HITS 算法基礎(chǔ)上對其進(jìn)行了改進(jìn),在HITS 算法基礎(chǔ)上加入了權(quán)重系數(shù),提出加權(quán)HITS算法。結(jié)果表明加權(quán)HITS 算法大大降低了HITS算法的TKC 效應(yīng),加權(quán)HITS 算法的論文Authority值與論文被引次數(shù)有著高度的線性相關(guān)性,論文的Authority 值排名與論文被引數(shù)排名雖有差異,但總體上論文的Authority 值與論文被引數(shù)在衡量論文學(xué)術(shù)影響力上的變化趨勢是一樣的,并且都滿足齊普夫定律。加權(quán)HITS算法因不僅考慮了論文被引次數(shù),還考慮了被引論文質(zhì)量,相比于論文被引次數(shù)指標(biāo)可以更加全面地評價一篇論文的學(xué)術(shù)影響力。

    猜你喜歡
    定律頁面次數(shù)
    大狗熊在睡覺
    刷新生活的頁面
    機(jī)場航站樓年雷擊次數(shù)計算
    2020年,我國汽車召回次數(shù)同比減少10.8%,召回數(shù)量同比增長3.9%
    商用汽車(2021年4期)2021-10-13 07:16:02
    一類無界算子的二次數(shù)值域和譜
    多一盎司定律和多一圈定律
    倒霉定律
    依據(jù)“次數(shù)”求概率
    萬有引力定律
    耐人尋味的定律
    连城县| 曲周县| 沂水县| 油尖旺区| 休宁县| 浦江县| 湘潭市| 高邑县| 武强县| 九台市| 明水县| 凤台县| 灌南县| 汾阳市| 桦川县| 五常市| 阿拉善左旗| 汪清县| 宁都县| 明水县| 奇台县| 渭源县| 大新县| 新营市| 拉萨市| 江门市| 铜梁县| 宁都县| 临夏市| 保康县| 恩施市| 秭归县| 商水县| 福清市| 赞皇县| 静安区| 弥勒县| 西丰县| 甘洛县| 中阳县| 微山县|