• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于親和力與研究方向覆蓋率的審稿人推薦算法

      2023-02-24 05:01:06周允升余敦輝崔海波
      計(jì)算機(jī)應(yīng)用 2023年2期
      關(guān)鍵詞:審稿人親和力集上

      鐘 磊,周允升,余敦輝,2,崔海波,2*

      (1.湖北大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,武漢 430062;2.湖北省教育信息化工程技術(shù)研究中心(湖北大學(xué)),武漢 430062)

      0 引言

      隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,人們獲取信息的效率得到了極大的提升,新的科技知識和信息量迅猛增加,信息產(chǎn)生的速率也越來越快。近年來印刷信息每5 年便增長一倍,2019 年中國出版新版圖書為22 萬種,全世界每天發(fā)表的論文超過14 000 篇,僅在2019 年中國就發(fā)表了68 萬篇研究論文。伴隨著越來越多的學(xué)術(shù)、科技論文投往各類期刊、會(huì)議,學(xué)術(shù)機(jī)構(gòu)常通過同行評審[1-2]來評估提交的論文,這個(gè)過程中最具挑戰(zhàn)性的任務(wù)之一是在最大限度提高審稿質(zhì)量的條件下為論文分配審稿人,此問題稱為審稿人分配問題(Reviewer Assignment Problem,RAP)[3-5]。對于論文提交量越來越大的計(jì)算機(jī)科學(xué)領(lǐng)域,一次會(huì)議通常涉及成百上千的投稿論文以及審稿專家,在要求研究領(lǐng)域匹配和遵循會(huì)議時(shí)間表的情況下,采用傳統(tǒng)人工分配審稿專家評審?fù)陡逭撐娘@得十分耗時(shí)并且分配效果可能非常差。因此,研究一種為會(huì)議投稿論文高效準(zhǔn)確地推薦審稿人的方法十分重要。

      目前解決審稿人分配問題大致可以分為基于檢索的方法和基于分配的方法?;跈z索的審稿人分配方法[6-7]將論文視作一次查詢,將審稿人曾經(jīng)發(fā)表過的作品表示成文本文件,將排名靠前的文件對應(yīng)的審稿人分配給論文。Karimzadehgan 等[7]使用概率潛在 語義分析(Probabilistric Latent Semantic Analysis,PLSA)模型[8-9]得到審稿人和論文的研究方向分布,并基于多方面專業(yè)知識的匹配來檢索合適的審稿人;但是這類方法會(huì)產(chǎn)生不均衡的分配,其中一些審稿人可能會(huì)收到太多要審閱的論文。另一種基于分配的審稿人分配方法是在限制分配給審稿人論文數(shù)量和規(guī)定每篇論文必須接受的評論數(shù)量的情況下,求解審稿人和待審論文間相似度全局最大化的問題。文獻(xiàn)[10]最早提出此想法,提出了一種計(jì)算審稿人與待審論文間親和力分?jǐn)?shù)方法,假設(shè)這些親和力分?jǐn)?shù)可以準(zhǔn)確地模擬每個(gè)審稿人為每篇論文提供的預(yù)期審閱質(zhì)量,通過最大化所有審稿人-待審論文對的親和力得分總和來找到最優(yōu)分配;但是該方法會(huì)出現(xiàn)為了得到更高的整體匹配分?jǐn)?shù),有些論文被分配給缺乏該領(lǐng)域?qū)I(yè)知識的一組審稿人的情況。O’Dell 等[11]通過最大化最小親和力論文得分來緩解這個(gè)問題;但這個(gè)目標(biāo)可能會(huì)與最大化全局論文得分總和的目標(biāo)相沖突,并不會(huì)同時(shí)優(yōu)化整體的最佳分配。Kobren 等[12]提出了基于松弛迭代的分配算法(Fair matching via Iterative Relaxation,F(xiàn)airIR)和基于最小成本的分配算法(Fair paper matching as min-cost Flow,F(xiàn)airFlow)兩種算法,要求每篇論文必須在獲得高于指定閾值的親和力分?jǐn)?shù)的約束下,最大化全局親和力得分總和。Stelmakh 等[13]提出的同行評審公平分配算法(Fair and Accurate reviewer assignment in Peer Review,PR4A)將審稿人劃分為不同的輪次進(jìn)行分配,每輪中確保最大化最小親和力論文得分,然后在下一輪次的分配中優(yōu)化另一篇分?jǐn)?shù)較小的論文。Payan等[14]提出審稿專家貪婪輪詢算法(Greedy Reviewer Round Robin,GRRR),基于輪詢調(diào)度產(chǎn)生最佳的論文選擇序列,將審稿人進(jìn)行更公平的分配來達(dá)到提升整體論文審閱質(zhì)量的目的。然而,此類方法都沒有考慮一篇論文可能涉及多個(gè)研究方向,一篇跨學(xué)科論文可能會(huì)由一組專業(yè)知識過于狹窄的審稿人進(jìn)行審閱,從而導(dǎo)致論文未被分配給一組能盡量覆蓋論文所有研究方向的審稿人,最終可能會(huì)發(fā)生所有指定的審稿人能很好地覆蓋論文主要研究方向,但未能覆蓋論文其他研究方向的情況。

      在會(huì)議為論文分配審稿人的過程中,即使得到了一篇論文的推薦審稿人,考慮到審稿人審閱論文數(shù)量的限制,為論文分配審稿人的次序不同,最終得到的分配結(jié)果也不同。如何確定合理的待審論文選擇次序,將審稿人進(jìn)行公平的分配是很有必要的。同時(shí),在得到每篇論文的推薦審稿小組后,檢查審稿人和論文間是否存在利益沖突(Conflict of Interest,COI)[15],從而避免不公平審閱的發(fā)生,也是值得研究的要點(diǎn)。

      結(jié)合論文選擇次序和利益沖突檢查,本文提出一種基于親和力與研究方向覆蓋率的審稿人推薦算法(reviewer recommendation algorithm based on Affinity and Research Direction Coverage,ARDC)。與現(xiàn)有方法主要通過最大化全局親和力得分的方式分配審稿人不同,本文所提方法要求審稿人擁有與論文較大親和力的同時(shí),還盡可能地與其他審稿人一起更全面地覆蓋論文的所有研究方向,實(shí)現(xiàn)較高的研究方向覆蓋率。實(shí)驗(yàn)結(jié)果表明,本文算法能充分考慮審稿人與論文間親和力以及對研究方向的覆蓋率,為論文安排合理的選擇審稿人次序并進(jìn)行利益沖突檢查,能夠使得審稿人推薦結(jié)果更加合理準(zhǔn)確。

      針對實(shí)際的會(huì)議審稿場景,本文算法首先根據(jù)提交給會(huì)議的待審論文,和參與會(huì)議評審的審稿人發(fā)表過的論文計(jì)算出待審論文選擇審稿人的次序;接著基于詞頻語言模型和隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型計(jì)算出審稿人的綜合審閱得分并依據(jù)輪詢調(diào)度策略得到待審論文的預(yù)分配審稿小組;最后進(jìn)行利益沖突檢查與消解得到會(huì)議每篇待審論文的推薦審稿小組。

      1 基于親和力與研究方向覆蓋率的審稿人推薦算法

      1.1 算法整體框架

      為確保能夠?yàn)檎撐耐扑]合適的審稿人,首先根據(jù)研究方向在待審論文和審稿人論文組中出現(xiàn)的頻數(shù),得到論文選擇審稿人的次序;然后基于詞頻語言模型計(jì)算論文與審稿人間親和力得分,基于LDA 模型對審稿人論文組和待審論文進(jìn)行建模,計(jì)算研究方向覆蓋得分,進(jìn)而得到審稿人的綜合審閱得分并采用輪詢調(diào)度的方式為論文預(yù)分配審稿人;最后經(jīng)過審稿人和論文間的利益沖突檢查后得到最終的推薦審稿小組。算法整體框架圖如圖1 所示。

      圖1 算法整體框架Fig.1 Algorithm framework

      本文提出了一種基于親和力與研究方向覆蓋率的審稿人推薦算法,該算法在實(shí)際應(yīng)用中可有效減少各類學(xué)術(shù)會(huì)議為每篇論文指定審稿人的工作量,精簡會(huì)議周期,準(zhǔn)確高效地為待審論文推薦合適的審稿小組,提升會(huì)議整體的審閱質(zhì)量。本文的主要工作包括:

      1)提出了一種基于親和力與研究方向覆蓋率的審稿人推薦算法,該算法中提出了一種最大化親和力得分和研究方向覆蓋選擇審稿人的方法。與現(xiàn)有通過最大化全局親和力得分的方法不同,本文所提方法要求審稿人擁有與論文較大親和力的同時(shí)還可以與其他審稿人一起互補(bǔ)的覆蓋論文的所有研究方向。

      2)設(shè)計(jì)了一種論文選擇審稿人次序計(jì)算方法,將包含冷門研究方向的論文分配給適合的審稿人,并進(jìn)行利益沖突檢查,確保審稿小組分配最優(yōu)化。

      1.2 待審論文選擇次序計(jì)算

      在實(shí)際會(huì)議環(huán)境中,考慮到審稿人審閱論文的數(shù)量限制,為待審論文確定合適的選擇審稿人次序,能確保分配效果更好。假設(shè)有兩篇論文pi和pj,pi由于涉及某個(gè)冷門研究方向只有少數(shù)審稿人能較好地審閱,pj則多數(shù)審稿人都能審閱。讓pj先進(jìn)行審稿人選擇,可能會(huì)出現(xiàn)適合審閱pi的審稿人由于審稿負(fù)載無法審閱pi,之后pi也無法找到其他有能力審閱的審稿人的情況,這種選擇次序是不合理的。因此應(yīng)該優(yōu)先將涉及冷門研究方向的論文分配給適合的審稿人,達(dá)到提高整體審稿質(zhì)量的目的。

      基于此思想,本文對待審論文涉及的研究方向在此次會(huì)議中的研究狀況進(jìn)行度量,計(jì)算論文的審稿人選擇次序Q。由于大多數(shù)會(huì)議要求作者為他們提交的論文指明主要和次要的學(xué)科領(lǐng)域,據(jù)此可以得到待審論文的研究方向集合areaP={areaP1,areaP2,…,areaPx},areaPi代表第i篇待審論文pi涉及的研究方向。當(dāng)pi所有的研究方向出現(xiàn)在areaP中頻數(shù)的均值小于冷門研究方向閾值m時(shí),記為signPi=1;否則signPi=0。同樣的,收集審稿專家的相關(guān)信息,得到參與會(huì)議所有審稿人的研究方向集合areaR={areaR1,areaR2,…,areaRy},按照同樣的方法可得pi的研究方向在areaR中的研究狀況,記為signRi=1 或者signRi=0,則待審論文pi在此次會(huì)議中的研究狀況標(biāo)志位的組合有以下4 種情況:

      1)1 類(signPi=0,signRi=1):表明當(dāng)前論文的各研究方向在待審論文集中出現(xiàn)頻率均值非常高,但從事該類方向研究的審稿人很稀缺,該類論文最應(yīng)該被優(yōu)先分配。

      2)2 類(signPi=1,signRi=1):表明論文涉及的研究方向在待審論文集中很少出現(xiàn),同時(shí)能審閱該類方向的審稿人也很少。屬于此類別論文的數(shù)量相較于1 類論文會(huì)更少,同時(shí)選擇審稿人的數(shù)量也會(huì)少一些,因此在滿足1 類論文優(yōu)先分配的情況下,將此類論文放在第二批次的分配中。

      3)3 類(signPi=0,signRi=0):表明當(dāng)前論文的各研究方向在待審論文集和審稿人中出現(xiàn)得都很頻繁,此類論文對審稿人的需求沒有之前類別那么強(qiáng)烈,因此將其放在第三批次的分配中。

      4)4 類(signPi=1,signRi=0):表明當(dāng)前論文的各研究方向雖然在待審論文集中出現(xiàn)頻率的均值較低,但該類方向大多數(shù)審稿人都能進(jìn)行較好的審閱,將其放在最后分配。

      冷門研究方向閾值m受會(huì)議規(guī)模的影響,當(dāng)提交給會(huì)議論文數(shù)量較多、會(huì)議規(guī)模較大時(shí),m的值自然較大。為了適應(yīng)于不同的會(huì)議規(guī)模,本文使用冷門研究方向因子ε計(jì)算m:

      其中:pN為會(huì)議待審論文數(shù)量,當(dāng)確定了冷門研究方向閾值m后,通過計(jì)算論文的研究方向在待審論文集和審稿人中出現(xiàn)的頻數(shù),可以得到論文的研究狀況標(biāo)志位signP和signR,論文根據(jù)研究狀況標(biāo)志位劃分為4 個(gè)類別分4 個(gè)批次依次進(jìn)入隊(duì)列,得到論文選擇審稿人的選擇次序隊(duì)列Q。

      1.3 基于綜合審閱得分的審稿人預(yù)分配

      根據(jù)1.2 節(jié)得到的待審論文審稿人選擇次序Q,依次為論文分配合適的審稿人。為了達(dá)到選擇的審稿人擁有與論文較大親和力的同時(shí)還可以與其他審稿人一起盡可能地互補(bǔ)覆蓋論文的所有研究方向的目的,本節(jié)通過計(jì)算審稿人和論文間的親和力得分,以及基于LDA 模型計(jì)算研究方向覆蓋得分,綜合得到審稿人的綜合審閱得分來衡量審稿人審閱質(zhì)量高低,并利用輪詢調(diào)度的方式讓論文選擇合適的審稿人,得到論文預(yù)分配審稿小組PT。

      1.3.1 基于詞頻語言模型的親和力得分計(jì)算

      TPMS(Toronto Paper Matching System)值[10]是審稿人分配問題中常用的用來衡量審稿人對某篇論文親和力大小的數(shù)值,通常是通過測量審稿人曾經(jīng)發(fā)表的相關(guān)學(xué)術(shù)作品與目標(biāo)待審論文間的相似性來計(jì)算的。本文使用原論文中基于詞頻語言模型(Language Model based on the word count representation)的方法來計(jì)算TPMS 值。

      對于審稿人r,收集r發(fā)表過的論文形成論文組Rsetr,將論文組中的論文摘要進(jìn)行分詞、去停用詞等預(yù)處理,得到審稿人r論文組的詞袋表示Ar;采用相同的方法可以得到待審論文p摘要的詞袋表示Ap,則審稿人r和待審論文p的TPMS值為:

      其中frw是詞項(xiàng)w在Ar中的狄利克雷平滑歸一化頻率(Dirichlet-smoothed normalized frequency),計(jì)算方法如下:

      其中:C表示所有待審論文和審稿人論文組的摘要形成語料庫的詞袋表示,|C|和|Ar|分別表示語料庫C和審稿人論文集Ar中詞項(xiàng)的總數(shù),C(w)和Ar(w)分別表示詞項(xiàng)w出現(xiàn)在C和Ar中的次數(shù),β是平滑因子,用于放縮歸一化頻率使最后得到的TPMS 值處于合理的范圍中。由于本文實(shí)驗(yàn)基于文獻(xiàn)[16]構(gòu)建的數(shù)據(jù)集,因此參照文獻(xiàn)[16],采用β=1 000 作為平滑因子的值。

      1.3.2 基于LDA模型的研究方向覆蓋得分計(jì)算

      為確保審稿小組能最大化覆蓋論文研究方向,從選擇第二位審稿人開始,除了考慮對論文的親和力之外,均需考慮之前所選擇的審稿人已經(jīng)覆蓋的論文研究方向,要盡可能選擇能覆蓋這篇論文未被覆蓋的研究方向的審稿人作為最佳的審稿人。因此,需要對審稿人和待審論文的研究方向進(jìn)行建模,使用得到的研究方向分布進(jìn)行覆蓋得分的計(jì)算。

      LDA 模型[17-18]是一種文本主題生成模型,包含文檔、主題和詞項(xiàng)三層結(jié)構(gòu),基本思想是一篇文檔是有多個(gè)主題的,不同主題下詞項(xiàng)出現(xiàn)的概率是不同的。這種關(guān)系和論文與研究方向之間的關(guān)系很類似,一篇論文通常包含多個(gè)研究方向,不同研究方向下詞項(xiàng)出現(xiàn)的概率也是不同的。因此,LDA 模型對應(yīng)本文的三層結(jié)構(gòu)即為論文、研究方向和詞項(xiàng),其拓?fù)浣Y(jié)構(gòu)如圖2 所示。

      圖2 LDA模型的拓?fù)浣Y(jié)構(gòu)Fig.2 Topological structure of LDA model

      基于LDA 模型,生成論文p的對數(shù)似然概率為:

      其中:c(w,p)是詞項(xiàng)w在論文p中出現(xiàn)的次數(shù),θj表示論文p中出現(xiàn)研究方向j的概率,?wj表示詞項(xiàng)w在研究方向j中出現(xiàn)的概率。

      本文使用LDA 模型,以所有審稿人論文組與待審論文集的摘要作為語料庫,采用Gibbs 采樣算法進(jìn)行建模,得到審稿人和待審論文的研究方向分布,并計(jì)算研究方向分布之間的余弦相似度作為研究方向覆蓋得分,以此反映審稿人對待審論文研究方向的覆蓋程度。審稿人r對論文p的研究方向覆蓋得分為:

      其中:θr和θp代表r和p的研究方向分布,可以將其看作是一個(gè)k維的向量(k為LDA 主題數(shù));代表r中出現(xiàn)研究方向a的概率。

      1.3.3 基于綜合審閱得分的審稿人預(yù)分配

      考慮審稿人與待審論文間親和力大小,以及同一審稿小組對論文的研究方向覆蓋率,本文提出一種計(jì)算審稿人綜合審閱得分的方法,綜合審閱得分高的審稿人與論文親和力較大,還可以與其他審稿人一起互補(bǔ)的覆蓋論文的研究方向。

      在計(jì)算出親和力得分和研究方向覆蓋得分后,通過加權(quán)求和的方式將兩個(gè)衡量審稿人審閱質(zhì)量的分?jǐn)?shù)融合得到審稿人綜合審閱得分,審稿小組中第s個(gè)審稿人相對于論文p的綜合審閱得分為:

      參數(shù)σ為審稿小組影響因子,用來控制依賴先前選擇的審稿人來覆蓋論文的研究方向的程度。當(dāng)σ=0 時(shí),當(dāng)前計(jì)算中最好的審稿人能較好覆蓋論文所有研究方向;當(dāng)σ>0時(shí),對論文研究方向的部分覆蓋將會(huì)受到之前審稿人的影響,當(dāng)前計(jì)算得到最好的審稿人將會(huì)是能最好覆蓋之前尚未被覆蓋到的研究方向的審稿人。

      根據(jù)論文選擇審稿人次序Q,本文利用輪詢調(diào)度的方法將審稿人分配給待審論文:待審論文選擇審稿人的過程按輪次進(jìn)行,每一輪按次序Q迭代待審論文,讓每篇待審論文選擇不在自己的審稿小組中、綜合審閱得分最高而且未達(dá)到審稿負(fù)載的審稿人,直到?jīng)]有新的審稿人被分配或者達(dá)到最大迭代輪次,據(jù)此產(chǎn)生每篇待審論文的預(yù)分配審稿小組PT。

      1.4 基于利益沖突檢查的審稿小組推薦

      為確保論文評審的公正,避免審稿人審閱該論文時(shí)可能會(huì)帶有偏見,在實(shí)際分配論文給審稿人時(shí),應(yīng)充分權(quán)衡審稿人與論文間的利益沖突。

      Long 等[19]整理了常見的幾種利益沖突,本文將其歸為兩類沖突:關(guān)系沖突和競爭沖突。關(guān)系沖突指待審論文作者和審稿人共同撰寫了一些論文或者在同一機(jī)構(gòu)中工作,表明論文作者和審稿人具有合作歷史;競爭沖突是指審稿人和待審論文具有相同的研究領(lǐng)域相同的研究方向,通常情況下審稿人也會(huì)向會(huì)議提交論文,在這種情況下很難假設(shè)審稿人會(huì)客觀地判斷該論文。因此,在將論文分配給審稿人時(shí),避免利益沖突對保證論文審閱質(zhì)量很關(guān)鍵。

      對于待審論文p和審稿人r,進(jìn)行利益沖突檢查的步驟為:

      1)關(guān)系沖突檢查。

      根據(jù)r對應(yīng)的論文組Rsetr可以得到r的合作作者集authorR={authorR1,authorR2,…,authorRx} 和學(xué)術(shù)機(jī)構(gòu)集placeR={placeR1,placeR2,…,placeRy},authorRi表 示r的第i個(gè)合作作者,placeRj表示和r有關(guān)系的第j個(gè)學(xué)術(shù)機(jī)構(gòu),authorR和placeR的計(jì)算方式為:

      其中:authorsi指的是Rsetr的第i篇論文中出現(xiàn)的作者集合,placesj指的是Rsetr的第j篇論文中每個(gè)作者對應(yīng)的機(jī)構(gòu)集合。對于待審論文p也可以得到其合作作者集authorP={authorP1,authorP2,…,authorPu} 和學(xué)術(shù)機(jī)構(gòu)集placeP={placeP1,placeP2,…,placePv},當(dāng)出現(xiàn)

      則證明撰寫論文p的作者們其中有人與審稿人r一同寫過論文或者在同一機(jī)構(gòu)中,具有合作歷史,存在關(guān)系沖突。

      2)競爭沖突檢查。

      根據(jù)1.2 節(jié),可以得到審稿人r和待審論文p的研究方向areaRr和areaPp,當(dāng)r也向會(huì)議提交了論文并且有:

      則證明r和p有著相同的研究領(lǐng)域,為了保證論文無偏見評審,認(rèn)為r和p存在競爭沖突。

      在得到待審論文的預(yù)分配審稿小組PT后,對其中每個(gè)審稿人進(jìn)行兩種類型的利益沖突檢查,除去那些存在利益沖突的審稿人,最終按照會(huì)議對待審論文安排審稿人數(shù)量的要求,選擇綜合審閱得分排名在前的幾名審稿人形成推薦審稿小組T。

      2 算法具體實(shí)現(xiàn)

      ARDC 算法偽代碼如下:

      算法 基于親和力與研究方向覆蓋率的審稿人推薦算法(ARDC)。

      輸入 待審論文集合P={p1,p2,…,px},審稿人論文組集合Rset={Rset1,Rset2,…,Rsety}。

      輸出 推薦審稿小組T={T1,T2,…,Tx}。

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 數(shù)據(jù)集選擇

      由于會(huì)議對審稿人具體的分配信息是保密的,難以獲取真實(shí)的審稿人數(shù)據(jù)去評估本文方法的有效性,而且即使擁有真實(shí)會(huì)議分配信息,也不一定表明這次會(huì)議分配結(jié)果是最佳的。因此,本文使用S2ORC[16]和SIGIR[7]這兩個(gè)模擬數(shù)據(jù)集去模擬真實(shí)的會(huì)議審稿分配流程,并針對SIGIR 數(shù)據(jù)集中所缺失的詳細(xì)作者信息采用隨機(jī)化方式進(jìn)行了補(bǔ)全。S2ORC和SIGIR 數(shù)據(jù)集從真實(shí)的會(huì)議數(shù)據(jù)中篩選合適的待審論文和審稿專家,收集待審論文和模擬審稿人論文摘要信息和研究方向信息,具體數(shù)值如表1 所示。

      表1 數(shù)據(jù)集信息Tab.1 Dataset information

      3.2 對比算法

      為了驗(yàn)證ARDC 算法性能,本文選擇現(xiàn)有各種審稿人推薦算法作為對比算法,包括PLSARAM[7]、TPMS[10]、FairIR[12]、FairFlow[12]、PR4A[13]和GRRR[14]。對于會(huì)議審稿相關(guān)參數(shù)設(shè)置,本文為每篇待審論文分配3 個(gè)審稿人,每個(gè)審稿人最多審6 篇論文。對比算法均采用其論文中對應(yīng)的默認(rèn)參數(shù),由于PLSARAM 算法中并未考慮審稿人負(fù)載限制和論文選擇次序,因此本文隨機(jī)的選擇待審論文為其分配審稿人,并在分配的過程中移除達(dá)到負(fù)載的審稿人,最后將10 次運(yùn)行結(jié)果的平均值作為PLSARAM 算法的最終結(jié)果。

      3.3 評價(jià)指標(biāo)

      本文采用平均研究方向覆蓋得分(RAvg.Coverage),平均親和力得分(RAvg.TPMS)和利益沖突對數(shù)目(Conflict of Interest,COI)作為會(huì)議審稿人分配質(zhì)量的評價(jià)指標(biāo)。

      Avg.Coverage 代表審稿小組對論文p研究方向覆蓋的程度,n表示審稿小組中審稿人的數(shù)目,表示審稿小組中第i個(gè)審稿人ri對p的研究方向覆蓋得分:

      Avg.TPMS 為審稿小組對論文p親和力得分的平均值,表示審稿小組中第i個(gè)審稿人ri對p的TPMS 值:

      上述兩個(gè)評價(jià)指標(biāo)都是值越大,說明為論文分配審稿小組的審閱質(zhì)量越好。COI 表示在當(dāng)前會(huì)議的審稿安排中審稿人-待審論文對間出現(xiàn)利益沖突的個(gè)數(shù),COI 越大則表明審稿人分配越不合理。

      3.4 參數(shù)確定實(shí)驗(yàn)

      本文算法有主題數(shù)k,審稿小組影響因子σ,融合權(quán)重因子ω和冷門研究方向因子ε四個(gè)參數(shù),實(shí)驗(yàn)數(shù)據(jù)參數(shù)如表2所示。

      表2 實(shí)驗(yàn)數(shù)據(jù)參數(shù)Tab.2 Experimental data parameters

      3.4.1 主題數(shù)k

      主題數(shù)k是LDA 模型在構(gòu)建過程中必須給出的參數(shù),k不同最后得到的研究方向分布也不同。設(shè)定審稿小組影響因子σ為0.5,冷門研究方向因子ε為0.02,融合權(quán)重因子ω為1,即僅使用研究方向覆蓋得分探究主題數(shù)k對Avg.Coverage 和Avg.TPMS 的影響,結(jié)果如圖3、4 所示。

      圖3 S2ORC數(shù)據(jù)集上評價(jià)指標(biāo)隨k變化Fig.3 Evaluation metrics changing with k on S2ORC dataset

      圖4 SIGIR數(shù)據(jù)集上評價(jià)指標(biāo)隨k變化Fig.4 Evaluation metrics changing with k on SIGIR dataset

      由圖3、4 可知,兩個(gè)數(shù)據(jù)集上的Avg.Coverage 整體上都是隨著主題數(shù)k的增大而減小,證明了選擇較少的主題數(shù)能更好地對論文的研究方向進(jìn)行建模;隨著k的增大,S2ORC數(shù)據(jù)集上的Avg.TPMS 先逐漸增大,當(dāng)k超過50 后就保持穩(wěn)定,不再有明顯的波動(dòng),此時(shí)SIGIR 數(shù)據(jù)集上Avg.TPMS 的值也是穩(wěn)定在0.6 附近,故確定主題數(shù)k=50 時(shí)算法有較好的效果。

      3.4.2 審稿小組影響因子σ

      參數(shù)σ用來控制依賴先前選擇審稿人來覆蓋論文研究方向的程度,當(dāng)σ取值過大,會(huì)使當(dāng)前審稿人覆蓋效果不明顯導(dǎo)致整體分配結(jié)果較差,因此在選取參數(shù)σ要避免其過大。確定主題數(shù)k=50 之后,設(shè)定冷門研究方向因子ε為0.02,融合權(quán)重因子ω為1,探究不同σ對評價(jià)指標(biāo)的影響,結(jié)果如圖5、6 所示。

      圖5 S2ORC數(shù)據(jù)集上評價(jià)指標(biāo)隨σ變化Fig.5 Evaluation metrics changing with σ on S2ORC dataset

      由圖5、6 可知,σ在兩個(gè)數(shù)據(jù)集上都對Avg.TPMS 沒有明顯影響,而Avg.Coverage 則隨著σ的增大而減小,印證了前面提到的當(dāng)σ過大時(shí)新審稿人的選擇效果會(huì)被現(xiàn)有審稿小組掩蓋,導(dǎo)致結(jié)果變差的觀點(diǎn)。由于σ為0、0.1 和0.2 對應(yīng)的Avg.Coverage 值在S2ORC 數(shù)據(jù)集上分別為0.905 1、0.905 2 和0.904 7,此時(shí)SIGIR 數(shù)據(jù)集上Avg.Coverage 值沒有明顯變化,故確定實(shí)驗(yàn)所用的審稿小組影響因子σ為0.1。

      圖6 SIGIR數(shù)據(jù)集上評價(jià)指標(biāo)隨σ變化Fig.6 Evaluation metrics changing with σ on SIGIR dataset

      3.4.3 融合權(quán)重因子ω

      ω為利用親和力得分和研究方向覆蓋得分計(jì)算綜合審閱質(zhì)量得分時(shí)的權(quán)重系數(shù)。當(dāng)ω=1 時(shí),代表綜合審閱質(zhì)量得分等于研究方向覆蓋得分,此時(shí)不考慮論文與待審論文間親和力大??;當(dāng)ω=0 時(shí),代表綜合審閱質(zhì)量得分等于親和力得分,此時(shí)為論文分配審稿人不考慮研究方向的匹配。

      在得到使算法表現(xiàn)性能最佳的主題數(shù)k和審稿小組影響因子ω后,設(shè)定冷門研究方向因子ε為0.02,使用不同的融合權(quán)重因子ω觀察Avg.Coverage 和Avg.TPMS 的變化,結(jié)果如圖7、8 所示。

      圖7 S2ORC數(shù)據(jù)集上評價(jià)指標(biāo)隨ω變化Fig.7 Evaluation metrics changing with ω on S2ORC dataset

      圖8 SIGIR數(shù)據(jù)集上評價(jià)指標(biāo)隨ω變化Fig.8 Evaluation metrics changing with ω on SIGIR dataset

      由圖7、8 可知,ARDC 算法在兩個(gè)數(shù)據(jù)集上評價(jià)指標(biāo)的變化趨勢是一致的,都是Avg.Coverage 隨著ω的增大而減小,Avg.TPMS 的值隨著ω的增加而增大,ω的取值可以為0.4 或0.5,此時(shí)兩個(gè)評價(jià)指標(biāo)都能取得較大的值。

      3.4.4 冷門研究方向因子ε

      ε用來確定論文在此次會(huì)議中的研究狀況標(biāo)志位,并產(chǎn)生論文審稿人選擇次序。確定主題數(shù)k=50,審稿小組影響因子σ=0.1,融合權(quán)重因子ω=0.4 后,探究不同的冷門研究方向因子ε對于評價(jià)指標(biāo)的影響,結(jié)果如圖9、10 所示。

      圖9 S2ORC數(shù)據(jù)集上評價(jià)指標(biāo)隨ε變化Fig.9 Evaluation metrics changing with ε on S2ORC dataset

      由圖10 可知,冷門研究方向因子ε在規(guī)模較小的SIGIR數(shù)據(jù)集上對評價(jià)指標(biāo)的影響不大,這是由于在此數(shù)據(jù)集上審稿人與待審論文比例接近2.5∶1,涉及冷門研究方向的論文找不到合適審稿人的概率很小,因此在審稿人數(shù)量充足的情況下出現(xiàn)這種現(xiàn)象是符合實(shí)際情況的。為此本文根據(jù)評價(jià)指標(biāo)在S2ORC 數(shù)據(jù)集上的變化確定ε的取值:由圖9 可知,冷門研究方向因子ε對Avg.TPMS 的影響不大,其值始終在0.855 和0.856 之間波動(dòng);隨著ε的增大,Avg.Coverage 先不斷波動(dòng),在ε超過0.05 之后趨于一個(gè)穩(wěn)定的狀態(tài),故使用Avg.Coverage 來確定最佳ε的取值,觀察圖像可知,ε為0.02時(shí)Avg.Coverage 有最值,因此最終確定ε的取值為0.02。

      圖10 SIGIR數(shù)據(jù)集上評價(jià)指標(biāo)隨ε變化Fig.10 Evaluation metrics changing with ε on SIGIR dataset

      3.5 與其他算法對比實(shí)驗(yàn)

      通過上一節(jié)在S2ORC 和SIGIR 數(shù)據(jù)集上的參數(shù)分析,可以得到ARDC 算法的參數(shù)取值為k=50,σ=0.1,ω=0.4,ε=0.02。將本文算法與現(xiàn)有的6 種審稿人推薦算法基于平均研究方向覆蓋得分、平均親和力得分和利益沖突對數(shù)目進(jìn)行對比,表3 是每種算法在數(shù)據(jù)集上得到的結(jié)果。

      表3 各算法的實(shí)驗(yàn)結(jié)果對比Tab.3 Comparison of experimental results of different algorithms

      由表3 可知,本文提出的ARDC 算法在總體上優(yōu)于其他6 種對比算法。在保證待審論文與審稿人間利益沖突對數(shù)目為0 的情況下,與基于分配的TPMS、PR4A、FairIR、FairFlow 和GRRR 算法相比,ARDC 要求審稿人擁有與待審論文較高親和力的同時(shí)與論文的研究方向相匹配,因此算法能在保持較高的Avg.TPMS 的同時(shí),使Avg.Coverage 獲得較大的提升:ARDC 算法在S2ORC 數(shù)據(jù)集上得到的親和力得分平均僅下降9%,但研究方向覆蓋得分最低提高37%,平均提高38%。這種現(xiàn)象在規(guī)模較小的SIGIR 數(shù)據(jù)集上體現(xiàn)得更加明顯,親和力得分平均下降18%,但研究方向覆蓋得分平均提高65%。與PLSARAM 算法相比,ARDC 在基于研究方向匹配的基礎(chǔ)上增加了親和力得分和論文審稿人選擇次序,最終結(jié)果也獲得了較大的提升:ARDC 算法在得到的親和力得分僅下降2.6%和5.2%的情況下,將研究方向覆蓋得分分別提高19%和12%,實(shí)驗(yàn)結(jié)果證明了本文方法的有效性。

      4 結(jié)語

      本文提出了一種基于親和力與研究方向覆蓋率的審稿人推薦算法,與現(xiàn)有通過最大化全局親和力得分的算法不同,本文所提算法要求審稿人擁有與論文較大親和力的同時(shí)還可以與其他審稿人一起互補(bǔ)的覆蓋論文所有的研究方向,并據(jù)此得到論文預(yù)分配審稿小組。在此基礎(chǔ)上,結(jié)合會(huì)議審稿流程,通過計(jì)算待審論文選擇審稿人次序和進(jìn)行利益沖突檢查,最終得到論文推薦審稿小組,并在S2ORC 和SIGIR 數(shù)據(jù)集上獲得了更好的推薦結(jié)果。

      在現(xiàn)實(shí)會(huì)議中,并不只是根據(jù)審稿人曾經(jīng)發(fā)表過的作品就為其分配待審論文,還要考慮審稿人的社會(huì)關(guān)系,論文的審閱質(zhì)量以及最后論文是否錄用等其他方面的因素。今后為論文推薦審稿人時(shí)可以對審稿人的相關(guān)信息進(jìn)行充分的挖掘,刻畫審稿人的專家畫像,以提高最后的推薦效果。

      猜你喜歡
      審稿人親和力集上
      《中國免疫學(xué)雜志》特約審稿人名單
      《軍事護(hù)理》2021年度優(yōu)秀編委、審稿人
      Cookie-Cutter集上的Gibbs測度
      特約審稿人遴選通知
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      本刊評出2018年度優(yōu)秀作者和優(yōu)秀審稿人
      高端訪談節(jié)目如何提升親和力
      新聞傳播(2018年11期)2018-08-29 08:15:30
      高端訪談節(jié)目如何提升親和力探索
      新聞傳播(2018年13期)2018-08-29 01:06:52
      復(fù)扇形指標(biāo)集上的分布混沌
      親和力在播音主持中的作用探究
      新聞傳播(2016年9期)2016-09-26 12:20:34
      玛曲县| 云梦县| 棋牌| 南昌县| 平安县| 文山县| 新民市| 大兴区| 台中市| 凉城县| 米林县| 衡阳县| 城市| 宜良县| 东阿县| 新营市| 宣威市| 柳州市| 都江堰市| 明溪县| 个旧市| 特克斯县| 潮安县| 沐川县| 阿拉善盟| 始兴县| 奈曼旗| 永兴县| 枝江市| 项城市| 台前县| 海宁市| 五华县| 锡林浩特市| 昌黎县| 通河县| 湖州市| 德兴市| 荃湾区| 无为县| 浙江省|