張 雯,張仰森,周煒翔,黃改娟
(北京信息科技大學 智能信息處理研究所,北京 100101)
2018年4月20日至21日,習近平主席在全國網絡安全和信息化工作會議上發(fā)表講話,強調“沒有網絡安全就沒有國家安全”。網絡與信息安全已經上升為國家戰(zhàn)略,為促進網絡與信息安全領域蓬勃發(fā)展,需要大力開展網絡與信息安全領域科研項目的開發(fā)工作。在科研項目立項階段,存在一個關鍵步驟——評審專家推薦。評審專家推薦即根據科研項目申請文檔,確定項目研究領域,同時推薦相關領域的專家進行項目評審,以評估項目的實際意義及可行性。
目前,針對科研項目的評審專家遴選任務,大多數政府機構、科技部門、互聯(lián)網企業(yè)仍然停留在人工選拔專家的階段。這種人工遴選專家的方式具有很大的弊端。例如,各個機構的科研項目立項活動往往集中在同一時期進行,需要進行選拔的專家數量較多,同時需要考慮每個項目的專家分配情況,造成大量的人力資源消耗也會出現分配不合理的現象。在進行人工遴選評審專家的過程中,首先需要選拔專家的人員對待評審的科研項目進行研究方向的確定,依據確定的研究方向著手進行評審專家的遴選工作。但人的知識認知范圍是有限的,科研項目文檔中往往涉及多個研究方向,單純的依靠人工進行所有科研項目的分析,無法保證遴選人員對科研項目所涉及領域具有正確的判斷,因而將導致所邀請的評審專家研究領域與待評審的科研項目研究領域不匹配的問題。這在一定程度上會對項目評審結果造成不良影響。因此,為提升科研項目的評審質量,針對領域科研項目評審專家的推薦具有重要的研究意義。
評審專家推薦系統(tǒng)以滿足用戶對專家這一特定實體的推薦需求為目的,是推薦技術的一種實例化形式。近年來使用頻率較多的個性化推薦算法主要包括協(xié)同過濾的推薦算法[1-3]、基于圖結構的推薦算法[4-7]和基于社交網絡的推薦算法[8-11]。文獻[12]參考用戶項目矩陣中的評分資料進行用戶與項目之間的相似度[12]。文獻[13]基于申報項目論文及知識庫論文,設計了一種通過計算文本余弦相似度來推薦評審專家的方法,解決了人工遴選評審專家中效率較低、主觀選擇專家等問題[13]。但是該推薦算法僅采用余弦相似度進行基于內容的相似度計算,未能充分考慮文本中的語義信息。文獻[14]利用科技文獻之間存在的引用及被引用關系,提出了一種學術平臺相關學者以及相關論文推薦方法,并構建了基于Word2vec的學者與跨語言論文推薦模型[14]。文獻[15]通過構建領域知識圖譜、關鍵詞特征向量抽取、領域節(jié)點向量的加權映射以及匹配相似度計算實現學位論文最為匹配的評審專家推薦[15]。文獻[16]針對已有協(xié)同過濾推薦算法可解釋性不高和基于內容推薦算法信息提取困難、推薦效率低等問題,提出了一種融合知識圖譜和協(xié)同過濾的高效推薦模型[16]。
目前,推薦算法主要應用于電商、新聞、科技論文評審等領域,針對領域科研項目評審專家的推薦算法的研究較少。領域科研項目評審專家推薦與傳統(tǒng)的推薦問題有很大的不同,原因在于:專家存在較為復雜的社會關系,在進行項目評審中,往往會存在一些感情因素。因此,在專家過程中不僅需要考慮專家的研究領域、學術水平是否與待評審項目相吻合,保證項目評審的科學性。同時,還要充分考慮專家的社會關系,避免與項目申請者存在關系強度較大的專家進入推薦專家評審組,進而保證項目評審的公正性。
綜上所述,設計了一種基于領域標簽體系的專家推薦算法。首先,依據高校主頁專家個人信息,確定待分析領域專家集合?;诖治鰧<壹希杉瘜<艺撐臄祿⑦M行分析,構建專家?guī)?;然后,利用領域論文數據,訓練專業(yè)實體識別模型BiLSTM-CRF,為領域標簽體系的構建提供幫助,采用關鍵詞抽取及專業(yè)實體識別模型相結合的方式,實現項目申請文檔的標簽標注;最后,依據項目申請文檔標簽及專家標簽標注模型,生成推薦專家候選集,同時基于專家?guī)鞌祿?,進行專家關聯(lián)關系分析,構建專家社會關系網絡,實現專家回避,結合領域吻合度及領域權威度進行排序,完成最終的領域科研項目評審專家推薦。
本文采用Webmagic爬蟲框架進行數據采集,采集的數據分為兩類:專家基礎數據、專家領域數據。專家基礎數據的采集主要包括專家姓名、工作單位、性別、聯(lián)系方式等;專家領域數據主要是針對專家論文數據的采集,基于論文數據,進行數據分析,獲取研究領域、領域權威度等專家領域信息。
專家基礎數據的數據源包括:高校主頁、百度百科、百度學者庫。分析不同數據源的網站頁面結構,制定全面準確的分辨和解析策略,針對不同網站的特點設計對應的解決方案,如部分網站需要使用代碼偽造登錄口令進而獲取cookie信息。在爬蟲策略上,采用IP代理池并引入異常處理機制,以防止由未知錯誤引起的爬蟲程序的中斷。
專家領域數據的數據源包括:萬方論文數據、知網博碩論文數據庫、維普數據庫。由于異質網絡數據會存在數據重復的情況,進而導致計算資源負載不均衡。因此在專家論文數據采集方面,采用3個數據源爬蟲同時采集,協(xié)同運作的方式,在提高采集效率的同時,避免了各個數據源之間數據不均衡的情況,更好地保證了數據的全面性及計算資源的合理利用。論文數據采集方法具體如下:
(1)從待爬取論文集合中取出論文a;
(2)查看論文a的可用數據源集合s;
(3)逐一查看集合s中各數據源當前的待爬取隊列大小l;
(4)選擇待下載隊列最小的數據源,將論文a添加到該數據源的待下載隊列末尾。
專家數據中存在同名專家問題,為保證專家?guī)熘袑<覕祿臏蚀_性,需要對專家數據進行進一步的處理,對同名專家的屬性數據進行數據消歧。我們充分利用同名專家的屬性特征,通過對多種屬性特征的綜合考慮進行組合,從多側面匹配的角度計算同名專家的相似度,彌補單一特征的不足之處,提高專家數據的準確性。
首先,構建3個消歧特征類?;拘畔⑻卣黝?姓名、性別、郵箱、電話)、社會關系特征類(單位、畢業(yè)院校)、領域特征類(研究方向、論文信息等);然后,進行相似度計算。在每類消歧特征類中,采用編輯距離計算各個屬性特征的相似度,并實行屬性特征相似度的動態(tài)加權計算及歸一化處理;最后,實現線性加權。根據每類消歧能力強弱賦予不同的權值,對每類相似度計算結果進行線性加權計算,得到最終相似度。與實驗所得最優(yōu)效果閾值進行比對,確定消歧專家,實現專家數據融合。
當前信息安全領域沒有成型的標簽體系及技術名詞命名規(guī)范,項目申請文檔中存在專業(yè)名詞命名不一致的現象,且項目申請文檔的撰寫角度無法固定,很多機構的文檔撰寫偏向于應用領域的角度,而專家的論文數據偏向于科研角度,這就導致了在進行專家推薦時直接使用項目申請文檔的標簽與專家標簽進行匹配時,相似度計算困難。為解決這一問題,我們參考了目前國內較成熟的國家自然科學基金標簽體系,同時采用《計算機科學技術百科全書》第三版對國家自然科學基金標簽體系進行層級結構的調整,標簽名詞的擴充、歸一與融合,結合了應用領域及科學研究兩個角度,構建了一套面向網絡與信息安全領域的標簽體系,為項目申請文檔的標簽標注及專家標簽標注模型提供對標功能。除此之外,專業(yè)領域標簽往往具有獨特的上下文語境,而經過關鍵詞提取后的標簽長度較短,不具有較多的語義信息。因此僅僅依靠字詞級特征進行相似度計算的效果較差。
圖1 專業(yè)領域名詞識別模型
由于專家的標簽標注主要依據專家論文,在后續(xù)推薦過程中,需要將專家標簽與項目指南文檔標簽進行匹配,因此,本文基于論文數據及項目申請指南文檔,進行專業(yè)領域名詞識別模型的訓練,確定標簽詞語概念粒度及層次結構。根據實驗結果,參考國家自然科學基金體系,保留體系中“計算機科學”、“人工智能”、“自動化”、“信息與電子學系統(tǒng)”4個領域的一級、二級結構,同時依據《計算機科學技術百科全書》對三、四級標簽名詞進行補充及融合。最終本文的領域標簽體系采用四級樹狀層級結構,標簽總數為1780個。
不同的科研機構設有不同的項目申請文檔規(guī)范,文檔的部分模塊,如相關工作、相關調研等部分也會存在一些技術名詞,但這些名詞往往不是本篇文檔所真正關注的技術領域。因此,本文根據特定的項目申請文檔模板,進行分析區(qū)域的劃分。結合領域標簽體系,從字詞和語義兩個角度出發(fā),提出了一種基于TextRank與BiLSTM-CRF相結合的項目申請文檔標簽標注算法,并采用詞向量與詞頻相結合的方法實現標簽體系標簽詞與識別出的專業(yè)領域名詞的相似度計算任務,詞頻的加入可以降低區(qū)分能力較弱詞語的權重。在此基礎上,引入投票機制,從字詞和語義兩個層面分別選擇不同的影響因子進行線性加權,最終確定標簽名詞的權重排序,獲取自動標注的標簽結果。具體算法描述如下:
算法1:項目申請文檔標簽標注算法
輸入:項目申請文檔A
輸出:標簽列表labelb
過程:
步驟1 專業(yè)領域名詞識別:采用直接定位、Text-Rank、BiLSTM-CRF這3種方法進行識別,得到3個專業(yè)領域名詞列表Entity;
步驟2 專業(yè)領域名詞Entity與標簽詞相似度計算:采用詞向量及詞頻相結合實現專業(yè)領域關鍵詞與標簽體系標簽詞的相似度計算,計算公式如式(3)所示,分別得到3種途徑識別名詞所確定的最終標簽詞列表labela
(1)
(2)
(3)
步驟3 投票機制:引入投票機制,將3種途徑獲取到的最終標簽詞進行投票,將最終的投票分數進行歸一化處理;
步驟4 線性加權:選擇投票計算結果、向量相似度計算結果、標簽詞詞頻計算結果為影響因子進行線性加權,計算公式如式(4)所示,按照最終標簽的權重排序結果,得到標簽列表labelb
(4)
式中:score(label)表示標簽分數,w1、w2、w3表示不同影響因子對應的權重,tflabel表示標簽詞label的詞頻。
從實際應用背景出發(fā),專家研究領域固定但研究方向可以包括很多,在每一研究方向的研究程度往往不一樣,引入領域吻合度作為標注特征,用以表征專家在其各自研究方向的研究深度;除此之外,單純地考慮專家的研究方向并不能較好保證評審質量,同時當一批專家均符合評審條件而評審專家數目卻有限制時,往往需要進行擇優(yōu)推薦,引入領域權威度作為標注特征,描述專家在相關領域的影響力度。綜上,領域吻合度為專家標簽標注提供自身的縱向比較,領域權威度為專家推薦提供領域的橫向比較。因此,本文選擇專家領域吻合度及領域權威度兩個特征作為擇優(yōu)推薦的參考指標,提出了專家領域吻合度計算模型,公式如式(5)所示,制定了專家領域權威度的評價指標,評價指標見表1。采用(專家標簽、領域權威度、領域吻合度)三元組的形式進行專家標簽表征。具體標注方法如下:
表1 領域權威度評價指標
(1)領域標簽抽取:結合領域標簽體系,從專家的論文數據中提取專家的領域標簽;
(2)吻合度計算:依據標簽在專家相關資料中出現的頻次、論文的影響因子、論文引用數、專家發(fā)表的總文獻數,進行吻合度計算
(5)
式中:scorei表示標簽i的領域吻合度,wj表示論文j的影響因子,nij表示標簽i在論文出現次數,tj表示論文j的引用數,N表示專家發(fā)表的總文獻數。將每篇文獻的各個特征值相乘,并進行求和,獲得的平均值作為該研究領域的吻合度,為保證分母不為0,故對總文獻數加1。
(3)權威度計算:依據領域權威度的評價指標,進行線性加權計算。
專家推薦過程中,不僅需要保證專家研究領域與申請項目的領域相匹配,還需要考慮專家的專業(yè)水平,以保證評審質量。依據實際評審需求,本文選取專家領域吻合度及領域權威度進行專家表征,以領域標簽體系為標準,統(tǒng)一專家標簽及項目申請文檔標簽提取的概念粒度及命名規(guī)范,構建了基于領域標簽體系的專家推薦算算法。具體的算法過程描述如算法2所示:
算法2:基于領域標簽體系的專家推薦算法
輸入:項目申請文檔A
輸出:推薦專家名單Expertc
過程:
步驟1 分析項目申請文檔A結構特點,確定進行分析的文本范圍,進行項目申請文檔的標簽標注,得到項目申請文檔的標簽列表La;
步驟2 依據專家文獻數據進行專家標簽標注、專家領域吻合度、專家領域權威度的表征,得到專家表征三元組Triple(專家標簽、領域吻合度、領域權威度);
步驟3 將步驟1所得項目申請文檔的標簽列表La與步驟2所得的三元組中的專家標簽進行匹配,構建備選領域專家集合Experta;
步驟4 基于專家社會關系網絡,構建專家回避模型,得到回避專家列表Lb,將步驟3中所得的備選領域專家集合Experta進行過濾,此時得到備選專家集合Expertb;
步驟5 結合專家表征三元組Triple(專家標簽、領域吻合度、領域權威度),對步驟4得到的備選專家集合Expertb進行線性加權,將加權結果進行排序,根據項目需求,選取排序結果TopN的專家作為最終推薦專家列表Expertc。
為保證項目評審的公平性,需要進行評審專家與項目申請人之間的回避問題??紤]專家實際生活場景及成長背景,對專家社會關系進行關聯(lián)關系分析,抽取專家的社會關系,本文中所選取的社會關系分為直接關系與間接關系,直接關系包括:合作關系、同事關系、同學關系、師生關系、控股關系,間接關系由以上5種直接關系間接引起的二階或多階關系。將關系作為邊,專家作為節(jié)點,構建專家社會關系網絡,這類屬性主要采用規(guī)則推理的方法進行提取,同時基于專家社會關系網絡設計回避算法,具體算法描述如下:
算法3:基于領域標簽體系的專家推薦算法
輸入:項目申請人名單Avoida,推薦專家名單Experta
輸出:回避專家名單Avoida
過程:
步驟1 依據構建的專家?guī)鞌祿?,采用?guī)則推理的方法進行專家關聯(lián)關系分析,構建專家社會關系網絡,具體規(guī)則見表2;
表2 社會關系規(guī)則
步驟2 基于專家社會關系網絡,查詢推薦專家名單Experta及項目申請人名單Applicanta每兩者之間的全部關系路徑,并進行兩者間關系強度的計算,計算模型如圖2所示,計算公式如式(6)所示;
圖2 回避模型
(6)
式中:Q(A,B)表示專家A與申請人B之間的關系強度,W表示關系權重,dec表示衰減比重。本文引入衰減比的概念,在專家社會網絡中,連接兩者的邊數越多,其關系衰減避重越大。將關系強度的計算分為兩種情況:當A與B之間存在1條最短路徑時,直接進行權重與衰減比的乘積,結果作為兩者之間的關系強度;當A與B之間存在多條長度相等路徑時,對每條路徑的權重與衰減比相乘后求和,結果作為兩者之間的關系強度;
步驟3 選取關系強度計算結果中的最大值,進行回避閾值判斷,實現專家回避,得到最終的回避專家名單Avoida。
本實驗中所用的數據集為爬蟲所得的網絡與信息安全感領域的論文摘要,將數據集按照9∶1的比例分成訓練集、驗證集,項目申請文檔作為測試集,語料規(guī)模見表3。
表3 數據集介紹
專業(yè)領域名詞識別結果影響著領域標簽體系構建的效果及項目申請文檔的標簽標注結果。針對模型設計,本文設計了兩組對照實驗。
實驗1:基于Word2vec實現向量映射,將映射后的向量矩陣作為BiLSTM層的輸入,經過降維后,選取BiLSTM層輸出的分數最高的標簽作為標簽預測結果。該模型準確率達67.86%。
實驗2:在實驗1的基礎上,添加CRF層。CRF層可以為自動學習一些約束條件,進而為預測標簽的合法性提供保證,如通過引入CRF層可以學習到句子中的第一個詞應該是以標簽“B”或“O”開始;同時CRF中存在轉移特征,它可以考慮輸出標簽之間的順序性,以此來進行一些約束規(guī)則的學習。BiLSTM-CRF模型的準確率達77.96%。
項目申請文檔的標簽標注是實現專家推薦的關鍵步驟,其標注準確率直接影響著推薦專家的結果。在進行項目申請文檔標簽標注算法的設計過程中,主要設置以下3組對照實驗,實驗結果見表4。
表4 項目申請文檔標簽標注實驗結果對比
實驗1:依據領域技術標簽體系,采用直接定位、Text-Rank關鍵詞及關鍵短語提取兩種方法進行專業(yè)領域名詞的識別,其中關鍵詞及關鍵短語的提取借助Hanlp開源工具,利用Word2vec詞嵌入向量計算識別出的領域標簽詞與標簽體系詞之間的相似度,進行閾值判斷,確定項目申請文檔的標簽標注結果。
實驗2:在實驗1基礎之上,專業(yè)領域名詞識別過程不變,在經過詞向量映射進行相似度計算過程中時,由于一個標簽詞的詞嵌入向量由構成這個標簽詞的所有字向量拼接而成,標簽詞中的每個字的區(qū)分能力強弱不同,如“計算機木馬”、“計算機通信協(xié)議”兩個標簽代表領域相差甚大,但由于詞中均具有“計算機”這一子串,將會對相似度計算結果產生影響。因此,在進行相似度計算時引入字頻特征,將字頻取倒數后作為當前字的向量權重,之后進行向量拼接,以此降低標簽體系中區(qū)分能力較弱的字在標簽詞中所占的權重。
實驗3:針對專業(yè)領域名詞識別過程,實驗1和實驗2僅考慮了字詞特征,但是一篇項目申請文檔中往往蘊含著大量的語義信息,同時專業(yè)領域名詞的上下文語境較為獨特,因此,本文在實驗3中考慮了語義特征,引入在領域標簽體系構建過程中訓練好的BiLSTM-CRF專業(yè)名詞識別模型,采用直接定位、關鍵詞提取、BiLSTM-CRF模型3種方式進行專業(yè)領域名詞的識別,有效地結合了字詞及語義兩個層面的特征。相似度計算與實驗2保持一致,采用詞向量與字頻相結合的方式進行計算。同時,在結果統(tǒng)計策略上,我們引入了投票機制及線性加權,將3種途徑獲取到的最終標簽詞進行投票,選擇投票計算結果、向量相似度計算結果、標簽詞詞頻計算結果為影響因子進行線性加權,獲得最終標簽標注的權重排序結果。
為保證實驗結果的準確性,邀請了多位機構工作人員針對項目申請文檔進行背對背標簽標注,項目申請文檔數為50篇,每篇文檔標簽標注數目為3個,綜合多位工作人員標注結果確定最終的準確標簽集合作為實驗結果正確數據集,計算3種實驗的標注準確率,同時,我們在整理人工標簽標注結果時注意到人工標注的準確率僅達68%,算法的最終準確率達83.33%,遠遠超過人工標注效果。實驗結果見表4。
隨著網絡技術的發(fā)展,將人類帶入了大數據時代,利用網絡數據資源實現各種形式的推薦已經成為學術界和商業(yè)界的研究熱門。相比于其它推薦算法,本文所設計的算法在以下4個方面具有先進性及創(chuàng)新性。
(1)數據量方面
從數據量角度講,相較于大多數推薦系統(tǒng)通常都是在小規(guī)模數據集上搭建起來的,本文開發(fā)相應的爬蟲工具,依托于集群資源,進行多節(jié)點并行處理爬取任務。專家數據量破萬,論文數據量破百萬,此外采集信息中還包括專利信息、專家個人信息等,為專家?guī)鞓嫿üぷ魈峁┝藦姶蟮臄祿С帧?/p>
(2)領域標簽體系構建
領域標簽體系的數目眾多且較為復雜,信息檢索、計量評價等科研活動中存在領域標簽著錄混亂、層級結構模糊等瓶頸問題。很多機構無成型的領域標簽體系,機構內部相關技術無統(tǒng)一命名規(guī)范及明確定義。目前,針對領域標簽方面的相關研究較少,國家自然科學基金體系是國內較為成熟的領域標簽體系,具有一定的參考價值,但是由于其面向的領域較多,體系層級結構劃分與項目申請文檔中的技術概念粒度不契合等問題,往往需要對部分層級結構進行擴充與融合。
本文考慮到推薦算法過程中涉及到的專家標簽標注的數據來源及項目申請文檔的標簽標注兩個關鍵步驟,利用論文數據進行專業(yè)領域名詞識別模型的訓練,以此統(tǒng)一標簽名詞概念粒度及命名規(guī)范,極大提高了專家標簽與項目申請文檔標簽之間的匹配準確率。
(3)專家標簽標注
考慮到實際應用場景,系統(tǒng)中需要評價的對象是人,因此需保證其描述維度的全面性。本系統(tǒng)中專家屬性達40種,從專家特定信息、專家基礎屬性信息、專家論文信息、專家專利信息、專家基金信息、專家培養(yǎng)學生信息6個維度出發(fā)描述專家,且每個維度特征不少于6個,進而保證了專家屬性的全面性?;谝陨闲畔?,在進行專家標簽標注過程中,制定了領域權威度評價指標,提出了領域吻合度計算模型,不僅實現了專家研究領域的表征,同時也對專家研究水平進行表征。
(4)專家推薦及回避
專家推薦問題有著自身獨有的特點,專家是有情感的人,所推薦的專家在進行項目或論文評審中,會帶有一定的感情因素。因此,不但要考慮專家的專業(yè)特長、學術水準是否與被評審項目相吻合,以保證項目評審的科學性,同時還要考慮專家的社會關系,避免那些與項目申請人存在各種社會關系的專家進入項目評審組,以保證項目評審的公正性。
本文提出了一種基于領域標簽體系的專家推薦算法,通過匹配專家的技術標簽篩選初步推薦專家名單,根據專家多維度屬性信息構建專家權威度和領域吻合度算法實現專家的排序,最終結合專家社會關系網絡進行回避路徑的計算,經過濾后完成最終的專家推薦。不僅考量了專家的權威度信息和領域吻合度信息,還引入了專家社會關系回避信息,使推薦的結果更具有可行性。
本文在領域科研項目評審專家推薦方面提出了一套基于領域標簽體系的推薦算法。首先,進行了數據采集及處理工作,構建專家?guī)?;然后,采用BiLSTM-CRF專業(yè)領域名詞識別模型構建了一套領域標簽體系,基于領域標簽體系,設計了字詞與語義特征相結合的項目申請文檔標簽標注方法,針對專家專業(yè)研究水平,提出了一種基于三元組的專家標簽表征模型;最后,利用專家?guī)鞌祿?,構建專家社會關系網絡,充分考慮評審專家與項目申請人之間的社會關系,提出了基于社會關系網絡的回避算法,并結合專家標簽與項目申請文檔標簽的匹配結果,進行專家的推薦與回避。
在接下來的工作中,我們計劃引入專家評價體系及專家用戶畫像。進一步完善專家推薦過程中,專家擇優(yōu)推薦模型的表征方法,期望進一步提高專家推薦效果,進而保證領域科研項目的評審質量。