• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于文本相似度的評審專家推薦方法研究

    2019-09-17 10:47:04鄭新宇徐建良
    科技資訊 2019年17期
    關(guān)鍵詞:數(shù)據(jù)挖掘

    鄭新宇 徐建良

    摘 ?要:在科研項目申報過程中,當(dāng)前多采用人工方式進行評審專家遴選,由于人工對領(lǐng)域知識的理解有限,且具有一定的主觀性傾向,隨著項目申報數(shù)量的增加,人工選擇的效率和準(zhǔn)確率逐漸降低。為解決此問題,該文提出一種基于文本相似度的評審專家推薦方法。通過對項目論文信息進行數(shù)據(jù)挖掘,利用編輯距離模糊匹配和Wordnet語義擴展方法改進文本相似度計算,設(shè)計對比實驗分別說明方法的可行性,并對推薦結(jié)果給出解釋。實驗結(jié)果表明,該文方法能夠有效解決評審專家遴選問題。

    關(guān)鍵詞:專家推薦 ?數(shù)據(jù)挖掘 ?文本相似度 ?語義擴展

    中圖分類號:TP391.1 ? 文獻標(biāo)識碼:A 文章編號:1672-3791(2019)06(b)-0173-04

    Abstract:In the process of applying for scientific research projects, the selection of review experts is often carried out manually. Due to the limited understanding of domain knowledge and the subjective tendency of manual selection, the efficiency and accuracy of manual selection gradually decrease with the increase of the number of project declarations. To solve this problem, this paper proposes a method of expert recommendation based on text similarity. Through data mining of project paper information, the text similarity calculation is improved by using editing distance fuzzy matching and Wordnet semantic extension methods. The validity of the method is illustrated by designing comparative experiments, and the recommendation results are explained. The experimental results show that this method can effectively solve the problem of selecting evaluation experts.

    Key Words:Expert recommendation; Data mining; Text similarity; Semantic extension

    隨著計算機應(yīng)用技術(shù)的迅猛發(fā)展,越來越多的科研單位選擇使用線上信息管理的方式,來進行科研項目的申報工作。在科研項目申報的過程中,有一個極為重要的流程就是評審專家推薦過程[1-3]。評審專家推薦是指根據(jù)項目的一些文本信息,選擇出幾個相關(guān)領(lǐng)域的專家成為評審專家。評審專家對項目進行評估審查工作,來確認(rèn)項目是否具有研究的價值[4]。但由于項目申請數(shù)量多、類型多樣,并且專家的科研信息比較復(fù)雜,管理人員很難恰當(dāng)?shù)卦u估某個專家在一定時間內(nèi)的研究偏重方向,所以使用人工來選擇評審專家的工作方式效率不夠高,不能滿足工作需要。因此,需要借助計算機技術(shù),為人工選擇評審專家提供自動化的幫助。因此,如何選擇出合適的評審專家則成為該文研究的關(guān)鍵問題[5-7]。

    評審專家推薦系統(tǒng)本質(zhì)上是屬于個性化推薦技術(shù)范疇,目的是滿足系統(tǒng)用戶對專家這一特殊實體的推薦需求[8]。2005年Reichling、Schubert等學(xué)者第一次對專家推薦進行準(zhǔn)確的定義,指明專家推薦是一種檢索技術(shù),根據(jù)一定的信息輸入,檢索出能解決具體問題的相關(guān)專家,幫助用戶提高檢索效率和精確率[9]。專家推薦系統(tǒng)一般應(yīng)用于專業(yè)領(lǐng)域性較強的工作,如學(xué)術(shù)論文的審查工作、工程建設(shè)的評估工作、項目招標(biāo)的評審工作。在科研項目申報立項的過程中,對專家推薦的專業(yè)性要求標(biāo)準(zhǔn)更高,對推薦技術(shù)也有著更高的要求。胡斌等使用概念層次模型挖掘科技項目與專家相似性,解決科技項目專家推薦問題[10]。劉一星等使用經(jīng)過改進的ATSVM算法用于論文投稿的評審專家推薦研究[7]。李瑩等使用主題信息完成企業(yè)需求的專家推薦工作[11]。蒲珊珊等建立知識互補的科研合作專家推薦模型來完成專家推薦工作[12]。

    該文設(shè)計的基于數(shù)據(jù)挖掘的評審專家推薦方法,抽取項目中論文關(guān)鍵字和知識庫中論文關(guān)鍵字,對關(guān)鍵字集合進行數(shù)據(jù)規(guī)整、語義擴展,得到擴展后的關(guān)鍵字集合[13]。計算項目論文與知識庫論文的余弦相似度,得到知識庫中相似度排序前K個論文集合。根據(jù)論文集合,得到候選專家集合。對候選專家集合中的每個專家的論文進行檢索,檢索出的論文與項目進行余弦相似度計算,得出的相似度值取平均值作為專家的權(quán)威性衡量,候選專家集合中按專家權(quán)威性排序,得到權(quán)威性排名前N個專家,系統(tǒng)將把這些專家作為推薦結(jié)果推薦給用戶[14]。

    1 ?評審專家推薦方法設(shè)計

    1.1 方法思路分析

    評審專家推薦的關(guān)鍵問題是根據(jù)項目中給出的文本信息,與知識庫中的專家進行分析對比,選擇出研究相關(guān)的人作為評審專家。

    該文中專家推薦分為兩個階段:首先,根據(jù)項目文本信息在知識庫中找到相關(guān)論文;其次,根據(jù)相關(guān)論文,得到候選專家推薦列表,對列表中專家進行分析,分析后得到推薦結(jié)果。流程圖如圖1、圖2所示。

    1.2 文本數(shù)據(jù)處理

    (1)實驗中所用數(shù)據(jù)集來自微軟學(xué)術(shù)圖譜MAG的子數(shù)據(jù)集。目前MAG主要用于量化學(xué)者影響力研究[15]、異構(gòu)學(xué)術(shù)網(wǎng)絡(luò)中學(xué)者位置的影響力研究[16]、學(xué)術(shù)社交網(wǎng)絡(luò)的提取與挖掘[17-18]等。

    對于MAG中的論文信息,每篇論文都是一個JSON對象的字符串,經(jīng)過數(shù)據(jù)格式整理后,數(shù)據(jù)格式見表1。

    (2)文本向量化。19世紀(jì)70年代杰拉德·索爾頓提出了一種來源于信息檢索的向量空間模型(Vector Space Model,VSM)技術(shù)[19]。該模型認(rèn)為文本特征之間是相互獨立的,因此可以忽略文本特征之間的依賴關(guān)系,將文本信息轉(zhuǎn)化為向量表示,減少數(shù)據(jù)量的同時保留文本的語義。

    1.3 基于模糊匹配的文本相似度計算方法

    1.4 基于語義擴展的文本相似度計算方法

    在進行相似度計算時,關(guān)鍵字集合從文本信息中抽取,關(guān)鍵字的語義粒度不能直接獲得,但在實際處理中,關(guān)鍵字的語義范圍相互交叉的情況十分常見。為提高語義粒度,采用基于語義擴展的相似度計算方法[20-21]。

    對于論文Pi的關(guān)鍵字集合KWi={k1,k2,…kn}中每個關(guān)鍵字ki,利用NLTK工具庫中Wordnet資源,擴展關(guān)鍵字的上下位詞及近義詞。

    2 ?實驗設(shè)計及評估

    實驗數(shù)據(jù)選取MAG子數(shù)據(jù)集中計算機科學(xué)領(lǐng)域中8103篇論文,將計算機科學(xué)領(lǐng)域280319篇論文作為知識庫存入數(shù)據(jù)庫中。方法設(shè)計如表2所示。

    選擇實驗數(shù)據(jù)集中30篇論文用于數(shù)據(jù)展示,實驗數(shù)據(jù)集與知識庫中的論文進行匹配后,計算得出余弦距離并排序。

    由圖3、4可知,管是關(guān)鍵字集合在擴展前還是擴展后,基于編輯距離的相似度都要高于完全匹配的相似度,說明在完全匹配中檢索不出來的關(guān)鍵字,在基于編輯距離相似度計算方法中被檢索出來,且每一篇的數(shù)值模糊匹配要高于完全匹配,說明在進行相似度計算時,選擇模糊匹配的方法是有效的。

    由圖5可知,經(jīng)過關(guān)鍵字?jǐn)U展后,完全匹配的相似度升高。由此可證明,完全匹配失敗的關(guān)鍵字,在關(guān)鍵字?jǐn)U展后,擁有相同的上下位詞或者近義詞,經(jīng)過字符串完全匹配后,余弦相似度增加。

    根據(jù)圖6余弦距離結(jié)果可知,關(guān)鍵字在擴展前后經(jīng)過模糊匹配后,相似度整體表現(xiàn)差別不是特別大。原因在于關(guān)鍵字經(jīng)過語義擴展后關(guān)鍵字集合維度增加,根據(jù)式(1),造成余弦距離結(jié)果相差較小。從另一方面來說,關(guān)鍵字集合經(jīng)過擴展后,相似度變化不大說明關(guān)鍵字集合攜帶的信息量增加,但對整體的語義偏向沒有太大的影響。

    3 ?結(jié)語

    該文設(shè)計了一種通過計算文本余弦相似度來推薦評審專家的方法,解決人工遴選評審專家中效率較低、主觀選擇專家等問題。由于方法是基于文本內(nèi)容相似度進行專家推薦,因此該方法對所有文本推薦具有一定的普適性。

    目前對于評審專家的推薦方法,大多從語義概念模型方向解決推薦問題。但在研究領(lǐng)域中存在專業(yè)內(nèi)專有名詞,因此需要人工建立領(lǐng)域詞典,建立語義之間的聯(lián)系,未來的進一步工作是在Wordnet基礎(chǔ)上,加入專有名詞語義關(guān)系,進一步提高語義擴展的相似度。

    參考文獻

    [1] 張勇勤.科技計劃項目經(jīng)費預(yù)算評審評估制度研究[J].天津科技,2008(3):77-79.

    [2] 陳月英,穆仕華.科研項目在線評審體系的研究與應(yīng)用[J].中國新通信,2015,17(9):69-70.

    [3] 沈才俊,徐暑芬,常云志.科技項目評審過程中項目分組與專家推薦流程的設(shè)計[J].江蘇科技信息,2016(6):29-31.

    [4] 梁保磊.政府科技項目評審主體、過程及應(yīng)用系統(tǒng)開發(fā)研究[D].東南大學(xué),2009.

    [5] 萬猛.關(guān)于科技評審專家的選擇及其評審行為的判斷方法[J].研究與發(fā)展管理,2007(3):119-122,129.

    [6] 靳健,楊海慈,李凝,等.基于主題契合度的專家推薦模型研究[J].數(shù)字圖書館論壇,2017(4):47-55.

    [7] 劉一星.論文投稿系統(tǒng)評審專家自動推薦模型研究[D].重慶大學(xué),2009.

    [8] 李有超.基于項目屬性與偏愛比較的協(xié)同過濾推薦算法研究[D].燕山大學(xué),2010.

    [9] Reichling T,Schubert K,Wulf V.Matching human actors basedon their textsdesign and evaluation of an instance of the Expert Finding framework[A].Proceedings of the2005 international ACMSIGGROUP conference on Supporting group work[C].ACM,2005:61-70.

    [10] 胡斌,徐小良.科技項目評審專家推薦系統(tǒng)模型[J].電子科技,2012,25(7):1-5.

    [11] 李瑩.面向企業(yè)需求的專家推薦算法研究[D].北京交通大學(xué),2018.

    [12] 蒲姍姍.基于知識互補的科研合作專家推薦模型研究[J].情報理論與實踐,2018,41(8):96-101.

    [13] 滕巖,李玉忱.基于《知網(wǎng)》的語義信息檢索[A].第二屆全國web信息系統(tǒng)及其應(yīng)用會議[C].2005.

    [14] 朱昆磊,黃佳進.基于信念網(wǎng)絡(luò)的協(xié)同過濾圖模型的推薦算法[J].模式識別與人工智能,2016,29(2):171-176.

    [15] 周金夢.基于學(xué)術(shù)異構(gòu)網(wǎng)絡(luò)的學(xué)者影響力評估算法[D].大連理工大學(xué),2016.

    [16] 張君.基于異構(gòu)學(xué)術(shù)網(wǎng)絡(luò)的學(xué)者影響力評估與預(yù)測[D].大連理工大學(xué),2018.

    [17] Tang J, Zhang J, Yao L, et al. Arnetminer: extraction and mining of academic social networks[A].Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining[C].ACM,2008:990-998.

    [18] Sinha A, Shen Z, Song Y, et al. An overview of microsoft academic service (mas) and applications[A].Proceedings of the 24th international conference on world wide web[C].ACM,2015:243-246.

    [19] Salton G,Wong A,Yang C S.A vector space model for automatic indexing[M].Communications of the ACM,1975.

    [20] 王良芳.文本挖掘關(guān)鍵詞提取算法的研究[D].浙江工業(yè)大學(xué),2013.

    [21] 王進,陳恩紅,施德明,等.一種基于語義相似度的信息檢索方法[J].模式識別與人工智能,2006,19(6):696-701.

    猜你喜歡
    數(shù)據(jù)挖掘
    基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
    探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
    數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
    基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
    電力與能源(2017年6期)2017-05-14 06:19:37
    數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
    一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
    數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
    數(shù)據(jù)挖掘的分析與探索
    河南科技(2014年23期)2014-02-27 14:18:43
    基于GPGPU的離散數(shù)據(jù)挖掘研究
    利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
    南丰县| 南漳县| 武义县| 新密市| 新兴县| 南澳县| 云浮市| 台北县| 西丰县| 盖州市| 卫辉市| 玉田县| 沛县| 分宜县| 遵义市| 商水县| 巴彦淖尔市| 天津市| 西平县| 康平县| 永城市| 叶城县| 凤城市| 中宁县| 泾川县| 河南省| 淳化县| 大新县| 新和县| 张家口市| 忻州市| 靖安县| 长汀县| 泊头市| 华安县| 凯里市| 桐城市| 凤翔县| 龙州县| 高唐县| 开原市|