基于大數(shù)據(jù)挖掘的科技項(xiàng)目查重模型研究*

2014-03-14 09:17:21李善青宋立榮

圖書館論壇 2014年2期

李善青，趙輝，宋立榮

李善青，趙輝，宋立榮

科技項(xiàng)目查重是避免重復(fù)立項(xiàng)、重復(fù)建設(shè)的重要措施之一，目前缺乏行之有效的方法。文章提出基于大數(shù)據(jù)挖掘和多源信息整合的項(xiàng)目查重方法，以科技項(xiàng)目的基本信息、發(fā)表論文信息、關(guān)鍵詞、負(fù)責(zé)人信息和承擔(dān)機(jī)構(gòu)等要素構(gòu)建的大數(shù)據(jù)網(wǎng)絡(luò)為研究對象，利用多源信息整合方法構(gòu)建科技項(xiàng)目的相似度判別模型，并采用Hadoop框架實(shí)現(xiàn)海量數(shù)據(jù)的快速挖掘。文章介紹項(xiàng)目查重模型，重點(diǎn)討論需要解決的關(guān)鍵問題，為解決項(xiàng)目查重問題提供一種全新的思路和方法。

大數(shù)據(jù)挖掘多源信息整合科技項(xiàng)目查重 Hadoop架構(gòu)

0 引言

為推動(dòng)科技創(chuàng)新，我國不斷加大對科研的資助規(guī)模和強(qiáng)度，科技項(xiàng)目的數(shù)量和經(jīng)費(fèi)在近年均得到顯著提升，形成多層次的國家科技計(jì)劃資助體系。隨之而來的重復(fù)立項(xiàng)問題日趨嚴(yán)重。據(jù)統(tǒng)計(jì)，我國科研項(xiàng)目重復(fù)率達(dá)40%，另外60%中與國外重復(fù)約占30%以上[1]。重復(fù)立項(xiàng)不僅造成科技資源的浪費(fèi)，也導(dǎo)致惡性科研競爭，損害開拓創(chuàng)新的科研精神，對科技創(chuàng)新危害極大。早在2006年，科技部前部長徐冠華在《關(guān)于建設(shè)創(chuàng)新型國家的幾個(gè)重要問題》講話中指出，切實(shí)加強(qiáng)科技宏觀統(tǒng)籌協(xié)調(diào)的重要舉措之一就是“積極推動(dòng)建立跨部門的科技項(xiàng)目數(shù)據(jù)庫。針對科技項(xiàng)目立項(xiàng)中多頭立項(xiàng)、重復(fù)立項(xiàng)的問題，推進(jìn)科技項(xiàng)目共享數(shù)據(jù)庫的建立，為解決重復(fù)問題提供必要的技術(shù)支撐”。各級科技計(jì)劃主管部門對重復(fù)立項(xiàng)問題十分重視，研究了一些項(xiàng)目查重的方法和機(jī)制問題，取得了一定的進(jìn)展，但總體效果并不明顯。究其原因，主要在于以下3個(gè)方面：

(1)項(xiàng)目數(shù)量呈現(xiàn)逐年快速增長的態(tài)勢。僅國家自然科學(xué)基金委員會2013年度資助的項(xiàng)目就達(dá)3.5萬余項(xiàng)。數(shù)量龐大的項(xiàng)目為查重工作帶來很大挑戰(zhàn)。此外，基礎(chǔ)科學(xué)研究具有創(chuàng)新性、不確定性、學(xué)科交叉融合等特點(diǎn)，不同學(xué)科領(lǐng)域的新觀點(diǎn)、新概念和新知識不斷涌現(xiàn)，科研項(xiàng)目管理人員需要越來越多的專業(yè)知識才能準(zhǔn)確判斷項(xiàng)目的相似性，這也給項(xiàng)目查重工作帶來很大的困難。

(2)項(xiàng)目信息公開、共享和整合程度較低?？萍加?jì)劃的項(xiàng)目信息和實(shí)施情況主要分散掌握在各計(jì)劃主管部門內(nèi)部，對外開放和共享的程度低，各計(jì)劃之間的項(xiàng)目信息無法進(jìn)行有效整合。如國家自然科學(xué)基金在立項(xiàng)審查時(shí)只能在該基金資助的項(xiàng)目范圍內(nèi)進(jìn)行重復(fù)性檢測，而幾乎無法與其他科技計(jì)劃項(xiàng)目進(jìn)行檢測和查重。解決該問題的方法是在國家層面上建立統(tǒng)一的可對外公開的項(xiàng)目信息檢索平臺，實(shí)現(xiàn)項(xiàng)目信息的共享和整合。

(3)項(xiàng)目相似性判別方法單一。目前科研重復(fù)立項(xiàng)檢測主要通過比對項(xiàng)目標(biāo)題或者比對項(xiàng)目申請書的內(nèi)容進(jìn)行甄別。前者只是進(jìn)行簡單的關(guān)鍵詞匹配，將項(xiàng)目標(biāo)題中包含指定關(guān)鍵詞集的項(xiàng)目定義為相似項(xiàng)目。一旦項(xiàng)目更換標(biāo)題，該方法則會失效。后者能夠較準(zhǔn)確地發(fā)現(xiàn)相關(guān)/相似的項(xiàng)目，但算法實(shí)現(xiàn)難度較大，并且項(xiàng)目申請書因涉密或保護(hù)知識產(chǎn)權(quán)等原因一般不對外公開，很難從公開渠道獲取這些信息。因此該方法只適用于在單個(gè)計(jì)劃主管部門內(nèi)部實(shí)現(xiàn)項(xiàng)目查重。

文獻(xiàn)調(diào)研發(fā)現(xiàn)，國外沒有項(xiàng)目查重的概念，但在數(shù)據(jù)挖掘、文檔檢索等方面的研究起步早，進(jìn)行了大量的研究和探索，積累了豐富的經(jīng)驗(yàn)和成熟的技術(shù)[2-5]。國內(nèi)在方法研究方面起步晚，但有針對性地開展文本挖掘方法在科技項(xiàng)目管理中的應(yīng)用研究。姜韶華[6]提出一種基于文本挖掘的科研項(xiàng)目管理原型系統(tǒng)，重點(diǎn)研究和解決科研項(xiàng)目文本的切分和特征建模等問題；左川[7]提出一種基于非分詞技術(shù)解決科技項(xiàng)目查重問題的方法，該方法不需要對文本進(jìn)行分詞處理，利用頻繁閉項(xiàng)集構(gòu)造向量空間模型對項(xiàng)目申請書進(jìn)行建模并計(jì)算相似度；方延風(fēng)[8]提出將一種改進(jìn)的TF-IDF方法用于科技項(xiàng)目查重，考慮了特征詞的位置和長度兩種因素；吳燕[9]提出一種基于層次聚類的科技項(xiàng)目分類和查重方法，在計(jì)算科技項(xiàng)目相似性時(shí)綜合考慮了應(yīng)用領(lǐng)域、研究內(nèi)容和技術(shù)來源等因素；林明才等[10]提出一種改進(jìn)的模糊聚類算法RM-FCM，在計(jì)算項(xiàng)目相似度時(shí)考慮了不同屬性的特征項(xiàng)對科研項(xiàng)目的重要性；劉蔭明等[11]從科技查新實(shí)踐、地區(qū)和部門多頭管理、科研論文所依托的基金項(xiàng)目數(shù)量等方面研究我國科研的重復(fù)立項(xiàng)現(xiàn)象，通過對科研項(xiàng)目的申報(bào)與審批流程進(jìn)行分析，提出避免重復(fù)立項(xiàng)的具體措施。

上述研究工作基本都是從項(xiàng)目申請書入手，對申請書進(jìn)行分詞或?qū)⑵渥鳛檎w處理，然后提取特征向量，利用特征向量的相似度表示項(xiàng)目的相似度。一方面不同計(jì)劃的申請書格式不同，學(xué)科領(lǐng)域差別較大，很難找到統(tǒng)一的描述模式；另一方面，項(xiàng)目申請書一般不對外公開，獲取難度很大。因此，該方法適應(yīng)于在單個(gè)計(jì)劃內(nèi)部進(jìn)行項(xiàng)目查重，很難進(jìn)行跨計(jì)劃的項(xiàng)目查重。基于上述分析，本文采用一種全新的思路解決項(xiàng)目查重問題，首先收集項(xiàng)目的標(biāo)題、項(xiàng)目所發(fā)表的論文、關(guān)鍵詞、負(fù)責(zé)人和承擔(dān)機(jī)構(gòu)等要素的海量信息，構(gòu)建與項(xiàng)目查重相關(guān)的大數(shù)據(jù)網(wǎng)絡(luò)，為后續(xù)的分析和挖掘提供數(shù)據(jù)支撐；然后利用多源信息整合技術(shù)構(gòu)建項(xiàng)目相似度模型，綜合考慮項(xiàng)目的研究內(nèi)容、負(fù)責(zé)人和承擔(dān)單位3種因素以提高計(jì)算項(xiàng)目相似度的準(zhǔn)確性和可靠性；最后采用Hadoop分布式處理技術(shù)加速項(xiàng)目相似度的計(jì)算過程，實(shí)現(xiàn)對海量數(shù)據(jù)的快速挖掘。

1 大數(shù)據(jù)挖掘

隨著海量數(shù)據(jù)獲取、存儲與處理方法與技術(shù)的飛速發(fā)展，大數(shù)據(jù)時(shí)代來臨，并對眾多領(lǐng)域產(chǎn)生影響[12]。2007年計(jì)算機(jī)圖靈獎(jiǎng)得主Jim Gray在NRC-CSTB的演講報(bào)告中提出科學(xué)研究的第四范式[13]—數(shù)據(jù)密集型科學(xué)研究，以協(xié)同化、網(wǎng)絡(luò)化與數(shù)據(jù)驅(qū)動(dòng)為其主要特征，在學(xué)術(shù)界引起很大關(guān)注。世界頂尖科學(xué)期刊《Nature》和《Science》分別推出專刊，圍繞科學(xué)研究中的大數(shù)據(jù)問題展開專題討論。美國政府于2012年3月29日發(fā)布的“大數(shù)據(jù)研究與發(fā)展計(jì)劃”[14]更是將大數(shù)據(jù)的發(fā)展和研究提高到國家戰(zhàn)略的層面，將其視為信息科學(xué)領(lǐng)域內(nèi)繼信息高速公路計(jì)劃之后的又一重大發(fā)展戰(zhàn)略。

大數(shù)據(jù)挖掘在近年發(fā)展迅速，基本思想是通過包括互聯(lián)網(wǎng)在內(nèi)的多種渠道收集研究對象的多維度數(shù)據(jù)，通過對海量數(shù)據(jù)的關(guān)聯(lián)分析和數(shù)據(jù)挖掘，發(fā)現(xiàn)被研究對象的潛在行為模式或規(guī)律。大數(shù)據(jù)挖掘的經(jīng)典應(yīng)用有Google公司推出的“流感趨勢預(yù)報(bào)服務(wù)”[15]和奧巴馬競選團(tuán)隊(duì)的“大數(shù)據(jù)選舉”[16]。Google公司認(rèn)為，用戶搜索的關(guān)鍵詞代表了他們的即時(shí)需求，通過對流感進(jìn)行關(guān)鍵詞建模，并對搜索這些關(guān)鍵詞的海量用戶進(jìn)行跟蹤分析，創(chuàng)建流感地圖?！肮雀枇鞲汹厔荨痹跍y試過程中還顯示出反應(yīng)迅速的優(yōu)勢，甚至能夠比疾病控制和預(yù)防中心提前1個(gè)星期到10天時(shí)間公布流感預(yù)報(bào)。美國總統(tǒng)奧巴馬的競選團(tuán)隊(duì)利用大數(shù)據(jù)驅(qū)動(dòng)的分析和決策為其成功連任發(fā)揮巨大的作用，競選團(tuán)隊(duì)創(chuàng)建了龐大的數(shù)據(jù)系統(tǒng)，將民調(diào)者、注資者、工作人員、消費(fèi)者、社交媒體及“搖擺州”主要民主黨投票人的信息進(jìn)行關(guān)聯(lián)及整合，然后通過大量的數(shù)據(jù)挖掘和模擬運(yùn)算，對籌集競選資金、競選廣告精準(zhǔn)投放、模擬競選等提供決策支持服務(wù)，取得了立竿見影的效果。

國內(nèi)的學(xué)者也開展了相關(guān)研究。孟小峰等[17]對大數(shù)據(jù)管理的概念、技術(shù)和挑戰(zhàn)等問題進(jìn)行了系統(tǒng)化的梳理和總結(jié)；侯經(jīng)川等[18]研究了大數(shù)據(jù)時(shí)代的數(shù)據(jù)引證問題，對其研究現(xiàn)狀、最新進(jìn)展和未來展望進(jìn)行了深入的分析和討論?？傮w來看，大數(shù)據(jù)挖掘的相關(guān)研究處于起步階段，國內(nèi)與國外差距還不大，這是我國在該領(lǐng)域追趕國際先進(jìn)國家的重要機(jī)遇。利用大數(shù)據(jù)的思想解決科技項(xiàng)目查重問題是一個(gè)全新的研究課題，有重要的理論和實(shí)踐意義。本文重點(diǎn)介紹基于大數(shù)據(jù)挖掘的項(xiàng)目查重模型，并探討其中涉及的關(guān)鍵問題，為解決項(xiàng)目查重問題提供一種新的視角和方案。

2 項(xiàng)目查重模型

本文提出的項(xiàng)目查重方法的基本思路是從海量數(shù)據(jù)中挖掘出與項(xiàng)目查重緊密相關(guān)的研究內(nèi)容、負(fù)責(zé)人和承擔(dān)單位等信息，采用多源信息整合技術(shù)對上述信息進(jìn)行整合并判定項(xiàng)目的相似度。為加速海量數(shù)據(jù)的挖掘，筆者采用Hadoop分布式技術(shù)提高項(xiàng)目查重的計(jì)算速度。項(xiàng)目查重的架構(gòu)框圖如圖1所示，可分為任務(wù)解析、大數(shù)據(jù)文件、項(xiàng)目相似度判別模型、分布式調(diào)度和結(jié)果展示等5部分。任務(wù)解析模塊在收到用戶的查詢請求后將其解析和翻譯為機(jī)器可執(zhí)行的指令，并提交給分布式調(diào)度模塊執(zhí)行；分布式調(diào)度模塊負(fù)責(zé)利用Hadoop框架管理和調(diào)度計(jì)算機(jī)集群系統(tǒng)協(xié)同完成項(xiàng)目查重任務(wù)；大數(shù)據(jù)文件模塊存儲了與項(xiàng)目查重相關(guān)的海量數(shù)據(jù)，是該模型的數(shù)據(jù)基礎(chǔ)；項(xiàng)目相似度判別模型通過綜合關(guān)鍵詞、負(fù)責(zé)人和承擔(dān)單位等因素計(jì)算項(xiàng)目與查詢條件的相似度；結(jié)果展示模塊則通過可視化等手段將查詢結(jié)果反饋給用戶。

圖1 項(xiàng)目查重的架構(gòu)框圖

本查重模型所處理的數(shù)據(jù)對象包括5類：項(xiàng)目信息、論文題錄、關(guān)鍵詞、負(fù)責(zé)人和承擔(dān)單位。5種數(shù)據(jù)對象間存在網(wǎng)狀的關(guān)聯(lián)關(guān)系，如圖2所示。通過對上述網(wǎng)狀數(shù)據(jù)進(jìn)行加工處理，提取出與項(xiàng)目查重密切相關(guān)的元數(shù)據(jù)描述：項(xiàng)目ID是項(xiàng)目的唯一標(biāo)識，是實(shí)現(xiàn)各類數(shù)據(jù)之間關(guān)聯(lián)的紐帶；關(guān)鍵詞集是一組用于描述項(xiàng)目研究內(nèi)容的術(shù)語，是對研究內(nèi)容的凝練和概括。該數(shù)據(jù)來源于兩部分：一部分來自于項(xiàng)目標(biāo)題，可通過自動(dòng)切分詞技術(shù)獲??；另外一部分則來源于由項(xiàng)目資助所發(fā)表論文的關(guān)鍵詞，可通過論文的資金資助信息建立項(xiàng)目ID與論文關(guān)鍵詞的關(guān)聯(lián)關(guān)系。由于項(xiàng)目數(shù)量和論文數(shù)量都十分龐大，關(guān)鍵詞集的構(gòu)建首先通過文本智能挖掘和抽取技術(shù)完成，然后輔以人工校驗(yàn)的方式保證數(shù)據(jù)的準(zhǔn)確性；負(fù)責(zé)人信息則直接從項(xiàng)目信息數(shù)據(jù)庫中抽取，但由于信息缺失，負(fù)責(zé)人身份的唯一性識別仍然是尚未得到有效解決的難題；承擔(dān)單位信息也存在上述類似的問題，機(jī)構(gòu)的更名、重組、簡稱全稱混用等因素為設(shè)定承擔(dān)單位的唯一性識別帶來很大的困難。

圖2 大數(shù)據(jù)構(gòu)建的示意圖

圖3 相似度判別模型

項(xiàng)目的相似度判別模型分別計(jì)算研究內(nèi)容、負(fù)責(zé)人和承擔(dān)單位3方面的相似度，并對上述結(jié)果進(jìn)行加權(quán)整合得到項(xiàng)目最終的相似度。其中，項(xiàng)目的研究內(nèi)容由一組關(guān)鍵詞進(jìn)行描述，因此其相似性轉(zhuǎn)化為檢索詞集合與項(xiàng)目關(guān)鍵詞集合之間的相似性。項(xiàng)目負(fù)責(zé)人和承擔(dān)單位存在的重復(fù)性直接通過檢索詞匹配的方式計(jì)算，即兩個(gè)項(xiàng)目的負(fù)責(zé)人或承擔(dān)單位相同，則存在重復(fù)立項(xiàng)問題的可能性較高。三個(gè)維度的匹配度計(jì)算完成后，通過加權(quán)的方式進(jìn)行整合，最終得到與檢索條件匹配度由高到低排序的項(xiàng)目集合。

本模型解決的是大數(shù)據(jù)場景下的項(xiàng)目查重問題，要在短時(shí)間內(nèi)完成對海量數(shù)據(jù)的檢索，需要借助于分布式計(jì)算技術(shù)。筆者采用Hadoop框架完成項(xiàng)目查重任務(wù)的分布式處理，其原理如圖4所示。JobTracker是管理者的角色，負(fù)責(zé)任務(wù)的拆分和調(diào)度，維持與TaskTracker通訊并記錄其最新狀態(tài)信息。TaskTracker是工人的角色，負(fù)責(zé)具體子任務(wù)的執(zhí)行，從指定的位置讀取待處理的數(shù)據(jù)，完成任務(wù)后保存中間結(jié)果，并向JobTracker提交狀態(tài)更新。子任務(wù)的類型有兩種：Map操作和Reduce操作。Map操作處理相應(yīng)的片段數(shù)據(jù)，即對指定片段計(jì)算項(xiàng)目的相似度，并保存中間結(jié)果。Reduce操作則對中間結(jié)果進(jìn)行收集和合并，即對指定的項(xiàng)目集合完成相似度的加權(quán)計(jì)算，得到最終的判別結(jié)果。

圖4 Hadoop分布式調(diào)度原理

3 討論

本文從大數(shù)據(jù)挖掘的角度提出了一種全新、可行的項(xiàng)目查重模型，能夠解決目前項(xiàng)目查重的諸多難題。然而，該方法涉及海量數(shù)據(jù)的采集、加工、關(guān)聯(lián)和挖掘等內(nèi)容，需要建立規(guī)范的工作機(jī)制和采用智能的挖掘技術(shù)以保證查重方法的切實(shí)可行。下面將重點(diǎn)介紹該模型需要解決的幾個(gè)關(guān)鍵問題：

(1)海量數(shù)據(jù)的采集和加工需要建立一系列的標(biāo)準(zhǔn)和規(guī)范來保證數(shù)據(jù)的準(zhǔn)確性。處理的數(shù)據(jù)涉及項(xiàng)目信息、論文題錄、關(guān)鍵詞、負(fù)責(zé)人和承擔(dān)單位等，數(shù)據(jù)量龐大，種類較多，且沒有固定的格式，因此，需要建立一套規(guī)范的工作機(jī)制，并嚴(yán)格按照指定的標(biāo)準(zhǔn)對數(shù)據(jù)進(jìn)行加工和處理。此外，由于數(shù)據(jù)量巨大，需要大量的人力和財(cái)力作為支撐。

(2)數(shù)據(jù)的標(biāo)識、描述和關(guān)聯(lián)機(jī)制問題。數(shù)據(jù)標(biāo)識解決數(shù)據(jù)的唯一性標(biāo)志問題，目前在如何解決負(fù)責(zé)人、承擔(dān)單位的唯一標(biāo)識上仍存在很大的困難；數(shù)據(jù)描述用于揭示數(shù)據(jù)的內(nèi)容/屬性，需要對5種數(shù)據(jù)對象建立統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)；關(guān)聯(lián)機(jī)制則重點(diǎn)解決不同類型數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系問題，如項(xiàng)目與發(fā)表論文如何建立準(zhǔn)確的對應(yīng)關(guān)系等。

(3)研究文本智能抽取技術(shù)是處理海量數(shù)據(jù)必不可少的手段之一。該技術(shù)主要用于解決關(guān)鍵詞集的自動(dòng)生成問題：一方面，針對科技項(xiàng)目標(biāo)題的特點(diǎn)設(shè)計(jì)針對性的切分詞技術(shù)，自動(dòng)從項(xiàng)目標(biāo)題中抽取關(guān)鍵詞；另一方面，從論文題錄的項(xiàng)目資助信息中自動(dòng)抽取項(xiàng)目編號，建立項(xiàng)目與論文的關(guān)聯(lián)關(guān)系，并將論文的關(guān)鍵詞自動(dòng)加入到項(xiàng)目的關(guān)鍵詞集合中。關(guān)鍵詞集構(gòu)建的準(zhǔn)確與否直接關(guān)系到項(xiàng)目查重效果的優(yōu)劣。

(4)大數(shù)據(jù)挖掘需要處理海量的數(shù)據(jù)，為提高項(xiàng)目查重的速度，需要分布式的處理架構(gòu)對海量數(shù)據(jù)進(jìn)行檢索和挖掘。Hadoop是一套通用的技術(shù)框架，應(yīng)用到項(xiàng)目查重場景中需要根據(jù)業(yè)務(wù)邏輯進(jìn)行適應(yīng)性改造。如何將項(xiàng)目查重的業(yè)務(wù)邏輯設(shè)計(jì)為分布式處理模式，并盡可能提高查重效率是需要解決的關(guān)鍵問題。

4 結(jié)語

本文提出一種基于大數(shù)據(jù)挖掘的項(xiàng)目查重方法，利用大數(shù)據(jù)挖掘和多源信息整合等技術(shù)解決項(xiàng)目查重問題。該方法提供了一種全新的思路和方法，是對現(xiàn)有項(xiàng)目查重方法的促進(jìn)，具有重要的理論意義與應(yīng)用價(jià)值。基于該模型構(gòu)建切實(shí)可用的查重系統(tǒng)需要解決一系列關(guān)鍵的機(jī)制問題和技術(shù)問題，包括建立海量數(shù)據(jù)采集和加工標(biāo)準(zhǔn)；構(gòu)建數(shù)據(jù)的標(biāo)識、描述和關(guān)聯(lián)機(jī)制；研究文本智能抽取技術(shù)和改進(jìn)Hadoop框架以適應(yīng)項(xiàng)目查重的業(yè)務(wù)需求等。

[1]張金玲，黃長，陳如好，等.深化科技查新工作擴(kuò)展社會化服務(wù)[J].圖書館論壇，2011（5）：122-124，137.

[2]H.Zhang，T.Chow，A multi-level matching method with hybrid similarity for document retrieval[J]，Expert Systems with Applications，2012，39（3）：2710-2719.

[3]J.Reid，M.Lalmas，K.Finesilver，M.Hertzum，Best entry points for structured document retrieval—Part II：Types，usage and effectiveness[J]，Information Processing&Management，2006，42（1）：89-105.

[4]J.Reid，M.Lalmas，K.Finesilver，M.Hertzum，Best entry points for structured document retrieval—Part I：Characteristics[J]，Information Processing& Management，2006，42（1）：74-88.

[5]P.Kalczynski，A.Chou，Temporal Document Retrieval Model for business news archives[J]， Information Processing&Management，2005，41（3）：635-650.

[6]姜韶華.科研項(xiàng)目管理中文本挖掘方法研究及應(yīng)用[D].大連：大連理工大學(xué)，2006．

[7]左川.基于非分詞技術(shù)的科技項(xiàng)目查重研究與實(shí)現(xiàn)[D].重慶：重慶大學(xué)，2010.

[8]方延風(fēng).科技項(xiàng)目查重中特征詞TF-IDF值計(jì)算方法的改進(jìn)[J].情報(bào)探索，2012（1）：1-3.

[9]吳燕.基于層次聚類的科技項(xiàng)目分類與查重研究[D].天津：天津財(cái)經(jīng)大學(xué)，2008．

[10]林明才，康耀紅，張誠一.基于科研立項(xiàng)管理應(yīng)用的模糊C均值算法研究[J].計(jì)算機(jī)工程與設(shè)計(jì)，2010，31（7）：1570-1572.

[11]劉蔭明，張?？?，劉謙.淺析科研管理之避免重復(fù)立項(xiàng)[J].科技管理研究，2010（21）：198-200.

[12]L.Steve.The age of big data[N/OL].The New York Times.（2012-02-12）[2013-03-06].http：//www. nytimes.com/2012/02/12/sunday-review/big-datasimpact-in-the-world.html.

[13]H.Tony，T.Stewart，T.Kirstin.The fourth paradigm：Data-intensive scientific discovery[M].Redmond，WA：Microsoft Research，2009：19-33.

[14]Fact Sheet：Big Data Across the Federal Government [EB/OL].（2012-03-29）[2013-03-06].http：//www. whitehouse.gov/sites/default/files/microsites/ostp/big_ data_fact_sheet_final.pdf.

[15]Google Flu Trends.[EB/OL].http：//www.google. org/flutrends.

[16]M.Scherer.Inside the Secret World of the Data Crunchers WhoHelpedObamaWin.[EB/OL].（2012-11-07）[2013-03-06].http：//swampland.time. com/2012/11/07/inside-the-secret-world-of-quants -and-data-crunchers-who-helped-obama-win/.

[17]孟小峰，慈祥.大數(shù)據(jù)管理：概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展，2013，50（1）：146-169.

[18]侯經(jīng)川，方靜怡.數(shù)據(jù)引證研究：進(jìn)展與展望[J].中國圖書館學(xué)報(bào)，2013（1）：112-118.

Study on Detection Model of Similar Scientific Project Based on Big Data Mining

LI Shan-qing，ZHAO Hui，SONG Li-rong

Checking out similar project is very important to avoid repetition in project approval.However，there is no way to find out similar project effectively for the moment.This paper proposes a novel method of detecting scientific projects similitude based on big data mining and multi-source information integration.Using that method，the authors studied the huge data network consisting of the information about the project，published papers，experts and institutions，as well as the keywords；built up a detection model of project similitude by integrating multi-source information；and adopted the Hadoop to speed up big data mining.This paper presents the detection model of project similitude and its key issues；in hope of providing brand-new thinking and methods for detecting similar projects in scientific project management.

big data mining；multi-source information integration；similarity detection for scientific projects；Hadoop architecture

格式李善青，趙輝，宋立榮.基于大數(shù)據(jù)挖掘的科技項(xiàng)目查重模型研究[J].圖書館論壇，2014（2）：78-83.

李善青（1981-），男，博士，中國科學(xué)技術(shù)信息研究所助理研究員；趙輝（1971-），女，碩士，中國科學(xué)技術(shù)信息研究所副研究館員；宋立榮（1971-），男，博士，中國科學(xué)技術(shù)信息研究所高級工程師。

2013-07-26

*本文系中國科學(xué)技術(shù)信息研究所科研項(xiàng)目預(yù)研基金“面向重復(fù)立項(xiàng)檢測的多源信息整合機(jī)制研究”（項(xiàng)目編號：YY201214），國家自然科學(xué)基金項(xiàng)目“大數(shù)據(jù)挖掘在科技項(xiàng)目查重中的應(yīng)用研究”（項(xiàng)目編號：71303223），國家社會科學(xué)基金項(xiàng)目“網(wǎng)絡(luò)環(huán)境下科技信息資源建設(shè)中的質(zhì)量元數(shù)據(jù)及評估應(yīng)用研究”（項(xiàng)目編號：12BTQ016）研究成果之一