李善青,趙 輝,宋立榮
基于大數(shù)據(jù)挖掘的科技項(xiàng)目查重模型研究*
李善青,趙 輝,宋立榮
科技項(xiàng)目查重是避免重復(fù)立項(xiàng)、重復(fù)建設(shè)的重要措施之一,目前缺乏行之有效的方法。文章提出基于大數(shù)據(jù)挖掘和多源信息整合的項(xiàng)目查重方法,以科技項(xiàng)目的基本信息、發(fā)表論文信息、關(guān)鍵詞、負(fù)責(zé)人信息和承擔(dān)機(jī)構(gòu)等要素構(gòu)建的大數(shù)據(jù)網(wǎng)絡(luò)為研究對象,利用多源信息整合方法構(gòu)建科技項(xiàng)目的相似度判別模型,并采用Hadoop框架實(shí)現(xiàn)海量數(shù)據(jù)的快速挖掘。文章介紹項(xiàng)目查重模型,重點(diǎn)討論需要解決的關(guān)鍵問題,為解決項(xiàng)目查重問題提供一種全新的思路和方法。
大數(shù)據(jù)挖掘 多源信息整合 科技項(xiàng)目查重 Hadoop架構(gòu)
為推動(dòng)科技創(chuàng)新,我國不斷加大對科研的資助規(guī)模和強(qiáng)度,科技項(xiàng)目的數(shù)量和經(jīng)費(fèi)在近年均得到顯著提升,形成多層次的國家科技計(jì)劃資助體系。隨之而來的重復(fù)立項(xiàng)問題日趨嚴(yán)重。據(jù)統(tǒng)計(jì),我國科研項(xiàng)目重復(fù)率達(dá)40%,另外60%中與國外重復(fù)約占30%以上[1]。重復(fù)立項(xiàng)不僅造成科技資源的浪費(fèi),也導(dǎo)致惡性科研競爭,損害開拓創(chuàng)新的科研精神,對科技創(chuàng)新危害極大。早在2006年,科技部前部長徐冠華在《關(guān)于建設(shè)創(chuàng)新型國家的幾個(gè)重要問題》講話中指出,切實(shí)加強(qiáng)科技宏觀統(tǒng)籌協(xié)調(diào)的重要舉措之一就是“積極推動(dòng)建立跨部門的科技項(xiàng)目數(shù)據(jù)庫。針對科技項(xiàng)目立項(xiàng)中多頭立項(xiàng)、重復(fù)立項(xiàng)的問題,推進(jìn)科技項(xiàng)目共享數(shù)據(jù)庫的建立,為解決重復(fù)問題提供必要的技術(shù)支撐”。各級科技計(jì)劃主管部門對重復(fù)立項(xiàng)問題十分重視,研究了一些項(xiàng)目查重的方法和機(jī)制問題,取得了一定的進(jìn)展,但總體效果并不明顯。究其原因,主要在于以下3個(gè)方面:
(1)項(xiàng)目數(shù)量呈現(xiàn)逐年快速增長的態(tài)勢。僅國家自然科學(xué)基金委員會2013年度資助的項(xiàng)目就達(dá)3.5萬余項(xiàng)。數(shù)量龐大的項(xiàng)目為查重工作帶來很大挑戰(zhàn)。此外,基礎(chǔ)科學(xué)研究具有創(chuàng)新性、不確定性、學(xué)科交叉融合等特點(diǎn),不同學(xué)科領(lǐng)域的新觀點(diǎn)、新概念和新知識不斷涌現(xiàn),科研項(xiàng)目管理人員需要越來越多的專業(yè)知識才能準(zhǔn)確判斷項(xiàng)目的相似性,這也給項(xiàng)目查重工作帶來很大的困難。
(2)項(xiàng)目信息公開、共享和整合程度較低??萍加?jì)劃的項(xiàng)目信息和實(shí)施情況主要分散掌握在各計(jì)劃主管部門內(nèi)部,對外開放和共享的程度低,各計(jì)劃之間的項(xiàng)目信息無法進(jìn)行有效整合。如國家自然科學(xué)基金在立項(xiàng)審查時(shí)只能在該基金資助的項(xiàng)目范圍內(nèi)進(jìn)行重復(fù)性檢測,而幾乎無法與其他科技計(jì)劃項(xiàng)目進(jìn)行檢測和查重。解決該問題的方法是在國家層面上建立統(tǒng)一的可對外公開的項(xiàng)目信息檢索平臺,實(shí)現(xiàn)項(xiàng)目信息的共享和整合。
(3)項(xiàng)目相似性判別方法單一。目前科研重復(fù)立項(xiàng)檢測主要通過比對項(xiàng)目標(biāo)題或者比對項(xiàng)目申請書的內(nèi)容進(jìn)行甄別。前者只是進(jìn)行簡單的關(guān)鍵詞匹配,將項(xiàng)目標(biāo)題中包含指定關(guān)鍵詞集的項(xiàng)目定義為相似項(xiàng)目。一旦項(xiàng)目更換標(biāo)題,該方法則會失效。后者能夠較準(zhǔn)確地發(fā)現(xiàn)相關(guān)/相似的項(xiàng)目,但算法實(shí)現(xiàn)難度較大,并且項(xiàng)目申請書因涉密或保護(hù)知識產(chǎn)權(quán)等原因一般不對外公開,很難從公開渠道獲取這些信息。因此該方法只適用于在單個(gè)計(jì)劃主管部門內(nèi)部實(shí)現(xiàn)項(xiàng)目查重。
文獻(xiàn)調(diào)研發(fā)現(xiàn),國外沒有項(xiàng)目查重的概念,但在數(shù)據(jù)挖掘、文檔檢索等方面的研究起步早,進(jìn)行了大量的研究和探索,積累了豐富的經(jīng)驗(yàn)和成熟的技術(shù)[2-5]。國內(nèi)在方法研究方面起步晚,但有針對性地開展文本挖掘方法在科技項(xiàng)目管理中的應(yīng)用研究。姜韶華[6]提出一種基于文本挖掘的科研項(xiàng)目管理原型系統(tǒng),重點(diǎn)研究和解決科研項(xiàng)目文本的切分和特征建模等問題;左川[7]提出一種基于非分詞技術(shù)解決科技項(xiàng)目查重問題的方法,該方法不需要對文本進(jìn)行分詞處理,利用頻繁閉項(xiàng)集構(gòu)造向量空間模型對項(xiàng)目申請書進(jìn)行建模并計(jì)算相似度;方延風(fēng)[8]提出將一種改進(jìn)的TF-IDF方法用于科技項(xiàng)目查重,考慮了特征詞的位置和長度兩種因素;吳燕[9]提出一種基于層次聚類的科技項(xiàng)目分類和查重方法,在計(jì)算科技項(xiàng)目相似性時(shí)綜合考慮了應(yīng)用領(lǐng)域、研究內(nèi)容和技術(shù)來源等因素;林明才等[10]提出一種改進(jìn)的模糊聚類算法RM-FCM,在計(jì)算項(xiàng)目相似度時(shí)考慮了不同屬性的特征項(xiàng)對科研項(xiàng)目的重要性;劉蔭明等[11]從科技查新實(shí)踐、地區(qū)和部門多頭管理、科研論文所依托的基金項(xiàng)目數(shù)量等方面研究我國科研的重復(fù)立項(xiàng)現(xiàn)象,通過對科研項(xiàng)目的申報(bào)與審批流程進(jìn)行分析,提出避免重復(fù)立項(xiàng)的具體措施。
上述研究工作基本都是從項(xiàng)目申請書入手,對申請書進(jìn)行分詞或?qū)⑵渥鳛檎w處理,然后提取特征向量,利用特征向量的相似度表示項(xiàng)目的相似度。一方面不同計(jì)劃的申請書格式不同,學(xué)科領(lǐng)域差別較大,很難找到統(tǒng)一的描述模式;另一方面,項(xiàng)目申請書一般不對外公開,獲取難度很大。因此,該方法適應(yīng)于在單個(gè)計(jì)劃內(nèi)部進(jìn)行項(xiàng)目查重,很難進(jìn)行跨計(jì)劃的項(xiàng)目查重。基于上述分析,本文采用一種全新的思路解決項(xiàng)目查重問題,首先收集項(xiàng)目的標(biāo)題、項(xiàng)目所發(fā)表的論文、關(guān)鍵詞、負(fù)責(zé)人和承擔(dān)機(jī)構(gòu)等要素的海量信息,構(gòu)建與項(xiàng)目查重相關(guān)的大數(shù)據(jù)網(wǎng)絡(luò),為后續(xù)的分析和挖掘提供數(shù)據(jù)支撐;然后利用多源信息整合技術(shù)構(gòu)建項(xiàng)目相似度模型,綜合考慮項(xiàng)目的研究內(nèi)容、負(fù)責(zé)人和承擔(dān)單位3種因素以提高計(jì)算項(xiàng)目相似度的準(zhǔn)確性和可靠性;最后采用Hadoop分布式處理技術(shù)加速項(xiàng)目相似度的計(jì)算過程,實(shí)現(xiàn)對海量數(shù)據(jù)的快速挖掘。
隨著海量數(shù)據(jù)獲取、存儲與處理方法與技術(shù)的飛速發(fā)展,大數(shù)據(jù)時(shí)代來臨,并對眾多領(lǐng)域產(chǎn)生影響[12]。2007年計(jì)算機(jī)圖靈獎(jiǎng)得主Jim Gray在NRC-CSTB的演講報(bào)告中提出科學(xué)研究的第四范式[13]—數(shù)據(jù)密集型科學(xué)研究,以協(xié)同化、網(wǎng)絡(luò)化與數(shù)據(jù)驅(qū)動(dòng)為其主要特征,在學(xué)術(shù)界引起很大關(guān)注。世界頂尖科學(xué)期刊《Nature》和《Science》分別推出專刊,圍繞科學(xué)研究中的大數(shù)據(jù)問題展開專題討論。美國政府于2012年3月29日發(fā)布的“大數(shù)據(jù)研究與發(fā)展計(jì)劃”[14]更是將大數(shù)據(jù)的發(fā)展和研究提高到國家戰(zhàn)略的層面,將其視為信息科學(xué)領(lǐng)域內(nèi)繼信息高速公路計(jì)劃之后的又一重大發(fā)展戰(zhàn)略。
大數(shù)據(jù)挖掘在近年發(fā)展迅速,基本思想是通過包括互聯(lián)網(wǎng)在內(nèi)的多種渠道收集研究對象的多維度數(shù)據(jù),通過對海量數(shù)據(jù)的關(guān)聯(lián)分析和數(shù)據(jù)挖掘,發(fā)現(xiàn)被研究對象的潛在行為模式或規(guī)律。大數(shù)據(jù)挖掘的經(jīng)典應(yīng)用有Google公司推出的“流感趨勢預(yù)報(bào)服務(wù)”[15]和奧巴馬競選團(tuán)隊(duì)的“大數(shù)據(jù)選舉”[16]。Google公司認(rèn)為,用戶搜索的關(guān)鍵詞代表了他們的即時(shí)需求,通過對流感進(jìn)行關(guān)鍵詞建模,并對搜索這些關(guān)鍵詞的海量用戶進(jìn)行跟蹤分析,創(chuàng)建流感地圖?!肮雀枇鞲汹厔荨痹跍y試過程中還顯示出反應(yīng)迅速的優(yōu)勢,甚至能夠比疾病控制和預(yù)防中心提前1個(gè)星期到10天時(shí)間公布流感預(yù)報(bào)。美國總統(tǒng)奧巴馬的競選團(tuán)隊(duì)利用大數(shù)據(jù)驅(qū)動(dòng)的分析和決策為其成功連任發(fā)揮巨大的作用,競選團(tuán)隊(duì)創(chuàng)建了龐大的數(shù)據(jù)系統(tǒng),將民調(diào)者、注資者、工作人員、消費(fèi)者、社交媒體及“搖擺州”主要民主黨投票人的信息進(jìn)行關(guān)聯(lián)及整合,然后通過大量的數(shù)據(jù)挖掘和模擬運(yùn)算,對籌集競選資金、競選廣告精準(zhǔn)投放、模擬競選等提供決策支持服務(wù),取得了立竿見影的效果。
國內(nèi)的學(xué)者也開展了相關(guān)研究。孟小峰等[17]對大數(shù)據(jù)管理的概念、技術(shù)和挑戰(zhàn)等問題進(jìn)行了系統(tǒng)化的梳理和總結(jié);侯經(jīng)川等[18]研究了大數(shù)據(jù)時(shí)代的數(shù)據(jù)引證問題,對其研究現(xiàn)狀、最新進(jìn)展和未來展望進(jìn)行了深入的分析和討論??傮w來看,大數(shù)據(jù)挖掘的相關(guān)研究處于起步階段,國內(nèi)與國外差距還不大,這是我國在該領(lǐng)域追趕國際先進(jìn)國家的重要機(jī)遇。利用大數(shù)據(jù)的思想解決科技項(xiàng)目查重問題是一個(gè)全新的研究課題,有重要的理論和實(shí)踐意義。本文重點(diǎn)介紹基于大數(shù)據(jù)挖掘的項(xiàng)目查重模型,并探討其中涉及的關(guān)鍵問題,為解決項(xiàng)目查重問題提供一種新的視角和方案。
本文提出的項(xiàng)目查重方法的基本思路是從海量數(shù)據(jù)中挖掘出與項(xiàng)目查重緊密相關(guān)的研究內(nèi)容、負(fù)責(zé)人和承擔(dān)單位等信息,采用多源信息整合技術(shù)對上述信息進(jìn)行整合并判定項(xiàng)目的相似度。為加速海量數(shù)據(jù)的挖掘,筆者采用Hadoop分布式技術(shù)提高項(xiàng)目查重的計(jì)算速度。項(xiàng)目查重的架構(gòu)框圖如圖1所示,可分為任務(wù)解析、大數(shù)據(jù)文件、項(xiàng)目相似度判別模型、分布式調(diào)度和結(jié)果展示等5部分。任務(wù)解析模塊在收到用戶的查詢請求后將其解析和翻譯為機(jī)器可執(zhí)行的指令,并提交給分布式調(diào)度模塊執(zhí)行;分布式調(diào)度模塊負(fù)責(zé)利用Hadoop框架管理和調(diào)度計(jì)算機(jī)集群系統(tǒng)協(xié)同完成項(xiàng)目查重任務(wù);大數(shù)據(jù)文件模塊存儲了與項(xiàng)目查重相關(guān)的海量數(shù)據(jù),是該模型的數(shù)據(jù)基礎(chǔ);項(xiàng)目相似度判別模型通過綜合關(guān)鍵詞、負(fù)責(zé)人和承擔(dān)單位等因素計(jì)算項(xiàng)目與查詢條件的相似度;結(jié)果展示模塊則通過可視化等手段將查詢結(jié)果反饋給用戶。
圖1 項(xiàng)目查重的架構(gòu)框圖
本查重模型所處理的數(shù)據(jù)對象包括5類:項(xiàng)目信息、論文題錄、關(guān)鍵詞、負(fù)責(zé)人和承擔(dān)單位。5種數(shù)據(jù)對象間存在網(wǎng)狀的關(guān)聯(lián)關(guān)系,如圖2所示。通過對上述網(wǎng)狀數(shù)據(jù)進(jìn)行加工處理,提取出與項(xiàng)目查重密切相關(guān)的元數(shù)據(jù)描述:項(xiàng)目ID是項(xiàng)目的唯一標(biāo)識,是實(shí)現(xiàn)各類數(shù)據(jù)之間關(guān)聯(lián)的紐帶;關(guān)鍵詞集是一組用于描述項(xiàng)目研究內(nèi)容的術(shù)語,是對研究內(nèi)容的凝練和概括。該數(shù)據(jù)來源于兩部分:一部分來自于項(xiàng)目標(biāo)題,可通過自動(dòng)切分詞技術(shù)獲??;另外一部分則來源于由項(xiàng)目資助所發(fā)表論文的關(guān)鍵詞,可通過論文的資金資助信息建立項(xiàng)目ID與論文關(guān)鍵詞的關(guān)聯(lián)關(guān)系。由于項(xiàng)目數(shù)量和論文數(shù)量都十分龐大,關(guān)鍵詞集的構(gòu)建首先通過文本智能挖掘和抽取技術(shù)完成,然后輔以人工校驗(yàn)的方式保證數(shù)據(jù)的準(zhǔn)確性;負(fù)責(zé)人信息則直接從項(xiàng)目信息數(shù)據(jù)庫中抽取,但由于信息缺失,負(fù)責(zé)人身份的唯一性識別仍然是尚未得到有效解決的難題;承擔(dān)單位信息也存在上述類似的問題,機(jī)構(gòu)的更名、重組、簡稱全稱混用等因素為設(shè)定承擔(dān)單位的唯一性識別帶來很大的困難。
圖2 大數(shù)據(jù)構(gòu)建的示意圖
圖3 相似度判別模型
項(xiàng)目的相似度判別模型分別計(jì)算研究內(nèi)容、負(fù)責(zé)人和承擔(dān)單位3方面的相似度,并對上述結(jié)果進(jìn)行加權(quán)整合得到項(xiàng)目最終的相似度。其中,項(xiàng)目的研究內(nèi)容由一組關(guān)鍵詞進(jìn)行描述,因此其相似性轉(zhuǎn)化為檢索詞集合與項(xiàng)目關(guān)鍵詞集合之間的相似性。項(xiàng)目負(fù)責(zé)人和承擔(dān)單位存在的重復(fù)性直接通過檢索詞匹配的方式計(jì)算,即兩個(gè)項(xiàng)目的負(fù)責(zé)人或承擔(dān)單位相同,則存在重復(fù)立項(xiàng)問題的可能性較高。三個(gè)維度的匹配度計(jì)算完成后,通過加權(quán)的方式進(jìn)行整合,最終得到與檢索條件匹配度由高到低排序的項(xiàng)目集合。
本模型解決的是大數(shù)據(jù)場景下的項(xiàng)目查重問題,要在短時(shí)間內(nèi)完成對海量數(shù)據(jù)的檢索,需要借助于分布式計(jì)算技術(shù)。筆者采用Hadoop框架完成項(xiàng)目查重任務(wù)的分布式處理,其原理如圖4所示。JobTracker是管理者的角色,負(fù)責(zé)任務(wù)的拆分和調(diào)度,維持與TaskTracker通訊并記錄其最新狀態(tài)信息。TaskTracker是工人的角色,負(fù)責(zé)具體子任務(wù)的執(zhí)行,從指定的位置讀取待處理的數(shù)據(jù),完成任務(wù)后保存中間結(jié)果,并向JobTracker提交狀態(tài)更新。子任務(wù)的類型有兩種:Map操作和Reduce操作。Map操作處理相應(yīng)的片段數(shù)據(jù),即對指定片段計(jì)算項(xiàng)目的相似度,并保存中間結(jié)果。Reduce操作則對中間結(jié)果進(jìn)行收集和合并,即對指定的項(xiàng)目集合完成相似度的加權(quán)計(jì)算,得到最終的判別結(jié)果。
圖4 Hadoop分布式調(diào)度原理
本文從大數(shù)據(jù)挖掘的角度提出了一種全新、可行的項(xiàng)目查重模型,能夠解決目前項(xiàng)目查重的諸多難題。然而,該方法涉及海量數(shù)據(jù)的采集、加工、關(guān)聯(lián)和挖掘等內(nèi)容,需要建立規(guī)范的工作機(jī)制和采用智能的挖掘技術(shù)以保證查重方法的切實(shí)可行。下面將重點(diǎn)介紹該模型需要解決的幾個(gè)關(guān)鍵問題:
(1)海量數(shù)據(jù)的采集和加工需要建立一系列的標(biāo)準(zhǔn)和規(guī)范來保證數(shù)據(jù)的準(zhǔn)確性。處理的數(shù)據(jù)涉及項(xiàng)目信息、論文題錄、關(guān)鍵詞、負(fù)責(zé)人和承擔(dān)單位等,數(shù)據(jù)量龐大,種類較多,且沒有固定的格式,因此,需要建立一套規(guī)范的工作機(jī)制,并嚴(yán)格按照指定的標(biāo)準(zhǔn)對數(shù)據(jù)進(jìn)行加工和處理。此外,由于數(shù)據(jù)量巨大,需要大量的人力和財(cái)力作為支撐。
(2)數(shù)據(jù)的標(biāo)識、描述和關(guān)聯(lián)機(jī)制問題。數(shù)據(jù)標(biāo)識解決數(shù)據(jù)的唯一性標(biāo)志問題,目前在如何解決負(fù)責(zé)人、承擔(dān)單位的唯一標(biāo)識上仍存在很大的困難;數(shù)據(jù)描述用于揭示數(shù)據(jù)的內(nèi)容/屬性,需要對5種數(shù)據(jù)對象建立統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn);關(guān)聯(lián)機(jī)制則重點(diǎn)解決不同類型數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系問題,如項(xiàng)目與發(fā)表論文如何建立準(zhǔn)確的對應(yīng)關(guān)系等。
(3)研究文本智能抽取技術(shù)是處理海量數(shù)據(jù)必不可少的手段之一。該技術(shù)主要用于解決關(guān)鍵詞集的自動(dòng)生成問題:一方面,針對科技項(xiàng)目標(biāo)題的特點(diǎn)設(shè)計(jì)針對性的切分詞技術(shù),自動(dòng)從項(xiàng)目標(biāo)題中抽取關(guān)鍵詞;另一方面,從論文題錄的項(xiàng)目資助信息中自動(dòng)抽取項(xiàng)目編號,建立項(xiàng)目與論文的關(guān)聯(lián)關(guān)系,并將論文的關(guān)鍵詞自動(dòng)加入到項(xiàng)目的關(guān)鍵詞集合中。關(guān)鍵詞集構(gòu)建的準(zhǔn)確與否直接關(guān)系到項(xiàng)目查重效果的優(yōu)劣。
(4)大數(shù)據(jù)挖掘需要處理海量的數(shù)據(jù),為提高項(xiàng)目查重的速度,需要分布式的處理架構(gòu)對海量數(shù)據(jù)進(jìn)行檢索和挖掘。Hadoop是一套通用的技術(shù)框架,應(yīng)用到項(xiàng)目查重場景中需要根據(jù)業(yè)務(wù)邏輯進(jìn)行適應(yīng)性改造。如何將項(xiàng)目查重的業(yè)務(wù)邏輯設(shè)計(jì)為分布式處理模式,并盡可能提高查重效率是需要解決的關(guān)鍵問題。
本文提出一種基于大數(shù)據(jù)挖掘的項(xiàng)目查重方法,利用大數(shù)據(jù)挖掘和多源信息整合等技術(shù)解決項(xiàng)目查重問題。該方法提供了一種全新的思路和方法,是對現(xiàn)有項(xiàng)目查重方法的促進(jìn),具有重要的理論意義與應(yīng)用價(jià)值。基于該模型構(gòu)建切實(shí)可用的查重系統(tǒng)需要解決一系列關(guān)鍵的機(jī)制問題和技術(shù)問題,包括建立海量數(shù)據(jù)采集和加工標(biāo)準(zhǔn);構(gòu)建數(shù)據(jù)的標(biāo)識、描述和關(guān)聯(lián)機(jī)制;研究文本智能抽取技術(shù)和改進(jìn)Hadoop框架以適應(yīng)項(xiàng)目查重的業(yè)務(wù)需求等。
[1]張金玲,黃長,陳如好,等.深化科技查新工作 擴(kuò)展社會化服務(wù)[J].圖書館論壇,2011(5):122-124,137.
[2]H.Zhang,T.Chow,A multi-level matching method with hybrid similarity for document retrieval[J],Expert Systems with Applications,2012,39(3):2710-2719.
[3]J.Reid,M.Lalmas,K.Finesilver,M.Hertzum,Best entry points for structured document retrieval—Part II:Types,usage and effectiveness[J],Information Processing&Management,2006,42(1):89-105.
[4]J.Reid,M.Lalmas,K.Finesilver,M.Hertzum,Best entry points for structured document retrieval—Part I:Characteristics[J],Information Processing& Management,2006,42(1):74-88.
[5]P.Kalczynski,A.Chou,Temporal Document Retrieval Model for business news archives[J], Information Processing&Management,2005,41(3):635-650.
[6]姜韶華.科研項(xiàng)目管理中文本挖掘方法研究及應(yīng)用[D].大連:大連理工大學(xué),2006.
[7]左川.基于非分詞技術(shù)的科技項(xiàng)目查重研究與實(shí)現(xiàn)[D].重慶:重慶大學(xué),2010.
[8]方延風(fēng).科技項(xiàng)目查重中特征詞TF-IDF值計(jì)算方法的改進(jìn)[J].情報(bào)探索,2012(1):1-3.
[9]吳燕.基于層次聚類的科技項(xiàng)目分類與查重研究[D].天津:天津財(cái)經(jīng)大學(xué),2008.
[10]林明才,康耀紅,張誠一.基于科研立項(xiàng)管理應(yīng)用的模糊C均值算法研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(7):1570-1572.
[11]劉蔭明,張???,劉謙.淺析科研管理之避免重復(fù)立項(xiàng)[J].科技管理研究,2010(21):198-200.
[12]L.Steve.The age of big data[N/OL].The New York Times.(2012-02-12)[2013-03-06].http://www. nytimes.com/2012/02/12/sunday-review/big-datasimpact-in-the-world.html.
[13]H.Tony,T.Stewart,T.Kirstin.The fourth paradigm:Data-intensive scientific discovery[M].Redmond,WA:Microsoft Research,2009:19-33.
[14]Fact Sheet:Big Data Across the Federal Government [EB/OL].(2012-03-29)[2013-03-06].http://www. whitehouse.gov/sites/default/files/microsites/ostp/big_ data_fact_sheet_final.pdf.
[15]Google Flu Trends.[EB/OL].http://www.google. org/flutrends.
[16]M.Scherer.Inside the Secret World of the Data Crunchers WhoHelpedObamaWin.[EB/OL].(2012-11-07)[2013-03-06].http://swampland.time. com/2012/11/07/inside-the-secret-world-of-quants -and-data-crunchers-who-helped-obama-win/.
[17]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1):146-169.
[18]侯經(jīng)川,方靜怡.數(shù)據(jù)引證研究:進(jìn)展與展望[J].中國圖書館學(xué)報(bào),2013(1):112-118.
Study on Detection Model of Similar Scientific Project Based on Big Data Mining
LI Shan-qing,ZHAO Hui,SONG Li-rong
Checking out similar project is very important to avoid repetition in project approval.However,there is no way to find out similar project effectively for the moment.This paper proposes a novel method of detecting scientific projects similitude based on big data mining and multi-source information integration.Using that method,the authors studied the huge data network consisting of the information about the project,published papers,experts and institutions,as well as the keywords;built up a detection model of project similitude by integrating multi-source information;and adopted the Hadoop to speed up big data mining.This paper presents the detection model of project similitude and its key issues;in hope of providing brand-new thinking and methods for detecting similar projects in scientific project management.
big data mining;multi-source information integration;similarity detection for scientific projects;Hadoop architecture
格式 李善青,趙輝,宋立榮.基于大數(shù)據(jù)挖掘的科技項(xiàng)目查重模型研究[J].圖書館論壇,2014(2):78-83.
李善青(1981-),男,博士,中國科學(xué)技術(shù)信息研究所助理研究員;趙輝(1971-),女,碩士,中國科學(xué)技術(shù)信息研究所副研究館員;宋立榮(1971-),男,博士,中國科學(xué)技術(shù)信息研究所高級工程師。
2013-07-26
*本文系中國科學(xué)技術(shù)信息研究所科研項(xiàng)目預(yù)研基金“面向重復(fù)立項(xiàng)檢測的多源信息整合機(jī)制研究”(項(xiàng)目編號:YY201214),國家自然科學(xué)基金項(xiàng)目“大數(shù)據(jù)挖掘在科技項(xiàng)目查重中的應(yīng)用研究”(項(xiàng)目編號:71303223),國家社會科學(xué)基金項(xiàng)目“網(wǎng)絡(luò)環(huán)境下科技信息資源建設(shè)中的質(zhì)量元數(shù)據(jù)及評估應(yīng)用研究”(項(xiàng)目編號:12BTQ016) 研究成果之一