楊宇亮 周育忠 陶秀杰 韋嶸暉 張自鋒
摘要:科研項(xiàng)目相似性檢測實(shí)質(zhì)上是與歷史庫的智能對比,以審核重復(fù)科研項(xiàng)目內(nèi)容,所以建立科研項(xiàng)目歷史對比庫是科研項(xiàng)目相似檢測的基礎(chǔ)。歷史庫數(shù)據(jù)來源廣泛,包含了公司百分之九十以上的科研項(xiàng)目資料,有科技部、科研管理系統(tǒng)等處提供的,也有科研項(xiàng)目團(tuán)隊(duì)提供的資料,采集過來的數(shù)據(jù)加工的程度不一樣,且存在一定冗余內(nèi)容,給相似性檢測結(jié)果帶來一定的干擾。通過建立一套信息管理規(guī)范制度,對歷史對比庫的數(shù)據(jù)采集、數(shù)據(jù)審核、數(shù)據(jù)規(guī)范、數(shù)據(jù)存儲、數(shù)據(jù)輸出、數(shù)據(jù)安全等進(jìn)行一定的規(guī)范,保證歷史對比庫數(shù)據(jù)的完整性、針對性和可靠性,從而有效的支撐相似性檢測需求,保證檢測結(jié)果的全面性、準(zhǔn)確性,同時又能夠最大限度地保護(hù)公司的知識資產(chǎn),規(guī)避信息安全風(fēng)險。
關(guān)鍵詞:歷史庫;數(shù)據(jù)規(guī)范;信息管理規(guī)范;信息安全
中圖分類號:TF311 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2020)14-0052-02
在建設(shè)科研項(xiàng)目相似性檢測系統(tǒng)的同時,公司建立了一套信息管理規(guī)范制度,保障歷史對比庫的完整性和可靠性,最大程度地保證公司科研項(xiàng)目相似性檢測系統(tǒng)結(jié)果的準(zhǔn)確性以及系統(tǒng)數(shù)據(jù)的安全性。信息管理規(guī)范制度包含六個部分,分別是數(shù)據(jù)采集、數(shù)據(jù)審核、數(shù)據(jù)規(guī)范、數(shù)據(jù)存儲、數(shù)據(jù)輸出、數(shù)據(jù)安全。
1數(shù)據(jù)采集
數(shù)據(jù)來源由兩部分組成,包括歷史文檔以及現(xiàn)行文檔。其中歷史文檔主要是科研管理系統(tǒng)中的文檔和科技處等部門的文檔;現(xiàn)行文檔主要是科研團(tuán)隊(duì)提交的文檔。采集的數(shù)據(jù)主要為指南、可研報告、成果、技術(shù)報告以及論文等幾大類。數(shù)據(jù)采集流程如圖1。
1.1科研管理系統(tǒng)中的文檔
如表1所示,對科研管理系統(tǒng)中以及科技部等部門已經(jīng)立項(xiàng)和驗(yàn)收的科技項(xiàng)目資料進(jìn)行梳理,搜集整合的數(shù)據(jù)包括科技項(xiàng)目需求建議表、項(xiàng)目申報指南、科技項(xiàng)目可行性研究報告、科技項(xiàng)目任務(wù)書及歷史清單、項(xiàng)目技術(shù)報告等,分別來源于各項(xiàng)目庫、報告庫、獲獎庫、成果庫。科研管理系統(tǒng)中的數(shù)據(jù)通過接口抽調(diào)或人工批量上傳進(jìn)入數(shù)據(jù)加工中心等待處理,處理完的數(shù)據(jù)主要分為四類,包括項(xiàng)目庫、報告庫、獲獎庫、成果庫??倲?shù)量約900萬。
1.2科研團(tuán)隊(duì)文檔
各科研團(tuán)隊(duì)的科研全過程文檔,在相似檢測系統(tǒng)中提供匯總頁面,并支持一鍵上傳功能,由專家評審團(tuán)隊(duì)進(jìn)行審核,進(jìn)入到加工中心等待統(tǒng)一處理。
2數(shù)據(jù)審核
為保證數(shù)據(jù)的完整性和可靠性,對采集的數(shù)據(jù)建立審核機(jī)制,通過審核的歷史文檔以及現(xiàn)行文檔進(jìn)人數(shù)據(jù)規(guī)范待處理區(qū)域。審核成員組成包括各業(yè)務(wù)部門、科研項(xiàng)目評審專家團(tuán)隊(duì)負(fù)責(zé)人、數(shù)據(jù)錄入團(tuán)隊(duì)、相似檢索系統(tǒng)所屬科研管理部門。數(shù)據(jù)審核組織架構(gòu)如圖2所示。
3數(shù)據(jù)規(guī)范
針對進(jìn)入數(shù)據(jù)規(guī)范待處理區(qū)域的數(shù)據(jù),根據(jù)相似性檢測的需求,設(shè)置統(tǒng)一的數(shù)據(jù)加工規(guī)范,對數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理。根據(jù)不同的文獻(xiàn)類型,分為項(xiàng)目庫,實(shí)施庫、項(xiàng)目成果庫、登記成果等4種類型,查重對比文本選取2012年以后的數(shù)據(jù)。
項(xiàng)目庫應(yīng)規(guī)范字段為項(xiàng)目ID、項(xiàng)目中文名稱、項(xiàng)目編碼、科技編碼、項(xiàng)目屬性、是否重點(diǎn)項(xiàng)目、項(xiàng)目類型、項(xiàng)目類別、項(xiàng)目來源、預(yù)期成果成熟度水平、資金來源、項(xiàng)目負(fù)責(zé)人、建設(shè)單位、申報人、年、摘要、主要研究內(nèi)容、必要性分析、項(xiàng)目預(yù)期成果、Projectstaus、項(xiàng)目區(qū)分、項(xiàng)目開始時間、項(xiàng)目結(jié)束時間等,其中對摘要、主要研究內(nèi)容、必要性分析、項(xiàng)目預(yù)期成果等內(nèi)容進(jìn)行重點(diǎn)的全文比對。
實(shí)施庫應(yīng)規(guī)范字段實(shí)施庫ID、項(xiàng)目庫ID、項(xiàng)目名稱、項(xiàng)目編碼、科技項(xiàng)目編碼、項(xiàng)目負(fù)責(zé)人、項(xiàng)目類別、項(xiàng)目建設(shè)單位、項(xiàng)目起始日期、項(xiàng)目結(jié)束日期、項(xiàng)目性質(zhì)、項(xiàng)目屬性、項(xiàng)目承擔(dān)單位、項(xiàng)目摘要、項(xiàng)目主要研究內(nèi)容、預(yù)期目標(biāo)及創(chuàng)新點(diǎn)。
獲獎成果應(yīng)規(guī)范字段ID、成果名稱、英文成果名稱、獎勵種類、成果名稱是否可公布、第一完成單位、成果登記號、成果水平、獎勵年度、聯(lián)系人、聯(lián)系電話、成果分類、學(xué)科分類、關(guān)鍵詞、立項(xiàng)背景、關(guān)鍵技術(shù)與創(chuàng)新點(diǎn)、綜合比較、主要完成人員、公司分類(綜合)、獎勵等級、研究起始時間、研究終止時間、成果簡介、研究內(nèi)容、保密要點(diǎn)、應(yīng)用情況、待解決問題、授獎級別。
登記成果應(yīng)規(guī)范字段成果ID、登記單位、登記號、成果名稱、主要完成單位、主要完成人員、關(guān)鍵詞、成果水平、成果所處階段、轉(zhuǎn)讓范圍、研究內(nèi)容、研究形式、關(guān)鍵技術(shù)與創(chuàng)新點(diǎn)、應(yīng)用情況、成果分類代碼、研究結(jié)束時間、研究起始時間、登記日期。
4數(shù)據(jù)存儲
根據(jù)梳理的分類體系創(chuàng)建相應(yīng)的數(shù)據(jù)庫進(jìn)行數(shù)據(jù)存儲,對不同類型的數(shù)據(jù)存儲字段進(jìn)行定義。
5數(shù)據(jù)輸出
科研項(xiàng)目團(tuán)隊(duì)輸入論文基本信息,包括論文標(biāo)題、作者、文獻(xiàn)屬性、文獻(xiàn)專業(yè)領(lǐng)域,并提交文獻(xiàn)全文。系統(tǒng)輸出查重報告,查重報告包含以下內(nèi)容,項(xiàng)目名稱、技術(shù)領(lǐng)域、檢測范圍、提報單位、查重時間、摘要、相似比例、詳細(xì)報告以及是否通過申報。
6數(shù)據(jù)安全
查重團(tuán)隊(duì)核心工作為收集梳理歷史資料及制定現(xiàn)行文檔規(guī)范,確保查重數(shù)據(jù)中心資料的齊全,從而保障查重的準(zhǔn)確性;為了保證項(xiàng)目的保密性,數(shù)據(jù)以字段形式碎片化存儲在服務(wù)器中,不提供附件存儲。相似查重系統(tǒng)只提供最終的查重對比報告,不提供原文的查看、下載等,確保數(shù)據(jù)安全。
所有資料存儲在科研項(xiàng)目相似性檢測項(xiàng)目專用服務(wù)器,所有操作需通過堡壘機(jī)進(jìn)行,嚴(yán)格控制訪問權(quán)限,并有據(jù)可查;
7總結(jié)
信息管理制度規(guī)范的建設(shè),有效地保證了數(shù)據(jù)的一致性和完整性,在保證信息安全的前提下,確保了科研項(xiàng)目相似性檢測結(jié)果的準(zhǔn)確性,極大地促進(jìn)了公司科研管理水平。