關(guān)鍵詞: 三層數(shù)據(jù)治理; 青年科技人才; 人才畫(huà)像; 知識(shí)圖譜; 知識(shí)服務(wù)
DOI:10.3969 / j.issn.1008-0821.2024.10.009
〔中圖分類(lèi)號(hào)〕G203; TP391.1 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821 (2024) 10-0103-12
科技人才是推動(dòng)創(chuàng)新發(fā)展的第一資源, 青年科技人才是我國(guó)科技事業(yè)發(fā)展的中堅(jiān)力量。習(xí)近平總書(shū)記強(qiáng)調(diào), “把培育國(guó)家戰(zhàn)略人才力量的政策重心放在青年科技人才上, 給予青年人才更多的信任、更好的幫助、更有力的支持, 支持青年人才挑大梁、當(dāng)主角”[1] , 培養(yǎng)、使用好青年科技人才成為國(guó)家及地方人才高地建設(shè)的重要課題, 研究青年科技人才群體及個(gè)體特征, 構(gòu)建青年科技人才的知識(shí)圖譜,繪制人才畫(huà)像, 對(duì)于培養(yǎng)和用好青年科技人才有著重要的意義。本文以多源科技數(shù)據(jù)融合為支撐, 建立具有實(shí)體關(guān)聯(lián)的青年科技人才資源池, 探索構(gòu)建知識(shí)圖譜和精準(zhǔn)畫(huà)像, 實(shí)現(xiàn)不同領(lǐng)域高潛質(zhì)科技人才的智能化識(shí)別和知識(shí)服務(wù), 為青年人才脫穎而出創(chuàng)造良好環(huán)境, 促進(jìn)社會(huì)發(fā)展。
1研究現(xiàn)狀
1.1青年科技人才概念與特征識(shí)別
科技人才主要是指實(shí)際從事或有潛力從事系統(tǒng)性科學(xué)和技術(shù)知識(shí)的產(chǎn)生、促進(jìn)、傳播和應(yīng)用活動(dòng)的人[2] , 具有高度創(chuàng)新創(chuàng)業(yè)意識(shí)、創(chuàng)新創(chuàng)業(yè)精神、創(chuàng)新能力、能創(chuàng)造性解決問(wèn)題的能力[3-4] 。青年科技人才是在40 周歲以下(含40 周歲), 接受過(guò)良好的教育和學(xué)術(shù)訓(xùn)練, 具有強(qiáng)烈的創(chuàng)新愿望, 具有較為突出的創(chuàng)新能力和科研潛力的科技人才[5] 。國(guó)內(nèi)外學(xué)者對(duì)青年科技人才成長(zhǎng)進(jìn)行了大量研究, 基于社會(huì)學(xué)、心理學(xué)等角度, 對(duì)以下特征進(jìn)行了探討。
從成長(zhǎng)經(jīng)歷角度研究。Zuckerman H[6] 針對(duì)美國(guó)諾貝爾獎(jiǎng)得主開(kāi)展的社會(huì)學(xué)研究, 開(kāi)啟了科技人才成長(zhǎng)規(guī)律研究之先河; Simonton D[7] 認(rèn)為, 家庭背景和教育成就是影響科學(xué)家群體科學(xué)創(chuàng)造力的重要環(huán)境因素; 張建衛(wèi)等[8] 發(fā)現(xiàn), 高等教育經(jīng)歷的連續(xù)性、高成就導(dǎo)師引領(lǐng)對(duì)青年副教授階段的職業(yè)晉升具有顯著影響。因此, 青年科技人才一般具有良好的家庭教育和連續(xù)教育背景, 具有高成就導(dǎo)師引領(lǐng)和終身學(xué)習(xí)能力。從科研環(huán)境角度研究。Ca?ibano C等[9] 探討了流動(dòng)性與研究成果之間的聯(lián)系, 發(fā)現(xiàn)大多數(shù)國(guó)際流動(dòng)性強(qiáng)的研究者通常更容易獲得國(guó)際項(xiàng)目資助和國(guó)際網(wǎng)絡(luò); Stephan P E 等[10] 發(fā)現(xiàn), 大部分諾貝爾獲獎(jiǎng)?wù)邚那嗄陼r(shí)代就開(kāi)始從事相關(guān)研究,在化學(xué)、物理領(lǐng)域特別明顯; 陳建俞[5] 發(fā)現(xiàn), 終身學(xué)習(xí)是促進(jìn)青年人才成長(zhǎng)的必要條件, 學(xué)術(shù)環(huán)境對(duì)青年科技人才的成長(zhǎng)有著重要影響, 青年科技人才流動(dòng)性也不大; 王佳勻等[11] 發(fā)現(xiàn), 青年學(xué)者一般具有良好的國(guó)內(nèi)外聯(lián)合培養(yǎng)經(jīng)歷和科研經(jīng)歷。因此,青年科技人才大多數(shù)在環(huán)境優(yōu)越和相對(duì)穩(wěn)定的條件平臺(tái)下工作, 如果參與到強(qiáng)有力的科研團(tuán)隊(duì)且具有國(guó)際合作經(jīng)歷, 則協(xié)同創(chuàng)新能力更強(qiáng), 優(yōu)越的科研團(tuán)隊(duì)、文化、制度都將正向激勵(lì)人才發(fā)展。從創(chuàng)新能力角度研究。陳韶光等[12] 構(gòu)建了優(yōu)秀中青年科技人才評(píng)價(jià)體系, 通過(guò)專(zhuān)家咨詢(xún)認(rèn)為科研工作成績(jī)是重要特征, 學(xué)術(shù)造詣、選題能力、承擔(dān)課題和科研成果等指標(biāo)權(quán)重較大;牛斌[13] 開(kāi)展了青年科技人才指標(biāo)調(diào)研, 問(wèn)卷回收結(jié)果顯示創(chuàng)新能力最重要,而科研項(xiàng)目、成果專(zhuān)利、論文收錄指標(biāo)提及率達(dá)到90%以上。因此, 青年科技人才具有較強(qiáng)創(chuàng)新能力,能積極參與國(guó)內(nèi)外科研課題與成果轉(zhuǎn)化, 項(xiàng)目、論文、專(zhuān)利都從一定程度上予以反應(yīng)。從不同學(xué)科領(lǐng)域研究。陳建俞[5] 對(duì)2012—2020 年國(guó)家自科基金優(yōu)青人才學(xué)科專(zhuān)業(yè)領(lǐng)域進(jìn)行分析, 人才學(xué)科專(zhuān)業(yè)領(lǐng)域分布不均, 工程材料、生命科學(xué)、信息、化學(xué)專(zhuān)業(yè)占比最多, 且不同學(xué)科專(zhuān)業(yè)領(lǐng)域的青年科技人才早期成長(zhǎng)速度不同。因此, 不同學(xué)科背景在教育經(jīng)歷、境外交流、產(chǎn)出成果的體現(xiàn)上都各不相同, 應(yīng)把握不同學(xué)科特征, 分類(lèi)培育, 差異化管理。
1.2基于科技大數(shù)據(jù)的知識(shí)圖譜
科技大數(shù)據(jù)不同于傳統(tǒng)期刊論文數(shù)據(jù), 也不同于一般意義上的網(wǎng)絡(luò)及行業(yè)大數(shù)據(jù), 數(shù)據(jù)內(nèi)容包括各學(xué)科內(nèi)的記錄數(shù)據(jù)、資料、文獻(xiàn)、報(bào)告、網(wǎng)絡(luò)科技報(bào)道等科技成果數(shù)據(jù), 科技項(xiàng)目、學(xué)術(shù)會(huì)議、科技人才、科研機(jī)構(gòu)、科技獎(jiǎng)項(xiàng)、科技主題、科技概念、研究設(shè)備、研究模型、研究方法等科技實(shí)體及科技活動(dòng)數(shù)據(jù), 以及科技領(lǐng)域特色數(shù)據(jù)[14] 。各類(lèi)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的科技數(shù)據(jù)資源, 為科技大數(shù)據(jù)知識(shí)圖譜構(gòu)建提供數(shù)據(jù)支持, 數(shù)據(jù)融合治理過(guò)程中涉及實(shí)體抽取、實(shí)體消歧、關(guān)系抽取、關(guān)系推斷等問(wèn)題[15-16] 。張勇等[17] 以科技論文為例,構(gòu)建了涵蓋元數(shù)據(jù)獲取、記錄鏈接、關(guān)聯(lián)的元數(shù)據(jù)倉(cāng)儲(chǔ)體系。黃琪等[18] 將元數(shù)據(jù)標(biāo)準(zhǔn)化加工后, 將元數(shù)據(jù)關(guān)聯(lián)特征項(xiàng)分為外部特征、內(nèi)部特征和共享特征, 進(jìn)行科技資源關(guān)聯(lián)聚合。李宗俊等[19] 以檢驗(yàn)檢測(cè)、研發(fā)設(shè)計(jì)需求為導(dǎo)向, 研究?jī)x器設(shè)備和實(shí)驗(yàn)動(dòng)物實(shí)體屬性關(guān)系, 構(gòu)建科技服務(wù)資源元數(shù)據(jù)和資源池。
2012年, 谷歌提出知識(shí)圖譜技術(shù)概念, 將其應(yīng)用于語(yǔ)義檢索、智能推薦、智能問(wèn)答等方面[20] 。近年來(lái), 隨著大數(shù)據(jù)云計(jì)算技術(shù)不斷完善, 國(guó)外搜索引擎、數(shù)字出版等龍頭企業(yè)紛紛開(kāi)始建設(shè)各類(lèi)知識(shí)服務(wù)平臺(tái)。Springer Nature[21] 不斷從期刊、文章、臨床試驗(yàn)、會(huì)議系列、事件、引用網(wǎng)絡(luò)等方面擴(kuò)展數(shù)據(jù), 其目標(biāo)是創(chuàng)建學(xué)術(shù)領(lǐng)域最先進(jìn)的關(guān)聯(lián)數(shù)據(jù)聚合平臺(tái)。Elsevier 基于論文、圖書(shū)、引文、作者、機(jī)構(gòu)、基金、化學(xué)物質(zhì)、藥物、EHRs 等多源數(shù)據(jù)構(gòu)建面向生命科學(xué)和醫(yī)療健康研究的知識(shí)圖譜[9] 。Tahir Mansoori構(gòu)建的Wizdom.ai 通過(guò)對(duì)相關(guān)數(shù)據(jù)進(jìn)行分析, 向科研人員提供全球新興的熱點(diǎn)和研究趨勢(shì)、最前沿的研究機(jī)構(gòu)和人員、引文推薦、個(gè)人研究圖等[22-23] 。在我國(guó), 清華大學(xué)開(kāi)發(fā)了AMiner,上海交通大學(xué)發(fā)布了Acemap, 中科院文獻(xiàn)情報(bào)中心開(kāi)發(fā)了中國(guó)科學(xué)院知識(shí)服務(wù)平臺(tái), 從專(zhuān)利期刊、期刊報(bào)告等多維度組織學(xué)者和機(jī)構(gòu)實(shí)體畫(huà)像[24-26] 。
人物畫(huà)像是知識(shí)圖譜應(yīng)用比較廣泛的場(chǎng)景之一。許明英等[27] 提出, 從論文數(shù)據(jù)生成科研團(tuán)隊(duì)立體畫(huà)像, 包括科研團(tuán)隊(duì)識(shí)別、科研團(tuán)隊(duì)研究主題預(yù)測(cè)、精準(zhǔn)立體畫(huà)像。馮嶺等[28] 應(yīng)用專(zhuān)利數(shù)據(jù),從專(zhuān)利數(shù)據(jù)中抽取發(fā)明人的各個(gè)特征, 構(gòu)建多層感知機(jī)模型, 發(fā)現(xiàn)技術(shù)創(chuàng)新人才。武帥等[29] 從海量科技文獻(xiàn)數(shù)據(jù)進(jìn)行信息融合關(guān)聯(lián), 結(jié)合人才評(píng)價(jià)指標(biāo)體系, 建立人才創(chuàng)新能力自動(dòng)感知方法模型, 并在機(jī)器人領(lǐng)域予以應(yīng)用。
通過(guò)對(duì)現(xiàn)有科技文獻(xiàn)和平臺(tái)系統(tǒng)可以發(fā)現(xiàn), 當(dāng)前研究缺少以青年科技人才為實(shí)體對(duì)象, 關(guān)聯(lián)論文、期刊、項(xiàng)目、機(jī)構(gòu)、平臺(tái)等多源科技數(shù)據(jù), 建立分領(lǐng)域分層級(jí)的科技人才數(shù)據(jù)資源池; 同時(shí)由于各領(lǐng)域創(chuàng)新特點(diǎn)不同, 人才科研成果體現(xiàn)形式也有所不同, 缺少以挖掘發(fā)現(xiàn)高潛青年科技人才為目的, 分領(lǐng)域智能化精準(zhǔn)描繪相關(guān)備選人才的知識(shí)服務(wù)系統(tǒng)。因此, 筆者基于國(guó)內(nèi)外研究成果, 從成長(zhǎng)經(jīng)歷、科研環(huán)境、創(chuàng)新能力、科技領(lǐng)域凝練青年科技人才特征, 構(gòu)建知識(shí)圖譜本體模型。
2青年人才知識(shí)圖譜本體構(gòu)建
國(guó)家標(biāo)準(zhǔn)《科技人才元數(shù)據(jù)元素集》[30] 從科技人才基本信息、工作履歷、社會(huì)任職、教育培訓(xùn)、獎(jiǎng)勵(lì)、榮譽(yù)、課題項(xiàng)目、專(zhuān)著、論文、專(zhuān)利、科技報(bào)告、科研誠(chéng)信等維度, 規(guī)定了科技人才元數(shù)據(jù)標(biāo)準(zhǔn)。重慶出臺(tái)地方標(biāo)準(zhǔn)[31] , 從專(zhuān)業(yè)資質(zhì)、代表論文、著作、知識(shí)產(chǎn)權(quán)、科研項(xiàng)目、科技獎(jiǎng)勵(lì)來(lái)體現(xiàn)科技人才的非核心元數(shù)據(jù)實(shí)體。朱焱等[32] 基于用戶(hù)畫(huà)像, 以學(xué)者為中心,構(gòu)建了涵蓋學(xué)者與論文、項(xiàng)目、任職單位、研究領(lǐng)域、研究方向、合作作者等實(shí)體關(guān)系的知識(shí)圖譜。趙偉等[33] 從創(chuàng)新知識(shí)、創(chuàng)新技能、影響力、創(chuàng)新能力、創(chuàng)新動(dòng)力、管理能力等方面構(gòu)建基礎(chǔ)研究、工程技術(shù)和創(chuàng)新創(chuàng)業(yè)人才評(píng)價(jià)體系。本文參考國(guó)內(nèi)人才數(shù)據(jù)標(biāo)準(zhǔn)及用戶(hù)畫(huà)像指標(biāo)體系, 基于青年科技人才的特征, 構(gòu)建相關(guān)知識(shí)圖譜本體, 如圖1 所示。
1) 實(shí)體類(lèi)型。青年科技人才是從科技人才庫(kù)中獲取的40周歲以下對(duì)象, 是知識(shí)圖譜本體構(gòu)建的核心, 圍繞成長(zhǎng)經(jīng)歷獲取的個(gè)人基本履歷信息是實(shí)體之一, 其中包括人才的工作經(jīng)歷和學(xué)習(xí)經(jīng)歷; 根據(jù)科研環(huán)境特點(diǎn)屬性, 實(shí)體類(lèi)型包括機(jī)構(gòu)、科研平臺(tái)、合作團(tuán)隊(duì)3類(lèi)信息實(shí)體; 根據(jù)創(chuàng)新能力特點(diǎn)屬性, 實(shí)體類(lèi)型包括科技項(xiàng)目、獎(jiǎng)勵(lì)、論文、專(zhuān)利。
2) 實(shí)體關(guān)系。本研究定義了對(duì)象屬性來(lái)描述科技人才知識(shí)本體中實(shí)體之間的關(guān)系。其中以人才實(shí)體出發(fā), 基本信息中的工作經(jīng)歷和學(xué)習(xí)經(jīng)歷是個(gè)體人才的履歷; 單位機(jī)構(gòu)、科研平臺(tái)是人才實(shí)體工作的環(huán)境, 企業(yè)/ 機(jī)構(gòu)、科研平臺(tái)共同構(gòu)成人才經(jīng)歷, 合作團(tuán)隊(duì)體現(xiàn)人才的科研合作網(wǎng)絡(luò), 合作團(tuán)隊(duì)包括企業(yè)/ 機(jī)構(gòu)、科技平臺(tái)內(nèi)部科研團(tuán)隊(duì)、與外部機(jī)構(gòu)的產(chǎn)學(xué)研合作團(tuán)隊(duì)及師生團(tuán)隊(duì); 獎(jiǎng)勵(lì)、論文、專(zhuān)利、科研項(xiàng)目是人才產(chǎn)出的科研成果, 都體現(xiàn)了人才的創(chuàng)新能力; 將人才的科研成果按照主題詞進(jìn)行分類(lèi), 可以從產(chǎn)業(yè)、學(xué)科、科技領(lǐng)域多維度體現(xiàn)領(lǐng)域特征。
3青年科技人才畫(huà)像系統(tǒng)平臺(tái)設(shè)計(jì)
3.1基于三層數(shù)據(jù)治理的青年科技人才知識(shí)圖譜系統(tǒng)設(shè)計(jì)
數(shù)據(jù)治理是指有關(guān)數(shù)據(jù)采集、加工、控制、傳輸、保存等活動(dòng),本質(zhì)是實(shí)現(xiàn)數(shù)據(jù)組織結(jié)構(gòu)的規(guī)范、數(shù)據(jù)價(jià)值的涌現(xiàn), 決定著數(shù)據(jù)建設(shè)的成?。郏常矗常担?。數(shù)字環(huán)境所帶來(lái)的元數(shù)據(jù)種類(lèi)、層級(jí)、來(lái)源、渠道、形態(tài)和格式不同, 帶來(lái)了多源異構(gòu)數(shù)據(jù)融合、元數(shù)據(jù)關(guān)聯(lián)、挖掘應(yīng)用的問(wèn)題[36] 。一是多源異構(gòu)數(shù)據(jù)融合問(wèn)題。大數(shù)據(jù)時(shí)代的人才信息來(lái)源豐富多樣,不僅有期刊論文等傳統(tǒng)文獻(xiàn)元數(shù)據(jù), 也包括科技管理所需的科技計(jì)劃項(xiàng)目、獎(jiǎng)勵(lì)、技術(shù)合同等, 多來(lái)源異構(gòu)元數(shù)據(jù)如何融合集成, 形成具有一致性的大數(shù)據(jù)倉(cāng)儲(chǔ)是基礎(chǔ)。二是元數(shù)據(jù)關(guān)聯(lián)問(wèn)題。海量人才數(shù)據(jù)的知識(shí)元數(shù)據(jù)抽取與集成, 關(guān)聯(lián)關(guān)系的構(gòu)建,乃至后期數(shù)據(jù)服務(wù)都有賴(lài)于人才元數(shù)據(jù)知識(shí)組織,青年科技人才知識(shí)圖譜要對(duì)論文、專(zhuān)利的作者與機(jī)構(gòu)、項(xiàng)目的參與人通過(guò)知識(shí)之間的關(guān)聯(lián), 進(jìn)行挖掘應(yīng)用, 則急需在概念語(yǔ)義體系與自然語(yǔ)言術(shù)語(yǔ)體系之間建立映射關(guān)系, 通過(guò)對(duì)人才知識(shí)單元進(jìn)行規(guī)范化、關(guān)聯(lián)化表述, 從而基于大數(shù)據(jù)形成結(jié)構(gòu)清晰的人才語(yǔ)義層面知識(shí)是關(guān)鍵問(wèn)題。三是元數(shù)據(jù)分析應(yīng)用問(wèn)題。在知識(shí)關(guān)聯(lián)、數(shù)據(jù)鏈接的進(jìn)一步發(fā)展中,統(tǒng)計(jì)不同區(qū)域、不同學(xué)科的人才數(shù)量, 建立科學(xué)評(píng)價(jià)體系識(shí)別有潛力、可培育的人才隊(duì)伍, 進(jìn)而形成知識(shí)服務(wù)、人才發(fā)現(xiàn)等高階功能, 是海量數(shù)據(jù)實(shí)現(xiàn)價(jià)值提升的核心要義。
基于以上問(wèn)題,本文設(shè)計(jì)了三層數(shù)據(jù)治理體系與系統(tǒng)架構(gòu)來(lái)予以解決, 即第一層需通過(guò)多源人才數(shù)據(jù)進(jìn)行采集、標(biāo)準(zhǔn)化處理, 建設(shè)形成資源庫(kù), 解決數(shù)據(jù)融合的問(wèn)題; 第二層通過(guò)實(shí)體識(shí)別、實(shí)體及實(shí)體屬性抽取、實(shí)體消歧與實(shí)體歸一、實(shí)體關(guān)聯(lián)、實(shí)體分類(lèi)標(biāo)識(shí)等數(shù)據(jù)治理活動(dòng), 建設(shè)形成主題庫(kù),解決數(shù)據(jù)關(guān)聯(lián)的問(wèn)題;第三層通過(guò)分類(lèi)統(tǒng)計(jì)、聚類(lèi)分析、精準(zhǔn)匹配等活動(dòng), 形成專(zhuān)題庫(kù), 面向應(yīng)用服務(wù)開(kāi)發(fā)終端模塊, 解決數(shù)據(jù)應(yīng)用的問(wèn)題。科技青年人才知識(shí)圖譜旨在揭示青年科技人才在成長(zhǎng)經(jīng)歷及科研活動(dòng)中存在的實(shí)體及其之間的關(guān)系,即揭示青年科技人才科技實(shí)體關(guān)系的語(yǔ)義網(wǎng)絡(luò)。為提煉和抽象化科技人才的多源科技大數(shù)據(jù),構(gòu)建以上實(shí)體類(lèi)型和實(shí)體關(guān)系為核心的知識(shí)圖譜, 本文設(shè)計(jì)了如圖2所示的基于三層數(shù)據(jù)治理的青年科技人才畫(huà)像系統(tǒng)架構(gòu)。
1)通過(guò)數(shù)據(jù)采集建設(shè)資源庫(kù)。制定科技人才數(shù)據(jù)描述標(biāo)準(zhǔn)和存儲(chǔ)規(guī)范, 對(duì)科技人才、科研機(jī)構(gòu)、科研平臺(tái)、科技項(xiàng)目、科技獎(jiǎng)勵(lì)、科技期刊、專(zhuān)利等科技大數(shù)據(jù)進(jìn)行資源匯聚和集成。建設(shè)數(shù)據(jù)交換采集平臺(tái), 對(duì)接各類(lèi)科技管理、科技服務(wù)、期刊專(zhuān)利數(shù)據(jù)庫(kù)等系統(tǒng)平臺(tái), 匯交各類(lèi)科技數(shù)據(jù)資源, 應(yīng)用自主安全可控的大數(shù)據(jù)分布式存儲(chǔ)與索引技術(shù),對(duì)多源異構(gòu)的科技大數(shù)據(jù)進(jìn)行采集、集成和標(biāo)準(zhǔn)統(tǒng)一, 建立科技人才數(shù)據(jù)資源庫(kù)。
2)通過(guò)知識(shí)抽取融合建設(shè)主題庫(kù)。按照青年科技人才的知識(shí)圖譜本體, 對(duì)科技大數(shù)據(jù)中的各類(lèi)信息進(jìn)行實(shí)體類(lèi)型和實(shí)體關(guān)系的抽取, 建設(shè)以科技人才為中心的主題庫(kù)。通過(guò)運(yùn)用結(jié)構(gòu)化/ 半結(jié)構(gòu)化文本信息抽取、實(shí)體識(shí)別、實(shí)體屬性抽取, 從多源異構(gòu)的科技大數(shù)據(jù)中抽取青年科技人才結(jié)構(gòu)化信息節(jié)點(diǎn), 通過(guò)實(shí)體歸一、實(shí)體消岐, 建立實(shí)體庫(kù)。通過(guò)唯一標(biāo)識(shí)將實(shí)體庫(kù)之間進(jìn)行關(guān)聯(lián), 對(duì)實(shí)體的科研成果進(jìn)行分類(lèi)標(biāo)識(shí), 抽取人才的科研合作關(guān)系, 將分散的信息節(jié)點(diǎn)融合實(shí)體關(guān)系庫(kù)。
3)通過(guò)數(shù)據(jù)分析挖掘建設(shè)專(zhuān)題庫(kù)。抽取主題庫(kù)中的實(shí)體和實(shí)體關(guān)系元數(shù)據(jù)屬性, 建立青年人才專(zhuān)題庫(kù), 通過(guò)聚類(lèi)統(tǒng)計(jì)建設(shè)科技人才統(tǒng)計(jì)專(zhuān)題庫(kù),為群體和個(gè)體人才畫(huà)像可視化提供支撐。
4)面向應(yīng)用服務(wù)開(kāi)發(fā)終端模塊。面向科研人員、企業(yè)機(jī)構(gòu)與政府管理者的人才搜索、人才對(duì)接、統(tǒng)計(jì)決策等需求, 建立群體畫(huà)像、人才檢索、個(gè)體畫(huà)像等服務(wù)端口,將其嵌入各類(lèi)科技管理服務(wù)系統(tǒng),應(yīng)用于青年人才評(píng)價(jià)、評(píng)審專(zhuān)家推薦、技術(shù)咨詢(xún)服務(wù)等場(chǎng)景。
3.2多源數(shù)據(jù)采集與資源庫(kù)建設(shè)
基于成長(zhǎng)經(jīng)歷、科研環(huán)境、創(chuàng)新能力與科技領(lǐng)域特征來(lái)設(shè)計(jì)青年科技人才數(shù)據(jù)資源規(guī)范, 采集融合多源異構(gòu)數(shù)據(jù), 應(yīng)用數(shù)據(jù)處理與存儲(chǔ)技術(shù)建設(shè)科技數(shù)據(jù)資源庫(kù)。
1) 科技數(shù)據(jù)資源規(guī)范。按照青年科技人才特征識(shí)別, 人才畫(huà)像系統(tǒng)所用的科技數(shù)據(jù)資源主要包括個(gè)人基本信息、機(jī)構(gòu)平臺(tái)、科技項(xiàng)目、獎(jiǎng)勵(lì)、論文、專(zhuān)利、領(lǐng)域分類(lèi)信息。參考已有成熟的元數(shù)據(jù)標(biāo)準(zhǔn), 將實(shí)體屬性轉(zhuǎn)化為元數(shù)據(jù)進(jìn)行規(guī)范化管理,本文參考國(guó)家標(biāo)準(zhǔn)《科技人才元數(shù)據(jù)元素集》來(lái)規(guī)范個(gè)人基本信息; 應(yīng)用《科技平臺(tái)資源核心元數(shù)據(jù)》[37] 描述科研機(jī)構(gòu)、科研平臺(tái)等實(shí)體機(jī)構(gòu); 應(yīng)用DC 元數(shù)據(jù)[38] 方案, 來(lái)描述科技項(xiàng)目任務(wù)書(shū)、科技獎(jiǎng)勵(lì)申報(bào)書(shū)、科技論文、科技期刊等文獻(xiàn)和報(bào)告;應(yīng)用國(guó)家統(tǒng)計(jì)局發(fā)布的高技術(shù)產(chǎn)業(yè)分類(lèi)、湖南省科技領(lǐng)域分類(lèi)來(lái)描述人才領(lǐng)域分類(lèi)。
2) 多源數(shù)據(jù)采集與存儲(chǔ)。依據(jù)數(shù)據(jù)資源規(guī)范,筆者對(duì)實(shí)踐工作中的多個(gè)管理系統(tǒng)數(shù)據(jù)分析研究,發(fā)現(xiàn)科技管理信息系統(tǒng)中擁有大量基本信息與科技成果相對(duì)完整的青年科技人才數(shù)據(jù)。如青年科技人才的學(xué)歷、畢業(yè)學(xué)校、學(xué)習(xí)經(jīng)歷、工作簡(jiǎn)歷等成長(zhǎng)經(jīng)歷信息可以通過(guò)科技計(jì)劃項(xiàng)目負(fù)責(zé)人信息、系統(tǒng)用戶(hù)注冊(cè)信息、評(píng)審專(zhuān)家?guī)鞂?zhuān)家信息中獲取。青年科技人才的科研環(huán)境體現(xiàn)在所工作的機(jī)構(gòu)、科研平臺(tái)、導(dǎo)師關(guān)系、團(tuán)隊(duì)關(guān)系以及產(chǎn)學(xué)研合作關(guān)系中,故機(jī)構(gòu)單位、機(jī)構(gòu)性質(zhì)、機(jī)構(gòu)負(fù)責(zé)人、平臺(tái)成員、平臺(tái)科研成果等信息可通過(guò)科技管理系統(tǒng)中的科技平臺(tái)認(rèn)定與績(jī)效評(píng)價(jià)系統(tǒng)中獲??; 而導(dǎo)師關(guān)系、產(chǎn)學(xué)研合作團(tuán)隊(duì)則來(lái)源于學(xué)位論文、專(zhuān)利信息平臺(tái)。青年科技人才的創(chuàng)新能力主要體現(xiàn)在參與的科研項(xiàng)目, 獲得的科技獎(jiǎng)勵(lì), 產(chǎn)出的科技論文、專(zhuān)利, 這些科技數(shù)據(jù)來(lái)源于科技管理信息系統(tǒng)、科技獎(jiǎng)勵(lì)系統(tǒng)、SCI、CNKI、萬(wàn)方、維普、國(guó)知局專(zhuān)利信息數(shù)據(jù)庫(kù)等。
使用RDFS(RDF Schema) 對(duì)數(shù)據(jù)規(guī)范進(jìn)行描述, 它是為RDF 提供一個(gè)數(shù)據(jù)模型的詞匯表, 由描述RDF 的基本概念和抽象語(yǔ)法的一些配套文檔組成, 用于描述資源類(lèi)型和資源之間的關(guān)系。根據(jù)各數(shù)據(jù)源提供的接口和下載地址, 利用OAI 協(xié)議、FTP 接口、JDBC 接口以及Webservice 接口等方式對(duì)數(shù)據(jù)進(jìn)行采集。針對(duì)不同格式的數(shù)據(jù)源分別開(kāi)發(fā)對(duì)應(yīng)的采集引擎, 通過(guò)配置數(shù)據(jù)源IP、端口、FTP目錄、數(shù)據(jù)庫(kù)信息等方式, 調(diào)用采集引擎將數(shù)據(jù)采集到HDFS 集群中。針對(duì)不同的數(shù)據(jù)格式, 使用解析引擎對(duì)HDFS 集群中的不同來(lái)源數(shù)據(jù)進(jìn)行解析、抽取和結(jié)構(gòu)化處理, 保證從各數(shù)據(jù)源采集的數(shù)據(jù)可以在后續(xù)ETL 環(huán)節(jié)通過(guò)ETL 引擎進(jìn)行統(tǒng)一的清洗、轉(zhuǎn)換和規(guī)范化等處理, 并嚴(yán)格按照統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行存儲(chǔ)、管理和使用。
3.3知識(shí)抽取融合與主題庫(kù)建設(shè)
主題庫(kù)是將采集的多源數(shù)據(jù)經(jīng)統(tǒng)一集成后, 對(duì)不同實(shí)體進(jìn)行抽取和屬性填充, 通過(guò)實(shí)體消岐、分類(lèi)標(biāo)識(shí)、關(guān)聯(lián)分析等知識(shí)抽取融合技術(shù), 建設(shè)以人才為主題的實(shí)體庫(kù)和關(guān)系庫(kù)。
1) 實(shí)體庫(kù)建設(shè)。實(shí)體庫(kù)是將資源庫(kù)中的元數(shù)據(jù)通過(guò)實(shí)體抽取、屬性填充、實(shí)體消岐處理后建成的主題庫(kù), 主要包括人才實(shí)體庫(kù)、機(jī)構(gòu)實(shí)體庫(kù)、平臺(tái)實(shí)體庫(kù)和成果實(shí)體庫(kù)。人才實(shí)體庫(kù)圍繞人才成長(zhǎng)特征, 主要包括人才的職稱(chēng)、履歷、學(xué)習(xí)等信息,機(jī)構(gòu)和平臺(tái)實(shí)體庫(kù)圍繞科研環(huán)境特征, 主要包括高校、科研院所、企業(yè)、重點(diǎn)實(shí)驗(yàn)室、工程中心等信息, 成果實(shí)體庫(kù)圍繞創(chuàng)新能力特征, 主要包括科研項(xiàng)目、論文、專(zhuān)利、獎(jiǎng)勵(lì)等信息。
實(shí)體抽取與屬性填充。將青年科技人才數(shù)據(jù)資源中的實(shí)體轉(zhuǎn)化為數(shù)據(jù)規(guī)范中的“類(lèi)” 進(jìn)行處理,經(jīng)過(guò)采集融合后的科技資源數(shù)據(jù)包括結(jié)構(gòu)化(元數(shù)據(jù))、半結(jié)構(gòu)化(XML)和非結(jié)構(gòu)化(摘要文本)數(shù)據(jù), 依托大數(shù)據(jù)平臺(tái)中分布式計(jì)算引擎Spark, 對(duì)海量科研數(shù)據(jù)進(jìn)行預(yù)處理。從資源庫(kù)元數(shù)據(jù)中提取結(jié)構(gòu)化數(shù)據(jù), 生成人才、機(jī)構(gòu)、平臺(tái)、成果實(shí)體,并進(jìn)行履屬性填充。以科研項(xiàng)目數(shù)據(jù)為例, 將一份項(xiàng)目申請(qǐng)報(bào)告作為一個(gè)成果實(shí)體, 并提取項(xiàng)目名稱(chēng)、項(xiàng)目類(lèi)別、依托單位、項(xiàng)目負(fù)責(zé)人、手機(jī)、電子郵箱、申請(qǐng)經(jīng)費(fèi)、研究期限、中文摘要、關(guān)鍵詞、項(xiàng)目組主要參與者等作為實(shí)體屬性。
實(shí)體消岐。首先針對(duì)不同實(shí)體進(jìn)行去重, 將不同數(shù)據(jù)來(lái)源中表示同一對(duì)象的實(shí)體合并為具有統(tǒng)一標(biāo)識(shí)符的實(shí)體添加到數(shù)據(jù)庫(kù)中, 例如, 使用項(xiàng)目編號(hào)唯一標(biāo)識(shí)符對(duì)科技項(xiàng)目去重, 使用標(biāo)題、作者、出版年份對(duì)期刊論文進(jìn)行去重, 使用標(biāo)題作者、畢業(yè)院校、指導(dǎo)教師對(duì)學(xué)位論文去重, 使用姓名、身份證號(hào)碼、郵箱、手機(jī)判斷重名的青年人才。然后對(duì)科技人才進(jìn)行郵箱拆分、多個(gè)從屬機(jī)構(gòu)拆分, 設(shè)定強(qiáng)規(guī)則下身份證號(hào)碼、E-mail 相同的為同一人,弱規(guī)則下姓名、一級(jí)機(jī)構(gòu)、二級(jí)機(jī)構(gòu)、研究領(lǐng)域等相似度計(jì)算結(jié)果相近的為同一人, 避免同名同姓、同一機(jī)構(gòu)有多個(gè)重名的情況出現(xiàn)。再借助已有的規(guī)范庫(kù)和詞表, 包括區(qū)域與區(qū)域編號(hào)、大學(xué)院校名稱(chēng)規(guī)范、科研院所名稱(chēng)規(guī)范、企業(yè)名稱(chēng)規(guī)范、機(jī)構(gòu)縮寫(xiě)與映射形式規(guī)范, 對(duì)機(jī)構(gòu)、區(qū)域進(jìn)行數(shù)據(jù)清洗和規(guī)范。
2) 關(guān)系庫(kù)建設(shè)。關(guān)系庫(kù)是按照外部特征、內(nèi)容特征、共享特征將實(shí)體間關(guān)系和元數(shù)據(jù)元素進(jìn)行關(guān)聯(lián)聚合, 形成實(shí)體與實(shí)體之間的關(guān)系數(shù)據(jù)庫(kù)。針對(duì)科技大數(shù)據(jù)中的不同來(lái)源問(wèn)題, 對(duì)不同類(lèi)型的科技數(shù)據(jù)以人才唯一標(biāo)識(shí)(身份證號(hào)、手機(jī)號(hào)、郵箱)進(jìn)行關(guān)聯(lián), 形成“人才—機(jī)構(gòu)” “人才—平臺(tái)” “人才—成果” 對(duì)應(yīng)關(guān)聯(lián)的實(shí)體關(guān)系庫(kù)。針對(duì)數(shù)據(jù)資源的內(nèi)容特征, 以項(xiàng)目、論文、專(zhuān)利等文本信息關(guān)鍵詞為特征提取, 實(shí)現(xiàn)從語(yǔ)義角度建立不同實(shí)體之間的關(guān)聯(lián), 對(duì)科技領(lǐng)域分類(lèi)進(jìn)行自動(dòng)標(biāo)識(shí), 形成“人才—領(lǐng)域” 對(duì)應(yīng)關(guān)系的領(lǐng)域標(biāo)識(shí)庫(kù)。針對(duì)科技數(shù)據(jù)的共享特征, 對(duì)科研成果合作人員網(wǎng)絡(luò)進(jìn)行挖掘, 形成“人才—人才” 之間的合作關(guān)系庫(kù)。
領(lǐng)域分類(lèi)標(biāo)識(shí)。利用自然語(yǔ)言處理技術(shù)從報(bào)告文摘的非結(jié)構(gòu)化文本中提取關(guān)鍵詞和主題實(shí)體, 進(jìn)行自動(dòng)分類(lèi)輔助以人工審核, 達(dá)到將科技人才劃分至相關(guān)科技領(lǐng)域和產(chǎn)業(yè)分類(lèi)的目的。首先, 以湖南省重點(diǎn)科技領(lǐng)域分類(lèi)為基準(zhǔn), 將科技領(lǐng)域分類(lèi)與高新技術(shù)產(chǎn)業(yè)分類(lèi)建立映射關(guān)系, 形成分類(lèi)本體。然后, 合并提取項(xiàng)目、獎(jiǎng)勵(lì)、論文、專(zhuān)利中的文摘信息, 建立底層文本數(shù)據(jù)庫(kù)以備分析, 抽取關(guān)鍵詞作為自定義詞典, 導(dǎo)入自定義詞典、停用詞表等, 使用Jieba 對(duì)文摘報(bào)告進(jìn)行分詞處理, 基于TF-IDF算法對(duì)分詞處理后的文摘關(guān)鍵詞進(jìn)行抽取統(tǒng)計(jì)。最后, 挑選科技項(xiàng)目按照科技領(lǐng)域分類(lèi)的結(jié)果作為訓(xùn)練集, 將人才項(xiàng)目數(shù)據(jù)作為測(cè)試集, 采用貝葉斯分類(lèi)器基于文摘分詞結(jié)果與詞向量, 對(duì)科技人才進(jìn)行自動(dòng)化分類(lèi), 從而得到青年科技人才的科技領(lǐng)域和高新技術(shù)產(chǎn)業(yè)分類(lèi)結(jié)果。
科研合作關(guān)系抽取。由青年科技人才本體可得,實(shí)體間的關(guān)系主要可以分為從屬、合作、活動(dòng)、產(chǎn)出4 類(lèi)關(guān)系。從屬、活動(dòng)、產(chǎn)出關(guān)系比較簡(jiǎn)單, 可以以身份證號(hào)碼、組織機(jī)構(gòu)代碼、姓名等為唯一標(biāo)識(shí), 關(guān)聯(lián)其關(guān)系。而合作關(guān)系是沒(méi)有數(shù)據(jù)可以直接表達(dá)的, 需要從人才的學(xué)位論文、科研項(xiàng)目、專(zhuān)利成果信息中抽取出來(lái)。合作關(guān)系主要包括導(dǎo)師合作關(guān)系、科研團(tuán)隊(duì)合作關(guān)系、產(chǎn)學(xué)研合作關(guān)系。以魯某為例, 首先從魯某關(guān)聯(lián)的學(xué)位論文提取導(dǎo)師信息,形成(魯某, 秦某, 師生)關(guān)系; 再?gòu)聂斈酬P(guān)聯(lián)的科技項(xiàng)目、獎(jiǎng)勵(lì)、論文提取科研團(tuán)隊(duì)信息, 形成(魯某, 曾某, 同事)關(guān)系; 最后從魯某關(guān)聯(lián)的專(zhuān)利和論文提取關(guān)聯(lián)企業(yè), 形成(魯某, 山東某某企業(yè), 產(chǎn)學(xué)研合作)關(guān)系等931條關(guān)系數(shù)據(jù)。圖5展示了通過(guò)關(guān)系抽取后, 以魯某為核心的科研社會(huì)網(wǎng)絡(luò)關(guān)系圖。
3.4數(shù)據(jù)挖掘分析與專(zhuān)題庫(kù)建設(shè)
將經(jīng)過(guò)數(shù)據(jù)治理和分類(lèi)標(biāo)識(shí)后的主題庫(kù)人才數(shù)據(jù)進(jìn)行聚類(lèi)匯總, 按照人才類(lèi)別、區(qū)域、產(chǎn)業(yè)、年齡等特征, 建立青年科技人才統(tǒng)計(jì)專(zhuān)題庫(kù); 從成長(zhǎng)經(jīng)歷、科研環(huán)境、創(chuàng)新能力、分類(lèi)領(lǐng)域4 個(gè)維度,抽取實(shí)體與實(shí)體關(guān)系元數(shù)據(jù)屬性建設(shè)個(gè)體畫(huà)像專(zhuān)題庫(kù), 應(yīng)用社會(huì)網(wǎng)絡(luò)分析、共詞分析等數(shù)據(jù)挖掘技術(shù),展示個(gè)人的平臺(tái)數(shù)量、成果數(shù)量、科研合作網(wǎng)絡(luò)等各項(xiàng)能力指標(biāo)。
3.5人才畫(huà)像與知識(shí)圖譜服務(wù)
面向統(tǒng)計(jì)決策、人才搜索、人才對(duì)接等用戶(hù)需求, 建立人才群體畫(huà)像、檢索、個(gè)體畫(huà)像知識(shí)圖譜服務(wù)端口。群體畫(huà)像子模塊可以根據(jù)用戶(hù)需求, 對(duì)各區(qū)域、各年齡階段、各產(chǎn)業(yè)、各學(xué)科領(lǐng)域的人才進(jìn)行智能化組合統(tǒng)計(jì); 信息檢索子模塊可根據(jù)人才類(lèi)別、研究領(lǐng)域、年齡階段等條件進(jìn)行精準(zhǔn)匹配;個(gè)體畫(huà)像則圍繞青年人才特征, 全面展示青年人才的履歷、機(jī)構(gòu)、科研成果、合作網(wǎng)絡(luò)等詳細(xì)情況。在青年人才培育場(chǎng)景中, 科技部門(mén)可制定檢索策略,精準(zhǔn)發(fā)現(xiàn)各高新技術(shù)產(chǎn)業(yè)的后備領(lǐng)軍人才, 也可針對(duì)特定人才特征, 個(gè)性化制定培育策略; 在項(xiàng)目評(píng)審場(chǎng)景中, 管理人員可通過(guò)推薦算法的高準(zhǔn)確度,精準(zhǔn)判斷項(xiàng)目承擔(dān)人員團(tuán)隊(duì)的能力, 篩查掉關(guān)聯(lián)關(guān)系人員, 以提高評(píng)審公正與客觀性; 在技術(shù)轉(zhuǎn)移場(chǎng)景中, 需求方可以將技術(shù)需求與技術(shù)供給精準(zhǔn)匹配,提高成果轉(zhuǎn)化效率。
4湖南省科技管理系統(tǒng)青年科技人才畫(huà)像系統(tǒng)平臺(tái)構(gòu)建應(yīng)用實(shí)踐
近年來(lái), 湖南省科技信息研究所啟動(dòng)了湖南科技云平臺(tái)研究建設(shè)工作, 對(duì)全省科技大數(shù)據(jù)開(kāi)展治理與應(yīng)用。在科技人才治理與應(yīng)用方面, 首期研究團(tuán)隊(duì)以湖南省科技信息管理系統(tǒng)中科技項(xiàng)目青年負(fù)責(zé)人及湖湘青年英才等青年科技人才為對(duì)象, 圍繞青年科技人才特征識(shí)別, 開(kāi)展了基于三層數(shù)據(jù)治理的實(shí)踐應(yīng)用, 建設(shè)資源庫(kù)、主題庫(kù)和專(zhuān)題庫(kù), 開(kāi)展知識(shí)圖譜應(yīng)用服務(wù)。
4.1基于三層數(shù)據(jù)治理的人才資源建設(shè)實(shí)踐
多源數(shù)據(jù)采集與資源庫(kù)建設(shè)實(shí)踐。以湖南省科技管理信息系統(tǒng)公共服務(wù)平臺(tái)、高新技術(shù)企業(yè)評(píng)審系統(tǒng)、高新區(qū)數(shù)據(jù)填報(bào)系統(tǒng)、科技獎(jiǎng)勵(lì)系統(tǒng)、萬(wàn)方數(shù)據(jù)庫(kù)、維普數(shù)據(jù)庫(kù)為來(lái)源, 采集匯聚個(gè)人基本信息、機(jī)構(gòu)平臺(tái)、科技項(xiàng)目、獎(jiǎng)勵(lì)、論文、專(zhuān)利等信息1 100余萬(wàn)條, 按照數(shù)據(jù)資源標(biāo)準(zhǔn), 構(gòu)建科技數(shù)據(jù)資源庫(kù)。
知識(shí)抽取融合與主題庫(kù)建設(shè)實(shí)踐。將人才知識(shí)圖譜數(shù)據(jù)分成實(shí)體屬性信息、實(shí)體關(guān)系兩部分分別存儲(chǔ)。開(kāi)展實(shí)體抽取與消岐, 將實(shí)體各個(gè)屬性作為存儲(chǔ)字段, 分別為人才、機(jī)構(gòu)、平臺(tái)、項(xiàng)目、獎(jiǎng)勵(lì)、論文、專(zhuān)利等創(chuàng)建Elastic Search(ES)索引進(jìn)行存儲(chǔ)。以40 歲以下青年人才為標(biāo)準(zhǔn), 抽取科技實(shí)體288 773項(xiàng), 涵蓋青年科技人才實(shí)體24 850項(xiàng)、企業(yè)機(jī)構(gòu)實(shí)體55426項(xiàng)、科技平臺(tái)實(shí)體1 000項(xiàng)、科研成果實(shí)體208 397項(xiàng)(項(xiàng)目30 000條、論文50000條、專(zhuān)利110000條、獎(jiǎng)勵(lì)2000條)?;趯?shí)體數(shù)據(jù)開(kāi)展分類(lèi)標(biāo)識(shí)與關(guān)系抽取, 關(guān)系庫(kù)創(chuàng)建包含實(shí)體關(guān)系三元組的索引, 存儲(chǔ)實(shí)體關(guān)系數(shù)據(jù)409 451條,其中“人才—項(xiàng)目” 關(guān)系數(shù)據(jù)57 783條, “人才—獎(jiǎng)勵(lì)” 關(guān)系數(shù)據(jù)2 934條,“人才—論文”關(guān)系數(shù)據(jù)77 127條,“人才—專(zhuān)利” 關(guān)系數(shù)據(jù)247 545條,“人才—人才”關(guān)系數(shù)據(jù)24062條。
數(shù)據(jù)挖掘分析與專(zhuān)題庫(kù)建設(shè)實(shí)踐。青年科技人才專(zhuān)題庫(kù)根據(jù)主題庫(kù)的分類(lèi)標(biāo)識(shí)與關(guān)聯(lián)抽取結(jié)果,抽取人才姓名、所學(xué)專(zhuān)業(yè)、科技領(lǐng)域分類(lèi)、人才類(lèi)別、區(qū)域等元數(shù)據(jù)屬性進(jìn)行存儲(chǔ), 以支撐人才畫(huà)像和知識(shí)圖譜服務(wù)中的按區(qū)域、領(lǐng)域、人才類(lèi)別等條件組合統(tǒng)計(jì)。如圖6所示, 數(shù)據(jù)管控平臺(tái)建立了“資源庫(kù)—主題庫(kù)—專(zhuān)題庫(kù)” 三層數(shù)據(jù)治理體系。
4.2青年人才畫(huà)像與知識(shí)圖譜服務(wù)
應(yīng)用服務(wù)層是基于知識(shí)圖譜搭建的知識(shí)服務(wù)功能層,在青年科技人才畫(huà)像系統(tǒng)平臺(tái)的應(yīng)用服務(wù)層,包括人才群體畫(huà)像、資源檢索、個(gè)體畫(huà)像等服務(wù)模塊。
群體畫(huà)像模塊。群體畫(huà)像主要從區(qū)域分布、產(chǎn)業(yè)集群分布、高新技術(shù)領(lǐng)域分布等維度可視化展現(xiàn)湖南省青年科技人才結(jié)構(gòu)特征; 同時(shí)可分年份、區(qū)域、產(chǎn)業(yè)、人才類(lèi)型等條件智能化組合統(tǒng)計(jì)全省青年人才數(shù)量, 并鏈接到人才列表明細(xì), 實(shí)現(xiàn)了按照科技領(lǐng)域和學(xué)科發(fā)展特征, 將青年人才分類(lèi)分層描繪。
資源檢索模塊。以知識(shí)圖譜為引擎的人才檢索服務(wù)模塊, 通過(guò)科研人才實(shí)體搜索、分科技領(lǐng)域搜索、分高新技術(shù)產(chǎn)業(yè)搜索和分區(qū)域搜索等功能, 實(shí)現(xiàn)科技人才、科技項(xiàng)目、科技企業(yè)、科研機(jī)構(gòu)、科技平臺(tái)、論文、專(zhuān)利、科技獎(jiǎng)勵(lì)等各類(lèi)科技數(shù)據(jù)檢索發(fā)現(xiàn)。以青年人才姓名為關(guān)鍵詞進(jìn)行檢索, 可以一鍵發(fā)現(xiàn)與該科研人員相關(guān)的所有科技項(xiàng)目、科技獎(jiǎng)勵(lì)、專(zhuān)利、論文等關(guān)聯(lián)數(shù)據(jù)。以高新技術(shù)產(chǎn)業(yè)“生物與新醫(yī)藥” 進(jìn)行分類(lèi)檢索, 可以一鍵發(fā)現(xiàn)平臺(tái)內(nèi)該產(chǎn)業(yè)領(lǐng)域所有青年科技人員資源, 并快速進(jìn)入人才畫(huà)像與相關(guān)聯(lián)的項(xiàng)目、機(jī)構(gòu)畫(huà)像。
個(gè)體畫(huà)像模塊。從成長(zhǎng)經(jīng)歷、科研環(huán)境、創(chuàng)新能力、所屬領(lǐng)域等特征方面可視化青年科技人才畫(huà)像基本信息, 通過(guò)關(guān)聯(lián)鏈接青年人才的機(jī)構(gòu)、成果、合作團(tuán)隊(duì)關(guān)系, 揭示了該青年學(xué)者的研究方向、研究機(jī)構(gòu)、研究成果的發(fā)展趨勢(shì)和熱點(diǎn)主題, 輔助用戶(hù)全方位了解當(dāng)前個(gè)體人才的成長(zhǎng)軌跡及科技活動(dòng)特征。面向科技管理服務(wù), 可以對(duì)接基于知識(shí)圖譜的青年科技人才知識(shí)服務(wù)接口, 分別應(yīng)用于不同系統(tǒng)模塊, 例如青年人才分類(lèi)培育、項(xiàng)目管理專(zhuān)家評(píng)審、技術(shù)轉(zhuǎn)移人才對(duì)接等應(yīng)用場(chǎng)景。
5結(jié)束語(yǔ)
本文從青年科技人才的概念和特征出發(fā), 從成長(zhǎng)經(jīng)歷、科研環(huán)境、創(chuàng)新能力、科技領(lǐng)域等維度,設(shè)計(jì)青年人才的知識(shí)圖譜本體及涵蓋的實(shí)體和實(shí)體屬性, 形成科技人才實(shí)體關(guān)系, 提出了從采集多源科技數(shù)據(jù)、抽取實(shí)體知識(shí)融合、數(shù)據(jù)統(tǒng)計(jì)挖掘分析到開(kāi)發(fā)人才知識(shí)圖譜可視化展示與接口服務(wù)的知識(shí)圖譜技術(shù)架構(gòu)。并以湖南科技云平臺(tái)為應(yīng)用, 構(gòu)建了湖南省青年科技人才知識(shí)圖譜系統(tǒng), 實(shí)現(xiàn)了科技人才的分類(lèi)展示、精準(zhǔn)畫(huà)像、實(shí)體關(guān)聯(lián)、關(guān)系挖掘等功能。與現(xiàn)有人才畫(huà)像研究相比, 該知識(shí)圖譜關(guān)聯(lián)了科技項(xiàng)目、科技平臺(tái)、科技獎(jiǎng)勵(lì)等科技活動(dòng)及成果數(shù)據(jù), 較為全面地刻畫(huà)青年科技人才在科技創(chuàng)新方面的軌跡與特點(diǎn), 可廣泛用于科技人才畫(huà)像、科技人才評(píng)價(jià)、科技人才遴選等創(chuàng)新人才工作實(shí)踐。
但本文也有不足之處。數(shù)據(jù)主要來(lái)源于國(guó)內(nèi)數(shù)據(jù)庫(kù), 下一步有待覆蓋關(guān)聯(lián)國(guó)外科研成果數(shù)據(jù)。同時(shí), 本研究的科技人才知識(shí)圖譜系統(tǒng)架構(gòu), 雖然是圍繞青年科技人才特征構(gòu)建, 但其三層數(shù)據(jù)治理模式, 實(shí)體消歧、關(guān)系抽取、數(shù)據(jù)關(guān)聯(lián)、領(lǐng)域分類(lèi)標(biāo)識(shí)等數(shù)據(jù)治理方法及人才畫(huà)像與知識(shí)圖譜服務(wù)場(chǎng)景等可適用于各區(qū)域科技人才數(shù)據(jù)治理與應(yīng)用服務(wù)。在未來(lái)研究中, 考慮將青年科技人才畫(huà)像的構(gòu)建方法擴(kuò)展至其他科研人才畫(huà)像中, 并嵌入科技管理、科技決策、科技服務(wù)系統(tǒng), 在人才選拔、項(xiàng)目評(píng)審、科技特派員管理、成果轉(zhuǎn)化等場(chǎng)景中予以應(yīng)用。