◎文/王翔 侯威 陳潔(安徽省科學(xué)技術(shù)情報研究所)
國家大數(shù)據(jù)戰(zhàn)略的實施引發(fā)了傳統(tǒng)科技管理模式的變革,促使科技管理從經(jīng)驗式?jīng)Q策向循證決策轉(zhuǎn)變,專家畫像技術(shù)將為項目評審、人才評價、機構(gòu)評估提供重要的循證依據(jù)。為此,從國家到地方,均開展了與專家畫像(expert profile)相關(guān)的前瞻性研究。科技部發(fā)布的《國家重點研發(fā)計劃新能源汽車等重點專項2018年度項目申報指南》中,就在“云計算和大數(shù)據(jù)”重點專項中,設(shè)立了“基于立體精準(zhǔn)畫像的學(xué)術(shù)同行分類與推薦系統(tǒng)”應(yīng)用示范專項,研究適合學(xué)術(shù)同行評價和科研項目評審評估的學(xué)術(shù)行為畫像模型和體系[1]。微軟、清華大學(xué)、中國工程院知識中心聯(lián)合舉辦了“2017開放學(xué)術(shù)精準(zhǔn)畫像大賽”,提取學(xué)者的個人描述信息,分析學(xué)者的研究興趣,預(yù)測學(xué)者的論文引用情況[2]。中國科技信息研究所在其情報工程實驗室2017年開放基金項目申報中,也設(shè)立了“快速、動態(tài)的科研人員科研行為立體精準(zhǔn)畫像技術(shù)研究”專項課題,研究從海量科技信息中用于繪制科研人員個性化科研行為畫像的方法,如統(tǒng)計建模、數(shù)據(jù)挖掘、機器學(xué)習(xí)等技術(shù)的綜合應(yīng)用[3]。目前,關(guān)于專家畫像的公開文獻(xiàn)相對有限,特別是在科技管理大數(shù)據(jù)環(huán)境下的專家畫像技術(shù)應(yīng)用研究還處于起步階段,因此該研究具有十分重要的現(xiàn)實意義與理論價值。
從概念上說,專家畫像起源于早期的用戶畫像(Personas)。用戶畫像的概念最早由Alan Cooper提出(Personas are a concrete representation of target users)[4],在精準(zhǔn)營銷方向取得了很多成功的應(yīng)用,幫助銷售人員精準(zhǔn)了解和預(yù)測客戶的潛在需求。亞馬遜、京東、淘寶等都應(yīng)用了類似的技術(shù)。隨著移動互聯(lián)網(wǎng)和社交媒體的興盛,社交媒體短信息用戶行為大數(shù)據(jù)中蘊含的知識獲得了學(xué)術(shù)界的關(guān)注,亓叢等在比較騰訊、亞馬遜、京東、EBay等電子商務(wù)企業(yè)網(wǎng)絡(luò)用戶畫像實踐的基礎(chǔ)上,提出了用戶畫像領(lǐng)域的研究參考框架[5];郭光明將傳統(tǒng)用戶畫像分為四類:基于本體的方法、基于主題的方法、基于用戶興趣的方法、基于用戶行為的方法,并從用戶信用評估的角度,提出了基于社交大數(shù)據(jù)用戶信用畫像方法[6]。用戶畫像技術(shù)也是圖書館學(xué)術(shù)界的熱門方向之一,陳慧香等對圖書館用戶畫像的研究現(xiàn)狀做了總結(jié),認(rèn)為用戶畫像的構(gòu)建與完善需要算法支持,通常從用戶信息(明確的和隱含的)、用戶偏好(短期和長期)等方面去構(gòu)建用戶畫像[7];胡媛等通過收集圖書館用戶注冊數(shù)據(jù)、興趣數(shù)據(jù)、活躍度數(shù)據(jù)等,構(gòu)建了用戶畫像服務(wù)能力層次結(jié)構(gòu)模型[8];王慶等提出一種圖書館用戶畫像的框架模型,通過關(guān)聯(lián)用戶的動態(tài)行為數(shù)據(jù)修正用戶畫像標(biāo)簽,并據(jù)此總結(jié)基于用戶畫像的資源推薦模式[9];裘惠麟等提出了基于用戶畫像的圖書館精準(zhǔn)服務(wù)技術(shù)模型[10];姜曉慶從科研管理系統(tǒng)建設(shè)角度,對專家畫像系統(tǒng)的建立進(jìn)行了技術(shù)分析,設(shè)計了一種面向PDF文件的混合元數(shù)據(jù)提取模型,提出了標(biāo)簽抽取與專家聚合模型[11]。
本研究認(rèn)為,專家畫像起源于用戶畫像,兩者都是真實用戶的虛擬代表,都是基于數(shù)據(jù)-用戶標(biāo)簽的映射方式,也有共性技術(shù),但兩者之間也存在不同。一是分析對象不同。專家畫像針對的是某個特定專家的標(biāo)簽化描述;而用戶畫像的對象不是單個用戶而是特定的用戶群體,關(guān)注于典型用戶群體的標(biāo)簽化描述。二是數(shù)據(jù)基礎(chǔ)不同。專家畫像多采用文獻(xiàn)、專利、項目、成果等公開發(fā)表且經(jīng)過驗證的數(shù)據(jù),價值密度高且可信度較高,很少存在涉密及隱私暴露問題;用戶畫像多采用互聯(lián)網(wǎng)數(shù)據(jù),如注冊信息、消費數(shù)據(jù)等,價值密度較低,可信度也較低,存在隱私泄露及涉密風(fēng)險。三是應(yīng)用領(lǐng)域不同。專家畫像多用于科技管理流程,如專家及人才團隊評價、學(xué)術(shù)發(fā)展動態(tài)展示等方面,表現(xiàn)形式如研究領(lǐng)域標(biāo)簽、科研合作關(guān)系、學(xué)術(shù)能力評價報告等;用戶畫像用于抽象虛擬用戶全貌特征的領(lǐng)域,如精準(zhǔn)營銷、精準(zhǔn)服務(wù)、改進(jìn)產(chǎn)品設(shè)計等。四是時效性不同。專家畫像的數(shù)據(jù)來源于公開文獻(xiàn),其時效性較低,也有學(xué)者提出將社交媒體數(shù)據(jù)引入專家畫像中,但總體來說專家畫像與實際用戶一般具有較大的延遲,需要時常更新專家畫像模型;而用戶畫像采用的是互聯(lián)網(wǎng)實時數(shù)據(jù),用戶畫像與實際目標(biāo)用戶群體特征在時效性上的差異相對較小,很少需要實時更新模型。
專家畫像技術(shù)的核心是文獻(xiàn)大數(shù)據(jù),而核心元數(shù)據(jù)多來自于出版社、雜志社等,被國內(nèi)少數(shù)知名文獻(xiàn)數(shù)據(jù)商牢牢掌控。研究學(xué)者從事專家畫像領(lǐng)域研究時,由于缺少統(tǒng)一公開的數(shù)據(jù)源,研究成果的通用性很難大規(guī)模驗證。如要在科技管理中大規(guī)模的應(yīng)用專家畫像技術(shù),首先需要解決文獻(xiàn)元數(shù)據(jù)的知識產(chǎn)權(quán)問題。
一是缺少中文及外文文獻(xiàn)類數(shù)據(jù)的統(tǒng)一融合標(biāo)準(zhǔn),數(shù)據(jù)清洗(去重、去冗余、排歧)等工作很難高效完成,在一定程度上影響了評價結(jié)果的準(zhǔn)確性和權(quán)威性。二是缺少政府開放數(shù)據(jù)的支持,各省的科技計劃項目、自然基金等項目雖然做到了信息公開,但是很少做到數(shù)據(jù)開放。如能得到政府公開數(shù)據(jù)支撐,專家畫像將更加精準(zhǔn)、可信。
專家畫像所需文獻(xiàn)數(shù)據(jù),從實驗到產(chǎn)出、再到最終發(fā)表延遲較大,缺少來自互聯(lián)網(wǎng)、社交媒體的評價數(shù)據(jù),因而專家畫像數(shù)據(jù)的時效性受影響。學(xué)者論文在社交媒體提及的熱度,學(xué)者在社交媒體上同行的評價,與哪些同行互動較多,對學(xué)術(shù)活動的積極性如何等等,引入這些來自互聯(lián)網(wǎng)的實時數(shù)據(jù)將大大提升專家畫像的時效性。
專家畫像的結(jié)果多強調(diào)在大數(shù)據(jù)的融合集成上,通過統(tǒng)計建模、數(shù)據(jù)挖掘、機器學(xué)習(xí)等技術(shù)獲取專家的研究領(lǐng)域中心詞匯,進(jìn)而產(chǎn)生專家標(biāo)簽。這種強調(diào)客觀評價的專家畫像構(gòu)建方式未必能完全反映一個專家的實際情況:一是缺少專家本人對于其畫像的反饋;二是缺少同行對其學(xué)術(shù)能力的主觀評價,即同行評議。
在科技管理的實際應(yīng)用中,對專家畫像的實時更新要求較高,如國家重點研發(fā)計劃“基于立體精準(zhǔn)畫像的學(xué)術(shù)同行分類與推薦系統(tǒng)”應(yīng)用示范專項,就要求“形成實時動態(tài)、智能的科研行為畫像庫和學(xué)術(shù)關(guān)系圖譜”,“個體科研行為畫像與真實行為的時間間隔在72小時以內(nèi)”,這就要求專家畫像技術(shù)必須能保證對其虛擬用戶模型的實時更新。
雖然專家畫像所需數(shù)據(jù)多來源于公開發(fā)表的文獻(xiàn),涉密及隱私問題相對較少,但依然存在涉密信息及隱私的保護問題,特別是在關(guān)鍵研究領(lǐng)域的信息保護問題非常值得關(guān)注。如國家科技報告管理辦法要求承擔(dān)國家科技計劃項目必須提交科技報告,但是在項目結(jié)題時,某些研究成果如專利、論文等還處于審查階段,如果不加限制地予以公開,可能會導(dǎo)致復(fù)雜的學(xué)術(shù)問題。特別是一些牽涉國家安全、重大戰(zhàn)略的項目,對相關(guān)專家的信息過濾尤為重要。
專家畫像應(yīng)用的難點之一是缺少可信數(shù)據(jù),而科技管理大數(shù)據(jù)平臺建設(shè)的核心就是來自可信數(shù)據(jù)源的數(shù)據(jù)融合。一是融合來自科技計劃管理系統(tǒng)、成果登記系統(tǒng)、專家?guī)?、各類統(tǒng)計系統(tǒng)等科技管理信息系統(tǒng)的開放數(shù)據(jù);二是融合來自中外文期刊、碩博士論文、中外專利、科技報告等文獻(xiàn)資源的數(shù)據(jù);三是融合來自互聯(lián)網(wǎng)的可信學(xué)術(shù)社交媒體的數(shù)據(jù)等。其中重點需要解決的就是文獻(xiàn)元數(shù)據(jù)知識產(chǎn)權(quán)問題。只有通過政府主導(dǎo)的科技管理大數(shù)據(jù)平臺建設(shè),才有可能通過統(tǒng)一的標(biāo)準(zhǔn)化處理流程實現(xiàn)專家畫像所需的科技管理數(shù)據(jù)的融合及共享開放。
專家畫像在科技管理中的應(yīng)用是一項任務(wù)驅(qū)動的工作,需要形成理論化的研究體系。在政府宏觀層面,需要引導(dǎo)、組織研究團隊,制定大數(shù)據(jù)環(huán)境下專家畫像所需的中外文數(shù)據(jù)清洗及整合標(biāo)準(zhǔn);同時還需要制定相應(yīng)的激勵政策,如通過設(shè)置相關(guān)軟科學(xué)研究課題等方式,對專家畫像所需的理論體系進(jìn)行研究,并通過設(shè)置重點研發(fā)計劃等項目申報指南,對專家畫像所需的關(guān)鍵技術(shù)開展研究。在科技管理層面,需要將上述科研項目取得的研究成果應(yīng)用于科技管理信息系統(tǒng),在實踐中檢驗用戶畫像的精準(zhǔn)性、實用性。
科技管理大數(shù)據(jù)給專家畫像帶來了機遇,也對其算法的計算復(fù)雜度與穩(wěn)定性提出了更高的要求。本研究認(rèn)為,科技管理大數(shù)據(jù)中的專家畫像技術(shù)并非一定需要特別復(fù)雜的算法來支持,如“2017開放學(xué)術(shù)精準(zhǔn)畫像大賽”Task2中獲得第二名的算法就是通過制定一系列簡單規(guī)則,并應(yīng)用文本處理的常規(guī)算法,如TF-IDF、降維、文本相似度計算等[3],但是核心算法必須是穩(wěn)定的,且具備較好的容錯性。此外,專家畫像不能完全依賴于人工智能的方式,特別是對于一些新興學(xué)科、新興領(lǐng)域的專家評價而言,必須在一定程度上考慮同行評議等主觀評價以及綜合考慮專家個人對于畫像結(jié)果的評價。
大數(shù)據(jù)環(huán)境下,專家畫像技術(shù)對數(shù)據(jù)質(zhì)量的要求不但沒有降低反而提高了。錯誤的專家信息數(shù)據(jù)可能對其畫像結(jié)果產(chǎn)生災(zāi)難性影響,因此在開展專家畫像技術(shù)應(yīng)用時必須充分驗證數(shù)據(jù)質(zhì)量,提供可信與高質(zhì)量的分析數(shù)據(jù)。雖然科技管理大數(shù)據(jù)平臺中隱私及涉密信息較少,但是對外發(fā)布的專家畫像仍然可能泄露一些個人信息。必須從源頭入手,在建設(shè)科技管理大數(shù)據(jù)平臺時,就注意隱私及涉密信息保護;并且在提供專家畫像時,要對結(jié)果再次審核涉密及隱私信息泄漏問題。
專家畫像是大數(shù)據(jù)環(huán)境下科技管理過程中的重要應(yīng)用。雖然專家畫像是由用戶畫像演化而來,但無論是分析對象、數(shù)據(jù)基礎(chǔ)、應(yīng)用領(lǐng)域還是時效要求,兩者均存在一定不同。不能簡單地將用戶畫像技術(shù)套用在專家畫像中,需要針對大數(shù)據(jù)背景下的科技管理實踐需求,對專家畫像開展系統(tǒng)理論的研究。本文提出了將專家畫像應(yīng)用于科技管理大數(shù)據(jù)中的幾點啟發(fā)式建議,期待在省級科技管理信息系統(tǒng)建設(shè)中開展相關(guān)實踐,為專家畫像在科技管理中的有效應(yīng)用做出有益嘗試。