薛培軍,潘 宋
(鄭州職業(yè)技術(shù)學院,河南 鄭州 450121)
當前關(guān)于高校科研管理的研究主要分為以激勵手段和激勵方法為主、以科研人員(教師)為主、以科研獎懲機制為主等幾個方面。以激勵手段和激勵方法為主的研究主要是從不同的視角提出科研獎懲機制措施方面展開。孫桃[1]探討了內(nèi)、外兩方面激勵因素對科研人員的科研績效的影響,并指出薪酬和創(chuàng)新是影響科研績效的重要激勵因素。張和平[2]認為高校薪酬水平及當?shù)匦匠曩徺I力對高校教師的科研生產(chǎn)力具有顯著影響。以科研人員(教師)為主的研究主要是以人為主體。張海[3]呼吁為加強對高??蒲腥藛T人文關(guān)懷,為高校科研人員創(chuàng)造良好的科研環(huán)境、科研數(shù)據(jù)規(guī)范化和標準化。熊立[4]通過調(diào)研大量高??蒲腥藛T的各方面信息,得出科研人員的科研績效受到工作沉浸感的顯著影響。劉宇文[5]認為目前高??蒲型獠开剳蜋C制缺乏創(chuàng)新是高校教師缺乏科研激情的主要原因之一。史冬波[6]以多起學術(shù)不端事件為案例進行分析,得出了科研不端行為很大程度上受到激勵誘惑與獎懲機制不對稱的影響。
現(xiàn)有研究對當前高??蒲泄芾淼陌l(fā)展和趨勢涉及較少,本文從主題模型的角度出發(fā),研究高校科研管理的發(fā)展主題,從總體上把握高??蒲泄芾淼难芯棵}絡(luò)和發(fā)展動向。
主題是由具有某領(lǐng)域特性的一系列專業(yè)術(shù)語組成,這些術(shù)語的組合能夠表征一個領(lǐng)域的研究內(nèi)容及研究方向。從學術(shù)期刊的角度來看,科研管理在其發(fā)展過程中的研究內(nèi)容變化,表現(xiàn)為其研究主題的變化。LDA(Latent Dirichlet Allocation,LDA)模型[7]是一種主題(topic)生成模型,是以文本—主題—詞語的三層貝葉斯結(jié)構(gòu)來實現(xiàn)文檔中主題及詞匯生成,能夠挖掘出龐大語料庫中隱含的主題信息[8]。LDA模型認為文檔由若干個主題以不同的概率組合而成,而主題是由若干個詞語以不同的概率組合而成。從主題模型的角度來講,每一篇文檔都是詞匯構(gòu)成,而詞匯由主題概率分布和詞匯概率分部聯(lián)合采樣得到,其數(shù)學描述為:
1.對于語料庫D中的每一篇文檔d,依據(jù)服從于Dirichlet分布原則采樣獲取文檔d中的主題分布θd,即θd~Dir(α);
2.對于在每一個主題,依據(jù)服從于Dirichlet分布原則采樣獲取主題z中的詞匯分布φz,即φz~Dir(β)。
3.根據(jù)主題分布θd獲得主題zd,j,再依據(jù)詞匯分布φz獲取詞匯wd,j
重復上述過程,即可獲得一篇文檔中的所有詞匯。其中,D代表原始語料庫,d代表第d篇文檔,θd是文檔-主題概率分布,φz是主題-詞匯概率分布,Dir(α)和Dir(β)代表先驗分布狄利克雷分布,α和β代表模型的超參數(shù),是手動設(shè)置的常數(shù),zi代表第d篇文檔的第j個主題,wd,j代表第d篇文檔的第j個詞匯。在整個過程中,θd和φz是隱含的參數(shù),一般采用吉布斯(Gibbs)采樣方法進行參數(shù)估算。Gibbs利用詞匯和主題之間的后驗概率,間接估算參數(shù)φ和θ的值。參數(shù)估算步驟如下:
1.將主題zi初始化為1到K之間的隨機整數(shù)。i從1遍歷到詞匯總數(shù)N。
2.迭代循環(huán)。i從1遍歷到N,并給詞匯賦予新的主題。
3.估算φ和θ值。分布收斂后,保存樣本,將zi的值作為訓練成熟的數(shù)據(jù)。w表示詞匯迭代一次的樣本,據(jù)此間接推斷φ和θ的值,公式如下:
(1)
(2)
本文以來自中國知網(wǎng)的關(guān)于高??蒲泄芾淼钠诳撐臄?shù)據(jù)作為LDA模型的原始語料庫,進而挖掘出潛藏在學術(shù)期刊中的研究主題。根據(jù)LDA模型的輸出結(jié)果,對比分析不同年份的主題強度及主題內(nèi)容的變化,從而梳理出高??蒲泄芾淼难芯棵}絡(luò)和趨勢。
以“高??蒲泄芾怼睘闄z索詞,收集中國知網(wǎng)數(shù)據(jù)庫的期刊論文數(shù)據(jù),時間跨度設(shè)置為2011—2020,在對檢索結(jié)果進行精煉和篩選后得到期刊論文2622篇。鑒于期刊論文的結(jié)構(gòu)性及文本內(nèi)容的復雜性,本文僅以對論文研究內(nèi)容具有強表征性的標題、摘要和關(guān)鍵詞作為原始數(shù)據(jù),并進行數(shù)據(jù)清洗。接著使用由Python編程的Jieba中文分詞工具對每一篇文檔進行分詞。以一年為一個時間窗口,將數(shù)據(jù)以文本文檔的形式分布到對應的時間窗中,文本中每一行詞語序列代表一篇論文的分詞結(jié)果。2011—2020年,我國高??蒲泄芾硌芯课墨I呈倒“U”形趨勢,自2015年峰值后下降明顯,研究力量有所減弱。各時間窗口的文檔數(shù)及詞匯數(shù)見表1。
表1 各時間窗口中文本集數(shù)據(jù)情況
在進行主題挖掘之前,需對LDA主題模型的參數(shù)進行設(shè)置。根據(jù)LDA模型應用中常用的設(shè)置,這里設(shè)置參數(shù)α=0.5,β=0.1,迭代次數(shù)item=1000。根據(jù)困惑度(Perplexity)評價函數(shù)確定了總文本集的最優(yōu)主題數(shù)為19。LDA模型腳本以Python語言編程,將處理后的期刊論文數(shù)據(jù)輸入到腳本中,得到2622篇期刊論文的文檔-主題概率分布矩陣和19個主題的主題-詞匯概率分布矩陣。通過對主題挖掘結(jié)果的分析與觀察,篩選掉6個無效主題。參照已有文獻[9]的主題命名方法,將保留的13個主題以其特征詞匯的含義歸納命名,并劃分為“管理主體”“科研主體”“科研載體”三大類,見表2。其中,“管理主體”類的主題內(nèi)容是關(guān)于高校的研究,包含高校、創(chuàng)新、制度、改革四個主題;“科研主體”類的主題內(nèi)容是關(guān)于科研人員的研究,主要包含績效、研究人員、激勵三個主題;“科研載體”類的主題內(nèi)容是關(guān)于科研的對象的研究,包含學術(shù)、系統(tǒng)、經(jīng)費、信息化、成果轉(zhuǎn)化、科研項目等主題。
表2 主題挖掘結(jié)果
主題強度演化展示了相關(guān)主題在學術(shù)期刊中的研究熱度,主題強度越大,則表明在當前時間段內(nèi)該主題的研究熱度越高。通過分析對比同一主題在時間軸上的主題強度變化,能夠動態(tài)把握該主題的研究情況,對分析主題的演化具有重要意義。主題挖掘結(jié)果中生成的文檔-主題概率分布矩陣,給出了所有主題的概率分布情況,反映主題對文本的貢獻度,亦即主題強度。本文采用的主題強度的計算方法[10]:
(3)
其中Q(Zt,k)表示當前時間片t中主題k的強度,θd,k表示在第d篇文檔中第k個主題的概率,Dt表示時間片t上的文檔數(shù)量。
結(jié)合表1中各年份的文檔數(shù)量及主題強度計算公式,可以計算出總文本集中的主題在各個時間片上的主題強度。三類主題在時間軸上的主題強度變化如圖1、圖2、圖3所示,研究顯示,我國高校科研管理主題隨高??蒲邪l(fā)展的要求發(fā)生承接和轉(zhuǎn)化。
圖1 “管理主體”類的主題強度變化
圖2 “科研主體”類的主題強度變化
圖3 “科研項載體”類的主題強度變化
由圖1可以看出,創(chuàng)新(Topic 3)和改革(Topic 13)的主題強度整體呈上升趨勢,說明在高校科研管理領(lǐng)域,研究科研管理創(chuàng)新和改革的熱度持續(xù)增高;另外,受2014年“大眾創(chuàng)業(yè),萬眾創(chuàng)新”的影響,兩個主題的強度都于2014年明顯的大幅度上升。機制(Topic 12)主題的強度值保持在一個中等水平上,波動較大且無規(guī)律,這說明管理機制一直是科研管理領(lǐng)域的研究主題,也是提高科研質(zhì)量和促進成果轉(zhuǎn)化的重要因素?!案咝!?Topic1)的主題強度整體呈下降趨勢,結(jié)合Topic 3和Topic 13的整體上升趨勢,說明在高??蒲泄芾眍I(lǐng)域,對高校本身的研究逐漸轉(zhuǎn)移到高校的創(chuàng)新和改革領(lǐng)域。
在圖2中,績效(Topic 9)的主題強度呈明顯上升趨勢,且強度值始終在保持一個較高的水平上,這說明在科研管理領(lǐng)域,對研究人員的績效評價一直是研究熱點,且研究熱度不斷上升,這也從側(cè)面說明了科研績效評價對科研人員的重要性。激勵(Topic 7)的主題強度在波動中上升,這表明學術(shù)界在不斷地探索管理學中的激勵手段和激勵機制對科研人員的積極作用,而近幾年的主題強度不斷上升且數(shù)值較高,說明激勵手段對提高科研人員的科研效率和成果質(zhì)量是具有正向作用的??蒲腥藛T(Topic 8)的主題強度波動不大,強度值也不高。三個主題的強度變化說明在高??蒲泄芾眍I(lǐng)域,對科研人員本身的研究一直是重點,但是研究熱度并不高,而對能夠提升科研人員水平的激勵措施和績效評價則是研究熱點。
在圖3中,經(jīng)費(Topic 5)的強度值呈緩慢上升趨勢,且強度值一直保持在較高水平上,這表明科研經(jīng)費一直是研究熱點,經(jīng)費支持是科研活動開展的基本支撐。成果轉(zhuǎn)化(Topic 10)的強度值呈現(xiàn)不斷提高的上升趨勢,表明了學術(shù)界對科研成果的轉(zhuǎn)化保持著較高的熱度,而強度值從2014年陡增,也進一步說明經(jīng)濟新常態(tài)下對成果轉(zhuǎn)化的高度重視和關(guān)注。Topic 2和Topic 11的強度值處于中間水平,且波動較小,說明了學術(shù)活動和項目是科研的根本,也始終是高??蒲泄芾淼臒狳c。 系統(tǒng)(Topic 4)和信息化(Topic 6)的主題強度變化不大且數(shù)值較低,學術(shù)界對科研項目的信息化和科研系統(tǒng)的關(guān)注度較低,而近年來的下降趨勢和較低的強度數(shù)值,再加上Topic 10強度值的持續(xù)走高,說明在兩方面的熱度正在逐漸冷卻,研究熱點轉(zhuǎn)移到了科研的成果轉(zhuǎn)化上。
主題內(nèi)容的演化必然表現(xiàn)為同一主題的特征詞匯在時間片上的變化,而相鄰時間片中具有演化關(guān)系的主題之間也必然會在內(nèi)容上表現(xiàn)出一定的相似性,因此可以通過計算相鄰時間片中主題內(nèi)容的相似性來確定主題之間的聯(lián)系,進一步分析主題內(nèi)容的演化。為了更好地展現(xiàn)主體內(nèi)容的動態(tài)變化,對表1中各個時間窗口的文本集單獨進行主題挖掘,得到各階段的主題內(nèi)容,見表3。由于每一個主題都是由若干個主題特征詞構(gòu)成的詞向量,可以看成一篇文本,所以可以采用計算文本相似度的WE-cos方法[11]計算主題間的相似度。根據(jù)相似度計算的實際情況,設(shè)定當主題相似度大于0.8時,認為主體間存在演化關(guān)系,反之則認為主題間無關(guān)聯(lián)。根據(jù)演化規(guī)則繪制出主題內(nèi)容演化路徑,如圖4所示。圖中橫軸代表時間窗口變化,縱軸代表主題,各時間窗口主題間的箭頭代表主題的繼承關(guān)系。
表3 2011—2020主題挖掘結(jié)果
圖4 主題內(nèi)容演化路徑
結(jié)合圖4及各個主題的特征詞匯變化,對主題內(nèi)容的演化做出如下分析。
1.在“管理主體”類別中,研究熱點由對高校本身的關(guān)注逐漸轉(zhuǎn)變?yōu)閷蒲姓呒蔼剳蜋C制的研究,又進一步向機制的創(chuàng)新、改革方向演化。2011年主題1、主題5、主題6和主題9 都是關(guān)于管理主體類的主題。2011年的主題1逐漸演化為2012年的主題4、2013年的主題4,到2016年的主題11,最終到2020年的主題11,特征詞也經(jīng)歷了管理、系統(tǒng)化、體系、控制、完善、機制等的演變過程;2011年主題5向下演變?yōu)榱?012年的主題1、2013年的主題5,然后主題中斷,表明主題的研究熱度大幅降低,其特征詞也經(jīng)歷了高校、行政、保障等的變化過程。
2.在“科研主體”的類別中,對科研人員的研究由評級指標、科研服務(wù)逐漸變?yōu)殛P(guān)注科研人員的情感思想、科研團隊的協(xié)同效應,又進一步演化為對科研人員的激勵和績效評價。2011年的主題8是關(guān)于考核指標內(nèi)容的主題,隨著時間推移,逐漸演化為2012年的主題2、2013年的主題7,到2015年的主8和主題9,最終到2020年的主題7,主題特征詞匯也經(jīng)歷了指標、控制、思想、績效等內(nèi)容的演變。
3.在“科研載體”類別中,對科研項目的研究重點由經(jīng)費預算和科研數(shù)據(jù)逐漸轉(zhuǎn)移到項目經(jīng)費使用機制、項目科技含量,又進一步的演化為科研項目的創(chuàng)新、科研成果轉(zhuǎn)化等方面。2011年的主題4逐漸轉(zhuǎn)變?yōu)?012年的主題5,2013年的主題3,到2016年的主題10,最終到2020年的主題3,主題詞也經(jīng)歷了數(shù)據(jù)、科技、設(shè)計、探索、創(chuàng)新等的演變。2013年的主題1是關(guān)于科研項目的內(nèi)容,隨著時間推移逐漸轉(zhuǎn)變?yōu)?014年的主題2,2015年的主題10,一直到2020年的主題6和主題8,主題特征詞匯也經(jīng)歷了申報、科學、成果、創(chuàng)新、轉(zhuǎn)化等的演變。
在管理主體方面,當前對高校的研究已經(jīng)有對高校本身的關(guān)注逐漸轉(zhuǎn)變?yōu)檠芯扛咝?蒲泄芾頇C制的創(chuàng)新和改革;在科研主體方面,由評級指標、科研服務(wù)過渡為關(guān)注科研人員的情感思想、科研團隊的協(xié)同效應,當前對科研人員的激勵和績效評價則變?yōu)闊狳c;在科研載體方面,學術(shù)和科研項目一直是科研活動的根本,科研經(jīng)費也始終貫穿著科研活動的全過程,而科研成果轉(zhuǎn)化則成為當前研究的大熱點。
在高??蒲泄芾碇?,應注重高校、科研人員和科研載體的綜合管理。在機制上注重創(chuàng)新性改革,提高成果轉(zhuǎn)化率在績效考核和激勵機制中的權(quán)重,要尊重科研人員的情感和實際情況,采取更加科學的績效考核,以及有針對性的激勵手段和措施,注重科研經(jīng)費的精細化管控,建立起綜合的、多主體的科研管理新機制,以更好地提高高??蒲械馁|(zhì)量和水平。