方 寶
(廣西中醫(yī)藥大學, 廣西 南寧 530200)
當前,世界各國特別是發(fā)達國家都十分重視對大學教師科研業(yè)績的評價,并制定了科學、系統(tǒng)的評價指標體系和方法。早在上個世紀20年代,國外就有了對科研業(yè)績評價方面的專門研究,近幾十年來其研究的重點主要集中在量化評價技術與方法、同行評議機制、科研影響力評價等方面,并研發(fā)了諸多定量、定性或定量與定性相結合的評價技術和方法??傮w上,而以文獻計量法為主要形式的定量評價與以同行評議為主的定性評價之間的優(yōu)劣論爭、科學性論辯及實證檢驗等始終是其研究的重點內容之一。
文獻計量學是綜合應用數(shù)學、統(tǒng)計學和文獻學知識體系和方法來定量地分析一切知識載體的交叉科學。自文獻計量學誕生以來,國外對科研量化評價方法的研究熱情持續(xù)高漲,并取得較為豐碩的成果。
在量化評價研究方面,數(shù)據(jù)包絡分析方法(Data Envelopment Analysis, DEA)是其中研究比較多、技術相對成熟的一種方法。DEA方法和模型是由美國著名學者Charnes和Cooper于1978年提出。它是根據(jù)多個方面的多項投入與產出指標,在線性規(guī)劃方法基礎上,對相同類型具有可比性的單位進行有效性評價的一種定量分析方法。DEA方法在處理多指標的復雜問題上具有絕對優(yōu)勢,因此被廣泛應用于多個領域,并擁有較多的使用者。為了避免評價者對科研產出維度的傾向性影響其評價結果的客觀性,Witte和Rogge對傳統(tǒng)評價中的非參數(shù)DEA模型加以修改,構制出一種可以集結多維度科研產出的評價方法[1]。與傳統(tǒng)方法相比,這種方法更具靈活性,可以減少由測量失誤和干擾因素所帶來的影響。
2005年,美國加利福尼亞大學圣地亞哥分校的物理學家希爾施(Hirsch)提出了H指數(shù)法[2]。該方法通過一個數(shù)字來展示有關研究者所發(fā)表成果的業(yè)績與影響力的信息(H代表的是研究者個人所有發(fā)表的成果中被引用次數(shù)最少成果的引用次數(shù))。H指數(shù)一經提出后,就引起不少學者的興趣,其中最具影響力的代表性學者是Bornmann和Daniel[3]。Costas和Bordons則對H指數(shù)法應用于科研評價中的優(yōu)勢、不足以及其在宏觀層面上與其他文獻計量指數(shù)的關聯(lián)等方面進行研究[4]。直至今日,學者們對H指數(shù)法的相關研究依然興趣盎然,比如De Andre’s使用H指數(shù)法對不同科研領域評價結果的差異性進行研究[5],一些學者還從統(tǒng)計學的角度對H指數(shù)法進行探究。
論文或學術觀點被引證,可以在一定程度上說明論文的質量,但是能否認為被引證最多的論文,其質量就是最好的呢?為了進一步回答這個問題,Coupé對經濟學和金融學期刊每年根據(jù)其領域內所發(fā)表的文章質量評選出的“最佳論文獎”論文進行了一個實證研究[6]。其研究表明,獲得“最佳論文獎”的論文很少是被引證最多的論文,其中只有少量論文的被引率高于獲得“次佳論文獎”的論文。此外,為了更好地理解論文引證數(shù)計算到底能在多大程度上說明什么問題,Bornmann和Daniel對學者們的論文引證行為進行了文獻綜述研究[7]。Pendlebury則對期刊評價模型與引證指標的使用與誤用問題進行探討[8]。Leydesdorff和Bornmann對通過論文引證次數(shù)計算來確定期刊影響因子的做法,對不同研究領域期刊影響因子的不同影響程度等問題進行研究[9]。Bornmann則對近幾年來應用引證影響力來對科研機構進行科研評價所存在的一些問題進行分析[10]。
一些研究表明,在宏觀層面(國家、科研機構)硬科學科研評價的實踐中,文獻計量方法比同行評議方法更具優(yōu)勢。比如,Abramo等人的研究發(fā)現(xiàn),同行評議的結果與幾乎不花費任何成本、依據(jù)直接關聯(lián)業(yè)績指標或從網絡上獲取的指標進行文獻計量分析的排名結果,具有相當?shù)囊恢滦曰蛲|性[11]。量化評價具有的諸多優(yōu)勢使人們對量化評價的熱情有增無減,但量化評價所存在的一些弊端及其改進研究也引發(fā)了學者們的較多關注。
文獻計量方法存在的缺陷是其對科研業(yè)績的評價只是一種概率性判定,而不是傳統(tǒng)方法上的絕對性判定。為了對此加以改進,Abramo等人通過研究提出了一個“多變量隨機模式”(Multivariate Stochastic Model)的個人科研業(yè)績評價方式,并將基于這一方式的評價結果與傳統(tǒng)的絕對性評判的評價結果進行比較[12]。他們的研究結果表明“多變量隨機模式”在實際的操作中可以成為替代傳統(tǒng)的絕對性評判模型的有效評價方式。同時,這種方式可以有效彌補文獻計量指標方法所具有的受高隨機變量較大影響的不足。
通過專家組來對科研團隊進行評價是很常見的事情。然而全國性評價、地方性評價等不同體系之下的評價方法,以及為滿足一個國家、地區(qū)或者機構管理需求評價方法之間的觀念差異巨大,其給專家提供的借以評價信息的質量也差異巨大。然而已有的相關研究大多數(shù)集中于分析評價分數(shù)與文獻計量指標之間的關聯(lián)性,很少有文章對信息提供的質量問題進行研究。因此,Engels等人建立了一個可以解釋科研團隊質量和科研產出評價的累計邏輯回歸模型(Cumulative Logistic Regressionmodels)。該模型認為,團隊科研質量和產出的預測因素是團隊大小、團隊領袖的H指數(shù)以及團隊在頂級刊物上發(fā)表論文的效率[13]。
現(xiàn)實中,很多論文都探討如何科學地評價大學教師的科研產出,進而用于教師的職務晉升和終身教職的任命;也有很多論文研究如何對市面上所存在的學術期刊進行排名的問題。然而,對于如何更好地將期刊質量、數(shù)量和作者的貢獻結合起來判斷一個教師的科研業(yè)績,人們仍然是不清楚的。對此,Bacon等人提出了一個識別研究標準和進行科研業(yè)績評價的新工具[14]。其對一所大學進行的實證研究結果表明,他們所提出的一個評價教師個體科研產出的數(shù)學模型與實際上的教師科研評價結果有驚人的相似性。他們希望通過對這個模式的應用來提高評價的清晰度和客觀性。
教師科研業(yè)績的評價模型繁多,但不同模型的適切性與側重性相對單一。為了提高模型的適用范圍,Moed提出了多維度科研評價模型(Multidimensional ResearchAssessment Matrix),并系統(tǒng)介紹如何應用多維度科研評價模型來對科研產出進行評價[15]。該評價模型的提出是基于這樣的一個基本理念:在評價過程中對模型的選擇取決于評價的單元、評價的維度、評價的目的與政策環(huán)境。不同的評價指標與評價模型各有其長短處,因此作者提出了10個適用于不同評價對象的重要評價模型。這些模型分別代表了10種不同的科研影響力維度,每一種模型各自適用于測量相應的不同維度。
雖然國外學者對定量評價方法的研究日益深入,一些定量研究方法和技術也日臻成熟,但是定量評價遠不是完美的科研評價方式。從實踐層面分析,定量和定性評價方法各有優(yōu)劣,分別適用于不同的測量情境和評價目的。
在科研業(yè)績評價實踐過程中,隨著定量評價方式弊端的日益暴露,與之相對應的以“同行評議”為主的定性評價方式日漸受到學者的關注。目前,同行評議方法依然是獲得最廣泛認可、最通行的一種科研業(yè)績評價方法。歷史上,以同行評議方式為主的質性評價一直占據(jù)主體,比如VTR、DEST、RAE、PBRF、NRC等一些高級別的重要科研評價活動都是以同行評議為主要方式。雖然越來越多的學者傾向于采用“混合方法”進行評價,比如采用在文獻計量方法基礎上進行“知情同行評議”(Informed PeerReview)的混合方法,但是同行評議在各國的高級別科研評價中一直占據(jù)主導地位。
盡管同行評議方式得到廣泛應用和認可,但是這一科研評價方法,事實上依然存在著一系列尚未解決的問題,特別是評價過程中的各種主觀性問題。Garcia-Aracil等人的研究結果表明,同行評議的評價結果并沒有我們所想像的那么客觀[16],其客觀性至少受以下兩個方面的較大影響:一是同行評議的有效性受指標選擇的影響較大。Abramo等人指出科研成果的范疇,不同國家各不相同。雖然各種評價維度設置都體現(xiàn)了與科研機構研究人員相對應的業(yè)績數(shù)量指標[17],然而不同專業(yè)之間科研產出差異巨大,這意味著同行評議中所列出的不同學科的代表性成果系列也是不同的,其對評價結果的影響則是非常明顯的。二是同行評議的有效性受評議者認知差距的影響較大。Wang和Sandstrom對同行評議過程中的認知距離進行研究[18],其研究結果表明,申請者與評議者之間的認知距離會對同行評議結果產生負面影響。
鑒于同行評議所存在的費時低效等問題,一些學者在嘗試性地探索能否應用量化評價方式來代替或部分代替同行評議的評價過程。Taylor研究在多大程度上由同行評議方式決定的結果可以被一系列的定量指標所替代[19]。其研究結果支持在科研評價過程中對量化指標的應用。在同行評議過程中,要求專家們對文獻計量指標的應用還可以進一步改善評議專家所可能存在的內隱偏見問題。與此同時,一些研究者則對同行評議機制所存在的不足進行改進性研究。比如Reale等人對“同行評議”的信度控制問題進行實證研究[20],Reinhart則對提高同行評議的透明度、可理解度和可信度進行研究[21]。近年來,雖然量化評價方式得到廣泛應用,但是同行評議作為傳統(tǒng)科研評價方式還將會繼續(xù)發(fā)揮重要作用,但對同行評議方式的改進性研究或將量化評價融合于同行評議過程的評價研究,將會引起更多學者的關注。
目前,學者們普遍認為,同行評議與量化評價這兩種評價模式各有利弊。一些學者認為文獻計量法的評價過程便捷,評價結果更為客觀和便于應用[15],而“同行評議”的判定結果往往更具主觀性和偶然性[22],而且這種評價方式需要花費更多的時間、人力和經費[23]。也有學者認為“同行評議”能更好地考慮到科研成果的復雜性和多樣性[24]。因此毫無疑問,量化評價與同行評議各自的先天優(yōu)勢與不足,使其各自適應不同的評價目的與語境需要。那么,量化評價或同行評議的結果是否具有關聯(lián)性?兩者的評價結果在多大程度上能達成一致?為此,Aksnes和Taxt對文獻計量指標評價和同行評議評價結果之間的關系進行研究。他們通過對挪威卑爾根大學科研團隊進行個案研究,發(fā)現(xiàn)了不同的文獻計量指標評價與專家委員會評價結果之間存在正相關性,但是關聯(lián)度比較弱[25]。通過進一步研究,他們發(fā)現(xiàn)同行評價的劣勢、文獻計量指標評價的不足以及兩者之間可比性缺乏是導致其評價結果關聯(lián)度不強的主要原因。然而,也有不少的研究發(fā)現(xiàn),對于大規(guī)模的科研評價活動而言,同行評議與量化評價可以產生相似的結果。
從本質上而言,量化評價與同行評議背后體現(xiàn)的是技術理性與價值理性取向的分立。同行評議與量化評價方法分別是教師科研業(yè)績考評過程中價值理性取向與工具理性取向的典型代表。韋伯和霍克海默的理性理論認為,工具理性講求的是效率優(yōu)先的原則,對其而言最重要的問題就是如何能夠以最有效的手段和途徑實現(xiàn)預想的目的,而非目的本身的合理性。社會的發(fā)展總是要以工具理性為其提供物質基礎,因此工具理性本身并無問題。而當下,大學教師科研業(yè)績考評過程中,工具理性盛行的一個重要根源在于在學術評價發(fā)展進程中,以價值理性為主導考評方法的弊端日益凸顯。比如上個世紀70、80年代以來實行的“同行評議”制度受到誤用并引發(fā)了連鎖反應,使得后人越來越反感“同行評議”的評價方式。因此,在糾偏的過程中,工具理性導向彰顯出其優(yōu)越的一面,并日益取代價值理性導向,成為主流的評價取向。然而,隨著工具理性一些弊端的日益凸顯,同時由于工具理性的過度膨脹以及被誤用所引發(fā)的一系列問題,導致了人們對工具理性產生了一定的抵制情緒??傮w上,導致評價方法應用上反復變遷問題的根本原因在于,人們普遍認為工具理性與價值理性是截然分開和相互對立的,但事實上純粹的毫無相互關涉的工具理性或價值理性是不存在的。就其功能和適切性而言,工具理性與價值理性各有其優(yōu)勢與不足。在教師科研業(yè)績考評中,必須充分發(fā)揮各自的優(yōu)勢,并協(xié)調好兩者的關系,促進兩者的融合。