• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于互逆強(qiáng)化模型和數(shù)理統(tǒng)計(jì)方法分析專家評(píng)分偏差問題與建議

      2020-10-30 00:53:16田林琳孫維東張弛郭明韋納都
      關(guān)鍵詞:總體偏差課題

      田林琳 孫維東 張弛 郭明 韋納都

      0 引言

      作為引領(lǐng)科技發(fā)展的主要抓手之一,高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)為提升中國整體科技實(shí)力和創(chuàng)新能力發(fā)揮了重要作用.“十二五”期間,863計(jì)劃重點(diǎn)支持了先進(jìn)制造、現(xiàn)代農(nóng)業(yè)、海洋、地球觀測與導(dǎo)航、生物和醫(yī)藥等技術(shù)領(lǐng)域中的前沿、關(guān)鍵、共性技術(shù)突破與核心技術(shù)產(chǎn)品及系統(tǒng)研發(fā).眾所周知的北斗羲和系統(tǒng)[1]、國際大科學(xué)工程——平方公里陣列射電望遠(yuǎn)鏡(SKA)[2]等均受到其資助.該計(jì)劃兼顧高科技發(fā)展和產(chǎn)業(yè)化應(yīng)用,因而其不同技術(shù)領(lǐng)域均在一定程度上表現(xiàn)出研究范疇跨度大、技術(shù)縱深鏈路長、項(xiàng)目課題類別多的特色.

      從科技計(jì)劃管理角度出發(fā),如何評(píng)估數(shù)以億計(jì)的經(jīng)費(fèi)投入帶來的產(chǎn)出價(jià)值是一個(gè)關(guān)鍵問題.對此,技術(shù)驗(yàn)收專家組的整體評(píng)價(jià)往往在實(shí)踐中起著主導(dǎo)作用.而具備類似上述特色的科技計(jì)劃涉及范疇廣度、深度俱足,對驗(yàn)收專家的綜合能力提出了嚴(yán)格要求.特別是在部分課題屬基礎(chǔ)研究、前沿探索類的情況下,其不確定性使課題成果和潛在價(jià)值難以客觀衡量,既增加了專家評(píng)分難度,又令不同類型課題間的評(píng)分難以橫向比較.因此,利用評(píng)分?jǐn)?shù)據(jù)分析專家偏差,幫助科研管理人員評(píng)估專家評(píng)審能力,可以為了解領(lǐng)域創(chuàng)新成果和課題實(shí)施成效的評(píng)審信度與效度,以及更好地把握技術(shù)領(lǐng)域發(fā)展現(xiàn)狀提供重要參考.

      評(píng)審活動(dòng)受到專業(yè)因素(如評(píng)分人是否充分了解參評(píng)對象屬性)、心理因素(如評(píng)分人是否對參評(píng)對象心懷同情)、外部因素(如評(píng)分人是否與參評(píng)對象有利害關(guān)系)等多方面影響,因而評(píng)分偏差分析既是科研管理人員的關(guān)注焦點(diǎn),也是心理學(xué)、應(yīng)用數(shù)學(xué)和信息科學(xué)等學(xué)科的研究對象.20世紀(jì)末已有學(xué)者關(guān)注到地域科研實(shí)力評(píng)價(jià)中的偏差問題[3].隨后,一些科研管理人員對國家重點(diǎn)實(shí)驗(yàn)室評(píng)估偏差進(jìn)行了分析,如謝煥瑛等從來源和成因上歸納了6種影響專家評(píng)分的效應(yīng)[4]和4類偏差[5],張健等給出了應(yīng)對潛在不公平評(píng)估的策略[6],楊曉秋梳理了實(shí)驗(yàn)室評(píng)估中的若干偏差問題[7],重點(diǎn)指出應(yīng)增加專家培訓(xùn)力度使其更好地內(nèi)化評(píng)估規(guī)則.這些研究主要是定性總結(jié)偏差成因和表現(xiàn),但少有給出具體的定量分析方法.由于評(píng)委評(píng)分易受評(píng)分人經(jīng)驗(yàn)知識(shí)、思考方式、人格特征等影響[8],心理測量學(xué)領(lǐng)域?qū)υu(píng)分偏差定量分析有很大興趣,所用理論呈現(xiàn)出從經(jīng)典測量理論[9]、概化理論[10]到現(xiàn)代測量學(xué)中的項(xiàng)目反應(yīng)理論[8]的過渡.如著名的多面Rasch模型可用于評(píng)估項(xiàng)目難度、評(píng)委寬嚴(yán)程度、考生能力等參數(shù)及其交互關(guān)系,在結(jié)構(gòu)化面試[11]、教育教學(xué)能力測試[10]、英語聽說考試[12]等方面均有應(yīng)用.但上述理論過于復(fù)雜,模型需較好的先驗(yàn)初始值進(jìn)行迭代求解,且還可能出現(xiàn)不收斂現(xiàn)象[13].忽略專業(yè)背景差異,專家評(píng)分與網(wǎng)購評(píng)分、書評(píng)影評(píng)評(píng)級(jí)等在形式上并無區(qū)別.隨著互聯(lián)網(wǎng)4.0時(shí)代到來,應(yīng)用數(shù)學(xué)與信息科學(xué)學(xué)者聚焦于網(wǎng)絡(luò)社區(qū)用戶評(píng)分偏差和異常分檢測,從數(shù)學(xué)和算法層面建立了評(píng)分評(píng)估模型與指標(biāo),同樣可用于專家評(píng)分偏差分析.如Lauw等基于強(qiáng)化模型給出了衡量評(píng)分人偏差和參評(píng)對象爭議性的兩個(gè)指標(biāo)[14],Dai等利用評(píng)分人和參評(píng)對象間的正面、負(fù)面效應(yīng)建立二部圖以檢測行為異常的評(píng)分人[15],文獻(xiàn)[16-17]則致力于面向眾包系統(tǒng)構(gòu)建評(píng)價(jià)體系和搜索高爭議性參評(píng)對象.但需注意此方面研究更多是側(cè)重于甄別異常用戶以識(shí)別惡意或虛假評(píng)價(jià).當(dāng)然,也有少數(shù)專門面向評(píng)委評(píng)分偏差的研究,如呂書龍等利用假設(shè)檢驗(yàn)等數(shù)學(xué)思想建立評(píng)分控制和偏差吻合模型[18],而文獻(xiàn)[19]則基于投影尋蹤構(gòu)建評(píng)委綜合評(píng)價(jià)模型.

      考慮到心理學(xué)中相關(guān)理論限制較大,本文僅以數(shù)學(xué)和信息科學(xué)中的互逆強(qiáng)化模型和數(shù)理統(tǒng)計(jì)方法為技術(shù)手段,以863計(jì)劃某技術(shù)領(lǐng)域課題驗(yàn)收為典型案例,對“十二五”期間863計(jì)劃的評(píng)審專家評(píng)分偏差進(jìn)行初步的定量探索.此項(xiàng)研究是對現(xiàn)階段科研管理中專家偏差分析研究的完善與延伸,可助力精細(xì)化規(guī)范評(píng)審行為和后續(xù)專家遴選.據(jù)筆者所知,這是首次面向863計(jì)劃等國家科技計(jì)劃的專家分析工作.

      1 偏差分析數(shù)據(jù)用例

      863計(jì)劃旨在面向經(jīng)濟(jì)社會(huì)發(fā)展需求加強(qiáng)技術(shù)研發(fā)和應(yīng)用,同時(shí)也面向國際前沿和國家未來重大需求開展一定的前沿理論與技術(shù)探索,具有多學(xué)科交叉和兼顧研發(fā)與探索的特點(diǎn).因此,其下設(shè)項(xiàng)目、課題的驗(yàn)收評(píng)審?fù)纫髮<医M研發(fā)與集成經(jīng)驗(yàn)豐富,又要求在領(lǐng)域前沿發(fā)展態(tài)勢上具有敏銳的嗅覺.本文將“十二五”863計(jì)劃某技術(shù)領(lǐng)域的課題驗(yàn)收評(píng)分作為偏差分析數(shù)據(jù),一來便于科研管理人員將本文方法遷移用至其他技術(shù)領(lǐng)域;二來在科技體制改革后863計(jì)劃被延伸融入到國家重點(diǎn)研發(fā)計(jì)劃,兩個(gè)計(jì)劃間專家遴選范圍重疊度較高,所得經(jīng)驗(yàn)和結(jié)論可直接用在重點(diǎn)研發(fā)計(jì)劃相應(yīng)領(lǐng)域的重點(diǎn)專項(xiàng)中,幫助遴選合適的評(píng)審專家開展綜合績效評(píng)價(jià)工作.所用數(shù)據(jù)包含該領(lǐng)域全部專家評(píng)分,但由于項(xiàng)目數(shù)量較少且評(píng)價(jià)采用等級(jí)制,課題數(shù)量較多且評(píng)價(jià)采用百分制,后文對項(xiàng)目評(píng)級(jí)情況不做討論.?dāng)?shù)據(jù)具體由252位專家對157個(gè)課題的1 135次評(píng)分組成,課題平均收到7.2個(gè)評(píng)分,專家人均評(píng)分4.5次,統(tǒng)計(jì)信息如圖1所示.

      課題接收評(píng)分頻數(shù)圖中可見各課題得分?jǐn)?shù)量基本能保證分?jǐn)?shù)均值、方差等統(tǒng)計(jì)信息的有效性.但對于專家給出評(píng)分的頻數(shù)有兩點(diǎn)說明:

      1)863計(jì)劃各技術(shù)領(lǐng)域均設(shè)有領(lǐng)域?qū)<医M,負(fù)責(zé)全周期跟蹤項(xiàng)目及課題進(jìn)展,從而能夠較為完善地評(píng)價(jià)項(xiàng)目、課題完成水平,所以驗(yàn)收專家組一般由1~2位熟悉相應(yīng)執(zhí)行情況的領(lǐng)域?qū)<医M成員和同行專家共同組成.從專家給出評(píng)分頻數(shù)圖可知,隨著評(píng)分次數(shù)增加,人數(shù)快速下降,自左到右從同行專家居多轉(zhuǎn)為領(lǐng)域?qū)<医M專家居多.

      2)對于評(píng)分次數(shù)較少的專家難以確保其評(píng)分信息有效性,下文研究僅聚焦于至少有5次評(píng)分的74位專家.雖然無法分析剩余專家評(píng)分,但這些專家給出的分?jǐn)?shù)仍然有助于課題評(píng)價(jià),在對課題情況開展分析時(shí)仍將使用全部專家評(píng)分?jǐn)?shù)據(jù).

      2 評(píng)分偏差評(píng)估模型與指標(biāo)

      2.1 評(píng)分偏差成因與類型

      近十幾年來,不同科研管理人員根據(jù)各自經(jīng)驗(yàn)總結(jié)了科研活動(dòng)中的評(píng)分偏差成因與類型.表1列出了其中比較有代表性的看法,從中不難發(fā)現(xiàn):

      表1 科研評(píng)分偏差典型成因與類型Table 1 Typical causes and types of scientific research score bias

      1)系統(tǒng)內(nèi)、外因素來自專家和課題之外,超出了本文范疇;偶然偏差較小且屬于量化評(píng)分中必然出現(xiàn)的正常偏差[5];同行偏好偏差、非共識(shí)偏差源自同行偏好效應(yīng)和非共識(shí)效應(yīng),可以一并討論.故下文不再展開這些內(nèi)容.

      2)慣性思維、學(xué)術(shù)權(quán)威和個(gè)人偏好效應(yīng)難以僅憑評(píng)分?jǐn)?shù)據(jù)進(jìn)行分析.不過遴選同行專家的回避原則顯著降低了專家與課題間的關(guān)聯(lián)性,一定程度上避免了其影響.此外,前兩者在驗(yàn)收評(píng)審中未必會(huì)增加偏差:由于長期跟蹤課題,慣性思維使領(lǐng)域?qū)<医M成員評(píng)分更可靠;專家的權(quán)威性反映了其卓越的專業(yè)素養(yǎng)和眼光,權(quán)威效應(yīng)也可能縮小偏差.

      3)同行偏好屬于普遍性偏好,對絕大部分專家的作用是均衡的[5],對于課題間評(píng)分的相對影響不大.

      4)各課題驗(yàn)收專家均為相關(guān)方向資深同行且符合回避原則,不能了解參評(píng)課題及同課題間存在好惡關(guān)系的可能較低,但部分課題的前沿性和探索性增加了量化評(píng)價(jià)難度,可見驗(yàn)收評(píng)審中的非共識(shí)效應(yīng)由課題不確定性主導(dǎo).為明確這一點(diǎn),以下將因不確定性引起的非共識(shí)偏差歸于課題而非專家,并稱之為爭議性偏差[14,17].

      5)因個(gè)人習(xí)慣導(dǎo)致評(píng)分尺度不同,從而產(chǎn)生或偏高或偏低的系統(tǒng)性差異,所以系統(tǒng)偏差和嚴(yán)厲度偏差非常相似.另外,同情心理是形成個(gè)人評(píng)分習(xí)慣的潛在心理因素,該效應(yīng)令專家傾向于高估課題分?jǐn)?shù).因此,本文將同情心理效應(yīng)引起的偏差歸于上述偏差,并將其統(tǒng)稱為專家固有偏差.

      6)評(píng)審活動(dòng)中無法知悉體現(xiàn)課題完成情況的真實(shí)分?jǐn)?shù),但合理的假設(shè)是多數(shù)課題評(píng)分或其均值是較為客觀和接近真實(shí)值的,所以在評(píng)價(jià)專家評(píng)分能力時(shí)實(shí)質(zhì)上往往是綜合參考對同一課題的其他專家評(píng)分進(jìn)行判斷,也即暗含了對一致性偏差的考察.

      綜合以上分析可知:課題爭議性干擾了專家評(píng)分準(zhǔn)確性,需在評(píng)估專家偏差時(shí)降低其影響;與其他專家評(píng)分的一致性體現(xiàn)在評(píng)估專家總體偏差的過程中;固有偏差代表了專家間評(píng)分松緊尺度的不同標(biāo)準(zhǔn);除系統(tǒng)內(nèi)、外因素和偶然偏差等不在本文范疇或可忽略的因素之外,個(gè)人偏好等因素既難以通過評(píng)分?jǐn)?shù)據(jù)辨別,在課題評(píng)分中又僅對個(gè)別專家產(chǎn)生較大影響,本文將它們引發(fā)的極端評(píng)分不加區(qū)別,統(tǒng)一歸于異常評(píng)分.綜上,下文將結(jié)合評(píng)分一致性和課題爭議性兩方面建立專家總體偏差評(píng)估模型,并利用兩個(gè)假設(shè)檢驗(yàn)方法實(shí)現(xiàn)對異常評(píng)分和固有偏差的檢測,以此開展專家評(píng)分偏差分析工作.

      2.2 基于互逆強(qiáng)化的總體偏差評(píng)估模型

      設(shè)有n個(gè)專家參與m個(gè)課題的評(píng)分工作,目標(biāo)是評(píng)估各專家的總體評(píng)分偏差.若已知全部評(píng)分的真實(shí)偏差,經(jīng)簡單聚合操作就可以得到專家總體偏差,如用均值作為第i個(gè)專家的總體偏差:

      (1)

      (2)

      此時(shí)問題轉(zhuǎn)為如何衡量課題爭議程度.爭議度是引發(fā)專家間出現(xiàn)非共識(shí)和意見發(fā)散的能力,最直觀的衡量方法就是對此課題接收的全部評(píng)分求偏差均值.但同樣要考慮參評(píng)專家的評(píng)分能力,因此令課題爭議度為

      (3)

      式(2)和(3)說明了專家偏差和課題爭議度的相互依賴,爭議度影響著專家偏差,專家偏差又反過來影響爭議度,二者聯(lián)合構(gòu)成了互逆強(qiáng)化模型[14].如果把專家和課題視作頂點(diǎn),把評(píng)分視為頂點(diǎn)間連邊的權(quán)重,上述問題將轉(zhuǎn)為常用于社區(qū)網(wǎng)絡(luò)信息挖掘的特殊二部圖[20].本文定義i對j的評(píng)分偏差為i的評(píng)分與其他專家對j的評(píng)分之差的絕對值平均,有

      (4)

      式(4)中eij為i給j的分?jǐn)?shù),nj為給課題j評(píng)分的專家數(shù),在驗(yàn)收評(píng)審中nj必然大于1,故式中分母必為正整數(shù).

      B=K(1m-C),

      (5)

      C=LT(1n-B),

      (6)

      式(5)、(6)中的1分別表示長度為m和n的全1列向量,K和L為n×m大小的矩陣且i行j列元素分別為Kij=dij/mi和Lij=dij/nj.mi類似nj的定義,代表專家i評(píng)審的課題數(shù).上標(biāo)T表示矩陣轉(zhuǎn)置.

      互逆強(qiáng)化是全局性的動(dòng)態(tài)過程,因?yàn)樽儎?dòng)任何課題的爭議度估計(jì)值會(huì)影響給其評(píng)分的專家的偏差估計(jì),偏差估計(jì)值變化又會(huì)影響這些專家給予分?jǐn)?shù)的課題的爭議度估計(jì),形式上相似于概率圖模型[21]中的信念傳播機(jī)制[22].借鑒谷歌的PageRank排序算法[23],Berkhin等得到了B和C各自的自嵌套表達(dá)式,經(jīng)自迭代求解出B和C.然而,這一求解方式需滿足一定前提且在自迭代過程中要周期性規(guī)范化B和C.此外,筆者發(fā)現(xiàn)將自迭代得到的B代入式(6)計(jì)算出的C,與自迭代得到的C并不一致,反之將自迭代結(jié)果C代入式(5)也有相似的現(xiàn)象,這是與總體偏差和爭議度的相互依存關(guān)系相違背的.因此,本文采用互迭代方式進(jìn)行求解,即先在(0,1]區(qū)間隨機(jī)初始化B為B0并代入式(6)得到C為C1,再將C1代入式(5)更新B為B1,如此往復(fù)直至收斂.當(dāng)然,從初始化C開始互迭代可得到相同結(jié)果.以上方法雖然簡單但非常有效,可以證明互迭代過程同樣能收斂.證明如下:

      不妨設(shè)任意第k至k+2輪迭代中得到Bk,Bk+1和Bk+2,則有

      Bk+2-Bk+1=K(1m-Ck+1)-K(1m-Ck)=

      KLT(1n-Bk)-KLT(1n-Bk+1)=

      KLT(Bk+1-Bk)

      (7)

      收斂即要令Bk+2和Bk+1中對應(yīng)元素變化不大于Bk+1和Bk間變化,利用向量l2范數(shù)‖·‖2可等價(jià)轉(zhuǎn)換為滿足‖Bk+2-Bk+1‖2≤‖Bk+1-Bk‖2.引入變量Uk+1=(Bk+1-Bk)(Bk+1-Bk)T,有:

      tr(Uk+2)-tr(Uk+1)=

      tr(KLTUk+1LKT)-tr(Uk+1)=

      -tr((I-LKTKLT)Uk+1)=

      -tr(RUk+1),

      (8)

      其中tr(·)為矩陣的跡,I為單位矩陣,R=I-LKTKLT.

      1)Bk+1-Bk不為零向量:Uk+1相應(yīng)為對稱正定矩陣.存在可逆矩陣P和Q,使R=PTP和Uk+1=QTQ,則Q(RUk+1)Q-1=(PQT)TPQT,即RUk+1與(PQT)TPQT相似,二者的跡相等.顯然PQT可逆,從而知(PQT)TPQT是正定矩陣,其跡大于0.因此有tr(RUk+1)>0,故從式(8)易知‖Bk+2-Bk+1‖2≤‖Bk+1-Bk‖2成立.

      2)Bk+1-Bk為零向量:此時(shí)‖Bk+2-Bk+1‖2≤‖Bk+1-Bk‖2成立.

      綜上得證互迭代使B穩(wěn)定收斂,同理可證C的收斂性.實(shí)際上,只要B沒有恰好初始化為收斂解,B1-B0不會(huì)是零向量,隨后B將不斷更新直至收斂;而若恰好初始化為收斂解,則無需迭代已得到了想要的結(jié)果.本文在評(píng)分?jǐn)?shù)據(jù)上基于不同初始值多次求解,均經(jīng)3~4次互迭代即可得到穩(wěn)定且一致的結(jié)果.

      2.3 基于假設(shè)檢驗(yàn)的異常評(píng)分與固有偏差檢測

      異常評(píng)分反映了專家評(píng)分因某些主客觀因素引起的明顯偏離真實(shí)分?jǐn)?shù)的現(xiàn)象,了解異常評(píng)分情況有助于識(shí)別問題專家.同一課題的評(píng)分?jǐn)?shù)據(jù)是以真實(shí)分?jǐn)?shù)為中心的隨機(jī)變量,如能保證專家評(píng)分客觀性,該變量將近似服從高斯分布.參照文獻(xiàn)[18],本文以課題均分作為真實(shí)分?jǐn)?shù)的近似,視均值上下2倍標(biāo)準(zhǔn)差范圍為評(píng)分正常區(qū)間,以此判斷專家評(píng)分是否異常并統(tǒng)計(jì)各專家的異常評(píng)分次數(shù).如對于專家i給出的課題j評(píng)分,

      Ni←Ni+1, ifeij?[μj-2σj,μj+2σj],

      (9)

      其中,Ni為專家i異常評(píng)分次數(shù),初始為0;eij同前為專家評(píng)分;μj和σj分別是課題j平均分和標(biāo)準(zhǔn)差,根據(jù)該課題收到的所有評(píng)分計(jì)算.依驗(yàn)收規(guī)范應(yīng)先剔除最高分和最低分后再計(jì)算平均分,但考慮到部分課題參評(píng)專家僅6人,剔除后無法保證統(tǒng)計(jì)穩(wěn)定性,所以本文沒有剔除最值.此外,文獻(xiàn)[18]與本文不同,其不合理地對各課題采用統(tǒng)一標(biāo)準(zhǔn)差,會(huì)導(dǎo)致低爭議度課題的異常評(píng)分漏檢和高爭議度課題的異常評(píng)分虛警.

      (10)

      近似服從t分布t(mi-1),式中μfi和σfi分別為加權(quán)偏差向量的均值和標(biāo)準(zhǔn)差.同時(shí),得到了兩個(gè)對立假設(shè):零假設(shè)(專家i評(píng)分無固有偏差)和備擇假設(shè)(專家i評(píng)分有固有偏差).給定顯著性水平αt后,從t分布表確定雙側(cè)閾值t1-α/2(mi-1)和tα/2(mi-1).超出閾值即可判定該專家明顯存在固有偏差:titα/2(mi-1)說明評(píng)分過于寬松,傾向于給高分.

      至此,本部分已給出評(píng)估專家評(píng)分偏差的3個(gè)指標(biāo)及衡量課題爭議度的指標(biāo).其中:總體偏差是對專家偏差的整體性估計(jì);異常評(píng)分檢測極端值,是對偏差的突變性估計(jì);固有偏差判斷專家內(nèi)在的評(píng)分尺度習(xí)慣,是對偏差的傾向性估計(jì).三者間有著一定聯(lián)系:

      1)異常評(píng)分次數(shù)和固有偏差信息既相互影響又相互補(bǔ)充:固有偏差在極端情況下會(huì)引發(fā)異常評(píng)分,且異常分?jǐn)?shù)將一致性地極高或極低;反過來,異常分?jǐn)?shù)過多同樣可能增加固有偏差.當(dāng)然,因?yàn)楫惓Tu(píng)分受多種因素影響,更常見的是異常分?jǐn)?shù)中同時(shí)包含高分、低分,不會(huì)引起固有偏差.這些可能的情況無法單獨(dú)從異常評(píng)分或固有偏差來判斷.因此,這兩個(gè)指標(biāo)既從不同側(cè)面反映專家的特定偏差問題,又在特定情況下表現(xiàn)出一定耦合性.

      2)總體偏差與異常評(píng)分、固有偏差粒度互補(bǔ):總體偏差是從整體層面評(píng)估專家偏差的核心指標(biāo),涵蓋了突變性、傾向性等考量.這對于從粗粒度快速鎖定問題專家非常關(guān)鍵,但無法判斷問題具體信息,如專家偏差主要受外部條件干擾,抑或評(píng)審規(guī)范不夠內(nèi)化,還是評(píng)分尺度異于他人?這些細(xì)粒度信息對于采用何種處理措施很有指導(dǎo)性,可通過異常評(píng)分和固有偏差來判斷,必要時(shí)還可繼續(xù)搜索其他相關(guān)信息進(jìn)一步定位問題.

      綜上所述,3個(gè)指標(biāo)相結(jié)合才能較完善地分析專家偏差,下文將據(jù)此完成對863計(jì)劃某領(lǐng)域課題驗(yàn)收專家的偏差分析.

      3 評(píng)分偏差評(píng)估結(jié)果與分析

      3.1 評(píng)分偏差評(píng)估結(jié)果

      本文所用數(shù)據(jù)涉及157位專家對252個(gè)課題的評(píng)分,課題平均分和標(biāo)準(zhǔn)差如圖2所示.課題82得分最高(95.17分),課題96得分最低(73.18分),標(biāo)準(zhǔn)差在0.7~7.55間波動(dòng),表明這些課題無論在完成水平還是在爭議性上均有很大差異,尤其后者會(huì)干擾評(píng)審評(píng)分,在評(píng)分偏差分析中將其納入考量很有必要.因本文聚焦于專家偏差,下文對爭議度不做詳細(xì)討論.

      使用2.2和2.3中方法面向評(píng)分不少于5次的74位專家進(jìn)行偏差評(píng)估,得到各項(xiàng)指標(biāo)及閾值如表2所示(顯著性水平0.01).表2中序號(hào)對應(yīng)總體偏差排名,序號(hào)越小意味著總體偏差越大.由于我們僅展示了3位小數(shù),導(dǎo)致少量序號(hào)不同的專家總體偏差值看上去相同,如專家19~21.為使估計(jì)值均勻分布在[0,1]以方便相對比較,所列總體偏差經(jīng)過了最大值規(guī)范化處理.因空間有限,表2中只給出了t檢驗(yàn)的右側(cè)閾值,左側(cè)閾值為其相反數(shù).

      表2中斜體加粗的部分為異常評(píng)分次數(shù)大于或等于閾值以及t檢驗(yàn)值超限的數(shù)字.7位專家異常評(píng)分過多,僅占專家總數(shù)9.46%,且其中6位次數(shù)剛好等于閾值,可認(rèn)為專家整體低異常;14位專家出現(xiàn)固有偏差,占比略高,約為18.92%.但其中多數(shù)專家檢測值超限不多,造成的實(shí)際高估或低估偏差分值不大(具體見3.3中專家實(shí)例),說明專家整體固有偏差程度是可以接受的.另一方面,異常評(píng)分過多的專家序號(hào)均靠前,并且總體偏差最大的正是唯一超過異常次數(shù)閾值的專家,側(cè)面證明了總體偏差指標(biāo)的有效性.然而固有偏差較大的專家呈不規(guī)律分布,原因在于固有偏差表示評(píng)分會(huì)習(xí)慣性的偏高或偏低,意味著評(píng)價(jià)課題完成情況的專家給分尺度不同,大多數(shù)情況下并不會(huì)引起極端評(píng)分和高總體偏差.但大部分專家評(píng)分僅有5~7次,過多的異常評(píng)分引起總體偏差顯著增加是很正常的.當(dāng)然,過大的固有偏差仍然會(huì)對總體偏差產(chǎn)生不可忽略的影響,如排名第8位的專家.以上現(xiàn)象均印證了2.3結(jié)尾部分的推測.

      表2 專家評(píng)分偏差指標(biāo)值及相應(yīng)閾值Table 2 Index values and corresponding thresholds for expert score bias

      3.2 總體偏差模型互迭代結(jié)果驗(yàn)證

      原始互逆強(qiáng)化模型需將偏差向量B和爭議度向量C表示為遞歸形式后,分別自迭代求解.自迭代過程中對B和C的規(guī)范化會(huì)導(dǎo)致求得的結(jié)果丟失式(5)和(6)中體現(xiàn)的交互關(guān)系,但模型的構(gòu)建依賴于B和C的耦合性.這種矛盾并不合理,所以本文提出了互迭代策略作為替代.為驗(yàn)證互迭代的求解效果,本部分分別采用這兩種方式得到專家總體偏差和課題爭議度,結(jié)果如圖3—5所示.

      利用自迭代分別得到總體偏差B和爭議度C,同時(shí)基于相互依賴關(guān)系,也可將自迭代結(jié)果B代入式(6)得到相應(yīng)的C,同理式(5)又可用自迭代結(jié)果C得到相應(yīng)的B.理論上,這兩個(gè)B和兩個(gè)C之間應(yīng)該是一致的,但從圖3易知實(shí)際情況并非如此.周期性規(guī)范化處理導(dǎo)致無法定量比較,故圖3中對比的是自迭代結(jié)果排序情況.圖中橫軸表示直接求解結(jié)果的排序,縱軸為將自迭代結(jié)果代入式(6)和(5)的計(jì)算結(jié)果排序,排序越一致則散點(diǎn)越接近對角線.可以看出偏差排序差別巨大,爭議度排序略好但仍呈現(xiàn)出明顯發(fā)散狀.

      利用本文的互迭代方式得到B和C,同樣可按照上述過程再次利用兩式反算出C和B.圖4給出了這些結(jié)果的對比結(jié)果,互迭代結(jié)果間表現(xiàn)出了高度一致性.最后,圖5展示了不同求解方式的結(jié)果排序?qū)Ρ?橫軸為自迭代直接得到的B和C排序,縱軸為互迭代結(jié)果排序.可知,基于兩種求解方式的排序基本相同,尤其是排名靠前的部分,而排序不同之處均為小幅差異,對于專家偏差分析影響非常?。紤]到互迭代方式始終維持著總體偏差和爭議度間的關(guān)聯(lián)性,本文提出的求解思路明顯更加合理.此外,互迭代的另一個(gè)優(yōu)點(diǎn)是無需引入規(guī)范化處理,從而結(jié)果可定量比較,因此只有圖4中直接展示了總體偏差值和爭議度值而非其排序,更利于科研管理人員后續(xù)開展更精細(xì)的分析工作.

      3.3 代表性專家實(shí)例分析

      如前文所述,3個(gè)偏差指標(biāo)各有側(cè)重,相互結(jié)合才能較好地分析專家偏差情況.本部分以幾個(gè)專家實(shí)例分析一些有代表性的偏差表現(xiàn),同時(shí)也驗(yàn)證本文所用指標(biāo)的有效性.首先是表2中的第1位專家,其總體偏差最大且是唯一異常評(píng)分次數(shù)超過閾值的專家.此外,通過t檢測認(rèn)定該專家有給低分的習(xí)慣.圖6給出了其評(píng)分?jǐn)?shù)據(jù)和相應(yīng)課題平均分,其中柱狀分?jǐn)?shù)為專家1參評(píng)的課題平均分,折線為專家1的評(píng)分.注意圖中誤差棒以±2倍標(biāo)準(zhǔn)差為上下限,以便快速確定異常評(píng)分位置(后續(xù)圖7—9采用相同設(shè)置).圖中折線一直處于平均分以下,在課題107、108、110處出現(xiàn)評(píng)分異常,其余3個(gè)課題中評(píng)分也逼近了下限.特別是對于評(píng)分波動(dòng)性較大的課題108,專家1評(píng)分仍能超出正常范圍.過多的異常評(píng)分和明顯的固有偏差集中體現(xiàn)為極大的總體偏差,這表明該專家問題嚴(yán)重,在后續(xù)評(píng)審活動(dòng)中不建議將其繼續(xù)作為技術(shù)專家.

      總體偏差同樣較大是專家8,從固有偏差檢測結(jié)果知其具有很強(qiáng)的給高分習(xí)慣,但未有異常評(píng)分.

      在圖7中專家8表現(xiàn)與分析一致,評(píng)分全部高于平均分且處于正常區(qū)間的較高位置.但對于分?jǐn)?shù)波動(dòng)較大的課題108,該專家給出了較為合理的評(píng)分,這是一個(gè)比較好的現(xiàn)象.評(píng)分尺度過于寬松是專家8總體偏差較大的主導(dǎo)因素,證明了固有偏差過大時(shí)也會(huì)對總體偏差產(chǎn)生嚴(yán)重影響,但這種“尺子”方面的問題僅從總體偏差無法發(fā)現(xiàn),說明了結(jié)合固有偏差和總體偏差的必要性.與專家8相反,從表2和圖7中均能確定專家58也有給高分的傾向,但程度更低,從而總體偏差較小,僅排在第58位.僅以t檢驗(yàn)結(jié)果而言,有明顯固有偏差的專家分布在表2排序的各部分,表明固有偏差在整體上對專家總體偏差的影響還是可以接受的.

      與固有偏差不同,異常次數(shù)的多少和總體偏差的大小顯著相關(guān),表2中異常次數(shù)達(dá)到閾值的專家均在排序前列.原因在于專家評(píng)分次數(shù)普遍較少,集中在5~7次,所以每個(gè)異常值的出現(xiàn)均會(huì)對總體偏差有不小貢獻(xiàn).例如專家6總體偏差較大而t檢測值低,從圖8中也可看出僅有輕微的給高分傾向,但5次評(píng)分中就有1個(gè)異常值.當(dāng)然,也并非異常評(píng)分少且無明顯固有偏差就意味著總體偏差小,原因有二:一是即便沒有或較少出現(xiàn)異常評(píng)分,還可能存在較多接近但未超出正常范圍的評(píng)分;二是固有偏差不明顯也可能是因?yàn)樵u(píng)分忽高忽低,如圖8中顯示的專家10評(píng)分情況.該專家參與了10次驗(yàn)收評(píng)審,僅1次評(píng)分異常(相應(yīng)閾值為2次),t檢驗(yàn)值0.286接近于0,表明其無過寬或過嚴(yán)的評(píng)分慣性.但從圖8中可知其評(píng)分在平均分上下波動(dòng),并且過半評(píng)分接近正常范圍上下限,故偏差排序靠前.對于類似表現(xiàn)的專家,僅憑異常評(píng)分和固有偏差檢測是不夠的,加入總體偏差才能正確分析其偏差情況.

      在分析了5個(gè)存在問題及表現(xiàn)各不相同的實(shí)例后,圖9給出專家72的評(píng)分及相關(guān)課題分?jǐn)?shù)信息,作為較理想的專家示例,其總體偏差極小、無異常評(píng)分,僅評(píng)分尺度略顯嚴(yán)格,圖中也可看出該專家評(píng)分與平均分非常一致.

      3.4 專家評(píng)分偏差歸類

      以上結(jié)合典型實(shí)例分析了3個(gè)偏差指標(biāo)的關(guān)聯(lián)性:異常評(píng)分體現(xiàn)突變性信息,對總體偏差影響明顯;固有偏差體現(xiàn)一致性的評(píng)分傾向,對總體偏差有一定影響;總體偏差是綜合性評(píng)價(jià),既包含了突變性和傾向性信息,又體現(xiàn)了兩者之外的一些因素,但不能細(xì)致區(qū)分偏差表現(xiàn).分析工作應(yīng)先根據(jù)總體偏差大體鎖定問題專家群體,再聯(lián)合異常評(píng)分、固有偏差判斷專家具體問題并確定處理措施.因此,表3列出了以這3個(gè)指標(biāo)劃分的8種專家偏差類型及建議的應(yīng)對措施.

      異常評(píng)分次數(shù)和固有偏差均有檢測閾值.為了使總體偏差保持一致,本部分簡單采用大津法[24](又稱最大類間差方法)尋找可將總體偏差分為差距最大的兩類的閾值,這樣即可利用3個(gè)指標(biāo)的閾值將任一專家歸類到特定偏差類型.根據(jù)大津法得到高總體偏差專家(排序1~21)和低總體偏差專家(排序22~74).各類型專家人數(shù)和占比也列于表3.這些偏差類型不限于本文數(shù)據(jù),在其他科技計(jì)劃管理活動(dòng)中同樣可以應(yīng)用.

      表3 專家評(píng)分偏差類型及應(yīng)對措施Table 3 Types of experts according to their score biases and countermeasures

      對于部分專家需進(jìn)一步培訓(xùn)和溝通,有針對性地矯正評(píng)分行為.對建議措施解釋如下:

      1)Ⅰ類專家嚴(yán)重影響評(píng)分可靠性,不建議繼續(xù)參與驗(yàn)收評(píng)審.

      2)Ⅱ類專家總體偏差大、異常多、評(píng)分忽上忽下,可以推斷頻繁受外在因素干擾且影響程度較大(如與課題團(tuán)隊(duì)間的好惡關(guān)系、不正確的刻板印象等).主要問題在于評(píng)分獨(dú)立性、客觀性不足,應(yīng)加強(qiáng)此方面意識(shí)培訓(xùn).此外還應(yīng)觀察其t檢驗(yàn)值是否已接近閾值,預(yù)防Ⅱ類專家轉(zhuǎn)為Ⅰ類.

      3)Ⅲ類專家評(píng)分尺度問題明顯,或偏高(如受同情心理效應(yīng)影響)或偏低(如有高標(biāo)準(zhǔn)、嚴(yán)要求的評(píng)審習(xí)慣).較大的總體偏差表明該問題已明顯影響到評(píng)分合理性.應(yīng)多與此類專家溝通,令其加強(qiáng)尺度把握.

      4)Ⅳ類專家偏差大但其他指標(biāo)正常,說明其評(píng)分上下波動(dòng)卻沒有過于極端.推測此類專家的主要問題在于對評(píng)分標(biāo)準(zhǔn)理解不足而非受外在因素的嚴(yán)重干擾,應(yīng)加強(qiáng)培訓(xùn)提高驗(yàn)收規(guī)范內(nèi)化程度.此外,也存在評(píng)分次數(shù)不多使異常評(píng)分和固有偏差檢測不準(zhǔn)確的可能,仍需跟蹤觀察確定其是否為潛在的Ⅰ/Ⅱ/Ⅲ類專家.

      5)Ⅴ類專家僅為保證完整性而提出,基本不可能出現(xiàn).原因在于異常評(píng)分多、固有偏差強(qiáng)均會(huì)增加總體偏差,極難同時(shí)出現(xiàn)低總體偏差.本文數(shù)據(jù)一定程度上證明了這一點(diǎn).

      6)Ⅵ類專家與Ⅱ類成因相似但程度較輕,是在評(píng)分次數(shù)較少的專家中存在的小概率情況.因其偏差較小,不建議采用強(qiáng)化培訓(xùn),應(yīng)先進(jìn)一步搜集相關(guān)信息確定外部因素來源后,提醒專家注意該因素影響.

      7)Ⅶ類專家僅固有偏差偏高,提醒其稍微注意控制評(píng)分尺度即可.

      8)Ⅷ類專家各項(xiàng)指標(biāo)正常,無需任何處理措施.

      需要注意的是,以硬閾值劃分總體偏差只是一種粗略的分組方式.閾值附近的高、低偏差專家客觀上并無太大區(qū)別,不能粗暴地認(rèn)定前者一定有嚴(yán)重問題而后者沒有.表3僅是給出了一些參考措施建議,對于接近總體偏差閾值的專家應(yīng)根據(jù)情況具體討論.雷達(dá)圖因其形狀的規(guī)律性和對比的便利性在分析偏差效應(yīng)中非常適用[5].本文給出了部分偏差類型的理想雷達(dá)示意圖和相應(yīng)實(shí)例,可以看出雷達(dá)圖非常形象地表達(dá)了類型間的不同特點(diǎn).

      雷達(dá)圖根據(jù)專家評(píng)分與課題平均分之差繪制,越外層的多邊形表示高估越嚴(yán)重,越內(nèi)層則越低估.角點(diǎn)上的數(shù)字代表課題序號(hào),同一多邊形的邊構(gòu)成了特定差值的等值線,差值列于多邊形左上位置,紅色點(diǎn)代表異常評(píng)分.對于專家實(shí)例,雷達(dá)圖中顯示范圍統(tǒng)一為-16~16,便于公平比較.突變性的異常評(píng)分會(huì)造成雷達(dá)圖中形狀的不規(guī)律變化.對于涉及異常評(píng)分較多的類型,尤其是可能既有高異常分又有低異常分的情況(Ⅱ和Ⅵ型),并沒有理想的雷達(dá)示意圖可代表其多樣性表現(xiàn).即便異常評(píng)分少,但若總體偏差高且無明顯固有偏差(Ⅳ型),評(píng)分仍然是圍繞課題平均分在較大范圍內(nèi)上下波動(dòng),同樣難以找到理想示意圖.排除掉以上三類和近乎不可能的類型(Ⅴ型),圖11—13展示了Ⅲ、Ⅶ、Ⅷ三種類型.另外,同時(shí)滿足異常評(píng)分多和固有偏差強(qiáng)的條件下,異常評(píng)分或者多為極高分、或者多為極低分,不規(guī)律性顯著降低,所以Ⅰ型也可找到理想雷達(dá)示意圖(圖10).從圖10—13可知,專家1(偏差大、異常多、偏低估)、專家8(偏差大、異常少、偏高估)、專家58(偏差低、異常少、偏高估)、專家72(偏差低、異常少、固有偏差弱)與相應(yīng)類型的理想雷達(dá)圖非常相似,說明這4種偏差類型確有穩(wěn)定的雷達(dá)圖形狀.即便不采用本文的3個(gè)指標(biāo),科研管理人員也可利用雷達(dá)圖直接完成簡單的偏差分析工作,至少能夠快速找到理想專家群體(Ⅷ型)以提高評(píng)審結(jié)果可靠性,或者找到Ⅰ型專家群體減少其參評(píng)次數(shù)甚至不再作為專家人選.

      4 總結(jié)

      在科技管理工作中,驗(yàn)收評(píng)審有著評(píng)估課題完成水平、衡量科研產(chǎn)出價(jià)值的重要作用.開展評(píng)審專家可靠性研究對于科技評(píng)審活動(dòng)是十分有指導(dǎo)意義的.因此,本文結(jié)合數(shù)據(jù)挖掘算法和數(shù)理統(tǒng)計(jì)方法給出了衡量專家評(píng)分偏差的3個(gè)定量指標(biāo),以對“十二五”863計(jì)劃某技術(shù)領(lǐng)域課題驗(yàn)收專家的評(píng)審行為進(jìn)行初步探索.分析發(fā)現(xiàn),該領(lǐng)域驗(yàn)收專家評(píng)分整體合理,僅1人次評(píng)分異常明顯;固有偏差處于可接受范圍.本文還根據(jù)偏差指標(biāo)進(jìn)一步歸納了8種偏差類型并給出應(yīng)對措施建議,此項(xiàng)研究是對現(xiàn)階段科研管理相關(guān)工作的完善與延伸.科技部近期正在開展“十三五”國家重點(diǎn)研發(fā)計(jì)劃各重點(diǎn)專項(xiàng)首批到期項(xiàng)目的綜合績效評(píng)價(jià),分析結(jié)果可用于績效評(píng)價(jià)專家遴選和評(píng)前培訓(xùn),幫助特定專家群體內(nèi)化評(píng)審規(guī)范并降低評(píng)分習(xí)慣、個(gè)人偏好、外部因素等影響.此外,文中采用的評(píng)價(jià)體系和專家偏差類型同樣可在其他科研管理活動(dòng)中發(fā)揮評(píng)價(jià)評(píng)審過程、規(guī)范評(píng)審行為的作用.為響應(yīng)“三評(píng)”(項(xiàng)目評(píng)審、人才評(píng)價(jià)、機(jī)構(gòu)評(píng)估)改革意見[25],下一步工作將聚焦推進(jìn)本文評(píng)價(jià)體系在多項(xiàng)國家科技計(jì)劃乃至各類“三評(píng)”活動(dòng)中的推廣應(yīng)用.一來從專家偏差性和評(píng)審對象爭議性兩方面綜合評(píng)價(jià)評(píng)審過程、完善評(píng)審機(jī)制,同時(shí)廣泛采樣檢驗(yàn)本文分析方法的泛化能力;二來基于總體偏差、固有偏差和異常評(píng)分并結(jié)合大量評(píng)分?jǐn)?shù)據(jù),既可以從不同粒度歸納總結(jié)專家潛在的共性問題和分析差異化的評(píng)審行為,又能根據(jù)所得經(jīng)驗(yàn)和專家歷史偏差評(píng)價(jià)結(jié)果輔助“三評(píng)”專家遴選工作,提升科技評(píng)審效度.正值教育部、科技部聯(lián)合印發(fā)《關(guān)于規(guī)范高等院校SCI論文相關(guān)指標(biāo)使用 樹立正確評(píng)價(jià)導(dǎo)向的若干意見》[26]之際,希望本文能夠?qū)ζ渲械摹巴晟茖W(xué)術(shù)同行評(píng)價(jià)”、“規(guī)范各類評(píng)價(jià)活動(dòng)”等內(nèi)容提供方法論支撐.

      猜你喜歡
      總體偏差課題
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      2020年秋糧收購總體進(jìn)度快于上年
      如何走出文章立意偏差的誤區(qū)
      兩矩形上的全偏差
      黨的建設(shè)的永恒課題
      第一次寫課題
      外匯市場運(yùn)行有望延續(xù)總體平穩(wěn)發(fā)展趨勢
      中國外匯(2019年6期)2019-07-13 05:44:06
      直擊高考中的用樣本估計(jì)總體
      “十三五”醫(yī)改的新課題
      關(guān)于均數(shù)與偏差
      青海省| 仪陇县| 攀枝花市| 乐至县| 隆子县| 宾川县| 绵阳市| 大连市| 大竹县| 龙口市| 岗巴县| 济南市| 无极县| 策勒县| 寻乌县| 手游| 分宜县| 寻甸| 肥西县| 大竹县| 新乡市| 通州市| 麻江县| 治多县| 通辽市| 彭水| 贞丰县| 英超| 宝鸡市| 南木林县| 荣成市| 上杭县| 建水县| 灵川县| 滕州市| 佛教| 洪湖市| 饶阳县| 桂林市| 城步| 长顺县|