思維能力的成長(zhǎng)評(píng)估

2020-04-25 09:52:42謝小慶

考試研究 2020年1期

謝小慶

一、思維能力

在快速變化的21 世紀(jì)，在科技和社會(huì)發(fā)展速度令人瞠目結(jié)舌的今天，伴隨著計(jì)算機(jī)和網(wǎng)絡(luò)的發(fā)展，知識(shí)在快速更新?lián)Q代，一些已有知識(shí)在快速變得陳舊。一些工種在消失，一個(gè)個(gè)行業(yè)正在被顛覆。年輕人將來可能從事的行業(yè)今天或許還未出現(xiàn)，而今天的一些熱門職業(yè)未來可能會(huì)消失。掌握再多的知識(shí)，也不如一部聯(lián)網(wǎng)智能手機(jī)的萬分之一。怎樣保證我們的學(xué)生在未來的職業(yè)競(jìng)爭(zhēng)中不會(huì)敗于一部智能手機(jī)或一臺(tái)機(jī)器人？這是教育需要思考的問題。

在互聯(lián)網(wǎng)時(shí)代，人們獲取特定知識(shí)變得越來越容易。以往，需要在圖書館中尋找多日的研究資料，今天借助互聯(lián)網(wǎng)，借助“百度”“谷歌”這樣的搜索工具，可以隨時(shí)隨地信手拈來。因此，重要的已經(jīng)不再是掌握特定知識(shí)，而是具備較高的思維水平，對(duì)信息的重要性做出判斷，并在各種可能的候選方案中快速做出自己的抉擇。越來越多的人認(rèn)識(shí)到，以往，“知識(shí)就是力量”；未來，“思維才是力量”。以往，在職場(chǎng)中穩(wěn)操勝券的是“有知識(shí)的人”；未來，在職場(chǎng)中獨(dú)領(lǐng)風(fēng)騷的將是“會(huì)思考的人”，將是“有智慧的人”。

從20 世紀(jì)90 年代初，筆者就開始關(guān)心核心職業(yè)勝任力問題，并關(guān)注到英、美等國(guó)的核心能力研究。根據(jù)多年的閱讀和思考，筆者認(rèn)為，21 世紀(jì)最重要的核心職業(yè)勝任力是思維能力（thinking competence）。思維能力包含三項(xiàng)內(nèi)容：第一，交流溝通（communication）能力，主要是口頭和書面表達(dá)能力；第二，邏輯推理（reasoning）能力；第三，審辯式思維（critical thinking）。

最重要的思維能力是交流溝通能力，主要是母語(yǔ)的口頭和書面表達(dá)能力。世界各國(guó)絕大部分關(guān)于核心能力的研究結(jié)果都將交流溝通能力列為首位。對(duì)于至少80%以上的中國(guó)人來說，使他們獲得職業(yè)成功和愛情成功的主要因素并不是外語(yǔ)，而是漢語(yǔ)。例如，以往在對(duì)醫(yī)務(wù)人員的資格要求中，語(yǔ)言能力并不是很重要。但是，近20 年來，多家國(guó)際醫(yī)學(xué)教育機(jī)構(gòu)所頒布的對(duì)醫(yī)生的最低能力要求中，都將“交流溝通能力”放到了重要位置。

第二重要的思維能力是邏輯推理能力。數(shù)學(xué)是高考的必考科目，從小學(xué)開始，學(xué)生大量的時(shí)間用于學(xué)習(xí)數(shù)學(xué)。對(duì)很多人來說，曾經(jīng)學(xué)習(xí)的數(shù)學(xué)知識(shí)在在以后的職業(yè)生涯中很少會(huì)用到，那么為什么還要花費(fèi)時(shí)間學(xué)習(xí)數(shù)學(xué)呢？那是因?yàn)閷W(xué)習(xí)數(shù)學(xué)是在發(fā)展和訓(xùn)練邏輯推理能力。

正是因其重要性，在今天的公務(wù)員錄用考試、事業(yè)單位錄用考試和教師資格考試中，都將對(duì)交流溝通和邏輯推理能力的考查放在非常重要的地位。為了在高度信息化的時(shí)代具有職業(yè)競(jìng)爭(zhēng)力，必須從小注意發(fā)展學(xué)生的交流溝通能力和邏輯推理能力，幫助他們形成必要的口頭和書面表達(dá)能力，并養(yǎng)成按照形式邏輯（formal logic）進(jìn)行思考的習(xí)慣。

交流溝通能力和邏輯推理能力固然重要，但這二者并非萬能，還需要具有審辯式思維。

在學(xué)校中被同學(xué)打后怎么辦？還手？告老師？忍了？

要不要讓學(xué)生背誦課文和名篇？

在高考必考科目中是否應(yīng)包含外語(yǔ)？

是否擴(kuò)大高校的招生自主權(quán)？

是否鼓勵(lì)種植轉(zhuǎn)基因農(nóng)作物？

要否征收房產(chǎn)稅？

……

所有這些問題，都不存在唯一正確（right，correct，accurate）的標(biāo)準(zhǔn)答案，都不存在合理的（rational or reasonable）標(biāo)準(zhǔn)答案，都僅僅有每個(gè)人的普樂好（plausible）選擇。許多重要問題，包括一些關(guān)系到人生道路和個(gè)人前途、個(gè)人幸福的問題，甚至一些關(guān)系到國(guó)計(jì)民生的問題，都不能僅僅靠交流溝通和邏輯推理做出選擇，都需要審辯式思維[1-3]。

實(shí)際上，僅僅訴諸邏輯推理就可以解決的問題是非常有限的，往往是一些并不重要的小事情，例如，一個(gè)廣西沙田柚的價(jià)格是5 元錢，買3 個(gè)柚子需要多少錢。絕大多數(shù)真正重要的問題都不是僅靠交流溝通和邏輯推理能夠解決的，都需要在審辯式論證（critical argument）的基礎(chǔ)之上做出普樂好的選擇。

如果走出課堂，走進(jìn)實(shí)際生活，即使是買柚子這樣的“小事情”也不能僅僅靠形式邏輯予以解決。不論超市還是街邊，實(shí)際的情況是：

賣家：1 個(gè)5 元，3 個(gè)13 元。

買家：3 個(gè)12 元賣不賣？

這時(shí)，賣家面對(duì)一個(gè)12 元賣或不賣的選擇。如果賣家的選擇是12 元不賣，那么，買家將面臨選擇：13 元買不買？對(duì)于賣家和買家，都沒有唯一正確的標(biāo)準(zhǔn)答案，也沒有邏輯合理的答案。這個(gè)問題不能僅僅靠形式邏輯做出選擇，還需要借助審辯式思維來做出選擇。

因此，第三重要的思維能力是審辯式思維。所謂審辯式思維，最簡(jiǎn)單的概括是12 個(gè)字：不懈質(zhì)疑，包容異見，力行擔(dān)責(zé)。具有審辯式思維的人不輕易相信家長(zhǎng)、老師、領(lǐng)導(dǎo)、專家和權(quán)威的說法。他們會(huì)用自己的頭腦獨(dú)立地進(jìn)行思考，做出自己的判斷，決定接受或者拒絕他人的看法。具有審辯式思維的人，不是僅僅質(zhì)疑他人，他會(huì)“雙向質(zhì)疑”，既質(zhì)疑他人，也質(zhì)疑自己。正是由于質(zhì)疑自己，他才會(huì)包容異見。他會(huì)想到，別人可能是錯(cuò)的，我自己也可能是錯(cuò)的。具有審辯式思維的人不是坐而論道，而是行動(dòng)者，力行擔(dān)責(zé)。面對(duì)復(fù)雜、艱難的選擇，他會(huì)勇敢地、果斷地做出自己的選擇并付諸行動(dòng)，并坦然地面對(duì)自己行動(dòng)的后果，承擔(dān)自己的責(zé)任。

具有審辯式思維的人理解，對(duì)于復(fù)雜的科學(xué)問題和社會(huì)問題，常常并不存在唯一正確的標(biāo)準(zhǔn)答案。對(duì)于一個(gè)理論、一個(gè)觀點(diǎn)、一個(gè)命題的論證，不是一個(gè)可能立即得到答案的實(shí)驗(yàn)室研究。許多問題并不存在唯一正確的標(biāo)準(zhǔn)答案，關(guān)于這些問題的爭(zhēng)論會(huì)長(zhǎng)期存在。

審辯式思維不僅是創(chuàng)新型人才最重要的心理特征，是持續(xù)鉆研的動(dòng)力，更是建設(shè)理性和民主社會(huì)的基礎(chǔ)[4]。

二、思維能力可以進(jìn)行客觀化測(cè)試

在思維能力中，對(duì)于交流溝通和邏輯推理能力的測(cè)試已經(jīng)探索出一些有效、可靠的測(cè)試方法。例如，用于公務(wù)員錄用考試的《行政職業(yè)能力測(cè)驗(yàn)》（以下簡(jiǎn)稱“《行測(cè)》”），全部采用客觀化選擇題，所考查的主要是交流溝通能力和邏輯推理能力。在這方面，《行測(cè)》30 年的考試實(shí)踐已經(jīng)積累了較豐富的經(jīng)驗(yàn)[5]。那么，能否對(duì)審辯式思維水平進(jìn)行客觀化測(cè)量？

審辯式思維包含認(rèn)知技能（cognitive skill）和精神氣質(zhì)（disposition）兩個(gè)維度[6]。對(duì)于精神氣質(zhì)，很難進(jìn)行客觀化測(cè)試。但是，對(duì)于認(rèn)知技能，可以進(jìn)行客觀化測(cè)試。測(cè)試認(rèn)知技能的題型主要有三種：事實(shí)判斷、假設(shè)辨認(rèn)和論證評(píng)價(jià)。

例題1：事實(shí)判斷題

在2008 年北京奧運(yùn)會(huì)上，中國(guó)體育代表團(tuán)獲得了51 塊金牌，位于金牌榜首位。據(jù)此，有人認(rèn)為，中國(guó)的體育運(yùn)動(dòng)水平已經(jīng)處于國(guó)際領(lǐng)先水平，通過開展體育運(yùn)動(dòng)，成功地增強(qiáng)了中國(guó)人的體質(zhì)。

對(duì)于這一推論，反駁最有力的一項(xiàng)是：

A 雖然中國(guó)獲得的金牌數(shù)位于首位，但獲得的獎(jiǎng)牌總數(shù)卻比美國(guó)少。

B 主辦國(guó)在獎(jiǎng)牌的競(jìng)爭(zhēng)中往往處于有利地位。

C 中國(guó)足球隊(duì)在2008 奧運(yùn)會(huì)中一場(chǎng)未贏。

D 按人均計(jì)算，中國(guó)獲得的金牌數(shù)低于世界的平均數(shù)。

答案：D

例題2：假設(shè)辨認(rèn)題

因?yàn)樘?、王屋兩座大山擋路，愚公決定率領(lǐng)全家將山移走。他的一個(gè)鄰居老人不贊成他的做法，說：“兩座山方圓七百里，高幾千米，你怎能移走？”愚公回答說：“我子子孫孫一代一代地堅(jiān)持移山，山不會(huì)增高，怎么移不走呢？ ”

愚公的主張能夠成立的前提是：

A．由于地球的地殼運(yùn)動(dòng)，山的高度和范圍都可能增加

B．他的后代不會(huì)因無婚姻或無生育的原因而中斷延續(xù)

C．最終上帝會(huì)被他的精神所感動(dòng)，會(huì)幫他把山移走

D．自己的鄰居們會(huì)幫助自己一道移山

答案：B

例題3：論證評(píng)價(jià)題題

司馬遷在《史記》中詳細(xì)記述了項(xiàng)羽人生的最后場(chǎng)景：項(xiàng)羽拒絕了駕船的烏江亭長(zhǎng)載他東渡烏江卷土重來的建議，自殺以謝江東父老。對(duì)此，張強(qiáng)并不贊成。張強(qiáng)認(rèn)為項(xiàng)羽完全不必自殺，應(yīng)該東渡之后重整軍馬再戰(zhàn)。

張強(qiáng)對(duì)自己的觀點(diǎn)進(jìn)行了論證，他的論證中最有說服力的一項(xiàng)是：

A 勝敗乃兵家常事

B 士可殺而不可辱

C 《史記》的相關(guān)記錄未必真實(shí)

D 生當(dāng)為人杰，死亦作鬼雄

答案：A

從上面3 道例題可以看出，對(duì)于所討論的問題：中國(guó)人的體育運(yùn)動(dòng)水平是否世界領(lǐng)先、愚公應(yīng)該移山還是搬家、項(xiàng)羽應(yīng)該渡江還是自殺，并沒有唯一正確的標(biāo)準(zhǔn)答案，但是對(duì)于論證（argument），卻可以評(píng)價(jià)和測(cè)量，包括：

1. 論證是否基于證據(jù)（fact，data，evidence）？

2. 所給出事實(shí)的可信度（reliability）如何？

3. 事實(shí)（證據(jù)）與主張（claim）相關(guān)（relevant）程度如何？

4. 論證是否合理（reasonable）？

5. 論者對(duì)論證中所包含的假設(shè)是否清楚（awareness）？是否清醒？

6. 論證是否有效（valid）？是否有力（powerful）？是否具有說服力（persuadable）？

從上面的3 道例題可以看出，論題（如愚公移山還是搬家）并沒有標(biāo)準(zhǔn)答案，但論證的水平（level of argument）卻有高下之分。這種論證水平的高下，不僅可以測(cè)量，而且可以通過客觀性選擇題的方式進(jìn)行測(cè)量。

三、“審辯式思維”試題與“閱讀理解”試題、“邏輯推理”試題的不同

“審辯式思維”試題、“閱讀理解”試題、“邏輯推理”試題的考查方式均有所不同。

閱讀理解題主要考查對(duì)文本內(nèi)容的把握，包括字詞知識(shí)、信息提取、內(nèi)容歸納、主題概括、對(duì)語(yǔ)氣態(tài)度的準(zhǔn)確判斷等等，即主要考查歸納能力。

例題4：閱讀理解題

在一只小雞破殼而出的時(shí)候，剛好有只烏龜經(jīng)過，從此以后這只小雞就背著蛋殼過了一生。

這段文字想告訴我們：

A 不要輕易模仿他人

B 有些人生不逢時(shí)

C 蛋殼沒有龜殼堅(jiān)固

D 出門旅行應(yīng)盡量輕裝簡(jiǎn)行

答案：A

邏輯判斷題主要考查根據(jù)文本進(jìn)行合理推斷的能力，包括能否根據(jù)已知的文本合理地推斷出文本中并未直接給出的信息，即主要考查演繹能力。

例題5：邏輯推理題

據(jù)世界衛(wèi)生組織估計(jì)，目前全球患抑郁癥的人口多達(dá)1.2 億，幾乎每4 人中便有1 人在一生中某個(gè)階段出現(xiàn)精神或行為問題。到2020 年，抑郁癥將位居全球疾病發(fā)病率排行榜第二位，僅次于心臟病。在中國(guó)，目前約有2600 萬人患有不同程度的抑郁癥，不過，90%的抑郁癥患者并沒有意識(shí)到自己患有抑郁癥。也未能及時(shí)就醫(yī)。

根據(jù)這段文字，可以知道：

A 全球患抑郁癥的人多達(dá)總?cè)丝诘乃姆种?/p>

B 中國(guó)抑郁癥患者中及時(shí)就醫(yī)者不超過300 萬人

C 在各種疾病中，每年死于心臟病的人數(shù)最多

D 及時(shí)就醫(yī)可以降低抑郁癥的發(fā)病率

答案：B

從上面的試題可以發(fā)現(xiàn)，邏輯推理能力與交流溝通能力既有區(qū)別，也有聯(lián)系，不具備一定的交流溝通能力，談不到進(jìn)行邏輯推理。與此相仿，審辯式思維與邏輯推理能力之間的關(guān)系也是既有區(qū)別，又有聯(lián)系，審辯式思維基于邏輯推理之上，二者之間沒有絕對(duì)的界線。就像在測(cè)試邏輯推理能力的題目中往往也包含著對(duì)交流溝通能力的考查一樣，在測(cè)試審辯式思維的題目中也會(huì)包含對(duì)邏輯推理能力的考查，二者不可能完全切割和分離。然而，在審辯式思維試題中雖然包含對(duì)交流溝通能力和邏輯推理能力的考查，但所考查的并不僅僅是交流溝通能力和邏輯推理能力，“審辯式思維”試題與“邏輯推理”試題的區(qū)別至少體現(xiàn)在以下四個(gè)方面：

1. 審辯式思維試題包含對(duì)非形式邏輯（informal logic）的考查。具有審辯式思維的人理解，符合形式邏輯是不可突破的“底線”。任何論證，必須符合形式邏輯。但是，形式邏輯存在局限性，許多時(shí)候存在多種符合形式邏輯的不同的、互相沖突的命題，這時(shí)，就需要在綜合形式邏輯和非形式邏輯的基礎(chǔ)之上做出選擇，做出決策。

斯特芬·圖爾敏（Stephen Toulmin）將這種超出形式邏輯的論證邏輯稱為“工作（working）邏輯”、“實(shí)踐（practical）邏輯”和“實(shí)質(zhì)（substantial）邏輯”。他指出，在科學(xué)、法律、經(jīng)濟(jì)和醫(yī)學(xué)等許多專業(yè)領(lǐng)域，基于傳統(tǒng)形式邏輯的論證意義很有限，實(shí)際上真正大量使用的是“實(shí)質(zhì)論證（substantive argument）”；在傳統(tǒng)的論證研究領(lǐng)域人們常常將注意力聚焦于“怎樣論證才合乎邏輯”，卻常常忽視“人們實(shí)際上如何論證”；在論證中，人們常常采用靜態(tài)的“解剖學(xué)”方法，而不是采用動(dòng)態(tài)的“生理學(xué)”方法。

“邏輯推理”試題可以通過嚴(yán)格的形式邏輯導(dǎo)出正確的、可以確證的答案；“審辯式思維”試題卻得不到這樣可以按照形式邏輯嚴(yán)格確證的答案，只能得到若干命題人具有共識(shí)的普樂好答案。

2. 審辯式思維試題有條件地接受“歸納”。邏輯推理試題不接受歸納，即使我們觀察到一萬只天鵝是白的，也不能從形式邏輯上確證“天鵝是白的”這一命題。審辯式思維試題則有條件地接受歸納。根據(jù)“實(shí)質(zhì)論證”的邏輯，特定條件下，與不能提供案例支持或僅僅能夠提供一兩個(gè)案例支持的主張（claim）相比，那些可以提供一萬個(gè)案例支持的主張，更容易成為我們的普樂好選擇。

3. 審辯式思維試題有條件地接受“類比”和“比喻”。邏輯推理試題不接受類比和比喻的論證方式，類比和比喻在形式邏輯上不成立。我們可以用“發(fā)動(dòng)機(jī)與剎車”的關(guān)系來比喻“革新與保守”的互補(bǔ)關(guān)系，但這種論證在形式邏輯上是不成立的。審辯式思維試題則有條件地接受類比和比喻的論證方式，特定條件下，類比和比喻可能增加某個(gè)主張的說服力。

4. 審辯式思維試題有條件地采用“引證權(quán)威”的論證方式。邏輯推理試題拒絕“引證權(quán)威”的論證方式。根據(jù)形式邏輯，“引證權(quán)威”的論證方式屬于“訴諸權(quán)威謬誤”。審辯式思維試題則有條件地接受“引證權(quán)威”的論證方式。在實(shí)際生活中，從化妝品的選擇到疾病的治療方案選擇，“引證權(quán)威” 是經(jīng)常被采用的論證方法，也常常成為進(jìn)行選擇的重要依據(jù)之一。特定條件下，“引證權(quán)威”可能增加某個(gè)主張的說服力。

四、從“達(dá)標(biāo)評(píng)估”到“成長(zhǎng)評(píng)估”模型

對(duì)于思維能力的測(cè)量有不同的教育評(píng)估模型。作為21 世紀(jì)最重要的核心職業(yè)勝任力，相對(duì)于達(dá)標(biāo)評(píng)估，更應(yīng)關(guān)注學(xué)生的成長(zhǎng)評(píng)估。達(dá)標(biāo)評(píng)估到成長(zhǎng)評(píng)估是美國(guó)學(xué)校教育應(yīng)對(duì)州政府問責(zé)的重要改革舉措。 2015 年，經(jīng)過美國(guó)參眾兩院長(zhǎng)期討論和兩黨溝通，兩院最終通過了新的教育改革法案《每一個(gè)學(xué)生成功法案（Every Student Succeeds Act，簡(jiǎn)稱ESSA）》。其后，奧巴馬總統(tǒng)正式簽署了ESSA 法案。這意味著，美國(guó)的教育改革進(jìn)入一個(gè)新階段。 ESSA 于2018 年正式開始實(shí)行。 ESSA 取代了小布什總統(tǒng)主持通過的《2001 年一個(gè)都不能少法案（No Child Left Behind Act of 2001，NCLB）》。與NCLB 相比，ESSA的突出特點(diǎn)體現(xiàn)在用 “達(dá)標(biāo)+成長(zhǎng)” 的概念完善了NCLB 的“達(dá)標(biāo)”概念。在ESSA 的貫徹執(zhí)行過程中，“成長(zhǎng)模型（growth model）”已成為美國(guó)各州對(duì)學(xué)生、教師、學(xué)校和學(xué)區(qū)進(jìn)行教育評(píng)估（assessment）和問責(zé)（accountability）的主要方法[7]。

所謂成長(zhǎng)評(píng)估模型，是指一組定義、計(jì)算方法和規(guī)則，可以根據(jù)學(xué)生兩個(gè)或多個(gè)時(shí)間點(diǎn)的表現(xiàn)，做出與學(xué)生、班級(jí)、教師和學(xué)校有關(guān)的解釋[8]。進(jìn)行成長(zhǎng)評(píng)估，不僅可以更準(zhǔn)確地了解學(xué)生實(shí)際的學(xué)習(xí)成效（outcome），同時(shí)可以更準(zhǔn)確、更清晰地了解教師、學(xué)校對(duì)學(xué)生成績(jī)提高所產(chǎn)生的實(shí)際影響。

新的“達(dá)標(biāo)+成長(zhǎng)”教育評(píng)估模型體現(xiàn)了一種新的教育理念。學(xué)習(xí)，不僅追求“達(dá)標(biāo)”，更要追求“成長(zhǎng)”。對(duì)于一些基礎(chǔ)好的學(xué)生，實(shí)現(xiàn)“達(dá)標(biāo)”并不一定能夠?qū)崿F(xiàn)“成長(zhǎng)”；對(duì)于一些基礎(chǔ)薄弱的學(xué)生，即使暫時(shí)“達(dá)標(biāo)”有困難，仍然可以通過學(xué)習(xí)獲得“成長(zhǎng)”。這是一種正視“個(gè)別差異（individual difference）”的教育理念。統(tǒng)一的標(biāo)準(zhǔn)（standard）很難適用于所有人，成長(zhǎng)評(píng)估模型體現(xiàn)了人工智能時(shí)代一種個(gè)性化學(xué)習(xí)（individualized learning）的思路。

美國(guó)強(qiáng)調(diào)“成長(zhǎng)”，主要的著眼點(diǎn)是那些可能掉隊(duì)（left behind）的學(xué)生，是力圖幫助那些“達(dá)標(biāo)”有困難的學(xué)生獲得“成長(zhǎng)”，鼓勵(lì)那些幫助學(xué)生獲得一定程度成長(zhǎng)的教師和學(xué)校。中國(guó)與美國(guó)的國(guó)情不同，我們強(qiáng)調(diào)“成長(zhǎng)”，主要的著眼點(diǎn)應(yīng)是那些基礎(chǔ)較好的學(xué)生，力爭(zhēng)幫助他們不僅“達(dá)標(biāo)”而且獲得實(shí)際的“成長(zhǎng)”，鼓勵(lì)那些幫助學(xué)生獲得進(jìn)一步成長(zhǎng)的教師和學(xué)校。

成長(zhǎng)模型中包含基于數(shù)學(xué)和統(tǒng)計(jì)學(xué)的數(shù)據(jù)處理方法，但成長(zhǎng)模型所處理的不僅僅是數(shù)學(xué)和統(tǒng)計(jì)學(xué)問題。在成長(zhǎng)評(píng)估過程中需要考慮復(fù)雜的、常?；ハ鄾_突的教育目標(biāo)，需要考慮學(xué)生、教師、地方政策、聯(lián)邦政策等一系列復(fù)雜的政策要求和分?jǐn)?shù)解釋。因此，成長(zhǎng)評(píng)估的效果還有待于進(jìn)一步論證。

五、成長(zhǎng)評(píng)估的主要方法

今天，在美國(guó)各州應(yīng)用的成長(zhǎng)測(cè)量模型主要有7種。

1. 增分模型（gain score）：又稱為自我相對(duì)成長(zhǎng)（Growth Relative to Self）、原始增益（Raw Gain）、簡(jiǎn)單增益（Simple Gain）、斜率（Slope）、平均增益（Average Gain）、增益/斜率-成效（Gains/Slopes-as-Outcomes）等。

2. 軌道模型（Trajectory）：也被稱為成長(zhǎng)達(dá)到標(biāo)準(zhǔn)模型（Growth-to- Standards Model）、增益分?jǐn)?shù)模型（Gain-Score Model）等。

3. 分類模型（categorical）：也被稱為轉(zhuǎn)換模型（Transition Model）、轉(zhuǎn)換矩陣模型（Transition Matrix Model）、價(jià)值表（Value Table）等。

4. 殘差模型（the residual gain）：也被稱為殘差差異模型（Residual Difference Model）、協(xié)方差調(diào)節(jié)模型（Covariate Adjustment Model）、殘差百分等級(jí)排列（Percentile Rank of Residuals）等。

5. 投射模型（projection）：也被稱為回歸模型（Regression Model）、預(yù)測(cè)模型（Prediction Model）。

6. 學(xué)生成長(zhǎng)百分等級(jí)模型（student growth percentile，簡(jiǎn)稱SGP 模型）：也被稱為科羅拉多模型（The Colorado Model）、百分等級(jí)漸進(jìn)達(dá)標(biāo)成長(zhǎng)（Percentile Growth Trajectories）、條件狀態(tài) 百分等級(jí)（Conditional Status Percentile Ranks）。

7. 增值模型（value added）：也被稱為桑德斯模型（Sanders Model）、教育增值評(píng)估系統(tǒng)（Education Value-Added Assessment System，EVAAS）、田納西增值評(píng)估系統(tǒng) （Tennessee Value-Added Assessment System，TVAAS）、田納西模型（Tennessee Model）分層模型（Layered Model）、變量保持模型（Variable Persistence Model）、交叉分類模型（Cross-Classified Model）。

7 種模型各有長(zhǎng)處和不足。對(duì)于不同的模型，可以對(duì)評(píng)估結(jié)果做出不同的解釋。選擇哪種模型，要考慮自身分?jǐn)?shù)解釋的不同需要。目前，7 種模型在美國(guó)的各個(gè)州中都有應(yīng)用，使用最多的是學(xué)生成長(zhǎng)百分比模型（SGP），至少有20 個(gè)州在使用[9]。

六、成長(zhǎng)評(píng)估的關(guān)鍵技術(shù)環(huán)節(jié)——等值

為了對(duì)學(xué)生的成長(zhǎng)進(jìn)行評(píng)估，需要在特定時(shí)段（如一學(xué)期或一學(xué)年）的開始時(shí)和結(jié)束時(shí)進(jìn)行兩次測(cè)試。兩次測(cè)試不能用同一張?jiān)嚲怼蓮埐煌脑嚲碇g需要具有可比性。具有可比性的前提是具有同質(zhì)性（homogeneity）。

所謂同質(zhì)性，就是兩個(gè)測(cè)試考查相同的構(gòu)念（construct）。用于成長(zhǎng)評(píng)估的兩次測(cè)試或多次測(cè)試，需要具有同質(zhì)性，但具有同質(zhì)性并不一定具有可比性。盡管測(cè)試的編制者在命題過程中總是盡量保持難度的穩(wěn)定性，但不同試卷之間在難度、分?jǐn)?shù)分布方面的差別很難完全避免。兩次測(cè)試的難度不同，分?jǐn)?shù)的增長(zhǎng)可能歸因于學(xué)生的成長(zhǎng)，也可能歸因于試卷偏容易。如果第二次測(cè)試的分?jǐn)?shù)提高明顯，我們無法知道分?jǐn)?shù)提高是由于學(xué)生獲得了“成長(zhǎng)”，還是第二次測(cè)試的試卷比較容易。只有兩次測(cè)試的成績(jī)可以進(jìn)行合理的轉(zhuǎn)換，可以排除掉試卷難度變化的影響，兩次測(cè)試才具有可比性。

這樣，就需要將具有不同難度、分?jǐn)?shù)分布的試卷的分?jǐn)?shù)轉(zhuǎn)換到一個(gè)統(tǒng)一的量尺之上，采用統(tǒng)一的量尺對(duì)應(yīng)考者進(jìn)行測(cè)量。這種將一個(gè)測(cè)驗(yàn)的不同版本的分?jǐn)?shù)統(tǒng)一在一個(gè)量表上的過程即等值（equating）。等值是成長(zhǎng)評(píng)估的關(guān)鍵技術(shù)環(huán)節(jié)。

近幾十年來，心理測(cè)量學(xué)家們對(duì)測(cè)驗(yàn)等值問題給予越來越多的關(guān)注，不僅提出了許多等值方法，而且圍繞等值問題展開了多方面的研究。在等值數(shù)據(jù)資料的收集方面，即可以采用以“人”為媒介的共同被試組設(shè)計(jì)，也可以采用以“題”為媒介的“錨測(cè)驗(yàn)”設(shè)計(jì)。在等值數(shù)據(jù)資料處理的理論模型方面，可以依據(jù)基于真分?jǐn)?shù)假設(shè)之上的經(jīng)典測(cè)驗(yàn)理論（classical testing theory，簡(jiǎn)稱CTT），也可以依據(jù)基于潛在特質(zhì)假設(shè)之上的項(xiàng)目反應(yīng)理論（item response theory，簡(jiǎn)稱IRT）。在兩種理論模型的框架內(nèi)，由于數(shù)據(jù)收集的方式及所采用的計(jì)算方法不同等，又存在著多種不同的等值方法[10][11][12]。

圖1 是一個(gè)包含30 題的測(cè)試在經(jīng)過等值之后得到的新試卷與標(biāo)準(zhǔn)卷之間的的分?jǐn)?shù)轉(zhuǎn)換表。從表中可以看出，與標(biāo)準(zhǔn)卷相比，新試卷偏難一些，在新試卷上獲得18 分，相當(dāng)于在標(biāo)準(zhǔn)卷上獲得了20 分。

圖1 兩份試卷的等值分?jǐn)?shù)轉(zhuǎn)換表

七、用于成長(zhǎng)評(píng)估的縱向量表化

美國(guó)教育協(xié)會(huì)（American Council on Education）和美國(guó)國(guó)家教育測(cè)量學(xué)會(huì)（National Council on Measurement in Education，NCME）共同組織編寫的《教育測(cè)量（Educational Measurement）》一書被人們稱為“教育測(cè)量領(lǐng)域的《圣經(jīng)》”[13，14]。在2006 年《教育測(cè)量》第4 版出版之前，教育測(cè)量領(lǐng)域曾廣泛使用“縱向等值（vertical equating）”概念。縱向等值的意思是，對(duì)于一些伴隨年齡和學(xué)習(xí)過程持續(xù)發(fā)展的能力，如閱讀能力、寫作能力、語(yǔ)言能力、數(shù)學(xué)能力等，需要編制開發(fā)從低到高不同水平的測(cè)試量表。考慮到不同級(jí)別的考試難度并不相等，從2006 年以后，人們不再將這種在不同水平的考試之間建立可比性的過程稱為“縱向等值”，而是稱為 “垂直量表化（vertical scaling）”，將這種由多個(gè)不同水平的測(cè)試組成的量表稱為“縱向量表（vertical scale）”。

在《教育測(cè)量》第4 版中，使用了一個(gè)上位概念，將在不同的測(cè)試之間建立可比性的過程統(tǒng)稱為 “連接（linking）”。將“連接”劃分為三種：等值、預(yù)測(cè)（prediction）和量表化（scaling）。在所測(cè) 量構(gòu) 念（construct）相同、水平相同的不同測(cè)驗(yàn)版本的分?jǐn)?shù)之間建立連接的過程，被稱為“等值”。在所測(cè)量構(gòu)念（construct）相同、但水平不同的不同測(cè)驗(yàn)分?jǐn)?shù)之間建立連接的過程，被稱為“量表化”。在所測(cè)量構(gòu)念不同的測(cè)驗(yàn)分?jǐn)?shù)和效度標(biāo)準(zhǔn)變量（validity criterion variable）之間建立聯(lián)系的過程，被稱為“預(yù)測(cè)”。

在美國(guó)各州的成長(zhǎng)評(píng)估中，采用較多的評(píng)估工具是縱向量表《智者平衡評(píng)估聯(lián)盟測(cè)試系統(tǒng)（The Smarter Balanced Assessment Consortium，簡(jiǎn) 稱SBAC）》[15，16]和《大學(xué)學(xué)習(xí)和就業(yè)準(zhǔn)備聯(lián)合測(cè)試》（Partnership for the Assessment of Readiness for College and Career，簡(jiǎn)稱PARCC）[17，18]。 SBAC 和PARCC都將《共同核心國(guó)家標(biāo)準(zhǔn)》（Common Core State Standards，簡(jiǎn)稱CCSS）作為成長(zhǎng)評(píng)估的依據(jù)。 CCSS 是美國(guó)從學(xué)前班到高中（K-12）教育的國(guó)家標(biāo)準(zhǔn)。

八、思維能力成長(zhǎng)評(píng)估在未來選拔性考試中的應(yīng)用展望

中考、高考、研究生考試等屬于選拔性考試。選拔性考試關(guān)注的焦點(diǎn)是“預(yù)測(cè)”，預(yù)測(cè)考生在高中和大學(xué)中的未來學(xué)習(xí)表現(xiàn)。

任何預(yù)測(cè)，都是一種發(fā)展趨勢(shì)預(yù)測(cè)。為了進(jìn)行預(yù)測(cè)，至少需要有不同時(shí)間的兩個(gè)觀測(cè)點(diǎn)。

圖2 預(yù)測(cè)模型

從圖2 中可以看出，過一點(diǎn)（B）可以做無數(shù)條直線，僅僅根據(jù)一次觀測(cè)的成績(jī)無法推斷一個(gè)人的發(fā)展趨勢(shì)。就是說，一次性測(cè)驗(yàn)分?jǐn)?shù)不具有預(yù)測(cè)意義。至少在時(shí)間t0、t1兩次觀察取得A、B 兩項(xiàng)成績(jī)時(shí)，才能過兩點(diǎn)做一條直線，從而預(yù)測(cè)t2時(shí)的能力狀況為C。

兩次觀察是進(jìn)行預(yù)測(cè)的最低限度條件，但遠(yuǎn)非充分條件。 t0、t1兩次觀測(cè)的誤差，可能使對(duì)t2時(shí)狀態(tài)的預(yù)測(cè)存在較大誤差。如果有多個(gè)觀測(cè)值，就可以根據(jù)多次觀測(cè)值計(jì)算一條回歸線，從而提高預(yù)測(cè)的準(zhǔn)確性。

不難理解，根據(jù)“達(dá)標(biāo)評(píng)估”推斷不出“潛力”，只有“成長(zhǎng)評(píng)估”才能成為推斷和預(yù)測(cè)“潛力”的依據(jù)。在未來的選拔性考試中，為了實(shí)現(xiàn)“預(yù)測(cè)”的目的，將會(huì)更多參考多次“形成性評(píng)價(jià)”的結(jié)果，而不僅僅是一次“總結(jié)性考試”的成績(jī)。

九、小結(jié)

在快速變化的21 世紀(jì)，學(xué)校教育最重要的任務(wù)是發(fā)展學(xué)生的思維能力。思維能力主要包含三項(xiàng)內(nèi)容：第一，交流溝通能力，主要是口頭和書面表達(dá)能力；第二，邏輯推理能力；第三，審辯式思維。對(duì)體現(xiàn)在認(rèn)知技能方面的思維能力，可以進(jìn)行客觀化測(cè)試。在思維能力評(píng)估中，不僅需要進(jìn)行“達(dá)標(biāo)評(píng)估”，還需要重視“成長(zhǎng)評(píng)估”。

思維能力的成長(zhǎng)評(píng)估

一、思維能力

二、思維能力可以進(jìn)行客觀化測(cè)試

三、“審辯式思維”試題與“閱讀理解”試題、“邏輯推理”試題的不同

四、從“達(dá)標(biāo)評(píng)估”到“成長(zhǎng)評(píng)估”模型

五、成長(zhǎng)評(píng)估的主要方法

六、成長(zhǎng)評(píng)估的關(guān)鍵技術(shù)環(huán)節(jié)——等值