內容簡介
《教育測量與評估(原書第二版)》的主要內容包括:(1)在對學生以專業的方式進行評估的時候,教師所應該掌握的必要知識與技能;(2)教育評估研究的意義。《教育測量與評估(原書第二版)》介紹瞭在評估中經常采用的必要的基本數學概念和知識;擴展瞭傳統的教育評估的內容,介紹瞭近幾年使用比較廣泛的錶現性評估和成長記錄袋評估;完整介紹瞭對殘疾學生評估所必須進行的評估調整;還討論瞭教育評估中的實踐。
目錄
譯者序
原書第二版前言
原書前言
第1章教育評估簡介1
1.1評估語言2
1.測驗、測量和評估2
2.測驗類型4
3.分數解釋的類型8
1.2教育評估的假設9
1.心理與教育結構是存在的9
2.心理與教育結構是可以測量的9
3.雖然可以測量結構,但測量並不完美10
4.存在不同的方法來測量任何給定的結構10
5.所有評估方法都有其自身的優勢和弱點10
6.信息的多種來源應該是評估過程的組成部分10
7.測驗中的錶現可以推廣到非測驗行為11
8.評估可以提供信息用來幫助教育工作者製定更好的教育決策11
9.可以用公平的方式進行評估11
10.測驗和評估可以使教育機構乃至整個社會受益12
1.3評估過程中的參與者13
1.開發測驗的人13
2.使用測驗的人14
3.參加測驗的人14
4.評估過程中的其他參與人員15
1.4教育評估與相關法律15
1.不讓一個孩子掉隊法案(NCLB,2001)15
2.殘疾人教育改進法案2004(IDEA,2004)16
3.1973年《康復法案》的第504條款(504條款)17
4.保護學生權利法案(PPRA)18
5.傢庭教育權利和隱私權法案(FERPA)19
1.5教育評估的常見應用19
1.學生評價19
2.教學決策20
3.選拔、安置和分類決策20
4.政策決策21
5.谘詢和指導決策21
1.6關於評估,教師需要瞭解什麼21
1.教師應該有能力選擇適閤做教學決策的、專業開發的評估方法22
2.教師應該有能力開發適閤做教學決策的評估方法22
3.教師應該有能力管理、評閱和解釋專業開發的和自己編製的評估方法22
4.在做教育決策時,教師應該有能力使用評估結果23
5.教師應該有能力開發包含評估信息的有效的評分方法23
6.教師應該有能力交流評估結果23
7.教師應該有能力識彆不道德、非法和其他不恰當使用評估的方法或信息23
1.721世紀的教育評估24
1.計算機自適應測驗(CAT)和其他技術進步24
2.“真實的”或復雜的錶現性評估25
3.教育問責和高風險測驗26
4.對殘疾學生評估的趨勢27
1.8總結28
1.9關鍵術語和概念30
1.10推薦閱讀31
1.11感興趣的互聯網網站32
第2章測量中的數學基礎33
2.1數學在評估中的作用33
2.2測量量錶34
1.什麼是測量?34
2.稱名量錶34
3.順序量錶35
4.等距量錶35
5.比率量錶36
2.3測驗成績的描述39
1.分布39
2.集中趨勢測量42
3.變異性測量46
2.4相關係數49
1.散點圖50
2.相關和預測52
3.相關係數的類型52
4.相關性與因果性54
2.5總結55
2.6關鍵術語和概念56
2.7推薦讀物57
2.8感興趣的互聯網網站57
2.9練習題58
第3章測驗得分的意義60
3.1常模參照和標準參照得分的解釋61
1.常模參照解釋62
2.用於常模參照解釋的派生分數67
3.標準參照解釋76
3.2常模參照,參照標準,或兩者的結閤80
3.3得分的定性描述82
3.4總結82
3.5關鍵術語和概念84
3.6推薦讀物85
3.7感興趣的網站85
3.8練習題86
第4章教師的信度87
4.1測量誤差88
1.測量誤差的來源90
4.2估計信度的方法92
1.重測信度93
2.復本信度94
3.內部一緻性信度95
4.評分者之間信度98
5.總評成績的信度99
6.選擇信度係數100
7.評價信度係數102
8.如何提高信度104
9.估計信度的特殊問題105
4.3測量的標準誤107
1.評價測量的標準誤108
4.4信度:教師的實踐策略110
4.5總結113
4.6關鍵術語和概念114
4.7推薦讀物115
4.8練習題115
第5章教師的效度117
5.1效度威脅118
5.2信度和效度119
5.3“效度類型”與“效度證據類型”120
5.4效度證據類型122
1.基於測驗內容的證據122
2.基於與其他變量之間關係的效度證據125
3.基於內部結構的證據132
4.基於反應過程的證據133
5.基於測驗後果的證據133
6.整閤效度證據134
5.5效度:教師的實踐策略135
5.6總結137
5.7關鍵術語和概念138
5.8推薦讀物139
第6章教師的試題分析141
6.1試題難度指標(或試題難度水平)142
1.特殊評估情況和試題難度144
6.2試題區分度145
1.區分度指標145
2.試題�艙�體測驗相關係數148
3.掌握測驗的試題區分度149
4.速度測驗的試題分析150
6.3乾擾項分析150
1.乾擾項如何影響試題難度和區分度152
6.4試題分析:教師的實踐策略153
6.5使用試題分析來改善試題154
6.6錶現性評估的試題分析157
6.7定性試題分析158
6.8使用試題分析改進課堂教學160
6.9總結160
6.10關鍵術語和概念161
6.11推薦讀物162
第7章開發課堂測驗的基本步驟163
7.1教育目標的特點164
1.範圍164
7.2教育目標的分類165
1.認知領域166
2.情感領域168
3.動作技能領域169
7.3行為與非行為教育目標169
7.4編寫教育目標170
7.5開發測驗提綱(或測驗藍圖)172
7.6按照測驗提綱來開發測驗173
1.常模參照和標準參照得分的解釋169
7.7在全州範圍內開發課堂測驗174
1.選擇使用哪種類型的試題174
2.裝配評估178
7.8讓學生為評估做準備和管理評估180
7.9總結183
7.10關鍵術語和概念184
7.11推薦讀物185
第8章選擇類試題的開發和使用186
8.1選擇題187
1.開發選擇題的準則188
2.選擇題的優勢198
3.選擇題的弱點201
8.2判斷題202
1.開發判斷題的準則203
2.判斷題的優勢205
3.判斷題的弱點205
8.3匹配題206
1.開發匹配題的準則207
2.匹配題的優勢209
3.匹配題的弱點209
8.4總結210
8.5關鍵術語和概念211
8.6推薦讀物212
第9章構造類試題的開發和使用213
9.1口試:作為構造類試題先驅的口頭論述214
9.2論述題215
1.論述題測驗的目的215
2.不同復雜程度的論述題216
3.限製型論述題與擴展型論述題218
4.開發論述題的準則219
5.論述題的優勢220
6.論述題的弱點221
7.評分論述題的準則223
9.3簡答題226
1.開發簡答題的準則228
2.簡答題的優勢229
3.簡答題的弱點230
9.4最後注意:構造類試題與選擇類試題231
9.5總結231
9.6關鍵術語和概念232
9.7推薦讀物233
第10章錶現性評估和成長記錄袋234
10.1什麼是錶現性評估?235
10.2開發有效錶現性評估的準則240
1.選擇閤適的錶現性任務240
2.開發測驗說明243
3.開發評分答案的辦法244
4.減少評分誤差的實施步驟248
5.錶現性評估的優勢253
6.錶現性評估的弱點254
10.3成長記錄袋256
1.開發成長記錄袋評估的準則256
2.成長記錄袋評估的優勢258
3.成長記錄袋評估的弱點258
10.4總結259
10.5關鍵術語和概念262
10.6推薦讀物263
10.7感興趣的網站263
第11章基於課堂評估來評定成績264
11.1反饋與評價265
1.正式和非正式評價267
2.在終結性評價中使用形成性評價268
11.2報告學生的進步:使用什麼符號269
11.3評定成績的基礎271
11.4參考框架272
1.常模參照評分(相對評分)272
2.標準參照評分(絕對評分)274
3.成就與改善或努力的關係275
4.成就與能力的關係275
5.建議276
11.5將各類得分閤並成總評成績276
11.6告知學生評分係統和獲得的成績281
11.7傢長會283
11.8總結283
11.9關鍵術語和概念284
11.10推薦讀物285
第12章高風險評估時代的標準化成就測驗286
12.1高風險評估時代288
12.2集體成就測驗290
1.商業開發的集體成就測驗291
2.各州開發的成就測驗296
3.增值評估:一個教育問責的新方法302
4.在學校中使用標準化成就測驗的最佳實踐303
12.3個體成就測驗308
12.4選擇成就測驗套裝311
12.5總結312
12.6關鍵術語和概念313
12.7推薦讀物313
第13章在學校中使用資質測驗314
13.1智力測驗的簡要曆史317
13.2在學校中使用的資質和智力測驗319
1.資質�渤刪偷牟钜�321
13.3特殊學習障礙的一個新的評估策略:乾預反應(RTI)323
13.4主要的資質/智力測驗324
1.集體資質/智力測驗324
2.個體資質/智力測驗330
3.選擇資質/智力測驗335
4.理解智力評估報告336
13.5大學入學考試350
13.6總結351
13.7關鍵術語和概念352
13.8推薦讀物353
第14章行為和人格評估354
14.1評估行為和人格355
1.反應定勢356
2.在學校中的行為和人格評估358
14.2行為評定量錶359
1.兒童行為評估係統�駁詼�版——教師和傢長評定量錶(TRS和PRS)360
2.Conners評定量錶�殘薅┌媯–RS-R)365
3.兒童行為檢核錶和教師報告錶(CBCL和TRF)366
14.3自陳測量367
1.兒童行為評估係統�駁詼�版——人格自陳(SRP)368
2.青少年自陳量錶(YSR)372
14.4投射技術372
1.投射畫374
2.完成語句測驗375
3.統覺測驗375
4.墨漬技術376
14.5總結377
14.6關鍵術語和概念378
14.7推薦讀物379
第15章評估調整380
15.1影響殘疾學生評估的重大立法381
15.2殘疾人教育法案(IDEA)382
1.IDEA的殘疾分類383
15.3第504條款387
15.4評估
精彩書摘
第1章教育評估簡介
為什麼要瞭解測驗與評估?
本章強調
評估語言教育評估的常見應用教育評估的假設教師需要瞭解的評估內容評估過程中的參與者21世紀的教育評估教育評估與相關法律學習目標閱讀和學習本章後,學生應該能夠:(1) 定義測驗、測量和評估。(2) 解釋和列舉不同類型的測驗。(3) 描述和列舉對不同類型得分的解釋。(4) 描述和解釋教育評估的假設。(5) 解釋評估過程中的主要參與者。(6) 描述和解釋評估在學校中的主要應用。(7) 解釋影響評估的主要聯邦教育法律。(8) 描述和解釋教師在教育評估中應該掌握的能力。(9) 解釋評估的主要趨勢。評估是教學過程不可分割的組成部分。評估可以而且應該為加強施教和促進學習提供信息。
對教師來講,學生主要是受教育的對象。在高校從教60多年的經驗告訴我們,他們一般不會對測驗和評估感興趣。的確,雖然學生知道他們要參加測驗,但測驗並沒有導緻他們選擇從事教師這個職業。教師熱愛學生,也熱愛教育,但對於測驗,他們經常采用負麵或充其量是中立的態度。這種傾嚮並不局限於教育學生。主修心理學的大學生通常喜歡心理學,因為他們想從事這方麵的工作並在這方麵給人們提供幫助。他們渴望成為谘詢師或心理治療師,但想專門從事評估的相對較少。在給本科生講授教育或心理測驗和測量課程的時候,我們覺得花些時間嚮學生解釋為什麼需要瞭解測驗和評估是重要的。這是本章的主要目的之一。我們想解釋為什麼需要瞭解測驗與評估,並希望這些努力是值得的。
教學往往被概念化為教師施教而學生學習的簡單過程。按照這種觀點,教學被看成一個教與學的過程。但在實踐中,更實際的看法是,評估是教學過程不可分割的組成部分。事實上,據統計,教師至少投入1/3的時間用於與評估有關的活動(Stiggins and Conklin,1992)。評估可以而且應該為加強施教和促進學習提供信息。換句話說,施教、學習和評估之間有著密切的關係。按照這種擴展後的教學概念,施教和評估是密切相關的,評估提供瞭一些客觀反饋,如學生學到瞭什麼,他們學得怎麼樣,施教是否有效,以及什麼樣的信息、概念和目標需要更多關注。將教學僅限定在施教和學習過程上是有局限性的,教學過程更準確的概念應該包括施教、學習和評估。在這個模型中,評估的目標就像施教的目標一樣,用於促進學生的成長(Gronlund,1998)。在現實的教育世界中,很難想象有效的教學不涉及某種形式的評估。對學生學習的評估做得越好,教師的教學效果也就越好。
下麵引用Stiggins和Conklin(1992)的話來說明,在教育評估的整個過程中,教師發揮著重要作用。
作為一個國傢,花費數十億美元用在教育評估上,包括數百萬美元用於國際和國內的評估,以及另外的數百萬美元用於州際的測驗項目。最重要的是,以地區性的測驗項目為基礎的標準化測驗形成瞭數十億美元的産業。如果將所有這些花費加起來,很明顯,在政治上占有重要地位的評估,竟然占不到實施美國學校評估的1%。而另外99%的費用是用在教師每時每刻、日復一日、周而復始的課堂評估上。
總之,如果你想成為一個好教師,你需要瞭解一些與測驗和評估有關的知識。施教和評估都是教學過程的組成部分,並且評估是教師日常工作的一個重要組成部分。通過這一章的學習,希望你對教育評估的作用會有一個更好的瞭解,盡管你可能不想專門從事與測驗和評估有關的工作,但你會領會到評估對整個教育過程的重要作用。
1.1評估語言
在前言中,已經使用瞭一些比較常見但有些技術性的術語。這裏介紹一些對進一步閱讀有益的術語定義。1.測驗、測量和評估 測驗是一個過程,在這個過程中采用標準化程序可以得到一個人行為的樣本並對其進行評價和評分(AERA et al.,1999)。
(1) 測驗:測驗(test)是一個工具或過程,在這個過程中采用標準化程序可以得到一個人行為的樣本並對其進行評價和評分(AERA,APA and NCME,1999)。這是一個相當寬泛或一般的定義,但在本書中將采用這個定義。當然,對不同類型的測驗,我們會提供更具體的信息。然而,在繼續學習之前需要注意的是,應該提一提我們所定義的測驗的一個特殊方麵。因為測驗僅是行為的樣本,所以至關重要的是,測驗反映的是你有興趣知道的具有代錶性行為的樣本。你的評估應該評定這樣的內容,即與你分配給它們的相對重要性要一緻。在我們對測驗和評估進行研究的時候,代錶性樣本概念的重要性將變得更加明顯;在後麵章節中介紹測驗的技術性能的時候,將會更詳細地涉及這一點。測量是給對象、特徵、屬性或行為分配數值的一套規則。
(2) 測量:測量(measurement)可以定義為給對象、特徵、屬性或行為來分配數值的一套規則。教育測驗是測量工具,涉及給一個人的錶現分配得分的規則(如管理指南和評分標準)。反過來,對這些得分的解釋又用來反映考生的特徵。例如,在拼寫測驗中,拼寫正確的單詞數量可以反映一個學生的拼寫能力。評估是收集信息的係統過程,這些信息可以用來推斷人或事物的特徵(AERA et al.,1999)。
(3) 評估:評估(assessment)是收集信息的係統過程,這些信息可以用來推斷人或事物的特徵(AERA et al.,1999)。評估應該導緻增加對這些特徵的瞭解。測驗顯然是一個收集信息的係統方法,因此是一套評估工具。從曆史記錄、訪談和觀察中得到的評論也是閤法的評估技術,當把這些信息集成起來的時候,會發揮很大的作用。因此,評估比測驗更廣泛、更全麵。
至此,已經定義瞭這些常見的術語,有一些我們不願意承認的觀點是,在實踐中,許多教育專傢互換地使用測驗、測量和評估這些術語。認識到這一點,Popham (2000)指齣,在當代教育界,評估已成為首選的術語。當應用於學生時,測量聽起來相對死闆和枯燥乏味,有避免使用的傾嚮。測驗有其自身的負麵含義。例如,幾乎每個星期報紙上刊登的有關“應試教育”或“高風險測驗”的文章中,測驗通常都帶有負麵的含意。此外,當人們聽到測驗這個詞時,通常認為是紙筆測驗。近年來,作為對傳統紙筆測驗越來越不滿的結果,導緻其他測驗得到瞭發展(例如,錶現性評估和成長記錄袋)。因此,測驗不再被看成現代教育實踐的特殊描述。這導緻瞭將評估作為教育工作者當前使用的流行語。心理測量學是心理測量的科學。信度指的是測驗成績的穩定性或一緻性。效度指的是對測驗分數解釋的準確性。
下麵,定義一些其他的術語。心理測量學(psychometrics)是心理測量的科學,心理測量學傢是專門從事測驗、測量和評估的心理或教育專業人員。你可能會聽到人們提到測驗的心理屬性,其實他們說的是測驗的測量或統計屬性。這些測量屬性包括信度和效度。信度(reliability)指的是測驗成績的穩定性或一緻性。理論上,信度是指測驗分數與測量誤差無關的程度(AERA et al.,1999)。與測量誤差相對無關的得分是穩定的或一緻的(即可靠的)。效度(validity),簡單來說,指的是對測驗得分解釋的適當性或準確性。如果測驗得分的解釋是為瞭反映智力,那麼它們實際上反映瞭智力嗎?如果測驗得分是用來預測工作上的成功,那麼它們能準確預測誰將在這份工作上成功嗎?
2.測驗類型
我們定義測驗是一個工具或過程,在這個過程中,采用標準化方法可以從中獲得一個人行為的樣本並對其進行評估或評分(AERA,APA and NCME,1999)。也許在你的生活中已經參加過大量的測驗,很可能你已經注意到,並不是所有的測驗都是一樣的。例如,參加學校的測驗是為瞭幫助確定其成績,參加駕照測驗是為瞭獲得駕駛執照,填寫調查問捲是為瞭幫助在教育和職業中做決策,在申請大學時要參加入學測驗,為瞭獲得專業證書和許可證也要參加測驗,以及參加人格測驗是為瞭獲得對人格的理解。這個簡單羅列顯然沒有窮盡所有的測驗。
Cronbach(1990)指齣,測驗一般可分為最大錶現性測驗和典型反應測驗兩種。最大錶現性測驗也常常稱為能力測驗,但成就測驗也包含在其中。在最大錶現性測驗中,試題的評分可以分為“正確”或“不正確”兩種,鼓勵考生展示他們最好的錶現。最大錶現性測驗(maximum performance
教育測量與評估(原書第二版) 下載 mobi epub pdf txt 電子書