在測驗統(tǒng)計中還經(jīng)常用到標準差,標準差是表征一組測驗數(shù)據(jù)的離散程度的量,用s表示。
2.物理測驗的評價指標:信度、效度、難度和區(qū)分度
(1)信度
信度是指一次測驗結(jié)果穩(wěn)定性、可靠性的程度,是描述一份試卷可靠性指標。信度的計算方法很多,這里只介紹一種實際應用較多的折半法,即折半信度的計算方法。首先將一份試卷分成盡可能等值的兩半(可將試卷按奇、偶數(shù)分成兩份),使這兩份試卷考查目的、內(nèi)容、題型、題數(shù)、難度分布、分值分配等相同或大致相同,這樣就相當于把其中的一半試卷在相同的條件下,對同一批學生考了兩次,從而考查考生在兩半測驗上得分的一致程度。先計算兩半測驗的關(guān)聯(lián)程度(即相關(guān)系數(shù)),用r表示。若考生總數(shù)為n,用 表示兩組試卷分數(shù),則:
( )
最后用斯皮爾曼-布朗公式求出折半信度:
測驗的折半信度為0.8為基本合格。影響信度的主要因素主要有評分的標準和試題數(shù)量,要提高信度,就要求排除評分的主觀隨意性,客觀評分;題量要足夠多。
(2)效度
效度是測驗的準確性指標。效度可分為兩類,一類稱為內(nèi)容效度,另一類稱為效標效度,對學生學業(yè)成就測驗考查的指標主要是內(nèi)容效度,所謂內(nèi)容效度是指測驗內(nèi)容對所要測量內(nèi)容的相符程度。分析內(nèi)容效度從以下兩方面考慮:
①要從測驗的教材內(nèi)容范圍(覆蓋面)和教育目標以及它們所占的比例分析。
②考查題目內(nèi)容與命題的雙向細目表是否相符,參考答案、評分標準是否合理。
(3)難度
難度指測驗的難易程度,難度的數(shù)值用P表示。
對選擇題或判斷題(也稱二值性試題),若總?cè)藬?shù)為n,某題答對人數(shù)為R,難度的計算公式為
對于非選擇題和判斷題(非二值性試題),可用某個題目所得的平均數(shù) 的比值來計算難度的數(shù)值。
這里計算的難度數(shù)值實際指通過率,P值越大,難度則越小;P值越小,難度則越大。一般P值在0--0.3之間為較難;在0.3--0.7之間為適中;在0.7--1.0之間為較易。
(4)區(qū)分度
區(qū)分度指題目對不同學生的區(qū)分程度(或鑒別力)。
區(qū)分度計算方法很多(曲線法、相關(guān)法、極端組法)常用的方法是極端組法,計算步驟如下:
首先將全體學生按總分由高到低的順序排列(大數(shù)量考生可采取抽樣排序),其次將前面占總體學生人數(shù)的27%的試卷劃為一組,稱為高分組,后面占總體學生人數(shù)的27%試卷劃為一組,稱為低分組,則區(qū)分度(用D表示)為某題高分組通過率PH 與低分組通過率PL的差值。
或 (二值性試題,n為高分組或低分組的人數(shù));
(非二值性試題)
一般認為用極端組法求得的區(qū)分度數(shù)值在0.40以上為優(yōu)秀;0.30--0.39 較好;0.20--0.29 需改進,0.19以下認為不可使用,區(qū)分度差。
難度與區(qū)分度有密切的關(guān)系。一般情況下難度適中的題目,區(qū)分度都較高,太難、太易的題目,區(qū)分度都較低。
交流與討論:
(1)你認為適宜難度的試題對測驗有哪些作用?
(2)你認為傳統(tǒng)的教學測驗和學業(yè)成就評價有哪些不合理的地方?
三、標準分數(shù)
一般情況下,由測驗的實際分數(shù)不能看出考生在團體中的位置,有必要將實際分數(shù)轉(zhuǎn)化為標準分數(shù),標準分數(shù)是以標準差為單位,表示一個分數(shù)在團體中的相對位置。
標準分數(shù)用符號Z表示,也稱Z分數(shù),計算公式為
其中s是這組分數(shù)的標準差, 是一組分數(shù)的平均數(shù), 是某一原始分數(shù)。標準分數(shù)可得正值,可為負值。平均數(shù)以上的各數(shù)的Z分數(shù)為正;平均數(shù)以下各數(shù)Z分數(shù)為負;等于平均數(shù)時,Z分數(shù)為零。
標準分數(shù)的應用主要在于確定原始分數(shù)在分數(shù)分布中的相對地位;也可接受代數(shù)運算,有廣泛的應用。
例如:某班學生李紅在期中、期末考試中,語文成績分別是88和84,物理成績分別是77和80,是否由此可得結(jié)論:李紅物理學習有進步,語文學習有退步?(各科班級平均分、標準差已知,見表7-3)
表7-3
科目 班級平均分 班級標準差s 李紅原始分數(shù) 李紅標準分Z
期中 期末 期中 期末 期中 期末 期中 期末
語文 80 74 8 8 88 84
物理 66 69 9 9 77 80
解:這是對同科不同次考試成績進行比較的問題,用標準分數(shù)進行分析。
把數(shù)值代入式 得
Z語中=(88-80)/8=1 ,Z物中=(77-66)/9=1.22 ,
Z語末=(84-74)/8=1.25 ,Z物末=(80-69)/9=1.22
結(jié)果說明,李紅的語文考試分數(shù)雖然降低了,但標準分數(shù)從1升至1.25,也就是相對位置升高了。物理考試分數(shù)雖然提高了,但標準分一樣,即相對位置沒有變化,因此不能簡單地認為李紅語文學習退步了,物理學習有進步。
在高考招生中,通常采用各科成績相加比較總分高低的辦法來錄取學生,使用范圍較廣泛。但卻有不夠合理、不夠科學的成分。這是因為各個學科考試試題的難易程度總不會相同,評分標準也不一樣,這必然形成有的科目的考分偏高,有的科目考分偏低,因此各科目的分值并不相同。這種情況下,將各科成績相加求和,比較總分就不合理了。如果先將各原始分數(shù)轉(zhuǎn)換成標準分數(shù),不管各科目的原始分數(shù)的平均分和標準差有多不同,一經(jīng)轉(zhuǎn)化成標準分數(shù),就變?yōu)橐云骄鶖?shù)為零,標準差為1的標準形式。也就是說,各科的標準分數(shù)的單位都相同。因此,將考生的各科標準分相加求和,來比較總分的高低就比較科學合理了。
在標準分數(shù)Z的應用中,由于標準分數(shù)Z分值過小,并往往帶有小數(shù)和負值等缺陷,在許多情形下直接使用不大合乎人們表示分數(shù)的習慣,故通常把標準分數(shù)Z通過線性變換,轉(zhuǎn)到更大的標準分數(shù)量表上,其一般轉(zhuǎn)換公式為:
T=a+bZ
上式中,a和b為選定的兩個常數(shù),Z為標準分數(shù),T為線性變換的標準分數(shù)。常見的有如下幾種:
①教育與心理測驗中的T分數(shù):T=50+10Z
②韋氏智力量表中各分測驗的量表分:T=10+3Z
韋氏智力量表智商(離差智商):IQ=100+15Z
③美國大學入學考試報告分數(shù):CEEB=500+100Z
④為出國人員舉行的英語水平考試:EPT=90+20Z
⑤美國教育測驗中心舉辦“托福”考試:TOEFL=500+70Z