timss數學實作評量試題在台灣試行 施測結果之分析比較

147
國立台中教育大學教育測驗統計研究所教學碩士論文 指 導 教 授:胡豐榮 博士 TIMSS 數學實作評量試題在台灣試行 施測結果之分析比較 研 究 生:蔡嘉宮 中 華 民 國 九 十 五 年 八 月

Upload: others

Post on 03-Nov-2021

12 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較

國立台中教育大學教育測驗統計研究所教學碩士論文

指 導 教 授胡豐榮 博士

TIMSS 數學實作評量試題在台灣試行

施測結果之分析比較

研 究 生蔡嘉宮 撰

中 華 民 國 九 十 五 年 八 月

謝辭

讀完了四個暑假論文也總算完成這中間的點點滴滴對於有兩個小孩的

我感受特別深刻而要感謝的人也太多了首先要感謝我的指導教授胡豐榮老

師在我寫論文的期間不斷的為我的論文細心修改並提醒叮嚀所上的規定

讓我能夠順利完成論文也讓我見識到嚴謹的治學態度對我往後教學生涯的影

響至為深刻同時也要感謝口試委員劉湘川校長與許天維所長為我的論文給予

教導與指正給我不同的觀念和視野使得本論文能更臻充實與嚴謹

另外要感謝曾經為我們授課的老師在這四個暑假中除了給予我們課程

的傳授之外並讓我們見識到一個好老師應該具備的教學態度及敬業精神還有

一起研究的同學國棟榮煌英哲宏鳴淑真跟您們一起讀書寫報告將

永遠豐富我的人生

還要感謝我的家人特別是我的妻子政君在我必須用心於課業上時能夠

給予我最堅強的支持不只照顧好我那兩個在這四年內出生的寶貝更操持整個

家務讓我無後顧之憂順利完成學業期間辛勞自是不言可喻在此要特別衷

心感謝她還有我的母親能夠幫我照顧兩個活潑的小孩默默支持我完成學業

為我無私的奉獻她的ㄧ生讓我深深體會有媽的孩子真是幸福

最後謹以此論文獻給我的妻子政君因為有她才能有這篇論文我的

人生也才能圓滿豐富

蔡嘉宫 謹致於

台中教育大學教育測驗統計研究所

2006 年 8 月

I

摘要 本研究旨在運用TIMSS實作評量的試題探討特定環境背景的國小四年級兒童

之學習成就與施測結果之比較是以本研究主要探討

一 特定環境背景的國小四年級兒童對TIMSS 1999實作評量的成績有何差

二 特定環境背景的國小四年級兒童對TIMSS 2003的實作評量試題的成

績在性別及班級間是否有差異

三 特定環境背景的國小四年級兒童對TIMSS 2003 的實作評量試題的成

績與台灣原始施測資料中的成績是否有差異

四 特定環境背景的台灣國小四年級兒童對TIMSS 2003 的實作評量之學習

成就與國際間是否有差異

本研究基於立意取樣故採臺中縣城鄉交界的國小四年級兒童共4班127

人為研究對象研究發現

一 在魔術師題型上民國95年的結果較佳在擲骰子題型上是民國89年

的結果較佳在猜一猜題型上民國89年的結果較佳此結果顯示在

幾何概念的對稱觀念上民國95年的學生有較佳的表現但在統計觀

念及概數觀念上民國89年的學生表現較佳

二 TIMSS實作評量在性別及班級之間沒有顯著差異

三 在圖形題題型上與台灣西元2003年施測結果沒有達到顯著差異在

數字卡題型上與台灣西元2003年施測結果沒有達到顯著差異在幾

何方塊題型上與台灣西元2003年施測結果達到顯著差異

四 在圖形題題型上我國優於新加坡比利時及美國在數字卡題型上

我國優於比利時美國在幾何方塊題型上我國優於新加坡香港

日本比利時美國

關鍵字TIMSS實作評量性別

II

III

Abstract

This study aims at using TIMSS to look into the performance assessment

of fourth-grade elementary students with a specific environmental

background Our purpose is to investigate the following questions

1 What are the variations of the test results between year 2000 and

2006 on TIMSS 1999

2 Are there discrepancies in regard to gender and class on TIMSS 2003

3 Are there differences between the result of fourth-grade elementary

students with a specific environmental background and the national

data on TIMSS 2003

4 Are there distinctions between the result of fourth-grade elementary

students with a certain environmental background and the

international data on TIMSS 2003

Using selective-sampling method this study chose its 127 fourth-grade

subjects from four classes in a school at the urban-rural line of

Taichung County We found that

1 The subjects showed better performance on the ldquoMagician questions

but poorer on the ldquoDice Throwing and ldquoGuessing questions

than a comparative group in 2000 This finding indicated that

students of year 2006 had a better idea of geometry yet students

of year 2000 demonstrated better comprehension in statistics and

approximate numbers

2 There was no significant difference between genders or classes

3 No differences were found on the ldquoFigure questions or

ldquoNumber-card questions between the subjects and 2003 mother

IV

group However the outcome on the ldquoGeometrical Square

questions reached significance than that of 2003 mother group

4 On the ldquoFigure questions our students performed better than

those of Singapore Belgium and USA On the ldquoNumber-card questions

they were superior to those of Belgium and USA On the ldquoGeometrical

Square questions they displayed better abilities than those of Singapore

Hong Kong Japan Belgium as well as USA

KeywordTIMSSperformance assessmentgender

V

目 錄

第一章 緒論

第一節 研究動機1

第二節 待答問題5

第三節 名詞釋義5

第四節 研究限制7

第二章 文獻探討

第一節 實作評量8

第二節 第三次國際數學與科學教育成就研究 25

第三節 TIMSS試題與國內數學課程關係之分析34

第三章 方法與步驟

第一節 研究架構40

第二節 研究工具發展40

第三節 研究的信效度與實作評量的試題架構47

第四章 結果與討論

第一節 利用TIMSS 1999實作評量試題比較民國89年跟民國95年的成績差

異49

第二節 利用TIMSS 2003實作評量試題檢視施測學校在性別及班級間是否

存在差異60

VI

第三節 利用TIMSS 2003實作評量試題比較施測學校與原始施測資料的成

績差異65

第四節 實作評量試題的類推性84

第五章 結論

第一節 結論88

第二節 建議90

參考文獻

壹 中文部分92

貳 英文部分96

附錄

附錄一 TIMSS 2003參與的國家102

附錄二 題目103

附錄三 給老師的話113

附錄四 分析資料補充125

VII

表目錄

表 2-1-1 實作評量與紙筆測驗的比較17

表 2-1-2 各種評量類型的比較18

表 2-2-1 TIMSS 2003課程架構27

表 2-2-2 維京評分系統28

表 3-3-1 試題架構48

表 4-1-1 95年魔術師題組得分情形分配表50

表 4-1-2 89年魔術師題組得分情形分配表50

表 4-1-3 魔術師ㄧ獨立樣本t 檢定51

表 4-1-4 魔術師二獨立樣本t 檢定52

表 4-1-5 魔術師三獨立樣本t 檢定52

表 4-1-6 95年擲骰子題組得分情形分配表53

表 4-1-7 89年擲骰子題組得分情形分配表54

表 4-1-8 擲骰子一獨立樣本t 檢定55

表 4-1-9 擲骰子二獨立樣本t 檢定55

表 4-1-10 擲骰子三獨立樣本t 檢定56

表 4-1-11 擲骰子四獨立樣本t 檢定56

表 4-1-12 擲骰子五 a獨立樣本t 檢定57

表 4-1-13 擲骰子五 b獨立樣本t 檢定57

VIII

表 4-1-14 95年猜一猜題組得分情形分配表58

表 4-1-15 89年擲骰子題組得分情形分配表58

表 4-1-16 猜一猜資料統計59

表 4-1-17 猜一猜獨立樣本t 檢定59

表 4-2-1 各題型之相關係數61

表 4-2-2 班級對總分之變異數分析62

表 4-2-3 性別對總分之組別統計量與t檢定表62

表 4-2-4 性別對各題之組別統計量與t檢定表63

表 4-3-1 95 年圖形題題組得分情形分配表66

表 4-3-2 圖形題百分比同質性檢定66

表 4-3-3 圖形題題組各國答對率的比較67

表 4-3-4 圖形題各題之資料統整68

表 4-3-5 圖形題各題之變異數分析69

表 4-3-6 圖形題各題之事後比較70

表 4-3-7 圖形題總分變異數分析的結果71

表 4-3-8 圖形題總分事後分析72

表 4-3-9 95年數字卡題題組得分情形分配表72

表 4-3-10 數字卡題題組各國答對率的比較73

表 4-3-11 數字卡題各題之變異數分析74

IX

表 4-3-12 數字卡題之事後比較75

表 4-3-13 數字卡題總分變異數分析的結果77

表 4-3-14 數字卡題總分事後分析77

表 4-3-15 95年幾何方塊題題組得分情形分配表78

表 4-3-16 幾何方塊題題組各國答對率的比較78

表 4-3-17 幾何方塊題各題之變異數分析80

表 4-3-18 幾何方塊題各題之事後比較81

表 4-3-19 幾何方塊題總分變異數分析的結果83

表 4-3-20 幾何方塊題總分事後分析83

表 4-4-1 實作評量概化程度變異成分表84

表 4-4-2 G研究與各種D研究之變異成分分析與推論力係數87

表附錄 4-1-1 圖形題各國得分統計表125

表附錄 4-1-2 圖形題各國事後分析表126

表附錄 4-2-1 數字卡題各國得分統計表128

表附錄 4-2-2 數字卡題各國事後分析表130

表附錄 4-3-1 幾何方塊題各國得分統計表132

表附錄 4-3-2 幾何方塊題各國事後分析表134

X

圖目錄

圖 2-2-1 1995年到2003年4年級學生的數學趨勢31

圖 2-2-2 4年級學生在男女性別上的差異33

圖 2-2-3 1995 到2003年的男女生進退步情形34

圖 4-1-1 百分比圖表比較結果51

圖 4-1-2 百分比圖表比較結果54

圖 4-1-3 百分比圖表比較結果59

圖 4-3-1 圖形題題組答對率之比較圖67

圖 4-3-2 數字卡題題組答對率之比較圖73

圖 4-3-3 幾何方塊題題組答對率之比較圖79

1

第一章 緒論

本研究主題是利用 TIMSS 1999 跟 TIMSS 2003 的公開實作評量試題為測驗工

具比較探討台灣學生在這方面的進退步情形本章節將說明本研究的研究動機

與目的問題和研究中所用的特定名詞

第一節 研究動機 從民國八十二年民間團體發起了 410 教改大遊行迄今此波教育改革歷時 12

年最近因為中央研究院李遠哲院長在立法院接受立委質詢時對教育改革因為

沒有減少學生的壓力而公開道歉(中時電子報 2005)又引起了一陣教改失敗

的言論其實改革是多面向的學生的壓力固然是改革的重點但學生的程度更

是我們所關心的畢竟學生的程度關係著下一代的競爭力所以在國民中小學九

年一貫課程綱要(教育部民 92)中特別提到迎接二十一世紀的來臨與世界各

國之教改脈動政府必須致力教育改革期以整體提升國民之素質及國家競爭

力所以改革是為了回應社會期待以及國家發展的需求基於此項認知由中

央研究院國科會和教育部共同規劃的「台灣地區教育長期追蹤資料庫」(Taiwan

Education Panel Survey簡稱 TEPS)預計用六個學年國中樣本從 2001 年 9

月開始高中樣本分成 2001 年下半年和 2003 年上半年進行兩個梯次的資料收

集主要研究團隊包括六位中研院全職研究人員投入大量的時間與精力以及多

位大學相關領域之研究者積極參與可見這項工程的浩大與重要所以本研究主

要為利用一份已發展成且具有信效度及良好試題特性的國小數學實作評量題目

來進行施測其結果除了跟民國 89 年研究者徐美英的結果相互比較學生程度差

別外並為後續研究者提供相互比較的基準

國際教育成就調查委員會 (The International Association for the

Evaluation of Educational Achievement簡稱 IEA) 主辦的「國際數學與科

學教育成就趨勢調查」(Trends in Mathematics and Science Study 2003簡

2

稱 TIMSS 2003)是自 1995 年以來第三次主辦連續週期性調查學生的數學和科學

成就主要目的在提供各國長期追蹤學生數學和科學趨勢成就以提升學生數學

和科學的學習成效由此可見學生程度一向是國際重視的課題世界各國尤其

是美國不斷的監測自己國家學生的程度不僅僅與國際上各國進行比較並將

資料建檔也進行縱貫比較另外除了本研究所提的 TIMSS 是針對數學與科學外

還有PIRLS針對語文科進行比較PIRLS目前有2001跟2006年兩年資料而TIMSS

則已經有 199519992003 三年的施測2007 年的施測目前已經開始進行籌劃

TIMSS 2003 以 13 歲群(即國二生)和 9 歲群(即小四生)為調查對象國科會和

教育部體認到未來我國國民在國際上競爭力的重要性希望持續了解我國學生的

學習成就與家庭背景學習環境教師等影響因素的關係以及我國學生的學習

特色與優缺點並與其他國家進行比較提供改進我國中小學數學及科學教育政

策及課程之參考並積極參與國際間科學教育的交流與合作因此補助國立台灣

師範大學科學教育中心進行 TIMSS 2003 調查研究TIMSS 2003 從 2000 年九月

開始發展研究調查相關工作總計有 49 個國家參加其中 48 個國家參加 13 歲

群調查26 個國家參加 9歲群調查我國自 2001 年元月開始加入 TIMSS 2003 國

際調查工作包括提供命題架構意見數學和科學試題命題試測(field test)

資料收集參加專家問卷會議實測(main survey)資料收集參加公佈 TIMSS

2003 結果記者會國際成果指標會議國際資料分析會議等各項工作國內學者

引用 TIMSS 相關資料進行相關研究的有

(1)徐美英TIMSS 數學實作評量在台灣之試用探討(民國 89 年)

(2)洪瑞鎂從「第三次國際數學與科學教育成就研究後續調查」探究台灣國

二學生的數學基本能力(民國 90 年)

(3)洪佳慧由教科書內容與性別面向分析我國國二學生在第三次國際數學與

科學教育成就研究後續調查(TIMSS-R)的學習表現-生命科學以及環境與資源議

題部分(民國 91 年)

(4) 劉佳容我國國二學生在 TIMSS-1999 中之理化學習成就分析(民國 91 年)

3

(5)侯怡如由考試文化的角度分析我國學生在 TIMSS 1999 的答題表現----生

命科學部分(民國 92 年)

(6) 鄭心怡教育指標與經濟指標對學業成就影響之國際比較以 TIMSS 為例

(民國 93 年)

(7)羅珮華從「第三次國際科學與數學教育成就研究後續調查(TIMSS 1999)」

結果探討國中學生學習成就與學生特質的關係七個國家之比較(民國 93 年)

(8)顏秀玫我國小學四年級學生在「2003 年國際數學與科學教育成就趨勢調

查(民國 93 年)

(9)張謝玲宜蘭區某國中國二學生 科學成效影響因子之探討-引用國際調查

報告 TIMSS-R 之研究方法(民國 93 年)

綜觀上述國內學者研究的內容可以發現均重視該年段橫向的比較而缺乏

進行縱貫的研究值此世界各國進行教育大改革之際台灣也難免追隨這波改革

浪潮在課程內容與制度大變動之際學生是否保持原有的程度或甚至更好是

值得我們更加關注在國民中小學九年一貫課程綱要(教育部民 92)中針對

數學科明確提出下列四個原則一 參考施行有年且有穩定基礎的傳統教材

二 採用國際間數學課程必備的核心題材三 考慮數學作為科學工具性的特

質四 現有學生能夠有效學習數學的一般能力具體而言九年一貫數學學

習領域的教學總體目標為

(1) 培養學生的演算能力抽象能力推論能力及溝通能力

(2) 學習應用問題的解題方法

(3) 奠定下一階段的數學基礎

(4) 培養欣賞數學的態度及能力

其中國民小學階段的目標為

(5) 在第一階段(一至三年級)能掌握數量形的概念

(6) 在第二階段(四至五年級)能熟練非負整數的四則與混合計算培養流暢

的數字感

4

(7) 在小學畢業前能熟練小數與分數的四則計算能利用常用數量關係解

決日常生活的問題能認識簡單幾何形體的幾何性質並理解其面積與體積公

式能報讀簡單統計圖形並理解其概念

由以上的課程目標中可以清楚的看出數學課程的改革內容除了參考以往課

程內容之外也參考國際的課程內容進行改革並因為數學具有工具性的性質

具體的指出各階段需要具備的基本能力研究者希望透過已具有信效度及良好試

題特性的國小數學實作評量題目的施測一方面跟國際資料庫進行學生程度的比

較另一方面也跟徐美英TIMSS 數學實作評量在台灣之試用探討(民國 89 年)

在台灣施測的資料進行縱向比較以了解學生在這幾年的教育改革中在國小四

年級這個範圍內透過實作評量的方式評斷出來的能力是否有所差異

徐美英論文中指出其自編試題(猜一猜)學生能夠完整的敘述解釋百分比

僅達 549所以表示台灣學生在以數學語言的溝通上尚待加強而該試題與

TIMSS 試題有一定程度相關的是擲骰子繞過彎道和魔術師所以本研究研究者

打算選取其中 3 題(猜一猜擲骰子魔術師)找跟原論文相似的環境(住宅

跟工業混合區的學校)進行施測將兩項資料進行比較以探討在這樣的環境背

景中的學生經過這 5年的教育改革後對這個範圍內經由實作評量所測出來的

能力是否有所不同另外再從 TIMSS 2003 已公佈的實作評量題目中找出 3

題(幾何方塊數字卡圖形題)進行施測其結果跟國際資料庫進行比較進

一步探討這樣環境下的學生跟原始台灣施測資料中的學生是否有程度上的差

異跟國際上整體表現較好的國家學生的表現比較是否有程度上的差異

本研究測驗題目將從徐美英論文中選取 3 題從 TIMSS 2003 公佈的實作評

量試題中選取 3題並以 TIMSS 對實作評量採取的維京評分系統(又稱建構反應

評分系統Constructed Response簡稱 CR)為評分工具資料用 SPSS 進行分

析比較並以推論力理論推算本次施測的信度係數研究者希望能從施測中獲得

教育改革的成果從實作評量的角度是否是進步的並期待施測的資料能提供

未來需要再做類似研究者的比較基準

5

第二節 待答問題 壹探討特定環境背景的台灣國小四年級學生在民國 89 年與民國 95 年對

TIMSS 1999 實作評量的成績有何差異

貳探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 實作評量的

成績在性別及班級間是否有差異

叁探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 實作評量的

成績與台灣原始施測資料中的學生實作評量成績是否有程度上的差

肆探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 的實作評量

成績與國際上整體表現較好國家的學生實作評量成績是否有程度上

的差異

第三節 名詞釋義

壹實作評量

在教室情境中學生有幾類學習行為及其成就表現是無法用客觀式紙筆測

驗來正確評量出來的這些學習行為表現包括

(1)溝通技能(如說話口語表達演講朗讀寫作等)

(2)心理動作技能(如實驗室內的儀器操作書法打字繪畫工藝烹

飪樂器演奏戲劇表演等)

(3)運動技能(如跑跳直球游泳舞蹈等運動技能)

(4)概念應用(如應用所學的概念和知識解決日常生活所遇到的實際問題)

(5)情意特質(如團隊合作遵守規定自我反省等)

這些都是強調實際的表現行為(actual performance)都需要教師根據學生的

表現過程之有效性或最後完成作品的成果品質分別或合併地進行評分才能決

定學生在這方面學習的成就高低這種強調實際表現行為的評量方式稱為「實

6

作評量」(performance assessment)(余民寧民 93)所謂實作評量就是在自

然或已建構好的環境中要求學生執行或處理(process)一件指定的工作並

由教師觀察或評鑑學生的建構性反應的過程與結果看他們是否適當精確和完

美的達成教學目標(歐滄和民 91)

貳TIMSS

國際數學與科學學習成就調查研究係由國際教育學習成就調查委員會主

持主要目的在於了解各國數學與科學學習成就與各國文化背景教育環境影響

因子之相關性並進一步做國際間之比較研究分析第一次國際數學與科學教育

成就調查於 1970 年舉行共有 19 個國家參與經十年後1980 年進行第二次國

際數學與科學教育成就調查(SIMSS)有 24 個國家參與我國曾於 1987 年 5 月

經 IEA 總部同意引用第二次國際數學與科學教育成就調查工具在我國進行測

驗(但不是正式參加)由國立台灣師範大學科學教育中心負責執行以了解我國

國小國中及高中學生數學及科學成就在國際上所佔的地位IEA 自 1990 年開始

推動進行「第三次國際數學與科學教育成就研究(Third International

Mathematics and Science Study TIMSS)」本計畫有四十餘國參加第三次國

際數學與科學教育成就研究後續調查(稱為 TIMSS REPEATTIMSS-R)於 1999 年

舉辦調查對象為國二學生(13 歲群)共有 38 個國家參加鑒於世界各國對國

際數學與科學教育成就研究的熱烈反應IEA 計劃往後每四年辦理國際數學與科

學教育成就研究一次並改名為國際數學與科學教育成就趨勢調查(Trends in

International Mathematics and Science Study 簡稱 TIMSS )TIMSS 2003

的調查對象包括國小四年級及國中二年級學生TIMSS 的測驗內容包括數學跟科

學並從學生教師和校長們的回答中廣泛地蒐集有關數學跟科學教學與學習資

料另外還經由課程指引教科書和其他教學媒體的分析探討參與國家的數學

7

和科學課程並將結果發表成一系列的國際報告讓參與國家的教育政策制定者

和實務工作者得到有關在數學與科學教學上跟學生學習成就上的珍貴訊息

第四節 研究限制

本研究對於整個計畫的擬定與進行過程中由於在時間上與人力上尚有所不

足的影響以至於對本研究的進行有所限制茲分別就研究工具與分析研究樣

本與應用範圍兩方面說明之

壹研究工具與分析

在 TIMSS 2003 試題部分由於是翻譯試題照理應該經專家學者進行反譯

程序以確保試題的原意未被扭曲但因資源限制所以只經國小專任資深英文

教師與研究者討論而定案

貳研究樣本與應用範圍

因人力與時間的限制只能選擇一間學校來實驗因樣本受限於某一學校

所以本研究的結果與建議限制受限於相同類型的學校

8

第二章 文獻探討

本研究的文獻探討將分成三節第一節為探討實作評量的意涵和特色以及

國內相關實作評量的研究第二節為 TIMSS 的簡介及國外相關的研究第三節為

TIMSS 試題與國內數學課程的分析

第一節 實作評量

壹實作評量的緣起

長久以來多數人將評量窄化為紙筆測驗的考試用考試的成績來論斷一個

人的高下使得評量的目的偏狹方式單調內容枯躁意義盡失再加上過度

倚賴標準化測驗常導致課程窄化且易流於基本技能與片面瑣碎事實的學習忽

視複雜思考和問題解決能力(江文慈民 87詹志禹民 85)簡言之考試第

一分數至上的迷思等於將評量窄化了也扭曲了評量的目的更簡化了評量

的結果事實上考試只是評量的方法之一評量的目的是要提供學生有益的回

饋評量的改革意味著教學與課程發展的改進因此在教育改革中教師要採

用新的評量方式以符合教學的新趨勢評量的意義在於了解學生學習與教師教

學之用其主要的目的是在教育的過程能隨時掌握學生的學習讓教師明白教

學情況藉以發揮教育的效率與效能實作評量受到歡迎的主要原因之一是一

般人對於選擇式的測驗題感到不滿意例如選擇式的測驗題只能測量學生「知

道」什麼但無法測量學生「能做」什麼此外認為以選擇題為主的標準化測

驗對於教師的教學和學生的學習造成一些偏差的影響標準化測驗經常是一般家

長用來評估學校教學績效的方式在績效的壓力之下造成部分教師教學側重於

測驗的內容而扭曲了教學的面貌和窄化學生的學習結果在教育改革的推動

上教育界期望藉著評量的革新來提升教師教學的品質和學生學習的成就此

外一些入學考試和證照考試也在原有的選擇題之外增加建構反應題或實作測

9

驗部分實作評量在教育界和測驗界已是一個非常顯明的趨勢Silver(1993)

認為假如我們沒有將看過或聽過的數學留住那它將永遠不會變成我們的知識

所以實作評量吸引人的地方正在於它讓教師更能洞悉學生的思考並將所得的訊

息直接應用在教育計畫中

實作評量的提倡者主張實際工作的評量模式比紙筆測驗更能充分深入的了

解學生的知識和理解程度(Haertel amp Linn1996)以下將各學者對實作評量

的定義整理概述如下

一以觀察和專業判斷來評量學生學習成就的評量方式都可以稱為實作評量其

型式非常的多元化例如建構反應題書面報告作文演說操作實驗

資料蒐集作品展示等都是實作評量的例子( Stiggins 1987 )

二案卷評量也是實作評量的一種型式實作評量具有下列幾點特徵

(一)要求學生執行或製作一些需要高層思考或問題解決技能的事或物

(二)評量的作業( tasks )是具有意義性挑戰性且與教學活動相結合

(三)評量的作業能與真實生活產生關聯

(四)歷程( process )和作品( product )通常是評量的重點

(五)表現的規準( criteria )和標準( standards)-也就是評量的重

要層面與給分標準要事先確定實作評量有時也被稱為真實性評量

(authentic assessment )( Herman Aschbacher amp Winters 1990 )

三實作評量可視為『以超越傳統評量方式為了解學生熟練度而蒐集資料的一

種評量方式』(DnubarKoretz amp Hoover1991)

四實作評量不僅反應出學生解答的正確性同時也顯現出其得到答案的過程

(Ruiz-primoBaxter amp Shavelson1993)

五實作評量是應用各種評量方式評量各種能力及技巧要求學生展示知識的

應用而非僅展示知識的本身(Long amp Stansbury1994)

六實作評量乃是模擬一些標準情境(亦即是在自然情境下的實作)之測驗其

10

模擬的程度高於一般紙筆測驗所代表者(陳英豪吳裕益民 85)

七實作評量係指根據學生實際完成一項特定任務或工作表現所作的評量這些

任務或工作可能是實際操作口頭報告科學實驗數學解題寫作hellip等

因此其所使用的方式係透過直接的觀察學生表現或間接的從學生作品去

評量(吳清山林天祐民 85)

八凡是以學生在評量過程中的表現或成果作為評量的依據再根據教師的判

斷用事先指定的標準來評定等級的評量方式都可稱之為實作評量(夏

淑琴民 88)

貳實作評量的特色

綜合國內外學者觀點實作評量具有以下特色

一銜接教學與評量教學與評量的密切配合可以對學生的學習情形提供較全面

性的完整的深入的訊息此訊息可以幫助老師更了解學生的學習優勢及

問題掌握學生真正的能力及進步情形使老師能在教學上做適當的調整來

幫助學生解決問題提升其學習水準而惟有重視過程的評量學生才有機

會去反思自己學習上的問題省察如何在學習上求進步而這些也才是真正

的學習

二使學習更有意義更深入強調教學與評量的內容應為重要的完整的概念

而非瑣碎知識的累積應重視思考與問題解決能力的培養而非低層次的記

憶與歸納它的目的在幫助學生獲得完整有意義的概念增進表達技巧及

運用策略的能力並激發學生從事較複雜的深層思考所以實作評量著重脈

絡下有意義的學習在教學與評量的過程中它鼓勵學生主動探索深入思

考並表達學習此種評量方式有助於提升學生的思考及問題解決能力使

學生的學習更有意義更為深入

11

三強調學生知道什麼能做什麼實作評量的重心不在於偵測學生哪裡做錯了

而在於強調學生知道什麼能做什麼及如何再進一步知道得更多做得更

好簡言之其精神是「你會做很多事你還可以學會更多事」對於學生

嘗試去做好某一件事的努力(縱然尚未達到預期的目標)也給予正面的回

饋以學習理論而言較符合學習理論中的公平性或正當性亦即努力是有

收穫的

四強調與實際生活的結合實作評量可以讓教師瞭解學生對問題瞭解程度投

入程度解決的技能和表達自我的能力能夠較完整的反映出學生的學習結

果因為實作評量與真實生活較為相近其支持者認為實作評量能夠增進學

生學習的動機提高學生參與和投入的程度

五幫助學生建構有意義的學習情境發展問題解決能力批判性思考和表達自

我的能力

六有時候實作評量也可以做為一種教學策略提高學生的學習興趣和學習結

果評量和學生的學習以及老師的教學應該是密不可分並且互相支援的評

量的目的是幫助學生學習跟老師教學所以評量應該是自然的融入出現在

課堂而不是強制性的加進課堂上實作評量與實際教學過程有相當密切的

關係往往可以成為實際教學的一部份實作評量本身就是一種有效的教學

活動

七鼓勵合作學習許多文獻顯示合作學習可以提高學生的學習成就增強學

生的理解能力藉由溝通與辯論的過程學生可以重述自己的概念架構和知

識體系以促成有效的概念改變並達到有意義的學習在一個小組合作評

量的情境下藉由同儕的誘導和鼓勵彼此意見的分享並相互進行共同評

量是提高學生成就表現的重要機制

八直接評量排除語文能力的干擾實作評量比較不需要用到語文能力這對

於閱讀或文字表達能力較差的學生而言是比較公平的

12

叁實作評量的目的

Webb(1992)認為一個好的評量應具備四個目的第一個目的是成為教師蒐

集資料的工具透過評量的回饋教師可以知道學生學會多少和能做什麼第二

個目的是要表達學生在學習過程中所做所學的哪些東西是有價值第三個目的

是提供教育決策者一些教學績效之訊息最後的目的評量應該對整個教育體系

提供積極之建議(張敏雪民 86)雖然評量方式會因不同的評量目的而有所

不同然而現行的紙筆測驗過於強調排等第忽略了評量原先之目的教師只

教要考的學生只讀要考的成了所謂「考試領導教學」然而二十一世紀的

國民不是只會在試卷作答的人而是要有「分析預測及適應能力的人」簡而

言之就是能為生活而思考的人(曾慧敏民 87)實作評量重視教育過程本身

的價值和學生主動建構的能力因此重視學生學習過程和結果讓學生有意義

的學習使學生能靈活應用所學不僅評量認知層次也評量技能及情感層次

較傳統的紙筆測驗更能蒐集到學生較豐富的學習訊息

實作評量的目的如下(桂怡芬民 85曾慧敏民 87 Linn 2000)

一檢視學生學習成果是否能達到教學期望的結果

二從評量的結果能清楚交代學生的學習成就

實作評量能直接觀察學生到達結果的過程不只是評量答案之正確性能完

整的呈現學生在複雜能力及歷程上的表現並能依表現推論其構念表現

三藉由此評量可展現學生的技能和能力

實作評量除了能直接的測出學生問題解決的歷程與結果也能展現出高層次

認知情意與技能及後設認知等能力

四使得教學與評量能充分配合

實作評量注重與教學的互動其主要的目的為幫助學生的學習與改進教師的

教學

13

五為課程改革的重要指標

因實作評量標榜著可提升學童高階思考與問題解決的能力因此在教育改革

時備受重視

肆實作評量步驟

實作評量強調在和生活相關的情境下能讓學童展現所知所學的能力來解

決問題然而若是活動或作業設計不夠完整評分規準不夠明確等都可能導

致實作評量無法達到預期的目的(鄒慧英民 87)因此應如何設計出一份好

的實作評量試卷呢(Stiggins 1994)以下提出幾個注意要點

一確立設計評量的原因與目的

評量之所以實施一定有其原因包括確定評量結果所要作的決定例如

分組個別鑑定等第評定與優缺點的診斷等接著考量評量結果是否用於「排

名」或用於決定學生否達到精熟水準

二設計實作評量的內容

(一)選擇作業的形式

可以蒐集教室中自然而然發生的事件也可以設計結構化作業引發

學生表現的機會測出學生真實能力的實作評量

(二)決定評量的實施情境

因為怕受試者的動機與考試的焦慮可能影響學生的真實能力之表

現施測者可考慮事先告知學生相關評量的性質與評分標準因此在一

般的測驗情境下應先觀察受試者的焦慮情形再決定是否事先告訴受試

者評量事宜或採取不事先告知以測出學童最大的表現能力本研究採取

後者

(三)確定所要編製的實作試題數

14

決定實作題目數量應考慮評量的作業是否具代表性蒐集到的證據數

量是否可以提供較精確的學生能力思考層次

三確定實作評量成績計分標準

(一)決定分數的型式

如果評量的目的是做為分組或選擇的依據則可採整體性評分若是

診斷或檢定學童的基本能力可採取分析性細部評分本研究為診斷學童

分數的學習能力採用開放式的結構題型由學生自行建構答案因此

根據不同的答案給予不同層次的分數

(二)選擇評分者

評分者可為教師專家同學或受試者本身但基本上所有的評分

者得先接受專業的評分者訓練使每個人對評分歸準有所共識本研究請

已有五年以上之教學經驗的教師擔任評分者

(三)紀錄評分結果的方法

可採用檢核表評定量表軼事紀錄表等評定量表同時呈現了觀察

項目及分數評比常用於歷程與結果之評量適用於各學科之實作評量

本研究採用評定量表來紀錄評量結果總之發展實作評量時首先需

澄清「教學目標」與「評量的目的」是必要的其次「評量內容」或「評

量對象」取樣的代表性更是影響評量效度的重大因素最後清楚的「評

分規準」與完整的「評分者訓練」及詳細的「評分程度」則是影響評量的

信度唯有如此才能獲致高品質的實作評量(鄒慧英民 86)

伍實作評量的限制

一實施上非常耗費人力時間跟金錢

真正在實施實作評量時通常會受到器材跟場地的限制或是因為擔心產生相

15

互干擾因素而一次只能有限個學生同時進行施測這點跟團體施測的紙筆測驗

相比是非常耗費人力跟時間另外實作評量常需要有器材設備以及消耗性材料這

點跟團體施測的紙筆測驗相比是非常耗費金錢

二測驗情境控制困難

由於不是同時全體施測所以先後受測的學生容易相互干擾而且未受測

的學生跟已受測的學生的交談或傳授經驗也影響到考試的公平性加上前後施

測使得後面的同學很難有一致的施測條件例如場地未乾淨儀器未復原或被

損壞等

三計分不容易客觀

實施實作評量的目的不外乎想根據評量結果來為學生做決策因此獲

得一個正確而又可靠的評量結果(即高信度跟高效度值)便成為一件很重要的

事然而很不幸的實作評量如論文評分一樣由於是使用觀察跟判斷等兩類比

較主觀的評分方式來進行所以其結果難免具有很高的評分者誤差存在一般而

言評分者誤差有三種來源偏見月暈效應跟評量次數過少

四對容易焦慮的學生不利

實作評量的正式性與控制性會使得缺乏自信心或很在意他人評價的學生

產生過度焦慮進而影響其表現

陸實作評量的信效度

實作評量的信效度仍有待探討實作評量的信度通常是以概化程度

(generalizability)來描述(BaxterShavelsonGoldmanPine1992Dunbar

et al1991LinnBakerDunbar1991Linn1993Moss1994Ruiz-Primo

et al1993ShavelsonBaxterGao1993)概化程度包括評分者之間一致

的程度以及學生在不同工作項目(task)表現的一致程度(Shavelson et

16

al1993)根據 Shavelson 等人的研究結果發現實作評量在評量工作項目方面

的概化性較低顯示學生在不同工作項目上的表現有較大的差異在效度方面

實作評量所顯露出的問題有以下三個

一客觀性及公平性實作評量通常僅以一個評分者評定學生的表現所以

評量的結果可能過於主觀或有潛在的偏見(bias)問題(Airasian1991

Frechtling1991Linn et al1991Linn1993)

二評量內容的涵蓋性由於實作評量實施方式及時間的限制通常所評量

的學生行為表現較傳統測驗為少即評量內容的涵蓋範圍較小不易獲得學生行

為的適當樣本(Airasian1991Linn et al1991Linn1993)

三成本及效率問題這部份即時間與經濟的考量Linn 等人(1991)Linn

(1993)及 Messick(19941995)將這一點併入實作評量的效度標準

Baxter 等人(1992)Ruiz-Primo 等人(1993)及 Shavelson 等人

(199119921993)均從概化理論(generalizability theory)的觀點出發

採用取樣架構(sampling framework)來分析實作評量的信度(概化性)探討

評分者間評量項目間評量時間等的取樣變異以及其他潛在的誤差來源他們

針對神秘的電路盒(electric mysteries)毛細現象(paper towels)及小蟲

的習性(bugs)等評量項目採專家觀察(expert observation)實驗筆記

(notebook)電腦模擬測驗(computer simulation test)及紙筆測驗等方式

記錄學生的表現研究結果發現與評分者有關的取樣變異不大評量時間的取

樣變異極小而評分者與受試者間的交互作用(ratertimesperson interaction)和

評分者與評量項目的交互作用(ratertimestask interaction)這兩個部份的變異也

幾乎為 0故他們認為只要一個經過良好訓練的評分者(one well-trained

rater)即可用以評定學生在實作評量上的表現但他們發現在實作評量中評

量項目與受試者及該兩者與時間的交互作用是兩個最大的變異來源研究結果顯

示學生的表現因為工作項目的不同而有極大的差異而這樣的變異在不同時機上

17

更是明顯因此欲提高實作評量結果的一致性必須增加評量的工作項目使得以

學生在實作評量上的行為表現做其能力的推論時能夠降低與學生實際能力無關

的變異

Baxter 等人(1992)及 Shavelson 等人(19921993)主要是從評量對學生

能力的鑑別程度不同評量方式間的輻合效度不同特質及方法間的區辨效度等

三方面探討實作評量的效度他們的研究結果顯示不同的測量方法所得到的結果

並不一致Shavelson 等人(1993)發現在同一個工作項目之下不同的測量方

法中實驗操作與實驗記錄的相關最高實驗記錄與紙筆填充測驗及電腦模擬測

驗與紙筆填充測驗之間的相關最低這是因為實驗操作與實驗記錄為同一思考流

程所以相關較高此外他們也發現受試者與工作項目及測量方法間的交互作

用及誤差是變異的最大來源表示不同的測量方法可能是在測量科學成就的不同

面向(Shavelson et al1993p227-229)最後在不同工作項目之下採用

相同或不同測量方法所得到的相關的確較低顯示實作評量具有區辨效度

柒實作評量與其他評量的比較

大體上實作評量具有下列各項功能(Airasian 1994)茲列表如下

表 2-1-1 實作評量與紙筆測驗的比較

實作評量 紙筆測驗

學生把知識轉化成可觀察的表現行

為或成品的能力 主要涉及學生的知識及資訊的獲得

設計及施測費時但評量表可針對

同一或新的學生重複施測

設計費時但可同時施測許多學生

同組學生僅能使用一次

學生表現不佳可予診斷及補救

可監控學生進步實況

除論文式及開放式數學題之外甚少

提供方向指示如何改進表現

教學首重表現及過程 教學重內容知識

資料來源Airasian (1994) P236

18

表 2-1-2 各種評量類型的比較

客觀式測驗 論文式測驗 口頭發問 實作評量

目的

以最大的效率

及信度測驗

代表性的知

評估思考的技

巧及知識結構

的瞭解程度

教學時評估

知識

評估知識及瞭

解化為行動的

能力

學生的

反應

閱讀評量

選擇 組織寫作 口頭回答

計劃建構

及表達原始的

反應

主要優

效率在測驗

時間內可測驗

到許多項目

可測量複雜的

認知結果

使評估與教學

結合

提供充分的表

現技巧

對學習

的影響

過度強調回

憶鼓勵背誦

記憶如能適

當出題可促進

思考技巧

鼓勵思考及寫

作技巧的發

刺激學生參與

學習提供教

師立即回饋了

解教學是否有

強調運用知

識技巧於實

際的問題情

資料來源Airasian (1994) P229 et ls

捌實作評量相關研究

國內有許多探討實作評量設計的可行性研究以下將就國內學者所做的研

究整理說明

一陳文典陳義勳李虎雄簡茂發(民 84)美國馬里蘭州學校實作評

量國際共同研究計畫

將 MSPAP(the Maryland School Performance Assessment Program)的

19

試題轉譯成中文在國內進行小規模的施測藉以了解這種測驗的功能

使用上的時機及應用上的困難在其對我國五年級學生施以數學理化

和生物等實作評量題目後發現此種測驗模式能遍及各項科學能力我

國學生在回答問題時顯示其傳達與獨立作業能力均不足其評分客觀

的標準化可經由評分者講習的培訓達到目標實作評量可適用於平時作

業學生的科學能力競賽或教育行政單位的各校科學教育教學成效評鑑

等時機

二徐美英(民 89)TIMSS 數學實作評量在台灣之試用探討

(一)TIMSS 試題在台灣之施測具有信效度

(二)台灣四年級學生在 TIMSS 實作評量的表現顯著優於美國和香港地

區的學生

(三)TIMSS 試題在台灣之施測在男女生之間和班級間在總得分並

沒有顯著差異

(四)自編之試題猜一猜與 TIMSS 試題擲骰子繞過彎道

和魔術師有一定程度的相關

三洪之昀(民89)數學科實作評量對國小高年級學童學習策略影響之研究

(一)學生認為實作評量能增加對數學內容的了解提升學習興趣發

現數學的有趣擴大學習範圍並兼具情意評量的功能但也有學生認

為實作評量在實施上太麻煩且費時

(二)學生批判思考數學溝通數學表達的能力有待加強

(三)學生具有多方面的潛能亟待以實作評量的方式加以開發

四詹元智(民 91)國小數學科實作評量之效度探討

採準實驗研究設計的方式進行以屏東師範學院附屬小學六年級兩個班

的學生為研究對象一班為實驗組接受為期二個半月的數學實作評量

另一班為對照組接受傳統數學紙筆測驗的評量研究者於實驗前與實

20

驗後對兩組學生施以「傳統數學紙筆測驗」「數學實作評量」及「數學

學習解題態度」等三種測驗的前後測並對部份學生進行「數學實作

評量前後測的放聲思考訪談」概化性研究的分析結果顯示在一位評分

者及一題作業項目上之評分者間的變異相當小(319)不過分數的變

異有相當大的比例(約 50)是來自作業項目間及作業項目與受試者交

互作用的變異而在二位評分者及五題作業項目之概化性係數可達 08

以上顯示該研究之數學實作評量的結果能有效地推論至學生在其他評

分者及實作評量作業上數學問題解決的表現

五李長柏(民91)國小數學簡單機率解題實作評量與後設認知之相關研究

(一)數學解題實作評量具有良好的信效度

(二)本研究結果顯示具有良好的評分者信度

(三)數學解題能力和後設認知能力具有相關性

(四)性別在數學解題能力和後設認知能力上沒有差異

六王秀琲(民 92)實作評量在國小數學科之應用-以五年級學童分數為例

(一)實作評量能實際測出學童的分數概念在分割活動上連續量比

離散量好在表徵轉換上具體操作轉換符號模式為佳圖形轉換符號

模式較不理想分割策略會因情境的不同而使用較為簡便的方式來

解題

(二)從實作評量中學童能展現自行所建構的解題策略所獲得的訊

息比紙筆測驗多

(三)以 SS 分析法來分析實作評量之試題所呈現的試題關聯結構圖

中可以了解等分和連續量的分割活動是學童最易理解的概念而離散

量分割等值及單位量則是學童最難理解的概念

七張永杰(民 92)實作評量取向的幾何思考研究

(一)年級之幾何水準層次分佈情形有統計上的顯著差異存在年級

21

越高屬於高層次水準的學生越多

(二)當受試學生通過某一水準層次n的考驗但卻未能通過之前的任

一水準層次的考驗則稱為逆序現象有 697學生之幾何層次分佈呈

現逆序的情形

(三)學生不同 van Hiele 水準層次在後設認知能力上表現出顯著差異

(四)順序組學生能力值越高集聚的情形越明顯結構越完整逆序

組學生的概念結構比較少集聚呈現零散不完整的結構

(五)順序組能力低的學生所形成的關連結構比較零散而且概念間

的關聯程度不高能力越高的學生其關連結構概念問題結構化比較明

顯而且上下位觀念比較顯著逆序組學生的關連結構不但呈現零散不

完整的結構且關連結構圖中上下位觀念的情形比較不規律顯現其

概念結構比較雜亂

八林敬修(民 92)影響國小數學科實作評量信度相關因素之類推性理論

分析

(一)影響數學科實作評量分數一致性的主要變異來源為受試者與作業

項目交互作用(ptimest)變異其次為受試者(p)變異再其次為作業項目(t)

變異

(二)在評分者數學知能背景及評分者訓練對數學科實作評量分數一致

性的影響方面評分者的給分一致性因評分者數學知能背景及評分者訓

練而不同

(三)在題目結構度對數學科實作評量分數一致性的影響方面跨不同

結構度之作業項目對分數一致性的影響遠大過於跨相同結構度之作業項

目對分數一致性的影響此外不同數學知能背景及評分者訓練的評分

者在不同結構度的試題給分一致性上也有差異

(四)整體而言各評分組別的評分者一致性因評分向度之不同而有差

22

異其中以在「溝通表達」此一評分向度上的評分者一致性最低

九呂政隆(民 93)國小學童在數學實作評量解題整合認知與課程之相

關研究

運用實作評量的方式分別在九十學年度九十三學年度對五年級學生

施測以探討學生的數學解題與整合認知能力之相關性進而探討性別

課程在數學解題與整合認知能力上是否有顯著差異研究結果顯示實施

九年一貫課程後之九十三學年度整合認知中能力組在本研究之四份實作

評量之數學解題能力明顯低於九十學年度實施八十二年版國民小學課程

標準之數學解題與整合認知能力組

十石千奇(民 93)國小六學童在數學實作評量中的小組解題歷程分析

解題歷程模式受同儕討論的影響小組解題是四個人四條思考路線互相

牽引的結果解題歷程模式受操作實物的影響操作實物會影響解題階

段進行的走向小組成員並非全程參與解題歷程會因為題目的難易

互動過程階段性質等因素的影響而未能全程參與小組解題的階段變

化各行其道在各個解題階段的參與變化沒有一致性的發展操作實物

對各個解題階段皆有影響各產生不同的作用小組成員喜歡在實作評

量中以小組解題的模式解題覺得這樣的評量方式可以幫助解題

因此建議數學教師多採用以四人為一個小組在形成性評量中以小組

解題的方式進行實作評量

十一曲慧娟(民 94)實作評量在國中學術性向優異班招生鑑定之效度研

究~以臺灣北區為例

(一)錄取組和未錄取學生在入學後成就表現的差異分析顯示英文組

達顯著水準 (t=6159plt05)數理組未達顯著水準

(二)實作評量錄取學生在入學後之特殊表現的訪談結果發現各組學

生在發表能力競賽檢定檔案成果上的參與興趣濃厚也比較有所發

23

(三)受訪教師學生及參加座談會的教師們對實作評量的看法和意

見主要有下列重點

1命題是最大的困難各校命題均請專家學者指導師生都反應覺

得題目的品質不錯題型也很有創意和其它測驗不一樣但自然

科實驗器材的準備耗時費工是很大的負擔因此很多學校選擇用資

料分析的題目類型避免實驗操作器材準備的困擾

2實施程序上時間說明器材提供均適宜但場地的考量較多

如實驗位置的區隔語文施測時需安靜的場所等監考過程也是爭

議較多的如學生覺得監考老師應多幾位老師的尺度不同等

3受訪學生指出實作評量的應答方式和以往參加過的測驗有很大

的不同但都持肯定態度同時覺得語文表達能力會影響到實作評

量的成績

4各校評分都採集中閱卷的方式評分標準爭議性得分大都透過

閱卷老師討論後取得共識再給分

5目前各校在鑑定學生時決策的標準不一因此反應意見差異頗

大但從訪談資料發現受訪學生及教師都較支持運用初試複試

成績加權計算作為選擇學生的標準

6受訪教師表示學生入學後的表現和以往相較起來沒有明顯的

差異但在科展競賽檢定發表上的熱誠度較高

7學生的訪談結果發現大多數學生覺得實作評量可以測出他們在

學術性向上的能力或天份

8實作評量的保密情形比其它測驗要好很多但坊間仍有業者猜

題補習受訪學生及老師也表示有模擬實作或補習經驗者對

實作表現或多或少有影響惟一沒有保密困擾的是國文組

24

十二陳怡玉(民 94)降低國小數學科實作評量人和作業交互作用變異方

法的探討---以類推性理論分析

(一)由於分層變項選取不易導致「作業分層」無法有效降低人和作

業交互作用的變異

(二)「以圖表組織圖為鷹架」可以降低人和作業交互作用的變異

(三)「以圖表組織圖為鷹架」比「作業分層」更能讓人和作業交互作用

的變異降低

(四)進行「作業分層」的比較時實作評量的類推性係數和可靠性指

標以同一階層的作業採 ptimesTtimesR 設計最高但屬分層之 ptimes(TS)timesR 設計

卻低於作業未分層時的分析(即採作業 1234 的 ptimesTtimesR 設計來分

析)

(五)「以圖表組織圖為鷹架」能提高實作評量的類推性係數和可靠性指

十三蔡正濱(民 95)國小數學科實作評量評分者ㄧ致性相關因素探討

(一)影響數學科實作評量分數一致性的主要變異來源為受試者與作業

項目交互作用(ptimest)變異其次為受試者(p)變異再其次為受試者

作業與評分者三者之交互作用及誤差(ptimesttimesre)的部分

(二)在使用不同類型及等級數的計分規準對評分者間一致性的影響方

面在 ptimesttimesr 類推設計下不分計分規準種類與評分者有關的變異量

(含 rptimesr及 ttimesr 三者的總和)均相當小幾乎接近 0而在 ptimesr 設

計的整體類推性相關係數及給分差異比例方面分析式計分規準優於

整體式計分規準在不同等級數方面ptimesttimesr 類推設計中與評分者有

關的變異量及整體類推性七等級計分規準略佳但差異性不大在 ptimesr

設計的整體類推性相關係數及給分差異比例方面七等級計分規準優

於四等級計分規準其中又以使用整體式計分規準及評定高複雜度試題

25

時較為明顯

(三)在不同複雜度作業對評分者間一致性的影響方面低複雜度試題

的一致性高於高複雜度試題顯示評分者面對受試者在高複雜度試題的

作答反應時出現給分較不一致的情形最後受試者是否具備實作評

量計分規準之經驗對評分者間一致性的影響方面在低複雜度試題兩

組受試者之評分者一致性的差異性不大在高複雜度試題 A 組評分者

一致性大致高於僅具實作評量經驗之組別 B組而 AB兩組受試者的評

分者一致性差異程度在分析式計分規準上低於其在整體式計分規準之

差異程度

第二節 第三次國際數學與科學教育成就研究

由國際教育成就調查委員會(The International Association for the

Evaluation of Educational Achievement簡稱 IEA)主辦的「國際數學與科學

教育成就趨勢調查」(Trends in Mathematics and Science Study 2003 簡稱

TIMSS 2003)」是目前有關國際間對學生成就的調查研究中規模最大的一項調查

該測驗採取全世界合作模式主要單位有

一國家研究協調中心(National Research Coordinators)國家研究協

調中心負責選擇學校樣品 收集資料 計分標準和資料輸入 和準備研究結

果的一個國際報告

二TIMSS amp PIRLS 國際研究中心(在波士頓學院)(TIMSS amp PIRLS

International Study Center at Boston College)國際研究中心(ISC) 負責

TIMSS 的整體設計發展和實施這包括建立規程監督工具發展舉辦訓練

ISC 進行分析並且在國際報告和用戶資料庫中發布研究結果

三IEA 秘書處(IEA Secretariat)總部設在荷蘭的阿姆斯特丹IEA 秘

書處負責提供整體支持監督籌款和協助參與國家協調參與 TIMSS 的國家取得

26

測驗工具的翻譯證明

四IEA 資料處理中心(IEA Data Processing Center)IEA 有它自己的

資料處理中心位於德國的漢堡資料處理中心(DPC)負責處理和核對從所有參與

國家得到的資料和建立國際資料庫

五統計(Statistics Canada)在加拿大的渥太華負責 TIMSS 的所有採

樣活動包括開發取樣步驟和文獻和協助參加者能符合 TIMSS 的採樣設計

六教育測試的服務(ETS)(Educational Testing Service (ETS))ETS 為

TIMSS 成就測驗資料提供軟體和心理測量的支持 ETS 總部設在新澤西州的普

林斯頓

TIMSS 2003 是 IEA 自 1995 年以來第三次主辦連續週期性調查學生的數學和

科學成就主要目的在提供各國長期追蹤學生數學和科學趨勢成就以提升學生

數學和科學的學習成效TIMSS 2003 以 13 歲群(即國二生)和 9 歲群(即小四生)

為調查對象從 2000 年九月開始發展研究調查相關工作總計有 49 個國家參

加其中 48 個國家參加 13 歲群調查26 個國家參加 9歲群調查測驗的內容

包括數學和科學並從學生教師和學校的問卷回答中廣泛的搜集有關數學和科

學的教學和學習資訊並經由課程指引教科書和其他教學媒體的分析探討參

與國家的數學和科學課程以提供參與國家的政策制定者和實務工作者有關教學

和學生學習成就方面的珍貴訊息而技術報告和完整的國際資料庫也一併出版公

TIMSS 試題的編製流程是先製訂課程架構在根據課程架構編製成就測驗

而此課程架構是由一群來自 TIMSS 國家研究協調中心(TIMSS National Research

Coordinator)的數學和科學教育專家所發展出來的在 TIMSS 2003 的課程架構

中共分為兩個向度內容領域跟認知領域詳細內容如表 2-2-1 所示

27

表 2-2-1 TIMSS 2003 課程架構

數學 科學

內容領域 內容領域

數 生命科學

代數 化學

測量 物理學

幾何學 地球科學

8

級 資料

8

級環境科學

數目 生命科學

模式等式和關係 自然科學

測量 地球科學

4

級 幾何學數據

4

認知領域 認知領域

知道事實和程式 事實的知識

使用概念 概念的理解

解決日常問題 推理和分析

推理

第4年級代數內容領域被叫為模式等式和關係

其中在實作評量方面設計的原則是依照實用的可負擔的和容易翻譯成

多國語言和文化原則所設計的透過預試時取得評分指南包括正確的答覆跟不

正確答覆的描述及給分標準其評分系統採用維京評分系統以表格說明如下

28

表 2-2-2 維京評分系統

第一個碼

  2 類型的 CR 項目(分數碼)

(1) 2 分(外延反應評分)

2 分完整無誤

1 分部分對

(2) 1 分(問答)

(3) 0 分7-9

2 分

1 分

第二個碼

  診斷訊息碼

0-5表出現之頻次類次配合參數碼標之

如 20-2510-1570-75

9 為其他無特殊類別

  如 291979

78=自個兒ldquo診斷碼(國家碼 可自選)

  99 為空白

  79(Erases)

另外在問卷調查部份分為

一課程

(一)公式化課程

(二)課程的範圍和內容

(三)課程的組織

(四)監測和評估被實施的課程

(五)課程材料和支持

二學校

29

(一)學校組織

(二)學校目標

(三)校長的角色

(四)支持數學與科學的資源

(五)父母親介入

(六)學校環境

三老師和他們的準備

(一)學術準備和證明

(二)老師補充

(三)老師任務

(四)老師歸納

(五)老師經驗

(六)教的樣式

(七)專業發展

四教室活動和特徵

(一)課程題目

(二)時間

(三)家庭作業

(四)評量

(五)教室氣氛

(六)資訊技術

(七)計算器用途

(八)強調的研究重點

(九)班級大小

30

五學生

(一)家庭背景

(二)經驗

(三)態度

當 TIMSS 施測後許多國家對於施測結果所蘊藏的意義做了許多的解釋他

們認為施測結果不止顯示了學術成就還包括了學生所接受的課程和教育

(SchmidtJordeCoganBarrierGonzaloMoserShimizuSawadaValverde

PrawatMcknightRaizenBrittonWileyWolfe1996)國際比較主要的目的

在於評估不同國家的學生程度而另一個同樣重要的目的在於嘗試去了解及解釋

造成差異的原因Jaekyung Lee 在 1999 年時提出當我們進行國際比較時有三

點要注意的事項一應該要同時著重正規教育和學校教育以外的學習經驗

二重視區域性的差異

三注意學校的改革政策因為它會影響教育的實施與成果所以成績好不應沾

沾自喜而表現不好也應深究原因去注意其他表現好的國家真正做了什麼並

加以學習而非歸罪於整個制度

根據 TIMSS 2003 國際數學和科學報告(TIMSS 2003 International Reports

in Mathematics and Science)其中提到幾個圖表是跟本文有關並值得分析注

意的

31

圖2-2-1 1995年到2003年4年級學生的數學趨勢

32

上圖是從該報告第一章表格13擷取出來的該圖表顯示出從1995年到2003

年的4年級學生的數學趨勢其中香港拉脫維亞英國賽普勒斯紐西蘭

斯洛伐尼亞加拿大安大略省等七個國家或地區是呈現進步的情況而荷蘭挪

威加拿大魁北克省是退步的趨勢其他在圖表中的國家是沒有顯著差異的另

外在其文字說明部份也提到以色列和菲律賓從1999到2003也顯示出顯著的改

進像上述這些國家數學成就方面趨勢的變化可能跟社會或教育的改變有關

例如東方的政治變化跟歐洲十幾年前的教育改革已經實際改變這些國家的教育

成就例如立陶宛跟拉脫維亞這兩個國家的成就趨勢反映他們在改革過程中的

努力已經獲得某些驚人的成就

33

圖 2-2-2 4 年級學生在男女性別上的差異

上圖是從該報告第一章表格14擷取出來的該圖表顯示大部分國家或地區4

年級學生在男女性別上並無顯著差異但在幾個國家例外新加坡菲律賓亞

美尼亞跟Moldova共和國的女生有較高的數學平均成就荷蘭美國義大利

蘇格蘭賽普勒斯和兩個加拿大省份則是男生有較高的數學平均成就

34

圖2-2-3 1995到2003年的男女生進退步情形

上圖是從該報告第一章表格15擷取出來的該圖表表示從1995到2003年的

男女生進退步情形從圖表中得知男女生同時進步的國家或地區有賽普勒斯英

國香港拉脫維亞紐西蘭斯洛伐尼亞和安大略省而同時退步的國家有挪

威和魁北克省僅有男生退步但女生沒有的國家是荷蘭

第三節 TIMSS 試題與國內數學課程關係之分析

在魔術師的題組中研究者希望學生透過摺紙的方式不管對摺幾次最後

限制只能用剪刀剪一次的情況下要求學生剪出下列 3個圖型

35

每個學生剪每個圖型都有 3次機會這個題組的目的不止希望學生可以運用

全等的直覺利用幾何操作如平移旋轉翻轉等方式印證平時的經驗並將

全等的概念更加清晰還希望學生透過摺紙的方式了解認識垂直和對稱而剪紙

又可以增進學童分解圖形與建構圖形的能力所以本題組主要在測量學生對於全

等的直覺跟幾何操作垂直跟對稱和空間關係的瞭解以及解決非慣例題目的能

在圖形題中前 2個小題分別要求學生在一個長方形中劃一條直線將該長

方形分成 2個三角形或 2個長方形第 3小題要求學生在一個長方形中劃兩條直

線將該長方形分成 2 個三角形跟 1 個長方形第 4 小題則給等腰梯形並連接 2

條對角線在內部形成的 4個三角形中要求學生找出形狀相同但大小不同的兩

個三角形本題組在了解學生能否透過操作直尺或三角板在二維空間上剪裁出

指定的基本圖型並利用直觀的方式指出形狀相同但大小不同的三角形

上述兩個題目在評量學生的幾何能力根據我國國民中小學九年一貫課程綱

要數學學習領域中指出小學教師在從事幾何教學時最要避免的是來自本身歐

氏公設幾何訓練的干擾處處受制於定義的認定與邏輯順序由歷史來看人類

是先由應用操作實踐中認識各種幾何要素與性質彼此之間並沒有一定的

先後關係歐氏幾何的價值首先是對這些先民知識的歸類與整理其次才是作

36

為知識典範的演繹系統所以將幾何課程概分成四階段而學生在四年級時所應

該要學習到的幾何知識就如下列所示

一階段一(一年級到三年級)較強調幾何形體的認識探索與操作學生對

幾何形體中的幾何要素也許能指認但尚不清楚其結構意義

二階段二(四年級到五年級)由於數與量的發展逐漸成熟學生開始結合「數」

與「形」兩大主題學習運用幾何形體的構成要素(如角邊面)及其數量性

質(如角度邊長面積)

更詳細的相關能力指標詳列如下

1-S-04能依給定圖示將簡單形體作平面舖設與立體堆疊給定的圖示

可為圖卡或實物透過拼圖與堆積木等活動讓學童進行平移翻轉重疊

比對hellip等全等操作的練習

3-S-06能透過操作將簡單圖形切割重組成另一已知簡單圖形

4-S-02能透過操作認識基本三角形與四邊形的簡單性質

4-S-03能認識平面圖形全等的意義

4-S-16能理解平面上直角垂直與平行的意義

4-S-07能由直角垂直與平行的概念認識簡單平面圖形

4-S-08能利用三角板畫出直角與兩平行線段並用來描繪平面圖形

例學童會使用直尺或三角板畫出直角及兩平行線段進而用來繪製直角三角

形正方形長方形平行四邊形與梯形

因此學生在回答這兩個問題時應已具備足夠的能力

在幾何方塊的題組中給學生 3 塊白色方塊4 塊黑白相間的方塊和 3 塊黑

色方塊要求學生完成

一利用 2 張黑白相間方塊拼出一個較大的黑色三角形

二利用 4 張黑白相間方塊拼出一個黑色的正方形並求出佔幾分之幾

三不准使用黑白相間方塊將 4 張方塊拼出一個正方形使得黑色的部分佔 12

37

四請用 8 張方塊拼出一個如下圖的長方形使得黑色部分佔 58

這是一種包含幾何跟數與量的題目其中幾何的部份是要求學生建立一個二維圖

形並滿足題目的要求(數與量)幾何部分已經如上所述現在分析相關的數

與量

根據我國國民中小學九年一貫課程綱要數學學習領域中指出有理數是小學

的核心課程之一也是小學數學教育中最有挑戰性的教學主題因為學生較缺

乏有理數的前置經驗日常生活中的有理數情境也比整數少分數的形式是學生

首次碰到兩整數並置的約定至於什麼是穩當的有理數教學並無定論但是基

本的共識是學生需要較長的時間來學習掌握有理數的概念不論是先形式程

序或者先概念理解兩者都必須不斷互相支持在有理數教學中必須將材料

作適當的安排先從較容易的平分或測量入手而將其它的應用課題作為錘鍊

有理數數感的課題

在相關的能力指標詳列如下

3-n-09能在具體情境中初步認識分數並解決同分母分數的比較與加

減問題學童從具體情境或活動中掌握分數的概念能學會分數的記號並理

解運用分數記號來記錄同分母分數的比較與加減的方式例如以平分為基礎的

活動(離散量)問下列深色區域是全部圖形的幾分之幾

4-n-07能認識真分數假分數與帶分數熟練假分數與帶分數的互換

並進行同分母分數的比較加減與非帶分數的整數倍的計算

4-n-08能理解等值分數進行簡單異分母分數的比較並用來做簡單分

數與小數的互換在具體情境中說明分數等值的理由可先由分母的倍數差 2

4倍的分數先出發(因為切半的操作最簡單)

在施測學校所使用的教科書中第七冊第十單元分數中其教學目標也有

38

透過單位分數的合成和累加活動以真分數來描述單位分數的幾份可見此題對

施測學校的學生來說應有能力解決

另外兩題有關數與量的題目是數字卡跟猜一猜在數字卡部份題目分為兩

部份第一部份為抽出三張 0-9 的數字卡任意排列後找出最接近總和為 20 的

方法第二部份為抽出三張 0-9 的數字卡任意排列後分別找出和差跟積最大

的方法這在我國國民中小學九年一貫課程綱要數學學習領域中分類在數與量

中的整數部分根據附錄說明中指出整數計算是一切數學學習的基礎在教學

中學童經由活動情境掌握計算的意義藉著各種例子體驗計算的規則與策略

流暢的計算能力有如語文學習中基本的文字駕馭能力不僅可以內化學童的

數字感並且是日後(國高中)學習抽象運算及形式推導的基礎這樣的能力

固然是學習科學所必須也是能夠有效處理日常生活的基本能力之一所以國小

整數教學的課程目標在於

一從計數開始學習位值的約定與換算並在演算中逐步熟悉最後能掌握

大數

二在二年級下學期理解算術的樞紐九九乘法作為日後所有計算的基礎

三到四年級時能夠不拘泥於位數熟練加減乘除的直式計算

有關數與量的題目另一題是猜一猜題目是在 9個碗中前 4個碗中豆子

的數量分別是 29313128 個請猜一猜罐子中大約有幾個豆子並解釋你

的想法這在我國國民中小學九年一貫課程綱要數學學習領域中分類在數與

量中的估算部分估算在國民教育中可粗分為離散量的估算(自然數四則運算的

估算)與連續量的估算前者的教學應在學生已經能掌握確算後再進行而後

者的教學應透過測量時量不盡的正常情境與小數的教學共同開展認識小數

之細分與精確度的要求乃是一體的兩面估算的教學可以先在計算與驗算中強

調讓學生能對不合理的答案透過估算剔除然後是能判斷應用問題對答案

精確度的要求並藉由過去的解題經驗發展正確的估算策略或者是能針對

39

問題與解答發展估算策略驗算解答的合理性要注意的是估算屬於較高層

次的數學能力學生必須先對所使用的概念程序與問題情境有相當的理解才能

恰當地估算進而能正確判斷估算的時機與精確度的要求國小的估算教學要

特別注意評量的問題切忌因為強求估算禁止學生使用正常計算教師應在評

量的問題上下功夫讓問題本身暗示估算的好處

最後一題是擲骰子題目是用一個規則來改變骰子擲出來的數字要求學

生發現改變後的數字有什麼特性另外要求學生丟 30 次將結果記錄並統計在

表格中這是屬於統計與機率的部份我國課程在這部份強調統計和機率的知識

背景應來自生活環境因此以學生的生活經驗為主從學生感興趣的主題出發

使其學會敘述統計所呈現出的數字和圖表的意義強調圖表的表達和溝通並了

解抽樣機率的初步概念且能正確地運用各項統計資料於實際的生活中並要

求在三年級之前 先藉由簡易表格的製作協助學生建立資料的整理與分組的

概念進而練習報讀與說明資料並建立個別資料出現頻率概念的認識再藉著

直接和交叉對應表格的介紹並配合「數與量」的教學希望學生能掌握對表格

的認識並能加以運用

40

第三章 方法與步驟

本章節乃根據前兩章所提的研究目的與文獻探討進行研究設計以下將分別

就研究架構研究工具發展研究的信效度與實作評量的試題架構三節加以說明

第一節 研究架構

壹研究方法本研究是使用實作評量的方法進行實際施測使用 SPSS

與 EXCEL 軟體分析回收的施測數據

貳研究樣本本研究之研究對象是針對國小四年級學生以台中縣神岡鄉

某國小四年級學生為受試者共四班 127 人學校環境是住

宅與工業混合區

叁研究工具本研究的研究工具分為兩部份民國 89 年徐美英研究論文

中的題目跟 TIMSS 2003 公開的實作評量試題各三題TIMSS

2003 公開的實作評量試題是由 TIMSS 網站下載試題後再進

行翻譯每一個題組的施測時間是 30 分鐘

第二節 研究工具發展

本研究的研究工具分為兩部份民國 89 年徐美英研究論文中的題目跟 TIMSS

2003 公開的實作評量試題各三題以下將分別就試題的編製過程評分標準施

測人員和評分者四點加以說明

壹試題編製過程

一研究分析相關公開試題並與學校教材相互對照後進行選題

二選定題目後進行翻譯

三將翻譯好後的題目跟原始原文題目交給學校英語科任老師進行確認

41

四確定翻譯工作後與現任資深國小四年級的教師們共同討論題目的適切

性修改試題敘述的語句使文句的敘述能符合四年級學生的認知

五將修改後的題目請上述老師再做一次確認

六提供評分標準給上述老師討論全對部份給分不給分的情況

七題目定案

以數字卡這題為例題目如下

【題目數字卡】

在這部分你將會拿到一張印有 0到 9的數字卡如下圖請將這些數字卡

取下來

總和為ldquo20的數字遊戲

小杰與小明這兩個小孩正在玩一個ldquo總和為 20的遊戲其規則如下

總和為ldquo20的規則

一抽數字卡每一個人抽出三張數字卡

二加數字卡每一個人利用這三張數字卡做出一個加法問題使得算出的

總和最接近 20 例如假如抽出的數字卡 將數字任

意組合後下面是其中四種可能的方法

0 1 2 3 4

5 6 7 8 9

1 4 5

42

+ + + +

5 5 4 6 1 9 +

15 1 0

這時玩家應該選擇 + 4 因為它的總和 19最接近 20

19

小杰和小明開始玩遊戲了小杰抽出了 三張數字卡小明抽出

了 三張數字卡

一小杰要如何安排三張數字卡做出一個加法問題才能讓它的總和為最接

近 20記得要寫總和

二小明要如何安排三張數字卡做出一個加法問題才能讓它的總和最接近

20記得要寫總和

三小明說假如我抽到 我可以用兩種方法做出總和 20

請告訴我們小明用哪兩種方法可以使 做出總和 20

第一種方法

第二種方法

1

4

5 1

4

5

1

4 51

4

5

972

6 3 1

1 4 6

1 4 6

43

找出最大的數

小杰和小明利用數字卡玩另一個新的遊戲就是利用三張數字卡做出最

大的數

甲將 三張數字卡填入下列的格子內讓相加的結果為最大

乙將 三個數字填入下列的格子內讓相減的結果為最大

丙將 三個數字填入下列的格子內讓相乘的結果為最大

貳施測人員

由四位該班導師擔任在正式施測前由研究者針對施測應注意事項對施

測人員說明並在每一份題目上附上給老師的話說明施測時應注意的事項

及給分說明部分實作評量試題需要用到一些材料由研究者事先準備妥

當於考前交給施測人員至於材料的發放跟試題說明的時間並不包括在 30

分鐘的測驗時間之內

叁評分標準

一 89 年徐美英研究論文中的題目直接使用其附錄中的評分標準以擲

times

9 5 1

+

2 3 7

1 4 5

44

骰子這題為例其評分標準如下

第一題 1 正確的計算出(042648)

2 給分範圍2分

第二題 1 描述的類型與資料一致

2 形式可以是一個或多個以下的情形例如所有的數字

都是偶數數字的範圍從 0~84 出現 2次數字排列有

規則如+4-2+4-2

3 給分範圍2分

第三題 1 至少完成 25 次擲骰子的紀錄

2 正確的計算

3 給分範圍2分

第四題 1 統計的次數與第三題的資料一致

2 給分範圍2分

第 5a 題1 答案與資料一致

2 給分範圍1分

第 5b 題1 對觀察的數字提供合理的解釋

2 給分範圍1分

二 TIMSS 2003 公開的實作評量試題部分參照其公佈的評分標準翻譯

成中文以提供給資深四年級老師參考以數字卡這題為例

(一)第一部分總和為 20 的數字遊戲

1 第甲題

(1) 給分範圍 1分

1 寫出 2+7+9=18

2 沒有任何算式但有答案是 18 者

(2) 給分範圍0分

45

1 有寫出算式 2+7+9 但沒有答案 18 出現

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

或偏離主題的回答)

3 完全空白

2 第乙題

(1) 給分範圍1分

1 13+6=19 或 16+3=19

2 沒有任何算式但有答案是 19 者

(2) 給分範圍0分

1 有寫出算式 13+6 或 16+3 但沒有答案 19 出現

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

3 完全空白

3 第丙題

(1) 給分範圍2分

兩種方法都正確(16+4 和 14+6)

(2) 給分範圍1分

只有寫出其中一種方法(16+4 或 14+6)

(3) 給分範圍0分

1 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

2 完全空白

(二)第二部份找出最大的數

1 第甲題

(1) 給分範圍1分

46

91+5 或 95+1

(2) 給分範圍0分

1 將 159擺在任何其他不正確的位置

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

3 完全空白

2 第乙題

(1) 給分範圍1分

73-2

(2) 給分範圍0分

1 72-3

2 將 237擺在任何其他不正確的位置

3 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

4 完全空白

3 第丙題

(1) 給分範圍1分

41times5

(2) 給分範圍0分

1 51times4

2 將 145擺在任何其他不正確的位置

3 其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的

或偏離主題的回答)

4 完全空白

47

第三節 研究的信效度與實作評量的試題架構

壹信效度

由於此次的實作評量採用多元化記分的方式故信度計算採用 Cronbach α

係數算出信度值為 079而且每一題均有詳細說明細節行為的項目給定參考

答案圖形的作品量表各題除經著名國際測驗機構審核施測過外並由研究者另

請學校資深四年級教師共同研究討論題目與答案對於施測過程研究者也與四

位監考老師討論後訂出共同標準所以在效度方面具有專家效度跟內容效度

貳試題架構

此次實作評量的試題共六題分別是屬於數與量幾何統計與機率等三大

主題依據九年一貫課程綱要數學學習領域裡對這幾個大主題在國小四年級前的

學習說明研究者編制下表的試題架構

48

表 3-3-1 試題架構

題目 學習主題 主題層次 評量內涵說明

擲骰子 數與量

統計與機率

(1)整數

(2)簡易表格的製作

(1)可以對整數的變化

提出一套模式或發現

(2)簡易表格的製作結

果統計與發現

猜一猜 數與量 估算 使用估算的技巧協助計算

與解題

魔術師 幾何 對稱的實際操作 透過摺紙的對稱觀念理解

平面圖形的線對稱關係

圖形題 幾何

(1)幾何形體的認識與

切割

(2)幾何形體『形』的

直觀認識

(1)透過操作將簡單圖

形切割成另一簡單圖

(2)直觀指出平面圖形的

相似

數字卡 數與量 運用加減乘法求最大值

透過位值概念將給定的數

字編排在不同的位值進行

加減乘法得到接近題

目要求的答案或所有可能

的最大值

幾何方塊 幾何

數與量

(1)幾何形體的拼合

(2)有理數(部分全體

的意涵)

(1)利用黑白相間方塊

拼出指定的簡單平面

圖形

(2)在具體情境中認識

分數

49

第四章 結果與討論

本章主要是呈現資料分析的結果並加以討論共分為四節第一節是利用

TIMSS 1999 實作評量試題比較民國 89 年跟民國 95 年的成績差異第二節是利

用 TIMSS 2003 實作評量試題檢視施測學校在性別及班級間是否存在差異第

三節是利用 TIMSS 2003 實作評量試題比較施測學校與原始施測資料的成績差

異第四節是實作評量試題的類推性

第一節 利用 TIMSS 1999 實作評量試題比較民國

89 年跟民國 95 年的成績差異

研究者本小節要探討的是 TIMSS 1999 的施測結果與民國 89 年徐美英所進行

的研究之比較主要的比較項目為平均數標準差及得分情形分配百分比基於

此研究者採用百分比圖表及各小題反推出得分人數之後用獨立樣本 t檢定的

方式比較平均數另外依百分比反推出人數時有時會因四捨五入產生總人數多

1人的情況此時會對進位數最小的數採取無條件捨去法以符合總人數一致另

因研究者分三天進行六題施測每題實際受測人數也有不同研究者使用的資料

來源有兩個分別是 TIMSS 2003 實作評量題目及 TIMSS 1999 實作評量題目為

了呈現方便研究者將取自 TIMSS 2003 實作評量題目所作的施測結果用『95 年』

表示另外 TIMSS 1999 實作評量題目為研究者從民國 89 年徐美英的論文中擷取

出來的當年的施測結果以『89 年』表示

50

壹魔術師

表4-1-1 95年魔術師題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

魔術師ㄧ 16 16 68 5 127

魔術師二 101 151 748 5 127

魔術師三 202 235 563 5 127

由表 4-1-1 得知研究者此次此題型的施測結果各題得分均以得 2分者居

多得 1分居次利用表 4-1-1研究者也從民國 89 年徐美英的論文中找到類

似資料列在表 4-1-2表 4-1-2 是從論文的本文中摘錄下來的研究者反覆研

究該論文時發現在 P73 也有附錄一份有關魔術師各題的資料統整不過兩者的

個數有所差異下表總人數 156 人遺漏值 5人附錄中個數是 155 人下表反推

出人數後的平均數也與附錄稍有出入研究者以本文的表格為準

表4-1-2 89年魔術師題組得分情形分配表

題目 得 0分人數() 得 1分人數()得 2分人數() 遺漏值 總人數

魔術師ㄧ 419 258 323 5 156

魔術師二 194 194 613 5 156

魔術師三 258 258 484 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

51

0

10

20

30

40

50

60

70

80

魔術師ㄧ 魔術師二 魔術師三

95年答對率

89年答對率

圖 4-1-1 百分比圖表比較結果

由上圖可知95 年答對的答對率在 3題中均優於 89 年的結果其中以魔術

師ㄧ的資料差距最大但此兩年的資料也有一個共同的趨勢就是該年度的答對

率有魔術師二的答對率>魔術師ㄧ的答對率>魔術師三的答對率研究者進一步

反推 89 年的得分人數後將兩年的資料進行獨立樣本 t檢定結果列於表 4-1-3

表 4-1-4表 4-1-5

表 4-1-3 魔術師ㄧ獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異數

相等 4323 0039 6098 272000 0000 0410 0800

1

不假設變異

數相等 6173 270036 0000 0410 0800

52

表 4-1-3 可以看出變異數 Leven 檢定結果P值lt005所以達到顯著差異

可見變異數是不能視為相等的後面 t檢定值 6173P 值lt005所以有達到顯

著差異可見平均數是不能視為相等故這一小題明顯的是 95 年的學生成績較

表 4-1-4 魔術師二獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異數

相等 17130 0000 2550 270000 0011 0050 0410

2

不假設變異

數相等 2605 270000 0010 0060 0400

表4-1-4可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是不能視為相等的後面t檢定值2605P值lt005所以有達到顯著

差異可見平均數是不能視為相等故這一小題明顯的也是95年的學生成績較佳

表 4-1-5 魔術師三獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 0443 0506 1332 272000 0184 -0100 0330

3

不假設變

異數相等 1338 265000 0182 -0100 0330

53

表4-1-5可以看出變異數Leven檢定結果P值gt005所以沒有達到顯著差

異可見變異數是要視為相等的後面t檢定值1332P值gt005所以沒有達到

顯著差異可見平均數是也可以視為相等故這一小題兩年的學生成績沒有差別

接著研究者對整個題組總得分進行比較由於 89 年論文中只有平均數與標

準差兩項資料研究者只能稍做比較95 年施測的平均數為 424標準差為 208

而 89 年的平均數是 375標準差是 207由於兩者標準差的差距很小可見兩

項資料的集中平均數的趨勢是差不多的而平均數則是 95 年多 049 分

二擲骰子

表4-1-6 95年擲骰子題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

擲骰子一 101 202 697 8 127

擲骰子二 597 395 08 8 127

擲骰子三 25 319 655 8 127

擲骰子四 345 378 277 8 127

擲骰子五 a 462 538 8 127

擲骰子五 b 950 50 8 127

由表 4-1-6 得知研究者此次擲骰子題組中各題得分擲骰子一以得 2分

居多佔 697擲骰子二以得 0分居多佔 597擲骰子三以得 2分居多

佔 655擲骰子四以得 1分居多佔 378擲骰子五 a以得 1分居多佔 538

擲骰子五 b以得 0分居多佔 95擲骰子二與擲骰子五 b是要求學生說明理由

或描述規則可見學校教學應該可以再加強學生在解釋資料上的能力

54

表4-1-7 89年擲骰子題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

擲骰子一 32 65 903 5 156

擲骰子二 548 387 65 5 156

擲骰子三 00 65 935 5 156

擲骰子四 65 129 806 5 156

擲骰子五 a 97 903 5 156

擲骰子五 b 839 161 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

0

20

40

60

80

100

擲骰

子一

擲骰

子二

擲骰

子三

擲骰

子四

擲骰

子五

a

擲骰

子五

b

95年答對率

89年答對率

圖 4-1-2 百分比圖表比較結果

由上圖可知89 年答對的答對率在 5題中均優於 95 年的結果其中擲骰子

二與擲骰子五 b兩年的答對率都很低可見對位於城鄉交界處的台灣學生而言

這種類型的題目屬於偏難的題型研究者進一步反推 89 年的得分人數後將兩

年的資料進行獨立樣本 t檢定結果列於表 4-1-8表 4-1-9表 4-1-10表

55

4-1-11表 4-1-12表 4-1-13

表 4-1-8 擲骰子一獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 56450 0000 -4100 270000 0000 -0400 -0140

1

不假設變

異數相等 -3900 195000 0000 -0400 -0130

表4-1-8可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是要假設不相等的後面t檢定值-3906P值lt005所以也達到顯

著差異可見平均數是不能視為相等故這一小題是89年的學生表現較優秀

表 4-1-9 擲骰子二獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 9470 0002 -1500 270000 0141 -0200 0035

2

不假設變

異數相等 -1500 270000 0133 -0200 0032

表4-1-9可以看出變異數Leven檢定結果P值lt005所以有達到顯著差異

可見變異數是要視為不相等的後面t檢定值-1506P值gt005所以沒有達到

顯著差異可見平均數是可以視為相等故這一小題兩年的學生成績沒有差別

56

表 4-1-10 擲骰子三獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 186200 0000 -6200 270000 0000 -0400 -0210

3

不假設變

異數相等 -5800 162000 0000 -0400 -0200

表4-1-10可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是要視為不相等的後面t檢定值-5806P值lt005所以達到顯著

差異可見平均數是有顯著差異的故這一小題89年的學生成績表現較好

表 4-1-11 擲骰子四獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 19580 0000 -9900 270000 0000 -1000 -0650

4

不假設變

異數相等 -9600 212000 0000 -1000 -0650

表4-1-11可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-9565P值lt005有達到顯著差異

可見平均數是有顯著差異的故這一小題89年的學生成績比較好

57

表4-1-12 擲骰子五a獨立樣本t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 207800 0000 -7400 270000 0000 -0500 -0270

五 a

不假設變

異數相等 -7000 187000 0000 -0500 -0260

表4-1-12可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-7036P值lt005有達到顯著差異

可見平均數是有顯著差異故這一小題89年的學生成績比較好

表 4-1-13 擲骰子五 b獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 38760 0000 -2900 270000 0004 -0200 -0035

五b

不假設變

異數相等 -3100 251000 0003 -0200 -0039

表4-1-13可以看出變異數Leven檢定結果P值lt005達到顯著差異可見

變異數是要視為不相等的後面t檢定值-3052P值lt005達到顯著差異可

見平均數是有顯著差異故這一小題89年的學生成績比較好

接著研究者對整個題組總得分進行比較由於 89 年論文中只有平均數與標

58

準差兩項資料研究者只能稍做比較95 年施測的平均數為 48346標準差為

24455而 89 年的平均數是 68258標準差是 16947可見 89 年的資料顯示

集中平均數的趨勢較高而 95 年的資料則較為分散而且平均數又是 89 年多

19912 分多出將近 12 倍

三猜一猜

表4-1-14 95年猜一猜題組得分情形分配表

題目 得0分人

數()

得1分人

數()

得2分人

數()

得3分人

數()

得4分人

數()

得5分人

數() 遺漏值 總人數

猜一猜 3858 2441 1102 630 787 1181 0 127

由表 4-1-14 得知研究者此次擲骰子題組中得分以得 0分者居多顯示

學生的概算能力非常不足其次是得 1分的較多這顯示學生曉得題目要掌握哪

些資訊只是不懂得利用這些資訊0分與 1分的人數竟佔超過 50結果頗令

人訝異

表 4-1-15 89 年擲骰子題組得分情形分配表

題目 得0分人

數()

得1分人

數()

得2分人

數()

得3分人

數()

得4分人

數()

得5分人

數() 遺漏值 總人數

猜一猜 2580 650 100 1190 3230 2260 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

59

猜一猜

0

10

20

30

40

50

60

95年答對率 89年答對率

圖4-1-3 百分比圖表比較結果

本題研究者將得 4分與得 5分者列為答對人數由上圖可知89 年答對的答

對率優於 95 年的結果研究者進一步反推 89 年的得分人數後將兩年的資料進

行獨立樣本 t檢定結果列於表 4-1-16表 4-1-17

表4-1-16 猜一猜資料統計

年度 個數 平均數 標準差平均數的

標準誤

95 127 156 175 016 得分

89 151 286 196 016

表4-1-17 猜一猜獨立樣本t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 5639 0018 -5800 276000 0000 -1700 -0860猜

猜 不假設變

異數相等 -5900 275000 0000 -1700 -0864

60

表4-1-17可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-5856P值lt005有達到顯著差異

可見平均數是有顯著差異故這一小題89年的學生成績比較好

第二節 利用 TIMSS 2003 實作評量試題檢視施測

學校在性別及班級間是否存在差異

在各題型得分的相關情形方面將之整理成表格 4-2-1由表中得知除了

圖形題與猜一猜的相關係數達到005的顯著水準之外其他相關各題均達到001

的顯著水準也就是說圖形題與數字卡幾何方塊魔術師猜一猜擲骰子

等題有相當程度的關係其他各題相互之間也是類似的關係這說明了此次的考

題不只是幾何能力之間有相關的情況幾何能力與統計概念數的運算能力

概算能力之間也有相當程度的關係

61

表 4-2-1 各題型之相關係數

圖形題 數字卡 幾何方塊 魔術師 猜一猜 擲骰子

Pearson 相關 1 0617 0419 0487 0174 044

顯著性 (雙尾) 0 0 0 005 0 圖形

個數 127 127 127 127 127 127

Pearson 相關 0617 1 0517 0562 0272 0587

顯著性 (雙尾) 0 0 0 0002 0 數字

個數 127 127 127 127 127 127

Pearson 相關 0419 0517 1 0397 0308 0389

顯著性 (雙尾) 0 0 0 0 0 幾何

方塊

個數 127 127 127 127 127 127

Pearson 相關 0487 0562 0397 1 0248 0509

顯著性 (雙尾) 0 0 0 0005 0 魔術

個數 127 127 127 127 127 127

Pearson 相關 0174 0272 0308 0248 1 0317

顯著性 (雙尾) 005 0002 0 0005 0 猜一

個數 127 127 127 127 127 127

Pearson 相關 044 0587 0389 0509 0317 1

顯著性 (雙尾) 0 0 0 0 0 擲骰

個數 127 127 127 127 127 127

在顯著水準為001時 (雙尾)顯著相關

在顯著水準為005時 (雙尾)顯著相關

62

表4-2-2 班級對總分之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

班級 390132 3000 130044 2046 0111

誤差 7806910 123000 63471

總和 8197040 126000

以單因子變異數分析班級對總分的結果如表4-2-2在α=005之下F檢定值為

2049相對應的P值是0111因為P值>005所以未達顯著差異也就是各班

級間的實作評量總分並沒有因班級的不同而顯現出差異

表4-2-3 性別對總分之組別統計量與t檢定表

性別 個數 平均數 標準差 平均數的標準誤

男生 65 21892 7567 0939 總分

女生 62 23355 8595 1092

獨立樣本檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 0320 0573 -0998 125000 0320 -4263 1404

分 不假設變

異數相等 -0996 121524 0322 -4272 1413

從表4-2-3來看雖然女生平均成績是2331分高於男生的2188分但根

據獨立樣本t檢定的檢定結果變異數的Levene檢定F值為0320P值為0573

顯示出男生與女生的變異數沒有顯著差異而平均數的t檢定值為-0998P值為

63

032也顯示出男女生的平均數是沒有顯著差異的研究者進一步分析性別與各

題的t檢定結果顯示於表4-2-4

表4-2-4 性別對各題之組別統計量與t檢定表

性別 個數 平均數 標準差 平均數的標準誤

男生 65 326 112 014 圖形題

女生 62 340 098 012

男生 65 418 215 027 數字卡

女生 62 474 212 027

男生 65 417 160 020 幾何方塊

女生 62 413 167 021

男生 65 417 204 025 魔術師

女生 62 432 213 027

男生 65 135 163 020 猜一猜

女生 62 177 185 023

男生 65 474 237 029 擲骰子

女生 62 494 253 032

64

獨立樣本檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 1522 0220 -0756 125000 0451 -0510 0230圖

題 不假設變

異數相等 -0758 124117 0450 -0510 0230

假設變異

數相等 0431 0513 -1471 125000 0144 -1310 0190數

卡 不假設變

異數相等 -1471 124863 0144 -1310 0190

假設變異

數相等 0067 0797 0139 125000 0890 -0530 0610

不假設變

異數相等 0138 123883 0890 -0530 0620

假設變異

數相等 0031 0860 -0414 125000 0680 -0890 0580魔

師 不假設變

異數相等 -0413 123981 0680 -0890 0580

假設變異

數相等 2029 0157 -1359 125000 0177 -1030 0190猜

猜 不假設變

異數相等 -1355 121450 0178 -1030 0190

假設變異

數相等 0391 0533 -0452 125000 0652 -1060 0660擲

子 不假設變

異數相等 -0452 123426 0652 -1060 0670

65

結果顯示各小題的平均數女生分別是34474413432177

494男生分別是326418417417135474除了幾何方塊之外

幾乎都是女生高於男生而各小題的Levene變異數檢定結果其P值分別是

0220513079708601570533均大於005顯示沒有顯著差異

而平均數的檢驗結果各題的P值分別是0451014408906801770652

也都大於005也呈現沒有達到顯著差異可見這6題的考題成績結果與刻板

印象「男生數理比較厲害」有不同的結果

第三節 利用 TIMSS 2003 實作評量試題比較施測

學校與原始施測資料的成績差異

本節研究重點是 TIMSS 2003 的題目與國際受測國家中總體表現較好的國家

資料及台灣原始資料進行比較TIMSS 網站上提供各個受測國家的資料檔研究

者下載了新加坡香港日本台灣比利時與美國的資料之所以下載這幾個

國家的資料是因為四年級測驗總分結果前五名剛好是新加坡香港日本台

灣比利時而且從總分的分析結果顯示台灣與新加坡香港有顯著差異與日

本沒有顯著差異而比利時與台灣也有顯著差異所以比較這五個國家而美國

是因為研究者想了解美國學生是否真的比較會活用故列入此次的比較探討在

實作評量上是否達到顯這差異研究方法採用變異數分析與事後比較事後比較

採用雪費(Scheffe)檢定法由於 TIMSS 施測時採用 12 本測驗題本所以參與

實作評量的各題人數並不一致會出現同一個國家在不同題目上有不同人數的情

況另外因研究者分三天進行六題施測每題實際受測人數也有不同

一圖形題

66

表4-3-1 95年圖形題題組得分情形分配表

題目 得 0分人數 得 1分人數 缺失值 總人數

圖形題甲 66 934 6 127

圖形題乙 41 959 6 127

圖形題丙 174 826 6 127

圖形題丁 223 777 6 127

由表 4-3-1 可知在圖形題題組中各小題得分均以得 1分的人數分別是

934959826777各題百分比是否達到顯著不同研究者用百分比

同質性檢定結果列於表 4-3-2

表 4-3-2 圖形題百分比同質性檢定

得分題目 交叉表

題目

1 2 3 4 總和

得分 0 8 5 21 27 61

得分 1 113 116 100 94 423

總和 121 121 121 121 484

卡方檢定

數值 自由度 p-value

Pearson 卡方 24666a 3000 0000

概似比 25936 3000 0000

線性對線性的關連 19950 1000 0000

有效觀察值的個數 484000

a 0 格(0)的預期個數少於 5最小的預期個數為 1525

67

結果顯示 Pearson 的卡方值 24666df=3p=0000達到顯著水準所以

各題的答對率百分比是不同的

表4-3-3 圖形題題組各國答對率的比較

題目 新加坡答

對率

香港答對

日本答對

台灣答對

比利時答

對率

美國答對

施測學校

答對率

圖形題甲 830 958 917 936 833 727 934

圖形題乙 937 988 902 950 911 877 959

圖形題丙 702 859 744 847 504 328 826

圖形題丁 616 490 634 656 504 553 777

00

400

800

新加坡

香港

日本

台灣

比利時

美國

施測學

圖形

題甲

圖形

題乙

圖形

題丙

圖形

題丁

圖4-3-1 圖形題題組答對率之比較圖

由表 4-3-3 與圖 4-3-1 可知在圖形題題組中甲題的答對率以香港最高

台灣與施測學校居次美國最低乙題的答對率以香港最高台灣與施測學校還

是居次美國最低丙題的答對率以香港最高台灣居次美國最低而且低到

328丁題的答對率以施測學校最高台灣居次香港最低低到 490香港

68

在此小題的表現與上述三小題的結果明顯有很大差距

接著進行變異數分析與事後比較的結果

表4-3-4 圖形題各題之資料統整

圖形題甲

有效的個數 平均數 標準差

新加坡甲 1103 0830462 0375396

香港甲 757 0957728 0201342

日本甲 767 0916558 0276730

台灣甲 776 0935567 0245681

比利時甲 779 0833119 0373109

美國甲 1636 0726773 0445753

施測甲 121 0933884 0249517

圖形題乙

有效的個數 平均數 標準差

新加坡乙 1103 0937443 0242274

香港乙 757 0988111 0108458

日本乙 767 0902216 0297216

台灣乙 776 0949742 0218617

比利時乙 779 0911425 0284312

美國乙 1636 0877139 0328378

施測乙 121 0958678 0199862

題形題丙

有效的個數 平均數 標準差

新加坡丙 1103 0701723 0457709

香港丙 757 0858653 0348610

日本丙 767 0744459 0436450

台灣丙 776 0846649 0360557

比利時丙 779 0504493 0500301

美國丙 1636 0327628 0469492

施測丙 121 0826446 0380300

69

圖形題丁

有效的個數 平均數 標準差

新加坡丁 1103 0615594 0486675

香港丁 757 0490092 0500232

日本丁 767 0633638 0482125

台灣丁 776 0655928 0475371

比利時丁 779 0504493 0500301

美國丁 1636 0552567 0497381

施測丁 121 0776860 0418083

由表 4-3-4 得知參與此題的人數以美國的 1636 人最多香港日本台

灣比利時的人數差不多經變異數分析後如表 4-3-5 所示

表 4-3-5 圖形題各題之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

圖形題甲 組間 44078 6 7346 59531 0000

組內 732026 5932 0123

總和 776103 5938

圖形題乙 組間 8009 6 1335 18752 0000

組內 422269 5932 0071

總和 430278 5938

圖形題丙 組間 257623 6 42937 223054 0000

組內 1141889 5932 0192

總和 1399511 5938

圖形題丁 組間 24546 6 4091 17047 0000

組內 1423561 5932 0240

總和 1448107 5938

70

表4-3-5顯示在α=005之下圖形題4小題的P值均<005均達顯著

水準可見這4題的平均得分有顯著不同所以研究者進一步做事後分析如表

4-3-6所示配合研究者的研究目的本文中只摘錄與研究目的相關的資料其

他比較結果請參閱附錄表格

表 4-3-6 圖形題各題之事後比較

Scheffe 法

題目 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0100 0034 0150

香港 -0024 0034 0998

日本 0017 0034 1000

台灣 -0002 0034 1000

比利時 0100 0034 0196

圖形題

美國 0210 0033 0000

施測 新加坡 0021 0026 0995

香港 -0029 0026 0973

日本 0057 0026 0585

台灣 0009 0026 1000

比利時 0047 0026 0772

圖形題

美國 0082 0025 0105

施測 新加坡 0120 0042 0185

香港 -0032 0043 0997

日本 0082 0043 0724

台灣 -0020 0043 1000

比利時 0320 0043 0000

圖形題

美國 0500 0041 0000

施測 新加坡 0160 0047 0066

香港 0290 0048 0000

日本 0140 0048 0178

台灣 0120 0048 0382

比利時 0270 0048 0000

圖形題

美國 0220 0046 0001

71

由表4-3-6所顯示的結果得知在圖形題這四小題中施測學校與台灣在2003

年所作的調查結果的資料並沒有達到顯著差異可見施測學校的圖形題各小題的

平均得分與2003年的台灣資料的圖形題各小題的平均得分是視為相等的施測學

校在圖形題乙的部分與國際上2003年表現較好的國家的施測資料也都沒有達到

顯著差異可見在這一小題上施測學校與國際上表現較好的國家的平均得分也

是可以視為相等的但是在圖形題甲中施測學校與美國有達到顯著差異在圖

形題丙中施測學校與比利時美國有達到顯著差異在圖形題丁中施測學校

與香港比利時美國有達到顯著差異可見在圖形題甲中施測學校的平均得

分優於美國在圖形題丙中施測學校的平均得分優於比利時與美國在圖形題

丁中施測學校的平均得分優於香港比利時與美國

接下來以整個圖形題的題組來看由表 4-3-7 所示變異數分析的結果

表4-3-7 圖形題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 725457 6 120910 107817 0000

組內 6652328 5932 1121

總和 7377785 5938

在α=005的情況下F檢定值為107817plt005達到顯著差異所以

可以得知這七個國家的平均得分有顯著差異所以要進行事後比較如表4-3-8

所示

72

表4-3-8 圖形題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0410 0101 0012

香港 0200 0104 0708

日本 0300 0104 0215

台灣 0110 0104 0982

比利時 0740 0103 0000

美國 1010 0100 0000

由表 4-3-8 得知整個題組的事後分析顯示在α=005 的情況下施測學

校的總分平均得分與與台彎沒有達到顯著差異所以平均總得分是可以視為相等

的而施測學校總平均得分與新加坡比利時美國有達到顯著差異所以施測

學校的總平均得分是優於新加坡比利時與美國

二數字卡題組

表4-3-9 95年數字卡題題組得分情形分配表

得 0分人數 得 1分人數 得 2分人數 遺漏值 總人數

數字卡 1 317 683 7 127

數字卡 2 242 758 7 127

數字卡 3 117 92 792 7 127

數字卡 4 300 700 7 127

數字卡 5 317 683 7 127

數字卡 6 783 217 7 127

由表 4-3-9 可知在數字卡題題組中各小題得分分別以數字卡 1得 1分者

73

佔 683以數字卡 2得 1分者佔 758以數字卡 3得 2分者佔 792以數字

卡 4得 1分者佔 70以數字卡 5得 1分者佔 683以數字卡 6得 0分者佔 783

居多數字卡 6得分偏低此小題是要求學生將已知的三個數字拼成兩個數後所

得乘積最大結果顯示學生答對率偏低但學生在加法與減法上則無此現象(數

字卡 4與數字卡 5)此題各國答對率的比較結果列於表 4-3-10

表4-3-10 數字卡題題組各國答對率的比較

題目 新加坡 香港 日本 台灣 比利時 美國 施測學校

數字卡 1 494 624 646 698 475 416 683

數字卡 2 567 538 619 657 556 458 758

數字卡 3 645 595 594 657 553 563 792

數字卡 4 713 710 754 647 556 534 700

數字卡 5 693 689 738 629 546 497 683

數字卡 6 264 243 362 225 185 135 217

0

20

40

60

80

100

數字卡1

數字卡2

數字卡3

數字卡4

數字卡5

數字卡6

圖 4-3-2 數字卡題題組答對率之比較圖

74

由表 4-3-10 與圖 4-3-2 可知在圖形題題組中第 1題的答對率以台灣最

高施測學校居次美國最低第 2題的答對率以施測學校最高台灣居次美

國最低第 3題的答對率以施測學校最高台灣居次比利時最低第 4題的答

對率以日本最高新加坡和香港居次美國最低第 5題的答對率以日本最高

新加坡居次美國最低第 6題的答對率還是以日本最高新加坡居次美國最

低接著進行變異數分析結果列於表 4-3-11

表 4-3-11 數字卡題各題之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

組間 34477 6 5746 2418 0000

組內 717422 3019 0238 第一題

總和 751899 3025

組間 18413 6 3069 12727 0000

組內 727966 3019 0241 第二題

總和 746379 3025

組間 36829 6 6138 7166 0000

組內 2585878 3019 0857 第三題

總和 2622707 3025

組間 22038 6 3673 16419 0000

組內 675332 3019 0224 第四題

總和 697369 3025

組間 24878 6 4146 18142 0000

組內 689975 3019 0229 第五題

總和 714853 3025

組間 14939 6 2490 14850 0000

組內 506156 3019 0168 第六題

總和 521095 3025

75

表4-3-11顯示在α=005之下數字卡題6小題均達顯著水準可見這6小題

的平均得分有顯著不同所以研究者進一步做事後分析如表4-3-12所示配合

研究者的研究目的本文中只摘錄與研究目的相關的資料其他比較結果請參

閱附錄表格

表4-3-12 數字卡題之事後比較

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0190 0049 0021

香港 0059 0051 0969

日本 0037 0051 0998

台灣 -0015 0051 1000

比利時 0209 0051 0010

第一題

美國 0267 0048 0000

施測 新加坡 0192 0049 0020

香港 0221 0051 0005

日本 0140 0052 0296

台灣 0101 0051 0692

比利時 0203 0051 0016

第二題

美國 0301 0048 0000

施測 新加坡 0335 0093 0045

香港 0451 0097 0001

日本 0404 0098 0009

台灣 0302 0097 0136

比利時 0500 0097 0000

第三題

美國 0490 0091 0000

施測 新加坡 -0013 0048 1000

香港 -0010 0050 1000

日本 -0054 0050 0978

台灣 0053 0049 0979

比利時 0144 0049 0201

第四題

美國 0166 0046 0045

76

表 4-3-12(續) 數字卡題之事後比較

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 -0010 0048 1000

香港 -0006 0050 1000

日本 -0054 0050 0979

台灣 0054 0050 0978

比利時 0138 0050 0267

第五題

美國 0186 0047 0014

施測 新加坡 -0047 0041 0971

香港 -0026 428E-02 0999

日本 -0145 0043 0079

台灣 -0008 0043 1000

比利時 0031 0043 0997

第六題

美國 0082 0040 0654

由表4-3-12所顯示的結果得知在數字卡題這六小題中施測學校與台

灣在2003年所作的調查結果資料並沒有達到顯著差異可見施測學校的數字卡題

各小題的平均得分與2003年的台灣資料的數字卡題各小題的平均得分是視為相

等的施測學校在數字卡題第六題的部分與國際上2003年表現較好的國家的施測

資料也都沒有達到顯著差異可見在這一小題上施測學校與國際上表現較好的

國家的平均得分也是可以視為相等的但是在數字卡題第一題中施測學校與新

加坡比利時美國有達到顯著差異顯示在這一小題中施測學校的成績是優

於這三個國家的在數字卡題第二題中施測學校與新加坡香港比利時美

國有達到顯著差異顯示在這一小題中施測學校的成績是優於這四個國家的

在數字卡題第三題中施測學校與新加坡香港日本比利時美國有達到顯

著差異顯示在這一小題中施測學校的成績是優於這五個國家的在數字卡題

第四題中施測學校與美國有達到顯著差異顯示在這一小題中施測學校的成

績是優於美國的在數字卡題第五題中施測學校與美國有達到顯著差異顯示

77

在這一小題中施測學校的成績是優於美國的

接下來以整個數字卡題的題組來看由表 4-3-13 所示變異數分析的結果

表4-3-13 數字卡題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 660902 6 110150 23261 0000

組內 14295950 3019 4735

總和 14956850 3025

在α=005的情況下F檢定值為23261plt005達到顯著差異所

以可見這七個國家總分的平均得分有顯著差異所以進行事後比較如表4-3-14

所示

表 4-3-14 數字卡題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0645 0219 0192

香港 0688 0228 0167

日本 0327 0229 0916

台灣 0486 0227 0598

比利時 1224 0227 0000

美國 1492 0213 0000

由表4-3-14得知整個題組的事後分析顯示在α=005的情況下施測學校

的總分平均得分與台彎沒有達到顯著差異所以平均總得分是可以視為相等的

而施測學校總平均得分與比利時美國有達到顯著差異所以施測學校的總平均

得分是優於比利時與美國

78

三幾何方塊題組

表4-3-15 95年幾何方塊題題組得分情形分配表

得 0分人數 得 1分人數 得 2分人數 遺漏值 總人數

幾何方塊 1 50 950 8 127

幾何方塊 2 109 891 8 127

幾何方塊 3 252 748 8 127

幾何方塊 4 193 807 8 127

幾何方塊 5 244 479 277 8 127

由表 4-3-15 可知在幾何方塊題題組中各小題得分分別以幾何方塊 1得 1

分者佔 95以幾何方塊 2得 1 分者佔 891以幾何方塊 3 得 1 分者佔 748

以幾何方塊 4得 1分者佔 807以幾何方塊 5得 1分者佔 479居多各題各

國答對率的比較結果列於表 4-3-16

表 4-3-16 幾何方塊題題組各國答對率的比較

題目 新加坡 香港 日本 台灣 比利時 美國 施測學校

幾何方塊 1 432 602 785 580 517 399 950

幾何方塊 2 447 470 717 546 548 405 891

幾何方塊 3 720 702 557 613 432 461 748

幾何方塊 4 557 436 447 323 516 446 807

幾何方塊 5 115 66 135 82 123 76 277

79

0

20

40

60

80

100

幾何

方塊1

幾何

方塊2

幾何方塊3

幾何

方塊4

幾何

方塊5

圖4-3-3 幾何方塊題題組答對率之比較圖

由表 4-3-16 與圖 4-3-3 可知在幾何方塊題組中第 1題的答對率以施測

學校最高日本居次美國最低第 2題的答對率以施測學校最高日本居次

美國最低第 3題的答對率以施測學校最高新加坡居次比利時最低第 4題

的答對率以施測學校最高新加坡居次台灣最低第 5題的答對率以施測學校

最高日本居次香港最低接著進行變異數分析結果列於表 4-3-17

80

表 4-3-17 幾何方塊題各題之變異數分析

得分 平方和 自由度 平均平方和 F 檢定 p-value

組間 115732 6 19289 83927 0000

組內 1363788 5934 0230 第一題

總和 1479520 5940

組間 75877 6 12646 53259 0000

組內 1409236 5935 0237 第二題

總和 1485112 5941

組間 77699 6 12950 55905 0000

組內 1374774 5935 0232 第三題

總和 1452473 5941

組間 42205 6 7034 29061 0000

組內 1436564 5935 0242 第四題

總和 1478768 5941

組間 51860 6 8643 20902 0000

組內 2454259 5935 0414 第五題

總和 2506120 5941

表4-3-17顯示幾何方塊題5小題均達顯著水準可見這5題的平均得分

有顯著不同所以研究者進一步做事後分析如表4-3-18所示配合研究者的研

究目的本文中只摘錄與研究目的相關的資料其他比較結果請參閱附錄表格

81

表4-3-18 幾何方塊題各題之事後比較

Scheffe 法

題號 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0520 0046 0000

香港 0350 0047 0000

日本 0160 0047 0060

台灣 0370 0047 0000

比利時 0430 0047 0000

第一題

美國 0550 0046 0000

施測 新加坡 0440 0047 0000

香港 0420 0048 0000

日本 0170 0048 0040

台灣 0340 0048 0000

比利時 0340 0048 0000

第二題

美國 0490 0046 0000

施測 新加坡 0028 0046 0999

香港 0046 0047 0988

日本 0190 0047 0012

台灣 0140 0047 0230

比利時 0320 0047 0000

第三題

美國 0290 0046 0000

施測 新加坡 0250 0047 0000

香港 0370 0049 0000

日本 0360 0049 0000

台灣 0480 0049 0000

比利時 0290 0049 0000

第四題

美國 0360 0047 0000

82

表 4-3-18(續) 幾何方塊題各題之事後比較

題號 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0260 0062 0006

香港 0430 0063 0000

日本 0280 0063 0004

台灣 0480 0063 0000

比利時 0350 0063 0000

第五題

美國 0420 0061 0000

由表4-3-18所顯示的結果得知在幾何方塊題這五小題中只有第三小

題施測學校與台灣在2003年所作的調查結果資料並沒有達到顯著差異其他四小

題的結果都是與台灣達到顯著差異的可見施測學校的平均得分在這四小題中是

優於台灣在2003年所作的調查結果資料在幾何方塊題第一題中施測學校與新

加坡香港比利時美國有達到顯著差異顯示在這一小題中施測學校的成

績是優於這四個國家的在幾何方塊題第二題中施測學校與新加坡香港日

本比利時美國有達到顯著差異顯示在這一小題中施測學校的成績是優於

這五個國家的在幾何方塊題第三題中施測學校與日本比利時美國有達到

顯著差異顯示在這一小題中施測學校的成績是優於這三個國家的在幾何方

塊題第四題中施測學校與新加坡香港日本比利時美國有達到顯著差異

顯示在這一小題中施測學校的成績是優於這五個國家的在幾何方塊題第五題

中施測學校與新加坡香港日本比利時美國有達到顯著差異顯示在這

一小題中施測學校的成績是優於這五個國家的

接下來以整個幾何方塊題的題組來看由表 4-3-19 所示變異數分析的結果

83

表4-3-19 幾何方塊題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 885084 6 147514 50368 0000

組內 17379220 5934 2929

總和 18264300 5940

在α=005的情況下F檢定值為50368plt005達到顯著差異所

以可見這七個國家總分的平均得分有顯著差異所以進行事後比較如表4-3-20

所示

表4-3-20 幾何方塊題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 1499 0165 0000

香港 1615 0169 0000

日本 1166 0169 0000

台灣 1814 0169 0000

比利時 1727 0169 0000

美國 2101 0162 0000

由表4-3-20得知整個題組的事後分析顯示在α=005的情況下施測學

校的總分平均得分與台彎有達到顯著差異所以平均總得分是施測學校優於台灣

在2003年所作的調查結果資料的而施測學校總平均得分與新加坡香港日本

比利時美國有達到顯著差異所以施測學校的總平均得分是優於新加坡香港

日本比利時美國

84

第四節 實作評量試題的類推性

本研究試題的評分者有兩位所以採用的是評分者與工作項目的兩面向交叉

設計(the two-facet crossed persontimesratertimestask design)研究者原先想

利用 SPSS 套裝軟體進行多變量變異數分析將評分的結果做概化程度的分析

計算出各個變異來源之變異成份的大小及其佔總變異的百分比但因檔案太

大SPSS 套裝軟體無法進行多變量變異數分析所以研究者改用 EXCEL 軟體進行

試算其結果列於表 4-4-1

表4-4-1 實作評量概化程度變異成分表

變異來源 估計變異成份 佔總變異之百分比

受試者 0887981185 1944983082

評分者 96E-16 211E-14

工作項目 1697518073 3718146275

受試者評分者 0 0

受試者工作項目 1872595983 410162689

評分者工作項目 0033245844 0728197914

受試者評分者工作項目及誤差 0074154589 1624239615

G 係數 0736144063

註 1在受試者與評分者的交互作用項中其估計變異成份的大小為-106396E-15Shavelson

Webb(1991)指出當某變異成份實際的值接近或等於 0 時取樣的誤差可能導致該變異成份

的估計值成為負數此時可將負值的變異成份大小設定為 0

從以上的表 4-4-1研究者有以下的發現

一實作評量最大的三個變異來源是受試者和工作項目的交互作用工作項

目之間的變異與受試者之間的變異

實作評量最大的變異來源是受試者和工作項目的交互作用佔總變異量的

85

41016表示在研究者的實作評量裡學生的成績會因著工作項目的不同而有

高低起伏如此一來便會降低以某位受試者的觀察分數概化至其真實分數的可

靠程度所以研究者無法以學生在少量的實作評量評量項目上的表現來做為他

們在數學科能力的推論

此外在研究者的實作評量中第二大的變異來源為工作項目之間的變異

其值為 170佔總變異的 37181這只是反應了學生在評量項目上能力表

現的差異並非影響 G係數大小的主要因素關於這一點研究者從計算 G係數

的公式可以了解G係數的計算公式是這樣的

G=σ2p(σ2

p+σ2ptnt+σ2

rpnr+σ2rptenrtimesnt)

G 係數的意義是受試者間的變異量在與受試者有關的變異量之總和中所佔的

比例大小因此若受試者間的變異量愈大而相對於受試者與其他實驗設計面

向的變異量及誤差愈小則 G係數便會愈大也就是根據測驗成績來作推論的可

靠性愈高

二兩位評分者之間的變異極小

評分者之間的變異為傳統的評分者信度從表 4-4-1 可以看到兩位評分結果

之間的變異值為 96E-16僅佔總變異的 211E-14顯示研究者的評分標準非

常一致也就是說研究者兩位當中並沒有誰評分時較為嚴格(stringent)或

較為寬大(liberal)

三受試者與評分者之間沒有交互作用

表 4-4-1 顯示受試者與評分者之間的交互作用為 0表示研究者兩位評分者

並沒有受到月暈效應的影響而對某些學生給予較高的成績對其他學生則給予較

低的成績這一點也可做為評量是否具有公平性的證據之一

四評分者與工作項目間的交互作用非常小

評分者與評量項目間的交互作用很小表示兩位評分者在評定各個評量項目

的評量標準相當一致這原因是由於評分標準訂定的相當明確而且具體讓評分

86

者之間沒有認知的差異存在

從評量工作項目的內容來看本次測驗所測量的雖然同樣是數學能力

測驗但各題所涵蓋的領域包含了統計的資料處理分析能力(擲骰子)幾

何對稱概念(魔術師)概算能力(猜一猜)幾何圖型的直觀概念(圖形

題)數與量中的整數加減乘的運算分析能力(數字卡)結合數與形兩大

主題的幾何形體構成要素及其數量性質(幾何方塊)題目本身的差異性很

大而且每位學生所擅長的方面有所不同在工作項目的表現自然就有所

不同在加上每題的配分並不盡相同所以由這些評量項目概化至其他數

學科能力的程度就降低了這也就是本研究的 G 係數僅達 0313表示如果

使用少量的實作評量工作項目將無法達到所需要的信度

另外主要效果是受試者的變異數值是 0888佔總變異的 19450代

表學生之間的程度差異也很大

根據概化程度研究的結果研究者可以進一步做決策研究(decision

study)決策研究是用來指出若要達到足夠小的誤差變異或足夠大的概化

係數時每一個學生需要多少工作項目以及每一個工作項目需要多少評分

者下面研究者分別分析在幾個評分者的情況下實作評量工作項目為幾

個時G 係數才能達到 08

87

表 4-4-2 G 研究與各種 D 研究之變異成分分析與推論力係數

變異源 G 研究變異成

分之估計值D研究變異成分之估計值

nr= 1 2 3 5 2 2 2

ni= 1 6 6 6 7 8 9

受試者 0888 0888 0888 0888 0888 0888 0888

評分者 0000 0000 0000 0000 0000 0000 0000

工作項目 1698 0283 0283 0283 0243 0212 0189

受試者評分者 0000 0000 0000 0000 0000 0000 0000

受試者工作項目 1873 0312 0312 0312 0268 0234 0208

評分者工作項目 0033 0100 0066 0040 0116 0133 0150

受試者評分者工

作項目及誤差 0074 0006 0004 0002 0005 0005 0004

σRel 1947 0318 0316 0315 0273 0239 0212

G 係數 0313 0736 0737 0738 0765 0788 0807

由表 4-4-2 可知原設計研究 2位研究者與 6道題目的方式推出 G係數只有

0736當評分者增加一位而題目維持六題時G係數只增加 001 達到 0737

如果將評分者增加到五位而題目仍維持六題時G係數只增加 002 達到 0738

可見增加評分者的影響有限如果評分者維持兩位而題目增加為七題G係數會

增加 0029達到 0765如果評分者維持兩位而題目增加為八題G係數會增加

0052達到 0788可見增加題目的效果比增加評分者更為有效當評分者為兩

位題目為九題時G係數可達 0807顯示評分者為兩位題目為九題時內

部一致性較佳

88

第五章 結論

本研究以 TIMSS 數學實作評量的題目為工具進行特定環境背景不同年度的

縱貫研究及與其他國際上表現較佳的國家進行橫貫研究以下為本研究進行所得

的經驗以及資料分析所得之結果分別以結論以及建議等兩節進行說明

第一節 結論

壹實作評量的信效度

TIMSS 試題在台灣之施測是具有一定信效度在信度方面經實際施測後計

算的結果為 0799所以 TIMSS 數學實作評量試題在台灣之施測是具有信度的

但根據實作評量試題的類推性分析結果發現G研究中的 G係數只有 0313深

入探討其原因可能是試題難易程度的差別較大與各題配分比例不同所造成的

所以在 D研究中要補救其信度低的措施就是增加評分者為兩位題目為九題時

其 G係數就可以達到 0807在效度方面每一題均有詳細說明細節行為的項目

給定參考答案圖形的作品量表各題除經著名國際測驗機構審核施測過外並由

研究者另請學校資深四年級教師共同研究討論題目與答案對於施測過程研究

者也與四位監考老師討論後訂出共同標準所以在效度方面具有專家效度跟內

容效度

貳評量結果與比較

一在進行縱貫研究方面在魔術師題型上民國 95 年的結果較佳在擲

骰子題型上是民國 89 年的結果較佳在猜一猜題型上民國 89 年的結

果較佳此結果顯示在幾何概念的對稱觀念上民國 95 年的學生有較

佳的表現但在統計觀念及概數觀念上民國 89 年的學生表現較佳

在實際施測過程中研究者發現在魔術師題型的第一題上許多民國

95 年的學生是先將題目要求的圖形剪出來後再進行對摺當然如果學生

是交出這樣的答案紙條評分者是不給分的因為當評分者在沿著摺線

89

還原時就會發現不是一刀剪出來的可是因為有三個機會所以許多學

生得到這樣的經驗後就會在第二次或第三次時剪出題目要求的結果

而且第一題的成功經驗會連帶的影響第二題的作答因為摺的方式是

一樣的只是剪的地方是不同的所以不管民國 95 年或是民國 89 年的

作答結果都會發現第二題的答對率均比第一題高而第三題的作答方

式因為要多摺一次而且較難複製前面成功的經驗所以第三小題的答

對率比前兩題均比較低所以研究者認為在這一題型上民國 95 年的

學生會表現得比較好的原因可能在於有比較好的作答技巧

二TIMSS 實作評量在性別及班級之間沒有顯著差異

三在圖形題題型上施測學校與台灣西元 2003 年施測結果沒有達到顯著

差異在數字卡題型上施測學校與台灣西元 2003 年施測結果沒有達

到顯著差異在幾何方塊題型上施測學校與台灣西元 2003 年施測結

果達到顯著差異之所以在幾何方塊題型上會達到顯著差異研究者認

為可能是時間點的問題因為研究者施測的時間是利用學期末期末考

後而剛好這次期末考有分數的單元所以學生對這個範圍比較熟悉

才可能造成施測學校的成績特別突出

四在圖形題題型上施測學校優於新加坡比利時及美國在數字卡題型

上我國優於比利時美國在幾何方塊題型上施測學校優於新加坡

香港日本比利時美國研究者特別注意到香港與美國這兩個國家

在 89 年徐美英論文中香港在該年的施測結果都比徐美英施測結果落

後但在 95 年的施測結果卻只有幾何方塊題型是明顯落後施測學校這

表示不是台灣學生在這幾年程度變低了就是這幾年香港程度變高了

在跟縱貫研究做交叉比較後研究者認為台灣學生這幾年程度變低的可

能性較大而美國不管是在 89 年與徐美英論文的施測結果比較或是與

95 年施測結果比較均在這兩次比較中明顯落後

90

第二節 建議

壹TIMSS 實作評量的後續研究

由於數學科實作評量在實際施測時常有人力與物力上的考量以至於在實

際教育現場上並不常用但是實作評量所測出的學生能力與紙筆測驗所測出的

學生能力是不同面向的經過此次實際施測的經驗研究者認為運用 TIMSS 實

作評量的試題來了解學生的學習成就可以在經濟負擔的考慮範圍內達到可

信賴的研究成果因此建議後續研究者可朝向此方向繼續研究以期能更深入

了解學生學習成就的變化情形

貳學生學習成就的長期追蹤

建立台灣的長期教育資料庫是必要的這是從事教育基礎研究的中外學者

的共識研究者此次研究以 TIMSS 實作評量的試題為工具來了解民國 89

年跟民國 95 年特定環境背景的國小四年級學生學習成就的比較即以此理念

為出發點目前在中央研究院教育部和國科會共同推動下『台灣教育長期

追蹤資料庫』的建置工作也已在 2001 年 10 月份起正式展開目的是為了從教

育基礎研究的角度出發研究哪些因素會影響到學生解決問題的能力如學

生努力程度學習機會和學習能力等等當然資料的品質是累積而來的不做

沒有開始就不可能有改進也就不可能有較豐富的資料內容美國國家教育

長期研究(National Education Longitudinal Study NELS)其資料的品質

和豐富素為各國教育研究學者所稱道就是因為它累積了二十多年的經驗

且經過多次的增刪修改研究者也希望能有後續研究者投入後續的相關研究

並累積相關的資料以利決策者能創造出適合台灣學生的最佳學習環境

叁開放性問題的評量研究

在此次研究中發現學生對於開放性問題的解題能力非常不足對於設計

好的題目較難提出歸納模式或者合理的推測這或許歸因於教學現場中的標

91

準化測驗在整個學習過程中教學活動跟教學評量是交互不斷進行而常常

受限於時間跟經濟因素教師只能被迫選擇標準化測驗以診斷學生學習困難

處但是標準化測驗容易讓學生誤以為答案是唯一的而且數學知識是可以切

割成不相關的小部分的因此在國民中小學九年一貫課程綱要中提出「教師

應透過各種評量方式以檢驗教學效果」的觀念研究者建議後續研究者能進一

步探討這方面的相關研究

肆國際比較的重要性

許多國家多年以前即開始參與大型國際研究以了解自己國家學生與其他

不同國家或區域的學生學習成就的差異特別的是此類國際研究對於結果的分

析是深入且多面向的包括學生家庭背景班級學校等民國 95 年中國時

報特別以專欄方式提出芬蘭的教育成功經驗以供國內教育改革的參考為什

麼要特別提出芬蘭呢因為芬蘭在重要的國際比較研究中常常名列前矛所

以參與大型的國際研究可以找出成功的經驗減少自己摸索的時間

92

參考文獻

壹中文部份

王秀琲 (民 92)實作評量在國小數學科之應用-以五年級學童分數為例國立

臺中師範學院教育測驗統計研究所碩士論文

方泰山(民 91)第四次 TIMSS 2003 NRC 自由反應評分系統研討會會議報告

httpichochemntnuedutwpub4thnrcreporthtm

石千奇(民 93)國小六學童在數學實作評量中的小組解題歷程分析國立中山

大學教育研究所碩士論文

江文慈(民 87)一個新評量理念的探討多元智力取向的評量教育資料與研

究20 期6-12

曲慧娟 (民 94)實作評量在國中學術性向優異班招生鑑定之效度研究~以臺灣

北區為例國立臺灣師範大學特殊教育研究所碩士論文

李坤崇(民 88)多元化教學評量台北心理

余民寧(民 93)教育測驗與評量-成就測驗與教學評量第二版台北心理

吳毓瑩(民 85)評量的蛻變與突破-從哲學思潮與效度理論參考起教育資料

與研究13 期2-15

李虎雄張敏雪(民 87)由學力評量觀點談實作評量之特性測驗與輔導

3104-3108

吳明隆(民 87)教室做為評量環境的內涵與其評量新趨勢研習資訊15 卷

4期62-77

93

吳清山林天佑(民 85)教育名詞 mdash分流教育教育資料與研究885

李長柏(民 91)國小數學簡單機率解題實作評量與後設認知之相關研究國立

臺中師範學院教育測驗統計研究所碩士論文

呂政隆(民 93)國小學童在數學實作評量解題整合認知與課程之相關研究

國立臺中師範學院教育測驗統計研究所碩士論文

呂金燮(民 88)實作評量-理論載於王文中呂金燮吳毓瑩張郁雯張淑

慧(合著)教育測驗與評量教室學習觀點(頁 173-207)台北五

李茂能(民 85)信度考驗的另一途徑推論力理論國民教育學報227-48

林清山(民 81)心理與教育統計學台北東華

林敬修(民 92)影響國小數學科實作評量信度相關因素之類推性理論分析國

立屏東師範學院教育心理與輔導學系研究所碩士論文

洪之昀(民 89)數學科實作評量對國小高年級學童學習策略影響之研究國立

臺中師範學院教育測驗統計研究所碩士論文

桂怡芬吳毓瑩(民 87)自然科實作評量的效度探討測驗年刊45(2)19-36

桂怡芬(民 85)自然科實作評量的效度探討國立台北師範學院國民教育研究

所碩士論文

桂怡芬(民 85)紙筆與實作的互補我的實作評量經驗教育資料與研究13

期36-40

徐美英(民 89)TIMSS 數學實作評量在台灣之試用探討國立臺中師範學院教

育測驗統計研究所碩士論文

94

夏淑琴(民 88)教學評量革新-多元評量載於高強華主編(民 88)學校變遷與

學校革新台北師大

教育部(民 92)國民中小學九年一貫課程綱要數學學習領域台北教育部

張紹勳張紹評林秀娟(民 92a)SPSS For Windows 統計分析初等統計與高

等統計(上冊)(第四版)台北文魁資訊股份有限公司

張紹勳張紹評林秀娟(民 92b)SPSS For Windows 統計分析初等統計與高

等統計(下冊)(第四版)台北文魁資訊股份有限公司

張敏雪(民 86)實作評量的本質及國民中小學數理科教師對實作評量的態度探

討國立臺灣師範大學數學研究所碩士論文

張敏雪(民 87)教室內的實作評量教育資料與研究20 期24-27

張敏雪(民 86)實作評量的本質及國民中小學數理科教師對實作評量的態度探

討國立師範大學數學研究所碩士論文

張英傑等著(民 94)數學科教師手冊台南南一書局

張永杰 (民 92)實作評量取向的幾何思考研究國立臺灣大學國際企業學研究

所碩士論文

張麗麗(民 91a)從分數的意義談實作評量效度的建立教育研究月刊9837-51

張麗麗(民 91b)評量改革的應許之地虛幻或真實-談實作評量之作業與表

現規準教育研究月刊9376-86

郭生玉(民 84)心理與教育研究法台北精華

陳英豪吳裕益(民 85)測驗與評量高雄復文

95

陳文典陳義勳李虎雄簡茂發(民 84)由馬里蘭州的學習成就評量與其在

台灣的施測結果看-實作評量的功能與應用科學教育月刊185 期

2-10

陳昭地(民 88)「第三次國際數學與科學教育成就研究」後續調查

httpreporticentnutwnscreportTIMSS-R(1999)實測後

期中報告--交國科會htm

陳怡玉(民 94)降低國小數學科實作評量人和作業交互作用變異方法的探討---

以類推性理論分析國立臺南大學測驗統計研究所碩士論文

莊明貞(民 84)變通性評量的發展與實施研習簡訊261

莊明貞(民 85)實作評量理論與實際教育資料與研究9期44-48

曾惠敏(民 87)國小分數概念實作評量之發展及其相關研究國立台南師範學

院國民教育研究所碩士論文

游麗卿(民 87)從實作表現診斷學生乘除法的錯誤概念觀念測驗與輔導雙月

刊149 期3094-3099

鄒慧英譯(民 92)測驗與評量(原作者 Robert L linn and Norman E

Gronlund)台北洪葉文化

鄒慧英(民 86)實作型評量的品管議題兼談檔案評量的應用載於八十七年度

教育測驗新近發展趨勢學術研討會

詹志禹(民 85)評量改革為什麼要進行-回應吳毓瑩<評量的蛻變與突破>

教育資料與研究13 期45-47

96

詹元智(民 91)國小數學科實作評量之效度探討國立屏東師範學院教育心理

與輔導研究所碩士論文

蔡正濱(民 95)國小數學科實作評量評分者ㄧ致性相關因素探討國立屏東教

育大學教育心理與輔導學系研究所碩士論文

鄭麗玉(民 88)教學評量的改革教師之友40 卷1期23-33

歐滄和(民 91)教育測驗與評量台北心理

盧雪梅(民 87)實作評量的應許難題和挑戰教育資料與研究20 期1-5

簡茂發(民 80)命題方法與試題分析國教輔導31(1)2-13

蘇義翔(民 86)實作評量的理論與啟示測驗與輔導3099-3102

貳英文部分

Airasian PW (1991) Classroom assessment New York McGraw-Hill

Airasian PW (1994) Classroom assessment(2nd ed)NewYork

McGraw-Hill

Baron J B (1991) Strategies for the development of effective

performance exercise Applied Measurement in Education 4(4)

305-318

Baxter G P Shavelson R J Goldman S R amp Pine J

(1992) Evaluation of a procedure-based scoring for hands-on

science assessment Journal of Educational Measurement 29(1)

1-17

97

Baxter G P Shavelson R J Herman S J Brown K A amp Valadez

J R(1993) Mathematics performance as sessment technical

quality and diverse student impact Journal for Research in

Mathematics Education 24(3) 1990-216

Dunbar S B Koretz DM amp Hoover HD(1991) Quality control control

in the development and use performance assessmentApplied

Measurement in Educational 4(4) 289-303

Frechtling J A (1991) Performance assessment Moonstruck or the real

thing Educational Measurement Issues and Practice 10(4)

23-25

Haertel EH and Linn RL (1996) ldquoComparability in GW Philips

(Ed) Technical Issues in Large-Scale Performance Assessment

Washington DC National Center for Education Statistics

Harmon M amp KellyTA(1996) Development and Design of the TIMSS

performance Assessment In MartinMO and Kelly

DL(eds)Third International Mathematics and Science Study

(TIMSS) Technical Report Volume I Design andd Development

Chestnut Hill MABoston College

Herman JL Aschbacher PR amp Winters L(1990 November) Issues in

developing alternative assessments Paper presented at the

annual meeting of the California Educational Research

Association Chicago

98

Mullis IVS Martin MO Gonzalez EJ Chrostowski SJ(2005)

TIMSS 2003 International Mathematics Report

httptimssbcedutimss2003imathDhtml p31-p47

Linn RL(1993) Educational assessment Expanded expectations and

challenges Educational Evaluation and Policy Analysis 15(1)

1-16

Linn RL Bader EL amp Dunbar SB(1991) Complex Performemce-based

assessmentexpectations and validation criteria Educational

Researcher 20(8) 1521

Linn RL (2000) Assessments and accountability Educational Researcher

29(2) 4-16

Long C amp Stansbury K (1994) Performance assessment for beginning

teachers Phi Delta Kappan76318-322

Messick S (1994) The interplay of evidence and consequences in the

validation of performance assessments Educational Researcher

23(2) 13-23

Messick S (1995) Standards of validity and the validity of standards

in performance assessment Educational Measurement Issues and

Practice 14(4) 5-8

Martin MOMullis IVSChrostowski SJ(2005)TIMSS 2003 Technical

Report httptimssbcedutimss2003itechnicalDhtml

Martin MO(2005) TIMSS 2003 User Guide for the International Database

99

httptimssbcedutimss2003itechnicalDhtml

Miller M D amp Linn R L (2000) Validity of performance-based

assessments Applied Psychological Measurement 24(4) 367-378

Moss P (1994) Can there be validity without reliability Educational

Researcher 23 (2) 5-12

Mullis IVS Martin MO amp Foy P (2005) IEAs TIMSS 2003

International Report on Achievement in the Mathematics Cognitive

Domains httptimssbcedutimss2003imcgdmhtmlp15-p36

Roid G H amp Haladyna T M (1982) A technology for test-item writing

Orlando FL Academic Press

Ruiz-Primo M A Baxter G P amp Shavelson R J(1993) On the stability

of performance assessments Journal of Educational Measurement

30(1) 41-53

Shavelson R J Baxter G P amp Gao X (1993) Sampling variability of

performance assessments Journal of Educational Measurement 30

3215-32

Shavelson R J amp Webb N W (1991) Generalizability theory A primer

Newbury Park CASage

Shepard L A Flexer R J Hiebert E H Marion S F Mayfield

V amp Weston TJ (1996) Effects of introducing classroom

performance assessments on student learning Educational

Measurement Issues and Practice 15(3) 7-18

100

Schmidt W H Jorde D Cogan L Barrier E Gonzalo I Moser U

Shimizu K Sawada T Valverde G Prawat R Mcknight C

Raizen S Britton E Wiley D amp Wolfe R (1996)

Characterizing pedagogical flow An investigation of

mathematics and science teaching in six countries Hinglham

MAKluwer

Silver E A (1993) On mathematical problem posing In N Nohda amp F L

Lin (Eds) Proceedings of the Seventeenth Annual Meeting of the

International Group for the Psychology of Mathematics Education

Vol 1 (pp 66-85) Tsukuba Japan Author

Stiggins R J (1994) Stundent-centered classroom assessment New York

MerrillMacmillan

Stiggins R J (1987) Design and development of performance assessment

Educational Measurement Issues and Practice 6(3)33-42

Telese J A amp Kulm G (1995) Performance-based assessment of at-risk

students in mathematics The effects of context and setting

Paper presented at Annual Meeting of the American Educational

Research Association (ERIC Document Reproduction Service No

ED 382 685)

TIMSS (1997) Performance Assessment in IEAs Third International

Mathematics And Science Study Chestnut Hill MABoston

College

Webb G (1992) On pretexts for higher education development activities

101

Higher Education 24 (3) pp351-61

Wiggins G(1998) Educative assessment Designing assessments to inform

and improve student performance San Francisco California

Jossey-Bass

102

附錄

附錄一TIMSS 2003 參與的國家

Argentina

Armenia

Australia

Bahrain

Belgium (Flemish)

Botswana

Bulgaria

Chile

Chinese Taipei

Cyprus

Egypt

England

Estonia

Ghana

Hong Kong SAR

Hungary

Indonesia

Iran Islamic Republic of Israel

Italy

Japan

Jordan

Korea Republic of Latvia

Lebanon

Lithuania

Macedonia Republic of Malaysia

Moldova

Morocco

Netherlands

New Zealand

Norway

Palestinian National Authority

Philippines

Romania

Russian Federation

Saudi Arabia

Scotland

Serbia

Singapore

Slovak Republic

Slovenia

South Africa

Sweden

Syrian Arab Republic

Tunisia

United States

Yemen Republic of

103

附錄二題目

一猜一猜

媽媽有一個裝滿豆子的密封罐有一天媽媽將豆子分別倒在 9個碗中前 4個

碗中豆子的數量分別是 29313128 個

1 請你猜一猜罐子中大約有幾個豆子

2把你的想法寫出來

二魔術師

一 材料9張紙剪刀一個信封

二你的工作

1 將紙對摺一次或一次以上並剪掉部分的紙使紙的形狀符合題目所給的

形狀

2 每張紙摺疊的次數和形狀隨你喜歡但只能剪一次

【第一題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後

做出如圖一的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

【第二題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後做出如

圖二的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

(在每張你使用過的紙寫上 1和名字)

104

(圖二)

【第三題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後做出如圖三

的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

(圖三)

三擲骰子

一材料一個骰子搖杯

二你的工作

當我們用一個規則來改變骰子擲出來的數字你發現了什麼

改變數字的規則是

當骰子擲出的數字是奇數時減 1並記下結果

當骰子擲出的數字是偶數時加 2並記下結果

1 在下列表中已經示範了兩個例子給你看使用這個規則並找其他

改變後的數字完成這個表格

(在每張你使用過的紙寫上 2和名字)

(在每張你使用過的紙寫上 3和名字)

105

骰子的數字 改變後的數字

2

6

2 看看你所紀錄的「改變後的數字」你發現了什麼

3 擲骰子 30 次並使用規則去改變每次所擲的數字將它紀錄下來

寫在下列的表格中

106

骰子的數字 改變後的數字 骰子的數字 改變後的數字

4將表 3中各個改變後數字出現的次數記在下表中

改變後的數字 次數

0

1

2

3

4

5

6

7

8

5a哪一個數字是你紀錄次數最多的

107

5b為什麼會這樣請寫出你的看法

四幾何方塊

在這一大題你會拿到一張紙板紙板上有10 張小卡片(如下圖)請將這些

正方形卡片分開若你沒有拿到紙卡請舉手

甲利用2 張黑白相間方塊拼出一個較大的黑色三角形並將您的拼法塗在下面

指定的區域

在這裡用斜線塗出

您拼出的黑色三角形

3 個白色方塊

4 張黑白相間方塊

3 個黑色方塊

108

乙利用4 張黑白相間方塊拼出一個黑色的正方形並將您的拼法塗在下面指定

的區域

在這裡用斜線塗出

您拼出的黑色正方形

丙在第乙題中塗黑色的部分佔了全部的幾分之幾

作出分數

甲不准使用黑白相間方塊將4 張方塊拼出一個正方形使得黑色的部分佔

21

並將您的拼法塗在下面指定的區域

在這裡用斜線塗出

您拼出的黑色部分

109

乙請用8 張方塊拼出一個如下圖的長方形使得黑色部分佔

85

並將您的拼法塗在下面指定的區域

在這裡用斜線塗出

您拼出的黑色部分

五圖形題

甲請畫一條直線將這個長方形分成2 個三角形

110

乙請畫一條直線將這個長方形分成2 個長方形

丙請畫兩條直線將這個長方形分成1 個長方形和2 個三角形

丁在下圖的四個三角形中有兩個是形狀相同但大小不同請把這兩個三角形

塗上顏色(線甲乙跟線丙丁平行)

六數字卡

在這部分你將會拿到一張印有 0到 9的數字卡如下圖請將這些數字卡

取下來

甲 乙

1 2

3

4

111

總和為ldquo20的數字遊戲

小杰與小明這兩個小孩正在玩一個ldquo總和為 20的遊戲其規則如下

總和為ldquo20的規則

(1)抽數字卡每一個人抽出三張數字卡

(2)加數字卡每一個人利用這三張數字卡做出一個加法問題使得算出

的總和最接近 20 例如假如抽出的數字卡 將數字任意組

合後下面是其中四種可能的方法

+ + + +

5 5 4 6 1 9 +

1 0

15

這時玩家應該選擇 + 4 因為它的總和 19最接近 20

19

小杰和小明開始玩遊戲了小杰抽出了 三張數字卡小明抽

出了 三張數字卡

(1)小杰要如何安排三張數字卡做出一個加法問題才能讓它的總和為最

接近 20記得要寫總和

0 1 2 3 4

5 6 7 8 9

1 4 5

1

4

5 1

4

5

1

4 51

4

5

972

6 3 1

112

(2)小明要如何安排三張數字卡做出一個加法問題才能讓它的總和最接

近 20記得要寫總和

(3)小明說假如我抽到 我可以用兩種方法做出總和 20

請告訴我們小明用哪兩種方法可以使 做出總和 20

第一種方法

第二種方法

找出最大的數

小杰和小明利用數字卡玩另一個新的遊戲就是利用三張數字卡做出最

大的數

甲將 三張數字卡填入下列的格子內讓相加的結果為最大

乙將 三張數字填入下列的格子內讓相減的結果為最大

丙將 三張數字卡填入下列的格子內讓相乘的結果為最大

times

1 4 6

1 4 6

9 5 1

+

-

2 3 7

1 4 5

113

附錄三給老師的話

題目猜一猜

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說

明如下

題目預測的能力

測量學生在生活情境中了解概數意義的能力

實施時間

20 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意讓同學清楚的知道這份試卷要他們

做的是什麼

評量結束後收回試紙

注意要點

請老師先做一次示範給學生看完之後再讓學生作答

請老師提醒學生計算完後要記得將他們為什麼要這樣做的原因寫清楚

評分標準

等級 5 算出前 4碗豆子的總和再乘以 2再加上一個合理的近似值或使用估

計或平均值找出每一碗豆子的近似值再乘以 9

等級 4 合理的估計其他各碗的豆子數量並算出總和

等級 3 推測出大部分合理少部分不合理的估計值並算出總和

等級 2 推論出一個杯子約有 30 個但未算出總和

等級 1 將已知碗的數量變成一組模式將此模式推論至其他碗不一定剛好總

114

和為 10 個碗

等級 0 未作答或不知所云

題目幾何方塊

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說

明如下

題目預測的能力

這是一種包含幾何跟數與量的題目其中幾何的部份是要求學生建立一個二

維圖形並滿足題目的要求(數與量)

實施時間

30 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意讓同學清楚的知道這份試卷要他們

做的是什麼

評量結束後收回試紙

注意要點

請老師提醒學生答案是用鉛筆塗在指定的區域並且不可以超過格線並不是將

紙卡貼在題目上要注意

請老師提醒學生撕紙卡要小心務必要使用剪刀或直尺沿著線撕

評分標準

115

給分範圍1分

給分範圍0分

(1)雖然使用 2塊黑白相間方塊組合但卻變成 2個小三角形而不是組合成 1

個大三角形

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

給分範圍1分

給分範圍0分

(1)雖然使用 4塊黑白相間方塊組合但卻不是組合成 1個大的黑色正方形

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

116

給分範圍1分

(1) 21

或是它的等值分數

(2)乙题雖然畫錯但此題答案正確

給分範圍0分

(1) 41

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

做出分數

給分範圍1分

由 2塊白色跟 2塊黑色組合成請看下面的例子

給分範圍0分

(1)雖然得出 21但是使用黑白相間的方塊

(2)畫出黑色的部份佔 41

117

(3)畫出黑色的部份佔 43

(4)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(5)完全空白

給分範圍2分

任何使用 3塊黑色的方塊1塊白色的方塊和 4塊黑白相間的方塊的組合圖形

給分範圍1分

塗出 85的答案但不是使用正確的方塊組合

給分範圍0分

(1)塗出 21

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

題目魔術師

118

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生對稱的觀念空間關係及解決非例行問題的能力

施測時間

30 分鐘

實施步驟

1 發試紙和所需材料

2 題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的

知道這份試卷要他們做的是什麼

3 評量結束試紙及材料

注意要點

1請老師提醒學生每張紙只能直直的剪一次不可改變方向且要記得在紙上寫

編號和名字

評分標準

第一題1在紙上只剪一次

2有兩條正確的摺線

給分範圍2

第二題1在紙上只剪一次

2 有兩條正確的摺線

給分範圍2

第三題同上兩題

119

題目圖形題

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生二維空間的分割的觀念了解學生能否透過操作直尺或三角板在二維

空間上剪裁出指定的基本圖型並利用直觀的方式指出形狀相同但大小不同的三

角形

施測時間

30 分鐘

實施步驟

1 發試紙

2 題目解說實施評量前請老師加以說明題意讓學生清楚的知道這份試卷要他

們做的是什麼

3 評量結束收回試紙

評分標準

甲給分範圍1分

正確的畫一條對角線將長方形分成 2個三角形

給分範圍0分

(1)有畫出一條橫線或垂直線但不是畫出精確的對角線

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的

回答)

(3)完全空白

乙給分範圍1分

120

正確的畫一條橫線或垂直線將長方形分成 2個長方形

給分範圍0分

(1)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回

答)

(2)完全空白

丙給分範圍1分

正確的畫兩條線將長方形分成 1個較小的長方形跟兩個三角形

給分範圍0分

(1)有畫出兩條線但沒有將長方形分割成兩個較小的長方形或有分割成

兩個較小的長方形卻沒有在其中之ㄧ上畫出精確的對角線

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(3)完全空白

丁給分範圍1分

在三角形 3跟三角形 4上塗上顏色

給分範圍0分

(1)在三角形 1跟三角形 2上塗上顏色

(2)在三角形 2跟三角形 4上塗上顏色在三角形 1跟三角形 3上塗上顏色

在三角形 1跟三角形 4上塗上顏色在三角形 2跟三角形 3上塗上顏色

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

121

題目數字卡

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生計算的規則與策略及對數字的觀念並能運用所學過的概念於計算策

略上

施測時間

30 分鐘

實施步驟

1 發試紙和所需材料

2 題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的

知道這份試卷要他們做的是什麼

3 評量結束試紙及材料

評分標準

總和為 20 的數字遊戲

甲給分範圍1分

(1)寫出 2+7+9=18

(2)沒有任何算式但有答案是 18 者

給分範圍0分

(1)有寫出算式 2+7+9 但沒有答案 18 出現

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的

回答)

(3)完全空白

122

乙給分範圍1分

(1)13+6=19 或 16+3=19

(2)沒有任何算式但有答案是 19 者

給分範圍0分

(1)有寫出算式 13+6 或 16+3 但沒有答案 19 出現

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回

答)

(3)完全空白

丙給分範圍2分

兩種方法都正確(16+4 和 14+6)

給分範圍1分

只有寫出其中一種方法(16+4 或 14+6)

給分範圍0分

(1)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(2)完全空白

找出最大的數

甲給分範圍1分

91+5 或 95+1

給分範圍0分

(1)將 159擺在任何其他不正確的位置

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(3)完全空白

123

乙給分範圍1分

73-2

給分範圍0分

(1)72-3

(2)將 237擺在任何其他不正確的位置

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

丙給分範圍1分

41times5

給分範圍0分

(1)51times4

(2)將 145擺在任何其他不正確的位置

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

題目擲骰子

親愛的老師

您好感謝您參與此次數學科學實作評量的研究關於此次施測的注意事項說明

如下

題目欲測的能力

測量學生對於任意數字計算紀錄和分析的能力以及辨識並解釋記錄資料

的結果

施測時間

124

30 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的知

道這份試卷要他們做的是什麼

評量結束後收回試紙及材料

評分標準

第一題正確的計算出(042648)

給分範圍2

第二題1描述的類型與資料一致

2形式可以是一個或多個以下的情形所有的數字都是偶數數字

的範圍從 0~84 出現 2次數字排列有規則如+4-2+4-2

給分範圍1

第三題1至少完成 25 次擲骰子的紀錄

2正確的計算

給分範圍2

第四題統計的次數與第三題的資料一致

給分範圍2

第 5a 題答案與資料一致

給分範圍1

第 5b 題對觀察的數字提供合理的解釋

給分範圍1

125

附錄四分析資料補充

附錄四表格中以數字 1代表新加坡數字 2代表香港數字 3代表日本數字

4代表台灣 2003 年原始資料數字 5代表比利時數字 6代表美國數字 7代表

施測學校

一圖形題補充

表附錄 4-1-1 圖形題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 187 0 32 0 64 0 50 新加

坡甲 1 916

香港

甲 1 725

日本

甲 1 703

台灣

甲 1 726

得分 次數 得分 次數 得分 次數 得分 次數

0 69 0 9 0 75 0 39 新加

坡乙 1 1034

香港

乙 1 748

日本

乙 1 692

台灣

乙 1 737

得分 次數 得分 次數 得分 次數 得分 次數

0 329 0 107 0 196 0 119新加

坡丙 1 774

香港

丙 1 650

日本

丙 1 571

台灣

丙 1 657

得分 次數 得分 次數 得分 次數 得分 次數

0 424 0 386 0 281 0 267新加

坡丁 1 679

香港

丁 1 371

日本

丁 1 486

台灣

丁 1 509

得分 次數 得分 次數 得分 次數

0 130 0 447 0 8 比利

時甲 1 649

美國

甲 1 1189

施測

甲 1 113

得分 次數 得分 次數 得分 次數

0 69 0 201 0 5 比利

時乙 1 710

美國

乙 1 1435

施測

乙 1 116

得分 次數 得分 次數 得分 次數

0 386 0 1100 0 21 比利

時丙 1 393

美國

丙 1 536

施測

丙 1 100

得分 次數 得分 次數 得分 次數

0 386 0 732 0 27 比利

時丁 1 393

美國

丁 1 904

施測

丁 1 94

126

表附錄 4-1-1(續) 圖形題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 44 0 6 0 31 0 17

1 75 1 17 1 44 1 20

2 137 2 64 2 64 2 45

3 334 3 331 3 232 3 257

新加

坡總

4 513

香港

總分

4 339

日本

總分

4 396

台灣

總分

4 437

得分 次數 得分 次數 得分 次數

0 36 0 114 0 0

1 72 1 243 1 5

2 176 2 389 2 5

3 259 3 517 3 36

比利

總分

4 236

美國

總分

4 373

施測

總分

4 75

表附錄 4-1-2 圖形題各國事後分析表

圖形題甲 圖形題乙

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0130 0000 1 2 -0051 0013

3 -0086 0000 3 0035 0247

4 -0110 0000 4 -0012 0987

5 -0003 1000 5 0026 0631

6 0100 0000 6 0060 0000

2 3 0041 0514 2 3 0086 0000

2 4 0022 0958 4 0038 0244

5 0120 0000 5 0077 0000

6 0230 0000 6 0110 0000

3 4 -0019 0980 3 4 -0048 0057

5 0083 0001 5 -0009 0998

6 0190 0000 6 0025 0594

4 5 0100 0000 4 5 0038 0237

6 0210 0000 6 0073 0000

5 6 0110 0000 5 6 0034 0190

127

表附錄 4-1-2(續) 圖形題各國事後分析表

圖形題丙 圖形題丁

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0160 0000 1 2 0130 0000

3 -0043 0637 3 -0018 0996

4 -0140 0000 4 -0040 0798

5 0200 0000 5 0110 0001

6 0370 0000 6 0063 0092

2 3 0110 0000 2 3 -0140 0000

2 4 0012 1000 4 -0170 0000

5 0350 0000 5 -0014 0999

6 0530 0000 6 -0063 0209

3 4 -0100 0002 3 4 -0022 0992

5 0240 0000 5 0130 0000

6 0420 0000 6 0081 0027

4 5 0340 0000 4 5 0150 0000

6 0520 0000 6 0100 0001

5 6 0180 0000 5 6 -0048 0533

圖形題總分

(I) (J) 平均差異 (I-J) p-value

1 2 -0210 0008

3 -0110 0540

4 -0300 0000

5 0330 0000

6 0600 0000

2 3 0098 0778

4 -0093 0812

5 0540 0000

6 0810 0000

3 4 -0190 0051

5 0440 0000

6 0710 0000

4 5 0630 0000

6 0900 0000

5 6 0270 0000

128

二數字卡題型

表附錄 4-2-1 數字卡題各國得分統計表

分數 次數 分數 次數 分數 次數 分數 次數

0 284 0 144 0 128 0 118新加

坡 1 1 277

香港

1 1 239

日本

1 1 234

台灣

1 1 273

分數 次數 分數 次數 分數 次數 分數 次數

0 243 0 177 0 138 0 134新加

坡 2 1 318

香港

2 1 206

日本

2 1 224

台灣

2 1 257

分數 次數 分數 次數 分數 次數 分數 次數

0 171 0 142 0 117 0 111

1 28 1 13 1 30 1 23

新加

坡 3

2 362

香港

3

2 228

日本

3

2 215

台灣

3

2 257

分數 次數 分數 次數 分數 次數 分數 次數

0 161 0 111 0 89 0 138新加

坡 4 1 400

香港

4 1 272

日本

4 1 273

台灣

4 1 253

分數 次數 分數 次數 分數 次數 分數 次數

0 172 0 119 0 95 0 145新加

坡 5 1 389

香港

5 1 264

日本

5 1 267

台灣

5 1 246

分數 次數 分數 次數 分數 次數 分數 次數

0 413 0 290 0 231 0 303新加

坡 6 1 148

香港

6 1 93

日本

6 1 131

台灣

6 1 88

分數 次數 分數 次數 分數 次數

0 207 0 476 0 38 比利

時 1 1 187

美國

1 1 339

施測

1 1 82

分數 次數 分數 次數 分數 次數

0 175 0 442 0 29 比利

時 2 1 219

美國

2 1 373

施測

2 1 91

分數 次數 分數 次數 分數 次數

0 149 0 308 0 14

1 27 1 48 1 11

比利

時 3

2 218

美國

3

2 459

施測

3

2 95

129

表附錄 4-2-1(續) 數字卡題各國得分統計表

分數 次數 分數 次數 分數 次數

0 175 0 380 0 36 比利

時 4 1 219

美國

4 1 435

施測

4 1 84

分數 次數 分數 次數 分數 次數

0 179 0 410 0 38 比利

時 5 1 215

美國

5 1 405

施測

5 1 82

分數 次數 分數 次數 分數 次數

0 321 0 705 0 94 比利

時 6 1 73

美國

6 1 110

施測

6 1 26

分數 次數 分數 次數 分數 次數 分數 次數

0 64 0 38 0 21 0 37

1 39 1 25 1 23 1 33

2 62 2 36 2 35 2 21

3 40 3 50 3 44 3 44

4 60 4 49 4 34 4 41

5 87 5 51 5 59 5 60

6 137 6 93 6 89 6 102

新加

坡總

7 72

香港

總分

7 41

日本

總分

7 57

台灣

總分

7 53

分數 次數 分數 次數 分數 次數

0 31 0 135 0 5

1 48 1 94 1 5

2 49 2 98 2 9

3 67 3 101 3 9

4 61 4 114 4 16

5 63 5 101 5 20

6 55 6 130 6 40

比利

時總

7 20

美國

總分

7 42

施測

總分

7 16

130

表附錄 4-2-2 數字卡題各國事後分析表

第一題 第二題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0130 0013 1 2 0029 0992

3 -0153 0001 3 -0052 0873

4 -0204 0000 4 -0090 0252

5 0019 0999 5 0011 1000

6 0078 0206 6 0109 0012

2 3 -0022 0999 2 3 -0081 0537

4 -0074 0612 4 -0119 0076

5 0149 0006 5 -0018 1000

6 0208 0000 6 0080 0326

3 4 -0052 0908 3 4 -0039 0979

5 0172 0001 5 0063 0796

6 0231 0000 6 0161 0000

4 5 0224 0000 4 5 0102 0212

6 0282 0000 6 0200 0000

5 6 0059 0697 5 6 0098 0101

第三題 第四題

1 2 0116 0734 1 2 0003 1000

3 0070 0974 3 -0041 0948

4 -0033 1000 4 0066 0612

5 0165 0287 5 0157 0000

6 0155 0156 6 0179 0000

2 3 -0046 0998 2 3 -0044 0952

4 -0149 0543 4 0063 0751

5 0049 0997 5 0154 0002

6 0039 0998 6 0176 0000

3 4 -0103 0889 3 4 0107 0141

5 0096 0918 5 0198 0000

6 0085 0907 6 0220 0000

4 5 0198 0174 4 5 0091 0294

6 0188 0091 6 0113 0019

5 6 -0010 1000 5 6 0022 0997

131

表附錄 4-2-2(續) 數字卡題各國事後分析表

第五題 第六題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0004 1000 1 2 0021 0996

3 -0044 0931 3 -0098 0050

4 0064 0655 4 0039 0914

5 0148 0001 5 0079 0203

6 0197 0000 6 0129 0000

2 3 -0048 0929 2 3 -0119 0015

4 0060 0801 4 0018 0999

5 0144 0008 5 0058 0699

6 0192 0000 6 0108 0006

3 4 0108 0140 3 4 0137 0002

5 0192 0000 5 0177 0000

6 0241 0000 6 0227 0000

4 5 0083 0425 4 5 0040 0933

6 0132 0003 6 0090 0047

5 6 0049 0838 5 6 0050 0675

數字卡總分

1 2 0043 1000

3 -0318 0582

4 -0159 0975

5 0579 0012

6 0847 4850

2 3 -0361 0529

4 -0201 0948

5 0536 0067

6 0804 0000

3 4 0159 0985

5 0897 0000

6 1165 0000

4 5 0738 0001

6 1006 0000

5 6 0268 0673

132

三幾何方塊題型

表附錄 4-3-1 幾何方塊題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 633 0 303 0 165 0 322新加

坡甲 1 482

香港

甲 1 458

日本

甲 1 604

台灣

甲 1 445

得分 次數 得分 次數 得分 次數 得分 次數

0 617 0 403 0 218 0 348新加

坡乙 1 499

香港

乙 1 358

日本

乙 1 551

台灣

乙 1 419

得分 次數 得分 次數 得分 次數 得分 次數

0 312 0 227 0 341 0 297新加

坡丙 1 804

香港

丙 1 534

日本

丙 1 428

台灣

丙 1 470

得分 次數 得分 次數 得分 次數 得分 次數

0 494 0 429 0 425 0 519新加

坡丁 1 622

香港

丁 1 332

日本

丁 1 344

台灣

丁 1 248

得分 次數 得分 次數 得分 次數 得分 次數

0 385 0 352 0 291 0 407

1 603 1 359 1 374 1 297

新加

坡戊

2 128

香港

2 50

日本

2 104

台灣

2 63

得分 次數 得分 次數 得分 次數

0 372 0 985 0 6 比利

時甲 1 398

美國

甲 1 655

施測

甲 1 113

得分 次數 得分 次數 得分 次數

0 348 0 976 0 13 比利

時乙 1 422

美國

乙 1 664

施測

乙 1 106

得分 次數 得分 次數 得分 次數

0 437 0 884 0 30 比利

時丙 1 333

美國

丙 1 756

施測

丙 1 89

得分 次數 得分 次數 得分 次數

0 373 0 908 0 23 比利

時丁 1 397

美國

丁 1 732

施測

丁 1 96

133

表附錄 4-3-1(續) 幾何方塊題各國得分統計表

得分 次數 得分 次數 得分 次數

0 335 0 754 0 29

1 340 1 762 1 57

比利

時戊

2 95

美國

2 124

施測

2 33

得分 次數 得分 次數 得分 次數 得分 次數

0 141 0 86 0 52 0 115

1 126 1 83 1 78 1 111

2 167 2 128 2 122 2 121

3 257 3 205 3 157 3 183

4 178 4 143 4 153 4 123

5 153 5 81 5 138 5 73

新加

坡總

6 93

香港

總分

6 35

日本

總分

6 69

台灣

總分

6 41

得分 次數 得分 次數 得分 次數

0 100 0 331 0 1

1 101 1 250 1 1

2 154 2 317 2 5

3 164 3 300 3 22

4 127 4 246 4 26

5 73 5 127 5 38

比利

時總

6 51

美國

總分

6 69

施測

總分

6 26

134

表附錄 4-3-2 幾何方塊題各國事後分析表

第一題 第二題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0170 0000 1 2 -0023 0984

3 -0350 0000 3 -0270 0000

4 -0150 0000 4 -0099 0005

5 -0085 0028 5 -0100 0003

6 0033 0793 6 0042 0545

2 3 -0180 0000 2 3 -0250 0000

4 0022 0993 4 -0076 0160

5 0085 0062 5 -0078 0138

6 0200 0000 6 0066 0152

3 4 0210 0000 3 4 0170 0000

5 0270 0000 5 0170 0000

6 0390 0000 6 0310 0000

4 5 0063 0350 4 5 -0002 1000

6 0180 0000 6 0140 0000

5 6 0120 0000 5 6 0140 0000

第三題 第四題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0019 0995 1 2 0120 0000

3 0160 0000 3 0110 0001

4 0110 0001 4 0230 0000

5 0290 0000 5 0042 0773

6 0260 0000 6 0110 0000

2 3 0150 0000 2 3 -0011 1000

4 0089 0043 4 0110 0003

5 0270 0000 5 -0079 0127

6 0240 0000 6 -0010 1000

3 4 -0056 0514 3 4 0120 0000

5 0120 0000 5 -0068 0285

6 0096 0002 6 0001 1000

4 5 0180 0000 4 5 -0190 0000

6 0150 0000 6 -0120 0000

5 6 -0029 0934 5 6 0069 0110

135

表附錄 4-3-2(續) 幾何方塊題各國事後分析表

第五題 總分

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0170 0000 1 2 0120 0913

3 0013 1000 3 -0330 0008

4 0220 0000 4 0320 0017

5 0081 0294 5 0230 0233

6 0150 0000 6 0600 0000

2 3 -0150 0001 2 3 -0450 0000

4 0052 0872 4 0200 0521

5 -0085 0348 5 0110 0949

6 -0013 1000 6 0490 0000

3 4 0210 0000 3 4 0650 0000

5 0069 0627 5 0560 0000

6 0140 0000 6 0940 0000

4 5 -0140 0008 4 5 -0087 0986

6 -0064 0514 6 0290 0023

5 6 0073 0354 5 6 0370 0000

Page 2: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較

謝辭

讀完了四個暑假論文也總算完成這中間的點點滴滴對於有兩個小孩的

我感受特別深刻而要感謝的人也太多了首先要感謝我的指導教授胡豐榮老

師在我寫論文的期間不斷的為我的論文細心修改並提醒叮嚀所上的規定

讓我能夠順利完成論文也讓我見識到嚴謹的治學態度對我往後教學生涯的影

響至為深刻同時也要感謝口試委員劉湘川校長與許天維所長為我的論文給予

教導與指正給我不同的觀念和視野使得本論文能更臻充實與嚴謹

另外要感謝曾經為我們授課的老師在這四個暑假中除了給予我們課程

的傳授之外並讓我們見識到一個好老師應該具備的教學態度及敬業精神還有

一起研究的同學國棟榮煌英哲宏鳴淑真跟您們一起讀書寫報告將

永遠豐富我的人生

還要感謝我的家人特別是我的妻子政君在我必須用心於課業上時能夠

給予我最堅強的支持不只照顧好我那兩個在這四年內出生的寶貝更操持整個

家務讓我無後顧之憂順利完成學業期間辛勞自是不言可喻在此要特別衷

心感謝她還有我的母親能夠幫我照顧兩個活潑的小孩默默支持我完成學業

為我無私的奉獻她的ㄧ生讓我深深體會有媽的孩子真是幸福

最後謹以此論文獻給我的妻子政君因為有她才能有這篇論文我的

人生也才能圓滿豐富

蔡嘉宫 謹致於

台中教育大學教育測驗統計研究所

2006 年 8 月

I

摘要 本研究旨在運用TIMSS實作評量的試題探討特定環境背景的國小四年級兒童

之學習成就與施測結果之比較是以本研究主要探討

一 特定環境背景的國小四年級兒童對TIMSS 1999實作評量的成績有何差

二 特定環境背景的國小四年級兒童對TIMSS 2003的實作評量試題的成

績在性別及班級間是否有差異

三 特定環境背景的國小四年級兒童對TIMSS 2003 的實作評量試題的成

績與台灣原始施測資料中的成績是否有差異

四 特定環境背景的台灣國小四年級兒童對TIMSS 2003 的實作評量之學習

成就與國際間是否有差異

本研究基於立意取樣故採臺中縣城鄉交界的國小四年級兒童共4班127

人為研究對象研究發現

一 在魔術師題型上民國95年的結果較佳在擲骰子題型上是民國89年

的結果較佳在猜一猜題型上民國89年的結果較佳此結果顯示在

幾何概念的對稱觀念上民國95年的學生有較佳的表現但在統計觀

念及概數觀念上民國89年的學生表現較佳

二 TIMSS實作評量在性別及班級之間沒有顯著差異

三 在圖形題題型上與台灣西元2003年施測結果沒有達到顯著差異在

數字卡題型上與台灣西元2003年施測結果沒有達到顯著差異在幾

何方塊題型上與台灣西元2003年施測結果達到顯著差異

四 在圖形題題型上我國優於新加坡比利時及美國在數字卡題型上

我國優於比利時美國在幾何方塊題型上我國優於新加坡香港

日本比利時美國

關鍵字TIMSS實作評量性別

II

III

Abstract

This study aims at using TIMSS to look into the performance assessment

of fourth-grade elementary students with a specific environmental

background Our purpose is to investigate the following questions

1 What are the variations of the test results between year 2000 and

2006 on TIMSS 1999

2 Are there discrepancies in regard to gender and class on TIMSS 2003

3 Are there differences between the result of fourth-grade elementary

students with a specific environmental background and the national

data on TIMSS 2003

4 Are there distinctions between the result of fourth-grade elementary

students with a certain environmental background and the

international data on TIMSS 2003

Using selective-sampling method this study chose its 127 fourth-grade

subjects from four classes in a school at the urban-rural line of

Taichung County We found that

1 The subjects showed better performance on the ldquoMagician questions

but poorer on the ldquoDice Throwing and ldquoGuessing questions

than a comparative group in 2000 This finding indicated that

students of year 2006 had a better idea of geometry yet students

of year 2000 demonstrated better comprehension in statistics and

approximate numbers

2 There was no significant difference between genders or classes

3 No differences were found on the ldquoFigure questions or

ldquoNumber-card questions between the subjects and 2003 mother

IV

group However the outcome on the ldquoGeometrical Square

questions reached significance than that of 2003 mother group

4 On the ldquoFigure questions our students performed better than

those of Singapore Belgium and USA On the ldquoNumber-card questions

they were superior to those of Belgium and USA On the ldquoGeometrical

Square questions they displayed better abilities than those of Singapore

Hong Kong Japan Belgium as well as USA

KeywordTIMSSperformance assessmentgender

V

目 錄

第一章 緒論

第一節 研究動機1

第二節 待答問題5

第三節 名詞釋義5

第四節 研究限制7

第二章 文獻探討

第一節 實作評量8

第二節 第三次國際數學與科學教育成就研究 25

第三節 TIMSS試題與國內數學課程關係之分析34

第三章 方法與步驟

第一節 研究架構40

第二節 研究工具發展40

第三節 研究的信效度與實作評量的試題架構47

第四章 結果與討論

第一節 利用TIMSS 1999實作評量試題比較民國89年跟民國95年的成績差

異49

第二節 利用TIMSS 2003實作評量試題檢視施測學校在性別及班級間是否

存在差異60

VI

第三節 利用TIMSS 2003實作評量試題比較施測學校與原始施測資料的成

績差異65

第四節 實作評量試題的類推性84

第五章 結論

第一節 結論88

第二節 建議90

參考文獻

壹 中文部分92

貳 英文部分96

附錄

附錄一 TIMSS 2003參與的國家102

附錄二 題目103

附錄三 給老師的話113

附錄四 分析資料補充125

VII

表目錄

表 2-1-1 實作評量與紙筆測驗的比較17

表 2-1-2 各種評量類型的比較18

表 2-2-1 TIMSS 2003課程架構27

表 2-2-2 維京評分系統28

表 3-3-1 試題架構48

表 4-1-1 95年魔術師題組得分情形分配表50

表 4-1-2 89年魔術師題組得分情形分配表50

表 4-1-3 魔術師ㄧ獨立樣本t 檢定51

表 4-1-4 魔術師二獨立樣本t 檢定52

表 4-1-5 魔術師三獨立樣本t 檢定52

表 4-1-6 95年擲骰子題組得分情形分配表53

表 4-1-7 89年擲骰子題組得分情形分配表54

表 4-1-8 擲骰子一獨立樣本t 檢定55

表 4-1-9 擲骰子二獨立樣本t 檢定55

表 4-1-10 擲骰子三獨立樣本t 檢定56

表 4-1-11 擲骰子四獨立樣本t 檢定56

表 4-1-12 擲骰子五 a獨立樣本t 檢定57

表 4-1-13 擲骰子五 b獨立樣本t 檢定57

VIII

表 4-1-14 95年猜一猜題組得分情形分配表58

表 4-1-15 89年擲骰子題組得分情形分配表58

表 4-1-16 猜一猜資料統計59

表 4-1-17 猜一猜獨立樣本t 檢定59

表 4-2-1 各題型之相關係數61

表 4-2-2 班級對總分之變異數分析62

表 4-2-3 性別對總分之組別統計量與t檢定表62

表 4-2-4 性別對各題之組別統計量與t檢定表63

表 4-3-1 95 年圖形題題組得分情形分配表66

表 4-3-2 圖形題百分比同質性檢定66

表 4-3-3 圖形題題組各國答對率的比較67

表 4-3-4 圖形題各題之資料統整68

表 4-3-5 圖形題各題之變異數分析69

表 4-3-6 圖形題各題之事後比較70

表 4-3-7 圖形題總分變異數分析的結果71

表 4-3-8 圖形題總分事後分析72

表 4-3-9 95年數字卡題題組得分情形分配表72

表 4-3-10 數字卡題題組各國答對率的比較73

表 4-3-11 數字卡題各題之變異數分析74

IX

表 4-3-12 數字卡題之事後比較75

表 4-3-13 數字卡題總分變異數分析的結果77

表 4-3-14 數字卡題總分事後分析77

表 4-3-15 95年幾何方塊題題組得分情形分配表78

表 4-3-16 幾何方塊題題組各國答對率的比較78

表 4-3-17 幾何方塊題各題之變異數分析80

表 4-3-18 幾何方塊題各題之事後比較81

表 4-3-19 幾何方塊題總分變異數分析的結果83

表 4-3-20 幾何方塊題總分事後分析83

表 4-4-1 實作評量概化程度變異成分表84

表 4-4-2 G研究與各種D研究之變異成分分析與推論力係數87

表附錄 4-1-1 圖形題各國得分統計表125

表附錄 4-1-2 圖形題各國事後分析表126

表附錄 4-2-1 數字卡題各國得分統計表128

表附錄 4-2-2 數字卡題各國事後分析表130

表附錄 4-3-1 幾何方塊題各國得分統計表132

表附錄 4-3-2 幾何方塊題各國事後分析表134

X

圖目錄

圖 2-2-1 1995年到2003年4年級學生的數學趨勢31

圖 2-2-2 4年級學生在男女性別上的差異33

圖 2-2-3 1995 到2003年的男女生進退步情形34

圖 4-1-1 百分比圖表比較結果51

圖 4-1-2 百分比圖表比較結果54

圖 4-1-3 百分比圖表比較結果59

圖 4-3-1 圖形題題組答對率之比較圖67

圖 4-3-2 數字卡題題組答對率之比較圖73

圖 4-3-3 幾何方塊題題組答對率之比較圖79

1

第一章 緒論

本研究主題是利用 TIMSS 1999 跟 TIMSS 2003 的公開實作評量試題為測驗工

具比較探討台灣學生在這方面的進退步情形本章節將說明本研究的研究動機

與目的問題和研究中所用的特定名詞

第一節 研究動機 從民國八十二年民間團體發起了 410 教改大遊行迄今此波教育改革歷時 12

年最近因為中央研究院李遠哲院長在立法院接受立委質詢時對教育改革因為

沒有減少學生的壓力而公開道歉(中時電子報 2005)又引起了一陣教改失敗

的言論其實改革是多面向的學生的壓力固然是改革的重點但學生的程度更

是我們所關心的畢竟學生的程度關係著下一代的競爭力所以在國民中小學九

年一貫課程綱要(教育部民 92)中特別提到迎接二十一世紀的來臨與世界各

國之教改脈動政府必須致力教育改革期以整體提升國民之素質及國家競爭

力所以改革是為了回應社會期待以及國家發展的需求基於此項認知由中

央研究院國科會和教育部共同規劃的「台灣地區教育長期追蹤資料庫」(Taiwan

Education Panel Survey簡稱 TEPS)預計用六個學年國中樣本從 2001 年 9

月開始高中樣本分成 2001 年下半年和 2003 年上半年進行兩個梯次的資料收

集主要研究團隊包括六位中研院全職研究人員投入大量的時間與精力以及多

位大學相關領域之研究者積極參與可見這項工程的浩大與重要所以本研究主

要為利用一份已發展成且具有信效度及良好試題特性的國小數學實作評量題目

來進行施測其結果除了跟民國 89 年研究者徐美英的結果相互比較學生程度差

別外並為後續研究者提供相互比較的基準

國際教育成就調查委員會 (The International Association for the

Evaluation of Educational Achievement簡稱 IEA) 主辦的「國際數學與科

學教育成就趨勢調查」(Trends in Mathematics and Science Study 2003簡

2

稱 TIMSS 2003)是自 1995 年以來第三次主辦連續週期性調查學生的數學和科學

成就主要目的在提供各國長期追蹤學生數學和科學趨勢成就以提升學生數學

和科學的學習成效由此可見學生程度一向是國際重視的課題世界各國尤其

是美國不斷的監測自己國家學生的程度不僅僅與國際上各國進行比較並將

資料建檔也進行縱貫比較另外除了本研究所提的 TIMSS 是針對數學與科學外

還有PIRLS針對語文科進行比較PIRLS目前有2001跟2006年兩年資料而TIMSS

則已經有 199519992003 三年的施測2007 年的施測目前已經開始進行籌劃

TIMSS 2003 以 13 歲群(即國二生)和 9 歲群(即小四生)為調查對象國科會和

教育部體認到未來我國國民在國際上競爭力的重要性希望持續了解我國學生的

學習成就與家庭背景學習環境教師等影響因素的關係以及我國學生的學習

特色與優缺點並與其他國家進行比較提供改進我國中小學數學及科學教育政

策及課程之參考並積極參與國際間科學教育的交流與合作因此補助國立台灣

師範大學科學教育中心進行 TIMSS 2003 調查研究TIMSS 2003 從 2000 年九月

開始發展研究調查相關工作總計有 49 個國家參加其中 48 個國家參加 13 歲

群調查26 個國家參加 9歲群調查我國自 2001 年元月開始加入 TIMSS 2003 國

際調查工作包括提供命題架構意見數學和科學試題命題試測(field test)

資料收集參加專家問卷會議實測(main survey)資料收集參加公佈 TIMSS

2003 結果記者會國際成果指標會議國際資料分析會議等各項工作國內學者

引用 TIMSS 相關資料進行相關研究的有

(1)徐美英TIMSS 數學實作評量在台灣之試用探討(民國 89 年)

(2)洪瑞鎂從「第三次國際數學與科學教育成就研究後續調查」探究台灣國

二學生的數學基本能力(民國 90 年)

(3)洪佳慧由教科書內容與性別面向分析我國國二學生在第三次國際數學與

科學教育成就研究後續調查(TIMSS-R)的學習表現-生命科學以及環境與資源議

題部分(民國 91 年)

(4) 劉佳容我國國二學生在 TIMSS-1999 中之理化學習成就分析(民國 91 年)

3

(5)侯怡如由考試文化的角度分析我國學生在 TIMSS 1999 的答題表現----生

命科學部分(民國 92 年)

(6) 鄭心怡教育指標與經濟指標對學業成就影響之國際比較以 TIMSS 為例

(民國 93 年)

(7)羅珮華從「第三次國際科學與數學教育成就研究後續調查(TIMSS 1999)」

結果探討國中學生學習成就與學生特質的關係七個國家之比較(民國 93 年)

(8)顏秀玫我國小學四年級學生在「2003 年國際數學與科學教育成就趨勢調

查(民國 93 年)

(9)張謝玲宜蘭區某國中國二學生 科學成效影響因子之探討-引用國際調查

報告 TIMSS-R 之研究方法(民國 93 年)

綜觀上述國內學者研究的內容可以發現均重視該年段橫向的比較而缺乏

進行縱貫的研究值此世界各國進行教育大改革之際台灣也難免追隨這波改革

浪潮在課程內容與制度大變動之際學生是否保持原有的程度或甚至更好是

值得我們更加關注在國民中小學九年一貫課程綱要(教育部民 92)中針對

數學科明確提出下列四個原則一 參考施行有年且有穩定基礎的傳統教材

二 採用國際間數學課程必備的核心題材三 考慮數學作為科學工具性的特

質四 現有學生能夠有效學習數學的一般能力具體而言九年一貫數學學

習領域的教學總體目標為

(1) 培養學生的演算能力抽象能力推論能力及溝通能力

(2) 學習應用問題的解題方法

(3) 奠定下一階段的數學基礎

(4) 培養欣賞數學的態度及能力

其中國民小學階段的目標為

(5) 在第一階段(一至三年級)能掌握數量形的概念

(6) 在第二階段(四至五年級)能熟練非負整數的四則與混合計算培養流暢

的數字感

4

(7) 在小學畢業前能熟練小數與分數的四則計算能利用常用數量關係解

決日常生活的問題能認識簡單幾何形體的幾何性質並理解其面積與體積公

式能報讀簡單統計圖形並理解其概念

由以上的課程目標中可以清楚的看出數學課程的改革內容除了參考以往課

程內容之外也參考國際的課程內容進行改革並因為數學具有工具性的性質

具體的指出各階段需要具備的基本能力研究者希望透過已具有信效度及良好試

題特性的國小數學實作評量題目的施測一方面跟國際資料庫進行學生程度的比

較另一方面也跟徐美英TIMSS 數學實作評量在台灣之試用探討(民國 89 年)

在台灣施測的資料進行縱向比較以了解學生在這幾年的教育改革中在國小四

年級這個範圍內透過實作評量的方式評斷出來的能力是否有所差異

徐美英論文中指出其自編試題(猜一猜)學生能夠完整的敘述解釋百分比

僅達 549所以表示台灣學生在以數學語言的溝通上尚待加強而該試題與

TIMSS 試題有一定程度相關的是擲骰子繞過彎道和魔術師所以本研究研究者

打算選取其中 3 題(猜一猜擲骰子魔術師)找跟原論文相似的環境(住宅

跟工業混合區的學校)進行施測將兩項資料進行比較以探討在這樣的環境背

景中的學生經過這 5年的教育改革後對這個範圍內經由實作評量所測出來的

能力是否有所不同另外再從 TIMSS 2003 已公佈的實作評量題目中找出 3

題(幾何方塊數字卡圖形題)進行施測其結果跟國際資料庫進行比較進

一步探討這樣環境下的學生跟原始台灣施測資料中的學生是否有程度上的差

異跟國際上整體表現較好的國家學生的表現比較是否有程度上的差異

本研究測驗題目將從徐美英論文中選取 3 題從 TIMSS 2003 公佈的實作評

量試題中選取 3題並以 TIMSS 對實作評量採取的維京評分系統(又稱建構反應

評分系統Constructed Response簡稱 CR)為評分工具資料用 SPSS 進行分

析比較並以推論力理論推算本次施測的信度係數研究者希望能從施測中獲得

教育改革的成果從實作評量的角度是否是進步的並期待施測的資料能提供

未來需要再做類似研究者的比較基準

5

第二節 待答問題 壹探討特定環境背景的台灣國小四年級學生在民國 89 年與民國 95 年對

TIMSS 1999 實作評量的成績有何差異

貳探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 實作評量的

成績在性別及班級間是否有差異

叁探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 實作評量的

成績與台灣原始施測資料中的學生實作評量成績是否有程度上的差

肆探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 的實作評量

成績與國際上整體表現較好國家的學生實作評量成績是否有程度上

的差異

第三節 名詞釋義

壹實作評量

在教室情境中學生有幾類學習行為及其成就表現是無法用客觀式紙筆測

驗來正確評量出來的這些學習行為表現包括

(1)溝通技能(如說話口語表達演講朗讀寫作等)

(2)心理動作技能(如實驗室內的儀器操作書法打字繪畫工藝烹

飪樂器演奏戲劇表演等)

(3)運動技能(如跑跳直球游泳舞蹈等運動技能)

(4)概念應用(如應用所學的概念和知識解決日常生活所遇到的實際問題)

(5)情意特質(如團隊合作遵守規定自我反省等)

這些都是強調實際的表現行為(actual performance)都需要教師根據學生的

表現過程之有效性或最後完成作品的成果品質分別或合併地進行評分才能決

定學生在這方面學習的成就高低這種強調實際表現行為的評量方式稱為「實

6

作評量」(performance assessment)(余民寧民 93)所謂實作評量就是在自

然或已建構好的環境中要求學生執行或處理(process)一件指定的工作並

由教師觀察或評鑑學生的建構性反應的過程與結果看他們是否適當精確和完

美的達成教學目標(歐滄和民 91)

貳TIMSS

國際數學與科學學習成就調查研究係由國際教育學習成就調查委員會主

持主要目的在於了解各國數學與科學學習成就與各國文化背景教育環境影響

因子之相關性並進一步做國際間之比較研究分析第一次國際數學與科學教育

成就調查於 1970 年舉行共有 19 個國家參與經十年後1980 年進行第二次國

際數學與科學教育成就調查(SIMSS)有 24 個國家參與我國曾於 1987 年 5 月

經 IEA 總部同意引用第二次國際數學與科學教育成就調查工具在我國進行測

驗(但不是正式參加)由國立台灣師範大學科學教育中心負責執行以了解我國

國小國中及高中學生數學及科學成就在國際上所佔的地位IEA 自 1990 年開始

推動進行「第三次國際數學與科學教育成就研究(Third International

Mathematics and Science Study TIMSS)」本計畫有四十餘國參加第三次國

際數學與科學教育成就研究後續調查(稱為 TIMSS REPEATTIMSS-R)於 1999 年

舉辦調查對象為國二學生(13 歲群)共有 38 個國家參加鑒於世界各國對國

際數學與科學教育成就研究的熱烈反應IEA 計劃往後每四年辦理國際數學與科

學教育成就研究一次並改名為國際數學與科學教育成就趨勢調查(Trends in

International Mathematics and Science Study 簡稱 TIMSS )TIMSS 2003

的調查對象包括國小四年級及國中二年級學生TIMSS 的測驗內容包括數學跟科

學並從學生教師和校長們的回答中廣泛地蒐集有關數學跟科學教學與學習資

料另外還經由課程指引教科書和其他教學媒體的分析探討參與國家的數學

7

和科學課程並將結果發表成一系列的國際報告讓參與國家的教育政策制定者

和實務工作者得到有關在數學與科學教學上跟學生學習成就上的珍貴訊息

第四節 研究限制

本研究對於整個計畫的擬定與進行過程中由於在時間上與人力上尚有所不

足的影響以至於對本研究的進行有所限制茲分別就研究工具與分析研究樣

本與應用範圍兩方面說明之

壹研究工具與分析

在 TIMSS 2003 試題部分由於是翻譯試題照理應該經專家學者進行反譯

程序以確保試題的原意未被扭曲但因資源限制所以只經國小專任資深英文

教師與研究者討論而定案

貳研究樣本與應用範圍

因人力與時間的限制只能選擇一間學校來實驗因樣本受限於某一學校

所以本研究的結果與建議限制受限於相同類型的學校

8

第二章 文獻探討

本研究的文獻探討將分成三節第一節為探討實作評量的意涵和特色以及

國內相關實作評量的研究第二節為 TIMSS 的簡介及國外相關的研究第三節為

TIMSS 試題與國內數學課程的分析

第一節 實作評量

壹實作評量的緣起

長久以來多數人將評量窄化為紙筆測驗的考試用考試的成績來論斷一個

人的高下使得評量的目的偏狹方式單調內容枯躁意義盡失再加上過度

倚賴標準化測驗常導致課程窄化且易流於基本技能與片面瑣碎事實的學習忽

視複雜思考和問題解決能力(江文慈民 87詹志禹民 85)簡言之考試第

一分數至上的迷思等於將評量窄化了也扭曲了評量的目的更簡化了評量

的結果事實上考試只是評量的方法之一評量的目的是要提供學生有益的回

饋評量的改革意味著教學與課程發展的改進因此在教育改革中教師要採

用新的評量方式以符合教學的新趨勢評量的意義在於了解學生學習與教師教

學之用其主要的目的是在教育的過程能隨時掌握學生的學習讓教師明白教

學情況藉以發揮教育的效率與效能實作評量受到歡迎的主要原因之一是一

般人對於選擇式的測驗題感到不滿意例如選擇式的測驗題只能測量學生「知

道」什麼但無法測量學生「能做」什麼此外認為以選擇題為主的標準化測

驗對於教師的教學和學生的學習造成一些偏差的影響標準化測驗經常是一般家

長用來評估學校教學績效的方式在績效的壓力之下造成部分教師教學側重於

測驗的內容而扭曲了教學的面貌和窄化學生的學習結果在教育改革的推動

上教育界期望藉著評量的革新來提升教師教學的品質和學生學習的成就此

外一些入學考試和證照考試也在原有的選擇題之外增加建構反應題或實作測

9

驗部分實作評量在教育界和測驗界已是一個非常顯明的趨勢Silver(1993)

認為假如我們沒有將看過或聽過的數學留住那它將永遠不會變成我們的知識

所以實作評量吸引人的地方正在於它讓教師更能洞悉學生的思考並將所得的訊

息直接應用在教育計畫中

實作評量的提倡者主張實際工作的評量模式比紙筆測驗更能充分深入的了

解學生的知識和理解程度(Haertel amp Linn1996)以下將各學者對實作評量

的定義整理概述如下

一以觀察和專業判斷來評量學生學習成就的評量方式都可以稱為實作評量其

型式非常的多元化例如建構反應題書面報告作文演說操作實驗

資料蒐集作品展示等都是實作評量的例子( Stiggins 1987 )

二案卷評量也是實作評量的一種型式實作評量具有下列幾點特徵

(一)要求學生執行或製作一些需要高層思考或問題解決技能的事或物

(二)評量的作業( tasks )是具有意義性挑戰性且與教學活動相結合

(三)評量的作業能與真實生活產生關聯

(四)歷程( process )和作品( product )通常是評量的重點

(五)表現的規準( criteria )和標準( standards)-也就是評量的重

要層面與給分標準要事先確定實作評量有時也被稱為真實性評量

(authentic assessment )( Herman Aschbacher amp Winters 1990 )

三實作評量可視為『以超越傳統評量方式為了解學生熟練度而蒐集資料的一

種評量方式』(DnubarKoretz amp Hoover1991)

四實作評量不僅反應出學生解答的正確性同時也顯現出其得到答案的過程

(Ruiz-primoBaxter amp Shavelson1993)

五實作評量是應用各種評量方式評量各種能力及技巧要求學生展示知識的

應用而非僅展示知識的本身(Long amp Stansbury1994)

六實作評量乃是模擬一些標準情境(亦即是在自然情境下的實作)之測驗其

10

模擬的程度高於一般紙筆測驗所代表者(陳英豪吳裕益民 85)

七實作評量係指根據學生實際完成一項特定任務或工作表現所作的評量這些

任務或工作可能是實際操作口頭報告科學實驗數學解題寫作hellip等

因此其所使用的方式係透過直接的觀察學生表現或間接的從學生作品去

評量(吳清山林天祐民 85)

八凡是以學生在評量過程中的表現或成果作為評量的依據再根據教師的判

斷用事先指定的標準來評定等級的評量方式都可稱之為實作評量(夏

淑琴民 88)

貳實作評量的特色

綜合國內外學者觀點實作評量具有以下特色

一銜接教學與評量教學與評量的密切配合可以對學生的學習情形提供較全面

性的完整的深入的訊息此訊息可以幫助老師更了解學生的學習優勢及

問題掌握學生真正的能力及進步情形使老師能在教學上做適當的調整來

幫助學生解決問題提升其學習水準而惟有重視過程的評量學生才有機

會去反思自己學習上的問題省察如何在學習上求進步而這些也才是真正

的學習

二使學習更有意義更深入強調教學與評量的內容應為重要的完整的概念

而非瑣碎知識的累積應重視思考與問題解決能力的培養而非低層次的記

憶與歸納它的目的在幫助學生獲得完整有意義的概念增進表達技巧及

運用策略的能力並激發學生從事較複雜的深層思考所以實作評量著重脈

絡下有意義的學習在教學與評量的過程中它鼓勵學生主動探索深入思

考並表達學習此種評量方式有助於提升學生的思考及問題解決能力使

學生的學習更有意義更為深入

11

三強調學生知道什麼能做什麼實作評量的重心不在於偵測學生哪裡做錯了

而在於強調學生知道什麼能做什麼及如何再進一步知道得更多做得更

好簡言之其精神是「你會做很多事你還可以學會更多事」對於學生

嘗試去做好某一件事的努力(縱然尚未達到預期的目標)也給予正面的回

饋以學習理論而言較符合學習理論中的公平性或正當性亦即努力是有

收穫的

四強調與實際生活的結合實作評量可以讓教師瞭解學生對問題瞭解程度投

入程度解決的技能和表達自我的能力能夠較完整的反映出學生的學習結

果因為實作評量與真實生活較為相近其支持者認為實作評量能夠增進學

生學習的動機提高學生參與和投入的程度

五幫助學生建構有意義的學習情境發展問題解決能力批判性思考和表達自

我的能力

六有時候實作評量也可以做為一種教學策略提高學生的學習興趣和學習結

果評量和學生的學習以及老師的教學應該是密不可分並且互相支援的評

量的目的是幫助學生學習跟老師教學所以評量應該是自然的融入出現在

課堂而不是強制性的加進課堂上實作評量與實際教學過程有相當密切的

關係往往可以成為實際教學的一部份實作評量本身就是一種有效的教學

活動

七鼓勵合作學習許多文獻顯示合作學習可以提高學生的學習成就增強學

生的理解能力藉由溝通與辯論的過程學生可以重述自己的概念架構和知

識體系以促成有效的概念改變並達到有意義的學習在一個小組合作評

量的情境下藉由同儕的誘導和鼓勵彼此意見的分享並相互進行共同評

量是提高學生成就表現的重要機制

八直接評量排除語文能力的干擾實作評量比較不需要用到語文能力這對

於閱讀或文字表達能力較差的學生而言是比較公平的

12

叁實作評量的目的

Webb(1992)認為一個好的評量應具備四個目的第一個目的是成為教師蒐

集資料的工具透過評量的回饋教師可以知道學生學會多少和能做什麼第二

個目的是要表達學生在學習過程中所做所學的哪些東西是有價值第三個目的

是提供教育決策者一些教學績效之訊息最後的目的評量應該對整個教育體系

提供積極之建議(張敏雪民 86)雖然評量方式會因不同的評量目的而有所

不同然而現行的紙筆測驗過於強調排等第忽略了評量原先之目的教師只

教要考的學生只讀要考的成了所謂「考試領導教學」然而二十一世紀的

國民不是只會在試卷作答的人而是要有「分析預測及適應能力的人」簡而

言之就是能為生活而思考的人(曾慧敏民 87)實作評量重視教育過程本身

的價值和學生主動建構的能力因此重視學生學習過程和結果讓學生有意義

的學習使學生能靈活應用所學不僅評量認知層次也評量技能及情感層次

較傳統的紙筆測驗更能蒐集到學生較豐富的學習訊息

實作評量的目的如下(桂怡芬民 85曾慧敏民 87 Linn 2000)

一檢視學生學習成果是否能達到教學期望的結果

二從評量的結果能清楚交代學生的學習成就

實作評量能直接觀察學生到達結果的過程不只是評量答案之正確性能完

整的呈現學生在複雜能力及歷程上的表現並能依表現推論其構念表現

三藉由此評量可展現學生的技能和能力

實作評量除了能直接的測出學生問題解決的歷程與結果也能展現出高層次

認知情意與技能及後設認知等能力

四使得教學與評量能充分配合

實作評量注重與教學的互動其主要的目的為幫助學生的學習與改進教師的

教學

13

五為課程改革的重要指標

因實作評量標榜著可提升學童高階思考與問題解決的能力因此在教育改革

時備受重視

肆實作評量步驟

實作評量強調在和生活相關的情境下能讓學童展現所知所學的能力來解

決問題然而若是活動或作業設計不夠完整評分規準不夠明確等都可能導

致實作評量無法達到預期的目的(鄒慧英民 87)因此應如何設計出一份好

的實作評量試卷呢(Stiggins 1994)以下提出幾個注意要點

一確立設計評量的原因與目的

評量之所以實施一定有其原因包括確定評量結果所要作的決定例如

分組個別鑑定等第評定與優缺點的診斷等接著考量評量結果是否用於「排

名」或用於決定學生否達到精熟水準

二設計實作評量的內容

(一)選擇作業的形式

可以蒐集教室中自然而然發生的事件也可以設計結構化作業引發

學生表現的機會測出學生真實能力的實作評量

(二)決定評量的實施情境

因為怕受試者的動機與考試的焦慮可能影響學生的真實能力之表

現施測者可考慮事先告知學生相關評量的性質與評分標準因此在一

般的測驗情境下應先觀察受試者的焦慮情形再決定是否事先告訴受試

者評量事宜或採取不事先告知以測出學童最大的表現能力本研究採取

後者

(三)確定所要編製的實作試題數

14

決定實作題目數量應考慮評量的作業是否具代表性蒐集到的證據數

量是否可以提供較精確的學生能力思考層次

三確定實作評量成績計分標準

(一)決定分數的型式

如果評量的目的是做為分組或選擇的依據則可採整體性評分若是

診斷或檢定學童的基本能力可採取分析性細部評分本研究為診斷學童

分數的學習能力採用開放式的結構題型由學生自行建構答案因此

根據不同的答案給予不同層次的分數

(二)選擇評分者

評分者可為教師專家同學或受試者本身但基本上所有的評分

者得先接受專業的評分者訓練使每個人對評分歸準有所共識本研究請

已有五年以上之教學經驗的教師擔任評分者

(三)紀錄評分結果的方法

可採用檢核表評定量表軼事紀錄表等評定量表同時呈現了觀察

項目及分數評比常用於歷程與結果之評量適用於各學科之實作評量

本研究採用評定量表來紀錄評量結果總之發展實作評量時首先需

澄清「教學目標」與「評量的目的」是必要的其次「評量內容」或「評

量對象」取樣的代表性更是影響評量效度的重大因素最後清楚的「評

分規準」與完整的「評分者訓練」及詳細的「評分程度」則是影響評量的

信度唯有如此才能獲致高品質的實作評量(鄒慧英民 86)

伍實作評量的限制

一實施上非常耗費人力時間跟金錢

真正在實施實作評量時通常會受到器材跟場地的限制或是因為擔心產生相

15

互干擾因素而一次只能有限個學生同時進行施測這點跟團體施測的紙筆測驗

相比是非常耗費人力跟時間另外實作評量常需要有器材設備以及消耗性材料這

點跟團體施測的紙筆測驗相比是非常耗費金錢

二測驗情境控制困難

由於不是同時全體施測所以先後受測的學生容易相互干擾而且未受測

的學生跟已受測的學生的交談或傳授經驗也影響到考試的公平性加上前後施

測使得後面的同學很難有一致的施測條件例如場地未乾淨儀器未復原或被

損壞等

三計分不容易客觀

實施實作評量的目的不外乎想根據評量結果來為學生做決策因此獲

得一個正確而又可靠的評量結果(即高信度跟高效度值)便成為一件很重要的

事然而很不幸的實作評量如論文評分一樣由於是使用觀察跟判斷等兩類比

較主觀的評分方式來進行所以其結果難免具有很高的評分者誤差存在一般而

言評分者誤差有三種來源偏見月暈效應跟評量次數過少

四對容易焦慮的學生不利

實作評量的正式性與控制性會使得缺乏自信心或很在意他人評價的學生

產生過度焦慮進而影響其表現

陸實作評量的信效度

實作評量的信效度仍有待探討實作評量的信度通常是以概化程度

(generalizability)來描述(BaxterShavelsonGoldmanPine1992Dunbar

et al1991LinnBakerDunbar1991Linn1993Moss1994Ruiz-Primo

et al1993ShavelsonBaxterGao1993)概化程度包括評分者之間一致

的程度以及學生在不同工作項目(task)表現的一致程度(Shavelson et

16

al1993)根據 Shavelson 等人的研究結果發現實作評量在評量工作項目方面

的概化性較低顯示學生在不同工作項目上的表現有較大的差異在效度方面

實作評量所顯露出的問題有以下三個

一客觀性及公平性實作評量通常僅以一個評分者評定學生的表現所以

評量的結果可能過於主觀或有潛在的偏見(bias)問題(Airasian1991

Frechtling1991Linn et al1991Linn1993)

二評量內容的涵蓋性由於實作評量實施方式及時間的限制通常所評量

的學生行為表現較傳統測驗為少即評量內容的涵蓋範圍較小不易獲得學生行

為的適當樣本(Airasian1991Linn et al1991Linn1993)

三成本及效率問題這部份即時間與經濟的考量Linn 等人(1991)Linn

(1993)及 Messick(19941995)將這一點併入實作評量的效度標準

Baxter 等人(1992)Ruiz-Primo 等人(1993)及 Shavelson 等人

(199119921993)均從概化理論(generalizability theory)的觀點出發

採用取樣架構(sampling framework)來分析實作評量的信度(概化性)探討

評分者間評量項目間評量時間等的取樣變異以及其他潛在的誤差來源他們

針對神秘的電路盒(electric mysteries)毛細現象(paper towels)及小蟲

的習性(bugs)等評量項目採專家觀察(expert observation)實驗筆記

(notebook)電腦模擬測驗(computer simulation test)及紙筆測驗等方式

記錄學生的表現研究結果發現與評分者有關的取樣變異不大評量時間的取

樣變異極小而評分者與受試者間的交互作用(ratertimesperson interaction)和

評分者與評量項目的交互作用(ratertimestask interaction)這兩個部份的變異也

幾乎為 0故他們認為只要一個經過良好訓練的評分者(one well-trained

rater)即可用以評定學生在實作評量上的表現但他們發現在實作評量中評

量項目與受試者及該兩者與時間的交互作用是兩個最大的變異來源研究結果顯

示學生的表現因為工作項目的不同而有極大的差異而這樣的變異在不同時機上

17

更是明顯因此欲提高實作評量結果的一致性必須增加評量的工作項目使得以

學生在實作評量上的行為表現做其能力的推論時能夠降低與學生實際能力無關

的變異

Baxter 等人(1992)及 Shavelson 等人(19921993)主要是從評量對學生

能力的鑑別程度不同評量方式間的輻合效度不同特質及方法間的區辨效度等

三方面探討實作評量的效度他們的研究結果顯示不同的測量方法所得到的結果

並不一致Shavelson 等人(1993)發現在同一個工作項目之下不同的測量方

法中實驗操作與實驗記錄的相關最高實驗記錄與紙筆填充測驗及電腦模擬測

驗與紙筆填充測驗之間的相關最低這是因為實驗操作與實驗記錄為同一思考流

程所以相關較高此外他們也發現受試者與工作項目及測量方法間的交互作

用及誤差是變異的最大來源表示不同的測量方法可能是在測量科學成就的不同

面向(Shavelson et al1993p227-229)最後在不同工作項目之下採用

相同或不同測量方法所得到的相關的確較低顯示實作評量具有區辨效度

柒實作評量與其他評量的比較

大體上實作評量具有下列各項功能(Airasian 1994)茲列表如下

表 2-1-1 實作評量與紙筆測驗的比較

實作評量 紙筆測驗

學生把知識轉化成可觀察的表現行

為或成品的能力 主要涉及學生的知識及資訊的獲得

設計及施測費時但評量表可針對

同一或新的學生重複施測

設計費時但可同時施測許多學生

同組學生僅能使用一次

學生表現不佳可予診斷及補救

可監控學生進步實況

除論文式及開放式數學題之外甚少

提供方向指示如何改進表現

教學首重表現及過程 教學重內容知識

資料來源Airasian (1994) P236

18

表 2-1-2 各種評量類型的比較

客觀式測驗 論文式測驗 口頭發問 實作評量

目的

以最大的效率

及信度測驗

代表性的知

評估思考的技

巧及知識結構

的瞭解程度

教學時評估

知識

評估知識及瞭

解化為行動的

能力

學生的

反應

閱讀評量

選擇 組織寫作 口頭回答

計劃建構

及表達原始的

反應

主要優

效率在測驗

時間內可測驗

到許多項目

可測量複雜的

認知結果

使評估與教學

結合

提供充分的表

現技巧

對學習

的影響

過度強調回

憶鼓勵背誦

記憶如能適

當出題可促進

思考技巧

鼓勵思考及寫

作技巧的發

刺激學生參與

學習提供教

師立即回饋了

解教學是否有

強調運用知

識技巧於實

際的問題情

資料來源Airasian (1994) P229 et ls

捌實作評量相關研究

國內有許多探討實作評量設計的可行性研究以下將就國內學者所做的研

究整理說明

一陳文典陳義勳李虎雄簡茂發(民 84)美國馬里蘭州學校實作評

量國際共同研究計畫

將 MSPAP(the Maryland School Performance Assessment Program)的

19

試題轉譯成中文在國內進行小規模的施測藉以了解這種測驗的功能

使用上的時機及應用上的困難在其對我國五年級學生施以數學理化

和生物等實作評量題目後發現此種測驗模式能遍及各項科學能力我

國學生在回答問題時顯示其傳達與獨立作業能力均不足其評分客觀

的標準化可經由評分者講習的培訓達到目標實作評量可適用於平時作

業學生的科學能力競賽或教育行政單位的各校科學教育教學成效評鑑

等時機

二徐美英(民 89)TIMSS 數學實作評量在台灣之試用探討

(一)TIMSS 試題在台灣之施測具有信效度

(二)台灣四年級學生在 TIMSS 實作評量的表現顯著優於美國和香港地

區的學生

(三)TIMSS 試題在台灣之施測在男女生之間和班級間在總得分並

沒有顯著差異

(四)自編之試題猜一猜與 TIMSS 試題擲骰子繞過彎道

和魔術師有一定程度的相關

三洪之昀(民89)數學科實作評量對國小高年級學童學習策略影響之研究

(一)學生認為實作評量能增加對數學內容的了解提升學習興趣發

現數學的有趣擴大學習範圍並兼具情意評量的功能但也有學生認

為實作評量在實施上太麻煩且費時

(二)學生批判思考數學溝通數學表達的能力有待加強

(三)學生具有多方面的潛能亟待以實作評量的方式加以開發

四詹元智(民 91)國小數學科實作評量之效度探討

採準實驗研究設計的方式進行以屏東師範學院附屬小學六年級兩個班

的學生為研究對象一班為實驗組接受為期二個半月的數學實作評量

另一班為對照組接受傳統數學紙筆測驗的評量研究者於實驗前與實

20

驗後對兩組學生施以「傳統數學紙筆測驗」「數學實作評量」及「數學

學習解題態度」等三種測驗的前後測並對部份學生進行「數學實作

評量前後測的放聲思考訪談」概化性研究的分析結果顯示在一位評分

者及一題作業項目上之評分者間的變異相當小(319)不過分數的變

異有相當大的比例(約 50)是來自作業項目間及作業項目與受試者交

互作用的變異而在二位評分者及五題作業項目之概化性係數可達 08

以上顯示該研究之數學實作評量的結果能有效地推論至學生在其他評

分者及實作評量作業上數學問題解決的表現

五李長柏(民91)國小數學簡單機率解題實作評量與後設認知之相關研究

(一)數學解題實作評量具有良好的信效度

(二)本研究結果顯示具有良好的評分者信度

(三)數學解題能力和後設認知能力具有相關性

(四)性別在數學解題能力和後設認知能力上沒有差異

六王秀琲(民 92)實作評量在國小數學科之應用-以五年級學童分數為例

(一)實作評量能實際測出學童的分數概念在分割活動上連續量比

離散量好在表徵轉換上具體操作轉換符號模式為佳圖形轉換符號

模式較不理想分割策略會因情境的不同而使用較為簡便的方式來

解題

(二)從實作評量中學童能展現自行所建構的解題策略所獲得的訊

息比紙筆測驗多

(三)以 SS 分析法來分析實作評量之試題所呈現的試題關聯結構圖

中可以了解等分和連續量的分割活動是學童最易理解的概念而離散

量分割等值及單位量則是學童最難理解的概念

七張永杰(民 92)實作評量取向的幾何思考研究

(一)年級之幾何水準層次分佈情形有統計上的顯著差異存在年級

21

越高屬於高層次水準的學生越多

(二)當受試學生通過某一水準層次n的考驗但卻未能通過之前的任

一水準層次的考驗則稱為逆序現象有 697學生之幾何層次分佈呈

現逆序的情形

(三)學生不同 van Hiele 水準層次在後設認知能力上表現出顯著差異

(四)順序組學生能力值越高集聚的情形越明顯結構越完整逆序

組學生的概念結構比較少集聚呈現零散不完整的結構

(五)順序組能力低的學生所形成的關連結構比較零散而且概念間

的關聯程度不高能力越高的學生其關連結構概念問題結構化比較明

顯而且上下位觀念比較顯著逆序組學生的關連結構不但呈現零散不

完整的結構且關連結構圖中上下位觀念的情形比較不規律顯現其

概念結構比較雜亂

八林敬修(民 92)影響國小數學科實作評量信度相關因素之類推性理論

分析

(一)影響數學科實作評量分數一致性的主要變異來源為受試者與作業

項目交互作用(ptimest)變異其次為受試者(p)變異再其次為作業項目(t)

變異

(二)在評分者數學知能背景及評分者訓練對數學科實作評量分數一致

性的影響方面評分者的給分一致性因評分者數學知能背景及評分者訓

練而不同

(三)在題目結構度對數學科實作評量分數一致性的影響方面跨不同

結構度之作業項目對分數一致性的影響遠大過於跨相同結構度之作業項

目對分數一致性的影響此外不同數學知能背景及評分者訓練的評分

者在不同結構度的試題給分一致性上也有差異

(四)整體而言各評分組別的評分者一致性因評分向度之不同而有差

22

異其中以在「溝通表達」此一評分向度上的評分者一致性最低

九呂政隆(民 93)國小學童在數學實作評量解題整合認知與課程之相

關研究

運用實作評量的方式分別在九十學年度九十三學年度對五年級學生

施測以探討學生的數學解題與整合認知能力之相關性進而探討性別

課程在數學解題與整合認知能力上是否有顯著差異研究結果顯示實施

九年一貫課程後之九十三學年度整合認知中能力組在本研究之四份實作

評量之數學解題能力明顯低於九十學年度實施八十二年版國民小學課程

標準之數學解題與整合認知能力組

十石千奇(民 93)國小六學童在數學實作評量中的小組解題歷程分析

解題歷程模式受同儕討論的影響小組解題是四個人四條思考路線互相

牽引的結果解題歷程模式受操作實物的影響操作實物會影響解題階

段進行的走向小組成員並非全程參與解題歷程會因為題目的難易

互動過程階段性質等因素的影響而未能全程參與小組解題的階段變

化各行其道在各個解題階段的參與變化沒有一致性的發展操作實物

對各個解題階段皆有影響各產生不同的作用小組成員喜歡在實作評

量中以小組解題的模式解題覺得這樣的評量方式可以幫助解題

因此建議數學教師多採用以四人為一個小組在形成性評量中以小組

解題的方式進行實作評量

十一曲慧娟(民 94)實作評量在國中學術性向優異班招生鑑定之效度研

究~以臺灣北區為例

(一)錄取組和未錄取學生在入學後成就表現的差異分析顯示英文組

達顯著水準 (t=6159plt05)數理組未達顯著水準

(二)實作評量錄取學生在入學後之特殊表現的訪談結果發現各組學

生在發表能力競賽檢定檔案成果上的參與興趣濃厚也比較有所發

23

(三)受訪教師學生及參加座談會的教師們對實作評量的看法和意

見主要有下列重點

1命題是最大的困難各校命題均請專家學者指導師生都反應覺

得題目的品質不錯題型也很有創意和其它測驗不一樣但自然

科實驗器材的準備耗時費工是很大的負擔因此很多學校選擇用資

料分析的題目類型避免實驗操作器材準備的困擾

2實施程序上時間說明器材提供均適宜但場地的考量較多

如實驗位置的區隔語文施測時需安靜的場所等監考過程也是爭

議較多的如學生覺得監考老師應多幾位老師的尺度不同等

3受訪學生指出實作評量的應答方式和以往參加過的測驗有很大

的不同但都持肯定態度同時覺得語文表達能力會影響到實作評

量的成績

4各校評分都採集中閱卷的方式評分標準爭議性得分大都透過

閱卷老師討論後取得共識再給分

5目前各校在鑑定學生時決策的標準不一因此反應意見差異頗

大但從訪談資料發現受訪學生及教師都較支持運用初試複試

成績加權計算作為選擇學生的標準

6受訪教師表示學生入學後的表現和以往相較起來沒有明顯的

差異但在科展競賽檢定發表上的熱誠度較高

7學生的訪談結果發現大多數學生覺得實作評量可以測出他們在

學術性向上的能力或天份

8實作評量的保密情形比其它測驗要好很多但坊間仍有業者猜

題補習受訪學生及老師也表示有模擬實作或補習經驗者對

實作表現或多或少有影響惟一沒有保密困擾的是國文組

24

十二陳怡玉(民 94)降低國小數學科實作評量人和作業交互作用變異方

法的探討---以類推性理論分析

(一)由於分層變項選取不易導致「作業分層」無法有效降低人和作

業交互作用的變異

(二)「以圖表組織圖為鷹架」可以降低人和作業交互作用的變異

(三)「以圖表組織圖為鷹架」比「作業分層」更能讓人和作業交互作用

的變異降低

(四)進行「作業分層」的比較時實作評量的類推性係數和可靠性指

標以同一階層的作業採 ptimesTtimesR 設計最高但屬分層之 ptimes(TS)timesR 設計

卻低於作業未分層時的分析(即採作業 1234 的 ptimesTtimesR 設計來分

析)

(五)「以圖表組織圖為鷹架」能提高實作評量的類推性係數和可靠性指

十三蔡正濱(民 95)國小數學科實作評量評分者ㄧ致性相關因素探討

(一)影響數學科實作評量分數一致性的主要變異來源為受試者與作業

項目交互作用(ptimest)變異其次為受試者(p)變異再其次為受試者

作業與評分者三者之交互作用及誤差(ptimesttimesre)的部分

(二)在使用不同類型及等級數的計分規準對評分者間一致性的影響方

面在 ptimesttimesr 類推設計下不分計分規準種類與評分者有關的變異量

(含 rptimesr及 ttimesr 三者的總和)均相當小幾乎接近 0而在 ptimesr 設

計的整體類推性相關係數及給分差異比例方面分析式計分規準優於

整體式計分規準在不同等級數方面ptimesttimesr 類推設計中與評分者有

關的變異量及整體類推性七等級計分規準略佳但差異性不大在 ptimesr

設計的整體類推性相關係數及給分差異比例方面七等級計分規準優

於四等級計分規準其中又以使用整體式計分規準及評定高複雜度試題

25

時較為明顯

(三)在不同複雜度作業對評分者間一致性的影響方面低複雜度試題

的一致性高於高複雜度試題顯示評分者面對受試者在高複雜度試題的

作答反應時出現給分較不一致的情形最後受試者是否具備實作評

量計分規準之經驗對評分者間一致性的影響方面在低複雜度試題兩

組受試者之評分者一致性的差異性不大在高複雜度試題 A 組評分者

一致性大致高於僅具實作評量經驗之組別 B組而 AB兩組受試者的評

分者一致性差異程度在分析式計分規準上低於其在整體式計分規準之

差異程度

第二節 第三次國際數學與科學教育成就研究

由國際教育成就調查委員會(The International Association for the

Evaluation of Educational Achievement簡稱 IEA)主辦的「國際數學與科學

教育成就趨勢調查」(Trends in Mathematics and Science Study 2003 簡稱

TIMSS 2003)」是目前有關國際間對學生成就的調查研究中規模最大的一項調查

該測驗採取全世界合作模式主要單位有

一國家研究協調中心(National Research Coordinators)國家研究協

調中心負責選擇學校樣品 收集資料 計分標準和資料輸入 和準備研究結

果的一個國際報告

二TIMSS amp PIRLS 國際研究中心(在波士頓學院)(TIMSS amp PIRLS

International Study Center at Boston College)國際研究中心(ISC) 負責

TIMSS 的整體設計發展和實施這包括建立規程監督工具發展舉辦訓練

ISC 進行分析並且在國際報告和用戶資料庫中發布研究結果

三IEA 秘書處(IEA Secretariat)總部設在荷蘭的阿姆斯特丹IEA 秘

書處負責提供整體支持監督籌款和協助參與國家協調參與 TIMSS 的國家取得

26

測驗工具的翻譯證明

四IEA 資料處理中心(IEA Data Processing Center)IEA 有它自己的

資料處理中心位於德國的漢堡資料處理中心(DPC)負責處理和核對從所有參與

國家得到的資料和建立國際資料庫

五統計(Statistics Canada)在加拿大的渥太華負責 TIMSS 的所有採

樣活動包括開發取樣步驟和文獻和協助參加者能符合 TIMSS 的採樣設計

六教育測試的服務(ETS)(Educational Testing Service (ETS))ETS 為

TIMSS 成就測驗資料提供軟體和心理測量的支持 ETS 總部設在新澤西州的普

林斯頓

TIMSS 2003 是 IEA 自 1995 年以來第三次主辦連續週期性調查學生的數學和

科學成就主要目的在提供各國長期追蹤學生數學和科學趨勢成就以提升學生

數學和科學的學習成效TIMSS 2003 以 13 歲群(即國二生)和 9 歲群(即小四生)

為調查對象從 2000 年九月開始發展研究調查相關工作總計有 49 個國家參

加其中 48 個國家參加 13 歲群調查26 個國家參加 9歲群調查測驗的內容

包括數學和科學並從學生教師和學校的問卷回答中廣泛的搜集有關數學和科

學的教學和學習資訊並經由課程指引教科書和其他教學媒體的分析探討參

與國家的數學和科學課程以提供參與國家的政策制定者和實務工作者有關教學

和學生學習成就方面的珍貴訊息而技術報告和完整的國際資料庫也一併出版公

TIMSS 試題的編製流程是先製訂課程架構在根據課程架構編製成就測驗

而此課程架構是由一群來自 TIMSS 國家研究協調中心(TIMSS National Research

Coordinator)的數學和科學教育專家所發展出來的在 TIMSS 2003 的課程架構

中共分為兩個向度內容領域跟認知領域詳細內容如表 2-2-1 所示

27

表 2-2-1 TIMSS 2003 課程架構

數學 科學

內容領域 內容領域

數 生命科學

代數 化學

測量 物理學

幾何學 地球科學

8

級 資料

8

級環境科學

數目 生命科學

模式等式和關係 自然科學

測量 地球科學

4

級 幾何學數據

4

認知領域 認知領域

知道事實和程式 事實的知識

使用概念 概念的理解

解決日常問題 推理和分析

推理

第4年級代數內容領域被叫為模式等式和關係

其中在實作評量方面設計的原則是依照實用的可負擔的和容易翻譯成

多國語言和文化原則所設計的透過預試時取得評分指南包括正確的答覆跟不

正確答覆的描述及給分標準其評分系統採用維京評分系統以表格說明如下

28

表 2-2-2 維京評分系統

第一個碼

  2 類型的 CR 項目(分數碼)

(1) 2 分(外延反應評分)

2 分完整無誤

1 分部分對

(2) 1 分(問答)

(3) 0 分7-9

2 分

1 分

第二個碼

  診斷訊息碼

0-5表出現之頻次類次配合參數碼標之

如 20-2510-1570-75

9 為其他無特殊類別

  如 291979

78=自個兒ldquo診斷碼(國家碼 可自選)

  99 為空白

  79(Erases)

另外在問卷調查部份分為

一課程

(一)公式化課程

(二)課程的範圍和內容

(三)課程的組織

(四)監測和評估被實施的課程

(五)課程材料和支持

二學校

29

(一)學校組織

(二)學校目標

(三)校長的角色

(四)支持數學與科學的資源

(五)父母親介入

(六)學校環境

三老師和他們的準備

(一)學術準備和證明

(二)老師補充

(三)老師任務

(四)老師歸納

(五)老師經驗

(六)教的樣式

(七)專業發展

四教室活動和特徵

(一)課程題目

(二)時間

(三)家庭作業

(四)評量

(五)教室氣氛

(六)資訊技術

(七)計算器用途

(八)強調的研究重點

(九)班級大小

30

五學生

(一)家庭背景

(二)經驗

(三)態度

當 TIMSS 施測後許多國家對於施測結果所蘊藏的意義做了許多的解釋他

們認為施測結果不止顯示了學術成就還包括了學生所接受的課程和教育

(SchmidtJordeCoganBarrierGonzaloMoserShimizuSawadaValverde

PrawatMcknightRaizenBrittonWileyWolfe1996)國際比較主要的目的

在於評估不同國家的學生程度而另一個同樣重要的目的在於嘗試去了解及解釋

造成差異的原因Jaekyung Lee 在 1999 年時提出當我們進行國際比較時有三

點要注意的事項一應該要同時著重正規教育和學校教育以外的學習經驗

二重視區域性的差異

三注意學校的改革政策因為它會影響教育的實施與成果所以成績好不應沾

沾自喜而表現不好也應深究原因去注意其他表現好的國家真正做了什麼並

加以學習而非歸罪於整個制度

根據 TIMSS 2003 國際數學和科學報告(TIMSS 2003 International Reports

in Mathematics and Science)其中提到幾個圖表是跟本文有關並值得分析注

意的

31

圖2-2-1 1995年到2003年4年級學生的數學趨勢

32

上圖是從該報告第一章表格13擷取出來的該圖表顯示出從1995年到2003

年的4年級學生的數學趨勢其中香港拉脫維亞英國賽普勒斯紐西蘭

斯洛伐尼亞加拿大安大略省等七個國家或地區是呈現進步的情況而荷蘭挪

威加拿大魁北克省是退步的趨勢其他在圖表中的國家是沒有顯著差異的另

外在其文字說明部份也提到以色列和菲律賓從1999到2003也顯示出顯著的改

進像上述這些國家數學成就方面趨勢的變化可能跟社會或教育的改變有關

例如東方的政治變化跟歐洲十幾年前的教育改革已經實際改變這些國家的教育

成就例如立陶宛跟拉脫維亞這兩個國家的成就趨勢反映他們在改革過程中的

努力已經獲得某些驚人的成就

33

圖 2-2-2 4 年級學生在男女性別上的差異

上圖是從該報告第一章表格14擷取出來的該圖表顯示大部分國家或地區4

年級學生在男女性別上並無顯著差異但在幾個國家例外新加坡菲律賓亞

美尼亞跟Moldova共和國的女生有較高的數學平均成就荷蘭美國義大利

蘇格蘭賽普勒斯和兩個加拿大省份則是男生有較高的數學平均成就

34

圖2-2-3 1995到2003年的男女生進退步情形

上圖是從該報告第一章表格15擷取出來的該圖表表示從1995到2003年的

男女生進退步情形從圖表中得知男女生同時進步的國家或地區有賽普勒斯英

國香港拉脫維亞紐西蘭斯洛伐尼亞和安大略省而同時退步的國家有挪

威和魁北克省僅有男生退步但女生沒有的國家是荷蘭

第三節 TIMSS 試題與國內數學課程關係之分析

在魔術師的題組中研究者希望學生透過摺紙的方式不管對摺幾次最後

限制只能用剪刀剪一次的情況下要求學生剪出下列 3個圖型

35

每個學生剪每個圖型都有 3次機會這個題組的目的不止希望學生可以運用

全等的直覺利用幾何操作如平移旋轉翻轉等方式印證平時的經驗並將

全等的概念更加清晰還希望學生透過摺紙的方式了解認識垂直和對稱而剪紙

又可以增進學童分解圖形與建構圖形的能力所以本題組主要在測量學生對於全

等的直覺跟幾何操作垂直跟對稱和空間關係的瞭解以及解決非慣例題目的能

在圖形題中前 2個小題分別要求學生在一個長方形中劃一條直線將該長

方形分成 2個三角形或 2個長方形第 3小題要求學生在一個長方形中劃兩條直

線將該長方形分成 2 個三角形跟 1 個長方形第 4 小題則給等腰梯形並連接 2

條對角線在內部形成的 4個三角形中要求學生找出形狀相同但大小不同的兩

個三角形本題組在了解學生能否透過操作直尺或三角板在二維空間上剪裁出

指定的基本圖型並利用直觀的方式指出形狀相同但大小不同的三角形

上述兩個題目在評量學生的幾何能力根據我國國民中小學九年一貫課程綱

要數學學習領域中指出小學教師在從事幾何教學時最要避免的是來自本身歐

氏公設幾何訓練的干擾處處受制於定義的認定與邏輯順序由歷史來看人類

是先由應用操作實踐中認識各種幾何要素與性質彼此之間並沒有一定的

先後關係歐氏幾何的價值首先是對這些先民知識的歸類與整理其次才是作

36

為知識典範的演繹系統所以將幾何課程概分成四階段而學生在四年級時所應

該要學習到的幾何知識就如下列所示

一階段一(一年級到三年級)較強調幾何形體的認識探索與操作學生對

幾何形體中的幾何要素也許能指認但尚不清楚其結構意義

二階段二(四年級到五年級)由於數與量的發展逐漸成熟學生開始結合「數」

與「形」兩大主題學習運用幾何形體的構成要素(如角邊面)及其數量性

質(如角度邊長面積)

更詳細的相關能力指標詳列如下

1-S-04能依給定圖示將簡單形體作平面舖設與立體堆疊給定的圖示

可為圖卡或實物透過拼圖與堆積木等活動讓學童進行平移翻轉重疊

比對hellip等全等操作的練習

3-S-06能透過操作將簡單圖形切割重組成另一已知簡單圖形

4-S-02能透過操作認識基本三角形與四邊形的簡單性質

4-S-03能認識平面圖形全等的意義

4-S-16能理解平面上直角垂直與平行的意義

4-S-07能由直角垂直與平行的概念認識簡單平面圖形

4-S-08能利用三角板畫出直角與兩平行線段並用來描繪平面圖形

例學童會使用直尺或三角板畫出直角及兩平行線段進而用來繪製直角三角

形正方形長方形平行四邊形與梯形

因此學生在回答這兩個問題時應已具備足夠的能力

在幾何方塊的題組中給學生 3 塊白色方塊4 塊黑白相間的方塊和 3 塊黑

色方塊要求學生完成

一利用 2 張黑白相間方塊拼出一個較大的黑色三角形

二利用 4 張黑白相間方塊拼出一個黑色的正方形並求出佔幾分之幾

三不准使用黑白相間方塊將 4 張方塊拼出一個正方形使得黑色的部分佔 12

37

四請用 8 張方塊拼出一個如下圖的長方形使得黑色部分佔 58

這是一種包含幾何跟數與量的題目其中幾何的部份是要求學生建立一個二維圖

形並滿足題目的要求(數與量)幾何部分已經如上所述現在分析相關的數

與量

根據我國國民中小學九年一貫課程綱要數學學習領域中指出有理數是小學

的核心課程之一也是小學數學教育中最有挑戰性的教學主題因為學生較缺

乏有理數的前置經驗日常生活中的有理數情境也比整數少分數的形式是學生

首次碰到兩整數並置的約定至於什麼是穩當的有理數教學並無定論但是基

本的共識是學生需要較長的時間來學習掌握有理數的概念不論是先形式程

序或者先概念理解兩者都必須不斷互相支持在有理數教學中必須將材料

作適當的安排先從較容易的平分或測量入手而將其它的應用課題作為錘鍊

有理數數感的課題

在相關的能力指標詳列如下

3-n-09能在具體情境中初步認識分數並解決同分母分數的比較與加

減問題學童從具體情境或活動中掌握分數的概念能學會分數的記號並理

解運用分數記號來記錄同分母分數的比較與加減的方式例如以平分為基礎的

活動(離散量)問下列深色區域是全部圖形的幾分之幾

4-n-07能認識真分數假分數與帶分數熟練假分數與帶分數的互換

並進行同分母分數的比較加減與非帶分數的整數倍的計算

4-n-08能理解等值分數進行簡單異分母分數的比較並用來做簡單分

數與小數的互換在具體情境中說明分數等值的理由可先由分母的倍數差 2

4倍的分數先出發(因為切半的操作最簡單)

在施測學校所使用的教科書中第七冊第十單元分數中其教學目標也有

38

透過單位分數的合成和累加活動以真分數來描述單位分數的幾份可見此題對

施測學校的學生來說應有能力解決

另外兩題有關數與量的題目是數字卡跟猜一猜在數字卡部份題目分為兩

部份第一部份為抽出三張 0-9 的數字卡任意排列後找出最接近總和為 20 的

方法第二部份為抽出三張 0-9 的數字卡任意排列後分別找出和差跟積最大

的方法這在我國國民中小學九年一貫課程綱要數學學習領域中分類在數與量

中的整數部分根據附錄說明中指出整數計算是一切數學學習的基礎在教學

中學童經由活動情境掌握計算的意義藉著各種例子體驗計算的規則與策略

流暢的計算能力有如語文學習中基本的文字駕馭能力不僅可以內化學童的

數字感並且是日後(國高中)學習抽象運算及形式推導的基礎這樣的能力

固然是學習科學所必須也是能夠有效處理日常生活的基本能力之一所以國小

整數教學的課程目標在於

一從計數開始學習位值的約定與換算並在演算中逐步熟悉最後能掌握

大數

二在二年級下學期理解算術的樞紐九九乘法作為日後所有計算的基礎

三到四年級時能夠不拘泥於位數熟練加減乘除的直式計算

有關數與量的題目另一題是猜一猜題目是在 9個碗中前 4個碗中豆子

的數量分別是 29313128 個請猜一猜罐子中大約有幾個豆子並解釋你

的想法這在我國國民中小學九年一貫課程綱要數學學習領域中分類在數與

量中的估算部分估算在國民教育中可粗分為離散量的估算(自然數四則運算的

估算)與連續量的估算前者的教學應在學生已經能掌握確算後再進行而後

者的教學應透過測量時量不盡的正常情境與小數的教學共同開展認識小數

之細分與精確度的要求乃是一體的兩面估算的教學可以先在計算與驗算中強

調讓學生能對不合理的答案透過估算剔除然後是能判斷應用問題對答案

精確度的要求並藉由過去的解題經驗發展正確的估算策略或者是能針對

39

問題與解答發展估算策略驗算解答的合理性要注意的是估算屬於較高層

次的數學能力學生必須先對所使用的概念程序與問題情境有相當的理解才能

恰當地估算進而能正確判斷估算的時機與精確度的要求國小的估算教學要

特別注意評量的問題切忌因為強求估算禁止學生使用正常計算教師應在評

量的問題上下功夫讓問題本身暗示估算的好處

最後一題是擲骰子題目是用一個規則來改變骰子擲出來的數字要求學

生發現改變後的數字有什麼特性另外要求學生丟 30 次將結果記錄並統計在

表格中這是屬於統計與機率的部份我國課程在這部份強調統計和機率的知識

背景應來自生活環境因此以學生的生活經驗為主從學生感興趣的主題出發

使其學會敘述統計所呈現出的數字和圖表的意義強調圖表的表達和溝通並了

解抽樣機率的初步概念且能正確地運用各項統計資料於實際的生活中並要

求在三年級之前 先藉由簡易表格的製作協助學生建立資料的整理與分組的

概念進而練習報讀與說明資料並建立個別資料出現頻率概念的認識再藉著

直接和交叉對應表格的介紹並配合「數與量」的教學希望學生能掌握對表格

的認識並能加以運用

40

第三章 方法與步驟

本章節乃根據前兩章所提的研究目的與文獻探討進行研究設計以下將分別

就研究架構研究工具發展研究的信效度與實作評量的試題架構三節加以說明

第一節 研究架構

壹研究方法本研究是使用實作評量的方法進行實際施測使用 SPSS

與 EXCEL 軟體分析回收的施測數據

貳研究樣本本研究之研究對象是針對國小四年級學生以台中縣神岡鄉

某國小四年級學生為受試者共四班 127 人學校環境是住

宅與工業混合區

叁研究工具本研究的研究工具分為兩部份民國 89 年徐美英研究論文

中的題目跟 TIMSS 2003 公開的實作評量試題各三題TIMSS

2003 公開的實作評量試題是由 TIMSS 網站下載試題後再進

行翻譯每一個題組的施測時間是 30 分鐘

第二節 研究工具發展

本研究的研究工具分為兩部份民國 89 年徐美英研究論文中的題目跟 TIMSS

2003 公開的實作評量試題各三題以下將分別就試題的編製過程評分標準施

測人員和評分者四點加以說明

壹試題編製過程

一研究分析相關公開試題並與學校教材相互對照後進行選題

二選定題目後進行翻譯

三將翻譯好後的題目跟原始原文題目交給學校英語科任老師進行確認

41

四確定翻譯工作後與現任資深國小四年級的教師們共同討論題目的適切

性修改試題敘述的語句使文句的敘述能符合四年級學生的認知

五將修改後的題目請上述老師再做一次確認

六提供評分標準給上述老師討論全對部份給分不給分的情況

七題目定案

以數字卡這題為例題目如下

【題目數字卡】

在這部分你將會拿到一張印有 0到 9的數字卡如下圖請將這些數字卡

取下來

總和為ldquo20的數字遊戲

小杰與小明這兩個小孩正在玩一個ldquo總和為 20的遊戲其規則如下

總和為ldquo20的規則

一抽數字卡每一個人抽出三張數字卡

二加數字卡每一個人利用這三張數字卡做出一個加法問題使得算出的

總和最接近 20 例如假如抽出的數字卡 將數字任

意組合後下面是其中四種可能的方法

0 1 2 3 4

5 6 7 8 9

1 4 5

42

+ + + +

5 5 4 6 1 9 +

15 1 0

這時玩家應該選擇 + 4 因為它的總和 19最接近 20

19

小杰和小明開始玩遊戲了小杰抽出了 三張數字卡小明抽出

了 三張數字卡

一小杰要如何安排三張數字卡做出一個加法問題才能讓它的總和為最接

近 20記得要寫總和

二小明要如何安排三張數字卡做出一個加法問題才能讓它的總和最接近

20記得要寫總和

三小明說假如我抽到 我可以用兩種方法做出總和 20

請告訴我們小明用哪兩種方法可以使 做出總和 20

第一種方法

第二種方法

1

4

5 1

4

5

1

4 51

4

5

972

6 3 1

1 4 6

1 4 6

43

找出最大的數

小杰和小明利用數字卡玩另一個新的遊戲就是利用三張數字卡做出最

大的數

甲將 三張數字卡填入下列的格子內讓相加的結果為最大

乙將 三個數字填入下列的格子內讓相減的結果為最大

丙將 三個數字填入下列的格子內讓相乘的結果為最大

貳施測人員

由四位該班導師擔任在正式施測前由研究者針對施測應注意事項對施

測人員說明並在每一份題目上附上給老師的話說明施測時應注意的事項

及給分說明部分實作評量試題需要用到一些材料由研究者事先準備妥

當於考前交給施測人員至於材料的發放跟試題說明的時間並不包括在 30

分鐘的測驗時間之內

叁評分標準

一 89 年徐美英研究論文中的題目直接使用其附錄中的評分標準以擲

times

9 5 1

+

2 3 7

1 4 5

44

骰子這題為例其評分標準如下

第一題 1 正確的計算出(042648)

2 給分範圍2分

第二題 1 描述的類型與資料一致

2 形式可以是一個或多個以下的情形例如所有的數字

都是偶數數字的範圍從 0~84 出現 2次數字排列有

規則如+4-2+4-2

3 給分範圍2分

第三題 1 至少完成 25 次擲骰子的紀錄

2 正確的計算

3 給分範圍2分

第四題 1 統計的次數與第三題的資料一致

2 給分範圍2分

第 5a 題1 答案與資料一致

2 給分範圍1分

第 5b 題1 對觀察的數字提供合理的解釋

2 給分範圍1分

二 TIMSS 2003 公開的實作評量試題部分參照其公佈的評分標準翻譯

成中文以提供給資深四年級老師參考以數字卡這題為例

(一)第一部分總和為 20 的數字遊戲

1 第甲題

(1) 給分範圍 1分

1 寫出 2+7+9=18

2 沒有任何算式但有答案是 18 者

(2) 給分範圍0分

45

1 有寫出算式 2+7+9 但沒有答案 18 出現

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

或偏離主題的回答)

3 完全空白

2 第乙題

(1) 給分範圍1分

1 13+6=19 或 16+3=19

2 沒有任何算式但有答案是 19 者

(2) 給分範圍0分

1 有寫出算式 13+6 或 16+3 但沒有答案 19 出現

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

3 完全空白

3 第丙題

(1) 給分範圍2分

兩種方法都正確(16+4 和 14+6)

(2) 給分範圍1分

只有寫出其中一種方法(16+4 或 14+6)

(3) 給分範圍0分

1 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

2 完全空白

(二)第二部份找出最大的數

1 第甲題

(1) 給分範圍1分

46

91+5 或 95+1

(2) 給分範圍0分

1 將 159擺在任何其他不正確的位置

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

3 完全空白

2 第乙題

(1) 給分範圍1分

73-2

(2) 給分範圍0分

1 72-3

2 將 237擺在任何其他不正確的位置

3 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

4 完全空白

3 第丙題

(1) 給分範圍1分

41times5

(2) 給分範圍0分

1 51times4

2 將 145擺在任何其他不正確的位置

3 其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的

或偏離主題的回答)

4 完全空白

47

第三節 研究的信效度與實作評量的試題架構

壹信效度

由於此次的實作評量採用多元化記分的方式故信度計算採用 Cronbach α

係數算出信度值為 079而且每一題均有詳細說明細節行為的項目給定參考

答案圖形的作品量表各題除經著名國際測驗機構審核施測過外並由研究者另

請學校資深四年級教師共同研究討論題目與答案對於施測過程研究者也與四

位監考老師討論後訂出共同標準所以在效度方面具有專家效度跟內容效度

貳試題架構

此次實作評量的試題共六題分別是屬於數與量幾何統計與機率等三大

主題依據九年一貫課程綱要數學學習領域裡對這幾個大主題在國小四年級前的

學習說明研究者編制下表的試題架構

48

表 3-3-1 試題架構

題目 學習主題 主題層次 評量內涵說明

擲骰子 數與量

統計與機率

(1)整數

(2)簡易表格的製作

(1)可以對整數的變化

提出一套模式或發現

(2)簡易表格的製作結

果統計與發現

猜一猜 數與量 估算 使用估算的技巧協助計算

與解題

魔術師 幾何 對稱的實際操作 透過摺紙的對稱觀念理解

平面圖形的線對稱關係

圖形題 幾何

(1)幾何形體的認識與

切割

(2)幾何形體『形』的

直觀認識

(1)透過操作將簡單圖

形切割成另一簡單圖

(2)直觀指出平面圖形的

相似

數字卡 數與量 運用加減乘法求最大值

透過位值概念將給定的數

字編排在不同的位值進行

加減乘法得到接近題

目要求的答案或所有可能

的最大值

幾何方塊 幾何

數與量

(1)幾何形體的拼合

(2)有理數(部分全體

的意涵)

(1)利用黑白相間方塊

拼出指定的簡單平面

圖形

(2)在具體情境中認識

分數

49

第四章 結果與討論

本章主要是呈現資料分析的結果並加以討論共分為四節第一節是利用

TIMSS 1999 實作評量試題比較民國 89 年跟民國 95 年的成績差異第二節是利

用 TIMSS 2003 實作評量試題檢視施測學校在性別及班級間是否存在差異第

三節是利用 TIMSS 2003 實作評量試題比較施測學校與原始施測資料的成績差

異第四節是實作評量試題的類推性

第一節 利用 TIMSS 1999 實作評量試題比較民國

89 年跟民國 95 年的成績差異

研究者本小節要探討的是 TIMSS 1999 的施測結果與民國 89 年徐美英所進行

的研究之比較主要的比較項目為平均數標準差及得分情形分配百分比基於

此研究者採用百分比圖表及各小題反推出得分人數之後用獨立樣本 t檢定的

方式比較平均數另外依百分比反推出人數時有時會因四捨五入產生總人數多

1人的情況此時會對進位數最小的數採取無條件捨去法以符合總人數一致另

因研究者分三天進行六題施測每題實際受測人數也有不同研究者使用的資料

來源有兩個分別是 TIMSS 2003 實作評量題目及 TIMSS 1999 實作評量題目為

了呈現方便研究者將取自 TIMSS 2003 實作評量題目所作的施測結果用『95 年』

表示另外 TIMSS 1999 實作評量題目為研究者從民國 89 年徐美英的論文中擷取

出來的當年的施測結果以『89 年』表示

50

壹魔術師

表4-1-1 95年魔術師題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

魔術師ㄧ 16 16 68 5 127

魔術師二 101 151 748 5 127

魔術師三 202 235 563 5 127

由表 4-1-1 得知研究者此次此題型的施測結果各題得分均以得 2分者居

多得 1分居次利用表 4-1-1研究者也從民國 89 年徐美英的論文中找到類

似資料列在表 4-1-2表 4-1-2 是從論文的本文中摘錄下來的研究者反覆研

究該論文時發現在 P73 也有附錄一份有關魔術師各題的資料統整不過兩者的

個數有所差異下表總人數 156 人遺漏值 5人附錄中個數是 155 人下表反推

出人數後的平均數也與附錄稍有出入研究者以本文的表格為準

表4-1-2 89年魔術師題組得分情形分配表

題目 得 0分人數() 得 1分人數()得 2分人數() 遺漏值 總人數

魔術師ㄧ 419 258 323 5 156

魔術師二 194 194 613 5 156

魔術師三 258 258 484 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

51

0

10

20

30

40

50

60

70

80

魔術師ㄧ 魔術師二 魔術師三

95年答對率

89年答對率

圖 4-1-1 百分比圖表比較結果

由上圖可知95 年答對的答對率在 3題中均優於 89 年的結果其中以魔術

師ㄧ的資料差距最大但此兩年的資料也有一個共同的趨勢就是該年度的答對

率有魔術師二的答對率>魔術師ㄧ的答對率>魔術師三的答對率研究者進一步

反推 89 年的得分人數後將兩年的資料進行獨立樣本 t檢定結果列於表 4-1-3

表 4-1-4表 4-1-5

表 4-1-3 魔術師ㄧ獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異數

相等 4323 0039 6098 272000 0000 0410 0800

1

不假設變異

數相等 6173 270036 0000 0410 0800

52

表 4-1-3 可以看出變異數 Leven 檢定結果P值lt005所以達到顯著差異

可見變異數是不能視為相等的後面 t檢定值 6173P 值lt005所以有達到顯

著差異可見平均數是不能視為相等故這一小題明顯的是 95 年的學生成績較

表 4-1-4 魔術師二獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異數

相等 17130 0000 2550 270000 0011 0050 0410

2

不假設變異

數相等 2605 270000 0010 0060 0400

表4-1-4可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是不能視為相等的後面t檢定值2605P值lt005所以有達到顯著

差異可見平均數是不能視為相等故這一小題明顯的也是95年的學生成績較佳

表 4-1-5 魔術師三獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 0443 0506 1332 272000 0184 -0100 0330

3

不假設變

異數相等 1338 265000 0182 -0100 0330

53

表4-1-5可以看出變異數Leven檢定結果P值gt005所以沒有達到顯著差

異可見變異數是要視為相等的後面t檢定值1332P值gt005所以沒有達到

顯著差異可見平均數是也可以視為相等故這一小題兩年的學生成績沒有差別

接著研究者對整個題組總得分進行比較由於 89 年論文中只有平均數與標

準差兩項資料研究者只能稍做比較95 年施測的平均數為 424標準差為 208

而 89 年的平均數是 375標準差是 207由於兩者標準差的差距很小可見兩

項資料的集中平均數的趨勢是差不多的而平均數則是 95 年多 049 分

二擲骰子

表4-1-6 95年擲骰子題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

擲骰子一 101 202 697 8 127

擲骰子二 597 395 08 8 127

擲骰子三 25 319 655 8 127

擲骰子四 345 378 277 8 127

擲骰子五 a 462 538 8 127

擲骰子五 b 950 50 8 127

由表 4-1-6 得知研究者此次擲骰子題組中各題得分擲骰子一以得 2分

居多佔 697擲骰子二以得 0分居多佔 597擲骰子三以得 2分居多

佔 655擲骰子四以得 1分居多佔 378擲骰子五 a以得 1分居多佔 538

擲骰子五 b以得 0分居多佔 95擲骰子二與擲骰子五 b是要求學生說明理由

或描述規則可見學校教學應該可以再加強學生在解釋資料上的能力

54

表4-1-7 89年擲骰子題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

擲骰子一 32 65 903 5 156

擲骰子二 548 387 65 5 156

擲骰子三 00 65 935 5 156

擲骰子四 65 129 806 5 156

擲骰子五 a 97 903 5 156

擲骰子五 b 839 161 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

0

20

40

60

80

100

擲骰

子一

擲骰

子二

擲骰

子三

擲骰

子四

擲骰

子五

a

擲骰

子五

b

95年答對率

89年答對率

圖 4-1-2 百分比圖表比較結果

由上圖可知89 年答對的答對率在 5題中均優於 95 年的結果其中擲骰子

二與擲骰子五 b兩年的答對率都很低可見對位於城鄉交界處的台灣學生而言

這種類型的題目屬於偏難的題型研究者進一步反推 89 年的得分人數後將兩

年的資料進行獨立樣本 t檢定結果列於表 4-1-8表 4-1-9表 4-1-10表

55

4-1-11表 4-1-12表 4-1-13

表 4-1-8 擲骰子一獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 56450 0000 -4100 270000 0000 -0400 -0140

1

不假設變

異數相等 -3900 195000 0000 -0400 -0130

表4-1-8可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是要假設不相等的後面t檢定值-3906P值lt005所以也達到顯

著差異可見平均數是不能視為相等故這一小題是89年的學生表現較優秀

表 4-1-9 擲骰子二獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 9470 0002 -1500 270000 0141 -0200 0035

2

不假設變

異數相等 -1500 270000 0133 -0200 0032

表4-1-9可以看出變異數Leven檢定結果P值lt005所以有達到顯著差異

可見變異數是要視為不相等的後面t檢定值-1506P值gt005所以沒有達到

顯著差異可見平均數是可以視為相等故這一小題兩年的學生成績沒有差別

56

表 4-1-10 擲骰子三獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 186200 0000 -6200 270000 0000 -0400 -0210

3

不假設變

異數相等 -5800 162000 0000 -0400 -0200

表4-1-10可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是要視為不相等的後面t檢定值-5806P值lt005所以達到顯著

差異可見平均數是有顯著差異的故這一小題89年的學生成績表現較好

表 4-1-11 擲骰子四獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 19580 0000 -9900 270000 0000 -1000 -0650

4

不假設變

異數相等 -9600 212000 0000 -1000 -0650

表4-1-11可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-9565P值lt005有達到顯著差異

可見平均數是有顯著差異的故這一小題89年的學生成績比較好

57

表4-1-12 擲骰子五a獨立樣本t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 207800 0000 -7400 270000 0000 -0500 -0270

五 a

不假設變

異數相等 -7000 187000 0000 -0500 -0260

表4-1-12可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-7036P值lt005有達到顯著差異

可見平均數是有顯著差異故這一小題89年的學生成績比較好

表 4-1-13 擲骰子五 b獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 38760 0000 -2900 270000 0004 -0200 -0035

五b

不假設變

異數相等 -3100 251000 0003 -0200 -0039

表4-1-13可以看出變異數Leven檢定結果P值lt005達到顯著差異可見

變異數是要視為不相等的後面t檢定值-3052P值lt005達到顯著差異可

見平均數是有顯著差異故這一小題89年的學生成績比較好

接著研究者對整個題組總得分進行比較由於 89 年論文中只有平均數與標

58

準差兩項資料研究者只能稍做比較95 年施測的平均數為 48346標準差為

24455而 89 年的平均數是 68258標準差是 16947可見 89 年的資料顯示

集中平均數的趨勢較高而 95 年的資料則較為分散而且平均數又是 89 年多

19912 分多出將近 12 倍

三猜一猜

表4-1-14 95年猜一猜題組得分情形分配表

題目 得0分人

數()

得1分人

數()

得2分人

數()

得3分人

數()

得4分人

數()

得5分人

數() 遺漏值 總人數

猜一猜 3858 2441 1102 630 787 1181 0 127

由表 4-1-14 得知研究者此次擲骰子題組中得分以得 0分者居多顯示

學生的概算能力非常不足其次是得 1分的較多這顯示學生曉得題目要掌握哪

些資訊只是不懂得利用這些資訊0分與 1分的人數竟佔超過 50結果頗令

人訝異

表 4-1-15 89 年擲骰子題組得分情形分配表

題目 得0分人

數()

得1分人

數()

得2分人

數()

得3分人

數()

得4分人

數()

得5分人

數() 遺漏值 總人數

猜一猜 2580 650 100 1190 3230 2260 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

59

猜一猜

0

10

20

30

40

50

60

95年答對率 89年答對率

圖4-1-3 百分比圖表比較結果

本題研究者將得 4分與得 5分者列為答對人數由上圖可知89 年答對的答

對率優於 95 年的結果研究者進一步反推 89 年的得分人數後將兩年的資料進

行獨立樣本 t檢定結果列於表 4-1-16表 4-1-17

表4-1-16 猜一猜資料統計

年度 個數 平均數 標準差平均數的

標準誤

95 127 156 175 016 得分

89 151 286 196 016

表4-1-17 猜一猜獨立樣本t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 5639 0018 -5800 276000 0000 -1700 -0860猜

猜 不假設變

異數相等 -5900 275000 0000 -1700 -0864

60

表4-1-17可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-5856P值lt005有達到顯著差異

可見平均數是有顯著差異故這一小題89年的學生成績比較好

第二節 利用 TIMSS 2003 實作評量試題檢視施測

學校在性別及班級間是否存在差異

在各題型得分的相關情形方面將之整理成表格 4-2-1由表中得知除了

圖形題與猜一猜的相關係數達到005的顯著水準之外其他相關各題均達到001

的顯著水準也就是說圖形題與數字卡幾何方塊魔術師猜一猜擲骰子

等題有相當程度的關係其他各題相互之間也是類似的關係這說明了此次的考

題不只是幾何能力之間有相關的情況幾何能力與統計概念數的運算能力

概算能力之間也有相當程度的關係

61

表 4-2-1 各題型之相關係數

圖形題 數字卡 幾何方塊 魔術師 猜一猜 擲骰子

Pearson 相關 1 0617 0419 0487 0174 044

顯著性 (雙尾) 0 0 0 005 0 圖形

個數 127 127 127 127 127 127

Pearson 相關 0617 1 0517 0562 0272 0587

顯著性 (雙尾) 0 0 0 0002 0 數字

個數 127 127 127 127 127 127

Pearson 相關 0419 0517 1 0397 0308 0389

顯著性 (雙尾) 0 0 0 0 0 幾何

方塊

個數 127 127 127 127 127 127

Pearson 相關 0487 0562 0397 1 0248 0509

顯著性 (雙尾) 0 0 0 0005 0 魔術

個數 127 127 127 127 127 127

Pearson 相關 0174 0272 0308 0248 1 0317

顯著性 (雙尾) 005 0002 0 0005 0 猜一

個數 127 127 127 127 127 127

Pearson 相關 044 0587 0389 0509 0317 1

顯著性 (雙尾) 0 0 0 0 0 擲骰

個數 127 127 127 127 127 127

在顯著水準為001時 (雙尾)顯著相關

在顯著水準為005時 (雙尾)顯著相關

62

表4-2-2 班級對總分之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

班級 390132 3000 130044 2046 0111

誤差 7806910 123000 63471

總和 8197040 126000

以單因子變異數分析班級對總分的結果如表4-2-2在α=005之下F檢定值為

2049相對應的P值是0111因為P值>005所以未達顯著差異也就是各班

級間的實作評量總分並沒有因班級的不同而顯現出差異

表4-2-3 性別對總分之組別統計量與t檢定表

性別 個數 平均數 標準差 平均數的標準誤

男生 65 21892 7567 0939 總分

女生 62 23355 8595 1092

獨立樣本檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 0320 0573 -0998 125000 0320 -4263 1404

分 不假設變

異數相等 -0996 121524 0322 -4272 1413

從表4-2-3來看雖然女生平均成績是2331分高於男生的2188分但根

據獨立樣本t檢定的檢定結果變異數的Levene檢定F值為0320P值為0573

顯示出男生與女生的變異數沒有顯著差異而平均數的t檢定值為-0998P值為

63

032也顯示出男女生的平均數是沒有顯著差異的研究者進一步分析性別與各

題的t檢定結果顯示於表4-2-4

表4-2-4 性別對各題之組別統計量與t檢定表

性別 個數 平均數 標準差 平均數的標準誤

男生 65 326 112 014 圖形題

女生 62 340 098 012

男生 65 418 215 027 數字卡

女生 62 474 212 027

男生 65 417 160 020 幾何方塊

女生 62 413 167 021

男生 65 417 204 025 魔術師

女生 62 432 213 027

男生 65 135 163 020 猜一猜

女生 62 177 185 023

男生 65 474 237 029 擲骰子

女生 62 494 253 032

64

獨立樣本檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 1522 0220 -0756 125000 0451 -0510 0230圖

題 不假設變

異數相等 -0758 124117 0450 -0510 0230

假設變異

數相等 0431 0513 -1471 125000 0144 -1310 0190數

卡 不假設變

異數相等 -1471 124863 0144 -1310 0190

假設變異

數相等 0067 0797 0139 125000 0890 -0530 0610

不假設變

異數相等 0138 123883 0890 -0530 0620

假設變異

數相等 0031 0860 -0414 125000 0680 -0890 0580魔

師 不假設變

異數相等 -0413 123981 0680 -0890 0580

假設變異

數相等 2029 0157 -1359 125000 0177 -1030 0190猜

猜 不假設變

異數相等 -1355 121450 0178 -1030 0190

假設變異

數相等 0391 0533 -0452 125000 0652 -1060 0660擲

子 不假設變

異數相等 -0452 123426 0652 -1060 0670

65

結果顯示各小題的平均數女生分別是34474413432177

494男生分別是326418417417135474除了幾何方塊之外

幾乎都是女生高於男生而各小題的Levene變異數檢定結果其P值分別是

0220513079708601570533均大於005顯示沒有顯著差異

而平均數的檢驗結果各題的P值分別是0451014408906801770652

也都大於005也呈現沒有達到顯著差異可見這6題的考題成績結果與刻板

印象「男生數理比較厲害」有不同的結果

第三節 利用 TIMSS 2003 實作評量試題比較施測

學校與原始施測資料的成績差異

本節研究重點是 TIMSS 2003 的題目與國際受測國家中總體表現較好的國家

資料及台灣原始資料進行比較TIMSS 網站上提供各個受測國家的資料檔研究

者下載了新加坡香港日本台灣比利時與美國的資料之所以下載這幾個

國家的資料是因為四年級測驗總分結果前五名剛好是新加坡香港日本台

灣比利時而且從總分的分析結果顯示台灣與新加坡香港有顯著差異與日

本沒有顯著差異而比利時與台灣也有顯著差異所以比較這五個國家而美國

是因為研究者想了解美國學生是否真的比較會活用故列入此次的比較探討在

實作評量上是否達到顯這差異研究方法採用變異數分析與事後比較事後比較

採用雪費(Scheffe)檢定法由於 TIMSS 施測時採用 12 本測驗題本所以參與

實作評量的各題人數並不一致會出現同一個國家在不同題目上有不同人數的情

況另外因研究者分三天進行六題施測每題實際受測人數也有不同

一圖形題

66

表4-3-1 95年圖形題題組得分情形分配表

題目 得 0分人數 得 1分人數 缺失值 總人數

圖形題甲 66 934 6 127

圖形題乙 41 959 6 127

圖形題丙 174 826 6 127

圖形題丁 223 777 6 127

由表 4-3-1 可知在圖形題題組中各小題得分均以得 1分的人數分別是

934959826777各題百分比是否達到顯著不同研究者用百分比

同質性檢定結果列於表 4-3-2

表 4-3-2 圖形題百分比同質性檢定

得分題目 交叉表

題目

1 2 3 4 總和

得分 0 8 5 21 27 61

得分 1 113 116 100 94 423

總和 121 121 121 121 484

卡方檢定

數值 自由度 p-value

Pearson 卡方 24666a 3000 0000

概似比 25936 3000 0000

線性對線性的關連 19950 1000 0000

有效觀察值的個數 484000

a 0 格(0)的預期個數少於 5最小的預期個數為 1525

67

結果顯示 Pearson 的卡方值 24666df=3p=0000達到顯著水準所以

各題的答對率百分比是不同的

表4-3-3 圖形題題組各國答對率的比較

題目 新加坡答

對率

香港答對

日本答對

台灣答對

比利時答

對率

美國答對

施測學校

答對率

圖形題甲 830 958 917 936 833 727 934

圖形題乙 937 988 902 950 911 877 959

圖形題丙 702 859 744 847 504 328 826

圖形題丁 616 490 634 656 504 553 777

00

400

800

新加坡

香港

日本

台灣

比利時

美國

施測學

圖形

題甲

圖形

題乙

圖形

題丙

圖形

題丁

圖4-3-1 圖形題題組答對率之比較圖

由表 4-3-3 與圖 4-3-1 可知在圖形題題組中甲題的答對率以香港最高

台灣與施測學校居次美國最低乙題的答對率以香港最高台灣與施測學校還

是居次美國最低丙題的答對率以香港最高台灣居次美國最低而且低到

328丁題的答對率以施測學校最高台灣居次香港最低低到 490香港

68

在此小題的表現與上述三小題的結果明顯有很大差距

接著進行變異數分析與事後比較的結果

表4-3-4 圖形題各題之資料統整

圖形題甲

有效的個數 平均數 標準差

新加坡甲 1103 0830462 0375396

香港甲 757 0957728 0201342

日本甲 767 0916558 0276730

台灣甲 776 0935567 0245681

比利時甲 779 0833119 0373109

美國甲 1636 0726773 0445753

施測甲 121 0933884 0249517

圖形題乙

有效的個數 平均數 標準差

新加坡乙 1103 0937443 0242274

香港乙 757 0988111 0108458

日本乙 767 0902216 0297216

台灣乙 776 0949742 0218617

比利時乙 779 0911425 0284312

美國乙 1636 0877139 0328378

施測乙 121 0958678 0199862

題形題丙

有效的個數 平均數 標準差

新加坡丙 1103 0701723 0457709

香港丙 757 0858653 0348610

日本丙 767 0744459 0436450

台灣丙 776 0846649 0360557

比利時丙 779 0504493 0500301

美國丙 1636 0327628 0469492

施測丙 121 0826446 0380300

69

圖形題丁

有效的個數 平均數 標準差

新加坡丁 1103 0615594 0486675

香港丁 757 0490092 0500232

日本丁 767 0633638 0482125

台灣丁 776 0655928 0475371

比利時丁 779 0504493 0500301

美國丁 1636 0552567 0497381

施測丁 121 0776860 0418083

由表 4-3-4 得知參與此題的人數以美國的 1636 人最多香港日本台

灣比利時的人數差不多經變異數分析後如表 4-3-5 所示

表 4-3-5 圖形題各題之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

圖形題甲 組間 44078 6 7346 59531 0000

組內 732026 5932 0123

總和 776103 5938

圖形題乙 組間 8009 6 1335 18752 0000

組內 422269 5932 0071

總和 430278 5938

圖形題丙 組間 257623 6 42937 223054 0000

組內 1141889 5932 0192

總和 1399511 5938

圖形題丁 組間 24546 6 4091 17047 0000

組內 1423561 5932 0240

總和 1448107 5938

70

表4-3-5顯示在α=005之下圖形題4小題的P值均<005均達顯著

水準可見這4題的平均得分有顯著不同所以研究者進一步做事後分析如表

4-3-6所示配合研究者的研究目的本文中只摘錄與研究目的相關的資料其

他比較結果請參閱附錄表格

表 4-3-6 圖形題各題之事後比較

Scheffe 法

題目 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0100 0034 0150

香港 -0024 0034 0998

日本 0017 0034 1000

台灣 -0002 0034 1000

比利時 0100 0034 0196

圖形題

美國 0210 0033 0000

施測 新加坡 0021 0026 0995

香港 -0029 0026 0973

日本 0057 0026 0585

台灣 0009 0026 1000

比利時 0047 0026 0772

圖形題

美國 0082 0025 0105

施測 新加坡 0120 0042 0185

香港 -0032 0043 0997

日本 0082 0043 0724

台灣 -0020 0043 1000

比利時 0320 0043 0000

圖形題

美國 0500 0041 0000

施測 新加坡 0160 0047 0066

香港 0290 0048 0000

日本 0140 0048 0178

台灣 0120 0048 0382

比利時 0270 0048 0000

圖形題

美國 0220 0046 0001

71

由表4-3-6所顯示的結果得知在圖形題這四小題中施測學校與台灣在2003

年所作的調查結果的資料並沒有達到顯著差異可見施測學校的圖形題各小題的

平均得分與2003年的台灣資料的圖形題各小題的平均得分是視為相等的施測學

校在圖形題乙的部分與國際上2003年表現較好的國家的施測資料也都沒有達到

顯著差異可見在這一小題上施測學校與國際上表現較好的國家的平均得分也

是可以視為相等的但是在圖形題甲中施測學校與美國有達到顯著差異在圖

形題丙中施測學校與比利時美國有達到顯著差異在圖形題丁中施測學校

與香港比利時美國有達到顯著差異可見在圖形題甲中施測學校的平均得

分優於美國在圖形題丙中施測學校的平均得分優於比利時與美國在圖形題

丁中施測學校的平均得分優於香港比利時與美國

接下來以整個圖形題的題組來看由表 4-3-7 所示變異數分析的結果

表4-3-7 圖形題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 725457 6 120910 107817 0000

組內 6652328 5932 1121

總和 7377785 5938

在α=005的情況下F檢定值為107817plt005達到顯著差異所以

可以得知這七個國家的平均得分有顯著差異所以要進行事後比較如表4-3-8

所示

72

表4-3-8 圖形題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0410 0101 0012

香港 0200 0104 0708

日本 0300 0104 0215

台灣 0110 0104 0982

比利時 0740 0103 0000

美國 1010 0100 0000

由表 4-3-8 得知整個題組的事後分析顯示在α=005 的情況下施測學

校的總分平均得分與與台彎沒有達到顯著差異所以平均總得分是可以視為相等

的而施測學校總平均得分與新加坡比利時美國有達到顯著差異所以施測

學校的總平均得分是優於新加坡比利時與美國

二數字卡題組

表4-3-9 95年數字卡題題組得分情形分配表

得 0分人數 得 1分人數 得 2分人數 遺漏值 總人數

數字卡 1 317 683 7 127

數字卡 2 242 758 7 127

數字卡 3 117 92 792 7 127

數字卡 4 300 700 7 127

數字卡 5 317 683 7 127

數字卡 6 783 217 7 127

由表 4-3-9 可知在數字卡題題組中各小題得分分別以數字卡 1得 1分者

73

佔 683以數字卡 2得 1分者佔 758以數字卡 3得 2分者佔 792以數字

卡 4得 1分者佔 70以數字卡 5得 1分者佔 683以數字卡 6得 0分者佔 783

居多數字卡 6得分偏低此小題是要求學生將已知的三個數字拼成兩個數後所

得乘積最大結果顯示學生答對率偏低但學生在加法與減法上則無此現象(數

字卡 4與數字卡 5)此題各國答對率的比較結果列於表 4-3-10

表4-3-10 數字卡題題組各國答對率的比較

題目 新加坡 香港 日本 台灣 比利時 美國 施測學校

數字卡 1 494 624 646 698 475 416 683

數字卡 2 567 538 619 657 556 458 758

數字卡 3 645 595 594 657 553 563 792

數字卡 4 713 710 754 647 556 534 700

數字卡 5 693 689 738 629 546 497 683

數字卡 6 264 243 362 225 185 135 217

0

20

40

60

80

100

數字卡1

數字卡2

數字卡3

數字卡4

數字卡5

數字卡6

圖 4-3-2 數字卡題題組答對率之比較圖

74

由表 4-3-10 與圖 4-3-2 可知在圖形題題組中第 1題的答對率以台灣最

高施測學校居次美國最低第 2題的答對率以施測學校最高台灣居次美

國最低第 3題的答對率以施測學校最高台灣居次比利時最低第 4題的答

對率以日本最高新加坡和香港居次美國最低第 5題的答對率以日本最高

新加坡居次美國最低第 6題的答對率還是以日本最高新加坡居次美國最

低接著進行變異數分析結果列於表 4-3-11

表 4-3-11 數字卡題各題之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

組間 34477 6 5746 2418 0000

組內 717422 3019 0238 第一題

總和 751899 3025

組間 18413 6 3069 12727 0000

組內 727966 3019 0241 第二題

總和 746379 3025

組間 36829 6 6138 7166 0000

組內 2585878 3019 0857 第三題

總和 2622707 3025

組間 22038 6 3673 16419 0000

組內 675332 3019 0224 第四題

總和 697369 3025

組間 24878 6 4146 18142 0000

組內 689975 3019 0229 第五題

總和 714853 3025

組間 14939 6 2490 14850 0000

組內 506156 3019 0168 第六題

總和 521095 3025

75

表4-3-11顯示在α=005之下數字卡題6小題均達顯著水準可見這6小題

的平均得分有顯著不同所以研究者進一步做事後分析如表4-3-12所示配合

研究者的研究目的本文中只摘錄與研究目的相關的資料其他比較結果請參

閱附錄表格

表4-3-12 數字卡題之事後比較

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0190 0049 0021

香港 0059 0051 0969

日本 0037 0051 0998

台灣 -0015 0051 1000

比利時 0209 0051 0010

第一題

美國 0267 0048 0000

施測 新加坡 0192 0049 0020

香港 0221 0051 0005

日本 0140 0052 0296

台灣 0101 0051 0692

比利時 0203 0051 0016

第二題

美國 0301 0048 0000

施測 新加坡 0335 0093 0045

香港 0451 0097 0001

日本 0404 0098 0009

台灣 0302 0097 0136

比利時 0500 0097 0000

第三題

美國 0490 0091 0000

施測 新加坡 -0013 0048 1000

香港 -0010 0050 1000

日本 -0054 0050 0978

台灣 0053 0049 0979

比利時 0144 0049 0201

第四題

美國 0166 0046 0045

76

表 4-3-12(續) 數字卡題之事後比較

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 -0010 0048 1000

香港 -0006 0050 1000

日本 -0054 0050 0979

台灣 0054 0050 0978

比利時 0138 0050 0267

第五題

美國 0186 0047 0014

施測 新加坡 -0047 0041 0971

香港 -0026 428E-02 0999

日本 -0145 0043 0079

台灣 -0008 0043 1000

比利時 0031 0043 0997

第六題

美國 0082 0040 0654

由表4-3-12所顯示的結果得知在數字卡題這六小題中施測學校與台

灣在2003年所作的調查結果資料並沒有達到顯著差異可見施測學校的數字卡題

各小題的平均得分與2003年的台灣資料的數字卡題各小題的平均得分是視為相

等的施測學校在數字卡題第六題的部分與國際上2003年表現較好的國家的施測

資料也都沒有達到顯著差異可見在這一小題上施測學校與國際上表現較好的

國家的平均得分也是可以視為相等的但是在數字卡題第一題中施測學校與新

加坡比利時美國有達到顯著差異顯示在這一小題中施測學校的成績是優

於這三個國家的在數字卡題第二題中施測學校與新加坡香港比利時美

國有達到顯著差異顯示在這一小題中施測學校的成績是優於這四個國家的

在數字卡題第三題中施測學校與新加坡香港日本比利時美國有達到顯

著差異顯示在這一小題中施測學校的成績是優於這五個國家的在數字卡題

第四題中施測學校與美國有達到顯著差異顯示在這一小題中施測學校的成

績是優於美國的在數字卡題第五題中施測學校與美國有達到顯著差異顯示

77

在這一小題中施測學校的成績是優於美國的

接下來以整個數字卡題的題組來看由表 4-3-13 所示變異數分析的結果

表4-3-13 數字卡題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 660902 6 110150 23261 0000

組內 14295950 3019 4735

總和 14956850 3025

在α=005的情況下F檢定值為23261plt005達到顯著差異所

以可見這七個國家總分的平均得分有顯著差異所以進行事後比較如表4-3-14

所示

表 4-3-14 數字卡題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0645 0219 0192

香港 0688 0228 0167

日本 0327 0229 0916

台灣 0486 0227 0598

比利時 1224 0227 0000

美國 1492 0213 0000

由表4-3-14得知整個題組的事後分析顯示在α=005的情況下施測學校

的總分平均得分與台彎沒有達到顯著差異所以平均總得分是可以視為相等的

而施測學校總平均得分與比利時美國有達到顯著差異所以施測學校的總平均

得分是優於比利時與美國

78

三幾何方塊題組

表4-3-15 95年幾何方塊題題組得分情形分配表

得 0分人數 得 1分人數 得 2分人數 遺漏值 總人數

幾何方塊 1 50 950 8 127

幾何方塊 2 109 891 8 127

幾何方塊 3 252 748 8 127

幾何方塊 4 193 807 8 127

幾何方塊 5 244 479 277 8 127

由表 4-3-15 可知在幾何方塊題題組中各小題得分分別以幾何方塊 1得 1

分者佔 95以幾何方塊 2得 1 分者佔 891以幾何方塊 3 得 1 分者佔 748

以幾何方塊 4得 1分者佔 807以幾何方塊 5得 1分者佔 479居多各題各

國答對率的比較結果列於表 4-3-16

表 4-3-16 幾何方塊題題組各國答對率的比較

題目 新加坡 香港 日本 台灣 比利時 美國 施測學校

幾何方塊 1 432 602 785 580 517 399 950

幾何方塊 2 447 470 717 546 548 405 891

幾何方塊 3 720 702 557 613 432 461 748

幾何方塊 4 557 436 447 323 516 446 807

幾何方塊 5 115 66 135 82 123 76 277

79

0

20

40

60

80

100

幾何

方塊1

幾何

方塊2

幾何方塊3

幾何

方塊4

幾何

方塊5

圖4-3-3 幾何方塊題題組答對率之比較圖

由表 4-3-16 與圖 4-3-3 可知在幾何方塊題組中第 1題的答對率以施測

學校最高日本居次美國最低第 2題的答對率以施測學校最高日本居次

美國最低第 3題的答對率以施測學校最高新加坡居次比利時最低第 4題

的答對率以施測學校最高新加坡居次台灣最低第 5題的答對率以施測學校

最高日本居次香港最低接著進行變異數分析結果列於表 4-3-17

80

表 4-3-17 幾何方塊題各題之變異數分析

得分 平方和 自由度 平均平方和 F 檢定 p-value

組間 115732 6 19289 83927 0000

組內 1363788 5934 0230 第一題

總和 1479520 5940

組間 75877 6 12646 53259 0000

組內 1409236 5935 0237 第二題

總和 1485112 5941

組間 77699 6 12950 55905 0000

組內 1374774 5935 0232 第三題

總和 1452473 5941

組間 42205 6 7034 29061 0000

組內 1436564 5935 0242 第四題

總和 1478768 5941

組間 51860 6 8643 20902 0000

組內 2454259 5935 0414 第五題

總和 2506120 5941

表4-3-17顯示幾何方塊題5小題均達顯著水準可見這5題的平均得分

有顯著不同所以研究者進一步做事後分析如表4-3-18所示配合研究者的研

究目的本文中只摘錄與研究目的相關的資料其他比較結果請參閱附錄表格

81

表4-3-18 幾何方塊題各題之事後比較

Scheffe 法

題號 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0520 0046 0000

香港 0350 0047 0000

日本 0160 0047 0060

台灣 0370 0047 0000

比利時 0430 0047 0000

第一題

美國 0550 0046 0000

施測 新加坡 0440 0047 0000

香港 0420 0048 0000

日本 0170 0048 0040

台灣 0340 0048 0000

比利時 0340 0048 0000

第二題

美國 0490 0046 0000

施測 新加坡 0028 0046 0999

香港 0046 0047 0988

日本 0190 0047 0012

台灣 0140 0047 0230

比利時 0320 0047 0000

第三題

美國 0290 0046 0000

施測 新加坡 0250 0047 0000

香港 0370 0049 0000

日本 0360 0049 0000

台灣 0480 0049 0000

比利時 0290 0049 0000

第四題

美國 0360 0047 0000

82

表 4-3-18(續) 幾何方塊題各題之事後比較

題號 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0260 0062 0006

香港 0430 0063 0000

日本 0280 0063 0004

台灣 0480 0063 0000

比利時 0350 0063 0000

第五題

美國 0420 0061 0000

由表4-3-18所顯示的結果得知在幾何方塊題這五小題中只有第三小

題施測學校與台灣在2003年所作的調查結果資料並沒有達到顯著差異其他四小

題的結果都是與台灣達到顯著差異的可見施測學校的平均得分在這四小題中是

優於台灣在2003年所作的調查結果資料在幾何方塊題第一題中施測學校與新

加坡香港比利時美國有達到顯著差異顯示在這一小題中施測學校的成

績是優於這四個國家的在幾何方塊題第二題中施測學校與新加坡香港日

本比利時美國有達到顯著差異顯示在這一小題中施測學校的成績是優於

這五個國家的在幾何方塊題第三題中施測學校與日本比利時美國有達到

顯著差異顯示在這一小題中施測學校的成績是優於這三個國家的在幾何方

塊題第四題中施測學校與新加坡香港日本比利時美國有達到顯著差異

顯示在這一小題中施測學校的成績是優於這五個國家的在幾何方塊題第五題

中施測學校與新加坡香港日本比利時美國有達到顯著差異顯示在這

一小題中施測學校的成績是優於這五個國家的

接下來以整個幾何方塊題的題組來看由表 4-3-19 所示變異數分析的結果

83

表4-3-19 幾何方塊題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 885084 6 147514 50368 0000

組內 17379220 5934 2929

總和 18264300 5940

在α=005的情況下F檢定值為50368plt005達到顯著差異所

以可見這七個國家總分的平均得分有顯著差異所以進行事後比較如表4-3-20

所示

表4-3-20 幾何方塊題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 1499 0165 0000

香港 1615 0169 0000

日本 1166 0169 0000

台灣 1814 0169 0000

比利時 1727 0169 0000

美國 2101 0162 0000

由表4-3-20得知整個題組的事後分析顯示在α=005的情況下施測學

校的總分平均得分與台彎有達到顯著差異所以平均總得分是施測學校優於台灣

在2003年所作的調查結果資料的而施測學校總平均得分與新加坡香港日本

比利時美國有達到顯著差異所以施測學校的總平均得分是優於新加坡香港

日本比利時美國

84

第四節 實作評量試題的類推性

本研究試題的評分者有兩位所以採用的是評分者與工作項目的兩面向交叉

設計(the two-facet crossed persontimesratertimestask design)研究者原先想

利用 SPSS 套裝軟體進行多變量變異數分析將評分的結果做概化程度的分析

計算出各個變異來源之變異成份的大小及其佔總變異的百分比但因檔案太

大SPSS 套裝軟體無法進行多變量變異數分析所以研究者改用 EXCEL 軟體進行

試算其結果列於表 4-4-1

表4-4-1 實作評量概化程度變異成分表

變異來源 估計變異成份 佔總變異之百分比

受試者 0887981185 1944983082

評分者 96E-16 211E-14

工作項目 1697518073 3718146275

受試者評分者 0 0

受試者工作項目 1872595983 410162689

評分者工作項目 0033245844 0728197914

受試者評分者工作項目及誤差 0074154589 1624239615

G 係數 0736144063

註 1在受試者與評分者的交互作用項中其估計變異成份的大小為-106396E-15Shavelson

Webb(1991)指出當某變異成份實際的值接近或等於 0 時取樣的誤差可能導致該變異成份

的估計值成為負數此時可將負值的變異成份大小設定為 0

從以上的表 4-4-1研究者有以下的發現

一實作評量最大的三個變異來源是受試者和工作項目的交互作用工作項

目之間的變異與受試者之間的變異

實作評量最大的變異來源是受試者和工作項目的交互作用佔總變異量的

85

41016表示在研究者的實作評量裡學生的成績會因著工作項目的不同而有

高低起伏如此一來便會降低以某位受試者的觀察分數概化至其真實分數的可

靠程度所以研究者無法以學生在少量的實作評量評量項目上的表現來做為他

們在數學科能力的推論

此外在研究者的實作評量中第二大的變異來源為工作項目之間的變異

其值為 170佔總變異的 37181這只是反應了學生在評量項目上能力表

現的差異並非影響 G係數大小的主要因素關於這一點研究者從計算 G係數

的公式可以了解G係數的計算公式是這樣的

G=σ2p(σ2

p+σ2ptnt+σ2

rpnr+σ2rptenrtimesnt)

G 係數的意義是受試者間的變異量在與受試者有關的變異量之總和中所佔的

比例大小因此若受試者間的變異量愈大而相對於受試者與其他實驗設計面

向的變異量及誤差愈小則 G係數便會愈大也就是根據測驗成績來作推論的可

靠性愈高

二兩位評分者之間的變異極小

評分者之間的變異為傳統的評分者信度從表 4-4-1 可以看到兩位評分結果

之間的變異值為 96E-16僅佔總變異的 211E-14顯示研究者的評分標準非

常一致也就是說研究者兩位當中並沒有誰評分時較為嚴格(stringent)或

較為寬大(liberal)

三受試者與評分者之間沒有交互作用

表 4-4-1 顯示受試者與評分者之間的交互作用為 0表示研究者兩位評分者

並沒有受到月暈效應的影響而對某些學生給予較高的成績對其他學生則給予較

低的成績這一點也可做為評量是否具有公平性的證據之一

四評分者與工作項目間的交互作用非常小

評分者與評量項目間的交互作用很小表示兩位評分者在評定各個評量項目

的評量標準相當一致這原因是由於評分標準訂定的相當明確而且具體讓評分

86

者之間沒有認知的差異存在

從評量工作項目的內容來看本次測驗所測量的雖然同樣是數學能力

測驗但各題所涵蓋的領域包含了統計的資料處理分析能力(擲骰子)幾

何對稱概念(魔術師)概算能力(猜一猜)幾何圖型的直觀概念(圖形

題)數與量中的整數加減乘的運算分析能力(數字卡)結合數與形兩大

主題的幾何形體構成要素及其數量性質(幾何方塊)題目本身的差異性很

大而且每位學生所擅長的方面有所不同在工作項目的表現自然就有所

不同在加上每題的配分並不盡相同所以由這些評量項目概化至其他數

學科能力的程度就降低了這也就是本研究的 G 係數僅達 0313表示如果

使用少量的實作評量工作項目將無法達到所需要的信度

另外主要效果是受試者的變異數值是 0888佔總變異的 19450代

表學生之間的程度差異也很大

根據概化程度研究的結果研究者可以進一步做決策研究(decision

study)決策研究是用來指出若要達到足夠小的誤差變異或足夠大的概化

係數時每一個學生需要多少工作項目以及每一個工作項目需要多少評分

者下面研究者分別分析在幾個評分者的情況下實作評量工作項目為幾

個時G 係數才能達到 08

87

表 4-4-2 G 研究與各種 D 研究之變異成分分析與推論力係數

變異源 G 研究變異成

分之估計值D研究變異成分之估計值

nr= 1 2 3 5 2 2 2

ni= 1 6 6 6 7 8 9

受試者 0888 0888 0888 0888 0888 0888 0888

評分者 0000 0000 0000 0000 0000 0000 0000

工作項目 1698 0283 0283 0283 0243 0212 0189

受試者評分者 0000 0000 0000 0000 0000 0000 0000

受試者工作項目 1873 0312 0312 0312 0268 0234 0208

評分者工作項目 0033 0100 0066 0040 0116 0133 0150

受試者評分者工

作項目及誤差 0074 0006 0004 0002 0005 0005 0004

σRel 1947 0318 0316 0315 0273 0239 0212

G 係數 0313 0736 0737 0738 0765 0788 0807

由表 4-4-2 可知原設計研究 2位研究者與 6道題目的方式推出 G係數只有

0736當評分者增加一位而題目維持六題時G係數只增加 001 達到 0737

如果將評分者增加到五位而題目仍維持六題時G係數只增加 002 達到 0738

可見增加評分者的影響有限如果評分者維持兩位而題目增加為七題G係數會

增加 0029達到 0765如果評分者維持兩位而題目增加為八題G係數會增加

0052達到 0788可見增加題目的效果比增加評分者更為有效當評分者為兩

位題目為九題時G係數可達 0807顯示評分者為兩位題目為九題時內

部一致性較佳

88

第五章 結論

本研究以 TIMSS 數學實作評量的題目為工具進行特定環境背景不同年度的

縱貫研究及與其他國際上表現較佳的國家進行橫貫研究以下為本研究進行所得

的經驗以及資料分析所得之結果分別以結論以及建議等兩節進行說明

第一節 結論

壹實作評量的信效度

TIMSS 試題在台灣之施測是具有一定信效度在信度方面經實際施測後計

算的結果為 0799所以 TIMSS 數學實作評量試題在台灣之施測是具有信度的

但根據實作評量試題的類推性分析結果發現G研究中的 G係數只有 0313深

入探討其原因可能是試題難易程度的差別較大與各題配分比例不同所造成的

所以在 D研究中要補救其信度低的措施就是增加評分者為兩位題目為九題時

其 G係數就可以達到 0807在效度方面每一題均有詳細說明細節行為的項目

給定參考答案圖形的作品量表各題除經著名國際測驗機構審核施測過外並由

研究者另請學校資深四年級教師共同研究討論題目與答案對於施測過程研究

者也與四位監考老師討論後訂出共同標準所以在效度方面具有專家效度跟內

容效度

貳評量結果與比較

一在進行縱貫研究方面在魔術師題型上民國 95 年的結果較佳在擲

骰子題型上是民國 89 年的結果較佳在猜一猜題型上民國 89 年的結

果較佳此結果顯示在幾何概念的對稱觀念上民國 95 年的學生有較

佳的表現但在統計觀念及概數觀念上民國 89 年的學生表現較佳

在實際施測過程中研究者發現在魔術師題型的第一題上許多民國

95 年的學生是先將題目要求的圖形剪出來後再進行對摺當然如果學生

是交出這樣的答案紙條評分者是不給分的因為當評分者在沿著摺線

89

還原時就會發現不是一刀剪出來的可是因為有三個機會所以許多學

生得到這樣的經驗後就會在第二次或第三次時剪出題目要求的結果

而且第一題的成功經驗會連帶的影響第二題的作答因為摺的方式是

一樣的只是剪的地方是不同的所以不管民國 95 年或是民國 89 年的

作答結果都會發現第二題的答對率均比第一題高而第三題的作答方

式因為要多摺一次而且較難複製前面成功的經驗所以第三小題的答

對率比前兩題均比較低所以研究者認為在這一題型上民國 95 年的

學生會表現得比較好的原因可能在於有比較好的作答技巧

二TIMSS 實作評量在性別及班級之間沒有顯著差異

三在圖形題題型上施測學校與台灣西元 2003 年施測結果沒有達到顯著

差異在數字卡題型上施測學校與台灣西元 2003 年施測結果沒有達

到顯著差異在幾何方塊題型上施測學校與台灣西元 2003 年施測結

果達到顯著差異之所以在幾何方塊題型上會達到顯著差異研究者認

為可能是時間點的問題因為研究者施測的時間是利用學期末期末考

後而剛好這次期末考有分數的單元所以學生對這個範圍比較熟悉

才可能造成施測學校的成績特別突出

四在圖形題題型上施測學校優於新加坡比利時及美國在數字卡題型

上我國優於比利時美國在幾何方塊題型上施測學校優於新加坡

香港日本比利時美國研究者特別注意到香港與美國這兩個國家

在 89 年徐美英論文中香港在該年的施測結果都比徐美英施測結果落

後但在 95 年的施測結果卻只有幾何方塊題型是明顯落後施測學校這

表示不是台灣學生在這幾年程度變低了就是這幾年香港程度變高了

在跟縱貫研究做交叉比較後研究者認為台灣學生這幾年程度變低的可

能性較大而美國不管是在 89 年與徐美英論文的施測結果比較或是與

95 年施測結果比較均在這兩次比較中明顯落後

90

第二節 建議

壹TIMSS 實作評量的後續研究

由於數學科實作評量在實際施測時常有人力與物力上的考量以至於在實

際教育現場上並不常用但是實作評量所測出的學生能力與紙筆測驗所測出的

學生能力是不同面向的經過此次實際施測的經驗研究者認為運用 TIMSS 實

作評量的試題來了解學生的學習成就可以在經濟負擔的考慮範圍內達到可

信賴的研究成果因此建議後續研究者可朝向此方向繼續研究以期能更深入

了解學生學習成就的變化情形

貳學生學習成就的長期追蹤

建立台灣的長期教育資料庫是必要的這是從事教育基礎研究的中外學者

的共識研究者此次研究以 TIMSS 實作評量的試題為工具來了解民國 89

年跟民國 95 年特定環境背景的國小四年級學生學習成就的比較即以此理念

為出發點目前在中央研究院教育部和國科會共同推動下『台灣教育長期

追蹤資料庫』的建置工作也已在 2001 年 10 月份起正式展開目的是為了從教

育基礎研究的角度出發研究哪些因素會影響到學生解決問題的能力如學

生努力程度學習機會和學習能力等等當然資料的品質是累積而來的不做

沒有開始就不可能有改進也就不可能有較豐富的資料內容美國國家教育

長期研究(National Education Longitudinal Study NELS)其資料的品質

和豐富素為各國教育研究學者所稱道就是因為它累積了二十多年的經驗

且經過多次的增刪修改研究者也希望能有後續研究者投入後續的相關研究

並累積相關的資料以利決策者能創造出適合台灣學生的最佳學習環境

叁開放性問題的評量研究

在此次研究中發現學生對於開放性問題的解題能力非常不足對於設計

好的題目較難提出歸納模式或者合理的推測這或許歸因於教學現場中的標

91

準化測驗在整個學習過程中教學活動跟教學評量是交互不斷進行而常常

受限於時間跟經濟因素教師只能被迫選擇標準化測驗以診斷學生學習困難

處但是標準化測驗容易讓學生誤以為答案是唯一的而且數學知識是可以切

割成不相關的小部分的因此在國民中小學九年一貫課程綱要中提出「教師

應透過各種評量方式以檢驗教學效果」的觀念研究者建議後續研究者能進一

步探討這方面的相關研究

肆國際比較的重要性

許多國家多年以前即開始參與大型國際研究以了解自己國家學生與其他

不同國家或區域的學生學習成就的差異特別的是此類國際研究對於結果的分

析是深入且多面向的包括學生家庭背景班級學校等民國 95 年中國時

報特別以專欄方式提出芬蘭的教育成功經驗以供國內教育改革的參考為什

麼要特別提出芬蘭呢因為芬蘭在重要的國際比較研究中常常名列前矛所

以參與大型的國際研究可以找出成功的經驗減少自己摸索的時間

92

參考文獻

壹中文部份

王秀琲 (民 92)實作評量在國小數學科之應用-以五年級學童分數為例國立

臺中師範學院教育測驗統計研究所碩士論文

方泰山(民 91)第四次 TIMSS 2003 NRC 自由反應評分系統研討會會議報告

httpichochemntnuedutwpub4thnrcreporthtm

石千奇(民 93)國小六學童在數學實作評量中的小組解題歷程分析國立中山

大學教育研究所碩士論文

江文慈(民 87)一個新評量理念的探討多元智力取向的評量教育資料與研

究20 期6-12

曲慧娟 (民 94)實作評量在國中學術性向優異班招生鑑定之效度研究~以臺灣

北區為例國立臺灣師範大學特殊教育研究所碩士論文

李坤崇(民 88)多元化教學評量台北心理

余民寧(民 93)教育測驗與評量-成就測驗與教學評量第二版台北心理

吳毓瑩(民 85)評量的蛻變與突破-從哲學思潮與效度理論參考起教育資料

與研究13 期2-15

李虎雄張敏雪(民 87)由學力評量觀點談實作評量之特性測驗與輔導

3104-3108

吳明隆(民 87)教室做為評量環境的內涵與其評量新趨勢研習資訊15 卷

4期62-77

93

吳清山林天佑(民 85)教育名詞 mdash分流教育教育資料與研究885

李長柏(民 91)國小數學簡單機率解題實作評量與後設認知之相關研究國立

臺中師範學院教育測驗統計研究所碩士論文

呂政隆(民 93)國小學童在數學實作評量解題整合認知與課程之相關研究

國立臺中師範學院教育測驗統計研究所碩士論文

呂金燮(民 88)實作評量-理論載於王文中呂金燮吳毓瑩張郁雯張淑

慧(合著)教育測驗與評量教室學習觀點(頁 173-207)台北五

李茂能(民 85)信度考驗的另一途徑推論力理論國民教育學報227-48

林清山(民 81)心理與教育統計學台北東華

林敬修(民 92)影響國小數學科實作評量信度相關因素之類推性理論分析國

立屏東師範學院教育心理與輔導學系研究所碩士論文

洪之昀(民 89)數學科實作評量對國小高年級學童學習策略影響之研究國立

臺中師範學院教育測驗統計研究所碩士論文

桂怡芬吳毓瑩(民 87)自然科實作評量的效度探討測驗年刊45(2)19-36

桂怡芬(民 85)自然科實作評量的效度探討國立台北師範學院國民教育研究

所碩士論文

桂怡芬(民 85)紙筆與實作的互補我的實作評量經驗教育資料與研究13

期36-40

徐美英(民 89)TIMSS 數學實作評量在台灣之試用探討國立臺中師範學院教

育測驗統計研究所碩士論文

94

夏淑琴(民 88)教學評量革新-多元評量載於高強華主編(民 88)學校變遷與

學校革新台北師大

教育部(民 92)國民中小學九年一貫課程綱要數學學習領域台北教育部

張紹勳張紹評林秀娟(民 92a)SPSS For Windows 統計分析初等統計與高

等統計(上冊)(第四版)台北文魁資訊股份有限公司

張紹勳張紹評林秀娟(民 92b)SPSS For Windows 統計分析初等統計與高

等統計(下冊)(第四版)台北文魁資訊股份有限公司

張敏雪(民 86)實作評量的本質及國民中小學數理科教師對實作評量的態度探

討國立臺灣師範大學數學研究所碩士論文

張敏雪(民 87)教室內的實作評量教育資料與研究20 期24-27

張敏雪(民 86)實作評量的本質及國民中小學數理科教師對實作評量的態度探

討國立師範大學數學研究所碩士論文

張英傑等著(民 94)數學科教師手冊台南南一書局

張永杰 (民 92)實作評量取向的幾何思考研究國立臺灣大學國際企業學研究

所碩士論文

張麗麗(民 91a)從分數的意義談實作評量效度的建立教育研究月刊9837-51

張麗麗(民 91b)評量改革的應許之地虛幻或真實-談實作評量之作業與表

現規準教育研究月刊9376-86

郭生玉(民 84)心理與教育研究法台北精華

陳英豪吳裕益(民 85)測驗與評量高雄復文

95

陳文典陳義勳李虎雄簡茂發(民 84)由馬里蘭州的學習成就評量與其在

台灣的施測結果看-實作評量的功能與應用科學教育月刊185 期

2-10

陳昭地(民 88)「第三次國際數學與科學教育成就研究」後續調查

httpreporticentnutwnscreportTIMSS-R(1999)實測後

期中報告--交國科會htm

陳怡玉(民 94)降低國小數學科實作評量人和作業交互作用變異方法的探討---

以類推性理論分析國立臺南大學測驗統計研究所碩士論文

莊明貞(民 84)變通性評量的發展與實施研習簡訊261

莊明貞(民 85)實作評量理論與實際教育資料與研究9期44-48

曾惠敏(民 87)國小分數概念實作評量之發展及其相關研究國立台南師範學

院國民教育研究所碩士論文

游麗卿(民 87)從實作表現診斷學生乘除法的錯誤概念觀念測驗與輔導雙月

刊149 期3094-3099

鄒慧英譯(民 92)測驗與評量(原作者 Robert L linn and Norman E

Gronlund)台北洪葉文化

鄒慧英(民 86)實作型評量的品管議題兼談檔案評量的應用載於八十七年度

教育測驗新近發展趨勢學術研討會

詹志禹(民 85)評量改革為什麼要進行-回應吳毓瑩<評量的蛻變與突破>

教育資料與研究13 期45-47

96

詹元智(民 91)國小數學科實作評量之效度探討國立屏東師範學院教育心理

與輔導研究所碩士論文

蔡正濱(民 95)國小數學科實作評量評分者ㄧ致性相關因素探討國立屏東教

育大學教育心理與輔導學系研究所碩士論文

鄭麗玉(民 88)教學評量的改革教師之友40 卷1期23-33

歐滄和(民 91)教育測驗與評量台北心理

盧雪梅(民 87)實作評量的應許難題和挑戰教育資料與研究20 期1-5

簡茂發(民 80)命題方法與試題分析國教輔導31(1)2-13

蘇義翔(民 86)實作評量的理論與啟示測驗與輔導3099-3102

貳英文部分

Airasian PW (1991) Classroom assessment New York McGraw-Hill

Airasian PW (1994) Classroom assessment(2nd ed)NewYork

McGraw-Hill

Baron J B (1991) Strategies for the development of effective

performance exercise Applied Measurement in Education 4(4)

305-318

Baxter G P Shavelson R J Goldman S R amp Pine J

(1992) Evaluation of a procedure-based scoring for hands-on

science assessment Journal of Educational Measurement 29(1)

1-17

97

Baxter G P Shavelson R J Herman S J Brown K A amp Valadez

J R(1993) Mathematics performance as sessment technical

quality and diverse student impact Journal for Research in

Mathematics Education 24(3) 1990-216

Dunbar S B Koretz DM amp Hoover HD(1991) Quality control control

in the development and use performance assessmentApplied

Measurement in Educational 4(4) 289-303

Frechtling J A (1991) Performance assessment Moonstruck or the real

thing Educational Measurement Issues and Practice 10(4)

23-25

Haertel EH and Linn RL (1996) ldquoComparability in GW Philips

(Ed) Technical Issues in Large-Scale Performance Assessment

Washington DC National Center for Education Statistics

Harmon M amp KellyTA(1996) Development and Design of the TIMSS

performance Assessment In MartinMO and Kelly

DL(eds)Third International Mathematics and Science Study

(TIMSS) Technical Report Volume I Design andd Development

Chestnut Hill MABoston College

Herman JL Aschbacher PR amp Winters L(1990 November) Issues in

developing alternative assessments Paper presented at the

annual meeting of the California Educational Research

Association Chicago

98

Mullis IVS Martin MO Gonzalez EJ Chrostowski SJ(2005)

TIMSS 2003 International Mathematics Report

httptimssbcedutimss2003imathDhtml p31-p47

Linn RL(1993) Educational assessment Expanded expectations and

challenges Educational Evaluation and Policy Analysis 15(1)

1-16

Linn RL Bader EL amp Dunbar SB(1991) Complex Performemce-based

assessmentexpectations and validation criteria Educational

Researcher 20(8) 1521

Linn RL (2000) Assessments and accountability Educational Researcher

29(2) 4-16

Long C amp Stansbury K (1994) Performance assessment for beginning

teachers Phi Delta Kappan76318-322

Messick S (1994) The interplay of evidence and consequences in the

validation of performance assessments Educational Researcher

23(2) 13-23

Messick S (1995) Standards of validity and the validity of standards

in performance assessment Educational Measurement Issues and

Practice 14(4) 5-8

Martin MOMullis IVSChrostowski SJ(2005)TIMSS 2003 Technical

Report httptimssbcedutimss2003itechnicalDhtml

Martin MO(2005) TIMSS 2003 User Guide for the International Database

99

httptimssbcedutimss2003itechnicalDhtml

Miller M D amp Linn R L (2000) Validity of performance-based

assessments Applied Psychological Measurement 24(4) 367-378

Moss P (1994) Can there be validity without reliability Educational

Researcher 23 (2) 5-12

Mullis IVS Martin MO amp Foy P (2005) IEAs TIMSS 2003

International Report on Achievement in the Mathematics Cognitive

Domains httptimssbcedutimss2003imcgdmhtmlp15-p36

Roid G H amp Haladyna T M (1982) A technology for test-item writing

Orlando FL Academic Press

Ruiz-Primo M A Baxter G P amp Shavelson R J(1993) On the stability

of performance assessments Journal of Educational Measurement

30(1) 41-53

Shavelson R J Baxter G P amp Gao X (1993) Sampling variability of

performance assessments Journal of Educational Measurement 30

3215-32

Shavelson R J amp Webb N W (1991) Generalizability theory A primer

Newbury Park CASage

Shepard L A Flexer R J Hiebert E H Marion S F Mayfield

V amp Weston TJ (1996) Effects of introducing classroom

performance assessments on student learning Educational

Measurement Issues and Practice 15(3) 7-18

100

Schmidt W H Jorde D Cogan L Barrier E Gonzalo I Moser U

Shimizu K Sawada T Valverde G Prawat R Mcknight C

Raizen S Britton E Wiley D amp Wolfe R (1996)

Characterizing pedagogical flow An investigation of

mathematics and science teaching in six countries Hinglham

MAKluwer

Silver E A (1993) On mathematical problem posing In N Nohda amp F L

Lin (Eds) Proceedings of the Seventeenth Annual Meeting of the

International Group for the Psychology of Mathematics Education

Vol 1 (pp 66-85) Tsukuba Japan Author

Stiggins R J (1994) Stundent-centered classroom assessment New York

MerrillMacmillan

Stiggins R J (1987) Design and development of performance assessment

Educational Measurement Issues and Practice 6(3)33-42

Telese J A amp Kulm G (1995) Performance-based assessment of at-risk

students in mathematics The effects of context and setting

Paper presented at Annual Meeting of the American Educational

Research Association (ERIC Document Reproduction Service No

ED 382 685)

TIMSS (1997) Performance Assessment in IEAs Third International

Mathematics And Science Study Chestnut Hill MABoston

College

Webb G (1992) On pretexts for higher education development activities

101

Higher Education 24 (3) pp351-61

Wiggins G(1998) Educative assessment Designing assessments to inform

and improve student performance San Francisco California

Jossey-Bass

102

附錄

附錄一TIMSS 2003 參與的國家

Argentina

Armenia

Australia

Bahrain

Belgium (Flemish)

Botswana

Bulgaria

Chile

Chinese Taipei

Cyprus

Egypt

England

Estonia

Ghana

Hong Kong SAR

Hungary

Indonesia

Iran Islamic Republic of Israel

Italy

Japan

Jordan

Korea Republic of Latvia

Lebanon

Lithuania

Macedonia Republic of Malaysia

Moldova

Morocco

Netherlands

New Zealand

Norway

Palestinian National Authority

Philippines

Romania

Russian Federation

Saudi Arabia

Scotland

Serbia

Singapore

Slovak Republic

Slovenia

South Africa

Sweden

Syrian Arab Republic

Tunisia

United States

Yemen Republic of

103

附錄二題目

一猜一猜

媽媽有一個裝滿豆子的密封罐有一天媽媽將豆子分別倒在 9個碗中前 4個

碗中豆子的數量分別是 29313128 個

1 請你猜一猜罐子中大約有幾個豆子

2把你的想法寫出來

二魔術師

一 材料9張紙剪刀一個信封

二你的工作

1 將紙對摺一次或一次以上並剪掉部分的紙使紙的形狀符合題目所給的

形狀

2 每張紙摺疊的次數和形狀隨你喜歡但只能剪一次

【第一題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後

做出如圖一的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

【第二題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後做出如

圖二的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

(在每張你使用過的紙寫上 1和名字)

104

(圖二)

【第三題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後做出如圖三

的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

(圖三)

三擲骰子

一材料一個骰子搖杯

二你的工作

當我們用一個規則來改變骰子擲出來的數字你發現了什麼

改變數字的規則是

當骰子擲出的數字是奇數時減 1並記下結果

當骰子擲出的數字是偶數時加 2並記下結果

1 在下列表中已經示範了兩個例子給你看使用這個規則並找其他

改變後的數字完成這個表格

(在每張你使用過的紙寫上 2和名字)

(在每張你使用過的紙寫上 3和名字)

105

骰子的數字 改變後的數字

2

6

2 看看你所紀錄的「改變後的數字」你發現了什麼

3 擲骰子 30 次並使用規則去改變每次所擲的數字將它紀錄下來

寫在下列的表格中

106

骰子的數字 改變後的數字 骰子的數字 改變後的數字

4將表 3中各個改變後數字出現的次數記在下表中

改變後的數字 次數

0

1

2

3

4

5

6

7

8

5a哪一個數字是你紀錄次數最多的

107

5b為什麼會這樣請寫出你的看法

四幾何方塊

在這一大題你會拿到一張紙板紙板上有10 張小卡片(如下圖)請將這些

正方形卡片分開若你沒有拿到紙卡請舉手

甲利用2 張黑白相間方塊拼出一個較大的黑色三角形並將您的拼法塗在下面

指定的區域

在這裡用斜線塗出

您拼出的黑色三角形

3 個白色方塊

4 張黑白相間方塊

3 個黑色方塊

108

乙利用4 張黑白相間方塊拼出一個黑色的正方形並將您的拼法塗在下面指定

的區域

在這裡用斜線塗出

您拼出的黑色正方形

丙在第乙題中塗黑色的部分佔了全部的幾分之幾

作出分數

甲不准使用黑白相間方塊將4 張方塊拼出一個正方形使得黑色的部分佔

21

並將您的拼法塗在下面指定的區域

在這裡用斜線塗出

您拼出的黑色部分

109

乙請用8 張方塊拼出一個如下圖的長方形使得黑色部分佔

85

並將您的拼法塗在下面指定的區域

在這裡用斜線塗出

您拼出的黑色部分

五圖形題

甲請畫一條直線將這個長方形分成2 個三角形

110

乙請畫一條直線將這個長方形分成2 個長方形

丙請畫兩條直線將這個長方形分成1 個長方形和2 個三角形

丁在下圖的四個三角形中有兩個是形狀相同但大小不同請把這兩個三角形

塗上顏色(線甲乙跟線丙丁平行)

六數字卡

在這部分你將會拿到一張印有 0到 9的數字卡如下圖請將這些數字卡

取下來

甲 乙

1 2

3

4

111

總和為ldquo20的數字遊戲

小杰與小明這兩個小孩正在玩一個ldquo總和為 20的遊戲其規則如下

總和為ldquo20的規則

(1)抽數字卡每一個人抽出三張數字卡

(2)加數字卡每一個人利用這三張數字卡做出一個加法問題使得算出

的總和最接近 20 例如假如抽出的數字卡 將數字任意組

合後下面是其中四種可能的方法

+ + + +

5 5 4 6 1 9 +

1 0

15

這時玩家應該選擇 + 4 因為它的總和 19最接近 20

19

小杰和小明開始玩遊戲了小杰抽出了 三張數字卡小明抽

出了 三張數字卡

(1)小杰要如何安排三張數字卡做出一個加法問題才能讓它的總和為最

接近 20記得要寫總和

0 1 2 3 4

5 6 7 8 9

1 4 5

1

4

5 1

4

5

1

4 51

4

5

972

6 3 1

112

(2)小明要如何安排三張數字卡做出一個加法問題才能讓它的總和最接

近 20記得要寫總和

(3)小明說假如我抽到 我可以用兩種方法做出總和 20

請告訴我們小明用哪兩種方法可以使 做出總和 20

第一種方法

第二種方法

找出最大的數

小杰和小明利用數字卡玩另一個新的遊戲就是利用三張數字卡做出最

大的數

甲將 三張數字卡填入下列的格子內讓相加的結果為最大

乙將 三張數字填入下列的格子內讓相減的結果為最大

丙將 三張數字卡填入下列的格子內讓相乘的結果為最大

times

1 4 6

1 4 6

9 5 1

+

-

2 3 7

1 4 5

113

附錄三給老師的話

題目猜一猜

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說

明如下

題目預測的能力

測量學生在生活情境中了解概數意義的能力

實施時間

20 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意讓同學清楚的知道這份試卷要他們

做的是什麼

評量結束後收回試紙

注意要點

請老師先做一次示範給學生看完之後再讓學生作答

請老師提醒學生計算完後要記得將他們為什麼要這樣做的原因寫清楚

評分標準

等級 5 算出前 4碗豆子的總和再乘以 2再加上一個合理的近似值或使用估

計或平均值找出每一碗豆子的近似值再乘以 9

等級 4 合理的估計其他各碗的豆子數量並算出總和

等級 3 推測出大部分合理少部分不合理的估計值並算出總和

等級 2 推論出一個杯子約有 30 個但未算出總和

等級 1 將已知碗的數量變成一組模式將此模式推論至其他碗不一定剛好總

114

和為 10 個碗

等級 0 未作答或不知所云

題目幾何方塊

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說

明如下

題目預測的能力

這是一種包含幾何跟數與量的題目其中幾何的部份是要求學生建立一個二

維圖形並滿足題目的要求(數與量)

實施時間

30 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意讓同學清楚的知道這份試卷要他們

做的是什麼

評量結束後收回試紙

注意要點

請老師提醒學生答案是用鉛筆塗在指定的區域並且不可以超過格線並不是將

紙卡貼在題目上要注意

請老師提醒學生撕紙卡要小心務必要使用剪刀或直尺沿著線撕

評分標準

115

給分範圍1分

給分範圍0分

(1)雖然使用 2塊黑白相間方塊組合但卻變成 2個小三角形而不是組合成 1

個大三角形

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

給分範圍1分

給分範圍0分

(1)雖然使用 4塊黑白相間方塊組合但卻不是組合成 1個大的黑色正方形

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

116

給分範圍1分

(1) 21

或是它的等值分數

(2)乙题雖然畫錯但此題答案正確

給分範圍0分

(1) 41

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

做出分數

給分範圍1分

由 2塊白色跟 2塊黑色組合成請看下面的例子

給分範圍0分

(1)雖然得出 21但是使用黑白相間的方塊

(2)畫出黑色的部份佔 41

117

(3)畫出黑色的部份佔 43

(4)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(5)完全空白

給分範圍2分

任何使用 3塊黑色的方塊1塊白色的方塊和 4塊黑白相間的方塊的組合圖形

給分範圍1分

塗出 85的答案但不是使用正確的方塊組合

給分範圍0分

(1)塗出 21

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

題目魔術師

118

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生對稱的觀念空間關係及解決非例行問題的能力

施測時間

30 分鐘

實施步驟

1 發試紙和所需材料

2 題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的

知道這份試卷要他們做的是什麼

3 評量結束試紙及材料

注意要點

1請老師提醒學生每張紙只能直直的剪一次不可改變方向且要記得在紙上寫

編號和名字

評分標準

第一題1在紙上只剪一次

2有兩條正確的摺線

給分範圍2

第二題1在紙上只剪一次

2 有兩條正確的摺線

給分範圍2

第三題同上兩題

119

題目圖形題

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生二維空間的分割的觀念了解學生能否透過操作直尺或三角板在二維

空間上剪裁出指定的基本圖型並利用直觀的方式指出形狀相同但大小不同的三

角形

施測時間

30 分鐘

實施步驟

1 發試紙

2 題目解說實施評量前請老師加以說明題意讓學生清楚的知道這份試卷要他

們做的是什麼

3 評量結束收回試紙

評分標準

甲給分範圍1分

正確的畫一條對角線將長方形分成 2個三角形

給分範圍0分

(1)有畫出一條橫線或垂直線但不是畫出精確的對角線

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的

回答)

(3)完全空白

乙給分範圍1分

120

正確的畫一條橫線或垂直線將長方形分成 2個長方形

給分範圍0分

(1)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回

答)

(2)完全空白

丙給分範圍1分

正確的畫兩條線將長方形分成 1個較小的長方形跟兩個三角形

給分範圍0分

(1)有畫出兩條線但沒有將長方形分割成兩個較小的長方形或有分割成

兩個較小的長方形卻沒有在其中之ㄧ上畫出精確的對角線

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(3)完全空白

丁給分範圍1分

在三角形 3跟三角形 4上塗上顏色

給分範圍0分

(1)在三角形 1跟三角形 2上塗上顏色

(2)在三角形 2跟三角形 4上塗上顏色在三角形 1跟三角形 3上塗上顏色

在三角形 1跟三角形 4上塗上顏色在三角形 2跟三角形 3上塗上顏色

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

121

題目數字卡

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生計算的規則與策略及對數字的觀念並能運用所學過的概念於計算策

略上

施測時間

30 分鐘

實施步驟

1 發試紙和所需材料

2 題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的

知道這份試卷要他們做的是什麼

3 評量結束試紙及材料

評分標準

總和為 20 的數字遊戲

甲給分範圍1分

(1)寫出 2+7+9=18

(2)沒有任何算式但有答案是 18 者

給分範圍0分

(1)有寫出算式 2+7+9 但沒有答案 18 出現

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的

回答)

(3)完全空白

122

乙給分範圍1分

(1)13+6=19 或 16+3=19

(2)沒有任何算式但有答案是 19 者

給分範圍0分

(1)有寫出算式 13+6 或 16+3 但沒有答案 19 出現

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回

答)

(3)完全空白

丙給分範圍2分

兩種方法都正確(16+4 和 14+6)

給分範圍1分

只有寫出其中一種方法(16+4 或 14+6)

給分範圍0分

(1)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(2)完全空白

找出最大的數

甲給分範圍1分

91+5 或 95+1

給分範圍0分

(1)將 159擺在任何其他不正確的位置

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(3)完全空白

123

乙給分範圍1分

73-2

給分範圍0分

(1)72-3

(2)將 237擺在任何其他不正確的位置

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

丙給分範圍1分

41times5

給分範圍0分

(1)51times4

(2)將 145擺在任何其他不正確的位置

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

題目擲骰子

親愛的老師

您好感謝您參與此次數學科學實作評量的研究關於此次施測的注意事項說明

如下

題目欲測的能力

測量學生對於任意數字計算紀錄和分析的能力以及辨識並解釋記錄資料

的結果

施測時間

124

30 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的知

道這份試卷要他們做的是什麼

評量結束後收回試紙及材料

評分標準

第一題正確的計算出(042648)

給分範圍2

第二題1描述的類型與資料一致

2形式可以是一個或多個以下的情形所有的數字都是偶數數字

的範圍從 0~84 出現 2次數字排列有規則如+4-2+4-2

給分範圍1

第三題1至少完成 25 次擲骰子的紀錄

2正確的計算

給分範圍2

第四題統計的次數與第三題的資料一致

給分範圍2

第 5a 題答案與資料一致

給分範圍1

第 5b 題對觀察的數字提供合理的解釋

給分範圍1

125

附錄四分析資料補充

附錄四表格中以數字 1代表新加坡數字 2代表香港數字 3代表日本數字

4代表台灣 2003 年原始資料數字 5代表比利時數字 6代表美國數字 7代表

施測學校

一圖形題補充

表附錄 4-1-1 圖形題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 187 0 32 0 64 0 50 新加

坡甲 1 916

香港

甲 1 725

日本

甲 1 703

台灣

甲 1 726

得分 次數 得分 次數 得分 次數 得分 次數

0 69 0 9 0 75 0 39 新加

坡乙 1 1034

香港

乙 1 748

日本

乙 1 692

台灣

乙 1 737

得分 次數 得分 次數 得分 次數 得分 次數

0 329 0 107 0 196 0 119新加

坡丙 1 774

香港

丙 1 650

日本

丙 1 571

台灣

丙 1 657

得分 次數 得分 次數 得分 次數 得分 次數

0 424 0 386 0 281 0 267新加

坡丁 1 679

香港

丁 1 371

日本

丁 1 486

台灣

丁 1 509

得分 次數 得分 次數 得分 次數

0 130 0 447 0 8 比利

時甲 1 649

美國

甲 1 1189

施測

甲 1 113

得分 次數 得分 次數 得分 次數

0 69 0 201 0 5 比利

時乙 1 710

美國

乙 1 1435

施測

乙 1 116

得分 次數 得分 次數 得分 次數

0 386 0 1100 0 21 比利

時丙 1 393

美國

丙 1 536

施測

丙 1 100

得分 次數 得分 次數 得分 次數

0 386 0 732 0 27 比利

時丁 1 393

美國

丁 1 904

施測

丁 1 94

126

表附錄 4-1-1(續) 圖形題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 44 0 6 0 31 0 17

1 75 1 17 1 44 1 20

2 137 2 64 2 64 2 45

3 334 3 331 3 232 3 257

新加

坡總

4 513

香港

總分

4 339

日本

總分

4 396

台灣

總分

4 437

得分 次數 得分 次數 得分 次數

0 36 0 114 0 0

1 72 1 243 1 5

2 176 2 389 2 5

3 259 3 517 3 36

比利

總分

4 236

美國

總分

4 373

施測

總分

4 75

表附錄 4-1-2 圖形題各國事後分析表

圖形題甲 圖形題乙

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0130 0000 1 2 -0051 0013

3 -0086 0000 3 0035 0247

4 -0110 0000 4 -0012 0987

5 -0003 1000 5 0026 0631

6 0100 0000 6 0060 0000

2 3 0041 0514 2 3 0086 0000

2 4 0022 0958 4 0038 0244

5 0120 0000 5 0077 0000

6 0230 0000 6 0110 0000

3 4 -0019 0980 3 4 -0048 0057

5 0083 0001 5 -0009 0998

6 0190 0000 6 0025 0594

4 5 0100 0000 4 5 0038 0237

6 0210 0000 6 0073 0000

5 6 0110 0000 5 6 0034 0190

127

表附錄 4-1-2(續) 圖形題各國事後分析表

圖形題丙 圖形題丁

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0160 0000 1 2 0130 0000

3 -0043 0637 3 -0018 0996

4 -0140 0000 4 -0040 0798

5 0200 0000 5 0110 0001

6 0370 0000 6 0063 0092

2 3 0110 0000 2 3 -0140 0000

2 4 0012 1000 4 -0170 0000

5 0350 0000 5 -0014 0999

6 0530 0000 6 -0063 0209

3 4 -0100 0002 3 4 -0022 0992

5 0240 0000 5 0130 0000

6 0420 0000 6 0081 0027

4 5 0340 0000 4 5 0150 0000

6 0520 0000 6 0100 0001

5 6 0180 0000 5 6 -0048 0533

圖形題總分

(I) (J) 平均差異 (I-J) p-value

1 2 -0210 0008

3 -0110 0540

4 -0300 0000

5 0330 0000

6 0600 0000

2 3 0098 0778

4 -0093 0812

5 0540 0000

6 0810 0000

3 4 -0190 0051

5 0440 0000

6 0710 0000

4 5 0630 0000

6 0900 0000

5 6 0270 0000

128

二數字卡題型

表附錄 4-2-1 數字卡題各國得分統計表

分數 次數 分數 次數 分數 次數 分數 次數

0 284 0 144 0 128 0 118新加

坡 1 1 277

香港

1 1 239

日本

1 1 234

台灣

1 1 273

分數 次數 分數 次數 分數 次數 分數 次數

0 243 0 177 0 138 0 134新加

坡 2 1 318

香港

2 1 206

日本

2 1 224

台灣

2 1 257

分數 次數 分數 次數 分數 次數 分數 次數

0 171 0 142 0 117 0 111

1 28 1 13 1 30 1 23

新加

坡 3

2 362

香港

3

2 228

日本

3

2 215

台灣

3

2 257

分數 次數 分數 次數 分數 次數 分數 次數

0 161 0 111 0 89 0 138新加

坡 4 1 400

香港

4 1 272

日本

4 1 273

台灣

4 1 253

分數 次數 分數 次數 分數 次數 分數 次數

0 172 0 119 0 95 0 145新加

坡 5 1 389

香港

5 1 264

日本

5 1 267

台灣

5 1 246

分數 次數 分數 次數 分數 次數 分數 次數

0 413 0 290 0 231 0 303新加

坡 6 1 148

香港

6 1 93

日本

6 1 131

台灣

6 1 88

分數 次數 分數 次數 分數 次數

0 207 0 476 0 38 比利

時 1 1 187

美國

1 1 339

施測

1 1 82

分數 次數 分數 次數 分數 次數

0 175 0 442 0 29 比利

時 2 1 219

美國

2 1 373

施測

2 1 91

分數 次數 分數 次數 分數 次數

0 149 0 308 0 14

1 27 1 48 1 11

比利

時 3

2 218

美國

3

2 459

施測

3

2 95

129

表附錄 4-2-1(續) 數字卡題各國得分統計表

分數 次數 分數 次數 分數 次數

0 175 0 380 0 36 比利

時 4 1 219

美國

4 1 435

施測

4 1 84

分數 次數 分數 次數 分數 次數

0 179 0 410 0 38 比利

時 5 1 215

美國

5 1 405

施測

5 1 82

分數 次數 分數 次數 分數 次數

0 321 0 705 0 94 比利

時 6 1 73

美國

6 1 110

施測

6 1 26

分數 次數 分數 次數 分數 次數 分數 次數

0 64 0 38 0 21 0 37

1 39 1 25 1 23 1 33

2 62 2 36 2 35 2 21

3 40 3 50 3 44 3 44

4 60 4 49 4 34 4 41

5 87 5 51 5 59 5 60

6 137 6 93 6 89 6 102

新加

坡總

7 72

香港

總分

7 41

日本

總分

7 57

台灣

總分

7 53

分數 次數 分數 次數 分數 次數

0 31 0 135 0 5

1 48 1 94 1 5

2 49 2 98 2 9

3 67 3 101 3 9

4 61 4 114 4 16

5 63 5 101 5 20

6 55 6 130 6 40

比利

時總

7 20

美國

總分

7 42

施測

總分

7 16

130

表附錄 4-2-2 數字卡題各國事後分析表

第一題 第二題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0130 0013 1 2 0029 0992

3 -0153 0001 3 -0052 0873

4 -0204 0000 4 -0090 0252

5 0019 0999 5 0011 1000

6 0078 0206 6 0109 0012

2 3 -0022 0999 2 3 -0081 0537

4 -0074 0612 4 -0119 0076

5 0149 0006 5 -0018 1000

6 0208 0000 6 0080 0326

3 4 -0052 0908 3 4 -0039 0979

5 0172 0001 5 0063 0796

6 0231 0000 6 0161 0000

4 5 0224 0000 4 5 0102 0212

6 0282 0000 6 0200 0000

5 6 0059 0697 5 6 0098 0101

第三題 第四題

1 2 0116 0734 1 2 0003 1000

3 0070 0974 3 -0041 0948

4 -0033 1000 4 0066 0612

5 0165 0287 5 0157 0000

6 0155 0156 6 0179 0000

2 3 -0046 0998 2 3 -0044 0952

4 -0149 0543 4 0063 0751

5 0049 0997 5 0154 0002

6 0039 0998 6 0176 0000

3 4 -0103 0889 3 4 0107 0141

5 0096 0918 5 0198 0000

6 0085 0907 6 0220 0000

4 5 0198 0174 4 5 0091 0294

6 0188 0091 6 0113 0019

5 6 -0010 1000 5 6 0022 0997

131

表附錄 4-2-2(續) 數字卡題各國事後分析表

第五題 第六題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0004 1000 1 2 0021 0996

3 -0044 0931 3 -0098 0050

4 0064 0655 4 0039 0914

5 0148 0001 5 0079 0203

6 0197 0000 6 0129 0000

2 3 -0048 0929 2 3 -0119 0015

4 0060 0801 4 0018 0999

5 0144 0008 5 0058 0699

6 0192 0000 6 0108 0006

3 4 0108 0140 3 4 0137 0002

5 0192 0000 5 0177 0000

6 0241 0000 6 0227 0000

4 5 0083 0425 4 5 0040 0933

6 0132 0003 6 0090 0047

5 6 0049 0838 5 6 0050 0675

數字卡總分

1 2 0043 1000

3 -0318 0582

4 -0159 0975

5 0579 0012

6 0847 4850

2 3 -0361 0529

4 -0201 0948

5 0536 0067

6 0804 0000

3 4 0159 0985

5 0897 0000

6 1165 0000

4 5 0738 0001

6 1006 0000

5 6 0268 0673

132

三幾何方塊題型

表附錄 4-3-1 幾何方塊題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 633 0 303 0 165 0 322新加

坡甲 1 482

香港

甲 1 458

日本

甲 1 604

台灣

甲 1 445

得分 次數 得分 次數 得分 次數 得分 次數

0 617 0 403 0 218 0 348新加

坡乙 1 499

香港

乙 1 358

日本

乙 1 551

台灣

乙 1 419

得分 次數 得分 次數 得分 次數 得分 次數

0 312 0 227 0 341 0 297新加

坡丙 1 804

香港

丙 1 534

日本

丙 1 428

台灣

丙 1 470

得分 次數 得分 次數 得分 次數 得分 次數

0 494 0 429 0 425 0 519新加

坡丁 1 622

香港

丁 1 332

日本

丁 1 344

台灣

丁 1 248

得分 次數 得分 次數 得分 次數 得分 次數

0 385 0 352 0 291 0 407

1 603 1 359 1 374 1 297

新加

坡戊

2 128

香港

2 50

日本

2 104

台灣

2 63

得分 次數 得分 次數 得分 次數

0 372 0 985 0 6 比利

時甲 1 398

美國

甲 1 655

施測

甲 1 113

得分 次數 得分 次數 得分 次數

0 348 0 976 0 13 比利

時乙 1 422

美國

乙 1 664

施測

乙 1 106

得分 次數 得分 次數 得分 次數

0 437 0 884 0 30 比利

時丙 1 333

美國

丙 1 756

施測

丙 1 89

得分 次數 得分 次數 得分 次數

0 373 0 908 0 23 比利

時丁 1 397

美國

丁 1 732

施測

丁 1 96

133

表附錄 4-3-1(續) 幾何方塊題各國得分統計表

得分 次數 得分 次數 得分 次數

0 335 0 754 0 29

1 340 1 762 1 57

比利

時戊

2 95

美國

2 124

施測

2 33

得分 次數 得分 次數 得分 次數 得分 次數

0 141 0 86 0 52 0 115

1 126 1 83 1 78 1 111

2 167 2 128 2 122 2 121

3 257 3 205 3 157 3 183

4 178 4 143 4 153 4 123

5 153 5 81 5 138 5 73

新加

坡總

6 93

香港

總分

6 35

日本

總分

6 69

台灣

總分

6 41

得分 次數 得分 次數 得分 次數

0 100 0 331 0 1

1 101 1 250 1 1

2 154 2 317 2 5

3 164 3 300 3 22

4 127 4 246 4 26

5 73 5 127 5 38

比利

時總

6 51

美國

總分

6 69

施測

總分

6 26

134

表附錄 4-3-2 幾何方塊題各國事後分析表

第一題 第二題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0170 0000 1 2 -0023 0984

3 -0350 0000 3 -0270 0000

4 -0150 0000 4 -0099 0005

5 -0085 0028 5 -0100 0003

6 0033 0793 6 0042 0545

2 3 -0180 0000 2 3 -0250 0000

4 0022 0993 4 -0076 0160

5 0085 0062 5 -0078 0138

6 0200 0000 6 0066 0152

3 4 0210 0000 3 4 0170 0000

5 0270 0000 5 0170 0000

6 0390 0000 6 0310 0000

4 5 0063 0350 4 5 -0002 1000

6 0180 0000 6 0140 0000

5 6 0120 0000 5 6 0140 0000

第三題 第四題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0019 0995 1 2 0120 0000

3 0160 0000 3 0110 0001

4 0110 0001 4 0230 0000

5 0290 0000 5 0042 0773

6 0260 0000 6 0110 0000

2 3 0150 0000 2 3 -0011 1000

4 0089 0043 4 0110 0003

5 0270 0000 5 -0079 0127

6 0240 0000 6 -0010 1000

3 4 -0056 0514 3 4 0120 0000

5 0120 0000 5 -0068 0285

6 0096 0002 6 0001 1000

4 5 0180 0000 4 5 -0190 0000

6 0150 0000 6 -0120 0000

5 6 -0029 0934 5 6 0069 0110

135

表附錄 4-3-2(續) 幾何方塊題各國事後分析表

第五題 總分

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0170 0000 1 2 0120 0913

3 0013 1000 3 -0330 0008

4 0220 0000 4 0320 0017

5 0081 0294 5 0230 0233

6 0150 0000 6 0600 0000

2 3 -0150 0001 2 3 -0450 0000

4 0052 0872 4 0200 0521

5 -0085 0348 5 0110 0949

6 -0013 1000 6 0490 0000

3 4 0210 0000 3 4 0650 0000

5 0069 0627 5 0560 0000

6 0140 0000 6 0940 0000

4 5 -0140 0008 4 5 -0087 0986

6 -0064 0514 6 0290 0023

5 6 0073 0354 5 6 0370 0000

Page 3: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較

I

摘要 本研究旨在運用TIMSS實作評量的試題探討特定環境背景的國小四年級兒童

之學習成就與施測結果之比較是以本研究主要探討

一 特定環境背景的國小四年級兒童對TIMSS 1999實作評量的成績有何差

二 特定環境背景的國小四年級兒童對TIMSS 2003的實作評量試題的成

績在性別及班級間是否有差異

三 特定環境背景的國小四年級兒童對TIMSS 2003 的實作評量試題的成

績與台灣原始施測資料中的成績是否有差異

四 特定環境背景的台灣國小四年級兒童對TIMSS 2003 的實作評量之學習

成就與國際間是否有差異

本研究基於立意取樣故採臺中縣城鄉交界的國小四年級兒童共4班127

人為研究對象研究發現

一 在魔術師題型上民國95年的結果較佳在擲骰子題型上是民國89年

的結果較佳在猜一猜題型上民國89年的結果較佳此結果顯示在

幾何概念的對稱觀念上民國95年的學生有較佳的表現但在統計觀

念及概數觀念上民國89年的學生表現較佳

二 TIMSS實作評量在性別及班級之間沒有顯著差異

三 在圖形題題型上與台灣西元2003年施測結果沒有達到顯著差異在

數字卡題型上與台灣西元2003年施測結果沒有達到顯著差異在幾

何方塊題型上與台灣西元2003年施測結果達到顯著差異

四 在圖形題題型上我國優於新加坡比利時及美國在數字卡題型上

我國優於比利時美國在幾何方塊題型上我國優於新加坡香港

日本比利時美國

關鍵字TIMSS實作評量性別

II

III

Abstract

This study aims at using TIMSS to look into the performance assessment

of fourth-grade elementary students with a specific environmental

background Our purpose is to investigate the following questions

1 What are the variations of the test results between year 2000 and

2006 on TIMSS 1999

2 Are there discrepancies in regard to gender and class on TIMSS 2003

3 Are there differences between the result of fourth-grade elementary

students with a specific environmental background and the national

data on TIMSS 2003

4 Are there distinctions between the result of fourth-grade elementary

students with a certain environmental background and the

international data on TIMSS 2003

Using selective-sampling method this study chose its 127 fourth-grade

subjects from four classes in a school at the urban-rural line of

Taichung County We found that

1 The subjects showed better performance on the ldquoMagician questions

but poorer on the ldquoDice Throwing and ldquoGuessing questions

than a comparative group in 2000 This finding indicated that

students of year 2006 had a better idea of geometry yet students

of year 2000 demonstrated better comprehension in statistics and

approximate numbers

2 There was no significant difference between genders or classes

3 No differences were found on the ldquoFigure questions or

ldquoNumber-card questions between the subjects and 2003 mother

IV

group However the outcome on the ldquoGeometrical Square

questions reached significance than that of 2003 mother group

4 On the ldquoFigure questions our students performed better than

those of Singapore Belgium and USA On the ldquoNumber-card questions

they were superior to those of Belgium and USA On the ldquoGeometrical

Square questions they displayed better abilities than those of Singapore

Hong Kong Japan Belgium as well as USA

KeywordTIMSSperformance assessmentgender

V

目 錄

第一章 緒論

第一節 研究動機1

第二節 待答問題5

第三節 名詞釋義5

第四節 研究限制7

第二章 文獻探討

第一節 實作評量8

第二節 第三次國際數學與科學教育成就研究 25

第三節 TIMSS試題與國內數學課程關係之分析34

第三章 方法與步驟

第一節 研究架構40

第二節 研究工具發展40

第三節 研究的信效度與實作評量的試題架構47

第四章 結果與討論

第一節 利用TIMSS 1999實作評量試題比較民國89年跟民國95年的成績差

異49

第二節 利用TIMSS 2003實作評量試題檢視施測學校在性別及班級間是否

存在差異60

VI

第三節 利用TIMSS 2003實作評量試題比較施測學校與原始施測資料的成

績差異65

第四節 實作評量試題的類推性84

第五章 結論

第一節 結論88

第二節 建議90

參考文獻

壹 中文部分92

貳 英文部分96

附錄

附錄一 TIMSS 2003參與的國家102

附錄二 題目103

附錄三 給老師的話113

附錄四 分析資料補充125

VII

表目錄

表 2-1-1 實作評量與紙筆測驗的比較17

表 2-1-2 各種評量類型的比較18

表 2-2-1 TIMSS 2003課程架構27

表 2-2-2 維京評分系統28

表 3-3-1 試題架構48

表 4-1-1 95年魔術師題組得分情形分配表50

表 4-1-2 89年魔術師題組得分情形分配表50

表 4-1-3 魔術師ㄧ獨立樣本t 檢定51

表 4-1-4 魔術師二獨立樣本t 檢定52

表 4-1-5 魔術師三獨立樣本t 檢定52

表 4-1-6 95年擲骰子題組得分情形分配表53

表 4-1-7 89年擲骰子題組得分情形分配表54

表 4-1-8 擲骰子一獨立樣本t 檢定55

表 4-1-9 擲骰子二獨立樣本t 檢定55

表 4-1-10 擲骰子三獨立樣本t 檢定56

表 4-1-11 擲骰子四獨立樣本t 檢定56

表 4-1-12 擲骰子五 a獨立樣本t 檢定57

表 4-1-13 擲骰子五 b獨立樣本t 檢定57

VIII

表 4-1-14 95年猜一猜題組得分情形分配表58

表 4-1-15 89年擲骰子題組得分情形分配表58

表 4-1-16 猜一猜資料統計59

表 4-1-17 猜一猜獨立樣本t 檢定59

表 4-2-1 各題型之相關係數61

表 4-2-2 班級對總分之變異數分析62

表 4-2-3 性別對總分之組別統計量與t檢定表62

表 4-2-4 性別對各題之組別統計量與t檢定表63

表 4-3-1 95 年圖形題題組得分情形分配表66

表 4-3-2 圖形題百分比同質性檢定66

表 4-3-3 圖形題題組各國答對率的比較67

表 4-3-4 圖形題各題之資料統整68

表 4-3-5 圖形題各題之變異數分析69

表 4-3-6 圖形題各題之事後比較70

表 4-3-7 圖形題總分變異數分析的結果71

表 4-3-8 圖形題總分事後分析72

表 4-3-9 95年數字卡題題組得分情形分配表72

表 4-3-10 數字卡題題組各國答對率的比較73

表 4-3-11 數字卡題各題之變異數分析74

IX

表 4-3-12 數字卡題之事後比較75

表 4-3-13 數字卡題總分變異數分析的結果77

表 4-3-14 數字卡題總分事後分析77

表 4-3-15 95年幾何方塊題題組得分情形分配表78

表 4-3-16 幾何方塊題題組各國答對率的比較78

表 4-3-17 幾何方塊題各題之變異數分析80

表 4-3-18 幾何方塊題各題之事後比較81

表 4-3-19 幾何方塊題總分變異數分析的結果83

表 4-3-20 幾何方塊題總分事後分析83

表 4-4-1 實作評量概化程度變異成分表84

表 4-4-2 G研究與各種D研究之變異成分分析與推論力係數87

表附錄 4-1-1 圖形題各國得分統計表125

表附錄 4-1-2 圖形題各國事後分析表126

表附錄 4-2-1 數字卡題各國得分統計表128

表附錄 4-2-2 數字卡題各國事後分析表130

表附錄 4-3-1 幾何方塊題各國得分統計表132

表附錄 4-3-2 幾何方塊題各國事後分析表134

X

圖目錄

圖 2-2-1 1995年到2003年4年級學生的數學趨勢31

圖 2-2-2 4年級學生在男女性別上的差異33

圖 2-2-3 1995 到2003年的男女生進退步情形34

圖 4-1-1 百分比圖表比較結果51

圖 4-1-2 百分比圖表比較結果54

圖 4-1-3 百分比圖表比較結果59

圖 4-3-1 圖形題題組答對率之比較圖67

圖 4-3-2 數字卡題題組答對率之比較圖73

圖 4-3-3 幾何方塊題題組答對率之比較圖79

1

第一章 緒論

本研究主題是利用 TIMSS 1999 跟 TIMSS 2003 的公開實作評量試題為測驗工

具比較探討台灣學生在這方面的進退步情形本章節將說明本研究的研究動機

與目的問題和研究中所用的特定名詞

第一節 研究動機 從民國八十二年民間團體發起了 410 教改大遊行迄今此波教育改革歷時 12

年最近因為中央研究院李遠哲院長在立法院接受立委質詢時對教育改革因為

沒有減少學生的壓力而公開道歉(中時電子報 2005)又引起了一陣教改失敗

的言論其實改革是多面向的學生的壓力固然是改革的重點但學生的程度更

是我們所關心的畢竟學生的程度關係著下一代的競爭力所以在國民中小學九

年一貫課程綱要(教育部民 92)中特別提到迎接二十一世紀的來臨與世界各

國之教改脈動政府必須致力教育改革期以整體提升國民之素質及國家競爭

力所以改革是為了回應社會期待以及國家發展的需求基於此項認知由中

央研究院國科會和教育部共同規劃的「台灣地區教育長期追蹤資料庫」(Taiwan

Education Panel Survey簡稱 TEPS)預計用六個學年國中樣本從 2001 年 9

月開始高中樣本分成 2001 年下半年和 2003 年上半年進行兩個梯次的資料收

集主要研究團隊包括六位中研院全職研究人員投入大量的時間與精力以及多

位大學相關領域之研究者積極參與可見這項工程的浩大與重要所以本研究主

要為利用一份已發展成且具有信效度及良好試題特性的國小數學實作評量題目

來進行施測其結果除了跟民國 89 年研究者徐美英的結果相互比較學生程度差

別外並為後續研究者提供相互比較的基準

國際教育成就調查委員會 (The International Association for the

Evaluation of Educational Achievement簡稱 IEA) 主辦的「國際數學與科

學教育成就趨勢調查」(Trends in Mathematics and Science Study 2003簡

2

稱 TIMSS 2003)是自 1995 年以來第三次主辦連續週期性調查學生的數學和科學

成就主要目的在提供各國長期追蹤學生數學和科學趨勢成就以提升學生數學

和科學的學習成效由此可見學生程度一向是國際重視的課題世界各國尤其

是美國不斷的監測自己國家學生的程度不僅僅與國際上各國進行比較並將

資料建檔也進行縱貫比較另外除了本研究所提的 TIMSS 是針對數學與科學外

還有PIRLS針對語文科進行比較PIRLS目前有2001跟2006年兩年資料而TIMSS

則已經有 199519992003 三年的施測2007 年的施測目前已經開始進行籌劃

TIMSS 2003 以 13 歲群(即國二生)和 9 歲群(即小四生)為調查對象國科會和

教育部體認到未來我國國民在國際上競爭力的重要性希望持續了解我國學生的

學習成就與家庭背景學習環境教師等影響因素的關係以及我國學生的學習

特色與優缺點並與其他國家進行比較提供改進我國中小學數學及科學教育政

策及課程之參考並積極參與國際間科學教育的交流與合作因此補助國立台灣

師範大學科學教育中心進行 TIMSS 2003 調查研究TIMSS 2003 從 2000 年九月

開始發展研究調查相關工作總計有 49 個國家參加其中 48 個國家參加 13 歲

群調查26 個國家參加 9歲群調查我國自 2001 年元月開始加入 TIMSS 2003 國

際調查工作包括提供命題架構意見數學和科學試題命題試測(field test)

資料收集參加專家問卷會議實測(main survey)資料收集參加公佈 TIMSS

2003 結果記者會國際成果指標會議國際資料分析會議等各項工作國內學者

引用 TIMSS 相關資料進行相關研究的有

(1)徐美英TIMSS 數學實作評量在台灣之試用探討(民國 89 年)

(2)洪瑞鎂從「第三次國際數學與科學教育成就研究後續調查」探究台灣國

二學生的數學基本能力(民國 90 年)

(3)洪佳慧由教科書內容與性別面向分析我國國二學生在第三次國際數學與

科學教育成就研究後續調查(TIMSS-R)的學習表現-生命科學以及環境與資源議

題部分(民國 91 年)

(4) 劉佳容我國國二學生在 TIMSS-1999 中之理化學習成就分析(民國 91 年)

3

(5)侯怡如由考試文化的角度分析我國學生在 TIMSS 1999 的答題表現----生

命科學部分(民國 92 年)

(6) 鄭心怡教育指標與經濟指標對學業成就影響之國際比較以 TIMSS 為例

(民國 93 年)

(7)羅珮華從「第三次國際科學與數學教育成就研究後續調查(TIMSS 1999)」

結果探討國中學生學習成就與學生特質的關係七個國家之比較(民國 93 年)

(8)顏秀玫我國小學四年級學生在「2003 年國際數學與科學教育成就趨勢調

查(民國 93 年)

(9)張謝玲宜蘭區某國中國二學生 科學成效影響因子之探討-引用國際調查

報告 TIMSS-R 之研究方法(民國 93 年)

綜觀上述國內學者研究的內容可以發現均重視該年段橫向的比較而缺乏

進行縱貫的研究值此世界各國進行教育大改革之際台灣也難免追隨這波改革

浪潮在課程內容與制度大變動之際學生是否保持原有的程度或甚至更好是

值得我們更加關注在國民中小學九年一貫課程綱要(教育部民 92)中針對

數學科明確提出下列四個原則一 參考施行有年且有穩定基礎的傳統教材

二 採用國際間數學課程必備的核心題材三 考慮數學作為科學工具性的特

質四 現有學生能夠有效學習數學的一般能力具體而言九年一貫數學學

習領域的教學總體目標為

(1) 培養學生的演算能力抽象能力推論能力及溝通能力

(2) 學習應用問題的解題方法

(3) 奠定下一階段的數學基礎

(4) 培養欣賞數學的態度及能力

其中國民小學階段的目標為

(5) 在第一階段(一至三年級)能掌握數量形的概念

(6) 在第二階段(四至五年級)能熟練非負整數的四則與混合計算培養流暢

的數字感

4

(7) 在小學畢業前能熟練小數與分數的四則計算能利用常用數量關係解

決日常生活的問題能認識簡單幾何形體的幾何性質並理解其面積與體積公

式能報讀簡單統計圖形並理解其概念

由以上的課程目標中可以清楚的看出數學課程的改革內容除了參考以往課

程內容之外也參考國際的課程內容進行改革並因為數學具有工具性的性質

具體的指出各階段需要具備的基本能力研究者希望透過已具有信效度及良好試

題特性的國小數學實作評量題目的施測一方面跟國際資料庫進行學生程度的比

較另一方面也跟徐美英TIMSS 數學實作評量在台灣之試用探討(民國 89 年)

在台灣施測的資料進行縱向比較以了解學生在這幾年的教育改革中在國小四

年級這個範圍內透過實作評量的方式評斷出來的能力是否有所差異

徐美英論文中指出其自編試題(猜一猜)學生能夠完整的敘述解釋百分比

僅達 549所以表示台灣學生在以數學語言的溝通上尚待加強而該試題與

TIMSS 試題有一定程度相關的是擲骰子繞過彎道和魔術師所以本研究研究者

打算選取其中 3 題(猜一猜擲骰子魔術師)找跟原論文相似的環境(住宅

跟工業混合區的學校)進行施測將兩項資料進行比較以探討在這樣的環境背

景中的學生經過這 5年的教育改革後對這個範圍內經由實作評量所測出來的

能力是否有所不同另外再從 TIMSS 2003 已公佈的實作評量題目中找出 3

題(幾何方塊數字卡圖形題)進行施測其結果跟國際資料庫進行比較進

一步探討這樣環境下的學生跟原始台灣施測資料中的學生是否有程度上的差

異跟國際上整體表現較好的國家學生的表現比較是否有程度上的差異

本研究測驗題目將從徐美英論文中選取 3 題從 TIMSS 2003 公佈的實作評

量試題中選取 3題並以 TIMSS 對實作評量採取的維京評分系統(又稱建構反應

評分系統Constructed Response簡稱 CR)為評分工具資料用 SPSS 進行分

析比較並以推論力理論推算本次施測的信度係數研究者希望能從施測中獲得

教育改革的成果從實作評量的角度是否是進步的並期待施測的資料能提供

未來需要再做類似研究者的比較基準

5

第二節 待答問題 壹探討特定環境背景的台灣國小四年級學生在民國 89 年與民國 95 年對

TIMSS 1999 實作評量的成績有何差異

貳探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 實作評量的

成績在性別及班級間是否有差異

叁探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 實作評量的

成績與台灣原始施測資料中的學生實作評量成績是否有程度上的差

肆探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 的實作評量

成績與國際上整體表現較好國家的學生實作評量成績是否有程度上

的差異

第三節 名詞釋義

壹實作評量

在教室情境中學生有幾類學習行為及其成就表現是無法用客觀式紙筆測

驗來正確評量出來的這些學習行為表現包括

(1)溝通技能(如說話口語表達演講朗讀寫作等)

(2)心理動作技能(如實驗室內的儀器操作書法打字繪畫工藝烹

飪樂器演奏戲劇表演等)

(3)運動技能(如跑跳直球游泳舞蹈等運動技能)

(4)概念應用(如應用所學的概念和知識解決日常生活所遇到的實際問題)

(5)情意特質(如團隊合作遵守規定自我反省等)

這些都是強調實際的表現行為(actual performance)都需要教師根據學生的

表現過程之有效性或最後完成作品的成果品質分別或合併地進行評分才能決

定學生在這方面學習的成就高低這種強調實際表現行為的評量方式稱為「實

6

作評量」(performance assessment)(余民寧民 93)所謂實作評量就是在自

然或已建構好的環境中要求學生執行或處理(process)一件指定的工作並

由教師觀察或評鑑學生的建構性反應的過程與結果看他們是否適當精確和完

美的達成教學目標(歐滄和民 91)

貳TIMSS

國際數學與科學學習成就調查研究係由國際教育學習成就調查委員會主

持主要目的在於了解各國數學與科學學習成就與各國文化背景教育環境影響

因子之相關性並進一步做國際間之比較研究分析第一次國際數學與科學教育

成就調查於 1970 年舉行共有 19 個國家參與經十年後1980 年進行第二次國

際數學與科學教育成就調查(SIMSS)有 24 個國家參與我國曾於 1987 年 5 月

經 IEA 總部同意引用第二次國際數學與科學教育成就調查工具在我國進行測

驗(但不是正式參加)由國立台灣師範大學科學教育中心負責執行以了解我國

國小國中及高中學生數學及科學成就在國際上所佔的地位IEA 自 1990 年開始

推動進行「第三次國際數學與科學教育成就研究(Third International

Mathematics and Science Study TIMSS)」本計畫有四十餘國參加第三次國

際數學與科學教育成就研究後續調查(稱為 TIMSS REPEATTIMSS-R)於 1999 年

舉辦調查對象為國二學生(13 歲群)共有 38 個國家參加鑒於世界各國對國

際數學與科學教育成就研究的熱烈反應IEA 計劃往後每四年辦理國際數學與科

學教育成就研究一次並改名為國際數學與科學教育成就趨勢調查(Trends in

International Mathematics and Science Study 簡稱 TIMSS )TIMSS 2003

的調查對象包括國小四年級及國中二年級學生TIMSS 的測驗內容包括數學跟科

學並從學生教師和校長們的回答中廣泛地蒐集有關數學跟科學教學與學習資

料另外還經由課程指引教科書和其他教學媒體的分析探討參與國家的數學

7

和科學課程並將結果發表成一系列的國際報告讓參與國家的教育政策制定者

和實務工作者得到有關在數學與科學教學上跟學生學習成就上的珍貴訊息

第四節 研究限制

本研究對於整個計畫的擬定與進行過程中由於在時間上與人力上尚有所不

足的影響以至於對本研究的進行有所限制茲分別就研究工具與分析研究樣

本與應用範圍兩方面說明之

壹研究工具與分析

在 TIMSS 2003 試題部分由於是翻譯試題照理應該經專家學者進行反譯

程序以確保試題的原意未被扭曲但因資源限制所以只經國小專任資深英文

教師與研究者討論而定案

貳研究樣本與應用範圍

因人力與時間的限制只能選擇一間學校來實驗因樣本受限於某一學校

所以本研究的結果與建議限制受限於相同類型的學校

8

第二章 文獻探討

本研究的文獻探討將分成三節第一節為探討實作評量的意涵和特色以及

國內相關實作評量的研究第二節為 TIMSS 的簡介及國外相關的研究第三節為

TIMSS 試題與國內數學課程的分析

第一節 實作評量

壹實作評量的緣起

長久以來多數人將評量窄化為紙筆測驗的考試用考試的成績來論斷一個

人的高下使得評量的目的偏狹方式單調內容枯躁意義盡失再加上過度

倚賴標準化測驗常導致課程窄化且易流於基本技能與片面瑣碎事實的學習忽

視複雜思考和問題解決能力(江文慈民 87詹志禹民 85)簡言之考試第

一分數至上的迷思等於將評量窄化了也扭曲了評量的目的更簡化了評量

的結果事實上考試只是評量的方法之一評量的目的是要提供學生有益的回

饋評量的改革意味著教學與課程發展的改進因此在教育改革中教師要採

用新的評量方式以符合教學的新趨勢評量的意義在於了解學生學習與教師教

學之用其主要的目的是在教育的過程能隨時掌握學生的學習讓教師明白教

學情況藉以發揮教育的效率與效能實作評量受到歡迎的主要原因之一是一

般人對於選擇式的測驗題感到不滿意例如選擇式的測驗題只能測量學生「知

道」什麼但無法測量學生「能做」什麼此外認為以選擇題為主的標準化測

驗對於教師的教學和學生的學習造成一些偏差的影響標準化測驗經常是一般家

長用來評估學校教學績效的方式在績效的壓力之下造成部分教師教學側重於

測驗的內容而扭曲了教學的面貌和窄化學生的學習結果在教育改革的推動

上教育界期望藉著評量的革新來提升教師教學的品質和學生學習的成就此

外一些入學考試和證照考試也在原有的選擇題之外增加建構反應題或實作測

9

驗部分實作評量在教育界和測驗界已是一個非常顯明的趨勢Silver(1993)

認為假如我們沒有將看過或聽過的數學留住那它將永遠不會變成我們的知識

所以實作評量吸引人的地方正在於它讓教師更能洞悉學生的思考並將所得的訊

息直接應用在教育計畫中

實作評量的提倡者主張實際工作的評量模式比紙筆測驗更能充分深入的了

解學生的知識和理解程度(Haertel amp Linn1996)以下將各學者對實作評量

的定義整理概述如下

一以觀察和專業判斷來評量學生學習成就的評量方式都可以稱為實作評量其

型式非常的多元化例如建構反應題書面報告作文演說操作實驗

資料蒐集作品展示等都是實作評量的例子( Stiggins 1987 )

二案卷評量也是實作評量的一種型式實作評量具有下列幾點特徵

(一)要求學生執行或製作一些需要高層思考或問題解決技能的事或物

(二)評量的作業( tasks )是具有意義性挑戰性且與教學活動相結合

(三)評量的作業能與真實生活產生關聯

(四)歷程( process )和作品( product )通常是評量的重點

(五)表現的規準( criteria )和標準( standards)-也就是評量的重

要層面與給分標準要事先確定實作評量有時也被稱為真實性評量

(authentic assessment )( Herman Aschbacher amp Winters 1990 )

三實作評量可視為『以超越傳統評量方式為了解學生熟練度而蒐集資料的一

種評量方式』(DnubarKoretz amp Hoover1991)

四實作評量不僅反應出學生解答的正確性同時也顯現出其得到答案的過程

(Ruiz-primoBaxter amp Shavelson1993)

五實作評量是應用各種評量方式評量各種能力及技巧要求學生展示知識的

應用而非僅展示知識的本身(Long amp Stansbury1994)

六實作評量乃是模擬一些標準情境(亦即是在自然情境下的實作)之測驗其

10

模擬的程度高於一般紙筆測驗所代表者(陳英豪吳裕益民 85)

七實作評量係指根據學生實際完成一項特定任務或工作表現所作的評量這些

任務或工作可能是實際操作口頭報告科學實驗數學解題寫作hellip等

因此其所使用的方式係透過直接的觀察學生表現或間接的從學生作品去

評量(吳清山林天祐民 85)

八凡是以學生在評量過程中的表現或成果作為評量的依據再根據教師的判

斷用事先指定的標準來評定等級的評量方式都可稱之為實作評量(夏

淑琴民 88)

貳實作評量的特色

綜合國內外學者觀點實作評量具有以下特色

一銜接教學與評量教學與評量的密切配合可以對學生的學習情形提供較全面

性的完整的深入的訊息此訊息可以幫助老師更了解學生的學習優勢及

問題掌握學生真正的能力及進步情形使老師能在教學上做適當的調整來

幫助學生解決問題提升其學習水準而惟有重視過程的評量學生才有機

會去反思自己學習上的問題省察如何在學習上求進步而這些也才是真正

的學習

二使學習更有意義更深入強調教學與評量的內容應為重要的完整的概念

而非瑣碎知識的累積應重視思考與問題解決能力的培養而非低層次的記

憶與歸納它的目的在幫助學生獲得完整有意義的概念增進表達技巧及

運用策略的能力並激發學生從事較複雜的深層思考所以實作評量著重脈

絡下有意義的學習在教學與評量的過程中它鼓勵學生主動探索深入思

考並表達學習此種評量方式有助於提升學生的思考及問題解決能力使

學生的學習更有意義更為深入

11

三強調學生知道什麼能做什麼實作評量的重心不在於偵測學生哪裡做錯了

而在於強調學生知道什麼能做什麼及如何再進一步知道得更多做得更

好簡言之其精神是「你會做很多事你還可以學會更多事」對於學生

嘗試去做好某一件事的努力(縱然尚未達到預期的目標)也給予正面的回

饋以學習理論而言較符合學習理論中的公平性或正當性亦即努力是有

收穫的

四強調與實際生活的結合實作評量可以讓教師瞭解學生對問題瞭解程度投

入程度解決的技能和表達自我的能力能夠較完整的反映出學生的學習結

果因為實作評量與真實生活較為相近其支持者認為實作評量能夠增進學

生學習的動機提高學生參與和投入的程度

五幫助學生建構有意義的學習情境發展問題解決能力批判性思考和表達自

我的能力

六有時候實作評量也可以做為一種教學策略提高學生的學習興趣和學習結

果評量和學生的學習以及老師的教學應該是密不可分並且互相支援的評

量的目的是幫助學生學習跟老師教學所以評量應該是自然的融入出現在

課堂而不是強制性的加進課堂上實作評量與實際教學過程有相當密切的

關係往往可以成為實際教學的一部份實作評量本身就是一種有效的教學

活動

七鼓勵合作學習許多文獻顯示合作學習可以提高學生的學習成就增強學

生的理解能力藉由溝通與辯論的過程學生可以重述自己的概念架構和知

識體系以促成有效的概念改變並達到有意義的學習在一個小組合作評

量的情境下藉由同儕的誘導和鼓勵彼此意見的分享並相互進行共同評

量是提高學生成就表現的重要機制

八直接評量排除語文能力的干擾實作評量比較不需要用到語文能力這對

於閱讀或文字表達能力較差的學生而言是比較公平的

12

叁實作評量的目的

Webb(1992)認為一個好的評量應具備四個目的第一個目的是成為教師蒐

集資料的工具透過評量的回饋教師可以知道學生學會多少和能做什麼第二

個目的是要表達學生在學習過程中所做所學的哪些東西是有價值第三個目的

是提供教育決策者一些教學績效之訊息最後的目的評量應該對整個教育體系

提供積極之建議(張敏雪民 86)雖然評量方式會因不同的評量目的而有所

不同然而現行的紙筆測驗過於強調排等第忽略了評量原先之目的教師只

教要考的學生只讀要考的成了所謂「考試領導教學」然而二十一世紀的

國民不是只會在試卷作答的人而是要有「分析預測及適應能力的人」簡而

言之就是能為生活而思考的人(曾慧敏民 87)實作評量重視教育過程本身

的價值和學生主動建構的能力因此重視學生學習過程和結果讓學生有意義

的學習使學生能靈活應用所學不僅評量認知層次也評量技能及情感層次

較傳統的紙筆測驗更能蒐集到學生較豐富的學習訊息

實作評量的目的如下(桂怡芬民 85曾慧敏民 87 Linn 2000)

一檢視學生學習成果是否能達到教學期望的結果

二從評量的結果能清楚交代學生的學習成就

實作評量能直接觀察學生到達結果的過程不只是評量答案之正確性能完

整的呈現學生在複雜能力及歷程上的表現並能依表現推論其構念表現

三藉由此評量可展現學生的技能和能力

實作評量除了能直接的測出學生問題解決的歷程與結果也能展現出高層次

認知情意與技能及後設認知等能力

四使得教學與評量能充分配合

實作評量注重與教學的互動其主要的目的為幫助學生的學習與改進教師的

教學

13

五為課程改革的重要指標

因實作評量標榜著可提升學童高階思考與問題解決的能力因此在教育改革

時備受重視

肆實作評量步驟

實作評量強調在和生活相關的情境下能讓學童展現所知所學的能力來解

決問題然而若是活動或作業設計不夠完整評分規準不夠明確等都可能導

致實作評量無法達到預期的目的(鄒慧英民 87)因此應如何設計出一份好

的實作評量試卷呢(Stiggins 1994)以下提出幾個注意要點

一確立設計評量的原因與目的

評量之所以實施一定有其原因包括確定評量結果所要作的決定例如

分組個別鑑定等第評定與優缺點的診斷等接著考量評量結果是否用於「排

名」或用於決定學生否達到精熟水準

二設計實作評量的內容

(一)選擇作業的形式

可以蒐集教室中自然而然發生的事件也可以設計結構化作業引發

學生表現的機會測出學生真實能力的實作評量

(二)決定評量的實施情境

因為怕受試者的動機與考試的焦慮可能影響學生的真實能力之表

現施測者可考慮事先告知學生相關評量的性質與評分標準因此在一

般的測驗情境下應先觀察受試者的焦慮情形再決定是否事先告訴受試

者評量事宜或採取不事先告知以測出學童最大的表現能力本研究採取

後者

(三)確定所要編製的實作試題數

14

決定實作題目數量應考慮評量的作業是否具代表性蒐集到的證據數

量是否可以提供較精確的學生能力思考層次

三確定實作評量成績計分標準

(一)決定分數的型式

如果評量的目的是做為分組或選擇的依據則可採整體性評分若是

診斷或檢定學童的基本能力可採取分析性細部評分本研究為診斷學童

分數的學習能力採用開放式的結構題型由學生自行建構答案因此

根據不同的答案給予不同層次的分數

(二)選擇評分者

評分者可為教師專家同學或受試者本身但基本上所有的評分

者得先接受專業的評分者訓練使每個人對評分歸準有所共識本研究請

已有五年以上之教學經驗的教師擔任評分者

(三)紀錄評分結果的方法

可採用檢核表評定量表軼事紀錄表等評定量表同時呈現了觀察

項目及分數評比常用於歷程與結果之評量適用於各學科之實作評量

本研究採用評定量表來紀錄評量結果總之發展實作評量時首先需

澄清「教學目標」與「評量的目的」是必要的其次「評量內容」或「評

量對象」取樣的代表性更是影響評量效度的重大因素最後清楚的「評

分規準」與完整的「評分者訓練」及詳細的「評分程度」則是影響評量的

信度唯有如此才能獲致高品質的實作評量(鄒慧英民 86)

伍實作評量的限制

一實施上非常耗費人力時間跟金錢

真正在實施實作評量時通常會受到器材跟場地的限制或是因為擔心產生相

15

互干擾因素而一次只能有限個學生同時進行施測這點跟團體施測的紙筆測驗

相比是非常耗費人力跟時間另外實作評量常需要有器材設備以及消耗性材料這

點跟團體施測的紙筆測驗相比是非常耗費金錢

二測驗情境控制困難

由於不是同時全體施測所以先後受測的學生容易相互干擾而且未受測

的學生跟已受測的學生的交談或傳授經驗也影響到考試的公平性加上前後施

測使得後面的同學很難有一致的施測條件例如場地未乾淨儀器未復原或被

損壞等

三計分不容易客觀

實施實作評量的目的不外乎想根據評量結果來為學生做決策因此獲

得一個正確而又可靠的評量結果(即高信度跟高效度值)便成為一件很重要的

事然而很不幸的實作評量如論文評分一樣由於是使用觀察跟判斷等兩類比

較主觀的評分方式來進行所以其結果難免具有很高的評分者誤差存在一般而

言評分者誤差有三種來源偏見月暈效應跟評量次數過少

四對容易焦慮的學生不利

實作評量的正式性與控制性會使得缺乏自信心或很在意他人評價的學生

產生過度焦慮進而影響其表現

陸實作評量的信效度

實作評量的信效度仍有待探討實作評量的信度通常是以概化程度

(generalizability)來描述(BaxterShavelsonGoldmanPine1992Dunbar

et al1991LinnBakerDunbar1991Linn1993Moss1994Ruiz-Primo

et al1993ShavelsonBaxterGao1993)概化程度包括評分者之間一致

的程度以及學生在不同工作項目(task)表現的一致程度(Shavelson et

16

al1993)根據 Shavelson 等人的研究結果發現實作評量在評量工作項目方面

的概化性較低顯示學生在不同工作項目上的表現有較大的差異在效度方面

實作評量所顯露出的問題有以下三個

一客觀性及公平性實作評量通常僅以一個評分者評定學生的表現所以

評量的結果可能過於主觀或有潛在的偏見(bias)問題(Airasian1991

Frechtling1991Linn et al1991Linn1993)

二評量內容的涵蓋性由於實作評量實施方式及時間的限制通常所評量

的學生行為表現較傳統測驗為少即評量內容的涵蓋範圍較小不易獲得學生行

為的適當樣本(Airasian1991Linn et al1991Linn1993)

三成本及效率問題這部份即時間與經濟的考量Linn 等人(1991)Linn

(1993)及 Messick(19941995)將這一點併入實作評量的效度標準

Baxter 等人(1992)Ruiz-Primo 等人(1993)及 Shavelson 等人

(199119921993)均從概化理論(generalizability theory)的觀點出發

採用取樣架構(sampling framework)來分析實作評量的信度(概化性)探討

評分者間評量項目間評量時間等的取樣變異以及其他潛在的誤差來源他們

針對神秘的電路盒(electric mysteries)毛細現象(paper towels)及小蟲

的習性(bugs)等評量項目採專家觀察(expert observation)實驗筆記

(notebook)電腦模擬測驗(computer simulation test)及紙筆測驗等方式

記錄學生的表現研究結果發現與評分者有關的取樣變異不大評量時間的取

樣變異極小而評分者與受試者間的交互作用(ratertimesperson interaction)和

評分者與評量項目的交互作用(ratertimestask interaction)這兩個部份的變異也

幾乎為 0故他們認為只要一個經過良好訓練的評分者(one well-trained

rater)即可用以評定學生在實作評量上的表現但他們發現在實作評量中評

量項目與受試者及該兩者與時間的交互作用是兩個最大的變異來源研究結果顯

示學生的表現因為工作項目的不同而有極大的差異而這樣的變異在不同時機上

17

更是明顯因此欲提高實作評量結果的一致性必須增加評量的工作項目使得以

學生在實作評量上的行為表現做其能力的推論時能夠降低與學生實際能力無關

的變異

Baxter 等人(1992)及 Shavelson 等人(19921993)主要是從評量對學生

能力的鑑別程度不同評量方式間的輻合效度不同特質及方法間的區辨效度等

三方面探討實作評量的效度他們的研究結果顯示不同的測量方法所得到的結果

並不一致Shavelson 等人(1993)發現在同一個工作項目之下不同的測量方

法中實驗操作與實驗記錄的相關最高實驗記錄與紙筆填充測驗及電腦模擬測

驗與紙筆填充測驗之間的相關最低這是因為實驗操作與實驗記錄為同一思考流

程所以相關較高此外他們也發現受試者與工作項目及測量方法間的交互作

用及誤差是變異的最大來源表示不同的測量方法可能是在測量科學成就的不同

面向(Shavelson et al1993p227-229)最後在不同工作項目之下採用

相同或不同測量方法所得到的相關的確較低顯示實作評量具有區辨效度

柒實作評量與其他評量的比較

大體上實作評量具有下列各項功能(Airasian 1994)茲列表如下

表 2-1-1 實作評量與紙筆測驗的比較

實作評量 紙筆測驗

學生把知識轉化成可觀察的表現行

為或成品的能力 主要涉及學生的知識及資訊的獲得

設計及施測費時但評量表可針對

同一或新的學生重複施測

設計費時但可同時施測許多學生

同組學生僅能使用一次

學生表現不佳可予診斷及補救

可監控學生進步實況

除論文式及開放式數學題之外甚少

提供方向指示如何改進表現

教學首重表現及過程 教學重內容知識

資料來源Airasian (1994) P236

18

表 2-1-2 各種評量類型的比較

客觀式測驗 論文式測驗 口頭發問 實作評量

目的

以最大的效率

及信度測驗

代表性的知

評估思考的技

巧及知識結構

的瞭解程度

教學時評估

知識

評估知識及瞭

解化為行動的

能力

學生的

反應

閱讀評量

選擇 組織寫作 口頭回答

計劃建構

及表達原始的

反應

主要優

效率在測驗

時間內可測驗

到許多項目

可測量複雜的

認知結果

使評估與教學

結合

提供充分的表

現技巧

對學習

的影響

過度強調回

憶鼓勵背誦

記憶如能適

當出題可促進

思考技巧

鼓勵思考及寫

作技巧的發

刺激學生參與

學習提供教

師立即回饋了

解教學是否有

強調運用知

識技巧於實

際的問題情

資料來源Airasian (1994) P229 et ls

捌實作評量相關研究

國內有許多探討實作評量設計的可行性研究以下將就國內學者所做的研

究整理說明

一陳文典陳義勳李虎雄簡茂發(民 84)美國馬里蘭州學校實作評

量國際共同研究計畫

將 MSPAP(the Maryland School Performance Assessment Program)的

19

試題轉譯成中文在國內進行小規模的施測藉以了解這種測驗的功能

使用上的時機及應用上的困難在其對我國五年級學生施以數學理化

和生物等實作評量題目後發現此種測驗模式能遍及各項科學能力我

國學生在回答問題時顯示其傳達與獨立作業能力均不足其評分客觀

的標準化可經由評分者講習的培訓達到目標實作評量可適用於平時作

業學生的科學能力競賽或教育行政單位的各校科學教育教學成效評鑑

等時機

二徐美英(民 89)TIMSS 數學實作評量在台灣之試用探討

(一)TIMSS 試題在台灣之施測具有信效度

(二)台灣四年級學生在 TIMSS 實作評量的表現顯著優於美國和香港地

區的學生

(三)TIMSS 試題在台灣之施測在男女生之間和班級間在總得分並

沒有顯著差異

(四)自編之試題猜一猜與 TIMSS 試題擲骰子繞過彎道

和魔術師有一定程度的相關

三洪之昀(民89)數學科實作評量對國小高年級學童學習策略影響之研究

(一)學生認為實作評量能增加對數學內容的了解提升學習興趣發

現數學的有趣擴大學習範圍並兼具情意評量的功能但也有學生認

為實作評量在實施上太麻煩且費時

(二)學生批判思考數學溝通數學表達的能力有待加強

(三)學生具有多方面的潛能亟待以實作評量的方式加以開發

四詹元智(民 91)國小數學科實作評量之效度探討

採準實驗研究設計的方式進行以屏東師範學院附屬小學六年級兩個班

的學生為研究對象一班為實驗組接受為期二個半月的數學實作評量

另一班為對照組接受傳統數學紙筆測驗的評量研究者於實驗前與實

20

驗後對兩組學生施以「傳統數學紙筆測驗」「數學實作評量」及「數學

學習解題態度」等三種測驗的前後測並對部份學生進行「數學實作

評量前後測的放聲思考訪談」概化性研究的分析結果顯示在一位評分

者及一題作業項目上之評分者間的變異相當小(319)不過分數的變

異有相當大的比例(約 50)是來自作業項目間及作業項目與受試者交

互作用的變異而在二位評分者及五題作業項目之概化性係數可達 08

以上顯示該研究之數學實作評量的結果能有效地推論至學生在其他評

分者及實作評量作業上數學問題解決的表現

五李長柏(民91)國小數學簡單機率解題實作評量與後設認知之相關研究

(一)數學解題實作評量具有良好的信效度

(二)本研究結果顯示具有良好的評分者信度

(三)數學解題能力和後設認知能力具有相關性

(四)性別在數學解題能力和後設認知能力上沒有差異

六王秀琲(民 92)實作評量在國小數學科之應用-以五年級學童分數為例

(一)實作評量能實際測出學童的分數概念在分割活動上連續量比

離散量好在表徵轉換上具體操作轉換符號模式為佳圖形轉換符號

模式較不理想分割策略會因情境的不同而使用較為簡便的方式來

解題

(二)從實作評量中學童能展現自行所建構的解題策略所獲得的訊

息比紙筆測驗多

(三)以 SS 分析法來分析實作評量之試題所呈現的試題關聯結構圖

中可以了解等分和連續量的分割活動是學童最易理解的概念而離散

量分割等值及單位量則是學童最難理解的概念

七張永杰(民 92)實作評量取向的幾何思考研究

(一)年級之幾何水準層次分佈情形有統計上的顯著差異存在年級

21

越高屬於高層次水準的學生越多

(二)當受試學生通過某一水準層次n的考驗但卻未能通過之前的任

一水準層次的考驗則稱為逆序現象有 697學生之幾何層次分佈呈

現逆序的情形

(三)學生不同 van Hiele 水準層次在後設認知能力上表現出顯著差異

(四)順序組學生能力值越高集聚的情形越明顯結構越完整逆序

組學生的概念結構比較少集聚呈現零散不完整的結構

(五)順序組能力低的學生所形成的關連結構比較零散而且概念間

的關聯程度不高能力越高的學生其關連結構概念問題結構化比較明

顯而且上下位觀念比較顯著逆序組學生的關連結構不但呈現零散不

完整的結構且關連結構圖中上下位觀念的情形比較不規律顯現其

概念結構比較雜亂

八林敬修(民 92)影響國小數學科實作評量信度相關因素之類推性理論

分析

(一)影響數學科實作評量分數一致性的主要變異來源為受試者與作業

項目交互作用(ptimest)變異其次為受試者(p)變異再其次為作業項目(t)

變異

(二)在評分者數學知能背景及評分者訓練對數學科實作評量分數一致

性的影響方面評分者的給分一致性因評分者數學知能背景及評分者訓

練而不同

(三)在題目結構度對數學科實作評量分數一致性的影響方面跨不同

結構度之作業項目對分數一致性的影響遠大過於跨相同結構度之作業項

目對分數一致性的影響此外不同數學知能背景及評分者訓練的評分

者在不同結構度的試題給分一致性上也有差異

(四)整體而言各評分組別的評分者一致性因評分向度之不同而有差

22

異其中以在「溝通表達」此一評分向度上的評分者一致性最低

九呂政隆(民 93)國小學童在數學實作評量解題整合認知與課程之相

關研究

運用實作評量的方式分別在九十學年度九十三學年度對五年級學生

施測以探討學生的數學解題與整合認知能力之相關性進而探討性別

課程在數學解題與整合認知能力上是否有顯著差異研究結果顯示實施

九年一貫課程後之九十三學年度整合認知中能力組在本研究之四份實作

評量之數學解題能力明顯低於九十學年度實施八十二年版國民小學課程

標準之數學解題與整合認知能力組

十石千奇(民 93)國小六學童在數學實作評量中的小組解題歷程分析

解題歷程模式受同儕討論的影響小組解題是四個人四條思考路線互相

牽引的結果解題歷程模式受操作實物的影響操作實物會影響解題階

段進行的走向小組成員並非全程參與解題歷程會因為題目的難易

互動過程階段性質等因素的影響而未能全程參與小組解題的階段變

化各行其道在各個解題階段的參與變化沒有一致性的發展操作實物

對各個解題階段皆有影響各產生不同的作用小組成員喜歡在實作評

量中以小組解題的模式解題覺得這樣的評量方式可以幫助解題

因此建議數學教師多採用以四人為一個小組在形成性評量中以小組

解題的方式進行實作評量

十一曲慧娟(民 94)實作評量在國中學術性向優異班招生鑑定之效度研

究~以臺灣北區為例

(一)錄取組和未錄取學生在入學後成就表現的差異分析顯示英文組

達顯著水準 (t=6159plt05)數理組未達顯著水準

(二)實作評量錄取學生在入學後之特殊表現的訪談結果發現各組學

生在發表能力競賽檢定檔案成果上的參與興趣濃厚也比較有所發

23

(三)受訪教師學生及參加座談會的教師們對實作評量的看法和意

見主要有下列重點

1命題是最大的困難各校命題均請專家學者指導師生都反應覺

得題目的品質不錯題型也很有創意和其它測驗不一樣但自然

科實驗器材的準備耗時費工是很大的負擔因此很多學校選擇用資

料分析的題目類型避免實驗操作器材準備的困擾

2實施程序上時間說明器材提供均適宜但場地的考量較多

如實驗位置的區隔語文施測時需安靜的場所等監考過程也是爭

議較多的如學生覺得監考老師應多幾位老師的尺度不同等

3受訪學生指出實作評量的應答方式和以往參加過的測驗有很大

的不同但都持肯定態度同時覺得語文表達能力會影響到實作評

量的成績

4各校評分都採集中閱卷的方式評分標準爭議性得分大都透過

閱卷老師討論後取得共識再給分

5目前各校在鑑定學生時決策的標準不一因此反應意見差異頗

大但從訪談資料發現受訪學生及教師都較支持運用初試複試

成績加權計算作為選擇學生的標準

6受訪教師表示學生入學後的表現和以往相較起來沒有明顯的

差異但在科展競賽檢定發表上的熱誠度較高

7學生的訪談結果發現大多數學生覺得實作評量可以測出他們在

學術性向上的能力或天份

8實作評量的保密情形比其它測驗要好很多但坊間仍有業者猜

題補習受訪學生及老師也表示有模擬實作或補習經驗者對

實作表現或多或少有影響惟一沒有保密困擾的是國文組

24

十二陳怡玉(民 94)降低國小數學科實作評量人和作業交互作用變異方

法的探討---以類推性理論分析

(一)由於分層變項選取不易導致「作業分層」無法有效降低人和作

業交互作用的變異

(二)「以圖表組織圖為鷹架」可以降低人和作業交互作用的變異

(三)「以圖表組織圖為鷹架」比「作業分層」更能讓人和作業交互作用

的變異降低

(四)進行「作業分層」的比較時實作評量的類推性係數和可靠性指

標以同一階層的作業採 ptimesTtimesR 設計最高但屬分層之 ptimes(TS)timesR 設計

卻低於作業未分層時的分析(即採作業 1234 的 ptimesTtimesR 設計來分

析)

(五)「以圖表組織圖為鷹架」能提高實作評量的類推性係數和可靠性指

十三蔡正濱(民 95)國小數學科實作評量評分者ㄧ致性相關因素探討

(一)影響數學科實作評量分數一致性的主要變異來源為受試者與作業

項目交互作用(ptimest)變異其次為受試者(p)變異再其次為受試者

作業與評分者三者之交互作用及誤差(ptimesttimesre)的部分

(二)在使用不同類型及等級數的計分規準對評分者間一致性的影響方

面在 ptimesttimesr 類推設計下不分計分規準種類與評分者有關的變異量

(含 rptimesr及 ttimesr 三者的總和)均相當小幾乎接近 0而在 ptimesr 設

計的整體類推性相關係數及給分差異比例方面分析式計分規準優於

整體式計分規準在不同等級數方面ptimesttimesr 類推設計中與評分者有

關的變異量及整體類推性七等級計分規準略佳但差異性不大在 ptimesr

設計的整體類推性相關係數及給分差異比例方面七等級計分規準優

於四等級計分規準其中又以使用整體式計分規準及評定高複雜度試題

25

時較為明顯

(三)在不同複雜度作業對評分者間一致性的影響方面低複雜度試題

的一致性高於高複雜度試題顯示評分者面對受試者在高複雜度試題的

作答反應時出現給分較不一致的情形最後受試者是否具備實作評

量計分規準之經驗對評分者間一致性的影響方面在低複雜度試題兩

組受試者之評分者一致性的差異性不大在高複雜度試題 A 組評分者

一致性大致高於僅具實作評量經驗之組別 B組而 AB兩組受試者的評

分者一致性差異程度在分析式計分規準上低於其在整體式計分規準之

差異程度

第二節 第三次國際數學與科學教育成就研究

由國際教育成就調查委員會(The International Association for the

Evaluation of Educational Achievement簡稱 IEA)主辦的「國際數學與科學

教育成就趨勢調查」(Trends in Mathematics and Science Study 2003 簡稱

TIMSS 2003)」是目前有關國際間對學生成就的調查研究中規模最大的一項調查

該測驗採取全世界合作模式主要單位有

一國家研究協調中心(National Research Coordinators)國家研究協

調中心負責選擇學校樣品 收集資料 計分標準和資料輸入 和準備研究結

果的一個國際報告

二TIMSS amp PIRLS 國際研究中心(在波士頓學院)(TIMSS amp PIRLS

International Study Center at Boston College)國際研究中心(ISC) 負責

TIMSS 的整體設計發展和實施這包括建立規程監督工具發展舉辦訓練

ISC 進行分析並且在國際報告和用戶資料庫中發布研究結果

三IEA 秘書處(IEA Secretariat)總部設在荷蘭的阿姆斯特丹IEA 秘

書處負責提供整體支持監督籌款和協助參與國家協調參與 TIMSS 的國家取得

26

測驗工具的翻譯證明

四IEA 資料處理中心(IEA Data Processing Center)IEA 有它自己的

資料處理中心位於德國的漢堡資料處理中心(DPC)負責處理和核對從所有參與

國家得到的資料和建立國際資料庫

五統計(Statistics Canada)在加拿大的渥太華負責 TIMSS 的所有採

樣活動包括開發取樣步驟和文獻和協助參加者能符合 TIMSS 的採樣設計

六教育測試的服務(ETS)(Educational Testing Service (ETS))ETS 為

TIMSS 成就測驗資料提供軟體和心理測量的支持 ETS 總部設在新澤西州的普

林斯頓

TIMSS 2003 是 IEA 自 1995 年以來第三次主辦連續週期性調查學生的數學和

科學成就主要目的在提供各國長期追蹤學生數學和科學趨勢成就以提升學生

數學和科學的學習成效TIMSS 2003 以 13 歲群(即國二生)和 9 歲群(即小四生)

為調查對象從 2000 年九月開始發展研究調查相關工作總計有 49 個國家參

加其中 48 個國家參加 13 歲群調查26 個國家參加 9歲群調查測驗的內容

包括數學和科學並從學生教師和學校的問卷回答中廣泛的搜集有關數學和科

學的教學和學習資訊並經由課程指引教科書和其他教學媒體的分析探討參

與國家的數學和科學課程以提供參與國家的政策制定者和實務工作者有關教學

和學生學習成就方面的珍貴訊息而技術報告和完整的國際資料庫也一併出版公

TIMSS 試題的編製流程是先製訂課程架構在根據課程架構編製成就測驗

而此課程架構是由一群來自 TIMSS 國家研究協調中心(TIMSS National Research

Coordinator)的數學和科學教育專家所發展出來的在 TIMSS 2003 的課程架構

中共分為兩個向度內容領域跟認知領域詳細內容如表 2-2-1 所示

27

表 2-2-1 TIMSS 2003 課程架構

數學 科學

內容領域 內容領域

數 生命科學

代數 化學

測量 物理學

幾何學 地球科學

8

級 資料

8

級環境科學

數目 生命科學

模式等式和關係 自然科學

測量 地球科學

4

級 幾何學數據

4

認知領域 認知領域

知道事實和程式 事實的知識

使用概念 概念的理解

解決日常問題 推理和分析

推理

第4年級代數內容領域被叫為模式等式和關係

其中在實作評量方面設計的原則是依照實用的可負擔的和容易翻譯成

多國語言和文化原則所設計的透過預試時取得評分指南包括正確的答覆跟不

正確答覆的描述及給分標準其評分系統採用維京評分系統以表格說明如下

28

表 2-2-2 維京評分系統

第一個碼

  2 類型的 CR 項目(分數碼)

(1) 2 分(外延反應評分)

2 分完整無誤

1 分部分對

(2) 1 分(問答)

(3) 0 分7-9

2 分

1 分

第二個碼

  診斷訊息碼

0-5表出現之頻次類次配合參數碼標之

如 20-2510-1570-75

9 為其他無特殊類別

  如 291979

78=自個兒ldquo診斷碼(國家碼 可自選)

  99 為空白

  79(Erases)

另外在問卷調查部份分為

一課程

(一)公式化課程

(二)課程的範圍和內容

(三)課程的組織

(四)監測和評估被實施的課程

(五)課程材料和支持

二學校

29

(一)學校組織

(二)學校目標

(三)校長的角色

(四)支持數學與科學的資源

(五)父母親介入

(六)學校環境

三老師和他們的準備

(一)學術準備和證明

(二)老師補充

(三)老師任務

(四)老師歸納

(五)老師經驗

(六)教的樣式

(七)專業發展

四教室活動和特徵

(一)課程題目

(二)時間

(三)家庭作業

(四)評量

(五)教室氣氛

(六)資訊技術

(七)計算器用途

(八)強調的研究重點

(九)班級大小

30

五學生

(一)家庭背景

(二)經驗

(三)態度

當 TIMSS 施測後許多國家對於施測結果所蘊藏的意義做了許多的解釋他

們認為施測結果不止顯示了學術成就還包括了學生所接受的課程和教育

(SchmidtJordeCoganBarrierGonzaloMoserShimizuSawadaValverde

PrawatMcknightRaizenBrittonWileyWolfe1996)國際比較主要的目的

在於評估不同國家的學生程度而另一個同樣重要的目的在於嘗試去了解及解釋

造成差異的原因Jaekyung Lee 在 1999 年時提出當我們進行國際比較時有三

點要注意的事項一應該要同時著重正規教育和學校教育以外的學習經驗

二重視區域性的差異

三注意學校的改革政策因為它會影響教育的實施與成果所以成績好不應沾

沾自喜而表現不好也應深究原因去注意其他表現好的國家真正做了什麼並

加以學習而非歸罪於整個制度

根據 TIMSS 2003 國際數學和科學報告(TIMSS 2003 International Reports

in Mathematics and Science)其中提到幾個圖表是跟本文有關並值得分析注

意的

31

圖2-2-1 1995年到2003年4年級學生的數學趨勢

32

上圖是從該報告第一章表格13擷取出來的該圖表顯示出從1995年到2003

年的4年級學生的數學趨勢其中香港拉脫維亞英國賽普勒斯紐西蘭

斯洛伐尼亞加拿大安大略省等七個國家或地區是呈現進步的情況而荷蘭挪

威加拿大魁北克省是退步的趨勢其他在圖表中的國家是沒有顯著差異的另

外在其文字說明部份也提到以色列和菲律賓從1999到2003也顯示出顯著的改

進像上述這些國家數學成就方面趨勢的變化可能跟社會或教育的改變有關

例如東方的政治變化跟歐洲十幾年前的教育改革已經實際改變這些國家的教育

成就例如立陶宛跟拉脫維亞這兩個國家的成就趨勢反映他們在改革過程中的

努力已經獲得某些驚人的成就

33

圖 2-2-2 4 年級學生在男女性別上的差異

上圖是從該報告第一章表格14擷取出來的該圖表顯示大部分國家或地區4

年級學生在男女性別上並無顯著差異但在幾個國家例外新加坡菲律賓亞

美尼亞跟Moldova共和國的女生有較高的數學平均成就荷蘭美國義大利

蘇格蘭賽普勒斯和兩個加拿大省份則是男生有較高的數學平均成就

34

圖2-2-3 1995到2003年的男女生進退步情形

上圖是從該報告第一章表格15擷取出來的該圖表表示從1995到2003年的

男女生進退步情形從圖表中得知男女生同時進步的國家或地區有賽普勒斯英

國香港拉脫維亞紐西蘭斯洛伐尼亞和安大略省而同時退步的國家有挪

威和魁北克省僅有男生退步但女生沒有的國家是荷蘭

第三節 TIMSS 試題與國內數學課程關係之分析

在魔術師的題組中研究者希望學生透過摺紙的方式不管對摺幾次最後

限制只能用剪刀剪一次的情況下要求學生剪出下列 3個圖型

35

每個學生剪每個圖型都有 3次機會這個題組的目的不止希望學生可以運用

全等的直覺利用幾何操作如平移旋轉翻轉等方式印證平時的經驗並將

全等的概念更加清晰還希望學生透過摺紙的方式了解認識垂直和對稱而剪紙

又可以增進學童分解圖形與建構圖形的能力所以本題組主要在測量學生對於全

等的直覺跟幾何操作垂直跟對稱和空間關係的瞭解以及解決非慣例題目的能

在圖形題中前 2個小題分別要求學生在一個長方形中劃一條直線將該長

方形分成 2個三角形或 2個長方形第 3小題要求學生在一個長方形中劃兩條直

線將該長方形分成 2 個三角形跟 1 個長方形第 4 小題則給等腰梯形並連接 2

條對角線在內部形成的 4個三角形中要求學生找出形狀相同但大小不同的兩

個三角形本題組在了解學生能否透過操作直尺或三角板在二維空間上剪裁出

指定的基本圖型並利用直觀的方式指出形狀相同但大小不同的三角形

上述兩個題目在評量學生的幾何能力根據我國國民中小學九年一貫課程綱

要數學學習領域中指出小學教師在從事幾何教學時最要避免的是來自本身歐

氏公設幾何訓練的干擾處處受制於定義的認定與邏輯順序由歷史來看人類

是先由應用操作實踐中認識各種幾何要素與性質彼此之間並沒有一定的

先後關係歐氏幾何的價值首先是對這些先民知識的歸類與整理其次才是作

36

為知識典範的演繹系統所以將幾何課程概分成四階段而學生在四年級時所應

該要學習到的幾何知識就如下列所示

一階段一(一年級到三年級)較強調幾何形體的認識探索與操作學生對

幾何形體中的幾何要素也許能指認但尚不清楚其結構意義

二階段二(四年級到五年級)由於數與量的發展逐漸成熟學生開始結合「數」

與「形」兩大主題學習運用幾何形體的構成要素(如角邊面)及其數量性

質(如角度邊長面積)

更詳細的相關能力指標詳列如下

1-S-04能依給定圖示將簡單形體作平面舖設與立體堆疊給定的圖示

可為圖卡或實物透過拼圖與堆積木等活動讓學童進行平移翻轉重疊

比對hellip等全等操作的練習

3-S-06能透過操作將簡單圖形切割重組成另一已知簡單圖形

4-S-02能透過操作認識基本三角形與四邊形的簡單性質

4-S-03能認識平面圖形全等的意義

4-S-16能理解平面上直角垂直與平行的意義

4-S-07能由直角垂直與平行的概念認識簡單平面圖形

4-S-08能利用三角板畫出直角與兩平行線段並用來描繪平面圖形

例學童會使用直尺或三角板畫出直角及兩平行線段進而用來繪製直角三角

形正方形長方形平行四邊形與梯形

因此學生在回答這兩個問題時應已具備足夠的能力

在幾何方塊的題組中給學生 3 塊白色方塊4 塊黑白相間的方塊和 3 塊黑

色方塊要求學生完成

一利用 2 張黑白相間方塊拼出一個較大的黑色三角形

二利用 4 張黑白相間方塊拼出一個黑色的正方形並求出佔幾分之幾

三不准使用黑白相間方塊將 4 張方塊拼出一個正方形使得黑色的部分佔 12

37

四請用 8 張方塊拼出一個如下圖的長方形使得黑色部分佔 58

這是一種包含幾何跟數與量的題目其中幾何的部份是要求學生建立一個二維圖

形並滿足題目的要求(數與量)幾何部分已經如上所述現在分析相關的數

與量

根據我國國民中小學九年一貫課程綱要數學學習領域中指出有理數是小學

的核心課程之一也是小學數學教育中最有挑戰性的教學主題因為學生較缺

乏有理數的前置經驗日常生活中的有理數情境也比整數少分數的形式是學生

首次碰到兩整數並置的約定至於什麼是穩當的有理數教學並無定論但是基

本的共識是學生需要較長的時間來學習掌握有理數的概念不論是先形式程

序或者先概念理解兩者都必須不斷互相支持在有理數教學中必須將材料

作適當的安排先從較容易的平分或測量入手而將其它的應用課題作為錘鍊

有理數數感的課題

在相關的能力指標詳列如下

3-n-09能在具體情境中初步認識分數並解決同分母分數的比較與加

減問題學童從具體情境或活動中掌握分數的概念能學會分數的記號並理

解運用分數記號來記錄同分母分數的比較與加減的方式例如以平分為基礎的

活動(離散量)問下列深色區域是全部圖形的幾分之幾

4-n-07能認識真分數假分數與帶分數熟練假分數與帶分數的互換

並進行同分母分數的比較加減與非帶分數的整數倍的計算

4-n-08能理解等值分數進行簡單異分母分數的比較並用來做簡單分

數與小數的互換在具體情境中說明分數等值的理由可先由分母的倍數差 2

4倍的分數先出發(因為切半的操作最簡單)

在施測學校所使用的教科書中第七冊第十單元分數中其教學目標也有

38

透過單位分數的合成和累加活動以真分數來描述單位分數的幾份可見此題對

施測學校的學生來說應有能力解決

另外兩題有關數與量的題目是數字卡跟猜一猜在數字卡部份題目分為兩

部份第一部份為抽出三張 0-9 的數字卡任意排列後找出最接近總和為 20 的

方法第二部份為抽出三張 0-9 的數字卡任意排列後分別找出和差跟積最大

的方法這在我國國民中小學九年一貫課程綱要數學學習領域中分類在數與量

中的整數部分根據附錄說明中指出整數計算是一切數學學習的基礎在教學

中學童經由活動情境掌握計算的意義藉著各種例子體驗計算的規則與策略

流暢的計算能力有如語文學習中基本的文字駕馭能力不僅可以內化學童的

數字感並且是日後(國高中)學習抽象運算及形式推導的基礎這樣的能力

固然是學習科學所必須也是能夠有效處理日常生活的基本能力之一所以國小

整數教學的課程目標在於

一從計數開始學習位值的約定與換算並在演算中逐步熟悉最後能掌握

大數

二在二年級下學期理解算術的樞紐九九乘法作為日後所有計算的基礎

三到四年級時能夠不拘泥於位數熟練加減乘除的直式計算

有關數與量的題目另一題是猜一猜題目是在 9個碗中前 4個碗中豆子

的數量分別是 29313128 個請猜一猜罐子中大約有幾個豆子並解釋你

的想法這在我國國民中小學九年一貫課程綱要數學學習領域中分類在數與

量中的估算部分估算在國民教育中可粗分為離散量的估算(自然數四則運算的

估算)與連續量的估算前者的教學應在學生已經能掌握確算後再進行而後

者的教學應透過測量時量不盡的正常情境與小數的教學共同開展認識小數

之細分與精確度的要求乃是一體的兩面估算的教學可以先在計算與驗算中強

調讓學生能對不合理的答案透過估算剔除然後是能判斷應用問題對答案

精確度的要求並藉由過去的解題經驗發展正確的估算策略或者是能針對

39

問題與解答發展估算策略驗算解答的合理性要注意的是估算屬於較高層

次的數學能力學生必須先對所使用的概念程序與問題情境有相當的理解才能

恰當地估算進而能正確判斷估算的時機與精確度的要求國小的估算教學要

特別注意評量的問題切忌因為強求估算禁止學生使用正常計算教師應在評

量的問題上下功夫讓問題本身暗示估算的好處

最後一題是擲骰子題目是用一個規則來改變骰子擲出來的數字要求學

生發現改變後的數字有什麼特性另外要求學生丟 30 次將結果記錄並統計在

表格中這是屬於統計與機率的部份我國課程在這部份強調統計和機率的知識

背景應來自生活環境因此以學生的生活經驗為主從學生感興趣的主題出發

使其學會敘述統計所呈現出的數字和圖表的意義強調圖表的表達和溝通並了

解抽樣機率的初步概念且能正確地運用各項統計資料於實際的生活中並要

求在三年級之前 先藉由簡易表格的製作協助學生建立資料的整理與分組的

概念進而練習報讀與說明資料並建立個別資料出現頻率概念的認識再藉著

直接和交叉對應表格的介紹並配合「數與量」的教學希望學生能掌握對表格

的認識並能加以運用

40

第三章 方法與步驟

本章節乃根據前兩章所提的研究目的與文獻探討進行研究設計以下將分別

就研究架構研究工具發展研究的信效度與實作評量的試題架構三節加以說明

第一節 研究架構

壹研究方法本研究是使用實作評量的方法進行實際施測使用 SPSS

與 EXCEL 軟體分析回收的施測數據

貳研究樣本本研究之研究對象是針對國小四年級學生以台中縣神岡鄉

某國小四年級學生為受試者共四班 127 人學校環境是住

宅與工業混合區

叁研究工具本研究的研究工具分為兩部份民國 89 年徐美英研究論文

中的題目跟 TIMSS 2003 公開的實作評量試題各三題TIMSS

2003 公開的實作評量試題是由 TIMSS 網站下載試題後再進

行翻譯每一個題組的施測時間是 30 分鐘

第二節 研究工具發展

本研究的研究工具分為兩部份民國 89 年徐美英研究論文中的題目跟 TIMSS

2003 公開的實作評量試題各三題以下將分別就試題的編製過程評分標準施

測人員和評分者四點加以說明

壹試題編製過程

一研究分析相關公開試題並與學校教材相互對照後進行選題

二選定題目後進行翻譯

三將翻譯好後的題目跟原始原文題目交給學校英語科任老師進行確認

41

四確定翻譯工作後與現任資深國小四年級的教師們共同討論題目的適切

性修改試題敘述的語句使文句的敘述能符合四年級學生的認知

五將修改後的題目請上述老師再做一次確認

六提供評分標準給上述老師討論全對部份給分不給分的情況

七題目定案

以數字卡這題為例題目如下

【題目數字卡】

在這部分你將會拿到一張印有 0到 9的數字卡如下圖請將這些數字卡

取下來

總和為ldquo20的數字遊戲

小杰與小明這兩個小孩正在玩一個ldquo總和為 20的遊戲其規則如下

總和為ldquo20的規則

一抽數字卡每一個人抽出三張數字卡

二加數字卡每一個人利用這三張數字卡做出一個加法問題使得算出的

總和最接近 20 例如假如抽出的數字卡 將數字任

意組合後下面是其中四種可能的方法

0 1 2 3 4

5 6 7 8 9

1 4 5

42

+ + + +

5 5 4 6 1 9 +

15 1 0

這時玩家應該選擇 + 4 因為它的總和 19最接近 20

19

小杰和小明開始玩遊戲了小杰抽出了 三張數字卡小明抽出

了 三張數字卡

一小杰要如何安排三張數字卡做出一個加法問題才能讓它的總和為最接

近 20記得要寫總和

二小明要如何安排三張數字卡做出一個加法問題才能讓它的總和最接近

20記得要寫總和

三小明說假如我抽到 我可以用兩種方法做出總和 20

請告訴我們小明用哪兩種方法可以使 做出總和 20

第一種方法

第二種方法

1

4

5 1

4

5

1

4 51

4

5

972

6 3 1

1 4 6

1 4 6

43

找出最大的數

小杰和小明利用數字卡玩另一個新的遊戲就是利用三張數字卡做出最

大的數

甲將 三張數字卡填入下列的格子內讓相加的結果為最大

乙將 三個數字填入下列的格子內讓相減的結果為最大

丙將 三個數字填入下列的格子內讓相乘的結果為最大

貳施測人員

由四位該班導師擔任在正式施測前由研究者針對施測應注意事項對施

測人員說明並在每一份題目上附上給老師的話說明施測時應注意的事項

及給分說明部分實作評量試題需要用到一些材料由研究者事先準備妥

當於考前交給施測人員至於材料的發放跟試題說明的時間並不包括在 30

分鐘的測驗時間之內

叁評分標準

一 89 年徐美英研究論文中的題目直接使用其附錄中的評分標準以擲

times

9 5 1

+

2 3 7

1 4 5

44

骰子這題為例其評分標準如下

第一題 1 正確的計算出(042648)

2 給分範圍2分

第二題 1 描述的類型與資料一致

2 形式可以是一個或多個以下的情形例如所有的數字

都是偶數數字的範圍從 0~84 出現 2次數字排列有

規則如+4-2+4-2

3 給分範圍2分

第三題 1 至少完成 25 次擲骰子的紀錄

2 正確的計算

3 給分範圍2分

第四題 1 統計的次數與第三題的資料一致

2 給分範圍2分

第 5a 題1 答案與資料一致

2 給分範圍1分

第 5b 題1 對觀察的數字提供合理的解釋

2 給分範圍1分

二 TIMSS 2003 公開的實作評量試題部分參照其公佈的評分標準翻譯

成中文以提供給資深四年級老師參考以數字卡這題為例

(一)第一部分總和為 20 的數字遊戲

1 第甲題

(1) 給分範圍 1分

1 寫出 2+7+9=18

2 沒有任何算式但有答案是 18 者

(2) 給分範圍0分

45

1 有寫出算式 2+7+9 但沒有答案 18 出現

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

或偏離主題的回答)

3 完全空白

2 第乙題

(1) 給分範圍1分

1 13+6=19 或 16+3=19

2 沒有任何算式但有答案是 19 者

(2) 給分範圍0分

1 有寫出算式 13+6 或 16+3 但沒有答案 19 出現

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

3 完全空白

3 第丙題

(1) 給分範圍2分

兩種方法都正確(16+4 和 14+6)

(2) 給分範圍1分

只有寫出其中一種方法(16+4 或 14+6)

(3) 給分範圍0分

1 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

2 完全空白

(二)第二部份找出最大的數

1 第甲題

(1) 給分範圍1分

46

91+5 或 95+1

(2) 給分範圍0分

1 將 159擺在任何其他不正確的位置

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

3 完全空白

2 第乙題

(1) 給分範圍1分

73-2

(2) 給分範圍0分

1 72-3

2 將 237擺在任何其他不正確的位置

3 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

4 完全空白

3 第丙題

(1) 給分範圍1分

41times5

(2) 給分範圍0分

1 51times4

2 將 145擺在任何其他不正確的位置

3 其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的

或偏離主題的回答)

4 完全空白

47

第三節 研究的信效度與實作評量的試題架構

壹信效度

由於此次的實作評量採用多元化記分的方式故信度計算採用 Cronbach α

係數算出信度值為 079而且每一題均有詳細說明細節行為的項目給定參考

答案圖形的作品量表各題除經著名國際測驗機構審核施測過外並由研究者另

請學校資深四年級教師共同研究討論題目與答案對於施測過程研究者也與四

位監考老師討論後訂出共同標準所以在效度方面具有專家效度跟內容效度

貳試題架構

此次實作評量的試題共六題分別是屬於數與量幾何統計與機率等三大

主題依據九年一貫課程綱要數學學習領域裡對這幾個大主題在國小四年級前的

學習說明研究者編制下表的試題架構

48

表 3-3-1 試題架構

題目 學習主題 主題層次 評量內涵說明

擲骰子 數與量

統計與機率

(1)整數

(2)簡易表格的製作

(1)可以對整數的變化

提出一套模式或發現

(2)簡易表格的製作結

果統計與發現

猜一猜 數與量 估算 使用估算的技巧協助計算

與解題

魔術師 幾何 對稱的實際操作 透過摺紙的對稱觀念理解

平面圖形的線對稱關係

圖形題 幾何

(1)幾何形體的認識與

切割

(2)幾何形體『形』的

直觀認識

(1)透過操作將簡單圖

形切割成另一簡單圖

(2)直觀指出平面圖形的

相似

數字卡 數與量 運用加減乘法求最大值

透過位值概念將給定的數

字編排在不同的位值進行

加減乘法得到接近題

目要求的答案或所有可能

的最大值

幾何方塊 幾何

數與量

(1)幾何形體的拼合

(2)有理數(部分全體

的意涵)

(1)利用黑白相間方塊

拼出指定的簡單平面

圖形

(2)在具體情境中認識

分數

49

第四章 結果與討論

本章主要是呈現資料分析的結果並加以討論共分為四節第一節是利用

TIMSS 1999 實作評量試題比較民國 89 年跟民國 95 年的成績差異第二節是利

用 TIMSS 2003 實作評量試題檢視施測學校在性別及班級間是否存在差異第

三節是利用 TIMSS 2003 實作評量試題比較施測學校與原始施測資料的成績差

異第四節是實作評量試題的類推性

第一節 利用 TIMSS 1999 實作評量試題比較民國

89 年跟民國 95 年的成績差異

研究者本小節要探討的是 TIMSS 1999 的施測結果與民國 89 年徐美英所進行

的研究之比較主要的比較項目為平均數標準差及得分情形分配百分比基於

此研究者採用百分比圖表及各小題反推出得分人數之後用獨立樣本 t檢定的

方式比較平均數另外依百分比反推出人數時有時會因四捨五入產生總人數多

1人的情況此時會對進位數最小的數採取無條件捨去法以符合總人數一致另

因研究者分三天進行六題施測每題實際受測人數也有不同研究者使用的資料

來源有兩個分別是 TIMSS 2003 實作評量題目及 TIMSS 1999 實作評量題目為

了呈現方便研究者將取自 TIMSS 2003 實作評量題目所作的施測結果用『95 年』

表示另外 TIMSS 1999 實作評量題目為研究者從民國 89 年徐美英的論文中擷取

出來的當年的施測結果以『89 年』表示

50

壹魔術師

表4-1-1 95年魔術師題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

魔術師ㄧ 16 16 68 5 127

魔術師二 101 151 748 5 127

魔術師三 202 235 563 5 127

由表 4-1-1 得知研究者此次此題型的施測結果各題得分均以得 2分者居

多得 1分居次利用表 4-1-1研究者也從民國 89 年徐美英的論文中找到類

似資料列在表 4-1-2表 4-1-2 是從論文的本文中摘錄下來的研究者反覆研

究該論文時發現在 P73 也有附錄一份有關魔術師各題的資料統整不過兩者的

個數有所差異下表總人數 156 人遺漏值 5人附錄中個數是 155 人下表反推

出人數後的平均數也與附錄稍有出入研究者以本文的表格為準

表4-1-2 89年魔術師題組得分情形分配表

題目 得 0分人數() 得 1分人數()得 2分人數() 遺漏值 總人數

魔術師ㄧ 419 258 323 5 156

魔術師二 194 194 613 5 156

魔術師三 258 258 484 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

51

0

10

20

30

40

50

60

70

80

魔術師ㄧ 魔術師二 魔術師三

95年答對率

89年答對率

圖 4-1-1 百分比圖表比較結果

由上圖可知95 年答對的答對率在 3題中均優於 89 年的結果其中以魔術

師ㄧ的資料差距最大但此兩年的資料也有一個共同的趨勢就是該年度的答對

率有魔術師二的答對率>魔術師ㄧ的答對率>魔術師三的答對率研究者進一步

反推 89 年的得分人數後將兩年的資料進行獨立樣本 t檢定結果列於表 4-1-3

表 4-1-4表 4-1-5

表 4-1-3 魔術師ㄧ獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異數

相等 4323 0039 6098 272000 0000 0410 0800

1

不假設變異

數相等 6173 270036 0000 0410 0800

52

表 4-1-3 可以看出變異數 Leven 檢定結果P值lt005所以達到顯著差異

可見變異數是不能視為相等的後面 t檢定值 6173P 值lt005所以有達到顯

著差異可見平均數是不能視為相等故這一小題明顯的是 95 年的學生成績較

表 4-1-4 魔術師二獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異數

相等 17130 0000 2550 270000 0011 0050 0410

2

不假設變異

數相等 2605 270000 0010 0060 0400

表4-1-4可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是不能視為相等的後面t檢定值2605P值lt005所以有達到顯著

差異可見平均數是不能視為相等故這一小題明顯的也是95年的學生成績較佳

表 4-1-5 魔術師三獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 0443 0506 1332 272000 0184 -0100 0330

3

不假設變

異數相等 1338 265000 0182 -0100 0330

53

表4-1-5可以看出變異數Leven檢定結果P值gt005所以沒有達到顯著差

異可見變異數是要視為相等的後面t檢定值1332P值gt005所以沒有達到

顯著差異可見平均數是也可以視為相等故這一小題兩年的學生成績沒有差別

接著研究者對整個題組總得分進行比較由於 89 年論文中只有平均數與標

準差兩項資料研究者只能稍做比較95 年施測的平均數為 424標準差為 208

而 89 年的平均數是 375標準差是 207由於兩者標準差的差距很小可見兩

項資料的集中平均數的趨勢是差不多的而平均數則是 95 年多 049 分

二擲骰子

表4-1-6 95年擲骰子題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

擲骰子一 101 202 697 8 127

擲骰子二 597 395 08 8 127

擲骰子三 25 319 655 8 127

擲骰子四 345 378 277 8 127

擲骰子五 a 462 538 8 127

擲骰子五 b 950 50 8 127

由表 4-1-6 得知研究者此次擲骰子題組中各題得分擲骰子一以得 2分

居多佔 697擲骰子二以得 0分居多佔 597擲骰子三以得 2分居多

佔 655擲骰子四以得 1分居多佔 378擲骰子五 a以得 1分居多佔 538

擲骰子五 b以得 0分居多佔 95擲骰子二與擲骰子五 b是要求學生說明理由

或描述規則可見學校教學應該可以再加強學生在解釋資料上的能力

54

表4-1-7 89年擲骰子題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

擲骰子一 32 65 903 5 156

擲骰子二 548 387 65 5 156

擲骰子三 00 65 935 5 156

擲骰子四 65 129 806 5 156

擲骰子五 a 97 903 5 156

擲骰子五 b 839 161 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

0

20

40

60

80

100

擲骰

子一

擲骰

子二

擲骰

子三

擲骰

子四

擲骰

子五

a

擲骰

子五

b

95年答對率

89年答對率

圖 4-1-2 百分比圖表比較結果

由上圖可知89 年答對的答對率在 5題中均優於 95 年的結果其中擲骰子

二與擲骰子五 b兩年的答對率都很低可見對位於城鄉交界處的台灣學生而言

這種類型的題目屬於偏難的題型研究者進一步反推 89 年的得分人數後將兩

年的資料進行獨立樣本 t檢定結果列於表 4-1-8表 4-1-9表 4-1-10表

55

4-1-11表 4-1-12表 4-1-13

表 4-1-8 擲骰子一獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 56450 0000 -4100 270000 0000 -0400 -0140

1

不假設變

異數相等 -3900 195000 0000 -0400 -0130

表4-1-8可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是要假設不相等的後面t檢定值-3906P值lt005所以也達到顯

著差異可見平均數是不能視為相等故這一小題是89年的學生表現較優秀

表 4-1-9 擲骰子二獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 9470 0002 -1500 270000 0141 -0200 0035

2

不假設變

異數相等 -1500 270000 0133 -0200 0032

表4-1-9可以看出變異數Leven檢定結果P值lt005所以有達到顯著差異

可見變異數是要視為不相等的後面t檢定值-1506P值gt005所以沒有達到

顯著差異可見平均數是可以視為相等故這一小題兩年的學生成績沒有差別

56

表 4-1-10 擲骰子三獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 186200 0000 -6200 270000 0000 -0400 -0210

3

不假設變

異數相等 -5800 162000 0000 -0400 -0200

表4-1-10可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是要視為不相等的後面t檢定值-5806P值lt005所以達到顯著

差異可見平均數是有顯著差異的故這一小題89年的學生成績表現較好

表 4-1-11 擲骰子四獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 19580 0000 -9900 270000 0000 -1000 -0650

4

不假設變

異數相等 -9600 212000 0000 -1000 -0650

表4-1-11可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-9565P值lt005有達到顯著差異

可見平均數是有顯著差異的故這一小題89年的學生成績比較好

57

表4-1-12 擲骰子五a獨立樣本t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 207800 0000 -7400 270000 0000 -0500 -0270

五 a

不假設變

異數相等 -7000 187000 0000 -0500 -0260

表4-1-12可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-7036P值lt005有達到顯著差異

可見平均數是有顯著差異故這一小題89年的學生成績比較好

表 4-1-13 擲骰子五 b獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 38760 0000 -2900 270000 0004 -0200 -0035

五b

不假設變

異數相等 -3100 251000 0003 -0200 -0039

表4-1-13可以看出變異數Leven檢定結果P值lt005達到顯著差異可見

變異數是要視為不相等的後面t檢定值-3052P值lt005達到顯著差異可

見平均數是有顯著差異故這一小題89年的學生成績比較好

接著研究者對整個題組總得分進行比較由於 89 年論文中只有平均數與標

58

準差兩項資料研究者只能稍做比較95 年施測的平均數為 48346標準差為

24455而 89 年的平均數是 68258標準差是 16947可見 89 年的資料顯示

集中平均數的趨勢較高而 95 年的資料則較為分散而且平均數又是 89 年多

19912 分多出將近 12 倍

三猜一猜

表4-1-14 95年猜一猜題組得分情形分配表

題目 得0分人

數()

得1分人

數()

得2分人

數()

得3分人

數()

得4分人

數()

得5分人

數() 遺漏值 總人數

猜一猜 3858 2441 1102 630 787 1181 0 127

由表 4-1-14 得知研究者此次擲骰子題組中得分以得 0分者居多顯示

學生的概算能力非常不足其次是得 1分的較多這顯示學生曉得題目要掌握哪

些資訊只是不懂得利用這些資訊0分與 1分的人數竟佔超過 50結果頗令

人訝異

表 4-1-15 89 年擲骰子題組得分情形分配表

題目 得0分人

數()

得1分人

數()

得2分人

數()

得3分人

數()

得4分人

數()

得5分人

數() 遺漏值 總人數

猜一猜 2580 650 100 1190 3230 2260 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

59

猜一猜

0

10

20

30

40

50

60

95年答對率 89年答對率

圖4-1-3 百分比圖表比較結果

本題研究者將得 4分與得 5分者列為答對人數由上圖可知89 年答對的答

對率優於 95 年的結果研究者進一步反推 89 年的得分人數後將兩年的資料進

行獨立樣本 t檢定結果列於表 4-1-16表 4-1-17

表4-1-16 猜一猜資料統計

年度 個數 平均數 標準差平均數的

標準誤

95 127 156 175 016 得分

89 151 286 196 016

表4-1-17 猜一猜獨立樣本t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 5639 0018 -5800 276000 0000 -1700 -0860猜

猜 不假設變

異數相等 -5900 275000 0000 -1700 -0864

60

表4-1-17可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-5856P值lt005有達到顯著差異

可見平均數是有顯著差異故這一小題89年的學生成績比較好

第二節 利用 TIMSS 2003 實作評量試題檢視施測

學校在性別及班級間是否存在差異

在各題型得分的相關情形方面將之整理成表格 4-2-1由表中得知除了

圖形題與猜一猜的相關係數達到005的顯著水準之外其他相關各題均達到001

的顯著水準也就是說圖形題與數字卡幾何方塊魔術師猜一猜擲骰子

等題有相當程度的關係其他各題相互之間也是類似的關係這說明了此次的考

題不只是幾何能力之間有相關的情況幾何能力與統計概念數的運算能力

概算能力之間也有相當程度的關係

61

表 4-2-1 各題型之相關係數

圖形題 數字卡 幾何方塊 魔術師 猜一猜 擲骰子

Pearson 相關 1 0617 0419 0487 0174 044

顯著性 (雙尾) 0 0 0 005 0 圖形

個數 127 127 127 127 127 127

Pearson 相關 0617 1 0517 0562 0272 0587

顯著性 (雙尾) 0 0 0 0002 0 數字

個數 127 127 127 127 127 127

Pearson 相關 0419 0517 1 0397 0308 0389

顯著性 (雙尾) 0 0 0 0 0 幾何

方塊

個數 127 127 127 127 127 127

Pearson 相關 0487 0562 0397 1 0248 0509

顯著性 (雙尾) 0 0 0 0005 0 魔術

個數 127 127 127 127 127 127

Pearson 相關 0174 0272 0308 0248 1 0317

顯著性 (雙尾) 005 0002 0 0005 0 猜一

個數 127 127 127 127 127 127

Pearson 相關 044 0587 0389 0509 0317 1

顯著性 (雙尾) 0 0 0 0 0 擲骰

個數 127 127 127 127 127 127

在顯著水準為001時 (雙尾)顯著相關

在顯著水準為005時 (雙尾)顯著相關

62

表4-2-2 班級對總分之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

班級 390132 3000 130044 2046 0111

誤差 7806910 123000 63471

總和 8197040 126000

以單因子變異數分析班級對總分的結果如表4-2-2在α=005之下F檢定值為

2049相對應的P值是0111因為P值>005所以未達顯著差異也就是各班

級間的實作評量總分並沒有因班級的不同而顯現出差異

表4-2-3 性別對總分之組別統計量與t檢定表

性別 個數 平均數 標準差 平均數的標準誤

男生 65 21892 7567 0939 總分

女生 62 23355 8595 1092

獨立樣本檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 0320 0573 -0998 125000 0320 -4263 1404

分 不假設變

異數相等 -0996 121524 0322 -4272 1413

從表4-2-3來看雖然女生平均成績是2331分高於男生的2188分但根

據獨立樣本t檢定的檢定結果變異數的Levene檢定F值為0320P值為0573

顯示出男生與女生的變異數沒有顯著差異而平均數的t檢定值為-0998P值為

63

032也顯示出男女生的平均數是沒有顯著差異的研究者進一步分析性別與各

題的t檢定結果顯示於表4-2-4

表4-2-4 性別對各題之組別統計量與t檢定表

性別 個數 平均數 標準差 平均數的標準誤

男生 65 326 112 014 圖形題

女生 62 340 098 012

男生 65 418 215 027 數字卡

女生 62 474 212 027

男生 65 417 160 020 幾何方塊

女生 62 413 167 021

男生 65 417 204 025 魔術師

女生 62 432 213 027

男生 65 135 163 020 猜一猜

女生 62 177 185 023

男生 65 474 237 029 擲骰子

女生 62 494 253 032

64

獨立樣本檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 1522 0220 -0756 125000 0451 -0510 0230圖

題 不假設變

異數相等 -0758 124117 0450 -0510 0230

假設變異

數相等 0431 0513 -1471 125000 0144 -1310 0190數

卡 不假設變

異數相等 -1471 124863 0144 -1310 0190

假設變異

數相等 0067 0797 0139 125000 0890 -0530 0610

不假設變

異數相等 0138 123883 0890 -0530 0620

假設變異

數相等 0031 0860 -0414 125000 0680 -0890 0580魔

師 不假設變

異數相等 -0413 123981 0680 -0890 0580

假設變異

數相等 2029 0157 -1359 125000 0177 -1030 0190猜

猜 不假設變

異數相等 -1355 121450 0178 -1030 0190

假設變異

數相等 0391 0533 -0452 125000 0652 -1060 0660擲

子 不假設變

異數相等 -0452 123426 0652 -1060 0670

65

結果顯示各小題的平均數女生分別是34474413432177

494男生分別是326418417417135474除了幾何方塊之外

幾乎都是女生高於男生而各小題的Levene變異數檢定結果其P值分別是

0220513079708601570533均大於005顯示沒有顯著差異

而平均數的檢驗結果各題的P值分別是0451014408906801770652

也都大於005也呈現沒有達到顯著差異可見這6題的考題成績結果與刻板

印象「男生數理比較厲害」有不同的結果

第三節 利用 TIMSS 2003 實作評量試題比較施測

學校與原始施測資料的成績差異

本節研究重點是 TIMSS 2003 的題目與國際受測國家中總體表現較好的國家

資料及台灣原始資料進行比較TIMSS 網站上提供各個受測國家的資料檔研究

者下載了新加坡香港日本台灣比利時與美國的資料之所以下載這幾個

國家的資料是因為四年級測驗總分結果前五名剛好是新加坡香港日本台

灣比利時而且從總分的分析結果顯示台灣與新加坡香港有顯著差異與日

本沒有顯著差異而比利時與台灣也有顯著差異所以比較這五個國家而美國

是因為研究者想了解美國學生是否真的比較會活用故列入此次的比較探討在

實作評量上是否達到顯這差異研究方法採用變異數分析與事後比較事後比較

採用雪費(Scheffe)檢定法由於 TIMSS 施測時採用 12 本測驗題本所以參與

實作評量的各題人數並不一致會出現同一個國家在不同題目上有不同人數的情

況另外因研究者分三天進行六題施測每題實際受測人數也有不同

一圖形題

66

表4-3-1 95年圖形題題組得分情形分配表

題目 得 0分人數 得 1分人數 缺失值 總人數

圖形題甲 66 934 6 127

圖形題乙 41 959 6 127

圖形題丙 174 826 6 127

圖形題丁 223 777 6 127

由表 4-3-1 可知在圖形題題組中各小題得分均以得 1分的人數分別是

934959826777各題百分比是否達到顯著不同研究者用百分比

同質性檢定結果列於表 4-3-2

表 4-3-2 圖形題百分比同質性檢定

得分題目 交叉表

題目

1 2 3 4 總和

得分 0 8 5 21 27 61

得分 1 113 116 100 94 423

總和 121 121 121 121 484

卡方檢定

數值 自由度 p-value

Pearson 卡方 24666a 3000 0000

概似比 25936 3000 0000

線性對線性的關連 19950 1000 0000

有效觀察值的個數 484000

a 0 格(0)的預期個數少於 5最小的預期個數為 1525

67

結果顯示 Pearson 的卡方值 24666df=3p=0000達到顯著水準所以

各題的答對率百分比是不同的

表4-3-3 圖形題題組各國答對率的比較

題目 新加坡答

對率

香港答對

日本答對

台灣答對

比利時答

對率

美國答對

施測學校

答對率

圖形題甲 830 958 917 936 833 727 934

圖形題乙 937 988 902 950 911 877 959

圖形題丙 702 859 744 847 504 328 826

圖形題丁 616 490 634 656 504 553 777

00

400

800

新加坡

香港

日本

台灣

比利時

美國

施測學

圖形

題甲

圖形

題乙

圖形

題丙

圖形

題丁

圖4-3-1 圖形題題組答對率之比較圖

由表 4-3-3 與圖 4-3-1 可知在圖形題題組中甲題的答對率以香港最高

台灣與施測學校居次美國最低乙題的答對率以香港最高台灣與施測學校還

是居次美國最低丙題的答對率以香港最高台灣居次美國最低而且低到

328丁題的答對率以施測學校最高台灣居次香港最低低到 490香港

68

在此小題的表現與上述三小題的結果明顯有很大差距

接著進行變異數分析與事後比較的結果

表4-3-4 圖形題各題之資料統整

圖形題甲

有效的個數 平均數 標準差

新加坡甲 1103 0830462 0375396

香港甲 757 0957728 0201342

日本甲 767 0916558 0276730

台灣甲 776 0935567 0245681

比利時甲 779 0833119 0373109

美國甲 1636 0726773 0445753

施測甲 121 0933884 0249517

圖形題乙

有效的個數 平均數 標準差

新加坡乙 1103 0937443 0242274

香港乙 757 0988111 0108458

日本乙 767 0902216 0297216

台灣乙 776 0949742 0218617

比利時乙 779 0911425 0284312

美國乙 1636 0877139 0328378

施測乙 121 0958678 0199862

題形題丙

有效的個數 平均數 標準差

新加坡丙 1103 0701723 0457709

香港丙 757 0858653 0348610

日本丙 767 0744459 0436450

台灣丙 776 0846649 0360557

比利時丙 779 0504493 0500301

美國丙 1636 0327628 0469492

施測丙 121 0826446 0380300

69

圖形題丁

有效的個數 平均數 標準差

新加坡丁 1103 0615594 0486675

香港丁 757 0490092 0500232

日本丁 767 0633638 0482125

台灣丁 776 0655928 0475371

比利時丁 779 0504493 0500301

美國丁 1636 0552567 0497381

施測丁 121 0776860 0418083

由表 4-3-4 得知參與此題的人數以美國的 1636 人最多香港日本台

灣比利時的人數差不多經變異數分析後如表 4-3-5 所示

表 4-3-5 圖形題各題之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

圖形題甲 組間 44078 6 7346 59531 0000

組內 732026 5932 0123

總和 776103 5938

圖形題乙 組間 8009 6 1335 18752 0000

組內 422269 5932 0071

總和 430278 5938

圖形題丙 組間 257623 6 42937 223054 0000

組內 1141889 5932 0192

總和 1399511 5938

圖形題丁 組間 24546 6 4091 17047 0000

組內 1423561 5932 0240

總和 1448107 5938

70

表4-3-5顯示在α=005之下圖形題4小題的P值均<005均達顯著

水準可見這4題的平均得分有顯著不同所以研究者進一步做事後分析如表

4-3-6所示配合研究者的研究目的本文中只摘錄與研究目的相關的資料其

他比較結果請參閱附錄表格

表 4-3-6 圖形題各題之事後比較

Scheffe 法

題目 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0100 0034 0150

香港 -0024 0034 0998

日本 0017 0034 1000

台灣 -0002 0034 1000

比利時 0100 0034 0196

圖形題

美國 0210 0033 0000

施測 新加坡 0021 0026 0995

香港 -0029 0026 0973

日本 0057 0026 0585

台灣 0009 0026 1000

比利時 0047 0026 0772

圖形題

美國 0082 0025 0105

施測 新加坡 0120 0042 0185

香港 -0032 0043 0997

日本 0082 0043 0724

台灣 -0020 0043 1000

比利時 0320 0043 0000

圖形題

美國 0500 0041 0000

施測 新加坡 0160 0047 0066

香港 0290 0048 0000

日本 0140 0048 0178

台灣 0120 0048 0382

比利時 0270 0048 0000

圖形題

美國 0220 0046 0001

71

由表4-3-6所顯示的結果得知在圖形題這四小題中施測學校與台灣在2003

年所作的調查結果的資料並沒有達到顯著差異可見施測學校的圖形題各小題的

平均得分與2003年的台灣資料的圖形題各小題的平均得分是視為相等的施測學

校在圖形題乙的部分與國際上2003年表現較好的國家的施測資料也都沒有達到

顯著差異可見在這一小題上施測學校與國際上表現較好的國家的平均得分也

是可以視為相等的但是在圖形題甲中施測學校與美國有達到顯著差異在圖

形題丙中施測學校與比利時美國有達到顯著差異在圖形題丁中施測學校

與香港比利時美國有達到顯著差異可見在圖形題甲中施測學校的平均得

分優於美國在圖形題丙中施測學校的平均得分優於比利時與美國在圖形題

丁中施測學校的平均得分優於香港比利時與美國

接下來以整個圖形題的題組來看由表 4-3-7 所示變異數分析的結果

表4-3-7 圖形題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 725457 6 120910 107817 0000

組內 6652328 5932 1121

總和 7377785 5938

在α=005的情況下F檢定值為107817plt005達到顯著差異所以

可以得知這七個國家的平均得分有顯著差異所以要進行事後比較如表4-3-8

所示

72

表4-3-8 圖形題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0410 0101 0012

香港 0200 0104 0708

日本 0300 0104 0215

台灣 0110 0104 0982

比利時 0740 0103 0000

美國 1010 0100 0000

由表 4-3-8 得知整個題組的事後分析顯示在α=005 的情況下施測學

校的總分平均得分與與台彎沒有達到顯著差異所以平均總得分是可以視為相等

的而施測學校總平均得分與新加坡比利時美國有達到顯著差異所以施測

學校的總平均得分是優於新加坡比利時與美國

二數字卡題組

表4-3-9 95年數字卡題題組得分情形分配表

得 0分人數 得 1分人數 得 2分人數 遺漏值 總人數

數字卡 1 317 683 7 127

數字卡 2 242 758 7 127

數字卡 3 117 92 792 7 127

數字卡 4 300 700 7 127

數字卡 5 317 683 7 127

數字卡 6 783 217 7 127

由表 4-3-9 可知在數字卡題題組中各小題得分分別以數字卡 1得 1分者

73

佔 683以數字卡 2得 1分者佔 758以數字卡 3得 2分者佔 792以數字

卡 4得 1分者佔 70以數字卡 5得 1分者佔 683以數字卡 6得 0分者佔 783

居多數字卡 6得分偏低此小題是要求學生將已知的三個數字拼成兩個數後所

得乘積最大結果顯示學生答對率偏低但學生在加法與減法上則無此現象(數

字卡 4與數字卡 5)此題各國答對率的比較結果列於表 4-3-10

表4-3-10 數字卡題題組各國答對率的比較

題目 新加坡 香港 日本 台灣 比利時 美國 施測學校

數字卡 1 494 624 646 698 475 416 683

數字卡 2 567 538 619 657 556 458 758

數字卡 3 645 595 594 657 553 563 792

數字卡 4 713 710 754 647 556 534 700

數字卡 5 693 689 738 629 546 497 683

數字卡 6 264 243 362 225 185 135 217

0

20

40

60

80

100

數字卡1

數字卡2

數字卡3

數字卡4

數字卡5

數字卡6

圖 4-3-2 數字卡題題組答對率之比較圖

74

由表 4-3-10 與圖 4-3-2 可知在圖形題題組中第 1題的答對率以台灣最

高施測學校居次美國最低第 2題的答對率以施測學校最高台灣居次美

國最低第 3題的答對率以施測學校最高台灣居次比利時最低第 4題的答

對率以日本最高新加坡和香港居次美國最低第 5題的答對率以日本最高

新加坡居次美國最低第 6題的答對率還是以日本最高新加坡居次美國最

低接著進行變異數分析結果列於表 4-3-11

表 4-3-11 數字卡題各題之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

組間 34477 6 5746 2418 0000

組內 717422 3019 0238 第一題

總和 751899 3025

組間 18413 6 3069 12727 0000

組內 727966 3019 0241 第二題

總和 746379 3025

組間 36829 6 6138 7166 0000

組內 2585878 3019 0857 第三題

總和 2622707 3025

組間 22038 6 3673 16419 0000

組內 675332 3019 0224 第四題

總和 697369 3025

組間 24878 6 4146 18142 0000

組內 689975 3019 0229 第五題

總和 714853 3025

組間 14939 6 2490 14850 0000

組內 506156 3019 0168 第六題

總和 521095 3025

75

表4-3-11顯示在α=005之下數字卡題6小題均達顯著水準可見這6小題

的平均得分有顯著不同所以研究者進一步做事後分析如表4-3-12所示配合

研究者的研究目的本文中只摘錄與研究目的相關的資料其他比較結果請參

閱附錄表格

表4-3-12 數字卡題之事後比較

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0190 0049 0021

香港 0059 0051 0969

日本 0037 0051 0998

台灣 -0015 0051 1000

比利時 0209 0051 0010

第一題

美國 0267 0048 0000

施測 新加坡 0192 0049 0020

香港 0221 0051 0005

日本 0140 0052 0296

台灣 0101 0051 0692

比利時 0203 0051 0016

第二題

美國 0301 0048 0000

施測 新加坡 0335 0093 0045

香港 0451 0097 0001

日本 0404 0098 0009

台灣 0302 0097 0136

比利時 0500 0097 0000

第三題

美國 0490 0091 0000

施測 新加坡 -0013 0048 1000

香港 -0010 0050 1000

日本 -0054 0050 0978

台灣 0053 0049 0979

比利時 0144 0049 0201

第四題

美國 0166 0046 0045

76

表 4-3-12(續) 數字卡題之事後比較

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 -0010 0048 1000

香港 -0006 0050 1000

日本 -0054 0050 0979

台灣 0054 0050 0978

比利時 0138 0050 0267

第五題

美國 0186 0047 0014

施測 新加坡 -0047 0041 0971

香港 -0026 428E-02 0999

日本 -0145 0043 0079

台灣 -0008 0043 1000

比利時 0031 0043 0997

第六題

美國 0082 0040 0654

由表4-3-12所顯示的結果得知在數字卡題這六小題中施測學校與台

灣在2003年所作的調查結果資料並沒有達到顯著差異可見施測學校的數字卡題

各小題的平均得分與2003年的台灣資料的數字卡題各小題的平均得分是視為相

等的施測學校在數字卡題第六題的部分與國際上2003年表現較好的國家的施測

資料也都沒有達到顯著差異可見在這一小題上施測學校與國際上表現較好的

國家的平均得分也是可以視為相等的但是在數字卡題第一題中施測學校與新

加坡比利時美國有達到顯著差異顯示在這一小題中施測學校的成績是優

於這三個國家的在數字卡題第二題中施測學校與新加坡香港比利時美

國有達到顯著差異顯示在這一小題中施測學校的成績是優於這四個國家的

在數字卡題第三題中施測學校與新加坡香港日本比利時美國有達到顯

著差異顯示在這一小題中施測學校的成績是優於這五個國家的在數字卡題

第四題中施測學校與美國有達到顯著差異顯示在這一小題中施測學校的成

績是優於美國的在數字卡題第五題中施測學校與美國有達到顯著差異顯示

77

在這一小題中施測學校的成績是優於美國的

接下來以整個數字卡題的題組來看由表 4-3-13 所示變異數分析的結果

表4-3-13 數字卡題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 660902 6 110150 23261 0000

組內 14295950 3019 4735

總和 14956850 3025

在α=005的情況下F檢定值為23261plt005達到顯著差異所

以可見這七個國家總分的平均得分有顯著差異所以進行事後比較如表4-3-14

所示

表 4-3-14 數字卡題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0645 0219 0192

香港 0688 0228 0167

日本 0327 0229 0916

台灣 0486 0227 0598

比利時 1224 0227 0000

美國 1492 0213 0000

由表4-3-14得知整個題組的事後分析顯示在α=005的情況下施測學校

的總分平均得分與台彎沒有達到顯著差異所以平均總得分是可以視為相等的

而施測學校總平均得分與比利時美國有達到顯著差異所以施測學校的總平均

得分是優於比利時與美國

78

三幾何方塊題組

表4-3-15 95年幾何方塊題題組得分情形分配表

得 0分人數 得 1分人數 得 2分人數 遺漏值 總人數

幾何方塊 1 50 950 8 127

幾何方塊 2 109 891 8 127

幾何方塊 3 252 748 8 127

幾何方塊 4 193 807 8 127

幾何方塊 5 244 479 277 8 127

由表 4-3-15 可知在幾何方塊題題組中各小題得分分別以幾何方塊 1得 1

分者佔 95以幾何方塊 2得 1 分者佔 891以幾何方塊 3 得 1 分者佔 748

以幾何方塊 4得 1分者佔 807以幾何方塊 5得 1分者佔 479居多各題各

國答對率的比較結果列於表 4-3-16

表 4-3-16 幾何方塊題題組各國答對率的比較

題目 新加坡 香港 日本 台灣 比利時 美國 施測學校

幾何方塊 1 432 602 785 580 517 399 950

幾何方塊 2 447 470 717 546 548 405 891

幾何方塊 3 720 702 557 613 432 461 748

幾何方塊 4 557 436 447 323 516 446 807

幾何方塊 5 115 66 135 82 123 76 277

79

0

20

40

60

80

100

幾何

方塊1

幾何

方塊2

幾何方塊3

幾何

方塊4

幾何

方塊5

圖4-3-3 幾何方塊題題組答對率之比較圖

由表 4-3-16 與圖 4-3-3 可知在幾何方塊題組中第 1題的答對率以施測

學校最高日本居次美國最低第 2題的答對率以施測學校最高日本居次

美國最低第 3題的答對率以施測學校最高新加坡居次比利時最低第 4題

的答對率以施測學校最高新加坡居次台灣最低第 5題的答對率以施測學校

最高日本居次香港最低接著進行變異數分析結果列於表 4-3-17

80

表 4-3-17 幾何方塊題各題之變異數分析

得分 平方和 自由度 平均平方和 F 檢定 p-value

組間 115732 6 19289 83927 0000

組內 1363788 5934 0230 第一題

總和 1479520 5940

組間 75877 6 12646 53259 0000

組內 1409236 5935 0237 第二題

總和 1485112 5941

組間 77699 6 12950 55905 0000

組內 1374774 5935 0232 第三題

總和 1452473 5941

組間 42205 6 7034 29061 0000

組內 1436564 5935 0242 第四題

總和 1478768 5941

組間 51860 6 8643 20902 0000

組內 2454259 5935 0414 第五題

總和 2506120 5941

表4-3-17顯示幾何方塊題5小題均達顯著水準可見這5題的平均得分

有顯著不同所以研究者進一步做事後分析如表4-3-18所示配合研究者的研

究目的本文中只摘錄與研究目的相關的資料其他比較結果請參閱附錄表格

81

表4-3-18 幾何方塊題各題之事後比較

Scheffe 法

題號 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0520 0046 0000

香港 0350 0047 0000

日本 0160 0047 0060

台灣 0370 0047 0000

比利時 0430 0047 0000

第一題

美國 0550 0046 0000

施測 新加坡 0440 0047 0000

香港 0420 0048 0000

日本 0170 0048 0040

台灣 0340 0048 0000

比利時 0340 0048 0000

第二題

美國 0490 0046 0000

施測 新加坡 0028 0046 0999

香港 0046 0047 0988

日本 0190 0047 0012

台灣 0140 0047 0230

比利時 0320 0047 0000

第三題

美國 0290 0046 0000

施測 新加坡 0250 0047 0000

香港 0370 0049 0000

日本 0360 0049 0000

台灣 0480 0049 0000

比利時 0290 0049 0000

第四題

美國 0360 0047 0000

82

表 4-3-18(續) 幾何方塊題各題之事後比較

題號 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0260 0062 0006

香港 0430 0063 0000

日本 0280 0063 0004

台灣 0480 0063 0000

比利時 0350 0063 0000

第五題

美國 0420 0061 0000

由表4-3-18所顯示的結果得知在幾何方塊題這五小題中只有第三小

題施測學校與台灣在2003年所作的調查結果資料並沒有達到顯著差異其他四小

題的結果都是與台灣達到顯著差異的可見施測學校的平均得分在這四小題中是

優於台灣在2003年所作的調查結果資料在幾何方塊題第一題中施測學校與新

加坡香港比利時美國有達到顯著差異顯示在這一小題中施測學校的成

績是優於這四個國家的在幾何方塊題第二題中施測學校與新加坡香港日

本比利時美國有達到顯著差異顯示在這一小題中施測學校的成績是優於

這五個國家的在幾何方塊題第三題中施測學校與日本比利時美國有達到

顯著差異顯示在這一小題中施測學校的成績是優於這三個國家的在幾何方

塊題第四題中施測學校與新加坡香港日本比利時美國有達到顯著差異

顯示在這一小題中施測學校的成績是優於這五個國家的在幾何方塊題第五題

中施測學校與新加坡香港日本比利時美國有達到顯著差異顯示在這

一小題中施測學校的成績是優於這五個國家的

接下來以整個幾何方塊題的題組來看由表 4-3-19 所示變異數分析的結果

83

表4-3-19 幾何方塊題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 885084 6 147514 50368 0000

組內 17379220 5934 2929

總和 18264300 5940

在α=005的情況下F檢定值為50368plt005達到顯著差異所

以可見這七個國家總分的平均得分有顯著差異所以進行事後比較如表4-3-20

所示

表4-3-20 幾何方塊題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 1499 0165 0000

香港 1615 0169 0000

日本 1166 0169 0000

台灣 1814 0169 0000

比利時 1727 0169 0000

美國 2101 0162 0000

由表4-3-20得知整個題組的事後分析顯示在α=005的情況下施測學

校的總分平均得分與台彎有達到顯著差異所以平均總得分是施測學校優於台灣

在2003年所作的調查結果資料的而施測學校總平均得分與新加坡香港日本

比利時美國有達到顯著差異所以施測學校的總平均得分是優於新加坡香港

日本比利時美國

84

第四節 實作評量試題的類推性

本研究試題的評分者有兩位所以採用的是評分者與工作項目的兩面向交叉

設計(the two-facet crossed persontimesratertimestask design)研究者原先想

利用 SPSS 套裝軟體進行多變量變異數分析將評分的結果做概化程度的分析

計算出各個變異來源之變異成份的大小及其佔總變異的百分比但因檔案太

大SPSS 套裝軟體無法進行多變量變異數分析所以研究者改用 EXCEL 軟體進行

試算其結果列於表 4-4-1

表4-4-1 實作評量概化程度變異成分表

變異來源 估計變異成份 佔總變異之百分比

受試者 0887981185 1944983082

評分者 96E-16 211E-14

工作項目 1697518073 3718146275

受試者評分者 0 0

受試者工作項目 1872595983 410162689

評分者工作項目 0033245844 0728197914

受試者評分者工作項目及誤差 0074154589 1624239615

G 係數 0736144063

註 1在受試者與評分者的交互作用項中其估計變異成份的大小為-106396E-15Shavelson

Webb(1991)指出當某變異成份實際的值接近或等於 0 時取樣的誤差可能導致該變異成份

的估計值成為負數此時可將負值的變異成份大小設定為 0

從以上的表 4-4-1研究者有以下的發現

一實作評量最大的三個變異來源是受試者和工作項目的交互作用工作項

目之間的變異與受試者之間的變異

實作評量最大的變異來源是受試者和工作項目的交互作用佔總變異量的

85

41016表示在研究者的實作評量裡學生的成績會因著工作項目的不同而有

高低起伏如此一來便會降低以某位受試者的觀察分數概化至其真實分數的可

靠程度所以研究者無法以學生在少量的實作評量評量項目上的表現來做為他

們在數學科能力的推論

此外在研究者的實作評量中第二大的變異來源為工作項目之間的變異

其值為 170佔總變異的 37181這只是反應了學生在評量項目上能力表

現的差異並非影響 G係數大小的主要因素關於這一點研究者從計算 G係數

的公式可以了解G係數的計算公式是這樣的

G=σ2p(σ2

p+σ2ptnt+σ2

rpnr+σ2rptenrtimesnt)

G 係數的意義是受試者間的變異量在與受試者有關的變異量之總和中所佔的

比例大小因此若受試者間的變異量愈大而相對於受試者與其他實驗設計面

向的變異量及誤差愈小則 G係數便會愈大也就是根據測驗成績來作推論的可

靠性愈高

二兩位評分者之間的變異極小

評分者之間的變異為傳統的評分者信度從表 4-4-1 可以看到兩位評分結果

之間的變異值為 96E-16僅佔總變異的 211E-14顯示研究者的評分標準非

常一致也就是說研究者兩位當中並沒有誰評分時較為嚴格(stringent)或

較為寬大(liberal)

三受試者與評分者之間沒有交互作用

表 4-4-1 顯示受試者與評分者之間的交互作用為 0表示研究者兩位評分者

並沒有受到月暈效應的影響而對某些學生給予較高的成績對其他學生則給予較

低的成績這一點也可做為評量是否具有公平性的證據之一

四評分者與工作項目間的交互作用非常小

評分者與評量項目間的交互作用很小表示兩位評分者在評定各個評量項目

的評量標準相當一致這原因是由於評分標準訂定的相當明確而且具體讓評分

86

者之間沒有認知的差異存在

從評量工作項目的內容來看本次測驗所測量的雖然同樣是數學能力

測驗但各題所涵蓋的領域包含了統計的資料處理分析能力(擲骰子)幾

何對稱概念(魔術師)概算能力(猜一猜)幾何圖型的直觀概念(圖形

題)數與量中的整數加減乘的運算分析能力(數字卡)結合數與形兩大

主題的幾何形體構成要素及其數量性質(幾何方塊)題目本身的差異性很

大而且每位學生所擅長的方面有所不同在工作項目的表現自然就有所

不同在加上每題的配分並不盡相同所以由這些評量項目概化至其他數

學科能力的程度就降低了這也就是本研究的 G 係數僅達 0313表示如果

使用少量的實作評量工作項目將無法達到所需要的信度

另外主要效果是受試者的變異數值是 0888佔總變異的 19450代

表學生之間的程度差異也很大

根據概化程度研究的結果研究者可以進一步做決策研究(decision

study)決策研究是用來指出若要達到足夠小的誤差變異或足夠大的概化

係數時每一個學生需要多少工作項目以及每一個工作項目需要多少評分

者下面研究者分別分析在幾個評分者的情況下實作評量工作項目為幾

個時G 係數才能達到 08

87

表 4-4-2 G 研究與各種 D 研究之變異成分分析與推論力係數

變異源 G 研究變異成

分之估計值D研究變異成分之估計值

nr= 1 2 3 5 2 2 2

ni= 1 6 6 6 7 8 9

受試者 0888 0888 0888 0888 0888 0888 0888

評分者 0000 0000 0000 0000 0000 0000 0000

工作項目 1698 0283 0283 0283 0243 0212 0189

受試者評分者 0000 0000 0000 0000 0000 0000 0000

受試者工作項目 1873 0312 0312 0312 0268 0234 0208

評分者工作項目 0033 0100 0066 0040 0116 0133 0150

受試者評分者工

作項目及誤差 0074 0006 0004 0002 0005 0005 0004

σRel 1947 0318 0316 0315 0273 0239 0212

G 係數 0313 0736 0737 0738 0765 0788 0807

由表 4-4-2 可知原設計研究 2位研究者與 6道題目的方式推出 G係數只有

0736當評分者增加一位而題目維持六題時G係數只增加 001 達到 0737

如果將評分者增加到五位而題目仍維持六題時G係數只增加 002 達到 0738

可見增加評分者的影響有限如果評分者維持兩位而題目增加為七題G係數會

增加 0029達到 0765如果評分者維持兩位而題目增加為八題G係數會增加

0052達到 0788可見增加題目的效果比增加評分者更為有效當評分者為兩

位題目為九題時G係數可達 0807顯示評分者為兩位題目為九題時內

部一致性較佳

88

第五章 結論

本研究以 TIMSS 數學實作評量的題目為工具進行特定環境背景不同年度的

縱貫研究及與其他國際上表現較佳的國家進行橫貫研究以下為本研究進行所得

的經驗以及資料分析所得之結果分別以結論以及建議等兩節進行說明

第一節 結論

壹實作評量的信效度

TIMSS 試題在台灣之施測是具有一定信效度在信度方面經實際施測後計

算的結果為 0799所以 TIMSS 數學實作評量試題在台灣之施測是具有信度的

但根據實作評量試題的類推性分析結果發現G研究中的 G係數只有 0313深

入探討其原因可能是試題難易程度的差別較大與各題配分比例不同所造成的

所以在 D研究中要補救其信度低的措施就是增加評分者為兩位題目為九題時

其 G係數就可以達到 0807在效度方面每一題均有詳細說明細節行為的項目

給定參考答案圖形的作品量表各題除經著名國際測驗機構審核施測過外並由

研究者另請學校資深四年級教師共同研究討論題目與答案對於施測過程研究

者也與四位監考老師討論後訂出共同標準所以在效度方面具有專家效度跟內

容效度

貳評量結果與比較

一在進行縱貫研究方面在魔術師題型上民國 95 年的結果較佳在擲

骰子題型上是民國 89 年的結果較佳在猜一猜題型上民國 89 年的結

果較佳此結果顯示在幾何概念的對稱觀念上民國 95 年的學生有較

佳的表現但在統計觀念及概數觀念上民國 89 年的學生表現較佳

在實際施測過程中研究者發現在魔術師題型的第一題上許多民國

95 年的學生是先將題目要求的圖形剪出來後再進行對摺當然如果學生

是交出這樣的答案紙條評分者是不給分的因為當評分者在沿著摺線

89

還原時就會發現不是一刀剪出來的可是因為有三個機會所以許多學

生得到這樣的經驗後就會在第二次或第三次時剪出題目要求的結果

而且第一題的成功經驗會連帶的影響第二題的作答因為摺的方式是

一樣的只是剪的地方是不同的所以不管民國 95 年或是民國 89 年的

作答結果都會發現第二題的答對率均比第一題高而第三題的作答方

式因為要多摺一次而且較難複製前面成功的經驗所以第三小題的答

對率比前兩題均比較低所以研究者認為在這一題型上民國 95 年的

學生會表現得比較好的原因可能在於有比較好的作答技巧

二TIMSS 實作評量在性別及班級之間沒有顯著差異

三在圖形題題型上施測學校與台灣西元 2003 年施測結果沒有達到顯著

差異在數字卡題型上施測學校與台灣西元 2003 年施測結果沒有達

到顯著差異在幾何方塊題型上施測學校與台灣西元 2003 年施測結

果達到顯著差異之所以在幾何方塊題型上會達到顯著差異研究者認

為可能是時間點的問題因為研究者施測的時間是利用學期末期末考

後而剛好這次期末考有分數的單元所以學生對這個範圍比較熟悉

才可能造成施測學校的成績特別突出

四在圖形題題型上施測學校優於新加坡比利時及美國在數字卡題型

上我國優於比利時美國在幾何方塊題型上施測學校優於新加坡

香港日本比利時美國研究者特別注意到香港與美國這兩個國家

在 89 年徐美英論文中香港在該年的施測結果都比徐美英施測結果落

後但在 95 年的施測結果卻只有幾何方塊題型是明顯落後施測學校這

表示不是台灣學生在這幾年程度變低了就是這幾年香港程度變高了

在跟縱貫研究做交叉比較後研究者認為台灣學生這幾年程度變低的可

能性較大而美國不管是在 89 年與徐美英論文的施測結果比較或是與

95 年施測結果比較均在這兩次比較中明顯落後

90

第二節 建議

壹TIMSS 實作評量的後續研究

由於數學科實作評量在實際施測時常有人力與物力上的考量以至於在實

際教育現場上並不常用但是實作評量所測出的學生能力與紙筆測驗所測出的

學生能力是不同面向的經過此次實際施測的經驗研究者認為運用 TIMSS 實

作評量的試題來了解學生的學習成就可以在經濟負擔的考慮範圍內達到可

信賴的研究成果因此建議後續研究者可朝向此方向繼續研究以期能更深入

了解學生學習成就的變化情形

貳學生學習成就的長期追蹤

建立台灣的長期教育資料庫是必要的這是從事教育基礎研究的中外學者

的共識研究者此次研究以 TIMSS 實作評量的試題為工具來了解民國 89

年跟民國 95 年特定環境背景的國小四年級學生學習成就的比較即以此理念

為出發點目前在中央研究院教育部和國科會共同推動下『台灣教育長期

追蹤資料庫』的建置工作也已在 2001 年 10 月份起正式展開目的是為了從教

育基礎研究的角度出發研究哪些因素會影響到學生解決問題的能力如學

生努力程度學習機會和學習能力等等當然資料的品質是累積而來的不做

沒有開始就不可能有改進也就不可能有較豐富的資料內容美國國家教育

長期研究(National Education Longitudinal Study NELS)其資料的品質

和豐富素為各國教育研究學者所稱道就是因為它累積了二十多年的經驗

且經過多次的增刪修改研究者也希望能有後續研究者投入後續的相關研究

並累積相關的資料以利決策者能創造出適合台灣學生的最佳學習環境

叁開放性問題的評量研究

在此次研究中發現學生對於開放性問題的解題能力非常不足對於設計

好的題目較難提出歸納模式或者合理的推測這或許歸因於教學現場中的標

91

準化測驗在整個學習過程中教學活動跟教學評量是交互不斷進行而常常

受限於時間跟經濟因素教師只能被迫選擇標準化測驗以診斷學生學習困難

處但是標準化測驗容易讓學生誤以為答案是唯一的而且數學知識是可以切

割成不相關的小部分的因此在國民中小學九年一貫課程綱要中提出「教師

應透過各種評量方式以檢驗教學效果」的觀念研究者建議後續研究者能進一

步探討這方面的相關研究

肆國際比較的重要性

許多國家多年以前即開始參與大型國際研究以了解自己國家學生與其他

不同國家或區域的學生學習成就的差異特別的是此類國際研究對於結果的分

析是深入且多面向的包括學生家庭背景班級學校等民國 95 年中國時

報特別以專欄方式提出芬蘭的教育成功經驗以供國內教育改革的參考為什

麼要特別提出芬蘭呢因為芬蘭在重要的國際比較研究中常常名列前矛所

以參與大型的國際研究可以找出成功的經驗減少自己摸索的時間

92

參考文獻

壹中文部份

王秀琲 (民 92)實作評量在國小數學科之應用-以五年級學童分數為例國立

臺中師範學院教育測驗統計研究所碩士論文

方泰山(民 91)第四次 TIMSS 2003 NRC 自由反應評分系統研討會會議報告

httpichochemntnuedutwpub4thnrcreporthtm

石千奇(民 93)國小六學童在數學實作評量中的小組解題歷程分析國立中山

大學教育研究所碩士論文

江文慈(民 87)一個新評量理念的探討多元智力取向的評量教育資料與研

究20 期6-12

曲慧娟 (民 94)實作評量在國中學術性向優異班招生鑑定之效度研究~以臺灣

北區為例國立臺灣師範大學特殊教育研究所碩士論文

李坤崇(民 88)多元化教學評量台北心理

余民寧(民 93)教育測驗與評量-成就測驗與教學評量第二版台北心理

吳毓瑩(民 85)評量的蛻變與突破-從哲學思潮與效度理論參考起教育資料

與研究13 期2-15

李虎雄張敏雪(民 87)由學力評量觀點談實作評量之特性測驗與輔導

3104-3108

吳明隆(民 87)教室做為評量環境的內涵與其評量新趨勢研習資訊15 卷

4期62-77

93

吳清山林天佑(民 85)教育名詞 mdash分流教育教育資料與研究885

李長柏(民 91)國小數學簡單機率解題實作評量與後設認知之相關研究國立

臺中師範學院教育測驗統計研究所碩士論文

呂政隆(民 93)國小學童在數學實作評量解題整合認知與課程之相關研究

國立臺中師範學院教育測驗統計研究所碩士論文

呂金燮(民 88)實作評量-理論載於王文中呂金燮吳毓瑩張郁雯張淑

慧(合著)教育測驗與評量教室學習觀點(頁 173-207)台北五

李茂能(民 85)信度考驗的另一途徑推論力理論國民教育學報227-48

林清山(民 81)心理與教育統計學台北東華

林敬修(民 92)影響國小數學科實作評量信度相關因素之類推性理論分析國

立屏東師範學院教育心理與輔導學系研究所碩士論文

洪之昀(民 89)數學科實作評量對國小高年級學童學習策略影響之研究國立

臺中師範學院教育測驗統計研究所碩士論文

桂怡芬吳毓瑩(民 87)自然科實作評量的效度探討測驗年刊45(2)19-36

桂怡芬(民 85)自然科實作評量的效度探討國立台北師範學院國民教育研究

所碩士論文

桂怡芬(民 85)紙筆與實作的互補我的實作評量經驗教育資料與研究13

期36-40

徐美英(民 89)TIMSS 數學實作評量在台灣之試用探討國立臺中師範學院教

育測驗統計研究所碩士論文

94

夏淑琴(民 88)教學評量革新-多元評量載於高強華主編(民 88)學校變遷與

學校革新台北師大

教育部(民 92)國民中小學九年一貫課程綱要數學學習領域台北教育部

張紹勳張紹評林秀娟(民 92a)SPSS For Windows 統計分析初等統計與高

等統計(上冊)(第四版)台北文魁資訊股份有限公司

張紹勳張紹評林秀娟(民 92b)SPSS For Windows 統計分析初等統計與高

等統計(下冊)(第四版)台北文魁資訊股份有限公司

張敏雪(民 86)實作評量的本質及國民中小學數理科教師對實作評量的態度探

討國立臺灣師範大學數學研究所碩士論文

張敏雪(民 87)教室內的實作評量教育資料與研究20 期24-27

張敏雪(民 86)實作評量的本質及國民中小學數理科教師對實作評量的態度探

討國立師範大學數學研究所碩士論文

張英傑等著(民 94)數學科教師手冊台南南一書局

張永杰 (民 92)實作評量取向的幾何思考研究國立臺灣大學國際企業學研究

所碩士論文

張麗麗(民 91a)從分數的意義談實作評量效度的建立教育研究月刊9837-51

張麗麗(民 91b)評量改革的應許之地虛幻或真實-談實作評量之作業與表

現規準教育研究月刊9376-86

郭生玉(民 84)心理與教育研究法台北精華

陳英豪吳裕益(民 85)測驗與評量高雄復文

95

陳文典陳義勳李虎雄簡茂發(民 84)由馬里蘭州的學習成就評量與其在

台灣的施測結果看-實作評量的功能與應用科學教育月刊185 期

2-10

陳昭地(民 88)「第三次國際數學與科學教育成就研究」後續調查

httpreporticentnutwnscreportTIMSS-R(1999)實測後

期中報告--交國科會htm

陳怡玉(民 94)降低國小數學科實作評量人和作業交互作用變異方法的探討---

以類推性理論分析國立臺南大學測驗統計研究所碩士論文

莊明貞(民 84)變通性評量的發展與實施研習簡訊261

莊明貞(民 85)實作評量理論與實際教育資料與研究9期44-48

曾惠敏(民 87)國小分數概念實作評量之發展及其相關研究國立台南師範學

院國民教育研究所碩士論文

游麗卿(民 87)從實作表現診斷學生乘除法的錯誤概念觀念測驗與輔導雙月

刊149 期3094-3099

鄒慧英譯(民 92)測驗與評量(原作者 Robert L linn and Norman E

Gronlund)台北洪葉文化

鄒慧英(民 86)實作型評量的品管議題兼談檔案評量的應用載於八十七年度

教育測驗新近發展趨勢學術研討會

詹志禹(民 85)評量改革為什麼要進行-回應吳毓瑩<評量的蛻變與突破>

教育資料與研究13 期45-47

96

詹元智(民 91)國小數學科實作評量之效度探討國立屏東師範學院教育心理

與輔導研究所碩士論文

蔡正濱(民 95)國小數學科實作評量評分者ㄧ致性相關因素探討國立屏東教

育大學教育心理與輔導學系研究所碩士論文

鄭麗玉(民 88)教學評量的改革教師之友40 卷1期23-33

歐滄和(民 91)教育測驗與評量台北心理

盧雪梅(民 87)實作評量的應許難題和挑戰教育資料與研究20 期1-5

簡茂發(民 80)命題方法與試題分析國教輔導31(1)2-13

蘇義翔(民 86)實作評量的理論與啟示測驗與輔導3099-3102

貳英文部分

Airasian PW (1991) Classroom assessment New York McGraw-Hill

Airasian PW (1994) Classroom assessment(2nd ed)NewYork

McGraw-Hill

Baron J B (1991) Strategies for the development of effective

performance exercise Applied Measurement in Education 4(4)

305-318

Baxter G P Shavelson R J Goldman S R amp Pine J

(1992) Evaluation of a procedure-based scoring for hands-on

science assessment Journal of Educational Measurement 29(1)

1-17

97

Baxter G P Shavelson R J Herman S J Brown K A amp Valadez

J R(1993) Mathematics performance as sessment technical

quality and diverse student impact Journal for Research in

Mathematics Education 24(3) 1990-216

Dunbar S B Koretz DM amp Hoover HD(1991) Quality control control

in the development and use performance assessmentApplied

Measurement in Educational 4(4) 289-303

Frechtling J A (1991) Performance assessment Moonstruck or the real

thing Educational Measurement Issues and Practice 10(4)

23-25

Haertel EH and Linn RL (1996) ldquoComparability in GW Philips

(Ed) Technical Issues in Large-Scale Performance Assessment

Washington DC National Center for Education Statistics

Harmon M amp KellyTA(1996) Development and Design of the TIMSS

performance Assessment In MartinMO and Kelly

DL(eds)Third International Mathematics and Science Study

(TIMSS) Technical Report Volume I Design andd Development

Chestnut Hill MABoston College

Herman JL Aschbacher PR amp Winters L(1990 November) Issues in

developing alternative assessments Paper presented at the

annual meeting of the California Educational Research

Association Chicago

98

Mullis IVS Martin MO Gonzalez EJ Chrostowski SJ(2005)

TIMSS 2003 International Mathematics Report

httptimssbcedutimss2003imathDhtml p31-p47

Linn RL(1993) Educational assessment Expanded expectations and

challenges Educational Evaluation and Policy Analysis 15(1)

1-16

Linn RL Bader EL amp Dunbar SB(1991) Complex Performemce-based

assessmentexpectations and validation criteria Educational

Researcher 20(8) 1521

Linn RL (2000) Assessments and accountability Educational Researcher

29(2) 4-16

Long C amp Stansbury K (1994) Performance assessment for beginning

teachers Phi Delta Kappan76318-322

Messick S (1994) The interplay of evidence and consequences in the

validation of performance assessments Educational Researcher

23(2) 13-23

Messick S (1995) Standards of validity and the validity of standards

in performance assessment Educational Measurement Issues and

Practice 14(4) 5-8

Martin MOMullis IVSChrostowski SJ(2005)TIMSS 2003 Technical

Report httptimssbcedutimss2003itechnicalDhtml

Martin MO(2005) TIMSS 2003 User Guide for the International Database

99

httptimssbcedutimss2003itechnicalDhtml

Miller M D amp Linn R L (2000) Validity of performance-based

assessments Applied Psychological Measurement 24(4) 367-378

Moss P (1994) Can there be validity without reliability Educational

Researcher 23 (2) 5-12

Mullis IVS Martin MO amp Foy P (2005) IEAs TIMSS 2003

International Report on Achievement in the Mathematics Cognitive

Domains httptimssbcedutimss2003imcgdmhtmlp15-p36

Roid G H amp Haladyna T M (1982) A technology for test-item writing

Orlando FL Academic Press

Ruiz-Primo M A Baxter G P amp Shavelson R J(1993) On the stability

of performance assessments Journal of Educational Measurement

30(1) 41-53

Shavelson R J Baxter G P amp Gao X (1993) Sampling variability of

performance assessments Journal of Educational Measurement 30

3215-32

Shavelson R J amp Webb N W (1991) Generalizability theory A primer

Newbury Park CASage

Shepard L A Flexer R J Hiebert E H Marion S F Mayfield

V amp Weston TJ (1996) Effects of introducing classroom

performance assessments on student learning Educational

Measurement Issues and Practice 15(3) 7-18

100

Schmidt W H Jorde D Cogan L Barrier E Gonzalo I Moser U

Shimizu K Sawada T Valverde G Prawat R Mcknight C

Raizen S Britton E Wiley D amp Wolfe R (1996)

Characterizing pedagogical flow An investigation of

mathematics and science teaching in six countries Hinglham

MAKluwer

Silver E A (1993) On mathematical problem posing In N Nohda amp F L

Lin (Eds) Proceedings of the Seventeenth Annual Meeting of the

International Group for the Psychology of Mathematics Education

Vol 1 (pp 66-85) Tsukuba Japan Author

Stiggins R J (1994) Stundent-centered classroom assessment New York

MerrillMacmillan

Stiggins R J (1987) Design and development of performance assessment

Educational Measurement Issues and Practice 6(3)33-42

Telese J A amp Kulm G (1995) Performance-based assessment of at-risk

students in mathematics The effects of context and setting

Paper presented at Annual Meeting of the American Educational

Research Association (ERIC Document Reproduction Service No

ED 382 685)

TIMSS (1997) Performance Assessment in IEAs Third International

Mathematics And Science Study Chestnut Hill MABoston

College

Webb G (1992) On pretexts for higher education development activities

101

Higher Education 24 (3) pp351-61

Wiggins G(1998) Educative assessment Designing assessments to inform

and improve student performance San Francisco California

Jossey-Bass

102

附錄

附錄一TIMSS 2003 參與的國家

Argentina

Armenia

Australia

Bahrain

Belgium (Flemish)

Botswana

Bulgaria

Chile

Chinese Taipei

Cyprus

Egypt

England

Estonia

Ghana

Hong Kong SAR

Hungary

Indonesia

Iran Islamic Republic of Israel

Italy

Japan

Jordan

Korea Republic of Latvia

Lebanon

Lithuania

Macedonia Republic of Malaysia

Moldova

Morocco

Netherlands

New Zealand

Norway

Palestinian National Authority

Philippines

Romania

Russian Federation

Saudi Arabia

Scotland

Serbia

Singapore

Slovak Republic

Slovenia

South Africa

Sweden

Syrian Arab Republic

Tunisia

United States

Yemen Republic of

103

附錄二題目

一猜一猜

媽媽有一個裝滿豆子的密封罐有一天媽媽將豆子分別倒在 9個碗中前 4個

碗中豆子的數量分別是 29313128 個

1 請你猜一猜罐子中大約有幾個豆子

2把你的想法寫出來

二魔術師

一 材料9張紙剪刀一個信封

二你的工作

1 將紙對摺一次或一次以上並剪掉部分的紙使紙的形狀符合題目所給的

形狀

2 每張紙摺疊的次數和形狀隨你喜歡但只能剪一次

【第一題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後

做出如圖一的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

【第二題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後做出如

圖二的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

(在每張你使用過的紙寫上 1和名字)

104

(圖二)

【第三題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後做出如圖三

的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

(圖三)

三擲骰子

一材料一個骰子搖杯

二你的工作

當我們用一個規則來改變骰子擲出來的數字你發現了什麼

改變數字的規則是

當骰子擲出的數字是奇數時減 1並記下結果

當骰子擲出的數字是偶數時加 2並記下結果

1 在下列表中已經示範了兩個例子給你看使用這個規則並找其他

改變後的數字完成這個表格

(在每張你使用過的紙寫上 2和名字)

(在每張你使用過的紙寫上 3和名字)

105

骰子的數字 改變後的數字

2

6

2 看看你所紀錄的「改變後的數字」你發現了什麼

3 擲骰子 30 次並使用規則去改變每次所擲的數字將它紀錄下來

寫在下列的表格中

106

骰子的數字 改變後的數字 骰子的數字 改變後的數字

4將表 3中各個改變後數字出現的次數記在下表中

改變後的數字 次數

0

1

2

3

4

5

6

7

8

5a哪一個數字是你紀錄次數最多的

107

5b為什麼會這樣請寫出你的看法

四幾何方塊

在這一大題你會拿到一張紙板紙板上有10 張小卡片(如下圖)請將這些

正方形卡片分開若你沒有拿到紙卡請舉手

甲利用2 張黑白相間方塊拼出一個較大的黑色三角形並將您的拼法塗在下面

指定的區域

在這裡用斜線塗出

您拼出的黑色三角形

3 個白色方塊

4 張黑白相間方塊

3 個黑色方塊

108

乙利用4 張黑白相間方塊拼出一個黑色的正方形並將您的拼法塗在下面指定

的區域

在這裡用斜線塗出

您拼出的黑色正方形

丙在第乙題中塗黑色的部分佔了全部的幾分之幾

作出分數

甲不准使用黑白相間方塊將4 張方塊拼出一個正方形使得黑色的部分佔

21

並將您的拼法塗在下面指定的區域

在這裡用斜線塗出

您拼出的黑色部分

109

乙請用8 張方塊拼出一個如下圖的長方形使得黑色部分佔

85

並將您的拼法塗在下面指定的區域

在這裡用斜線塗出

您拼出的黑色部分

五圖形題

甲請畫一條直線將這個長方形分成2 個三角形

110

乙請畫一條直線將這個長方形分成2 個長方形

丙請畫兩條直線將這個長方形分成1 個長方形和2 個三角形

丁在下圖的四個三角形中有兩個是形狀相同但大小不同請把這兩個三角形

塗上顏色(線甲乙跟線丙丁平行)

六數字卡

在這部分你將會拿到一張印有 0到 9的數字卡如下圖請將這些數字卡

取下來

甲 乙

1 2

3

4

111

總和為ldquo20的數字遊戲

小杰與小明這兩個小孩正在玩一個ldquo總和為 20的遊戲其規則如下

總和為ldquo20的規則

(1)抽數字卡每一個人抽出三張數字卡

(2)加數字卡每一個人利用這三張數字卡做出一個加法問題使得算出

的總和最接近 20 例如假如抽出的數字卡 將數字任意組

合後下面是其中四種可能的方法

+ + + +

5 5 4 6 1 9 +

1 0

15

這時玩家應該選擇 + 4 因為它的總和 19最接近 20

19

小杰和小明開始玩遊戲了小杰抽出了 三張數字卡小明抽

出了 三張數字卡

(1)小杰要如何安排三張數字卡做出一個加法問題才能讓它的總和為最

接近 20記得要寫總和

0 1 2 3 4

5 6 7 8 9

1 4 5

1

4

5 1

4

5

1

4 51

4

5

972

6 3 1

112

(2)小明要如何安排三張數字卡做出一個加法問題才能讓它的總和最接

近 20記得要寫總和

(3)小明說假如我抽到 我可以用兩種方法做出總和 20

請告訴我們小明用哪兩種方法可以使 做出總和 20

第一種方法

第二種方法

找出最大的數

小杰和小明利用數字卡玩另一個新的遊戲就是利用三張數字卡做出最

大的數

甲將 三張數字卡填入下列的格子內讓相加的結果為最大

乙將 三張數字填入下列的格子內讓相減的結果為最大

丙將 三張數字卡填入下列的格子內讓相乘的結果為最大

times

1 4 6

1 4 6

9 5 1

+

-

2 3 7

1 4 5

113

附錄三給老師的話

題目猜一猜

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說

明如下

題目預測的能力

測量學生在生活情境中了解概數意義的能力

實施時間

20 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意讓同學清楚的知道這份試卷要他們

做的是什麼

評量結束後收回試紙

注意要點

請老師先做一次示範給學生看完之後再讓學生作答

請老師提醒學生計算完後要記得將他們為什麼要這樣做的原因寫清楚

評分標準

等級 5 算出前 4碗豆子的總和再乘以 2再加上一個合理的近似值或使用估

計或平均值找出每一碗豆子的近似值再乘以 9

等級 4 合理的估計其他各碗的豆子數量並算出總和

等級 3 推測出大部分合理少部分不合理的估計值並算出總和

等級 2 推論出一個杯子約有 30 個但未算出總和

等級 1 將已知碗的數量變成一組模式將此模式推論至其他碗不一定剛好總

114

和為 10 個碗

等級 0 未作答或不知所云

題目幾何方塊

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說

明如下

題目預測的能力

這是一種包含幾何跟數與量的題目其中幾何的部份是要求學生建立一個二

維圖形並滿足題目的要求(數與量)

實施時間

30 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意讓同學清楚的知道這份試卷要他們

做的是什麼

評量結束後收回試紙

注意要點

請老師提醒學生答案是用鉛筆塗在指定的區域並且不可以超過格線並不是將

紙卡貼在題目上要注意

請老師提醒學生撕紙卡要小心務必要使用剪刀或直尺沿著線撕

評分標準

115

給分範圍1分

給分範圍0分

(1)雖然使用 2塊黑白相間方塊組合但卻變成 2個小三角形而不是組合成 1

個大三角形

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

給分範圍1分

給分範圍0分

(1)雖然使用 4塊黑白相間方塊組合但卻不是組合成 1個大的黑色正方形

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

116

給分範圍1分

(1) 21

或是它的等值分數

(2)乙题雖然畫錯但此題答案正確

給分範圍0分

(1) 41

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

做出分數

給分範圍1分

由 2塊白色跟 2塊黑色組合成請看下面的例子

給分範圍0分

(1)雖然得出 21但是使用黑白相間的方塊

(2)畫出黑色的部份佔 41

117

(3)畫出黑色的部份佔 43

(4)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(5)完全空白

給分範圍2分

任何使用 3塊黑色的方塊1塊白色的方塊和 4塊黑白相間的方塊的組合圖形

給分範圍1分

塗出 85的答案但不是使用正確的方塊組合

給分範圍0分

(1)塗出 21

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

題目魔術師

118

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生對稱的觀念空間關係及解決非例行問題的能力

施測時間

30 分鐘

實施步驟

1 發試紙和所需材料

2 題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的

知道這份試卷要他們做的是什麼

3 評量結束試紙及材料

注意要點

1請老師提醒學生每張紙只能直直的剪一次不可改變方向且要記得在紙上寫

編號和名字

評分標準

第一題1在紙上只剪一次

2有兩條正確的摺線

給分範圍2

第二題1在紙上只剪一次

2 有兩條正確的摺線

給分範圍2

第三題同上兩題

119

題目圖形題

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生二維空間的分割的觀念了解學生能否透過操作直尺或三角板在二維

空間上剪裁出指定的基本圖型並利用直觀的方式指出形狀相同但大小不同的三

角形

施測時間

30 分鐘

實施步驟

1 發試紙

2 題目解說實施評量前請老師加以說明題意讓學生清楚的知道這份試卷要他

們做的是什麼

3 評量結束收回試紙

評分標準

甲給分範圍1分

正確的畫一條對角線將長方形分成 2個三角形

給分範圍0分

(1)有畫出一條橫線或垂直線但不是畫出精確的對角線

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的

回答)

(3)完全空白

乙給分範圍1分

120

正確的畫一條橫線或垂直線將長方形分成 2個長方形

給分範圍0分

(1)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回

答)

(2)完全空白

丙給分範圍1分

正確的畫兩條線將長方形分成 1個較小的長方形跟兩個三角形

給分範圍0分

(1)有畫出兩條線但沒有將長方形分割成兩個較小的長方形或有分割成

兩個較小的長方形卻沒有在其中之ㄧ上畫出精確的對角線

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(3)完全空白

丁給分範圍1分

在三角形 3跟三角形 4上塗上顏色

給分範圍0分

(1)在三角形 1跟三角形 2上塗上顏色

(2)在三角形 2跟三角形 4上塗上顏色在三角形 1跟三角形 3上塗上顏色

在三角形 1跟三角形 4上塗上顏色在三角形 2跟三角形 3上塗上顏色

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

121

題目數字卡

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生計算的規則與策略及對數字的觀念並能運用所學過的概念於計算策

略上

施測時間

30 分鐘

實施步驟

1 發試紙和所需材料

2 題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的

知道這份試卷要他們做的是什麼

3 評量結束試紙及材料

評分標準

總和為 20 的數字遊戲

甲給分範圍1分

(1)寫出 2+7+9=18

(2)沒有任何算式但有答案是 18 者

給分範圍0分

(1)有寫出算式 2+7+9 但沒有答案 18 出現

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的

回答)

(3)完全空白

122

乙給分範圍1分

(1)13+6=19 或 16+3=19

(2)沒有任何算式但有答案是 19 者

給分範圍0分

(1)有寫出算式 13+6 或 16+3 但沒有答案 19 出現

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回

答)

(3)完全空白

丙給分範圍2分

兩種方法都正確(16+4 和 14+6)

給分範圍1分

只有寫出其中一種方法(16+4 或 14+6)

給分範圍0分

(1)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(2)完全空白

找出最大的數

甲給分範圍1分

91+5 或 95+1

給分範圍0分

(1)將 159擺在任何其他不正確的位置

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(3)完全空白

123

乙給分範圍1分

73-2

給分範圍0分

(1)72-3

(2)將 237擺在任何其他不正確的位置

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

丙給分範圍1分

41times5

給分範圍0分

(1)51times4

(2)將 145擺在任何其他不正確的位置

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

題目擲骰子

親愛的老師

您好感謝您參與此次數學科學實作評量的研究關於此次施測的注意事項說明

如下

題目欲測的能力

測量學生對於任意數字計算紀錄和分析的能力以及辨識並解釋記錄資料

的結果

施測時間

124

30 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的知

道這份試卷要他們做的是什麼

評量結束後收回試紙及材料

評分標準

第一題正確的計算出(042648)

給分範圍2

第二題1描述的類型與資料一致

2形式可以是一個或多個以下的情形所有的數字都是偶數數字

的範圍從 0~84 出現 2次數字排列有規則如+4-2+4-2

給分範圍1

第三題1至少完成 25 次擲骰子的紀錄

2正確的計算

給分範圍2

第四題統計的次數與第三題的資料一致

給分範圍2

第 5a 題答案與資料一致

給分範圍1

第 5b 題對觀察的數字提供合理的解釋

給分範圍1

125

附錄四分析資料補充

附錄四表格中以數字 1代表新加坡數字 2代表香港數字 3代表日本數字

4代表台灣 2003 年原始資料數字 5代表比利時數字 6代表美國數字 7代表

施測學校

一圖形題補充

表附錄 4-1-1 圖形題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 187 0 32 0 64 0 50 新加

坡甲 1 916

香港

甲 1 725

日本

甲 1 703

台灣

甲 1 726

得分 次數 得分 次數 得分 次數 得分 次數

0 69 0 9 0 75 0 39 新加

坡乙 1 1034

香港

乙 1 748

日本

乙 1 692

台灣

乙 1 737

得分 次數 得分 次數 得分 次數 得分 次數

0 329 0 107 0 196 0 119新加

坡丙 1 774

香港

丙 1 650

日本

丙 1 571

台灣

丙 1 657

得分 次數 得分 次數 得分 次數 得分 次數

0 424 0 386 0 281 0 267新加

坡丁 1 679

香港

丁 1 371

日本

丁 1 486

台灣

丁 1 509

得分 次數 得分 次數 得分 次數

0 130 0 447 0 8 比利

時甲 1 649

美國

甲 1 1189

施測

甲 1 113

得分 次數 得分 次數 得分 次數

0 69 0 201 0 5 比利

時乙 1 710

美國

乙 1 1435

施測

乙 1 116

得分 次數 得分 次數 得分 次數

0 386 0 1100 0 21 比利

時丙 1 393

美國

丙 1 536

施測

丙 1 100

得分 次數 得分 次數 得分 次數

0 386 0 732 0 27 比利

時丁 1 393

美國

丁 1 904

施測

丁 1 94

126

表附錄 4-1-1(續) 圖形題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 44 0 6 0 31 0 17

1 75 1 17 1 44 1 20

2 137 2 64 2 64 2 45

3 334 3 331 3 232 3 257

新加

坡總

4 513

香港

總分

4 339

日本

總分

4 396

台灣

總分

4 437

得分 次數 得分 次數 得分 次數

0 36 0 114 0 0

1 72 1 243 1 5

2 176 2 389 2 5

3 259 3 517 3 36

比利

總分

4 236

美國

總分

4 373

施測

總分

4 75

表附錄 4-1-2 圖形題各國事後分析表

圖形題甲 圖形題乙

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0130 0000 1 2 -0051 0013

3 -0086 0000 3 0035 0247

4 -0110 0000 4 -0012 0987

5 -0003 1000 5 0026 0631

6 0100 0000 6 0060 0000

2 3 0041 0514 2 3 0086 0000

2 4 0022 0958 4 0038 0244

5 0120 0000 5 0077 0000

6 0230 0000 6 0110 0000

3 4 -0019 0980 3 4 -0048 0057

5 0083 0001 5 -0009 0998

6 0190 0000 6 0025 0594

4 5 0100 0000 4 5 0038 0237

6 0210 0000 6 0073 0000

5 6 0110 0000 5 6 0034 0190

127

表附錄 4-1-2(續) 圖形題各國事後分析表

圖形題丙 圖形題丁

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0160 0000 1 2 0130 0000

3 -0043 0637 3 -0018 0996

4 -0140 0000 4 -0040 0798

5 0200 0000 5 0110 0001

6 0370 0000 6 0063 0092

2 3 0110 0000 2 3 -0140 0000

2 4 0012 1000 4 -0170 0000

5 0350 0000 5 -0014 0999

6 0530 0000 6 -0063 0209

3 4 -0100 0002 3 4 -0022 0992

5 0240 0000 5 0130 0000

6 0420 0000 6 0081 0027

4 5 0340 0000 4 5 0150 0000

6 0520 0000 6 0100 0001

5 6 0180 0000 5 6 -0048 0533

圖形題總分

(I) (J) 平均差異 (I-J) p-value

1 2 -0210 0008

3 -0110 0540

4 -0300 0000

5 0330 0000

6 0600 0000

2 3 0098 0778

4 -0093 0812

5 0540 0000

6 0810 0000

3 4 -0190 0051

5 0440 0000

6 0710 0000

4 5 0630 0000

6 0900 0000

5 6 0270 0000

128

二數字卡題型

表附錄 4-2-1 數字卡題各國得分統計表

分數 次數 分數 次數 分數 次數 分數 次數

0 284 0 144 0 128 0 118新加

坡 1 1 277

香港

1 1 239

日本

1 1 234

台灣

1 1 273

分數 次數 分數 次數 分數 次數 分數 次數

0 243 0 177 0 138 0 134新加

坡 2 1 318

香港

2 1 206

日本

2 1 224

台灣

2 1 257

分數 次數 分數 次數 分數 次數 分數 次數

0 171 0 142 0 117 0 111

1 28 1 13 1 30 1 23

新加

坡 3

2 362

香港

3

2 228

日本

3

2 215

台灣

3

2 257

分數 次數 分數 次數 分數 次數 分數 次數

0 161 0 111 0 89 0 138新加

坡 4 1 400

香港

4 1 272

日本

4 1 273

台灣

4 1 253

分數 次數 分數 次數 分數 次數 分數 次數

0 172 0 119 0 95 0 145新加

坡 5 1 389

香港

5 1 264

日本

5 1 267

台灣

5 1 246

分數 次數 分數 次數 分數 次數 分數 次數

0 413 0 290 0 231 0 303新加

坡 6 1 148

香港

6 1 93

日本

6 1 131

台灣

6 1 88

分數 次數 分數 次數 分數 次數

0 207 0 476 0 38 比利

時 1 1 187

美國

1 1 339

施測

1 1 82

分數 次數 分數 次數 分數 次數

0 175 0 442 0 29 比利

時 2 1 219

美國

2 1 373

施測

2 1 91

分數 次數 分數 次數 分數 次數

0 149 0 308 0 14

1 27 1 48 1 11

比利

時 3

2 218

美國

3

2 459

施測

3

2 95

129

表附錄 4-2-1(續) 數字卡題各國得分統計表

分數 次數 分數 次數 分數 次數

0 175 0 380 0 36 比利

時 4 1 219

美國

4 1 435

施測

4 1 84

分數 次數 分數 次數 分數 次數

0 179 0 410 0 38 比利

時 5 1 215

美國

5 1 405

施測

5 1 82

分數 次數 分數 次數 分數 次數

0 321 0 705 0 94 比利

時 6 1 73

美國

6 1 110

施測

6 1 26

分數 次數 分數 次數 分數 次數 分數 次數

0 64 0 38 0 21 0 37

1 39 1 25 1 23 1 33

2 62 2 36 2 35 2 21

3 40 3 50 3 44 3 44

4 60 4 49 4 34 4 41

5 87 5 51 5 59 5 60

6 137 6 93 6 89 6 102

新加

坡總

7 72

香港

總分

7 41

日本

總分

7 57

台灣

總分

7 53

分數 次數 分數 次數 分數 次數

0 31 0 135 0 5

1 48 1 94 1 5

2 49 2 98 2 9

3 67 3 101 3 9

4 61 4 114 4 16

5 63 5 101 5 20

6 55 6 130 6 40

比利

時總

7 20

美國

總分

7 42

施測

總分

7 16

130

表附錄 4-2-2 數字卡題各國事後分析表

第一題 第二題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0130 0013 1 2 0029 0992

3 -0153 0001 3 -0052 0873

4 -0204 0000 4 -0090 0252

5 0019 0999 5 0011 1000

6 0078 0206 6 0109 0012

2 3 -0022 0999 2 3 -0081 0537

4 -0074 0612 4 -0119 0076

5 0149 0006 5 -0018 1000

6 0208 0000 6 0080 0326

3 4 -0052 0908 3 4 -0039 0979

5 0172 0001 5 0063 0796

6 0231 0000 6 0161 0000

4 5 0224 0000 4 5 0102 0212

6 0282 0000 6 0200 0000

5 6 0059 0697 5 6 0098 0101

第三題 第四題

1 2 0116 0734 1 2 0003 1000

3 0070 0974 3 -0041 0948

4 -0033 1000 4 0066 0612

5 0165 0287 5 0157 0000

6 0155 0156 6 0179 0000

2 3 -0046 0998 2 3 -0044 0952

4 -0149 0543 4 0063 0751

5 0049 0997 5 0154 0002

6 0039 0998 6 0176 0000

3 4 -0103 0889 3 4 0107 0141

5 0096 0918 5 0198 0000

6 0085 0907 6 0220 0000

4 5 0198 0174 4 5 0091 0294

6 0188 0091 6 0113 0019

5 6 -0010 1000 5 6 0022 0997

131

表附錄 4-2-2(續) 數字卡題各國事後分析表

第五題 第六題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0004 1000 1 2 0021 0996

3 -0044 0931 3 -0098 0050

4 0064 0655 4 0039 0914

5 0148 0001 5 0079 0203

6 0197 0000 6 0129 0000

2 3 -0048 0929 2 3 -0119 0015

4 0060 0801 4 0018 0999

5 0144 0008 5 0058 0699

6 0192 0000 6 0108 0006

3 4 0108 0140 3 4 0137 0002

5 0192 0000 5 0177 0000

6 0241 0000 6 0227 0000

4 5 0083 0425 4 5 0040 0933

6 0132 0003 6 0090 0047

5 6 0049 0838 5 6 0050 0675

數字卡總分

1 2 0043 1000

3 -0318 0582

4 -0159 0975

5 0579 0012

6 0847 4850

2 3 -0361 0529

4 -0201 0948

5 0536 0067

6 0804 0000

3 4 0159 0985

5 0897 0000

6 1165 0000

4 5 0738 0001

6 1006 0000

5 6 0268 0673

132

三幾何方塊題型

表附錄 4-3-1 幾何方塊題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 633 0 303 0 165 0 322新加

坡甲 1 482

香港

甲 1 458

日本

甲 1 604

台灣

甲 1 445

得分 次數 得分 次數 得分 次數 得分 次數

0 617 0 403 0 218 0 348新加

坡乙 1 499

香港

乙 1 358

日本

乙 1 551

台灣

乙 1 419

得分 次數 得分 次數 得分 次數 得分 次數

0 312 0 227 0 341 0 297新加

坡丙 1 804

香港

丙 1 534

日本

丙 1 428

台灣

丙 1 470

得分 次數 得分 次數 得分 次數 得分 次數

0 494 0 429 0 425 0 519新加

坡丁 1 622

香港

丁 1 332

日本

丁 1 344

台灣

丁 1 248

得分 次數 得分 次數 得分 次數 得分 次數

0 385 0 352 0 291 0 407

1 603 1 359 1 374 1 297

新加

坡戊

2 128

香港

2 50

日本

2 104

台灣

2 63

得分 次數 得分 次數 得分 次數

0 372 0 985 0 6 比利

時甲 1 398

美國

甲 1 655

施測

甲 1 113

得分 次數 得分 次數 得分 次數

0 348 0 976 0 13 比利

時乙 1 422

美國

乙 1 664

施測

乙 1 106

得分 次數 得分 次數 得分 次數

0 437 0 884 0 30 比利

時丙 1 333

美國

丙 1 756

施測

丙 1 89

得分 次數 得分 次數 得分 次數

0 373 0 908 0 23 比利

時丁 1 397

美國

丁 1 732

施測

丁 1 96

133

表附錄 4-3-1(續) 幾何方塊題各國得分統計表

得分 次數 得分 次數 得分 次數

0 335 0 754 0 29

1 340 1 762 1 57

比利

時戊

2 95

美國

2 124

施測

2 33

得分 次數 得分 次數 得分 次數 得分 次數

0 141 0 86 0 52 0 115

1 126 1 83 1 78 1 111

2 167 2 128 2 122 2 121

3 257 3 205 3 157 3 183

4 178 4 143 4 153 4 123

5 153 5 81 5 138 5 73

新加

坡總

6 93

香港

總分

6 35

日本

總分

6 69

台灣

總分

6 41

得分 次數 得分 次數 得分 次數

0 100 0 331 0 1

1 101 1 250 1 1

2 154 2 317 2 5

3 164 3 300 3 22

4 127 4 246 4 26

5 73 5 127 5 38

比利

時總

6 51

美國

總分

6 69

施測

總分

6 26

134

表附錄 4-3-2 幾何方塊題各國事後分析表

第一題 第二題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0170 0000 1 2 -0023 0984

3 -0350 0000 3 -0270 0000

4 -0150 0000 4 -0099 0005

5 -0085 0028 5 -0100 0003

6 0033 0793 6 0042 0545

2 3 -0180 0000 2 3 -0250 0000

4 0022 0993 4 -0076 0160

5 0085 0062 5 -0078 0138

6 0200 0000 6 0066 0152

3 4 0210 0000 3 4 0170 0000

5 0270 0000 5 0170 0000

6 0390 0000 6 0310 0000

4 5 0063 0350 4 5 -0002 1000

6 0180 0000 6 0140 0000

5 6 0120 0000 5 6 0140 0000

第三題 第四題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0019 0995 1 2 0120 0000

3 0160 0000 3 0110 0001

4 0110 0001 4 0230 0000

5 0290 0000 5 0042 0773

6 0260 0000 6 0110 0000

2 3 0150 0000 2 3 -0011 1000

4 0089 0043 4 0110 0003

5 0270 0000 5 -0079 0127

6 0240 0000 6 -0010 1000

3 4 -0056 0514 3 4 0120 0000

5 0120 0000 5 -0068 0285

6 0096 0002 6 0001 1000

4 5 0180 0000 4 5 -0190 0000

6 0150 0000 6 -0120 0000

5 6 -0029 0934 5 6 0069 0110

135

表附錄 4-3-2(續) 幾何方塊題各國事後分析表

第五題 總分

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0170 0000 1 2 0120 0913

3 0013 1000 3 -0330 0008

4 0220 0000 4 0320 0017

5 0081 0294 5 0230 0233

6 0150 0000 6 0600 0000

2 3 -0150 0001 2 3 -0450 0000

4 0052 0872 4 0200 0521

5 -0085 0348 5 0110 0949

6 -0013 1000 6 0490 0000

3 4 0210 0000 3 4 0650 0000

5 0069 0627 5 0560 0000

6 0140 0000 6 0940 0000

4 5 -0140 0008 4 5 -0087 0986

6 -0064 0514 6 0290 0023

5 6 0073 0354 5 6 0370 0000

Page 4: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較

II

III

Abstract

This study aims at using TIMSS to look into the performance assessment

of fourth-grade elementary students with a specific environmental

background Our purpose is to investigate the following questions

1 What are the variations of the test results between year 2000 and

2006 on TIMSS 1999

2 Are there discrepancies in regard to gender and class on TIMSS 2003

3 Are there differences between the result of fourth-grade elementary

students with a specific environmental background and the national

data on TIMSS 2003

4 Are there distinctions between the result of fourth-grade elementary

students with a certain environmental background and the

international data on TIMSS 2003

Using selective-sampling method this study chose its 127 fourth-grade

subjects from four classes in a school at the urban-rural line of

Taichung County We found that

1 The subjects showed better performance on the ldquoMagician questions

but poorer on the ldquoDice Throwing and ldquoGuessing questions

than a comparative group in 2000 This finding indicated that

students of year 2006 had a better idea of geometry yet students

of year 2000 demonstrated better comprehension in statistics and

approximate numbers

2 There was no significant difference between genders or classes

3 No differences were found on the ldquoFigure questions or

ldquoNumber-card questions between the subjects and 2003 mother

IV

group However the outcome on the ldquoGeometrical Square

questions reached significance than that of 2003 mother group

4 On the ldquoFigure questions our students performed better than

those of Singapore Belgium and USA On the ldquoNumber-card questions

they were superior to those of Belgium and USA On the ldquoGeometrical

Square questions they displayed better abilities than those of Singapore

Hong Kong Japan Belgium as well as USA

KeywordTIMSSperformance assessmentgender

V

目 錄

第一章 緒論

第一節 研究動機1

第二節 待答問題5

第三節 名詞釋義5

第四節 研究限制7

第二章 文獻探討

第一節 實作評量8

第二節 第三次國際數學與科學教育成就研究 25

第三節 TIMSS試題與國內數學課程關係之分析34

第三章 方法與步驟

第一節 研究架構40

第二節 研究工具發展40

第三節 研究的信效度與實作評量的試題架構47

第四章 結果與討論

第一節 利用TIMSS 1999實作評量試題比較民國89年跟民國95年的成績差

異49

第二節 利用TIMSS 2003實作評量試題檢視施測學校在性別及班級間是否

存在差異60

VI

第三節 利用TIMSS 2003實作評量試題比較施測學校與原始施測資料的成

績差異65

第四節 實作評量試題的類推性84

第五章 結論

第一節 結論88

第二節 建議90

參考文獻

壹 中文部分92

貳 英文部分96

附錄

附錄一 TIMSS 2003參與的國家102

附錄二 題目103

附錄三 給老師的話113

附錄四 分析資料補充125

VII

表目錄

表 2-1-1 實作評量與紙筆測驗的比較17

表 2-1-2 各種評量類型的比較18

表 2-2-1 TIMSS 2003課程架構27

表 2-2-2 維京評分系統28

表 3-3-1 試題架構48

表 4-1-1 95年魔術師題組得分情形分配表50

表 4-1-2 89年魔術師題組得分情形分配表50

表 4-1-3 魔術師ㄧ獨立樣本t 檢定51

表 4-1-4 魔術師二獨立樣本t 檢定52

表 4-1-5 魔術師三獨立樣本t 檢定52

表 4-1-6 95年擲骰子題組得分情形分配表53

表 4-1-7 89年擲骰子題組得分情形分配表54

表 4-1-8 擲骰子一獨立樣本t 檢定55

表 4-1-9 擲骰子二獨立樣本t 檢定55

表 4-1-10 擲骰子三獨立樣本t 檢定56

表 4-1-11 擲骰子四獨立樣本t 檢定56

表 4-1-12 擲骰子五 a獨立樣本t 檢定57

表 4-1-13 擲骰子五 b獨立樣本t 檢定57

VIII

表 4-1-14 95年猜一猜題組得分情形分配表58

表 4-1-15 89年擲骰子題組得分情形分配表58

表 4-1-16 猜一猜資料統計59

表 4-1-17 猜一猜獨立樣本t 檢定59

表 4-2-1 各題型之相關係數61

表 4-2-2 班級對總分之變異數分析62

表 4-2-3 性別對總分之組別統計量與t檢定表62

表 4-2-4 性別對各題之組別統計量與t檢定表63

表 4-3-1 95 年圖形題題組得分情形分配表66

表 4-3-2 圖形題百分比同質性檢定66

表 4-3-3 圖形題題組各國答對率的比較67

表 4-3-4 圖形題各題之資料統整68

表 4-3-5 圖形題各題之變異數分析69

表 4-3-6 圖形題各題之事後比較70

表 4-3-7 圖形題總分變異數分析的結果71

表 4-3-8 圖形題總分事後分析72

表 4-3-9 95年數字卡題題組得分情形分配表72

表 4-3-10 數字卡題題組各國答對率的比較73

表 4-3-11 數字卡題各題之變異數分析74

IX

表 4-3-12 數字卡題之事後比較75

表 4-3-13 數字卡題總分變異數分析的結果77

表 4-3-14 數字卡題總分事後分析77

表 4-3-15 95年幾何方塊題題組得分情形分配表78

表 4-3-16 幾何方塊題題組各國答對率的比較78

表 4-3-17 幾何方塊題各題之變異數分析80

表 4-3-18 幾何方塊題各題之事後比較81

表 4-3-19 幾何方塊題總分變異數分析的結果83

表 4-3-20 幾何方塊題總分事後分析83

表 4-4-1 實作評量概化程度變異成分表84

表 4-4-2 G研究與各種D研究之變異成分分析與推論力係數87

表附錄 4-1-1 圖形題各國得分統計表125

表附錄 4-1-2 圖形題各國事後分析表126

表附錄 4-2-1 數字卡題各國得分統計表128

表附錄 4-2-2 數字卡題各國事後分析表130

表附錄 4-3-1 幾何方塊題各國得分統計表132

表附錄 4-3-2 幾何方塊題各國事後分析表134

X

圖目錄

圖 2-2-1 1995年到2003年4年級學生的數學趨勢31

圖 2-2-2 4年級學生在男女性別上的差異33

圖 2-2-3 1995 到2003年的男女生進退步情形34

圖 4-1-1 百分比圖表比較結果51

圖 4-1-2 百分比圖表比較結果54

圖 4-1-3 百分比圖表比較結果59

圖 4-3-1 圖形題題組答對率之比較圖67

圖 4-3-2 數字卡題題組答對率之比較圖73

圖 4-3-3 幾何方塊題題組答對率之比較圖79

1

第一章 緒論

本研究主題是利用 TIMSS 1999 跟 TIMSS 2003 的公開實作評量試題為測驗工

具比較探討台灣學生在這方面的進退步情形本章節將說明本研究的研究動機

與目的問題和研究中所用的特定名詞

第一節 研究動機 從民國八十二年民間團體發起了 410 教改大遊行迄今此波教育改革歷時 12

年最近因為中央研究院李遠哲院長在立法院接受立委質詢時對教育改革因為

沒有減少學生的壓力而公開道歉(中時電子報 2005)又引起了一陣教改失敗

的言論其實改革是多面向的學生的壓力固然是改革的重點但學生的程度更

是我們所關心的畢竟學生的程度關係著下一代的競爭力所以在國民中小學九

年一貫課程綱要(教育部民 92)中特別提到迎接二十一世紀的來臨與世界各

國之教改脈動政府必須致力教育改革期以整體提升國民之素質及國家競爭

力所以改革是為了回應社會期待以及國家發展的需求基於此項認知由中

央研究院國科會和教育部共同規劃的「台灣地區教育長期追蹤資料庫」(Taiwan

Education Panel Survey簡稱 TEPS)預計用六個學年國中樣本從 2001 年 9

月開始高中樣本分成 2001 年下半年和 2003 年上半年進行兩個梯次的資料收

集主要研究團隊包括六位中研院全職研究人員投入大量的時間與精力以及多

位大學相關領域之研究者積極參與可見這項工程的浩大與重要所以本研究主

要為利用一份已發展成且具有信效度及良好試題特性的國小數學實作評量題目

來進行施測其結果除了跟民國 89 年研究者徐美英的結果相互比較學生程度差

別外並為後續研究者提供相互比較的基準

國際教育成就調查委員會 (The International Association for the

Evaluation of Educational Achievement簡稱 IEA) 主辦的「國際數學與科

學教育成就趨勢調查」(Trends in Mathematics and Science Study 2003簡

2

稱 TIMSS 2003)是自 1995 年以來第三次主辦連續週期性調查學生的數學和科學

成就主要目的在提供各國長期追蹤學生數學和科學趨勢成就以提升學生數學

和科學的學習成效由此可見學生程度一向是國際重視的課題世界各國尤其

是美國不斷的監測自己國家學生的程度不僅僅與國際上各國進行比較並將

資料建檔也進行縱貫比較另外除了本研究所提的 TIMSS 是針對數學與科學外

還有PIRLS針對語文科進行比較PIRLS目前有2001跟2006年兩年資料而TIMSS

則已經有 199519992003 三年的施測2007 年的施測目前已經開始進行籌劃

TIMSS 2003 以 13 歲群(即國二生)和 9 歲群(即小四生)為調查對象國科會和

教育部體認到未來我國國民在國際上競爭力的重要性希望持續了解我國學生的

學習成就與家庭背景學習環境教師等影響因素的關係以及我國學生的學習

特色與優缺點並與其他國家進行比較提供改進我國中小學數學及科學教育政

策及課程之參考並積極參與國際間科學教育的交流與合作因此補助國立台灣

師範大學科學教育中心進行 TIMSS 2003 調查研究TIMSS 2003 從 2000 年九月

開始發展研究調查相關工作總計有 49 個國家參加其中 48 個國家參加 13 歲

群調查26 個國家參加 9歲群調查我國自 2001 年元月開始加入 TIMSS 2003 國

際調查工作包括提供命題架構意見數學和科學試題命題試測(field test)

資料收集參加專家問卷會議實測(main survey)資料收集參加公佈 TIMSS

2003 結果記者會國際成果指標會議國際資料分析會議等各項工作國內學者

引用 TIMSS 相關資料進行相關研究的有

(1)徐美英TIMSS 數學實作評量在台灣之試用探討(民國 89 年)

(2)洪瑞鎂從「第三次國際數學與科學教育成就研究後續調查」探究台灣國

二學生的數學基本能力(民國 90 年)

(3)洪佳慧由教科書內容與性別面向分析我國國二學生在第三次國際數學與

科學教育成就研究後續調查(TIMSS-R)的學習表現-生命科學以及環境與資源議

題部分(民國 91 年)

(4) 劉佳容我國國二學生在 TIMSS-1999 中之理化學習成就分析(民國 91 年)

3

(5)侯怡如由考試文化的角度分析我國學生在 TIMSS 1999 的答題表現----生

命科學部分(民國 92 年)

(6) 鄭心怡教育指標與經濟指標對學業成就影響之國際比較以 TIMSS 為例

(民國 93 年)

(7)羅珮華從「第三次國際科學與數學教育成就研究後續調查(TIMSS 1999)」

結果探討國中學生學習成就與學生特質的關係七個國家之比較(民國 93 年)

(8)顏秀玫我國小學四年級學生在「2003 年國際數學與科學教育成就趨勢調

查(民國 93 年)

(9)張謝玲宜蘭區某國中國二學生 科學成效影響因子之探討-引用國際調查

報告 TIMSS-R 之研究方法(民國 93 年)

綜觀上述國內學者研究的內容可以發現均重視該年段橫向的比較而缺乏

進行縱貫的研究值此世界各國進行教育大改革之際台灣也難免追隨這波改革

浪潮在課程內容與制度大變動之際學生是否保持原有的程度或甚至更好是

值得我們更加關注在國民中小學九年一貫課程綱要(教育部民 92)中針對

數學科明確提出下列四個原則一 參考施行有年且有穩定基礎的傳統教材

二 採用國際間數學課程必備的核心題材三 考慮數學作為科學工具性的特

質四 現有學生能夠有效學習數學的一般能力具體而言九年一貫數學學

習領域的教學總體目標為

(1) 培養學生的演算能力抽象能力推論能力及溝通能力

(2) 學習應用問題的解題方法

(3) 奠定下一階段的數學基礎

(4) 培養欣賞數學的態度及能力

其中國民小學階段的目標為

(5) 在第一階段(一至三年級)能掌握數量形的概念

(6) 在第二階段(四至五年級)能熟練非負整數的四則與混合計算培養流暢

的數字感

4

(7) 在小學畢業前能熟練小數與分數的四則計算能利用常用數量關係解

決日常生活的問題能認識簡單幾何形體的幾何性質並理解其面積與體積公

式能報讀簡單統計圖形並理解其概念

由以上的課程目標中可以清楚的看出數學課程的改革內容除了參考以往課

程內容之外也參考國際的課程內容進行改革並因為數學具有工具性的性質

具體的指出各階段需要具備的基本能力研究者希望透過已具有信效度及良好試

題特性的國小數學實作評量題目的施測一方面跟國際資料庫進行學生程度的比

較另一方面也跟徐美英TIMSS 數學實作評量在台灣之試用探討(民國 89 年)

在台灣施測的資料進行縱向比較以了解學生在這幾年的教育改革中在國小四

年級這個範圍內透過實作評量的方式評斷出來的能力是否有所差異

徐美英論文中指出其自編試題(猜一猜)學生能夠完整的敘述解釋百分比

僅達 549所以表示台灣學生在以數學語言的溝通上尚待加強而該試題與

TIMSS 試題有一定程度相關的是擲骰子繞過彎道和魔術師所以本研究研究者

打算選取其中 3 題(猜一猜擲骰子魔術師)找跟原論文相似的環境(住宅

跟工業混合區的學校)進行施測將兩項資料進行比較以探討在這樣的環境背

景中的學生經過這 5年的教育改革後對這個範圍內經由實作評量所測出來的

能力是否有所不同另外再從 TIMSS 2003 已公佈的實作評量題目中找出 3

題(幾何方塊數字卡圖形題)進行施測其結果跟國際資料庫進行比較進

一步探討這樣環境下的學生跟原始台灣施測資料中的學生是否有程度上的差

異跟國際上整體表現較好的國家學生的表現比較是否有程度上的差異

本研究測驗題目將從徐美英論文中選取 3 題從 TIMSS 2003 公佈的實作評

量試題中選取 3題並以 TIMSS 對實作評量採取的維京評分系統(又稱建構反應

評分系統Constructed Response簡稱 CR)為評分工具資料用 SPSS 進行分

析比較並以推論力理論推算本次施測的信度係數研究者希望能從施測中獲得

教育改革的成果從實作評量的角度是否是進步的並期待施測的資料能提供

未來需要再做類似研究者的比較基準

5

第二節 待答問題 壹探討特定環境背景的台灣國小四年級學生在民國 89 年與民國 95 年對

TIMSS 1999 實作評量的成績有何差異

貳探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 實作評量的

成績在性別及班級間是否有差異

叁探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 實作評量的

成績與台灣原始施測資料中的學生實作評量成績是否有程度上的差

肆探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 的實作評量

成績與國際上整體表現較好國家的學生實作評量成績是否有程度上

的差異

第三節 名詞釋義

壹實作評量

在教室情境中學生有幾類學習行為及其成就表現是無法用客觀式紙筆測

驗來正確評量出來的這些學習行為表現包括

(1)溝通技能(如說話口語表達演講朗讀寫作等)

(2)心理動作技能(如實驗室內的儀器操作書法打字繪畫工藝烹

飪樂器演奏戲劇表演等)

(3)運動技能(如跑跳直球游泳舞蹈等運動技能)

(4)概念應用(如應用所學的概念和知識解決日常生活所遇到的實際問題)

(5)情意特質(如團隊合作遵守規定自我反省等)

這些都是強調實際的表現行為(actual performance)都需要教師根據學生的

表現過程之有效性或最後完成作品的成果品質分別或合併地進行評分才能決

定學生在這方面學習的成就高低這種強調實際表現行為的評量方式稱為「實

6

作評量」(performance assessment)(余民寧民 93)所謂實作評量就是在自

然或已建構好的環境中要求學生執行或處理(process)一件指定的工作並

由教師觀察或評鑑學生的建構性反應的過程與結果看他們是否適當精確和完

美的達成教學目標(歐滄和民 91)

貳TIMSS

國際數學與科學學習成就調查研究係由國際教育學習成就調查委員會主

持主要目的在於了解各國數學與科學學習成就與各國文化背景教育環境影響

因子之相關性並進一步做國際間之比較研究分析第一次國際數學與科學教育

成就調查於 1970 年舉行共有 19 個國家參與經十年後1980 年進行第二次國

際數學與科學教育成就調查(SIMSS)有 24 個國家參與我國曾於 1987 年 5 月

經 IEA 總部同意引用第二次國際數學與科學教育成就調查工具在我國進行測

驗(但不是正式參加)由國立台灣師範大學科學教育中心負責執行以了解我國

國小國中及高中學生數學及科學成就在國際上所佔的地位IEA 自 1990 年開始

推動進行「第三次國際數學與科學教育成就研究(Third International

Mathematics and Science Study TIMSS)」本計畫有四十餘國參加第三次國

際數學與科學教育成就研究後續調查(稱為 TIMSS REPEATTIMSS-R)於 1999 年

舉辦調查對象為國二學生(13 歲群)共有 38 個國家參加鑒於世界各國對國

際數學與科學教育成就研究的熱烈反應IEA 計劃往後每四年辦理國際數學與科

學教育成就研究一次並改名為國際數學與科學教育成就趨勢調查(Trends in

International Mathematics and Science Study 簡稱 TIMSS )TIMSS 2003

的調查對象包括國小四年級及國中二年級學生TIMSS 的測驗內容包括數學跟科

學並從學生教師和校長們的回答中廣泛地蒐集有關數學跟科學教學與學習資

料另外還經由課程指引教科書和其他教學媒體的分析探討參與國家的數學

7

和科學課程並將結果發表成一系列的國際報告讓參與國家的教育政策制定者

和實務工作者得到有關在數學與科學教學上跟學生學習成就上的珍貴訊息

第四節 研究限制

本研究對於整個計畫的擬定與進行過程中由於在時間上與人力上尚有所不

足的影響以至於對本研究的進行有所限制茲分別就研究工具與分析研究樣

本與應用範圍兩方面說明之

壹研究工具與分析

在 TIMSS 2003 試題部分由於是翻譯試題照理應該經專家學者進行反譯

程序以確保試題的原意未被扭曲但因資源限制所以只經國小專任資深英文

教師與研究者討論而定案

貳研究樣本與應用範圍

因人力與時間的限制只能選擇一間學校來實驗因樣本受限於某一學校

所以本研究的結果與建議限制受限於相同類型的學校

8

第二章 文獻探討

本研究的文獻探討將分成三節第一節為探討實作評量的意涵和特色以及

國內相關實作評量的研究第二節為 TIMSS 的簡介及國外相關的研究第三節為

TIMSS 試題與國內數學課程的分析

第一節 實作評量

壹實作評量的緣起

長久以來多數人將評量窄化為紙筆測驗的考試用考試的成績來論斷一個

人的高下使得評量的目的偏狹方式單調內容枯躁意義盡失再加上過度

倚賴標準化測驗常導致課程窄化且易流於基本技能與片面瑣碎事實的學習忽

視複雜思考和問題解決能力(江文慈民 87詹志禹民 85)簡言之考試第

一分數至上的迷思等於將評量窄化了也扭曲了評量的目的更簡化了評量

的結果事實上考試只是評量的方法之一評量的目的是要提供學生有益的回

饋評量的改革意味著教學與課程發展的改進因此在教育改革中教師要採

用新的評量方式以符合教學的新趨勢評量的意義在於了解學生學習與教師教

學之用其主要的目的是在教育的過程能隨時掌握學生的學習讓教師明白教

學情況藉以發揮教育的效率與效能實作評量受到歡迎的主要原因之一是一

般人對於選擇式的測驗題感到不滿意例如選擇式的測驗題只能測量學生「知

道」什麼但無法測量學生「能做」什麼此外認為以選擇題為主的標準化測

驗對於教師的教學和學生的學習造成一些偏差的影響標準化測驗經常是一般家

長用來評估學校教學績效的方式在績效的壓力之下造成部分教師教學側重於

測驗的內容而扭曲了教學的面貌和窄化學生的學習結果在教育改革的推動

上教育界期望藉著評量的革新來提升教師教學的品質和學生學習的成就此

外一些入學考試和證照考試也在原有的選擇題之外增加建構反應題或實作測

9

驗部分實作評量在教育界和測驗界已是一個非常顯明的趨勢Silver(1993)

認為假如我們沒有將看過或聽過的數學留住那它將永遠不會變成我們的知識

所以實作評量吸引人的地方正在於它讓教師更能洞悉學生的思考並將所得的訊

息直接應用在教育計畫中

實作評量的提倡者主張實際工作的評量模式比紙筆測驗更能充分深入的了

解學生的知識和理解程度(Haertel amp Linn1996)以下將各學者對實作評量

的定義整理概述如下

一以觀察和專業判斷來評量學生學習成就的評量方式都可以稱為實作評量其

型式非常的多元化例如建構反應題書面報告作文演說操作實驗

資料蒐集作品展示等都是實作評量的例子( Stiggins 1987 )

二案卷評量也是實作評量的一種型式實作評量具有下列幾點特徵

(一)要求學生執行或製作一些需要高層思考或問題解決技能的事或物

(二)評量的作業( tasks )是具有意義性挑戰性且與教學活動相結合

(三)評量的作業能與真實生活產生關聯

(四)歷程( process )和作品( product )通常是評量的重點

(五)表現的規準( criteria )和標準( standards)-也就是評量的重

要層面與給分標準要事先確定實作評量有時也被稱為真實性評量

(authentic assessment )( Herman Aschbacher amp Winters 1990 )

三實作評量可視為『以超越傳統評量方式為了解學生熟練度而蒐集資料的一

種評量方式』(DnubarKoretz amp Hoover1991)

四實作評量不僅反應出學生解答的正確性同時也顯現出其得到答案的過程

(Ruiz-primoBaxter amp Shavelson1993)

五實作評量是應用各種評量方式評量各種能力及技巧要求學生展示知識的

應用而非僅展示知識的本身(Long amp Stansbury1994)

六實作評量乃是模擬一些標準情境(亦即是在自然情境下的實作)之測驗其

10

模擬的程度高於一般紙筆測驗所代表者(陳英豪吳裕益民 85)

七實作評量係指根據學生實際完成一項特定任務或工作表現所作的評量這些

任務或工作可能是實際操作口頭報告科學實驗數學解題寫作hellip等

因此其所使用的方式係透過直接的觀察學生表現或間接的從學生作品去

評量(吳清山林天祐民 85)

八凡是以學生在評量過程中的表現或成果作為評量的依據再根據教師的判

斷用事先指定的標準來評定等級的評量方式都可稱之為實作評量(夏

淑琴民 88)

貳實作評量的特色

綜合國內外學者觀點實作評量具有以下特色

一銜接教學與評量教學與評量的密切配合可以對學生的學習情形提供較全面

性的完整的深入的訊息此訊息可以幫助老師更了解學生的學習優勢及

問題掌握學生真正的能力及進步情形使老師能在教學上做適當的調整來

幫助學生解決問題提升其學習水準而惟有重視過程的評量學生才有機

會去反思自己學習上的問題省察如何在學習上求進步而這些也才是真正

的學習

二使學習更有意義更深入強調教學與評量的內容應為重要的完整的概念

而非瑣碎知識的累積應重視思考與問題解決能力的培養而非低層次的記

憶與歸納它的目的在幫助學生獲得完整有意義的概念增進表達技巧及

運用策略的能力並激發學生從事較複雜的深層思考所以實作評量著重脈

絡下有意義的學習在教學與評量的過程中它鼓勵學生主動探索深入思

考並表達學習此種評量方式有助於提升學生的思考及問題解決能力使

學生的學習更有意義更為深入

11

三強調學生知道什麼能做什麼實作評量的重心不在於偵測學生哪裡做錯了

而在於強調學生知道什麼能做什麼及如何再進一步知道得更多做得更

好簡言之其精神是「你會做很多事你還可以學會更多事」對於學生

嘗試去做好某一件事的努力(縱然尚未達到預期的目標)也給予正面的回

饋以學習理論而言較符合學習理論中的公平性或正當性亦即努力是有

收穫的

四強調與實際生活的結合實作評量可以讓教師瞭解學生對問題瞭解程度投

入程度解決的技能和表達自我的能力能夠較完整的反映出學生的學習結

果因為實作評量與真實生活較為相近其支持者認為實作評量能夠增進學

生學習的動機提高學生參與和投入的程度

五幫助學生建構有意義的學習情境發展問題解決能力批判性思考和表達自

我的能力

六有時候實作評量也可以做為一種教學策略提高學生的學習興趣和學習結

果評量和學生的學習以及老師的教學應該是密不可分並且互相支援的評

量的目的是幫助學生學習跟老師教學所以評量應該是自然的融入出現在

課堂而不是強制性的加進課堂上實作評量與實際教學過程有相當密切的

關係往往可以成為實際教學的一部份實作評量本身就是一種有效的教學

活動

七鼓勵合作學習許多文獻顯示合作學習可以提高學生的學習成就增強學

生的理解能力藉由溝通與辯論的過程學生可以重述自己的概念架構和知

識體系以促成有效的概念改變並達到有意義的學習在一個小組合作評

量的情境下藉由同儕的誘導和鼓勵彼此意見的分享並相互進行共同評

量是提高學生成就表現的重要機制

八直接評量排除語文能力的干擾實作評量比較不需要用到語文能力這對

於閱讀或文字表達能力較差的學生而言是比較公平的

12

叁實作評量的目的

Webb(1992)認為一個好的評量應具備四個目的第一個目的是成為教師蒐

集資料的工具透過評量的回饋教師可以知道學生學會多少和能做什麼第二

個目的是要表達學生在學習過程中所做所學的哪些東西是有價值第三個目的

是提供教育決策者一些教學績效之訊息最後的目的評量應該對整個教育體系

提供積極之建議(張敏雪民 86)雖然評量方式會因不同的評量目的而有所

不同然而現行的紙筆測驗過於強調排等第忽略了評量原先之目的教師只

教要考的學生只讀要考的成了所謂「考試領導教學」然而二十一世紀的

國民不是只會在試卷作答的人而是要有「分析預測及適應能力的人」簡而

言之就是能為生活而思考的人(曾慧敏民 87)實作評量重視教育過程本身

的價值和學生主動建構的能力因此重視學生學習過程和結果讓學生有意義

的學習使學生能靈活應用所學不僅評量認知層次也評量技能及情感層次

較傳統的紙筆測驗更能蒐集到學生較豐富的學習訊息

實作評量的目的如下(桂怡芬民 85曾慧敏民 87 Linn 2000)

一檢視學生學習成果是否能達到教學期望的結果

二從評量的結果能清楚交代學生的學習成就

實作評量能直接觀察學生到達結果的過程不只是評量答案之正確性能完

整的呈現學生在複雜能力及歷程上的表現並能依表現推論其構念表現

三藉由此評量可展現學生的技能和能力

實作評量除了能直接的測出學生問題解決的歷程與結果也能展現出高層次

認知情意與技能及後設認知等能力

四使得教學與評量能充分配合

實作評量注重與教學的互動其主要的目的為幫助學生的學習與改進教師的

教學

13

五為課程改革的重要指標

因實作評量標榜著可提升學童高階思考與問題解決的能力因此在教育改革

時備受重視

肆實作評量步驟

實作評量強調在和生活相關的情境下能讓學童展現所知所學的能力來解

決問題然而若是活動或作業設計不夠完整評分規準不夠明確等都可能導

致實作評量無法達到預期的目的(鄒慧英民 87)因此應如何設計出一份好

的實作評量試卷呢(Stiggins 1994)以下提出幾個注意要點

一確立設計評量的原因與目的

評量之所以實施一定有其原因包括確定評量結果所要作的決定例如

分組個別鑑定等第評定與優缺點的診斷等接著考量評量結果是否用於「排

名」或用於決定學生否達到精熟水準

二設計實作評量的內容

(一)選擇作業的形式

可以蒐集教室中自然而然發生的事件也可以設計結構化作業引發

學生表現的機會測出學生真實能力的實作評量

(二)決定評量的實施情境

因為怕受試者的動機與考試的焦慮可能影響學生的真實能力之表

現施測者可考慮事先告知學生相關評量的性質與評分標準因此在一

般的測驗情境下應先觀察受試者的焦慮情形再決定是否事先告訴受試

者評量事宜或採取不事先告知以測出學童最大的表現能力本研究採取

後者

(三)確定所要編製的實作試題數

14

決定實作題目數量應考慮評量的作業是否具代表性蒐集到的證據數

量是否可以提供較精確的學生能力思考層次

三確定實作評量成績計分標準

(一)決定分數的型式

如果評量的目的是做為分組或選擇的依據則可採整體性評分若是

診斷或檢定學童的基本能力可採取分析性細部評分本研究為診斷學童

分數的學習能力採用開放式的結構題型由學生自行建構答案因此

根據不同的答案給予不同層次的分數

(二)選擇評分者

評分者可為教師專家同學或受試者本身但基本上所有的評分

者得先接受專業的評分者訓練使每個人對評分歸準有所共識本研究請

已有五年以上之教學經驗的教師擔任評分者

(三)紀錄評分結果的方法

可採用檢核表評定量表軼事紀錄表等評定量表同時呈現了觀察

項目及分數評比常用於歷程與結果之評量適用於各學科之實作評量

本研究採用評定量表來紀錄評量結果總之發展實作評量時首先需

澄清「教學目標」與「評量的目的」是必要的其次「評量內容」或「評

量對象」取樣的代表性更是影響評量效度的重大因素最後清楚的「評

分規準」與完整的「評分者訓練」及詳細的「評分程度」則是影響評量的

信度唯有如此才能獲致高品質的實作評量(鄒慧英民 86)

伍實作評量的限制

一實施上非常耗費人力時間跟金錢

真正在實施實作評量時通常會受到器材跟場地的限制或是因為擔心產生相

15

互干擾因素而一次只能有限個學生同時進行施測這點跟團體施測的紙筆測驗

相比是非常耗費人力跟時間另外實作評量常需要有器材設備以及消耗性材料這

點跟團體施測的紙筆測驗相比是非常耗費金錢

二測驗情境控制困難

由於不是同時全體施測所以先後受測的學生容易相互干擾而且未受測

的學生跟已受測的學生的交談或傳授經驗也影響到考試的公平性加上前後施

測使得後面的同學很難有一致的施測條件例如場地未乾淨儀器未復原或被

損壞等

三計分不容易客觀

實施實作評量的目的不外乎想根據評量結果來為學生做決策因此獲

得一個正確而又可靠的評量結果(即高信度跟高效度值)便成為一件很重要的

事然而很不幸的實作評量如論文評分一樣由於是使用觀察跟判斷等兩類比

較主觀的評分方式來進行所以其結果難免具有很高的評分者誤差存在一般而

言評分者誤差有三種來源偏見月暈效應跟評量次數過少

四對容易焦慮的學生不利

實作評量的正式性與控制性會使得缺乏自信心或很在意他人評價的學生

產生過度焦慮進而影響其表現

陸實作評量的信效度

實作評量的信效度仍有待探討實作評量的信度通常是以概化程度

(generalizability)來描述(BaxterShavelsonGoldmanPine1992Dunbar

et al1991LinnBakerDunbar1991Linn1993Moss1994Ruiz-Primo

et al1993ShavelsonBaxterGao1993)概化程度包括評分者之間一致

的程度以及學生在不同工作項目(task)表現的一致程度(Shavelson et

16

al1993)根據 Shavelson 等人的研究結果發現實作評量在評量工作項目方面

的概化性較低顯示學生在不同工作項目上的表現有較大的差異在效度方面

實作評量所顯露出的問題有以下三個

一客觀性及公平性實作評量通常僅以一個評分者評定學生的表現所以

評量的結果可能過於主觀或有潛在的偏見(bias)問題(Airasian1991

Frechtling1991Linn et al1991Linn1993)

二評量內容的涵蓋性由於實作評量實施方式及時間的限制通常所評量

的學生行為表現較傳統測驗為少即評量內容的涵蓋範圍較小不易獲得學生行

為的適當樣本(Airasian1991Linn et al1991Linn1993)

三成本及效率問題這部份即時間與經濟的考量Linn 等人(1991)Linn

(1993)及 Messick(19941995)將這一點併入實作評量的效度標準

Baxter 等人(1992)Ruiz-Primo 等人(1993)及 Shavelson 等人

(199119921993)均從概化理論(generalizability theory)的觀點出發

採用取樣架構(sampling framework)來分析實作評量的信度(概化性)探討

評分者間評量項目間評量時間等的取樣變異以及其他潛在的誤差來源他們

針對神秘的電路盒(electric mysteries)毛細現象(paper towels)及小蟲

的習性(bugs)等評量項目採專家觀察(expert observation)實驗筆記

(notebook)電腦模擬測驗(computer simulation test)及紙筆測驗等方式

記錄學生的表現研究結果發現與評分者有關的取樣變異不大評量時間的取

樣變異極小而評分者與受試者間的交互作用(ratertimesperson interaction)和

評分者與評量項目的交互作用(ratertimestask interaction)這兩個部份的變異也

幾乎為 0故他們認為只要一個經過良好訓練的評分者(one well-trained

rater)即可用以評定學生在實作評量上的表現但他們發現在實作評量中評

量項目與受試者及該兩者與時間的交互作用是兩個最大的變異來源研究結果顯

示學生的表現因為工作項目的不同而有極大的差異而這樣的變異在不同時機上

17

更是明顯因此欲提高實作評量結果的一致性必須增加評量的工作項目使得以

學生在實作評量上的行為表現做其能力的推論時能夠降低與學生實際能力無關

的變異

Baxter 等人(1992)及 Shavelson 等人(19921993)主要是從評量對學生

能力的鑑別程度不同評量方式間的輻合效度不同特質及方法間的區辨效度等

三方面探討實作評量的效度他們的研究結果顯示不同的測量方法所得到的結果

並不一致Shavelson 等人(1993)發現在同一個工作項目之下不同的測量方

法中實驗操作與實驗記錄的相關最高實驗記錄與紙筆填充測驗及電腦模擬測

驗與紙筆填充測驗之間的相關最低這是因為實驗操作與實驗記錄為同一思考流

程所以相關較高此外他們也發現受試者與工作項目及測量方法間的交互作

用及誤差是變異的最大來源表示不同的測量方法可能是在測量科學成就的不同

面向(Shavelson et al1993p227-229)最後在不同工作項目之下採用

相同或不同測量方法所得到的相關的確較低顯示實作評量具有區辨效度

柒實作評量與其他評量的比較

大體上實作評量具有下列各項功能(Airasian 1994)茲列表如下

表 2-1-1 實作評量與紙筆測驗的比較

實作評量 紙筆測驗

學生把知識轉化成可觀察的表現行

為或成品的能力 主要涉及學生的知識及資訊的獲得

設計及施測費時但評量表可針對

同一或新的學生重複施測

設計費時但可同時施測許多學生

同組學生僅能使用一次

學生表現不佳可予診斷及補救

可監控學生進步實況

除論文式及開放式數學題之外甚少

提供方向指示如何改進表現

教學首重表現及過程 教學重內容知識

資料來源Airasian (1994) P236

18

表 2-1-2 各種評量類型的比較

客觀式測驗 論文式測驗 口頭發問 實作評量

目的

以最大的效率

及信度測驗

代表性的知

評估思考的技

巧及知識結構

的瞭解程度

教學時評估

知識

評估知識及瞭

解化為行動的

能力

學生的

反應

閱讀評量

選擇 組織寫作 口頭回答

計劃建構

及表達原始的

反應

主要優

效率在測驗

時間內可測驗

到許多項目

可測量複雜的

認知結果

使評估與教學

結合

提供充分的表

現技巧

對學習

的影響

過度強調回

憶鼓勵背誦

記憶如能適

當出題可促進

思考技巧

鼓勵思考及寫

作技巧的發

刺激學生參與

學習提供教

師立即回饋了

解教學是否有

強調運用知

識技巧於實

際的問題情

資料來源Airasian (1994) P229 et ls

捌實作評量相關研究

國內有許多探討實作評量設計的可行性研究以下將就國內學者所做的研

究整理說明

一陳文典陳義勳李虎雄簡茂發(民 84)美國馬里蘭州學校實作評

量國際共同研究計畫

將 MSPAP(the Maryland School Performance Assessment Program)的

19

試題轉譯成中文在國內進行小規模的施測藉以了解這種測驗的功能

使用上的時機及應用上的困難在其對我國五年級學生施以數學理化

和生物等實作評量題目後發現此種測驗模式能遍及各項科學能力我

國學生在回答問題時顯示其傳達與獨立作業能力均不足其評分客觀

的標準化可經由評分者講習的培訓達到目標實作評量可適用於平時作

業學生的科學能力競賽或教育行政單位的各校科學教育教學成效評鑑

等時機

二徐美英(民 89)TIMSS 數學實作評量在台灣之試用探討

(一)TIMSS 試題在台灣之施測具有信效度

(二)台灣四年級學生在 TIMSS 實作評量的表現顯著優於美國和香港地

區的學生

(三)TIMSS 試題在台灣之施測在男女生之間和班級間在總得分並

沒有顯著差異

(四)自編之試題猜一猜與 TIMSS 試題擲骰子繞過彎道

和魔術師有一定程度的相關

三洪之昀(民89)數學科實作評量對國小高年級學童學習策略影響之研究

(一)學生認為實作評量能增加對數學內容的了解提升學習興趣發

現數學的有趣擴大學習範圍並兼具情意評量的功能但也有學生認

為實作評量在實施上太麻煩且費時

(二)學生批判思考數學溝通數學表達的能力有待加強

(三)學生具有多方面的潛能亟待以實作評量的方式加以開發

四詹元智(民 91)國小數學科實作評量之效度探討

採準實驗研究設計的方式進行以屏東師範學院附屬小學六年級兩個班

的學生為研究對象一班為實驗組接受為期二個半月的數學實作評量

另一班為對照組接受傳統數學紙筆測驗的評量研究者於實驗前與實

20

驗後對兩組學生施以「傳統數學紙筆測驗」「數學實作評量」及「數學

學習解題態度」等三種測驗的前後測並對部份學生進行「數學實作

評量前後測的放聲思考訪談」概化性研究的分析結果顯示在一位評分

者及一題作業項目上之評分者間的變異相當小(319)不過分數的變

異有相當大的比例(約 50)是來自作業項目間及作業項目與受試者交

互作用的變異而在二位評分者及五題作業項目之概化性係數可達 08

以上顯示該研究之數學實作評量的結果能有效地推論至學生在其他評

分者及實作評量作業上數學問題解決的表現

五李長柏(民91)國小數學簡單機率解題實作評量與後設認知之相關研究

(一)數學解題實作評量具有良好的信效度

(二)本研究結果顯示具有良好的評分者信度

(三)數學解題能力和後設認知能力具有相關性

(四)性別在數學解題能力和後設認知能力上沒有差異

六王秀琲(民 92)實作評量在國小數學科之應用-以五年級學童分數為例

(一)實作評量能實際測出學童的分數概念在分割活動上連續量比

離散量好在表徵轉換上具體操作轉換符號模式為佳圖形轉換符號

模式較不理想分割策略會因情境的不同而使用較為簡便的方式來

解題

(二)從實作評量中學童能展現自行所建構的解題策略所獲得的訊

息比紙筆測驗多

(三)以 SS 分析法來分析實作評量之試題所呈現的試題關聯結構圖

中可以了解等分和連續量的分割活動是學童最易理解的概念而離散

量分割等值及單位量則是學童最難理解的概念

七張永杰(民 92)實作評量取向的幾何思考研究

(一)年級之幾何水準層次分佈情形有統計上的顯著差異存在年級

21

越高屬於高層次水準的學生越多

(二)當受試學生通過某一水準層次n的考驗但卻未能通過之前的任

一水準層次的考驗則稱為逆序現象有 697學生之幾何層次分佈呈

現逆序的情形

(三)學生不同 van Hiele 水準層次在後設認知能力上表現出顯著差異

(四)順序組學生能力值越高集聚的情形越明顯結構越完整逆序

組學生的概念結構比較少集聚呈現零散不完整的結構

(五)順序組能力低的學生所形成的關連結構比較零散而且概念間

的關聯程度不高能力越高的學生其關連結構概念問題結構化比較明

顯而且上下位觀念比較顯著逆序組學生的關連結構不但呈現零散不

完整的結構且關連結構圖中上下位觀念的情形比較不規律顯現其

概念結構比較雜亂

八林敬修(民 92)影響國小數學科實作評量信度相關因素之類推性理論

分析

(一)影響數學科實作評量分數一致性的主要變異來源為受試者與作業

項目交互作用(ptimest)變異其次為受試者(p)變異再其次為作業項目(t)

變異

(二)在評分者數學知能背景及評分者訓練對數學科實作評量分數一致

性的影響方面評分者的給分一致性因評分者數學知能背景及評分者訓

練而不同

(三)在題目結構度對數學科實作評量分數一致性的影響方面跨不同

結構度之作業項目對分數一致性的影響遠大過於跨相同結構度之作業項

目對分數一致性的影響此外不同數學知能背景及評分者訓練的評分

者在不同結構度的試題給分一致性上也有差異

(四)整體而言各評分組別的評分者一致性因評分向度之不同而有差

22

異其中以在「溝通表達」此一評分向度上的評分者一致性最低

九呂政隆(民 93)國小學童在數學實作評量解題整合認知與課程之相

關研究

運用實作評量的方式分別在九十學年度九十三學年度對五年級學生

施測以探討學生的數學解題與整合認知能力之相關性進而探討性別

課程在數學解題與整合認知能力上是否有顯著差異研究結果顯示實施

九年一貫課程後之九十三學年度整合認知中能力組在本研究之四份實作

評量之數學解題能力明顯低於九十學年度實施八十二年版國民小學課程

標準之數學解題與整合認知能力組

十石千奇(民 93)國小六學童在數學實作評量中的小組解題歷程分析

解題歷程模式受同儕討論的影響小組解題是四個人四條思考路線互相

牽引的結果解題歷程模式受操作實物的影響操作實物會影響解題階

段進行的走向小組成員並非全程參與解題歷程會因為題目的難易

互動過程階段性質等因素的影響而未能全程參與小組解題的階段變

化各行其道在各個解題階段的參與變化沒有一致性的發展操作實物

對各個解題階段皆有影響各產生不同的作用小組成員喜歡在實作評

量中以小組解題的模式解題覺得這樣的評量方式可以幫助解題

因此建議數學教師多採用以四人為一個小組在形成性評量中以小組

解題的方式進行實作評量

十一曲慧娟(民 94)實作評量在國中學術性向優異班招生鑑定之效度研

究~以臺灣北區為例

(一)錄取組和未錄取學生在入學後成就表現的差異分析顯示英文組

達顯著水準 (t=6159plt05)數理組未達顯著水準

(二)實作評量錄取學生在入學後之特殊表現的訪談結果發現各組學

生在發表能力競賽檢定檔案成果上的參與興趣濃厚也比較有所發

23

(三)受訪教師學生及參加座談會的教師們對實作評量的看法和意

見主要有下列重點

1命題是最大的困難各校命題均請專家學者指導師生都反應覺

得題目的品質不錯題型也很有創意和其它測驗不一樣但自然

科實驗器材的準備耗時費工是很大的負擔因此很多學校選擇用資

料分析的題目類型避免實驗操作器材準備的困擾

2實施程序上時間說明器材提供均適宜但場地的考量較多

如實驗位置的區隔語文施測時需安靜的場所等監考過程也是爭

議較多的如學生覺得監考老師應多幾位老師的尺度不同等

3受訪學生指出實作評量的應答方式和以往參加過的測驗有很大

的不同但都持肯定態度同時覺得語文表達能力會影響到實作評

量的成績

4各校評分都採集中閱卷的方式評分標準爭議性得分大都透過

閱卷老師討論後取得共識再給分

5目前各校在鑑定學生時決策的標準不一因此反應意見差異頗

大但從訪談資料發現受訪學生及教師都較支持運用初試複試

成績加權計算作為選擇學生的標準

6受訪教師表示學生入學後的表現和以往相較起來沒有明顯的

差異但在科展競賽檢定發表上的熱誠度較高

7學生的訪談結果發現大多數學生覺得實作評量可以測出他們在

學術性向上的能力或天份

8實作評量的保密情形比其它測驗要好很多但坊間仍有業者猜

題補習受訪學生及老師也表示有模擬實作或補習經驗者對

實作表現或多或少有影響惟一沒有保密困擾的是國文組

24

十二陳怡玉(民 94)降低國小數學科實作評量人和作業交互作用變異方

法的探討---以類推性理論分析

(一)由於分層變項選取不易導致「作業分層」無法有效降低人和作

業交互作用的變異

(二)「以圖表組織圖為鷹架」可以降低人和作業交互作用的變異

(三)「以圖表組織圖為鷹架」比「作業分層」更能讓人和作業交互作用

的變異降低

(四)進行「作業分層」的比較時實作評量的類推性係數和可靠性指

標以同一階層的作業採 ptimesTtimesR 設計最高但屬分層之 ptimes(TS)timesR 設計

卻低於作業未分層時的分析(即採作業 1234 的 ptimesTtimesR 設計來分

析)

(五)「以圖表組織圖為鷹架」能提高實作評量的類推性係數和可靠性指

十三蔡正濱(民 95)國小數學科實作評量評分者ㄧ致性相關因素探討

(一)影響數學科實作評量分數一致性的主要變異來源為受試者與作業

項目交互作用(ptimest)變異其次為受試者(p)變異再其次為受試者

作業與評分者三者之交互作用及誤差(ptimesttimesre)的部分

(二)在使用不同類型及等級數的計分規準對評分者間一致性的影響方

面在 ptimesttimesr 類推設計下不分計分規準種類與評分者有關的變異量

(含 rptimesr及 ttimesr 三者的總和)均相當小幾乎接近 0而在 ptimesr 設

計的整體類推性相關係數及給分差異比例方面分析式計分規準優於

整體式計分規準在不同等級數方面ptimesttimesr 類推設計中與評分者有

關的變異量及整體類推性七等級計分規準略佳但差異性不大在 ptimesr

設計的整體類推性相關係數及給分差異比例方面七等級計分規準優

於四等級計分規準其中又以使用整體式計分規準及評定高複雜度試題

25

時較為明顯

(三)在不同複雜度作業對評分者間一致性的影響方面低複雜度試題

的一致性高於高複雜度試題顯示評分者面對受試者在高複雜度試題的

作答反應時出現給分較不一致的情形最後受試者是否具備實作評

量計分規準之經驗對評分者間一致性的影響方面在低複雜度試題兩

組受試者之評分者一致性的差異性不大在高複雜度試題 A 組評分者

一致性大致高於僅具實作評量經驗之組別 B組而 AB兩組受試者的評

分者一致性差異程度在分析式計分規準上低於其在整體式計分規準之

差異程度

第二節 第三次國際數學與科學教育成就研究

由國際教育成就調查委員會(The International Association for the

Evaluation of Educational Achievement簡稱 IEA)主辦的「國際數學與科學

教育成就趨勢調查」(Trends in Mathematics and Science Study 2003 簡稱

TIMSS 2003)」是目前有關國際間對學生成就的調查研究中規模最大的一項調查

該測驗採取全世界合作模式主要單位有

一國家研究協調中心(National Research Coordinators)國家研究協

調中心負責選擇學校樣品 收集資料 計分標準和資料輸入 和準備研究結

果的一個國際報告

二TIMSS amp PIRLS 國際研究中心(在波士頓學院)(TIMSS amp PIRLS

International Study Center at Boston College)國際研究中心(ISC) 負責

TIMSS 的整體設計發展和實施這包括建立規程監督工具發展舉辦訓練

ISC 進行分析並且在國際報告和用戶資料庫中發布研究結果

三IEA 秘書處(IEA Secretariat)總部設在荷蘭的阿姆斯特丹IEA 秘

書處負責提供整體支持監督籌款和協助參與國家協調參與 TIMSS 的國家取得

26

測驗工具的翻譯證明

四IEA 資料處理中心(IEA Data Processing Center)IEA 有它自己的

資料處理中心位於德國的漢堡資料處理中心(DPC)負責處理和核對從所有參與

國家得到的資料和建立國際資料庫

五統計(Statistics Canada)在加拿大的渥太華負責 TIMSS 的所有採

樣活動包括開發取樣步驟和文獻和協助參加者能符合 TIMSS 的採樣設計

六教育測試的服務(ETS)(Educational Testing Service (ETS))ETS 為

TIMSS 成就測驗資料提供軟體和心理測量的支持 ETS 總部設在新澤西州的普

林斯頓

TIMSS 2003 是 IEA 自 1995 年以來第三次主辦連續週期性調查學生的數學和

科學成就主要目的在提供各國長期追蹤學生數學和科學趨勢成就以提升學生

數學和科學的學習成效TIMSS 2003 以 13 歲群(即國二生)和 9 歲群(即小四生)

為調查對象從 2000 年九月開始發展研究調查相關工作總計有 49 個國家參

加其中 48 個國家參加 13 歲群調查26 個國家參加 9歲群調查測驗的內容

包括數學和科學並從學生教師和學校的問卷回答中廣泛的搜集有關數學和科

學的教學和學習資訊並經由課程指引教科書和其他教學媒體的分析探討參

與國家的數學和科學課程以提供參與國家的政策制定者和實務工作者有關教學

和學生學習成就方面的珍貴訊息而技術報告和完整的國際資料庫也一併出版公

TIMSS 試題的編製流程是先製訂課程架構在根據課程架構編製成就測驗

而此課程架構是由一群來自 TIMSS 國家研究協調中心(TIMSS National Research

Coordinator)的數學和科學教育專家所發展出來的在 TIMSS 2003 的課程架構

中共分為兩個向度內容領域跟認知領域詳細內容如表 2-2-1 所示

27

表 2-2-1 TIMSS 2003 課程架構

數學 科學

內容領域 內容領域

數 生命科學

代數 化學

測量 物理學

幾何學 地球科學

8

級 資料

8

級環境科學

數目 生命科學

模式等式和關係 自然科學

測量 地球科學

4

級 幾何學數據

4

認知領域 認知領域

知道事實和程式 事實的知識

使用概念 概念的理解

解決日常問題 推理和分析

推理

第4年級代數內容領域被叫為模式等式和關係

其中在實作評量方面設計的原則是依照實用的可負擔的和容易翻譯成

多國語言和文化原則所設計的透過預試時取得評分指南包括正確的答覆跟不

正確答覆的描述及給分標準其評分系統採用維京評分系統以表格說明如下

28

表 2-2-2 維京評分系統

第一個碼

  2 類型的 CR 項目(分數碼)

(1) 2 分(外延反應評分)

2 分完整無誤

1 分部分對

(2) 1 分(問答)

(3) 0 分7-9

2 分

1 分

第二個碼

  診斷訊息碼

0-5表出現之頻次類次配合參數碼標之

如 20-2510-1570-75

9 為其他無特殊類別

  如 291979

78=自個兒ldquo診斷碼(國家碼 可自選)

  99 為空白

  79(Erases)

另外在問卷調查部份分為

一課程

(一)公式化課程

(二)課程的範圍和內容

(三)課程的組織

(四)監測和評估被實施的課程

(五)課程材料和支持

二學校

29

(一)學校組織

(二)學校目標

(三)校長的角色

(四)支持數學與科學的資源

(五)父母親介入

(六)學校環境

三老師和他們的準備

(一)學術準備和證明

(二)老師補充

(三)老師任務

(四)老師歸納

(五)老師經驗

(六)教的樣式

(七)專業發展

四教室活動和特徵

(一)課程題目

(二)時間

(三)家庭作業

(四)評量

(五)教室氣氛

(六)資訊技術

(七)計算器用途

(八)強調的研究重點

(九)班級大小

30

五學生

(一)家庭背景

(二)經驗

(三)態度

當 TIMSS 施測後許多國家對於施測結果所蘊藏的意義做了許多的解釋他

們認為施測結果不止顯示了學術成就還包括了學生所接受的課程和教育

(SchmidtJordeCoganBarrierGonzaloMoserShimizuSawadaValverde

PrawatMcknightRaizenBrittonWileyWolfe1996)國際比較主要的目的

在於評估不同國家的學生程度而另一個同樣重要的目的在於嘗試去了解及解釋

造成差異的原因Jaekyung Lee 在 1999 年時提出當我們進行國際比較時有三

點要注意的事項一應該要同時著重正規教育和學校教育以外的學習經驗

二重視區域性的差異

三注意學校的改革政策因為它會影響教育的實施與成果所以成績好不應沾

沾自喜而表現不好也應深究原因去注意其他表現好的國家真正做了什麼並

加以學習而非歸罪於整個制度

根據 TIMSS 2003 國際數學和科學報告(TIMSS 2003 International Reports

in Mathematics and Science)其中提到幾個圖表是跟本文有關並值得分析注

意的

31

圖2-2-1 1995年到2003年4年級學生的數學趨勢

32

上圖是從該報告第一章表格13擷取出來的該圖表顯示出從1995年到2003

年的4年級學生的數學趨勢其中香港拉脫維亞英國賽普勒斯紐西蘭

斯洛伐尼亞加拿大安大略省等七個國家或地區是呈現進步的情況而荷蘭挪

威加拿大魁北克省是退步的趨勢其他在圖表中的國家是沒有顯著差異的另

外在其文字說明部份也提到以色列和菲律賓從1999到2003也顯示出顯著的改

進像上述這些國家數學成就方面趨勢的變化可能跟社會或教育的改變有關

例如東方的政治變化跟歐洲十幾年前的教育改革已經實際改變這些國家的教育

成就例如立陶宛跟拉脫維亞這兩個國家的成就趨勢反映他們在改革過程中的

努力已經獲得某些驚人的成就

33

圖 2-2-2 4 年級學生在男女性別上的差異

上圖是從該報告第一章表格14擷取出來的該圖表顯示大部分國家或地區4

年級學生在男女性別上並無顯著差異但在幾個國家例外新加坡菲律賓亞

美尼亞跟Moldova共和國的女生有較高的數學平均成就荷蘭美國義大利

蘇格蘭賽普勒斯和兩個加拿大省份則是男生有較高的數學平均成就

34

圖2-2-3 1995到2003年的男女生進退步情形

上圖是從該報告第一章表格15擷取出來的該圖表表示從1995到2003年的

男女生進退步情形從圖表中得知男女生同時進步的國家或地區有賽普勒斯英

國香港拉脫維亞紐西蘭斯洛伐尼亞和安大略省而同時退步的國家有挪

威和魁北克省僅有男生退步但女生沒有的國家是荷蘭

第三節 TIMSS 試題與國內數學課程關係之分析

在魔術師的題組中研究者希望學生透過摺紙的方式不管對摺幾次最後

限制只能用剪刀剪一次的情況下要求學生剪出下列 3個圖型

35

每個學生剪每個圖型都有 3次機會這個題組的目的不止希望學生可以運用

全等的直覺利用幾何操作如平移旋轉翻轉等方式印證平時的經驗並將

全等的概念更加清晰還希望學生透過摺紙的方式了解認識垂直和對稱而剪紙

又可以增進學童分解圖形與建構圖形的能力所以本題組主要在測量學生對於全

等的直覺跟幾何操作垂直跟對稱和空間關係的瞭解以及解決非慣例題目的能

在圖形題中前 2個小題分別要求學生在一個長方形中劃一條直線將該長

方形分成 2個三角形或 2個長方形第 3小題要求學生在一個長方形中劃兩條直

線將該長方形分成 2 個三角形跟 1 個長方形第 4 小題則給等腰梯形並連接 2

條對角線在內部形成的 4個三角形中要求學生找出形狀相同但大小不同的兩

個三角形本題組在了解學生能否透過操作直尺或三角板在二維空間上剪裁出

指定的基本圖型並利用直觀的方式指出形狀相同但大小不同的三角形

上述兩個題目在評量學生的幾何能力根據我國國民中小學九年一貫課程綱

要數學學習領域中指出小學教師在從事幾何教學時最要避免的是來自本身歐

氏公設幾何訓練的干擾處處受制於定義的認定與邏輯順序由歷史來看人類

是先由應用操作實踐中認識各種幾何要素與性質彼此之間並沒有一定的

先後關係歐氏幾何的價值首先是對這些先民知識的歸類與整理其次才是作

36

為知識典範的演繹系統所以將幾何課程概分成四階段而學生在四年級時所應

該要學習到的幾何知識就如下列所示

一階段一(一年級到三年級)較強調幾何形體的認識探索與操作學生對

幾何形體中的幾何要素也許能指認但尚不清楚其結構意義

二階段二(四年級到五年級)由於數與量的發展逐漸成熟學生開始結合「數」

與「形」兩大主題學習運用幾何形體的構成要素(如角邊面)及其數量性

質(如角度邊長面積)

更詳細的相關能力指標詳列如下

1-S-04能依給定圖示將簡單形體作平面舖設與立體堆疊給定的圖示

可為圖卡或實物透過拼圖與堆積木等活動讓學童進行平移翻轉重疊

比對hellip等全等操作的練習

3-S-06能透過操作將簡單圖形切割重組成另一已知簡單圖形

4-S-02能透過操作認識基本三角形與四邊形的簡單性質

4-S-03能認識平面圖形全等的意義

4-S-16能理解平面上直角垂直與平行的意義

4-S-07能由直角垂直與平行的概念認識簡單平面圖形

4-S-08能利用三角板畫出直角與兩平行線段並用來描繪平面圖形

例學童會使用直尺或三角板畫出直角及兩平行線段進而用來繪製直角三角

形正方形長方形平行四邊形與梯形

因此學生在回答這兩個問題時應已具備足夠的能力

在幾何方塊的題組中給學生 3 塊白色方塊4 塊黑白相間的方塊和 3 塊黑

色方塊要求學生完成

一利用 2 張黑白相間方塊拼出一個較大的黑色三角形

二利用 4 張黑白相間方塊拼出一個黑色的正方形並求出佔幾分之幾

三不准使用黑白相間方塊將 4 張方塊拼出一個正方形使得黑色的部分佔 12

37

四請用 8 張方塊拼出一個如下圖的長方形使得黑色部分佔 58

這是一種包含幾何跟數與量的題目其中幾何的部份是要求學生建立一個二維圖

形並滿足題目的要求(數與量)幾何部分已經如上所述現在分析相關的數

與量

根據我國國民中小學九年一貫課程綱要數學學習領域中指出有理數是小學

的核心課程之一也是小學數學教育中最有挑戰性的教學主題因為學生較缺

乏有理數的前置經驗日常生活中的有理數情境也比整數少分數的形式是學生

首次碰到兩整數並置的約定至於什麼是穩當的有理數教學並無定論但是基

本的共識是學生需要較長的時間來學習掌握有理數的概念不論是先形式程

序或者先概念理解兩者都必須不斷互相支持在有理數教學中必須將材料

作適當的安排先從較容易的平分或測量入手而將其它的應用課題作為錘鍊

有理數數感的課題

在相關的能力指標詳列如下

3-n-09能在具體情境中初步認識分數並解決同分母分數的比較與加

減問題學童從具體情境或活動中掌握分數的概念能學會分數的記號並理

解運用分數記號來記錄同分母分數的比較與加減的方式例如以平分為基礎的

活動(離散量)問下列深色區域是全部圖形的幾分之幾

4-n-07能認識真分數假分數與帶分數熟練假分數與帶分數的互換

並進行同分母分數的比較加減與非帶分數的整數倍的計算

4-n-08能理解等值分數進行簡單異分母分數的比較並用來做簡單分

數與小數的互換在具體情境中說明分數等值的理由可先由分母的倍數差 2

4倍的分數先出發(因為切半的操作最簡單)

在施測學校所使用的教科書中第七冊第十單元分數中其教學目標也有

38

透過單位分數的合成和累加活動以真分數來描述單位分數的幾份可見此題對

施測學校的學生來說應有能力解決

另外兩題有關數與量的題目是數字卡跟猜一猜在數字卡部份題目分為兩

部份第一部份為抽出三張 0-9 的數字卡任意排列後找出最接近總和為 20 的

方法第二部份為抽出三張 0-9 的數字卡任意排列後分別找出和差跟積最大

的方法這在我國國民中小學九年一貫課程綱要數學學習領域中分類在數與量

中的整數部分根據附錄說明中指出整數計算是一切數學學習的基礎在教學

中學童經由活動情境掌握計算的意義藉著各種例子體驗計算的規則與策略

流暢的計算能力有如語文學習中基本的文字駕馭能力不僅可以內化學童的

數字感並且是日後(國高中)學習抽象運算及形式推導的基礎這樣的能力

固然是學習科學所必須也是能夠有效處理日常生活的基本能力之一所以國小

整數教學的課程目標在於

一從計數開始學習位值的約定與換算並在演算中逐步熟悉最後能掌握

大數

二在二年級下學期理解算術的樞紐九九乘法作為日後所有計算的基礎

三到四年級時能夠不拘泥於位數熟練加減乘除的直式計算

有關數與量的題目另一題是猜一猜題目是在 9個碗中前 4個碗中豆子

的數量分別是 29313128 個請猜一猜罐子中大約有幾個豆子並解釋你

的想法這在我國國民中小學九年一貫課程綱要數學學習領域中分類在數與

量中的估算部分估算在國民教育中可粗分為離散量的估算(自然數四則運算的

估算)與連續量的估算前者的教學應在學生已經能掌握確算後再進行而後

者的教學應透過測量時量不盡的正常情境與小數的教學共同開展認識小數

之細分與精確度的要求乃是一體的兩面估算的教學可以先在計算與驗算中強

調讓學生能對不合理的答案透過估算剔除然後是能判斷應用問題對答案

精確度的要求並藉由過去的解題經驗發展正確的估算策略或者是能針對

39

問題與解答發展估算策略驗算解答的合理性要注意的是估算屬於較高層

次的數學能力學生必須先對所使用的概念程序與問題情境有相當的理解才能

恰當地估算進而能正確判斷估算的時機與精確度的要求國小的估算教學要

特別注意評量的問題切忌因為強求估算禁止學生使用正常計算教師應在評

量的問題上下功夫讓問題本身暗示估算的好處

最後一題是擲骰子題目是用一個規則來改變骰子擲出來的數字要求學

生發現改變後的數字有什麼特性另外要求學生丟 30 次將結果記錄並統計在

表格中這是屬於統計與機率的部份我國課程在這部份強調統計和機率的知識

背景應來自生活環境因此以學生的生活經驗為主從學生感興趣的主題出發

使其學會敘述統計所呈現出的數字和圖表的意義強調圖表的表達和溝通並了

解抽樣機率的初步概念且能正確地運用各項統計資料於實際的生活中並要

求在三年級之前 先藉由簡易表格的製作協助學生建立資料的整理與分組的

概念進而練習報讀與說明資料並建立個別資料出現頻率概念的認識再藉著

直接和交叉對應表格的介紹並配合「數與量」的教學希望學生能掌握對表格

的認識並能加以運用

40

第三章 方法與步驟

本章節乃根據前兩章所提的研究目的與文獻探討進行研究設計以下將分別

就研究架構研究工具發展研究的信效度與實作評量的試題架構三節加以說明

第一節 研究架構

壹研究方法本研究是使用實作評量的方法進行實際施測使用 SPSS

與 EXCEL 軟體分析回收的施測數據

貳研究樣本本研究之研究對象是針對國小四年級學生以台中縣神岡鄉

某國小四年級學生為受試者共四班 127 人學校環境是住

宅與工業混合區

叁研究工具本研究的研究工具分為兩部份民國 89 年徐美英研究論文

中的題目跟 TIMSS 2003 公開的實作評量試題各三題TIMSS

2003 公開的實作評量試題是由 TIMSS 網站下載試題後再進

行翻譯每一個題組的施測時間是 30 分鐘

第二節 研究工具發展

本研究的研究工具分為兩部份民國 89 年徐美英研究論文中的題目跟 TIMSS

2003 公開的實作評量試題各三題以下將分別就試題的編製過程評分標準施

測人員和評分者四點加以說明

壹試題編製過程

一研究分析相關公開試題並與學校教材相互對照後進行選題

二選定題目後進行翻譯

三將翻譯好後的題目跟原始原文題目交給學校英語科任老師進行確認

41

四確定翻譯工作後與現任資深國小四年級的教師們共同討論題目的適切

性修改試題敘述的語句使文句的敘述能符合四年級學生的認知

五將修改後的題目請上述老師再做一次確認

六提供評分標準給上述老師討論全對部份給分不給分的情況

七題目定案

以數字卡這題為例題目如下

【題目數字卡】

在這部分你將會拿到一張印有 0到 9的數字卡如下圖請將這些數字卡

取下來

總和為ldquo20的數字遊戲

小杰與小明這兩個小孩正在玩一個ldquo總和為 20的遊戲其規則如下

總和為ldquo20的規則

一抽數字卡每一個人抽出三張數字卡

二加數字卡每一個人利用這三張數字卡做出一個加法問題使得算出的

總和最接近 20 例如假如抽出的數字卡 將數字任

意組合後下面是其中四種可能的方法

0 1 2 3 4

5 6 7 8 9

1 4 5

42

+ + + +

5 5 4 6 1 9 +

15 1 0

這時玩家應該選擇 + 4 因為它的總和 19最接近 20

19

小杰和小明開始玩遊戲了小杰抽出了 三張數字卡小明抽出

了 三張數字卡

一小杰要如何安排三張數字卡做出一個加法問題才能讓它的總和為最接

近 20記得要寫總和

二小明要如何安排三張數字卡做出一個加法問題才能讓它的總和最接近

20記得要寫總和

三小明說假如我抽到 我可以用兩種方法做出總和 20

請告訴我們小明用哪兩種方法可以使 做出總和 20

第一種方法

第二種方法

1

4

5 1

4

5

1

4 51

4

5

972

6 3 1

1 4 6

1 4 6

43

找出最大的數

小杰和小明利用數字卡玩另一個新的遊戲就是利用三張數字卡做出最

大的數

甲將 三張數字卡填入下列的格子內讓相加的結果為最大

乙將 三個數字填入下列的格子內讓相減的結果為最大

丙將 三個數字填入下列的格子內讓相乘的結果為最大

貳施測人員

由四位該班導師擔任在正式施測前由研究者針對施測應注意事項對施

測人員說明並在每一份題目上附上給老師的話說明施測時應注意的事項

及給分說明部分實作評量試題需要用到一些材料由研究者事先準備妥

當於考前交給施測人員至於材料的發放跟試題說明的時間並不包括在 30

分鐘的測驗時間之內

叁評分標準

一 89 年徐美英研究論文中的題目直接使用其附錄中的評分標準以擲

times

9 5 1

+

2 3 7

1 4 5

44

骰子這題為例其評分標準如下

第一題 1 正確的計算出(042648)

2 給分範圍2分

第二題 1 描述的類型與資料一致

2 形式可以是一個或多個以下的情形例如所有的數字

都是偶數數字的範圍從 0~84 出現 2次數字排列有

規則如+4-2+4-2

3 給分範圍2分

第三題 1 至少完成 25 次擲骰子的紀錄

2 正確的計算

3 給分範圍2分

第四題 1 統計的次數與第三題的資料一致

2 給分範圍2分

第 5a 題1 答案與資料一致

2 給分範圍1分

第 5b 題1 對觀察的數字提供合理的解釋

2 給分範圍1分

二 TIMSS 2003 公開的實作評量試題部分參照其公佈的評分標準翻譯

成中文以提供給資深四年級老師參考以數字卡這題為例

(一)第一部分總和為 20 的數字遊戲

1 第甲題

(1) 給分範圍 1分

1 寫出 2+7+9=18

2 沒有任何算式但有答案是 18 者

(2) 給分範圍0分

45

1 有寫出算式 2+7+9 但沒有答案 18 出現

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

或偏離主題的回答)

3 完全空白

2 第乙題

(1) 給分範圍1分

1 13+6=19 或 16+3=19

2 沒有任何算式但有答案是 19 者

(2) 給分範圍0分

1 有寫出算式 13+6 或 16+3 但沒有答案 19 出現

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

3 完全空白

3 第丙題

(1) 給分範圍2分

兩種方法都正確(16+4 和 14+6)

(2) 給分範圍1分

只有寫出其中一種方法(16+4 或 14+6)

(3) 給分範圍0分

1 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

2 完全空白

(二)第二部份找出最大的數

1 第甲題

(1) 給分範圍1分

46

91+5 或 95+1

(2) 給分範圍0分

1 將 159擺在任何其他不正確的位置

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

3 完全空白

2 第乙題

(1) 給分範圍1分

73-2

(2) 給分範圍0分

1 72-3

2 將 237擺在任何其他不正確的位置

3 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

4 完全空白

3 第丙題

(1) 給分範圍1分

41times5

(2) 給分範圍0分

1 51times4

2 將 145擺在任何其他不正確的位置

3 其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的

或偏離主題的回答)

4 完全空白

47

第三節 研究的信效度與實作評量的試題架構

壹信效度

由於此次的實作評量採用多元化記分的方式故信度計算採用 Cronbach α

係數算出信度值為 079而且每一題均有詳細說明細節行為的項目給定參考

答案圖形的作品量表各題除經著名國際測驗機構審核施測過外並由研究者另

請學校資深四年級教師共同研究討論題目與答案對於施測過程研究者也與四

位監考老師討論後訂出共同標準所以在效度方面具有專家效度跟內容效度

貳試題架構

此次實作評量的試題共六題分別是屬於數與量幾何統計與機率等三大

主題依據九年一貫課程綱要數學學習領域裡對這幾個大主題在國小四年級前的

學習說明研究者編制下表的試題架構

48

表 3-3-1 試題架構

題目 學習主題 主題層次 評量內涵說明

擲骰子 數與量

統計與機率

(1)整數

(2)簡易表格的製作

(1)可以對整數的變化

提出一套模式或發現

(2)簡易表格的製作結

果統計與發現

猜一猜 數與量 估算 使用估算的技巧協助計算

與解題

魔術師 幾何 對稱的實際操作 透過摺紙的對稱觀念理解

平面圖形的線對稱關係

圖形題 幾何

(1)幾何形體的認識與

切割

(2)幾何形體『形』的

直觀認識

(1)透過操作將簡單圖

形切割成另一簡單圖

(2)直觀指出平面圖形的

相似

數字卡 數與量 運用加減乘法求最大值

透過位值概念將給定的數

字編排在不同的位值進行

加減乘法得到接近題

目要求的答案或所有可能

的最大值

幾何方塊 幾何

數與量

(1)幾何形體的拼合

(2)有理數(部分全體

的意涵)

(1)利用黑白相間方塊

拼出指定的簡單平面

圖形

(2)在具體情境中認識

分數

49

第四章 結果與討論

本章主要是呈現資料分析的結果並加以討論共分為四節第一節是利用

TIMSS 1999 實作評量試題比較民國 89 年跟民國 95 年的成績差異第二節是利

用 TIMSS 2003 實作評量試題檢視施測學校在性別及班級間是否存在差異第

三節是利用 TIMSS 2003 實作評量試題比較施測學校與原始施測資料的成績差

異第四節是實作評量試題的類推性

第一節 利用 TIMSS 1999 實作評量試題比較民國

89 年跟民國 95 年的成績差異

研究者本小節要探討的是 TIMSS 1999 的施測結果與民國 89 年徐美英所進行

的研究之比較主要的比較項目為平均數標準差及得分情形分配百分比基於

此研究者採用百分比圖表及各小題反推出得分人數之後用獨立樣本 t檢定的

方式比較平均數另外依百分比反推出人數時有時會因四捨五入產生總人數多

1人的情況此時會對進位數最小的數採取無條件捨去法以符合總人數一致另

因研究者分三天進行六題施測每題實際受測人數也有不同研究者使用的資料

來源有兩個分別是 TIMSS 2003 實作評量題目及 TIMSS 1999 實作評量題目為

了呈現方便研究者將取自 TIMSS 2003 實作評量題目所作的施測結果用『95 年』

表示另外 TIMSS 1999 實作評量題目為研究者從民國 89 年徐美英的論文中擷取

出來的當年的施測結果以『89 年』表示

50

壹魔術師

表4-1-1 95年魔術師題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

魔術師ㄧ 16 16 68 5 127

魔術師二 101 151 748 5 127

魔術師三 202 235 563 5 127

由表 4-1-1 得知研究者此次此題型的施測結果各題得分均以得 2分者居

多得 1分居次利用表 4-1-1研究者也從民國 89 年徐美英的論文中找到類

似資料列在表 4-1-2表 4-1-2 是從論文的本文中摘錄下來的研究者反覆研

究該論文時發現在 P73 也有附錄一份有關魔術師各題的資料統整不過兩者的

個數有所差異下表總人數 156 人遺漏值 5人附錄中個數是 155 人下表反推

出人數後的平均數也與附錄稍有出入研究者以本文的表格為準

表4-1-2 89年魔術師題組得分情形分配表

題目 得 0分人數() 得 1分人數()得 2分人數() 遺漏值 總人數

魔術師ㄧ 419 258 323 5 156

魔術師二 194 194 613 5 156

魔術師三 258 258 484 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

51

0

10

20

30

40

50

60

70

80

魔術師ㄧ 魔術師二 魔術師三

95年答對率

89年答對率

圖 4-1-1 百分比圖表比較結果

由上圖可知95 年答對的答對率在 3題中均優於 89 年的結果其中以魔術

師ㄧ的資料差距最大但此兩年的資料也有一個共同的趨勢就是該年度的答對

率有魔術師二的答對率>魔術師ㄧ的答對率>魔術師三的答對率研究者進一步

反推 89 年的得分人數後將兩年的資料進行獨立樣本 t檢定結果列於表 4-1-3

表 4-1-4表 4-1-5

表 4-1-3 魔術師ㄧ獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異數

相等 4323 0039 6098 272000 0000 0410 0800

1

不假設變異

數相等 6173 270036 0000 0410 0800

52

表 4-1-3 可以看出變異數 Leven 檢定結果P值lt005所以達到顯著差異

可見變異數是不能視為相等的後面 t檢定值 6173P 值lt005所以有達到顯

著差異可見平均數是不能視為相等故這一小題明顯的是 95 年的學生成績較

表 4-1-4 魔術師二獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異數

相等 17130 0000 2550 270000 0011 0050 0410

2

不假設變異

數相等 2605 270000 0010 0060 0400

表4-1-4可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是不能視為相等的後面t檢定值2605P值lt005所以有達到顯著

差異可見平均數是不能視為相等故這一小題明顯的也是95年的學生成績較佳

表 4-1-5 魔術師三獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 0443 0506 1332 272000 0184 -0100 0330

3

不假設變

異數相等 1338 265000 0182 -0100 0330

53

表4-1-5可以看出變異數Leven檢定結果P值gt005所以沒有達到顯著差

異可見變異數是要視為相等的後面t檢定值1332P值gt005所以沒有達到

顯著差異可見平均數是也可以視為相等故這一小題兩年的學生成績沒有差別

接著研究者對整個題組總得分進行比較由於 89 年論文中只有平均數與標

準差兩項資料研究者只能稍做比較95 年施測的平均數為 424標準差為 208

而 89 年的平均數是 375標準差是 207由於兩者標準差的差距很小可見兩

項資料的集中平均數的趨勢是差不多的而平均數則是 95 年多 049 分

二擲骰子

表4-1-6 95年擲骰子題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

擲骰子一 101 202 697 8 127

擲骰子二 597 395 08 8 127

擲骰子三 25 319 655 8 127

擲骰子四 345 378 277 8 127

擲骰子五 a 462 538 8 127

擲骰子五 b 950 50 8 127

由表 4-1-6 得知研究者此次擲骰子題組中各題得分擲骰子一以得 2分

居多佔 697擲骰子二以得 0分居多佔 597擲骰子三以得 2分居多

佔 655擲骰子四以得 1分居多佔 378擲骰子五 a以得 1分居多佔 538

擲骰子五 b以得 0分居多佔 95擲骰子二與擲骰子五 b是要求學生說明理由

或描述規則可見學校教學應該可以再加強學生在解釋資料上的能力

54

表4-1-7 89年擲骰子題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

擲骰子一 32 65 903 5 156

擲骰子二 548 387 65 5 156

擲骰子三 00 65 935 5 156

擲骰子四 65 129 806 5 156

擲骰子五 a 97 903 5 156

擲骰子五 b 839 161 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

0

20

40

60

80

100

擲骰

子一

擲骰

子二

擲骰

子三

擲骰

子四

擲骰

子五

a

擲骰

子五

b

95年答對率

89年答對率

圖 4-1-2 百分比圖表比較結果

由上圖可知89 年答對的答對率在 5題中均優於 95 年的結果其中擲骰子

二與擲骰子五 b兩年的答對率都很低可見對位於城鄉交界處的台灣學生而言

這種類型的題目屬於偏難的題型研究者進一步反推 89 年的得分人數後將兩

年的資料進行獨立樣本 t檢定結果列於表 4-1-8表 4-1-9表 4-1-10表

55

4-1-11表 4-1-12表 4-1-13

表 4-1-8 擲骰子一獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 56450 0000 -4100 270000 0000 -0400 -0140

1

不假設變

異數相等 -3900 195000 0000 -0400 -0130

表4-1-8可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是要假設不相等的後面t檢定值-3906P值lt005所以也達到顯

著差異可見平均數是不能視為相等故這一小題是89年的學生表現較優秀

表 4-1-9 擲骰子二獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 9470 0002 -1500 270000 0141 -0200 0035

2

不假設變

異數相等 -1500 270000 0133 -0200 0032

表4-1-9可以看出變異數Leven檢定結果P值lt005所以有達到顯著差異

可見變異數是要視為不相等的後面t檢定值-1506P值gt005所以沒有達到

顯著差異可見平均數是可以視為相等故這一小題兩年的學生成績沒有差別

56

表 4-1-10 擲骰子三獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 186200 0000 -6200 270000 0000 -0400 -0210

3

不假設變

異數相等 -5800 162000 0000 -0400 -0200

表4-1-10可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是要視為不相等的後面t檢定值-5806P值lt005所以達到顯著

差異可見平均數是有顯著差異的故這一小題89年的學生成績表現較好

表 4-1-11 擲骰子四獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 19580 0000 -9900 270000 0000 -1000 -0650

4

不假設變

異數相等 -9600 212000 0000 -1000 -0650

表4-1-11可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-9565P值lt005有達到顯著差異

可見平均數是有顯著差異的故這一小題89年的學生成績比較好

57

表4-1-12 擲骰子五a獨立樣本t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 207800 0000 -7400 270000 0000 -0500 -0270

五 a

不假設變

異數相等 -7000 187000 0000 -0500 -0260

表4-1-12可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-7036P值lt005有達到顯著差異

可見平均數是有顯著差異故這一小題89年的學生成績比較好

表 4-1-13 擲骰子五 b獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 38760 0000 -2900 270000 0004 -0200 -0035

五b

不假設變

異數相等 -3100 251000 0003 -0200 -0039

表4-1-13可以看出變異數Leven檢定結果P值lt005達到顯著差異可見

變異數是要視為不相等的後面t檢定值-3052P值lt005達到顯著差異可

見平均數是有顯著差異故這一小題89年的學生成績比較好

接著研究者對整個題組總得分進行比較由於 89 年論文中只有平均數與標

58

準差兩項資料研究者只能稍做比較95 年施測的平均數為 48346標準差為

24455而 89 年的平均數是 68258標準差是 16947可見 89 年的資料顯示

集中平均數的趨勢較高而 95 年的資料則較為分散而且平均數又是 89 年多

19912 分多出將近 12 倍

三猜一猜

表4-1-14 95年猜一猜題組得分情形分配表

題目 得0分人

數()

得1分人

數()

得2分人

數()

得3分人

數()

得4分人

數()

得5分人

數() 遺漏值 總人數

猜一猜 3858 2441 1102 630 787 1181 0 127

由表 4-1-14 得知研究者此次擲骰子題組中得分以得 0分者居多顯示

學生的概算能力非常不足其次是得 1分的較多這顯示學生曉得題目要掌握哪

些資訊只是不懂得利用這些資訊0分與 1分的人數竟佔超過 50結果頗令

人訝異

表 4-1-15 89 年擲骰子題組得分情形分配表

題目 得0分人

數()

得1分人

數()

得2分人

數()

得3分人

數()

得4分人

數()

得5分人

數() 遺漏值 總人數

猜一猜 2580 650 100 1190 3230 2260 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

59

猜一猜

0

10

20

30

40

50

60

95年答對率 89年答對率

圖4-1-3 百分比圖表比較結果

本題研究者將得 4分與得 5分者列為答對人數由上圖可知89 年答對的答

對率優於 95 年的結果研究者進一步反推 89 年的得分人數後將兩年的資料進

行獨立樣本 t檢定結果列於表 4-1-16表 4-1-17

表4-1-16 猜一猜資料統計

年度 個數 平均數 標準差平均數的

標準誤

95 127 156 175 016 得分

89 151 286 196 016

表4-1-17 猜一猜獨立樣本t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 5639 0018 -5800 276000 0000 -1700 -0860猜

猜 不假設變

異數相等 -5900 275000 0000 -1700 -0864

60

表4-1-17可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-5856P值lt005有達到顯著差異

可見平均數是有顯著差異故這一小題89年的學生成績比較好

第二節 利用 TIMSS 2003 實作評量試題檢視施測

學校在性別及班級間是否存在差異

在各題型得分的相關情形方面將之整理成表格 4-2-1由表中得知除了

圖形題與猜一猜的相關係數達到005的顯著水準之外其他相關各題均達到001

的顯著水準也就是說圖形題與數字卡幾何方塊魔術師猜一猜擲骰子

等題有相當程度的關係其他各題相互之間也是類似的關係這說明了此次的考

題不只是幾何能力之間有相關的情況幾何能力與統計概念數的運算能力

概算能力之間也有相當程度的關係

61

表 4-2-1 各題型之相關係數

圖形題 數字卡 幾何方塊 魔術師 猜一猜 擲骰子

Pearson 相關 1 0617 0419 0487 0174 044

顯著性 (雙尾) 0 0 0 005 0 圖形

個數 127 127 127 127 127 127

Pearson 相關 0617 1 0517 0562 0272 0587

顯著性 (雙尾) 0 0 0 0002 0 數字

個數 127 127 127 127 127 127

Pearson 相關 0419 0517 1 0397 0308 0389

顯著性 (雙尾) 0 0 0 0 0 幾何

方塊

個數 127 127 127 127 127 127

Pearson 相關 0487 0562 0397 1 0248 0509

顯著性 (雙尾) 0 0 0 0005 0 魔術

個數 127 127 127 127 127 127

Pearson 相關 0174 0272 0308 0248 1 0317

顯著性 (雙尾) 005 0002 0 0005 0 猜一

個數 127 127 127 127 127 127

Pearson 相關 044 0587 0389 0509 0317 1

顯著性 (雙尾) 0 0 0 0 0 擲骰

個數 127 127 127 127 127 127

在顯著水準為001時 (雙尾)顯著相關

在顯著水準為005時 (雙尾)顯著相關

62

表4-2-2 班級對總分之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

班級 390132 3000 130044 2046 0111

誤差 7806910 123000 63471

總和 8197040 126000

以單因子變異數分析班級對總分的結果如表4-2-2在α=005之下F檢定值為

2049相對應的P值是0111因為P值>005所以未達顯著差異也就是各班

級間的實作評量總分並沒有因班級的不同而顯現出差異

表4-2-3 性別對總分之組別統計量與t檢定表

性別 個數 平均數 標準差 平均數的標準誤

男生 65 21892 7567 0939 總分

女生 62 23355 8595 1092

獨立樣本檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 0320 0573 -0998 125000 0320 -4263 1404

分 不假設變

異數相等 -0996 121524 0322 -4272 1413

從表4-2-3來看雖然女生平均成績是2331分高於男生的2188分但根

據獨立樣本t檢定的檢定結果變異數的Levene檢定F值為0320P值為0573

顯示出男生與女生的變異數沒有顯著差異而平均數的t檢定值為-0998P值為

63

032也顯示出男女生的平均數是沒有顯著差異的研究者進一步分析性別與各

題的t檢定結果顯示於表4-2-4

表4-2-4 性別對各題之組別統計量與t檢定表

性別 個數 平均數 標準差 平均數的標準誤

男生 65 326 112 014 圖形題

女生 62 340 098 012

男生 65 418 215 027 數字卡

女生 62 474 212 027

男生 65 417 160 020 幾何方塊

女生 62 413 167 021

男生 65 417 204 025 魔術師

女生 62 432 213 027

男生 65 135 163 020 猜一猜

女生 62 177 185 023

男生 65 474 237 029 擲骰子

女生 62 494 253 032

64

獨立樣本檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 1522 0220 -0756 125000 0451 -0510 0230圖

題 不假設變

異數相等 -0758 124117 0450 -0510 0230

假設變異

數相等 0431 0513 -1471 125000 0144 -1310 0190數

卡 不假設變

異數相等 -1471 124863 0144 -1310 0190

假設變異

數相等 0067 0797 0139 125000 0890 -0530 0610

不假設變

異數相等 0138 123883 0890 -0530 0620

假設變異

數相等 0031 0860 -0414 125000 0680 -0890 0580魔

師 不假設變

異數相等 -0413 123981 0680 -0890 0580

假設變異

數相等 2029 0157 -1359 125000 0177 -1030 0190猜

猜 不假設變

異數相等 -1355 121450 0178 -1030 0190

假設變異

數相等 0391 0533 -0452 125000 0652 -1060 0660擲

子 不假設變

異數相等 -0452 123426 0652 -1060 0670

65

結果顯示各小題的平均數女生分別是34474413432177

494男生分別是326418417417135474除了幾何方塊之外

幾乎都是女生高於男生而各小題的Levene變異數檢定結果其P值分別是

0220513079708601570533均大於005顯示沒有顯著差異

而平均數的檢驗結果各題的P值分別是0451014408906801770652

也都大於005也呈現沒有達到顯著差異可見這6題的考題成績結果與刻板

印象「男生數理比較厲害」有不同的結果

第三節 利用 TIMSS 2003 實作評量試題比較施測

學校與原始施測資料的成績差異

本節研究重點是 TIMSS 2003 的題目與國際受測國家中總體表現較好的國家

資料及台灣原始資料進行比較TIMSS 網站上提供各個受測國家的資料檔研究

者下載了新加坡香港日本台灣比利時與美國的資料之所以下載這幾個

國家的資料是因為四年級測驗總分結果前五名剛好是新加坡香港日本台

灣比利時而且從總分的分析結果顯示台灣與新加坡香港有顯著差異與日

本沒有顯著差異而比利時與台灣也有顯著差異所以比較這五個國家而美國

是因為研究者想了解美國學生是否真的比較會活用故列入此次的比較探討在

實作評量上是否達到顯這差異研究方法採用變異數分析與事後比較事後比較

採用雪費(Scheffe)檢定法由於 TIMSS 施測時採用 12 本測驗題本所以參與

實作評量的各題人數並不一致會出現同一個國家在不同題目上有不同人數的情

況另外因研究者分三天進行六題施測每題實際受測人數也有不同

一圖形題

66

表4-3-1 95年圖形題題組得分情形分配表

題目 得 0分人數 得 1分人數 缺失值 總人數

圖形題甲 66 934 6 127

圖形題乙 41 959 6 127

圖形題丙 174 826 6 127

圖形題丁 223 777 6 127

由表 4-3-1 可知在圖形題題組中各小題得分均以得 1分的人數分別是

934959826777各題百分比是否達到顯著不同研究者用百分比

同質性檢定結果列於表 4-3-2

表 4-3-2 圖形題百分比同質性檢定

得分題目 交叉表

題目

1 2 3 4 總和

得分 0 8 5 21 27 61

得分 1 113 116 100 94 423

總和 121 121 121 121 484

卡方檢定

數值 自由度 p-value

Pearson 卡方 24666a 3000 0000

概似比 25936 3000 0000

線性對線性的關連 19950 1000 0000

有效觀察值的個數 484000

a 0 格(0)的預期個數少於 5最小的預期個數為 1525

67

結果顯示 Pearson 的卡方值 24666df=3p=0000達到顯著水準所以

各題的答對率百分比是不同的

表4-3-3 圖形題題組各國答對率的比較

題目 新加坡答

對率

香港答對

日本答對

台灣答對

比利時答

對率

美國答對

施測學校

答對率

圖形題甲 830 958 917 936 833 727 934

圖形題乙 937 988 902 950 911 877 959

圖形題丙 702 859 744 847 504 328 826

圖形題丁 616 490 634 656 504 553 777

00

400

800

新加坡

香港

日本

台灣

比利時

美國

施測學

圖形

題甲

圖形

題乙

圖形

題丙

圖形

題丁

圖4-3-1 圖形題題組答對率之比較圖

由表 4-3-3 與圖 4-3-1 可知在圖形題題組中甲題的答對率以香港最高

台灣與施測學校居次美國最低乙題的答對率以香港最高台灣與施測學校還

是居次美國最低丙題的答對率以香港最高台灣居次美國最低而且低到

328丁題的答對率以施測學校最高台灣居次香港最低低到 490香港

68

在此小題的表現與上述三小題的結果明顯有很大差距

接著進行變異數分析與事後比較的結果

表4-3-4 圖形題各題之資料統整

圖形題甲

有效的個數 平均數 標準差

新加坡甲 1103 0830462 0375396

香港甲 757 0957728 0201342

日本甲 767 0916558 0276730

台灣甲 776 0935567 0245681

比利時甲 779 0833119 0373109

美國甲 1636 0726773 0445753

施測甲 121 0933884 0249517

圖形題乙

有效的個數 平均數 標準差

新加坡乙 1103 0937443 0242274

香港乙 757 0988111 0108458

日本乙 767 0902216 0297216

台灣乙 776 0949742 0218617

比利時乙 779 0911425 0284312

美國乙 1636 0877139 0328378

施測乙 121 0958678 0199862

題形題丙

有效的個數 平均數 標準差

新加坡丙 1103 0701723 0457709

香港丙 757 0858653 0348610

日本丙 767 0744459 0436450

台灣丙 776 0846649 0360557

比利時丙 779 0504493 0500301

美國丙 1636 0327628 0469492

施測丙 121 0826446 0380300

69

圖形題丁

有效的個數 平均數 標準差

新加坡丁 1103 0615594 0486675

香港丁 757 0490092 0500232

日本丁 767 0633638 0482125

台灣丁 776 0655928 0475371

比利時丁 779 0504493 0500301

美國丁 1636 0552567 0497381

施測丁 121 0776860 0418083

由表 4-3-4 得知參與此題的人數以美國的 1636 人最多香港日本台

灣比利時的人數差不多經變異數分析後如表 4-3-5 所示

表 4-3-5 圖形題各題之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

圖形題甲 組間 44078 6 7346 59531 0000

組內 732026 5932 0123

總和 776103 5938

圖形題乙 組間 8009 6 1335 18752 0000

組內 422269 5932 0071

總和 430278 5938

圖形題丙 組間 257623 6 42937 223054 0000

組內 1141889 5932 0192

總和 1399511 5938

圖形題丁 組間 24546 6 4091 17047 0000

組內 1423561 5932 0240

總和 1448107 5938

70

表4-3-5顯示在α=005之下圖形題4小題的P值均<005均達顯著

水準可見這4題的平均得分有顯著不同所以研究者進一步做事後分析如表

4-3-6所示配合研究者的研究目的本文中只摘錄與研究目的相關的資料其

他比較結果請參閱附錄表格

表 4-3-6 圖形題各題之事後比較

Scheffe 法

題目 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0100 0034 0150

香港 -0024 0034 0998

日本 0017 0034 1000

台灣 -0002 0034 1000

比利時 0100 0034 0196

圖形題

美國 0210 0033 0000

施測 新加坡 0021 0026 0995

香港 -0029 0026 0973

日本 0057 0026 0585

台灣 0009 0026 1000

比利時 0047 0026 0772

圖形題

美國 0082 0025 0105

施測 新加坡 0120 0042 0185

香港 -0032 0043 0997

日本 0082 0043 0724

台灣 -0020 0043 1000

比利時 0320 0043 0000

圖形題

美國 0500 0041 0000

施測 新加坡 0160 0047 0066

香港 0290 0048 0000

日本 0140 0048 0178

台灣 0120 0048 0382

比利時 0270 0048 0000

圖形題

美國 0220 0046 0001

71

由表4-3-6所顯示的結果得知在圖形題這四小題中施測學校與台灣在2003

年所作的調查結果的資料並沒有達到顯著差異可見施測學校的圖形題各小題的

平均得分與2003年的台灣資料的圖形題各小題的平均得分是視為相等的施測學

校在圖形題乙的部分與國際上2003年表現較好的國家的施測資料也都沒有達到

顯著差異可見在這一小題上施測學校與國際上表現較好的國家的平均得分也

是可以視為相等的但是在圖形題甲中施測學校與美國有達到顯著差異在圖

形題丙中施測學校與比利時美國有達到顯著差異在圖形題丁中施測學校

與香港比利時美國有達到顯著差異可見在圖形題甲中施測學校的平均得

分優於美國在圖形題丙中施測學校的平均得分優於比利時與美國在圖形題

丁中施測學校的平均得分優於香港比利時與美國

接下來以整個圖形題的題組來看由表 4-3-7 所示變異數分析的結果

表4-3-7 圖形題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 725457 6 120910 107817 0000

組內 6652328 5932 1121

總和 7377785 5938

在α=005的情況下F檢定值為107817plt005達到顯著差異所以

可以得知這七個國家的平均得分有顯著差異所以要進行事後比較如表4-3-8

所示

72

表4-3-8 圖形題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0410 0101 0012

香港 0200 0104 0708

日本 0300 0104 0215

台灣 0110 0104 0982

比利時 0740 0103 0000

美國 1010 0100 0000

由表 4-3-8 得知整個題組的事後分析顯示在α=005 的情況下施測學

校的總分平均得分與與台彎沒有達到顯著差異所以平均總得分是可以視為相等

的而施測學校總平均得分與新加坡比利時美國有達到顯著差異所以施測

學校的總平均得分是優於新加坡比利時與美國

二數字卡題組

表4-3-9 95年數字卡題題組得分情形分配表

得 0分人數 得 1分人數 得 2分人數 遺漏值 總人數

數字卡 1 317 683 7 127

數字卡 2 242 758 7 127

數字卡 3 117 92 792 7 127

數字卡 4 300 700 7 127

數字卡 5 317 683 7 127

數字卡 6 783 217 7 127

由表 4-3-9 可知在數字卡題題組中各小題得分分別以數字卡 1得 1分者

73

佔 683以數字卡 2得 1分者佔 758以數字卡 3得 2分者佔 792以數字

卡 4得 1分者佔 70以數字卡 5得 1分者佔 683以數字卡 6得 0分者佔 783

居多數字卡 6得分偏低此小題是要求學生將已知的三個數字拼成兩個數後所

得乘積最大結果顯示學生答對率偏低但學生在加法與減法上則無此現象(數

字卡 4與數字卡 5)此題各國答對率的比較結果列於表 4-3-10

表4-3-10 數字卡題題組各國答對率的比較

題目 新加坡 香港 日本 台灣 比利時 美國 施測學校

數字卡 1 494 624 646 698 475 416 683

數字卡 2 567 538 619 657 556 458 758

數字卡 3 645 595 594 657 553 563 792

數字卡 4 713 710 754 647 556 534 700

數字卡 5 693 689 738 629 546 497 683

數字卡 6 264 243 362 225 185 135 217

0

20

40

60

80

100

數字卡1

數字卡2

數字卡3

數字卡4

數字卡5

數字卡6

圖 4-3-2 數字卡題題組答對率之比較圖

74

由表 4-3-10 與圖 4-3-2 可知在圖形題題組中第 1題的答對率以台灣最

高施測學校居次美國最低第 2題的答對率以施測學校最高台灣居次美

國最低第 3題的答對率以施測學校最高台灣居次比利時最低第 4題的答

對率以日本最高新加坡和香港居次美國最低第 5題的答對率以日本最高

新加坡居次美國最低第 6題的答對率還是以日本最高新加坡居次美國最

低接著進行變異數分析結果列於表 4-3-11

表 4-3-11 數字卡題各題之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

組間 34477 6 5746 2418 0000

組內 717422 3019 0238 第一題

總和 751899 3025

組間 18413 6 3069 12727 0000

組內 727966 3019 0241 第二題

總和 746379 3025

組間 36829 6 6138 7166 0000

組內 2585878 3019 0857 第三題

總和 2622707 3025

組間 22038 6 3673 16419 0000

組內 675332 3019 0224 第四題

總和 697369 3025

組間 24878 6 4146 18142 0000

組內 689975 3019 0229 第五題

總和 714853 3025

組間 14939 6 2490 14850 0000

組內 506156 3019 0168 第六題

總和 521095 3025

75

表4-3-11顯示在α=005之下數字卡題6小題均達顯著水準可見這6小題

的平均得分有顯著不同所以研究者進一步做事後分析如表4-3-12所示配合

研究者的研究目的本文中只摘錄與研究目的相關的資料其他比較結果請參

閱附錄表格

表4-3-12 數字卡題之事後比較

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0190 0049 0021

香港 0059 0051 0969

日本 0037 0051 0998

台灣 -0015 0051 1000

比利時 0209 0051 0010

第一題

美國 0267 0048 0000

施測 新加坡 0192 0049 0020

香港 0221 0051 0005

日本 0140 0052 0296

台灣 0101 0051 0692

比利時 0203 0051 0016

第二題

美國 0301 0048 0000

施測 新加坡 0335 0093 0045

香港 0451 0097 0001

日本 0404 0098 0009

台灣 0302 0097 0136

比利時 0500 0097 0000

第三題

美國 0490 0091 0000

施測 新加坡 -0013 0048 1000

香港 -0010 0050 1000

日本 -0054 0050 0978

台灣 0053 0049 0979

比利時 0144 0049 0201

第四題

美國 0166 0046 0045

76

表 4-3-12(續) 數字卡題之事後比較

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 -0010 0048 1000

香港 -0006 0050 1000

日本 -0054 0050 0979

台灣 0054 0050 0978

比利時 0138 0050 0267

第五題

美國 0186 0047 0014

施測 新加坡 -0047 0041 0971

香港 -0026 428E-02 0999

日本 -0145 0043 0079

台灣 -0008 0043 1000

比利時 0031 0043 0997

第六題

美國 0082 0040 0654

由表4-3-12所顯示的結果得知在數字卡題這六小題中施測學校與台

灣在2003年所作的調查結果資料並沒有達到顯著差異可見施測學校的數字卡題

各小題的平均得分與2003年的台灣資料的數字卡題各小題的平均得分是視為相

等的施測學校在數字卡題第六題的部分與國際上2003年表現較好的國家的施測

資料也都沒有達到顯著差異可見在這一小題上施測學校與國際上表現較好的

國家的平均得分也是可以視為相等的但是在數字卡題第一題中施測學校與新

加坡比利時美國有達到顯著差異顯示在這一小題中施測學校的成績是優

於這三個國家的在數字卡題第二題中施測學校與新加坡香港比利時美

國有達到顯著差異顯示在這一小題中施測學校的成績是優於這四個國家的

在數字卡題第三題中施測學校與新加坡香港日本比利時美國有達到顯

著差異顯示在這一小題中施測學校的成績是優於這五個國家的在數字卡題

第四題中施測學校與美國有達到顯著差異顯示在這一小題中施測學校的成

績是優於美國的在數字卡題第五題中施測學校與美國有達到顯著差異顯示

77

在這一小題中施測學校的成績是優於美國的

接下來以整個數字卡題的題組來看由表 4-3-13 所示變異數分析的結果

表4-3-13 數字卡題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 660902 6 110150 23261 0000

組內 14295950 3019 4735

總和 14956850 3025

在α=005的情況下F檢定值為23261plt005達到顯著差異所

以可見這七個國家總分的平均得分有顯著差異所以進行事後比較如表4-3-14

所示

表 4-3-14 數字卡題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0645 0219 0192

香港 0688 0228 0167

日本 0327 0229 0916

台灣 0486 0227 0598

比利時 1224 0227 0000

美國 1492 0213 0000

由表4-3-14得知整個題組的事後分析顯示在α=005的情況下施測學校

的總分平均得分與台彎沒有達到顯著差異所以平均總得分是可以視為相等的

而施測學校總平均得分與比利時美國有達到顯著差異所以施測學校的總平均

得分是優於比利時與美國

78

三幾何方塊題組

表4-3-15 95年幾何方塊題題組得分情形分配表

得 0分人數 得 1分人數 得 2分人數 遺漏值 總人數

幾何方塊 1 50 950 8 127

幾何方塊 2 109 891 8 127

幾何方塊 3 252 748 8 127

幾何方塊 4 193 807 8 127

幾何方塊 5 244 479 277 8 127

由表 4-3-15 可知在幾何方塊題題組中各小題得分分別以幾何方塊 1得 1

分者佔 95以幾何方塊 2得 1 分者佔 891以幾何方塊 3 得 1 分者佔 748

以幾何方塊 4得 1分者佔 807以幾何方塊 5得 1分者佔 479居多各題各

國答對率的比較結果列於表 4-3-16

表 4-3-16 幾何方塊題題組各國答對率的比較

題目 新加坡 香港 日本 台灣 比利時 美國 施測學校

幾何方塊 1 432 602 785 580 517 399 950

幾何方塊 2 447 470 717 546 548 405 891

幾何方塊 3 720 702 557 613 432 461 748

幾何方塊 4 557 436 447 323 516 446 807

幾何方塊 5 115 66 135 82 123 76 277

79

0

20

40

60

80

100

幾何

方塊1

幾何

方塊2

幾何方塊3

幾何

方塊4

幾何

方塊5

圖4-3-3 幾何方塊題題組答對率之比較圖

由表 4-3-16 與圖 4-3-3 可知在幾何方塊題組中第 1題的答對率以施測

學校最高日本居次美國最低第 2題的答對率以施測學校最高日本居次

美國最低第 3題的答對率以施測學校最高新加坡居次比利時最低第 4題

的答對率以施測學校最高新加坡居次台灣最低第 5題的答對率以施測學校

最高日本居次香港最低接著進行變異數分析結果列於表 4-3-17

80

表 4-3-17 幾何方塊題各題之變異數分析

得分 平方和 自由度 平均平方和 F 檢定 p-value

組間 115732 6 19289 83927 0000

組內 1363788 5934 0230 第一題

總和 1479520 5940

組間 75877 6 12646 53259 0000

組內 1409236 5935 0237 第二題

總和 1485112 5941

組間 77699 6 12950 55905 0000

組內 1374774 5935 0232 第三題

總和 1452473 5941

組間 42205 6 7034 29061 0000

組內 1436564 5935 0242 第四題

總和 1478768 5941

組間 51860 6 8643 20902 0000

組內 2454259 5935 0414 第五題

總和 2506120 5941

表4-3-17顯示幾何方塊題5小題均達顯著水準可見這5題的平均得分

有顯著不同所以研究者進一步做事後分析如表4-3-18所示配合研究者的研

究目的本文中只摘錄與研究目的相關的資料其他比較結果請參閱附錄表格

81

表4-3-18 幾何方塊題各題之事後比較

Scheffe 法

題號 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0520 0046 0000

香港 0350 0047 0000

日本 0160 0047 0060

台灣 0370 0047 0000

比利時 0430 0047 0000

第一題

美國 0550 0046 0000

施測 新加坡 0440 0047 0000

香港 0420 0048 0000

日本 0170 0048 0040

台灣 0340 0048 0000

比利時 0340 0048 0000

第二題

美國 0490 0046 0000

施測 新加坡 0028 0046 0999

香港 0046 0047 0988

日本 0190 0047 0012

台灣 0140 0047 0230

比利時 0320 0047 0000

第三題

美國 0290 0046 0000

施測 新加坡 0250 0047 0000

香港 0370 0049 0000

日本 0360 0049 0000

台灣 0480 0049 0000

比利時 0290 0049 0000

第四題

美國 0360 0047 0000

82

表 4-3-18(續) 幾何方塊題各題之事後比較

題號 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0260 0062 0006

香港 0430 0063 0000

日本 0280 0063 0004

台灣 0480 0063 0000

比利時 0350 0063 0000

第五題

美國 0420 0061 0000

由表4-3-18所顯示的結果得知在幾何方塊題這五小題中只有第三小

題施測學校與台灣在2003年所作的調查結果資料並沒有達到顯著差異其他四小

題的結果都是與台灣達到顯著差異的可見施測學校的平均得分在這四小題中是

優於台灣在2003年所作的調查結果資料在幾何方塊題第一題中施測學校與新

加坡香港比利時美國有達到顯著差異顯示在這一小題中施測學校的成

績是優於這四個國家的在幾何方塊題第二題中施測學校與新加坡香港日

本比利時美國有達到顯著差異顯示在這一小題中施測學校的成績是優於

這五個國家的在幾何方塊題第三題中施測學校與日本比利時美國有達到

顯著差異顯示在這一小題中施測學校的成績是優於這三個國家的在幾何方

塊題第四題中施測學校與新加坡香港日本比利時美國有達到顯著差異

顯示在這一小題中施測學校的成績是優於這五個國家的在幾何方塊題第五題

中施測學校與新加坡香港日本比利時美國有達到顯著差異顯示在這

一小題中施測學校的成績是優於這五個國家的

接下來以整個幾何方塊題的題組來看由表 4-3-19 所示變異數分析的結果

83

表4-3-19 幾何方塊題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 885084 6 147514 50368 0000

組內 17379220 5934 2929

總和 18264300 5940

在α=005的情況下F檢定值為50368plt005達到顯著差異所

以可見這七個國家總分的平均得分有顯著差異所以進行事後比較如表4-3-20

所示

表4-3-20 幾何方塊題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 1499 0165 0000

香港 1615 0169 0000

日本 1166 0169 0000

台灣 1814 0169 0000

比利時 1727 0169 0000

美國 2101 0162 0000

由表4-3-20得知整個題組的事後分析顯示在α=005的情況下施測學

校的總分平均得分與台彎有達到顯著差異所以平均總得分是施測學校優於台灣

在2003年所作的調查結果資料的而施測學校總平均得分與新加坡香港日本

比利時美國有達到顯著差異所以施測學校的總平均得分是優於新加坡香港

日本比利時美國

84

第四節 實作評量試題的類推性

本研究試題的評分者有兩位所以採用的是評分者與工作項目的兩面向交叉

設計(the two-facet crossed persontimesratertimestask design)研究者原先想

利用 SPSS 套裝軟體進行多變量變異數分析將評分的結果做概化程度的分析

計算出各個變異來源之變異成份的大小及其佔總變異的百分比但因檔案太

大SPSS 套裝軟體無法進行多變量變異數分析所以研究者改用 EXCEL 軟體進行

試算其結果列於表 4-4-1

表4-4-1 實作評量概化程度變異成分表

變異來源 估計變異成份 佔總變異之百分比

受試者 0887981185 1944983082

評分者 96E-16 211E-14

工作項目 1697518073 3718146275

受試者評分者 0 0

受試者工作項目 1872595983 410162689

評分者工作項目 0033245844 0728197914

受試者評分者工作項目及誤差 0074154589 1624239615

G 係數 0736144063

註 1在受試者與評分者的交互作用項中其估計變異成份的大小為-106396E-15Shavelson

Webb(1991)指出當某變異成份實際的值接近或等於 0 時取樣的誤差可能導致該變異成份

的估計值成為負數此時可將負值的變異成份大小設定為 0

從以上的表 4-4-1研究者有以下的發現

一實作評量最大的三個變異來源是受試者和工作項目的交互作用工作項

目之間的變異與受試者之間的變異

實作評量最大的變異來源是受試者和工作項目的交互作用佔總變異量的

85

41016表示在研究者的實作評量裡學生的成績會因著工作項目的不同而有

高低起伏如此一來便會降低以某位受試者的觀察分數概化至其真實分數的可

靠程度所以研究者無法以學生在少量的實作評量評量項目上的表現來做為他

們在數學科能力的推論

此外在研究者的實作評量中第二大的變異來源為工作項目之間的變異

其值為 170佔總變異的 37181這只是反應了學生在評量項目上能力表

現的差異並非影響 G係數大小的主要因素關於這一點研究者從計算 G係數

的公式可以了解G係數的計算公式是這樣的

G=σ2p(σ2

p+σ2ptnt+σ2

rpnr+σ2rptenrtimesnt)

G 係數的意義是受試者間的變異量在與受試者有關的變異量之總和中所佔的

比例大小因此若受試者間的變異量愈大而相對於受試者與其他實驗設計面

向的變異量及誤差愈小則 G係數便會愈大也就是根據測驗成績來作推論的可

靠性愈高

二兩位評分者之間的變異極小

評分者之間的變異為傳統的評分者信度從表 4-4-1 可以看到兩位評分結果

之間的變異值為 96E-16僅佔總變異的 211E-14顯示研究者的評分標準非

常一致也就是說研究者兩位當中並沒有誰評分時較為嚴格(stringent)或

較為寬大(liberal)

三受試者與評分者之間沒有交互作用

表 4-4-1 顯示受試者與評分者之間的交互作用為 0表示研究者兩位評分者

並沒有受到月暈效應的影響而對某些學生給予較高的成績對其他學生則給予較

低的成績這一點也可做為評量是否具有公平性的證據之一

四評分者與工作項目間的交互作用非常小

評分者與評量項目間的交互作用很小表示兩位評分者在評定各個評量項目

的評量標準相當一致這原因是由於評分標準訂定的相當明確而且具體讓評分

86

者之間沒有認知的差異存在

從評量工作項目的內容來看本次測驗所測量的雖然同樣是數學能力

測驗但各題所涵蓋的領域包含了統計的資料處理分析能力(擲骰子)幾

何對稱概念(魔術師)概算能力(猜一猜)幾何圖型的直觀概念(圖形

題)數與量中的整數加減乘的運算分析能力(數字卡)結合數與形兩大

主題的幾何形體構成要素及其數量性質(幾何方塊)題目本身的差異性很

大而且每位學生所擅長的方面有所不同在工作項目的表現自然就有所

不同在加上每題的配分並不盡相同所以由這些評量項目概化至其他數

學科能力的程度就降低了這也就是本研究的 G 係數僅達 0313表示如果

使用少量的實作評量工作項目將無法達到所需要的信度

另外主要效果是受試者的變異數值是 0888佔總變異的 19450代

表學生之間的程度差異也很大

根據概化程度研究的結果研究者可以進一步做決策研究(decision

study)決策研究是用來指出若要達到足夠小的誤差變異或足夠大的概化

係數時每一個學生需要多少工作項目以及每一個工作項目需要多少評分

者下面研究者分別分析在幾個評分者的情況下實作評量工作項目為幾

個時G 係數才能達到 08

87

表 4-4-2 G 研究與各種 D 研究之變異成分分析與推論力係數

變異源 G 研究變異成

分之估計值D研究變異成分之估計值

nr= 1 2 3 5 2 2 2

ni= 1 6 6 6 7 8 9

受試者 0888 0888 0888 0888 0888 0888 0888

評分者 0000 0000 0000 0000 0000 0000 0000

工作項目 1698 0283 0283 0283 0243 0212 0189

受試者評分者 0000 0000 0000 0000 0000 0000 0000

受試者工作項目 1873 0312 0312 0312 0268 0234 0208

評分者工作項目 0033 0100 0066 0040 0116 0133 0150

受試者評分者工

作項目及誤差 0074 0006 0004 0002 0005 0005 0004

σRel 1947 0318 0316 0315 0273 0239 0212

G 係數 0313 0736 0737 0738 0765 0788 0807

由表 4-4-2 可知原設計研究 2位研究者與 6道題目的方式推出 G係數只有

0736當評分者增加一位而題目維持六題時G係數只增加 001 達到 0737

如果將評分者增加到五位而題目仍維持六題時G係數只增加 002 達到 0738

可見增加評分者的影響有限如果評分者維持兩位而題目增加為七題G係數會

增加 0029達到 0765如果評分者維持兩位而題目增加為八題G係數會增加

0052達到 0788可見增加題目的效果比增加評分者更為有效當評分者為兩

位題目為九題時G係數可達 0807顯示評分者為兩位題目為九題時內

部一致性較佳

88

第五章 結論

本研究以 TIMSS 數學實作評量的題目為工具進行特定環境背景不同年度的

縱貫研究及與其他國際上表現較佳的國家進行橫貫研究以下為本研究進行所得

的經驗以及資料分析所得之結果分別以結論以及建議等兩節進行說明

第一節 結論

壹實作評量的信效度

TIMSS 試題在台灣之施測是具有一定信效度在信度方面經實際施測後計

算的結果為 0799所以 TIMSS 數學實作評量試題在台灣之施測是具有信度的

但根據實作評量試題的類推性分析結果發現G研究中的 G係數只有 0313深

入探討其原因可能是試題難易程度的差別較大與各題配分比例不同所造成的

所以在 D研究中要補救其信度低的措施就是增加評分者為兩位題目為九題時

其 G係數就可以達到 0807在效度方面每一題均有詳細說明細節行為的項目

給定參考答案圖形的作品量表各題除經著名國際測驗機構審核施測過外並由

研究者另請學校資深四年級教師共同研究討論題目與答案對於施測過程研究

者也與四位監考老師討論後訂出共同標準所以在效度方面具有專家效度跟內

容效度

貳評量結果與比較

一在進行縱貫研究方面在魔術師題型上民國 95 年的結果較佳在擲

骰子題型上是民國 89 年的結果較佳在猜一猜題型上民國 89 年的結

果較佳此結果顯示在幾何概念的對稱觀念上民國 95 年的學生有較

佳的表現但在統計觀念及概數觀念上民國 89 年的學生表現較佳

在實際施測過程中研究者發現在魔術師題型的第一題上許多民國

95 年的學生是先將題目要求的圖形剪出來後再進行對摺當然如果學生

是交出這樣的答案紙條評分者是不給分的因為當評分者在沿著摺線

89

還原時就會發現不是一刀剪出來的可是因為有三個機會所以許多學

生得到這樣的經驗後就會在第二次或第三次時剪出題目要求的結果

而且第一題的成功經驗會連帶的影響第二題的作答因為摺的方式是

一樣的只是剪的地方是不同的所以不管民國 95 年或是民國 89 年的

作答結果都會發現第二題的答對率均比第一題高而第三題的作答方

式因為要多摺一次而且較難複製前面成功的經驗所以第三小題的答

對率比前兩題均比較低所以研究者認為在這一題型上民國 95 年的

學生會表現得比較好的原因可能在於有比較好的作答技巧

二TIMSS 實作評量在性別及班級之間沒有顯著差異

三在圖形題題型上施測學校與台灣西元 2003 年施測結果沒有達到顯著

差異在數字卡題型上施測學校與台灣西元 2003 年施測結果沒有達

到顯著差異在幾何方塊題型上施測學校與台灣西元 2003 年施測結

果達到顯著差異之所以在幾何方塊題型上會達到顯著差異研究者認

為可能是時間點的問題因為研究者施測的時間是利用學期末期末考

後而剛好這次期末考有分數的單元所以學生對這個範圍比較熟悉

才可能造成施測學校的成績特別突出

四在圖形題題型上施測學校優於新加坡比利時及美國在數字卡題型

上我國優於比利時美國在幾何方塊題型上施測學校優於新加坡

香港日本比利時美國研究者特別注意到香港與美國這兩個國家

在 89 年徐美英論文中香港在該年的施測結果都比徐美英施測結果落

後但在 95 年的施測結果卻只有幾何方塊題型是明顯落後施測學校這

表示不是台灣學生在這幾年程度變低了就是這幾年香港程度變高了

在跟縱貫研究做交叉比較後研究者認為台灣學生這幾年程度變低的可

能性較大而美國不管是在 89 年與徐美英論文的施測結果比較或是與

95 年施測結果比較均在這兩次比較中明顯落後

90

第二節 建議

壹TIMSS 實作評量的後續研究

由於數學科實作評量在實際施測時常有人力與物力上的考量以至於在實

際教育現場上並不常用但是實作評量所測出的學生能力與紙筆測驗所測出的

學生能力是不同面向的經過此次實際施測的經驗研究者認為運用 TIMSS 實

作評量的試題來了解學生的學習成就可以在經濟負擔的考慮範圍內達到可

信賴的研究成果因此建議後續研究者可朝向此方向繼續研究以期能更深入

了解學生學習成就的變化情形

貳學生學習成就的長期追蹤

建立台灣的長期教育資料庫是必要的這是從事教育基礎研究的中外學者

的共識研究者此次研究以 TIMSS 實作評量的試題為工具來了解民國 89

年跟民國 95 年特定環境背景的國小四年級學生學習成就的比較即以此理念

為出發點目前在中央研究院教育部和國科會共同推動下『台灣教育長期

追蹤資料庫』的建置工作也已在 2001 年 10 月份起正式展開目的是為了從教

育基礎研究的角度出發研究哪些因素會影響到學生解決問題的能力如學

生努力程度學習機會和學習能力等等當然資料的品質是累積而來的不做

沒有開始就不可能有改進也就不可能有較豐富的資料內容美國國家教育

長期研究(National Education Longitudinal Study NELS)其資料的品質

和豐富素為各國教育研究學者所稱道就是因為它累積了二十多年的經驗

且經過多次的增刪修改研究者也希望能有後續研究者投入後續的相關研究

並累積相關的資料以利決策者能創造出適合台灣學生的最佳學習環境

叁開放性問題的評量研究

在此次研究中發現學生對於開放性問題的解題能力非常不足對於設計

好的題目較難提出歸納模式或者合理的推測這或許歸因於教學現場中的標

91

準化測驗在整個學習過程中教學活動跟教學評量是交互不斷進行而常常

受限於時間跟經濟因素教師只能被迫選擇標準化測驗以診斷學生學習困難

處但是標準化測驗容易讓學生誤以為答案是唯一的而且數學知識是可以切

割成不相關的小部分的因此在國民中小學九年一貫課程綱要中提出「教師

應透過各種評量方式以檢驗教學效果」的觀念研究者建議後續研究者能進一

步探討這方面的相關研究

肆國際比較的重要性

許多國家多年以前即開始參與大型國際研究以了解自己國家學生與其他

不同國家或區域的學生學習成就的差異特別的是此類國際研究對於結果的分

析是深入且多面向的包括學生家庭背景班級學校等民國 95 年中國時

報特別以專欄方式提出芬蘭的教育成功經驗以供國內教育改革的參考為什

麼要特別提出芬蘭呢因為芬蘭在重要的國際比較研究中常常名列前矛所

以參與大型的國際研究可以找出成功的經驗減少自己摸索的時間

92

參考文獻

壹中文部份

王秀琲 (民 92)實作評量在國小數學科之應用-以五年級學童分數為例國立

臺中師範學院教育測驗統計研究所碩士論文

方泰山(民 91)第四次 TIMSS 2003 NRC 自由反應評分系統研討會會議報告

httpichochemntnuedutwpub4thnrcreporthtm

石千奇(民 93)國小六學童在數學實作評量中的小組解題歷程分析國立中山

大學教育研究所碩士論文

江文慈(民 87)一個新評量理念的探討多元智力取向的評量教育資料與研

究20 期6-12

曲慧娟 (民 94)實作評量在國中學術性向優異班招生鑑定之效度研究~以臺灣

北區為例國立臺灣師範大學特殊教育研究所碩士論文

李坤崇(民 88)多元化教學評量台北心理

余民寧(民 93)教育測驗與評量-成就測驗與教學評量第二版台北心理

吳毓瑩(民 85)評量的蛻變與突破-從哲學思潮與效度理論參考起教育資料

與研究13 期2-15

李虎雄張敏雪(民 87)由學力評量觀點談實作評量之特性測驗與輔導

3104-3108

吳明隆(民 87)教室做為評量環境的內涵與其評量新趨勢研習資訊15 卷

4期62-77

93

吳清山林天佑(民 85)教育名詞 mdash分流教育教育資料與研究885

李長柏(民 91)國小數學簡單機率解題實作評量與後設認知之相關研究國立

臺中師範學院教育測驗統計研究所碩士論文

呂政隆(民 93)國小學童在數學實作評量解題整合認知與課程之相關研究

國立臺中師範學院教育測驗統計研究所碩士論文

呂金燮(民 88)實作評量-理論載於王文中呂金燮吳毓瑩張郁雯張淑

慧(合著)教育測驗與評量教室學習觀點(頁 173-207)台北五

李茂能(民 85)信度考驗的另一途徑推論力理論國民教育學報227-48

林清山(民 81)心理與教育統計學台北東華

林敬修(民 92)影響國小數學科實作評量信度相關因素之類推性理論分析國

立屏東師範學院教育心理與輔導學系研究所碩士論文

洪之昀(民 89)數學科實作評量對國小高年級學童學習策略影響之研究國立

臺中師範學院教育測驗統計研究所碩士論文

桂怡芬吳毓瑩(民 87)自然科實作評量的效度探討測驗年刊45(2)19-36

桂怡芬(民 85)自然科實作評量的效度探討國立台北師範學院國民教育研究

所碩士論文

桂怡芬(民 85)紙筆與實作的互補我的實作評量經驗教育資料與研究13

期36-40

徐美英(民 89)TIMSS 數學實作評量在台灣之試用探討國立臺中師範學院教

育測驗統計研究所碩士論文

94

夏淑琴(民 88)教學評量革新-多元評量載於高強華主編(民 88)學校變遷與

學校革新台北師大

教育部(民 92)國民中小學九年一貫課程綱要數學學習領域台北教育部

張紹勳張紹評林秀娟(民 92a)SPSS For Windows 統計分析初等統計與高

等統計(上冊)(第四版)台北文魁資訊股份有限公司

張紹勳張紹評林秀娟(民 92b)SPSS For Windows 統計分析初等統計與高

等統計(下冊)(第四版)台北文魁資訊股份有限公司

張敏雪(民 86)實作評量的本質及國民中小學數理科教師對實作評量的態度探

討國立臺灣師範大學數學研究所碩士論文

張敏雪(民 87)教室內的實作評量教育資料與研究20 期24-27

張敏雪(民 86)實作評量的本質及國民中小學數理科教師對實作評量的態度探

討國立師範大學數學研究所碩士論文

張英傑等著(民 94)數學科教師手冊台南南一書局

張永杰 (民 92)實作評量取向的幾何思考研究國立臺灣大學國際企業學研究

所碩士論文

張麗麗(民 91a)從分數的意義談實作評量效度的建立教育研究月刊9837-51

張麗麗(民 91b)評量改革的應許之地虛幻或真實-談實作評量之作業與表

現規準教育研究月刊9376-86

郭生玉(民 84)心理與教育研究法台北精華

陳英豪吳裕益(民 85)測驗與評量高雄復文

95

陳文典陳義勳李虎雄簡茂發(民 84)由馬里蘭州的學習成就評量與其在

台灣的施測結果看-實作評量的功能與應用科學教育月刊185 期

2-10

陳昭地(民 88)「第三次國際數學與科學教育成就研究」後續調查

httpreporticentnutwnscreportTIMSS-R(1999)實測後

期中報告--交國科會htm

陳怡玉(民 94)降低國小數學科實作評量人和作業交互作用變異方法的探討---

以類推性理論分析國立臺南大學測驗統計研究所碩士論文

莊明貞(民 84)變通性評量的發展與實施研習簡訊261

莊明貞(民 85)實作評量理論與實際教育資料與研究9期44-48

曾惠敏(民 87)國小分數概念實作評量之發展及其相關研究國立台南師範學

院國民教育研究所碩士論文

游麗卿(民 87)從實作表現診斷學生乘除法的錯誤概念觀念測驗與輔導雙月

刊149 期3094-3099

鄒慧英譯(民 92)測驗與評量(原作者 Robert L linn and Norman E

Gronlund)台北洪葉文化

鄒慧英(民 86)實作型評量的品管議題兼談檔案評量的應用載於八十七年度

教育測驗新近發展趨勢學術研討會

詹志禹(民 85)評量改革為什麼要進行-回應吳毓瑩<評量的蛻變與突破>

教育資料與研究13 期45-47

96

詹元智(民 91)國小數學科實作評量之效度探討國立屏東師範學院教育心理

與輔導研究所碩士論文

蔡正濱(民 95)國小數學科實作評量評分者ㄧ致性相關因素探討國立屏東教

育大學教育心理與輔導學系研究所碩士論文

鄭麗玉(民 88)教學評量的改革教師之友40 卷1期23-33

歐滄和(民 91)教育測驗與評量台北心理

盧雪梅(民 87)實作評量的應許難題和挑戰教育資料與研究20 期1-5

簡茂發(民 80)命題方法與試題分析國教輔導31(1)2-13

蘇義翔(民 86)實作評量的理論與啟示測驗與輔導3099-3102

貳英文部分

Airasian PW (1991) Classroom assessment New York McGraw-Hill

Airasian PW (1994) Classroom assessment(2nd ed)NewYork

McGraw-Hill

Baron J B (1991) Strategies for the development of effective

performance exercise Applied Measurement in Education 4(4)

305-318

Baxter G P Shavelson R J Goldman S R amp Pine J

(1992) Evaluation of a procedure-based scoring for hands-on

science assessment Journal of Educational Measurement 29(1)

1-17

97

Baxter G P Shavelson R J Herman S J Brown K A amp Valadez

J R(1993) Mathematics performance as sessment technical

quality and diverse student impact Journal for Research in

Mathematics Education 24(3) 1990-216

Dunbar S B Koretz DM amp Hoover HD(1991) Quality control control

in the development and use performance assessmentApplied

Measurement in Educational 4(4) 289-303

Frechtling J A (1991) Performance assessment Moonstruck or the real

thing Educational Measurement Issues and Practice 10(4)

23-25

Haertel EH and Linn RL (1996) ldquoComparability in GW Philips

(Ed) Technical Issues in Large-Scale Performance Assessment

Washington DC National Center for Education Statistics

Harmon M amp KellyTA(1996) Development and Design of the TIMSS

performance Assessment In MartinMO and Kelly

DL(eds)Third International Mathematics and Science Study

(TIMSS) Technical Report Volume I Design andd Development

Chestnut Hill MABoston College

Herman JL Aschbacher PR amp Winters L(1990 November) Issues in

developing alternative assessments Paper presented at the

annual meeting of the California Educational Research

Association Chicago

98

Mullis IVS Martin MO Gonzalez EJ Chrostowski SJ(2005)

TIMSS 2003 International Mathematics Report

httptimssbcedutimss2003imathDhtml p31-p47

Linn RL(1993) Educational assessment Expanded expectations and

challenges Educational Evaluation and Policy Analysis 15(1)

1-16

Linn RL Bader EL amp Dunbar SB(1991) Complex Performemce-based

assessmentexpectations and validation criteria Educational

Researcher 20(8) 1521

Linn RL (2000) Assessments and accountability Educational Researcher

29(2) 4-16

Long C amp Stansbury K (1994) Performance assessment for beginning

teachers Phi Delta Kappan76318-322

Messick S (1994) The interplay of evidence and consequences in the

validation of performance assessments Educational Researcher

23(2) 13-23

Messick S (1995) Standards of validity and the validity of standards

in performance assessment Educational Measurement Issues and

Practice 14(4) 5-8

Martin MOMullis IVSChrostowski SJ(2005)TIMSS 2003 Technical

Report httptimssbcedutimss2003itechnicalDhtml

Martin MO(2005) TIMSS 2003 User Guide for the International Database

99

httptimssbcedutimss2003itechnicalDhtml

Miller M D amp Linn R L (2000) Validity of performance-based

assessments Applied Psychological Measurement 24(4) 367-378

Moss P (1994) Can there be validity without reliability Educational

Researcher 23 (2) 5-12

Mullis IVS Martin MO amp Foy P (2005) IEAs TIMSS 2003

International Report on Achievement in the Mathematics Cognitive

Domains httptimssbcedutimss2003imcgdmhtmlp15-p36

Roid G H amp Haladyna T M (1982) A technology for test-item writing

Orlando FL Academic Press

Ruiz-Primo M A Baxter G P amp Shavelson R J(1993) On the stability

of performance assessments Journal of Educational Measurement

30(1) 41-53

Shavelson R J Baxter G P amp Gao X (1993) Sampling variability of

performance assessments Journal of Educational Measurement 30

3215-32

Shavelson R J amp Webb N W (1991) Generalizability theory A primer

Newbury Park CASage

Shepard L A Flexer R J Hiebert E H Marion S F Mayfield

V amp Weston TJ (1996) Effects of introducing classroom

performance assessments on student learning Educational

Measurement Issues and Practice 15(3) 7-18

100

Schmidt W H Jorde D Cogan L Barrier E Gonzalo I Moser U

Shimizu K Sawada T Valverde G Prawat R Mcknight C

Raizen S Britton E Wiley D amp Wolfe R (1996)

Characterizing pedagogical flow An investigation of

mathematics and science teaching in six countries Hinglham

MAKluwer

Silver E A (1993) On mathematical problem posing In N Nohda amp F L

Lin (Eds) Proceedings of the Seventeenth Annual Meeting of the

International Group for the Psychology of Mathematics Education

Vol 1 (pp 66-85) Tsukuba Japan Author

Stiggins R J (1994) Stundent-centered classroom assessment New York

MerrillMacmillan

Stiggins R J (1987) Design and development of performance assessment

Educational Measurement Issues and Practice 6(3)33-42

Telese J A amp Kulm G (1995) Performance-based assessment of at-risk

students in mathematics The effects of context and setting

Paper presented at Annual Meeting of the American Educational

Research Association (ERIC Document Reproduction Service No

ED 382 685)

TIMSS (1997) Performance Assessment in IEAs Third International

Mathematics And Science Study Chestnut Hill MABoston

College

Webb G (1992) On pretexts for higher education development activities

101

Higher Education 24 (3) pp351-61

Wiggins G(1998) Educative assessment Designing assessments to inform

and improve student performance San Francisco California

Jossey-Bass

102

附錄

附錄一TIMSS 2003 參與的國家

Argentina

Armenia

Australia

Bahrain

Belgium (Flemish)

Botswana

Bulgaria

Chile

Chinese Taipei

Cyprus

Egypt

England

Estonia

Ghana

Hong Kong SAR

Hungary

Indonesia

Iran Islamic Republic of Israel

Italy

Japan

Jordan

Korea Republic of Latvia

Lebanon

Lithuania

Macedonia Republic of Malaysia

Moldova

Morocco

Netherlands

New Zealand

Norway

Palestinian National Authority

Philippines

Romania

Russian Federation

Saudi Arabia

Scotland

Serbia

Singapore

Slovak Republic

Slovenia

South Africa

Sweden

Syrian Arab Republic

Tunisia

United States

Yemen Republic of

103

附錄二題目

一猜一猜

媽媽有一個裝滿豆子的密封罐有一天媽媽將豆子分別倒在 9個碗中前 4個

碗中豆子的數量分別是 29313128 個

1 請你猜一猜罐子中大約有幾個豆子

2把你的想法寫出來

二魔術師

一 材料9張紙剪刀一個信封

二你的工作

1 將紙對摺一次或一次以上並剪掉部分的紙使紙的形狀符合題目所給的

形狀

2 每張紙摺疊的次數和形狀隨你喜歡但只能剪一次

【第一題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後

做出如圖一的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

【第二題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後做出如

圖二的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

(在每張你使用過的紙寫上 1和名字)

104

(圖二)

【第三題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後做出如圖三

的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

(圖三)

三擲骰子

一材料一個骰子搖杯

二你的工作

當我們用一個規則來改變骰子擲出來的數字你發現了什麼

改變數字的規則是

當骰子擲出的數字是奇數時減 1並記下結果

當骰子擲出的數字是偶數時加 2並記下結果

1 在下列表中已經示範了兩個例子給你看使用這個規則並找其他

改變後的數字完成這個表格

(在每張你使用過的紙寫上 2和名字)

(在每張你使用過的紙寫上 3和名字)

105

骰子的數字 改變後的數字

2

6

2 看看你所紀錄的「改變後的數字」你發現了什麼

3 擲骰子 30 次並使用規則去改變每次所擲的數字將它紀錄下來

寫在下列的表格中

106

骰子的數字 改變後的數字 骰子的數字 改變後的數字

4將表 3中各個改變後數字出現的次數記在下表中

改變後的數字 次數

0

1

2

3

4

5

6

7

8

5a哪一個數字是你紀錄次數最多的

107

5b為什麼會這樣請寫出你的看法

四幾何方塊

在這一大題你會拿到一張紙板紙板上有10 張小卡片(如下圖)請將這些

正方形卡片分開若你沒有拿到紙卡請舉手

甲利用2 張黑白相間方塊拼出一個較大的黑色三角形並將您的拼法塗在下面

指定的區域

在這裡用斜線塗出

您拼出的黑色三角形

3 個白色方塊

4 張黑白相間方塊

3 個黑色方塊

108

乙利用4 張黑白相間方塊拼出一個黑色的正方形並將您的拼法塗在下面指定

的區域

在這裡用斜線塗出

您拼出的黑色正方形

丙在第乙題中塗黑色的部分佔了全部的幾分之幾

作出分數

甲不准使用黑白相間方塊將4 張方塊拼出一個正方形使得黑色的部分佔

21

並將您的拼法塗在下面指定的區域

在這裡用斜線塗出

您拼出的黑色部分

109

乙請用8 張方塊拼出一個如下圖的長方形使得黑色部分佔

85

並將您的拼法塗在下面指定的區域

在這裡用斜線塗出

您拼出的黑色部分

五圖形題

甲請畫一條直線將這個長方形分成2 個三角形

110

乙請畫一條直線將這個長方形分成2 個長方形

丙請畫兩條直線將這個長方形分成1 個長方形和2 個三角形

丁在下圖的四個三角形中有兩個是形狀相同但大小不同請把這兩個三角形

塗上顏色(線甲乙跟線丙丁平行)

六數字卡

在這部分你將會拿到一張印有 0到 9的數字卡如下圖請將這些數字卡

取下來

甲 乙

1 2

3

4

111

總和為ldquo20的數字遊戲

小杰與小明這兩個小孩正在玩一個ldquo總和為 20的遊戲其規則如下

總和為ldquo20的規則

(1)抽數字卡每一個人抽出三張數字卡

(2)加數字卡每一個人利用這三張數字卡做出一個加法問題使得算出

的總和最接近 20 例如假如抽出的數字卡 將數字任意組

合後下面是其中四種可能的方法

+ + + +

5 5 4 6 1 9 +

1 0

15

這時玩家應該選擇 + 4 因為它的總和 19最接近 20

19

小杰和小明開始玩遊戲了小杰抽出了 三張數字卡小明抽

出了 三張數字卡

(1)小杰要如何安排三張數字卡做出一個加法問題才能讓它的總和為最

接近 20記得要寫總和

0 1 2 3 4

5 6 7 8 9

1 4 5

1

4

5 1

4

5

1

4 51

4

5

972

6 3 1

112

(2)小明要如何安排三張數字卡做出一個加法問題才能讓它的總和最接

近 20記得要寫總和

(3)小明說假如我抽到 我可以用兩種方法做出總和 20

請告訴我們小明用哪兩種方法可以使 做出總和 20

第一種方法

第二種方法

找出最大的數

小杰和小明利用數字卡玩另一個新的遊戲就是利用三張數字卡做出最

大的數

甲將 三張數字卡填入下列的格子內讓相加的結果為最大

乙將 三張數字填入下列的格子內讓相減的結果為最大

丙將 三張數字卡填入下列的格子內讓相乘的結果為最大

times

1 4 6

1 4 6

9 5 1

+

-

2 3 7

1 4 5

113

附錄三給老師的話

題目猜一猜

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說

明如下

題目預測的能力

測量學生在生活情境中了解概數意義的能力

實施時間

20 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意讓同學清楚的知道這份試卷要他們

做的是什麼

評量結束後收回試紙

注意要點

請老師先做一次示範給學生看完之後再讓學生作答

請老師提醒學生計算完後要記得將他們為什麼要這樣做的原因寫清楚

評分標準

等級 5 算出前 4碗豆子的總和再乘以 2再加上一個合理的近似值或使用估

計或平均值找出每一碗豆子的近似值再乘以 9

等級 4 合理的估計其他各碗的豆子數量並算出總和

等級 3 推測出大部分合理少部分不合理的估計值並算出總和

等級 2 推論出一個杯子約有 30 個但未算出總和

等級 1 將已知碗的數量變成一組模式將此模式推論至其他碗不一定剛好總

114

和為 10 個碗

等級 0 未作答或不知所云

題目幾何方塊

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說

明如下

題目預測的能力

這是一種包含幾何跟數與量的題目其中幾何的部份是要求學生建立一個二

維圖形並滿足題目的要求(數與量)

實施時間

30 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意讓同學清楚的知道這份試卷要他們

做的是什麼

評量結束後收回試紙

注意要點

請老師提醒學生答案是用鉛筆塗在指定的區域並且不可以超過格線並不是將

紙卡貼在題目上要注意

請老師提醒學生撕紙卡要小心務必要使用剪刀或直尺沿著線撕

評分標準

115

給分範圍1分

給分範圍0分

(1)雖然使用 2塊黑白相間方塊組合但卻變成 2個小三角形而不是組合成 1

個大三角形

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

給分範圍1分

給分範圍0分

(1)雖然使用 4塊黑白相間方塊組合但卻不是組合成 1個大的黑色正方形

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

116

給分範圍1分

(1) 21

或是它的等值分數

(2)乙题雖然畫錯但此題答案正確

給分範圍0分

(1) 41

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

做出分數

給分範圍1分

由 2塊白色跟 2塊黑色組合成請看下面的例子

給分範圍0分

(1)雖然得出 21但是使用黑白相間的方塊

(2)畫出黑色的部份佔 41

117

(3)畫出黑色的部份佔 43

(4)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(5)完全空白

給分範圍2分

任何使用 3塊黑色的方塊1塊白色的方塊和 4塊黑白相間的方塊的組合圖形

給分範圍1分

塗出 85的答案但不是使用正確的方塊組合

給分範圍0分

(1)塗出 21

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

題目魔術師

118

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生對稱的觀念空間關係及解決非例行問題的能力

施測時間

30 分鐘

實施步驟

1 發試紙和所需材料

2 題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的

知道這份試卷要他們做的是什麼

3 評量結束試紙及材料

注意要點

1請老師提醒學生每張紙只能直直的剪一次不可改變方向且要記得在紙上寫

編號和名字

評分標準

第一題1在紙上只剪一次

2有兩條正確的摺線

給分範圍2

第二題1在紙上只剪一次

2 有兩條正確的摺線

給分範圍2

第三題同上兩題

119

題目圖形題

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生二維空間的分割的觀念了解學生能否透過操作直尺或三角板在二維

空間上剪裁出指定的基本圖型並利用直觀的方式指出形狀相同但大小不同的三

角形

施測時間

30 分鐘

實施步驟

1 發試紙

2 題目解說實施評量前請老師加以說明題意讓學生清楚的知道這份試卷要他

們做的是什麼

3 評量結束收回試紙

評分標準

甲給分範圍1分

正確的畫一條對角線將長方形分成 2個三角形

給分範圍0分

(1)有畫出一條橫線或垂直線但不是畫出精確的對角線

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的

回答)

(3)完全空白

乙給分範圍1分

120

正確的畫一條橫線或垂直線將長方形分成 2個長方形

給分範圍0分

(1)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回

答)

(2)完全空白

丙給分範圍1分

正確的畫兩條線將長方形分成 1個較小的長方形跟兩個三角形

給分範圍0分

(1)有畫出兩條線但沒有將長方形分割成兩個較小的長方形或有分割成

兩個較小的長方形卻沒有在其中之ㄧ上畫出精確的對角線

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(3)完全空白

丁給分範圍1分

在三角形 3跟三角形 4上塗上顏色

給分範圍0分

(1)在三角形 1跟三角形 2上塗上顏色

(2)在三角形 2跟三角形 4上塗上顏色在三角形 1跟三角形 3上塗上顏色

在三角形 1跟三角形 4上塗上顏色在三角形 2跟三角形 3上塗上顏色

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

121

題目數字卡

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生計算的規則與策略及對數字的觀念並能運用所學過的概念於計算策

略上

施測時間

30 分鐘

實施步驟

1 發試紙和所需材料

2 題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的

知道這份試卷要他們做的是什麼

3 評量結束試紙及材料

評分標準

總和為 20 的數字遊戲

甲給分範圍1分

(1)寫出 2+7+9=18

(2)沒有任何算式但有答案是 18 者

給分範圍0分

(1)有寫出算式 2+7+9 但沒有答案 18 出現

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的

回答)

(3)完全空白

122

乙給分範圍1分

(1)13+6=19 或 16+3=19

(2)沒有任何算式但有答案是 19 者

給分範圍0分

(1)有寫出算式 13+6 或 16+3 但沒有答案 19 出現

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回

答)

(3)完全空白

丙給分範圍2分

兩種方法都正確(16+4 和 14+6)

給分範圍1分

只有寫出其中一種方法(16+4 或 14+6)

給分範圍0分

(1)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(2)完全空白

找出最大的數

甲給分範圍1分

91+5 或 95+1

給分範圍0分

(1)將 159擺在任何其他不正確的位置

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(3)完全空白

123

乙給分範圍1分

73-2

給分範圍0分

(1)72-3

(2)將 237擺在任何其他不正確的位置

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

丙給分範圍1分

41times5

給分範圍0分

(1)51times4

(2)將 145擺在任何其他不正確的位置

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

題目擲骰子

親愛的老師

您好感謝您參與此次數學科學實作評量的研究關於此次施測的注意事項說明

如下

題目欲測的能力

測量學生對於任意數字計算紀錄和分析的能力以及辨識並解釋記錄資料

的結果

施測時間

124

30 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的知

道這份試卷要他們做的是什麼

評量結束後收回試紙及材料

評分標準

第一題正確的計算出(042648)

給分範圍2

第二題1描述的類型與資料一致

2形式可以是一個或多個以下的情形所有的數字都是偶數數字

的範圍從 0~84 出現 2次數字排列有規則如+4-2+4-2

給分範圍1

第三題1至少完成 25 次擲骰子的紀錄

2正確的計算

給分範圍2

第四題統計的次數與第三題的資料一致

給分範圍2

第 5a 題答案與資料一致

給分範圍1

第 5b 題對觀察的數字提供合理的解釋

給分範圍1

125

附錄四分析資料補充

附錄四表格中以數字 1代表新加坡數字 2代表香港數字 3代表日本數字

4代表台灣 2003 年原始資料數字 5代表比利時數字 6代表美國數字 7代表

施測學校

一圖形題補充

表附錄 4-1-1 圖形題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 187 0 32 0 64 0 50 新加

坡甲 1 916

香港

甲 1 725

日本

甲 1 703

台灣

甲 1 726

得分 次數 得分 次數 得分 次數 得分 次數

0 69 0 9 0 75 0 39 新加

坡乙 1 1034

香港

乙 1 748

日本

乙 1 692

台灣

乙 1 737

得分 次數 得分 次數 得分 次數 得分 次數

0 329 0 107 0 196 0 119新加

坡丙 1 774

香港

丙 1 650

日本

丙 1 571

台灣

丙 1 657

得分 次數 得分 次數 得分 次數 得分 次數

0 424 0 386 0 281 0 267新加

坡丁 1 679

香港

丁 1 371

日本

丁 1 486

台灣

丁 1 509

得分 次數 得分 次數 得分 次數

0 130 0 447 0 8 比利

時甲 1 649

美國

甲 1 1189

施測

甲 1 113

得分 次數 得分 次數 得分 次數

0 69 0 201 0 5 比利

時乙 1 710

美國

乙 1 1435

施測

乙 1 116

得分 次數 得分 次數 得分 次數

0 386 0 1100 0 21 比利

時丙 1 393

美國

丙 1 536

施測

丙 1 100

得分 次數 得分 次數 得分 次數

0 386 0 732 0 27 比利

時丁 1 393

美國

丁 1 904

施測

丁 1 94

126

表附錄 4-1-1(續) 圖形題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 44 0 6 0 31 0 17

1 75 1 17 1 44 1 20

2 137 2 64 2 64 2 45

3 334 3 331 3 232 3 257

新加

坡總

4 513

香港

總分

4 339

日本

總分

4 396

台灣

總分

4 437

得分 次數 得分 次數 得分 次數

0 36 0 114 0 0

1 72 1 243 1 5

2 176 2 389 2 5

3 259 3 517 3 36

比利

總分

4 236

美國

總分

4 373

施測

總分

4 75

表附錄 4-1-2 圖形題各國事後分析表

圖形題甲 圖形題乙

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0130 0000 1 2 -0051 0013

3 -0086 0000 3 0035 0247

4 -0110 0000 4 -0012 0987

5 -0003 1000 5 0026 0631

6 0100 0000 6 0060 0000

2 3 0041 0514 2 3 0086 0000

2 4 0022 0958 4 0038 0244

5 0120 0000 5 0077 0000

6 0230 0000 6 0110 0000

3 4 -0019 0980 3 4 -0048 0057

5 0083 0001 5 -0009 0998

6 0190 0000 6 0025 0594

4 5 0100 0000 4 5 0038 0237

6 0210 0000 6 0073 0000

5 6 0110 0000 5 6 0034 0190

127

表附錄 4-1-2(續) 圖形題各國事後分析表

圖形題丙 圖形題丁

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0160 0000 1 2 0130 0000

3 -0043 0637 3 -0018 0996

4 -0140 0000 4 -0040 0798

5 0200 0000 5 0110 0001

6 0370 0000 6 0063 0092

2 3 0110 0000 2 3 -0140 0000

2 4 0012 1000 4 -0170 0000

5 0350 0000 5 -0014 0999

6 0530 0000 6 -0063 0209

3 4 -0100 0002 3 4 -0022 0992

5 0240 0000 5 0130 0000

6 0420 0000 6 0081 0027

4 5 0340 0000 4 5 0150 0000

6 0520 0000 6 0100 0001

5 6 0180 0000 5 6 -0048 0533

圖形題總分

(I) (J) 平均差異 (I-J) p-value

1 2 -0210 0008

3 -0110 0540

4 -0300 0000

5 0330 0000

6 0600 0000

2 3 0098 0778

4 -0093 0812

5 0540 0000

6 0810 0000

3 4 -0190 0051

5 0440 0000

6 0710 0000

4 5 0630 0000

6 0900 0000

5 6 0270 0000

128

二數字卡題型

表附錄 4-2-1 數字卡題各國得分統計表

分數 次數 分數 次數 分數 次數 分數 次數

0 284 0 144 0 128 0 118新加

坡 1 1 277

香港

1 1 239

日本

1 1 234

台灣

1 1 273

分數 次數 分數 次數 分數 次數 分數 次數

0 243 0 177 0 138 0 134新加

坡 2 1 318

香港

2 1 206

日本

2 1 224

台灣

2 1 257

分數 次數 分數 次數 分數 次數 分數 次數

0 171 0 142 0 117 0 111

1 28 1 13 1 30 1 23

新加

坡 3

2 362

香港

3

2 228

日本

3

2 215

台灣

3

2 257

分數 次數 分數 次數 分數 次數 分數 次數

0 161 0 111 0 89 0 138新加

坡 4 1 400

香港

4 1 272

日本

4 1 273

台灣

4 1 253

分數 次數 分數 次數 分數 次數 分數 次數

0 172 0 119 0 95 0 145新加

坡 5 1 389

香港

5 1 264

日本

5 1 267

台灣

5 1 246

分數 次數 分數 次數 分數 次數 分數 次數

0 413 0 290 0 231 0 303新加

坡 6 1 148

香港

6 1 93

日本

6 1 131

台灣

6 1 88

分數 次數 分數 次數 分數 次數

0 207 0 476 0 38 比利

時 1 1 187

美國

1 1 339

施測

1 1 82

分數 次數 分數 次數 分數 次數

0 175 0 442 0 29 比利

時 2 1 219

美國

2 1 373

施測

2 1 91

分數 次數 分數 次數 分數 次數

0 149 0 308 0 14

1 27 1 48 1 11

比利

時 3

2 218

美國

3

2 459

施測

3

2 95

129

表附錄 4-2-1(續) 數字卡題各國得分統計表

分數 次數 分數 次數 分數 次數

0 175 0 380 0 36 比利

時 4 1 219

美國

4 1 435

施測

4 1 84

分數 次數 分數 次數 分數 次數

0 179 0 410 0 38 比利

時 5 1 215

美國

5 1 405

施測

5 1 82

分數 次數 分數 次數 分數 次數

0 321 0 705 0 94 比利

時 6 1 73

美國

6 1 110

施測

6 1 26

分數 次數 分數 次數 分數 次數 分數 次數

0 64 0 38 0 21 0 37

1 39 1 25 1 23 1 33

2 62 2 36 2 35 2 21

3 40 3 50 3 44 3 44

4 60 4 49 4 34 4 41

5 87 5 51 5 59 5 60

6 137 6 93 6 89 6 102

新加

坡總

7 72

香港

總分

7 41

日本

總分

7 57

台灣

總分

7 53

分數 次數 分數 次數 分數 次數

0 31 0 135 0 5

1 48 1 94 1 5

2 49 2 98 2 9

3 67 3 101 3 9

4 61 4 114 4 16

5 63 5 101 5 20

6 55 6 130 6 40

比利

時總

7 20

美國

總分

7 42

施測

總分

7 16

130

表附錄 4-2-2 數字卡題各國事後分析表

第一題 第二題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0130 0013 1 2 0029 0992

3 -0153 0001 3 -0052 0873

4 -0204 0000 4 -0090 0252

5 0019 0999 5 0011 1000

6 0078 0206 6 0109 0012

2 3 -0022 0999 2 3 -0081 0537

4 -0074 0612 4 -0119 0076

5 0149 0006 5 -0018 1000

6 0208 0000 6 0080 0326

3 4 -0052 0908 3 4 -0039 0979

5 0172 0001 5 0063 0796

6 0231 0000 6 0161 0000

4 5 0224 0000 4 5 0102 0212

6 0282 0000 6 0200 0000

5 6 0059 0697 5 6 0098 0101

第三題 第四題

1 2 0116 0734 1 2 0003 1000

3 0070 0974 3 -0041 0948

4 -0033 1000 4 0066 0612

5 0165 0287 5 0157 0000

6 0155 0156 6 0179 0000

2 3 -0046 0998 2 3 -0044 0952

4 -0149 0543 4 0063 0751

5 0049 0997 5 0154 0002

6 0039 0998 6 0176 0000

3 4 -0103 0889 3 4 0107 0141

5 0096 0918 5 0198 0000

6 0085 0907 6 0220 0000

4 5 0198 0174 4 5 0091 0294

6 0188 0091 6 0113 0019

5 6 -0010 1000 5 6 0022 0997

131

表附錄 4-2-2(續) 數字卡題各國事後分析表

第五題 第六題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0004 1000 1 2 0021 0996

3 -0044 0931 3 -0098 0050

4 0064 0655 4 0039 0914

5 0148 0001 5 0079 0203

6 0197 0000 6 0129 0000

2 3 -0048 0929 2 3 -0119 0015

4 0060 0801 4 0018 0999

5 0144 0008 5 0058 0699

6 0192 0000 6 0108 0006

3 4 0108 0140 3 4 0137 0002

5 0192 0000 5 0177 0000

6 0241 0000 6 0227 0000

4 5 0083 0425 4 5 0040 0933

6 0132 0003 6 0090 0047

5 6 0049 0838 5 6 0050 0675

數字卡總分

1 2 0043 1000

3 -0318 0582

4 -0159 0975

5 0579 0012

6 0847 4850

2 3 -0361 0529

4 -0201 0948

5 0536 0067

6 0804 0000

3 4 0159 0985

5 0897 0000

6 1165 0000

4 5 0738 0001

6 1006 0000

5 6 0268 0673

132

三幾何方塊題型

表附錄 4-3-1 幾何方塊題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 633 0 303 0 165 0 322新加

坡甲 1 482

香港

甲 1 458

日本

甲 1 604

台灣

甲 1 445

得分 次數 得分 次數 得分 次數 得分 次數

0 617 0 403 0 218 0 348新加

坡乙 1 499

香港

乙 1 358

日本

乙 1 551

台灣

乙 1 419

得分 次數 得分 次數 得分 次數 得分 次數

0 312 0 227 0 341 0 297新加

坡丙 1 804

香港

丙 1 534

日本

丙 1 428

台灣

丙 1 470

得分 次數 得分 次數 得分 次數 得分 次數

0 494 0 429 0 425 0 519新加

坡丁 1 622

香港

丁 1 332

日本

丁 1 344

台灣

丁 1 248

得分 次數 得分 次數 得分 次數 得分 次數

0 385 0 352 0 291 0 407

1 603 1 359 1 374 1 297

新加

坡戊

2 128

香港

2 50

日本

2 104

台灣

2 63

得分 次數 得分 次數 得分 次數

0 372 0 985 0 6 比利

時甲 1 398

美國

甲 1 655

施測

甲 1 113

得分 次數 得分 次數 得分 次數

0 348 0 976 0 13 比利

時乙 1 422

美國

乙 1 664

施測

乙 1 106

得分 次數 得分 次數 得分 次數

0 437 0 884 0 30 比利

時丙 1 333

美國

丙 1 756

施測

丙 1 89

得分 次數 得分 次數 得分 次數

0 373 0 908 0 23 比利

時丁 1 397

美國

丁 1 732

施測

丁 1 96

133

表附錄 4-3-1(續) 幾何方塊題各國得分統計表

得分 次數 得分 次數 得分 次數

0 335 0 754 0 29

1 340 1 762 1 57

比利

時戊

2 95

美國

2 124

施測

2 33

得分 次數 得分 次數 得分 次數 得分 次數

0 141 0 86 0 52 0 115

1 126 1 83 1 78 1 111

2 167 2 128 2 122 2 121

3 257 3 205 3 157 3 183

4 178 4 143 4 153 4 123

5 153 5 81 5 138 5 73

新加

坡總

6 93

香港

總分

6 35

日本

總分

6 69

台灣

總分

6 41

得分 次數 得分 次數 得分 次數

0 100 0 331 0 1

1 101 1 250 1 1

2 154 2 317 2 5

3 164 3 300 3 22

4 127 4 246 4 26

5 73 5 127 5 38

比利

時總

6 51

美國

總分

6 69

施測

總分

6 26

134

表附錄 4-3-2 幾何方塊題各國事後分析表

第一題 第二題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0170 0000 1 2 -0023 0984

3 -0350 0000 3 -0270 0000

4 -0150 0000 4 -0099 0005

5 -0085 0028 5 -0100 0003

6 0033 0793 6 0042 0545

2 3 -0180 0000 2 3 -0250 0000

4 0022 0993 4 -0076 0160

5 0085 0062 5 -0078 0138

6 0200 0000 6 0066 0152

3 4 0210 0000 3 4 0170 0000

5 0270 0000 5 0170 0000

6 0390 0000 6 0310 0000

4 5 0063 0350 4 5 -0002 1000

6 0180 0000 6 0140 0000

5 6 0120 0000 5 6 0140 0000

第三題 第四題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0019 0995 1 2 0120 0000

3 0160 0000 3 0110 0001

4 0110 0001 4 0230 0000

5 0290 0000 5 0042 0773

6 0260 0000 6 0110 0000

2 3 0150 0000 2 3 -0011 1000

4 0089 0043 4 0110 0003

5 0270 0000 5 -0079 0127

6 0240 0000 6 -0010 1000

3 4 -0056 0514 3 4 0120 0000

5 0120 0000 5 -0068 0285

6 0096 0002 6 0001 1000

4 5 0180 0000 4 5 -0190 0000

6 0150 0000 6 -0120 0000

5 6 -0029 0934 5 6 0069 0110

135

表附錄 4-3-2(續) 幾何方塊題各國事後分析表

第五題 總分

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0170 0000 1 2 0120 0913

3 0013 1000 3 -0330 0008

4 0220 0000 4 0320 0017

5 0081 0294 5 0230 0233

6 0150 0000 6 0600 0000

2 3 -0150 0001 2 3 -0450 0000

4 0052 0872 4 0200 0521

5 -0085 0348 5 0110 0949

6 -0013 1000 6 0490 0000

3 4 0210 0000 3 4 0650 0000

5 0069 0627 5 0560 0000

6 0140 0000 6 0940 0000

4 5 -0140 0008 4 5 -0087 0986

6 -0064 0514 6 0290 0023

5 6 0073 0354 5 6 0370 0000

Page 5: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較

III

Abstract

This study aims at using TIMSS to look into the performance assessment

of fourth-grade elementary students with a specific environmental

background Our purpose is to investigate the following questions

1 What are the variations of the test results between year 2000 and

2006 on TIMSS 1999

2 Are there discrepancies in regard to gender and class on TIMSS 2003

3 Are there differences between the result of fourth-grade elementary

students with a specific environmental background and the national

data on TIMSS 2003

4 Are there distinctions between the result of fourth-grade elementary

students with a certain environmental background and the

international data on TIMSS 2003

Using selective-sampling method this study chose its 127 fourth-grade

subjects from four classes in a school at the urban-rural line of

Taichung County We found that

1 The subjects showed better performance on the ldquoMagician questions

but poorer on the ldquoDice Throwing and ldquoGuessing questions

than a comparative group in 2000 This finding indicated that

students of year 2006 had a better idea of geometry yet students

of year 2000 demonstrated better comprehension in statistics and

approximate numbers

2 There was no significant difference between genders or classes

3 No differences were found on the ldquoFigure questions or

ldquoNumber-card questions between the subjects and 2003 mother

IV

group However the outcome on the ldquoGeometrical Square

questions reached significance than that of 2003 mother group

4 On the ldquoFigure questions our students performed better than

those of Singapore Belgium and USA On the ldquoNumber-card questions

they were superior to those of Belgium and USA On the ldquoGeometrical

Square questions they displayed better abilities than those of Singapore

Hong Kong Japan Belgium as well as USA

KeywordTIMSSperformance assessmentgender

V

目 錄

第一章 緒論

第一節 研究動機1

第二節 待答問題5

第三節 名詞釋義5

第四節 研究限制7

第二章 文獻探討

第一節 實作評量8

第二節 第三次國際數學與科學教育成就研究 25

第三節 TIMSS試題與國內數學課程關係之分析34

第三章 方法與步驟

第一節 研究架構40

第二節 研究工具發展40

第三節 研究的信效度與實作評量的試題架構47

第四章 結果與討論

第一節 利用TIMSS 1999實作評量試題比較民國89年跟民國95年的成績差

異49

第二節 利用TIMSS 2003實作評量試題檢視施測學校在性別及班級間是否

存在差異60

VI

第三節 利用TIMSS 2003實作評量試題比較施測學校與原始施測資料的成

績差異65

第四節 實作評量試題的類推性84

第五章 結論

第一節 結論88

第二節 建議90

參考文獻

壹 中文部分92

貳 英文部分96

附錄

附錄一 TIMSS 2003參與的國家102

附錄二 題目103

附錄三 給老師的話113

附錄四 分析資料補充125

VII

表目錄

表 2-1-1 實作評量與紙筆測驗的比較17

表 2-1-2 各種評量類型的比較18

表 2-2-1 TIMSS 2003課程架構27

表 2-2-2 維京評分系統28

表 3-3-1 試題架構48

表 4-1-1 95年魔術師題組得分情形分配表50

表 4-1-2 89年魔術師題組得分情形分配表50

表 4-1-3 魔術師ㄧ獨立樣本t 檢定51

表 4-1-4 魔術師二獨立樣本t 檢定52

表 4-1-5 魔術師三獨立樣本t 檢定52

表 4-1-6 95年擲骰子題組得分情形分配表53

表 4-1-7 89年擲骰子題組得分情形分配表54

表 4-1-8 擲骰子一獨立樣本t 檢定55

表 4-1-9 擲骰子二獨立樣本t 檢定55

表 4-1-10 擲骰子三獨立樣本t 檢定56

表 4-1-11 擲骰子四獨立樣本t 檢定56

表 4-1-12 擲骰子五 a獨立樣本t 檢定57

表 4-1-13 擲骰子五 b獨立樣本t 檢定57

VIII

表 4-1-14 95年猜一猜題組得分情形分配表58

表 4-1-15 89年擲骰子題組得分情形分配表58

表 4-1-16 猜一猜資料統計59

表 4-1-17 猜一猜獨立樣本t 檢定59

表 4-2-1 各題型之相關係數61

表 4-2-2 班級對總分之變異數分析62

表 4-2-3 性別對總分之組別統計量與t檢定表62

表 4-2-4 性別對各題之組別統計量與t檢定表63

表 4-3-1 95 年圖形題題組得分情形分配表66

表 4-3-2 圖形題百分比同質性檢定66

表 4-3-3 圖形題題組各國答對率的比較67

表 4-3-4 圖形題各題之資料統整68

表 4-3-5 圖形題各題之變異數分析69

表 4-3-6 圖形題各題之事後比較70

表 4-3-7 圖形題總分變異數分析的結果71

表 4-3-8 圖形題總分事後分析72

表 4-3-9 95年數字卡題題組得分情形分配表72

表 4-3-10 數字卡題題組各國答對率的比較73

表 4-3-11 數字卡題各題之變異數分析74

IX

表 4-3-12 數字卡題之事後比較75

表 4-3-13 數字卡題總分變異數分析的結果77

表 4-3-14 數字卡題總分事後分析77

表 4-3-15 95年幾何方塊題題組得分情形分配表78

表 4-3-16 幾何方塊題題組各國答對率的比較78

表 4-3-17 幾何方塊題各題之變異數分析80

表 4-3-18 幾何方塊題各題之事後比較81

表 4-3-19 幾何方塊題總分變異數分析的結果83

表 4-3-20 幾何方塊題總分事後分析83

表 4-4-1 實作評量概化程度變異成分表84

表 4-4-2 G研究與各種D研究之變異成分分析與推論力係數87

表附錄 4-1-1 圖形題各國得分統計表125

表附錄 4-1-2 圖形題各國事後分析表126

表附錄 4-2-1 數字卡題各國得分統計表128

表附錄 4-2-2 數字卡題各國事後分析表130

表附錄 4-3-1 幾何方塊題各國得分統計表132

表附錄 4-3-2 幾何方塊題各國事後分析表134

X

圖目錄

圖 2-2-1 1995年到2003年4年級學生的數學趨勢31

圖 2-2-2 4年級學生在男女性別上的差異33

圖 2-2-3 1995 到2003年的男女生進退步情形34

圖 4-1-1 百分比圖表比較結果51

圖 4-1-2 百分比圖表比較結果54

圖 4-1-3 百分比圖表比較結果59

圖 4-3-1 圖形題題組答對率之比較圖67

圖 4-3-2 數字卡題題組答對率之比較圖73

圖 4-3-3 幾何方塊題題組答對率之比較圖79

1

第一章 緒論

本研究主題是利用 TIMSS 1999 跟 TIMSS 2003 的公開實作評量試題為測驗工

具比較探討台灣學生在這方面的進退步情形本章節將說明本研究的研究動機

與目的問題和研究中所用的特定名詞

第一節 研究動機 從民國八十二年民間團體發起了 410 教改大遊行迄今此波教育改革歷時 12

年最近因為中央研究院李遠哲院長在立法院接受立委質詢時對教育改革因為

沒有減少學生的壓力而公開道歉(中時電子報 2005)又引起了一陣教改失敗

的言論其實改革是多面向的學生的壓力固然是改革的重點但學生的程度更

是我們所關心的畢竟學生的程度關係著下一代的競爭力所以在國民中小學九

年一貫課程綱要(教育部民 92)中特別提到迎接二十一世紀的來臨與世界各

國之教改脈動政府必須致力教育改革期以整體提升國民之素質及國家競爭

力所以改革是為了回應社會期待以及國家發展的需求基於此項認知由中

央研究院國科會和教育部共同規劃的「台灣地區教育長期追蹤資料庫」(Taiwan

Education Panel Survey簡稱 TEPS)預計用六個學年國中樣本從 2001 年 9

月開始高中樣本分成 2001 年下半年和 2003 年上半年進行兩個梯次的資料收

集主要研究團隊包括六位中研院全職研究人員投入大量的時間與精力以及多

位大學相關領域之研究者積極參與可見這項工程的浩大與重要所以本研究主

要為利用一份已發展成且具有信效度及良好試題特性的國小數學實作評量題目

來進行施測其結果除了跟民國 89 年研究者徐美英的結果相互比較學生程度差

別外並為後續研究者提供相互比較的基準

國際教育成就調查委員會 (The International Association for the

Evaluation of Educational Achievement簡稱 IEA) 主辦的「國際數學與科

學教育成就趨勢調查」(Trends in Mathematics and Science Study 2003簡

2

稱 TIMSS 2003)是自 1995 年以來第三次主辦連續週期性調查學生的數學和科學

成就主要目的在提供各國長期追蹤學生數學和科學趨勢成就以提升學生數學

和科學的學習成效由此可見學生程度一向是國際重視的課題世界各國尤其

是美國不斷的監測自己國家學生的程度不僅僅與國際上各國進行比較並將

資料建檔也進行縱貫比較另外除了本研究所提的 TIMSS 是針對數學與科學外

還有PIRLS針對語文科進行比較PIRLS目前有2001跟2006年兩年資料而TIMSS

則已經有 199519992003 三年的施測2007 年的施測目前已經開始進行籌劃

TIMSS 2003 以 13 歲群(即國二生)和 9 歲群(即小四生)為調查對象國科會和

教育部體認到未來我國國民在國際上競爭力的重要性希望持續了解我國學生的

學習成就與家庭背景學習環境教師等影響因素的關係以及我國學生的學習

特色與優缺點並與其他國家進行比較提供改進我國中小學數學及科學教育政

策及課程之參考並積極參與國際間科學教育的交流與合作因此補助國立台灣

師範大學科學教育中心進行 TIMSS 2003 調查研究TIMSS 2003 從 2000 年九月

開始發展研究調查相關工作總計有 49 個國家參加其中 48 個國家參加 13 歲

群調查26 個國家參加 9歲群調查我國自 2001 年元月開始加入 TIMSS 2003 國

際調查工作包括提供命題架構意見數學和科學試題命題試測(field test)

資料收集參加專家問卷會議實測(main survey)資料收集參加公佈 TIMSS

2003 結果記者會國際成果指標會議國際資料分析會議等各項工作國內學者

引用 TIMSS 相關資料進行相關研究的有

(1)徐美英TIMSS 數學實作評量在台灣之試用探討(民國 89 年)

(2)洪瑞鎂從「第三次國際數學與科學教育成就研究後續調查」探究台灣國

二學生的數學基本能力(民國 90 年)

(3)洪佳慧由教科書內容與性別面向分析我國國二學生在第三次國際數學與

科學教育成就研究後續調查(TIMSS-R)的學習表現-生命科學以及環境與資源議

題部分(民國 91 年)

(4) 劉佳容我國國二學生在 TIMSS-1999 中之理化學習成就分析(民國 91 年)

3

(5)侯怡如由考試文化的角度分析我國學生在 TIMSS 1999 的答題表現----生

命科學部分(民國 92 年)

(6) 鄭心怡教育指標與經濟指標對學業成就影響之國際比較以 TIMSS 為例

(民國 93 年)

(7)羅珮華從「第三次國際科學與數學教育成就研究後續調查(TIMSS 1999)」

結果探討國中學生學習成就與學生特質的關係七個國家之比較(民國 93 年)

(8)顏秀玫我國小學四年級學生在「2003 年國際數學與科學教育成就趨勢調

查(民國 93 年)

(9)張謝玲宜蘭區某國中國二學生 科學成效影響因子之探討-引用國際調查

報告 TIMSS-R 之研究方法(民國 93 年)

綜觀上述國內學者研究的內容可以發現均重視該年段橫向的比較而缺乏

進行縱貫的研究值此世界各國進行教育大改革之際台灣也難免追隨這波改革

浪潮在課程內容與制度大變動之際學生是否保持原有的程度或甚至更好是

值得我們更加關注在國民中小學九年一貫課程綱要(教育部民 92)中針對

數學科明確提出下列四個原則一 參考施行有年且有穩定基礎的傳統教材

二 採用國際間數學課程必備的核心題材三 考慮數學作為科學工具性的特

質四 現有學生能夠有效學習數學的一般能力具體而言九年一貫數學學

習領域的教學總體目標為

(1) 培養學生的演算能力抽象能力推論能力及溝通能力

(2) 學習應用問題的解題方法

(3) 奠定下一階段的數學基礎

(4) 培養欣賞數學的態度及能力

其中國民小學階段的目標為

(5) 在第一階段(一至三年級)能掌握數量形的概念

(6) 在第二階段(四至五年級)能熟練非負整數的四則與混合計算培養流暢

的數字感

4

(7) 在小學畢業前能熟練小數與分數的四則計算能利用常用數量關係解

決日常生活的問題能認識簡單幾何形體的幾何性質並理解其面積與體積公

式能報讀簡單統計圖形並理解其概念

由以上的課程目標中可以清楚的看出數學課程的改革內容除了參考以往課

程內容之外也參考國際的課程內容進行改革並因為數學具有工具性的性質

具體的指出各階段需要具備的基本能力研究者希望透過已具有信效度及良好試

題特性的國小數學實作評量題目的施測一方面跟國際資料庫進行學生程度的比

較另一方面也跟徐美英TIMSS 數學實作評量在台灣之試用探討(民國 89 年)

在台灣施測的資料進行縱向比較以了解學生在這幾年的教育改革中在國小四

年級這個範圍內透過實作評量的方式評斷出來的能力是否有所差異

徐美英論文中指出其自編試題(猜一猜)學生能夠完整的敘述解釋百分比

僅達 549所以表示台灣學生在以數學語言的溝通上尚待加強而該試題與

TIMSS 試題有一定程度相關的是擲骰子繞過彎道和魔術師所以本研究研究者

打算選取其中 3 題(猜一猜擲骰子魔術師)找跟原論文相似的環境(住宅

跟工業混合區的學校)進行施測將兩項資料進行比較以探討在這樣的環境背

景中的學生經過這 5年的教育改革後對這個範圍內經由實作評量所測出來的

能力是否有所不同另外再從 TIMSS 2003 已公佈的實作評量題目中找出 3

題(幾何方塊數字卡圖形題)進行施測其結果跟國際資料庫進行比較進

一步探討這樣環境下的學生跟原始台灣施測資料中的學生是否有程度上的差

異跟國際上整體表現較好的國家學生的表現比較是否有程度上的差異

本研究測驗題目將從徐美英論文中選取 3 題從 TIMSS 2003 公佈的實作評

量試題中選取 3題並以 TIMSS 對實作評量採取的維京評分系統(又稱建構反應

評分系統Constructed Response簡稱 CR)為評分工具資料用 SPSS 進行分

析比較並以推論力理論推算本次施測的信度係數研究者希望能從施測中獲得

教育改革的成果從實作評量的角度是否是進步的並期待施測的資料能提供

未來需要再做類似研究者的比較基準

5

第二節 待答問題 壹探討特定環境背景的台灣國小四年級學生在民國 89 年與民國 95 年對

TIMSS 1999 實作評量的成績有何差異

貳探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 實作評量的

成績在性別及班級間是否有差異

叁探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 實作評量的

成績與台灣原始施測資料中的學生實作評量成績是否有程度上的差

肆探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 的實作評量

成績與國際上整體表現較好國家的學生實作評量成績是否有程度上

的差異

第三節 名詞釋義

壹實作評量

在教室情境中學生有幾類學習行為及其成就表現是無法用客觀式紙筆測

驗來正確評量出來的這些學習行為表現包括

(1)溝通技能(如說話口語表達演講朗讀寫作等)

(2)心理動作技能(如實驗室內的儀器操作書法打字繪畫工藝烹

飪樂器演奏戲劇表演等)

(3)運動技能(如跑跳直球游泳舞蹈等運動技能)

(4)概念應用(如應用所學的概念和知識解決日常生活所遇到的實際問題)

(5)情意特質(如團隊合作遵守規定自我反省等)

這些都是強調實際的表現行為(actual performance)都需要教師根據學生的

表現過程之有效性或最後完成作品的成果品質分別或合併地進行評分才能決

定學生在這方面學習的成就高低這種強調實際表現行為的評量方式稱為「實

6

作評量」(performance assessment)(余民寧民 93)所謂實作評量就是在自

然或已建構好的環境中要求學生執行或處理(process)一件指定的工作並

由教師觀察或評鑑學生的建構性反應的過程與結果看他們是否適當精確和完

美的達成教學目標(歐滄和民 91)

貳TIMSS

國際數學與科學學習成就調查研究係由國際教育學習成就調查委員會主

持主要目的在於了解各國數學與科學學習成就與各國文化背景教育環境影響

因子之相關性並進一步做國際間之比較研究分析第一次國際數學與科學教育

成就調查於 1970 年舉行共有 19 個國家參與經十年後1980 年進行第二次國

際數學與科學教育成就調查(SIMSS)有 24 個國家參與我國曾於 1987 年 5 月

經 IEA 總部同意引用第二次國際數學與科學教育成就調查工具在我國進行測

驗(但不是正式參加)由國立台灣師範大學科學教育中心負責執行以了解我國

國小國中及高中學生數學及科學成就在國際上所佔的地位IEA 自 1990 年開始

推動進行「第三次國際數學與科學教育成就研究(Third International

Mathematics and Science Study TIMSS)」本計畫有四十餘國參加第三次國

際數學與科學教育成就研究後續調查(稱為 TIMSS REPEATTIMSS-R)於 1999 年

舉辦調查對象為國二學生(13 歲群)共有 38 個國家參加鑒於世界各國對國

際數學與科學教育成就研究的熱烈反應IEA 計劃往後每四年辦理國際數學與科

學教育成就研究一次並改名為國際數學與科學教育成就趨勢調查(Trends in

International Mathematics and Science Study 簡稱 TIMSS )TIMSS 2003

的調查對象包括國小四年級及國中二年級學生TIMSS 的測驗內容包括數學跟科

學並從學生教師和校長們的回答中廣泛地蒐集有關數學跟科學教學與學習資

料另外還經由課程指引教科書和其他教學媒體的分析探討參與國家的數學

7

和科學課程並將結果發表成一系列的國際報告讓參與國家的教育政策制定者

和實務工作者得到有關在數學與科學教學上跟學生學習成就上的珍貴訊息

第四節 研究限制

本研究對於整個計畫的擬定與進行過程中由於在時間上與人力上尚有所不

足的影響以至於對本研究的進行有所限制茲分別就研究工具與分析研究樣

本與應用範圍兩方面說明之

壹研究工具與分析

在 TIMSS 2003 試題部分由於是翻譯試題照理應該經專家學者進行反譯

程序以確保試題的原意未被扭曲但因資源限制所以只經國小專任資深英文

教師與研究者討論而定案

貳研究樣本與應用範圍

因人力與時間的限制只能選擇一間學校來實驗因樣本受限於某一學校

所以本研究的結果與建議限制受限於相同類型的學校

8

第二章 文獻探討

本研究的文獻探討將分成三節第一節為探討實作評量的意涵和特色以及

國內相關實作評量的研究第二節為 TIMSS 的簡介及國外相關的研究第三節為

TIMSS 試題與國內數學課程的分析

第一節 實作評量

壹實作評量的緣起

長久以來多數人將評量窄化為紙筆測驗的考試用考試的成績來論斷一個

人的高下使得評量的目的偏狹方式單調內容枯躁意義盡失再加上過度

倚賴標準化測驗常導致課程窄化且易流於基本技能與片面瑣碎事實的學習忽

視複雜思考和問題解決能力(江文慈民 87詹志禹民 85)簡言之考試第

一分數至上的迷思等於將評量窄化了也扭曲了評量的目的更簡化了評量

的結果事實上考試只是評量的方法之一評量的目的是要提供學生有益的回

饋評量的改革意味著教學與課程發展的改進因此在教育改革中教師要採

用新的評量方式以符合教學的新趨勢評量的意義在於了解學生學習與教師教

學之用其主要的目的是在教育的過程能隨時掌握學生的學習讓教師明白教

學情況藉以發揮教育的效率與效能實作評量受到歡迎的主要原因之一是一

般人對於選擇式的測驗題感到不滿意例如選擇式的測驗題只能測量學生「知

道」什麼但無法測量學生「能做」什麼此外認為以選擇題為主的標準化測

驗對於教師的教學和學生的學習造成一些偏差的影響標準化測驗經常是一般家

長用來評估學校教學績效的方式在績效的壓力之下造成部分教師教學側重於

測驗的內容而扭曲了教學的面貌和窄化學生的學習結果在教育改革的推動

上教育界期望藉著評量的革新來提升教師教學的品質和學生學習的成就此

外一些入學考試和證照考試也在原有的選擇題之外增加建構反應題或實作測

9

驗部分實作評量在教育界和測驗界已是一個非常顯明的趨勢Silver(1993)

認為假如我們沒有將看過或聽過的數學留住那它將永遠不會變成我們的知識

所以實作評量吸引人的地方正在於它讓教師更能洞悉學生的思考並將所得的訊

息直接應用在教育計畫中

實作評量的提倡者主張實際工作的評量模式比紙筆測驗更能充分深入的了

解學生的知識和理解程度(Haertel amp Linn1996)以下將各學者對實作評量

的定義整理概述如下

一以觀察和專業判斷來評量學生學習成就的評量方式都可以稱為實作評量其

型式非常的多元化例如建構反應題書面報告作文演說操作實驗

資料蒐集作品展示等都是實作評量的例子( Stiggins 1987 )

二案卷評量也是實作評量的一種型式實作評量具有下列幾點特徵

(一)要求學生執行或製作一些需要高層思考或問題解決技能的事或物

(二)評量的作業( tasks )是具有意義性挑戰性且與教學活動相結合

(三)評量的作業能與真實生活產生關聯

(四)歷程( process )和作品( product )通常是評量的重點

(五)表現的規準( criteria )和標準( standards)-也就是評量的重

要層面與給分標準要事先確定實作評量有時也被稱為真實性評量

(authentic assessment )( Herman Aschbacher amp Winters 1990 )

三實作評量可視為『以超越傳統評量方式為了解學生熟練度而蒐集資料的一

種評量方式』(DnubarKoretz amp Hoover1991)

四實作評量不僅反應出學生解答的正確性同時也顯現出其得到答案的過程

(Ruiz-primoBaxter amp Shavelson1993)

五實作評量是應用各種評量方式評量各種能力及技巧要求學生展示知識的

應用而非僅展示知識的本身(Long amp Stansbury1994)

六實作評量乃是模擬一些標準情境(亦即是在自然情境下的實作)之測驗其

10

模擬的程度高於一般紙筆測驗所代表者(陳英豪吳裕益民 85)

七實作評量係指根據學生實際完成一項特定任務或工作表現所作的評量這些

任務或工作可能是實際操作口頭報告科學實驗數學解題寫作hellip等

因此其所使用的方式係透過直接的觀察學生表現或間接的從學生作品去

評量(吳清山林天祐民 85)

八凡是以學生在評量過程中的表現或成果作為評量的依據再根據教師的判

斷用事先指定的標準來評定等級的評量方式都可稱之為實作評量(夏

淑琴民 88)

貳實作評量的特色

綜合國內外學者觀點實作評量具有以下特色

一銜接教學與評量教學與評量的密切配合可以對學生的學習情形提供較全面

性的完整的深入的訊息此訊息可以幫助老師更了解學生的學習優勢及

問題掌握學生真正的能力及進步情形使老師能在教學上做適當的調整來

幫助學生解決問題提升其學習水準而惟有重視過程的評量學生才有機

會去反思自己學習上的問題省察如何在學習上求進步而這些也才是真正

的學習

二使學習更有意義更深入強調教學與評量的內容應為重要的完整的概念

而非瑣碎知識的累積應重視思考與問題解決能力的培養而非低層次的記

憶與歸納它的目的在幫助學生獲得完整有意義的概念增進表達技巧及

運用策略的能力並激發學生從事較複雜的深層思考所以實作評量著重脈

絡下有意義的學習在教學與評量的過程中它鼓勵學生主動探索深入思

考並表達學習此種評量方式有助於提升學生的思考及問題解決能力使

學生的學習更有意義更為深入

11

三強調學生知道什麼能做什麼實作評量的重心不在於偵測學生哪裡做錯了

而在於強調學生知道什麼能做什麼及如何再進一步知道得更多做得更

好簡言之其精神是「你會做很多事你還可以學會更多事」對於學生

嘗試去做好某一件事的努力(縱然尚未達到預期的目標)也給予正面的回

饋以學習理論而言較符合學習理論中的公平性或正當性亦即努力是有

收穫的

四強調與實際生活的結合實作評量可以讓教師瞭解學生對問題瞭解程度投

入程度解決的技能和表達自我的能力能夠較完整的反映出學生的學習結

果因為實作評量與真實生活較為相近其支持者認為實作評量能夠增進學

生學習的動機提高學生參與和投入的程度

五幫助學生建構有意義的學習情境發展問題解決能力批判性思考和表達自

我的能力

六有時候實作評量也可以做為一種教學策略提高學生的學習興趣和學習結

果評量和學生的學習以及老師的教學應該是密不可分並且互相支援的評

量的目的是幫助學生學習跟老師教學所以評量應該是自然的融入出現在

課堂而不是強制性的加進課堂上實作評量與實際教學過程有相當密切的

關係往往可以成為實際教學的一部份實作評量本身就是一種有效的教學

活動

七鼓勵合作學習許多文獻顯示合作學習可以提高學生的學習成就增強學

生的理解能力藉由溝通與辯論的過程學生可以重述自己的概念架構和知

識體系以促成有效的概念改變並達到有意義的學習在一個小組合作評

量的情境下藉由同儕的誘導和鼓勵彼此意見的分享並相互進行共同評

量是提高學生成就表現的重要機制

八直接評量排除語文能力的干擾實作評量比較不需要用到語文能力這對

於閱讀或文字表達能力較差的學生而言是比較公平的

12

叁實作評量的目的

Webb(1992)認為一個好的評量應具備四個目的第一個目的是成為教師蒐

集資料的工具透過評量的回饋教師可以知道學生學會多少和能做什麼第二

個目的是要表達學生在學習過程中所做所學的哪些東西是有價值第三個目的

是提供教育決策者一些教學績效之訊息最後的目的評量應該對整個教育體系

提供積極之建議(張敏雪民 86)雖然評量方式會因不同的評量目的而有所

不同然而現行的紙筆測驗過於強調排等第忽略了評量原先之目的教師只

教要考的學生只讀要考的成了所謂「考試領導教學」然而二十一世紀的

國民不是只會在試卷作答的人而是要有「分析預測及適應能力的人」簡而

言之就是能為生活而思考的人(曾慧敏民 87)實作評量重視教育過程本身

的價值和學生主動建構的能力因此重視學生學習過程和結果讓學生有意義

的學習使學生能靈活應用所學不僅評量認知層次也評量技能及情感層次

較傳統的紙筆測驗更能蒐集到學生較豐富的學習訊息

實作評量的目的如下(桂怡芬民 85曾慧敏民 87 Linn 2000)

一檢視學生學習成果是否能達到教學期望的結果

二從評量的結果能清楚交代學生的學習成就

實作評量能直接觀察學生到達結果的過程不只是評量答案之正確性能完

整的呈現學生在複雜能力及歷程上的表現並能依表現推論其構念表現

三藉由此評量可展現學生的技能和能力

實作評量除了能直接的測出學生問題解決的歷程與結果也能展現出高層次

認知情意與技能及後設認知等能力

四使得教學與評量能充分配合

實作評量注重與教學的互動其主要的目的為幫助學生的學習與改進教師的

教學

13

五為課程改革的重要指標

因實作評量標榜著可提升學童高階思考與問題解決的能力因此在教育改革

時備受重視

肆實作評量步驟

實作評量強調在和生活相關的情境下能讓學童展現所知所學的能力來解

決問題然而若是活動或作業設計不夠完整評分規準不夠明確等都可能導

致實作評量無法達到預期的目的(鄒慧英民 87)因此應如何設計出一份好

的實作評量試卷呢(Stiggins 1994)以下提出幾個注意要點

一確立設計評量的原因與目的

評量之所以實施一定有其原因包括確定評量結果所要作的決定例如

分組個別鑑定等第評定與優缺點的診斷等接著考量評量結果是否用於「排

名」或用於決定學生否達到精熟水準

二設計實作評量的內容

(一)選擇作業的形式

可以蒐集教室中自然而然發生的事件也可以設計結構化作業引發

學生表現的機會測出學生真實能力的實作評量

(二)決定評量的實施情境

因為怕受試者的動機與考試的焦慮可能影響學生的真實能力之表

現施測者可考慮事先告知學生相關評量的性質與評分標準因此在一

般的測驗情境下應先觀察受試者的焦慮情形再決定是否事先告訴受試

者評量事宜或採取不事先告知以測出學童最大的表現能力本研究採取

後者

(三)確定所要編製的實作試題數

14

決定實作題目數量應考慮評量的作業是否具代表性蒐集到的證據數

量是否可以提供較精確的學生能力思考層次

三確定實作評量成績計分標準

(一)決定分數的型式

如果評量的目的是做為分組或選擇的依據則可採整體性評分若是

診斷或檢定學童的基本能力可採取分析性細部評分本研究為診斷學童

分數的學習能力採用開放式的結構題型由學生自行建構答案因此

根據不同的答案給予不同層次的分數

(二)選擇評分者

評分者可為教師專家同學或受試者本身但基本上所有的評分

者得先接受專業的評分者訓練使每個人對評分歸準有所共識本研究請

已有五年以上之教學經驗的教師擔任評分者

(三)紀錄評分結果的方法

可採用檢核表評定量表軼事紀錄表等評定量表同時呈現了觀察

項目及分數評比常用於歷程與結果之評量適用於各學科之實作評量

本研究採用評定量表來紀錄評量結果總之發展實作評量時首先需

澄清「教學目標」與「評量的目的」是必要的其次「評量內容」或「評

量對象」取樣的代表性更是影響評量效度的重大因素最後清楚的「評

分規準」與完整的「評分者訓練」及詳細的「評分程度」則是影響評量的

信度唯有如此才能獲致高品質的實作評量(鄒慧英民 86)

伍實作評量的限制

一實施上非常耗費人力時間跟金錢

真正在實施實作評量時通常會受到器材跟場地的限制或是因為擔心產生相

15

互干擾因素而一次只能有限個學生同時進行施測這點跟團體施測的紙筆測驗

相比是非常耗費人力跟時間另外實作評量常需要有器材設備以及消耗性材料這

點跟團體施測的紙筆測驗相比是非常耗費金錢

二測驗情境控制困難

由於不是同時全體施測所以先後受測的學生容易相互干擾而且未受測

的學生跟已受測的學生的交談或傳授經驗也影響到考試的公平性加上前後施

測使得後面的同學很難有一致的施測條件例如場地未乾淨儀器未復原或被

損壞等

三計分不容易客觀

實施實作評量的目的不外乎想根據評量結果來為學生做決策因此獲

得一個正確而又可靠的評量結果(即高信度跟高效度值)便成為一件很重要的

事然而很不幸的實作評量如論文評分一樣由於是使用觀察跟判斷等兩類比

較主觀的評分方式來進行所以其結果難免具有很高的評分者誤差存在一般而

言評分者誤差有三種來源偏見月暈效應跟評量次數過少

四對容易焦慮的學生不利

實作評量的正式性與控制性會使得缺乏自信心或很在意他人評價的學生

產生過度焦慮進而影響其表現

陸實作評量的信效度

實作評量的信效度仍有待探討實作評量的信度通常是以概化程度

(generalizability)來描述(BaxterShavelsonGoldmanPine1992Dunbar

et al1991LinnBakerDunbar1991Linn1993Moss1994Ruiz-Primo

et al1993ShavelsonBaxterGao1993)概化程度包括評分者之間一致

的程度以及學生在不同工作項目(task)表現的一致程度(Shavelson et

16

al1993)根據 Shavelson 等人的研究結果發現實作評量在評量工作項目方面

的概化性較低顯示學生在不同工作項目上的表現有較大的差異在效度方面

實作評量所顯露出的問題有以下三個

一客觀性及公平性實作評量通常僅以一個評分者評定學生的表現所以

評量的結果可能過於主觀或有潛在的偏見(bias)問題(Airasian1991

Frechtling1991Linn et al1991Linn1993)

二評量內容的涵蓋性由於實作評量實施方式及時間的限制通常所評量

的學生行為表現較傳統測驗為少即評量內容的涵蓋範圍較小不易獲得學生行

為的適當樣本(Airasian1991Linn et al1991Linn1993)

三成本及效率問題這部份即時間與經濟的考量Linn 等人(1991)Linn

(1993)及 Messick(19941995)將這一點併入實作評量的效度標準

Baxter 等人(1992)Ruiz-Primo 等人(1993)及 Shavelson 等人

(199119921993)均從概化理論(generalizability theory)的觀點出發

採用取樣架構(sampling framework)來分析實作評量的信度(概化性)探討

評分者間評量項目間評量時間等的取樣變異以及其他潛在的誤差來源他們

針對神秘的電路盒(electric mysteries)毛細現象(paper towels)及小蟲

的習性(bugs)等評量項目採專家觀察(expert observation)實驗筆記

(notebook)電腦模擬測驗(computer simulation test)及紙筆測驗等方式

記錄學生的表現研究結果發現與評分者有關的取樣變異不大評量時間的取

樣變異極小而評分者與受試者間的交互作用(ratertimesperson interaction)和

評分者與評量項目的交互作用(ratertimestask interaction)這兩個部份的變異也

幾乎為 0故他們認為只要一個經過良好訓練的評分者(one well-trained

rater)即可用以評定學生在實作評量上的表現但他們發現在實作評量中評

量項目與受試者及該兩者與時間的交互作用是兩個最大的變異來源研究結果顯

示學生的表現因為工作項目的不同而有極大的差異而這樣的變異在不同時機上

17

更是明顯因此欲提高實作評量結果的一致性必須增加評量的工作項目使得以

學生在實作評量上的行為表現做其能力的推論時能夠降低與學生實際能力無關

的變異

Baxter 等人(1992)及 Shavelson 等人(19921993)主要是從評量對學生

能力的鑑別程度不同評量方式間的輻合效度不同特質及方法間的區辨效度等

三方面探討實作評量的效度他們的研究結果顯示不同的測量方法所得到的結果

並不一致Shavelson 等人(1993)發現在同一個工作項目之下不同的測量方

法中實驗操作與實驗記錄的相關最高實驗記錄與紙筆填充測驗及電腦模擬測

驗與紙筆填充測驗之間的相關最低這是因為實驗操作與實驗記錄為同一思考流

程所以相關較高此外他們也發現受試者與工作項目及測量方法間的交互作

用及誤差是變異的最大來源表示不同的測量方法可能是在測量科學成就的不同

面向(Shavelson et al1993p227-229)最後在不同工作項目之下採用

相同或不同測量方法所得到的相關的確較低顯示實作評量具有區辨效度

柒實作評量與其他評量的比較

大體上實作評量具有下列各項功能(Airasian 1994)茲列表如下

表 2-1-1 實作評量與紙筆測驗的比較

實作評量 紙筆測驗

學生把知識轉化成可觀察的表現行

為或成品的能力 主要涉及學生的知識及資訊的獲得

設計及施測費時但評量表可針對

同一或新的學生重複施測

設計費時但可同時施測許多學生

同組學生僅能使用一次

學生表現不佳可予診斷及補救

可監控學生進步實況

除論文式及開放式數學題之外甚少

提供方向指示如何改進表現

教學首重表現及過程 教學重內容知識

資料來源Airasian (1994) P236

18

表 2-1-2 各種評量類型的比較

客觀式測驗 論文式測驗 口頭發問 實作評量

目的

以最大的效率

及信度測驗

代表性的知

評估思考的技

巧及知識結構

的瞭解程度

教學時評估

知識

評估知識及瞭

解化為行動的

能力

學生的

反應

閱讀評量

選擇 組織寫作 口頭回答

計劃建構

及表達原始的

反應

主要優

效率在測驗

時間內可測驗

到許多項目

可測量複雜的

認知結果

使評估與教學

結合

提供充分的表

現技巧

對學習

的影響

過度強調回

憶鼓勵背誦

記憶如能適

當出題可促進

思考技巧

鼓勵思考及寫

作技巧的發

刺激學生參與

學習提供教

師立即回饋了

解教學是否有

強調運用知

識技巧於實

際的問題情

資料來源Airasian (1994) P229 et ls

捌實作評量相關研究

國內有許多探討實作評量設計的可行性研究以下將就國內學者所做的研

究整理說明

一陳文典陳義勳李虎雄簡茂發(民 84)美國馬里蘭州學校實作評

量國際共同研究計畫

將 MSPAP(the Maryland School Performance Assessment Program)的

19

試題轉譯成中文在國內進行小規模的施測藉以了解這種測驗的功能

使用上的時機及應用上的困難在其對我國五年級學生施以數學理化

和生物等實作評量題目後發現此種測驗模式能遍及各項科學能力我

國學生在回答問題時顯示其傳達與獨立作業能力均不足其評分客觀

的標準化可經由評分者講習的培訓達到目標實作評量可適用於平時作

業學生的科學能力競賽或教育行政單位的各校科學教育教學成效評鑑

等時機

二徐美英(民 89)TIMSS 數學實作評量在台灣之試用探討

(一)TIMSS 試題在台灣之施測具有信效度

(二)台灣四年級學生在 TIMSS 實作評量的表現顯著優於美國和香港地

區的學生

(三)TIMSS 試題在台灣之施測在男女生之間和班級間在總得分並

沒有顯著差異

(四)自編之試題猜一猜與 TIMSS 試題擲骰子繞過彎道

和魔術師有一定程度的相關

三洪之昀(民89)數學科實作評量對國小高年級學童學習策略影響之研究

(一)學生認為實作評量能增加對數學內容的了解提升學習興趣發

現數學的有趣擴大學習範圍並兼具情意評量的功能但也有學生認

為實作評量在實施上太麻煩且費時

(二)學生批判思考數學溝通數學表達的能力有待加強

(三)學生具有多方面的潛能亟待以實作評量的方式加以開發

四詹元智(民 91)國小數學科實作評量之效度探討

採準實驗研究設計的方式進行以屏東師範學院附屬小學六年級兩個班

的學生為研究對象一班為實驗組接受為期二個半月的數學實作評量

另一班為對照組接受傳統數學紙筆測驗的評量研究者於實驗前與實

20

驗後對兩組學生施以「傳統數學紙筆測驗」「數學實作評量」及「數學

學習解題態度」等三種測驗的前後測並對部份學生進行「數學實作

評量前後測的放聲思考訪談」概化性研究的分析結果顯示在一位評分

者及一題作業項目上之評分者間的變異相當小(319)不過分數的變

異有相當大的比例(約 50)是來自作業項目間及作業項目與受試者交

互作用的變異而在二位評分者及五題作業項目之概化性係數可達 08

以上顯示該研究之數學實作評量的結果能有效地推論至學生在其他評

分者及實作評量作業上數學問題解決的表現

五李長柏(民91)國小數學簡單機率解題實作評量與後設認知之相關研究

(一)數學解題實作評量具有良好的信效度

(二)本研究結果顯示具有良好的評分者信度

(三)數學解題能力和後設認知能力具有相關性

(四)性別在數學解題能力和後設認知能力上沒有差異

六王秀琲(民 92)實作評量在國小數學科之應用-以五年級學童分數為例

(一)實作評量能實際測出學童的分數概念在分割活動上連續量比

離散量好在表徵轉換上具體操作轉換符號模式為佳圖形轉換符號

模式較不理想分割策略會因情境的不同而使用較為簡便的方式來

解題

(二)從實作評量中學童能展現自行所建構的解題策略所獲得的訊

息比紙筆測驗多

(三)以 SS 分析法來分析實作評量之試題所呈現的試題關聯結構圖

中可以了解等分和連續量的分割活動是學童最易理解的概念而離散

量分割等值及單位量則是學童最難理解的概念

七張永杰(民 92)實作評量取向的幾何思考研究

(一)年級之幾何水準層次分佈情形有統計上的顯著差異存在年級

21

越高屬於高層次水準的學生越多

(二)當受試學生通過某一水準層次n的考驗但卻未能通過之前的任

一水準層次的考驗則稱為逆序現象有 697學生之幾何層次分佈呈

現逆序的情形

(三)學生不同 van Hiele 水準層次在後設認知能力上表現出顯著差異

(四)順序組學生能力值越高集聚的情形越明顯結構越完整逆序

組學生的概念結構比較少集聚呈現零散不完整的結構

(五)順序組能力低的學生所形成的關連結構比較零散而且概念間

的關聯程度不高能力越高的學生其關連結構概念問題結構化比較明

顯而且上下位觀念比較顯著逆序組學生的關連結構不但呈現零散不

完整的結構且關連結構圖中上下位觀念的情形比較不規律顯現其

概念結構比較雜亂

八林敬修(民 92)影響國小數學科實作評量信度相關因素之類推性理論

分析

(一)影響數學科實作評量分數一致性的主要變異來源為受試者與作業

項目交互作用(ptimest)變異其次為受試者(p)變異再其次為作業項目(t)

變異

(二)在評分者數學知能背景及評分者訓練對數學科實作評量分數一致

性的影響方面評分者的給分一致性因評分者數學知能背景及評分者訓

練而不同

(三)在題目結構度對數學科實作評量分數一致性的影響方面跨不同

結構度之作業項目對分數一致性的影響遠大過於跨相同結構度之作業項

目對分數一致性的影響此外不同數學知能背景及評分者訓練的評分

者在不同結構度的試題給分一致性上也有差異

(四)整體而言各評分組別的評分者一致性因評分向度之不同而有差

22

異其中以在「溝通表達」此一評分向度上的評分者一致性最低

九呂政隆(民 93)國小學童在數學實作評量解題整合認知與課程之相

關研究

運用實作評量的方式分別在九十學年度九十三學年度對五年級學生

施測以探討學生的數學解題與整合認知能力之相關性進而探討性別

課程在數學解題與整合認知能力上是否有顯著差異研究結果顯示實施

九年一貫課程後之九十三學年度整合認知中能力組在本研究之四份實作

評量之數學解題能力明顯低於九十學年度實施八十二年版國民小學課程

標準之數學解題與整合認知能力組

十石千奇(民 93)國小六學童在數學實作評量中的小組解題歷程分析

解題歷程模式受同儕討論的影響小組解題是四個人四條思考路線互相

牽引的結果解題歷程模式受操作實物的影響操作實物會影響解題階

段進行的走向小組成員並非全程參與解題歷程會因為題目的難易

互動過程階段性質等因素的影響而未能全程參與小組解題的階段變

化各行其道在各個解題階段的參與變化沒有一致性的發展操作實物

對各個解題階段皆有影響各產生不同的作用小組成員喜歡在實作評

量中以小組解題的模式解題覺得這樣的評量方式可以幫助解題

因此建議數學教師多採用以四人為一個小組在形成性評量中以小組

解題的方式進行實作評量

十一曲慧娟(民 94)實作評量在國中學術性向優異班招生鑑定之效度研

究~以臺灣北區為例

(一)錄取組和未錄取學生在入學後成就表現的差異分析顯示英文組

達顯著水準 (t=6159plt05)數理組未達顯著水準

(二)實作評量錄取學生在入學後之特殊表現的訪談結果發現各組學

生在發表能力競賽檢定檔案成果上的參與興趣濃厚也比較有所發

23

(三)受訪教師學生及參加座談會的教師們對實作評量的看法和意

見主要有下列重點

1命題是最大的困難各校命題均請專家學者指導師生都反應覺

得題目的品質不錯題型也很有創意和其它測驗不一樣但自然

科實驗器材的準備耗時費工是很大的負擔因此很多學校選擇用資

料分析的題目類型避免實驗操作器材準備的困擾

2實施程序上時間說明器材提供均適宜但場地的考量較多

如實驗位置的區隔語文施測時需安靜的場所等監考過程也是爭

議較多的如學生覺得監考老師應多幾位老師的尺度不同等

3受訪學生指出實作評量的應答方式和以往參加過的測驗有很大

的不同但都持肯定態度同時覺得語文表達能力會影響到實作評

量的成績

4各校評分都採集中閱卷的方式評分標準爭議性得分大都透過

閱卷老師討論後取得共識再給分

5目前各校在鑑定學生時決策的標準不一因此反應意見差異頗

大但從訪談資料發現受訪學生及教師都較支持運用初試複試

成績加權計算作為選擇學生的標準

6受訪教師表示學生入學後的表現和以往相較起來沒有明顯的

差異但在科展競賽檢定發表上的熱誠度較高

7學生的訪談結果發現大多數學生覺得實作評量可以測出他們在

學術性向上的能力或天份

8實作評量的保密情形比其它測驗要好很多但坊間仍有業者猜

題補習受訪學生及老師也表示有模擬實作或補習經驗者對

實作表現或多或少有影響惟一沒有保密困擾的是國文組

24

十二陳怡玉(民 94)降低國小數學科實作評量人和作業交互作用變異方

法的探討---以類推性理論分析

(一)由於分層變項選取不易導致「作業分層」無法有效降低人和作

業交互作用的變異

(二)「以圖表組織圖為鷹架」可以降低人和作業交互作用的變異

(三)「以圖表組織圖為鷹架」比「作業分層」更能讓人和作業交互作用

的變異降低

(四)進行「作業分層」的比較時實作評量的類推性係數和可靠性指

標以同一階層的作業採 ptimesTtimesR 設計最高但屬分層之 ptimes(TS)timesR 設計

卻低於作業未分層時的分析(即採作業 1234 的 ptimesTtimesR 設計來分

析)

(五)「以圖表組織圖為鷹架」能提高實作評量的類推性係數和可靠性指

十三蔡正濱(民 95)國小數學科實作評量評分者ㄧ致性相關因素探討

(一)影響數學科實作評量分數一致性的主要變異來源為受試者與作業

項目交互作用(ptimest)變異其次為受試者(p)變異再其次為受試者

作業與評分者三者之交互作用及誤差(ptimesttimesre)的部分

(二)在使用不同類型及等級數的計分規準對評分者間一致性的影響方

面在 ptimesttimesr 類推設計下不分計分規準種類與評分者有關的變異量

(含 rptimesr及 ttimesr 三者的總和)均相當小幾乎接近 0而在 ptimesr 設

計的整體類推性相關係數及給分差異比例方面分析式計分規準優於

整體式計分規準在不同等級數方面ptimesttimesr 類推設計中與評分者有

關的變異量及整體類推性七等級計分規準略佳但差異性不大在 ptimesr

設計的整體類推性相關係數及給分差異比例方面七等級計分規準優

於四等級計分規準其中又以使用整體式計分規準及評定高複雜度試題

25

時較為明顯

(三)在不同複雜度作業對評分者間一致性的影響方面低複雜度試題

的一致性高於高複雜度試題顯示評分者面對受試者在高複雜度試題的

作答反應時出現給分較不一致的情形最後受試者是否具備實作評

量計分規準之經驗對評分者間一致性的影響方面在低複雜度試題兩

組受試者之評分者一致性的差異性不大在高複雜度試題 A 組評分者

一致性大致高於僅具實作評量經驗之組別 B組而 AB兩組受試者的評

分者一致性差異程度在分析式計分規準上低於其在整體式計分規準之

差異程度

第二節 第三次國際數學與科學教育成就研究

由國際教育成就調查委員會(The International Association for the

Evaluation of Educational Achievement簡稱 IEA)主辦的「國際數學與科學

教育成就趨勢調查」(Trends in Mathematics and Science Study 2003 簡稱

TIMSS 2003)」是目前有關國際間對學生成就的調查研究中規模最大的一項調查

該測驗採取全世界合作模式主要單位有

一國家研究協調中心(National Research Coordinators)國家研究協

調中心負責選擇學校樣品 收集資料 計分標準和資料輸入 和準備研究結

果的一個國際報告

二TIMSS amp PIRLS 國際研究中心(在波士頓學院)(TIMSS amp PIRLS

International Study Center at Boston College)國際研究中心(ISC) 負責

TIMSS 的整體設計發展和實施這包括建立規程監督工具發展舉辦訓練

ISC 進行分析並且在國際報告和用戶資料庫中發布研究結果

三IEA 秘書處(IEA Secretariat)總部設在荷蘭的阿姆斯特丹IEA 秘

書處負責提供整體支持監督籌款和協助參與國家協調參與 TIMSS 的國家取得

26

測驗工具的翻譯證明

四IEA 資料處理中心(IEA Data Processing Center)IEA 有它自己的

資料處理中心位於德國的漢堡資料處理中心(DPC)負責處理和核對從所有參與

國家得到的資料和建立國際資料庫

五統計(Statistics Canada)在加拿大的渥太華負責 TIMSS 的所有採

樣活動包括開發取樣步驟和文獻和協助參加者能符合 TIMSS 的採樣設計

六教育測試的服務(ETS)(Educational Testing Service (ETS))ETS 為

TIMSS 成就測驗資料提供軟體和心理測量的支持 ETS 總部設在新澤西州的普

林斯頓

TIMSS 2003 是 IEA 自 1995 年以來第三次主辦連續週期性調查學生的數學和

科學成就主要目的在提供各國長期追蹤學生數學和科學趨勢成就以提升學生

數學和科學的學習成效TIMSS 2003 以 13 歲群(即國二生)和 9 歲群(即小四生)

為調查對象從 2000 年九月開始發展研究調查相關工作總計有 49 個國家參

加其中 48 個國家參加 13 歲群調查26 個國家參加 9歲群調查測驗的內容

包括數學和科學並從學生教師和學校的問卷回答中廣泛的搜集有關數學和科

學的教學和學習資訊並經由課程指引教科書和其他教學媒體的分析探討參

與國家的數學和科學課程以提供參與國家的政策制定者和實務工作者有關教學

和學生學習成就方面的珍貴訊息而技術報告和完整的國際資料庫也一併出版公

TIMSS 試題的編製流程是先製訂課程架構在根據課程架構編製成就測驗

而此課程架構是由一群來自 TIMSS 國家研究協調中心(TIMSS National Research

Coordinator)的數學和科學教育專家所發展出來的在 TIMSS 2003 的課程架構

中共分為兩個向度內容領域跟認知領域詳細內容如表 2-2-1 所示

27

表 2-2-1 TIMSS 2003 課程架構

數學 科學

內容領域 內容領域

數 生命科學

代數 化學

測量 物理學

幾何學 地球科學

8

級 資料

8

級環境科學

數目 生命科學

模式等式和關係 自然科學

測量 地球科學

4

級 幾何學數據

4

認知領域 認知領域

知道事實和程式 事實的知識

使用概念 概念的理解

解決日常問題 推理和分析

推理

第4年級代數內容領域被叫為模式等式和關係

其中在實作評量方面設計的原則是依照實用的可負擔的和容易翻譯成

多國語言和文化原則所設計的透過預試時取得評分指南包括正確的答覆跟不

正確答覆的描述及給分標準其評分系統採用維京評分系統以表格說明如下

28

表 2-2-2 維京評分系統

第一個碼

  2 類型的 CR 項目(分數碼)

(1) 2 分(外延反應評分)

2 分完整無誤

1 分部分對

(2) 1 分(問答)

(3) 0 分7-9

2 分

1 分

第二個碼

  診斷訊息碼

0-5表出現之頻次類次配合參數碼標之

如 20-2510-1570-75

9 為其他無特殊類別

  如 291979

78=自個兒ldquo診斷碼(國家碼 可自選)

  99 為空白

  79(Erases)

另外在問卷調查部份分為

一課程

(一)公式化課程

(二)課程的範圍和內容

(三)課程的組織

(四)監測和評估被實施的課程

(五)課程材料和支持

二學校

29

(一)學校組織

(二)學校目標

(三)校長的角色

(四)支持數學與科學的資源

(五)父母親介入

(六)學校環境

三老師和他們的準備

(一)學術準備和證明

(二)老師補充

(三)老師任務

(四)老師歸納

(五)老師經驗

(六)教的樣式

(七)專業發展

四教室活動和特徵

(一)課程題目

(二)時間

(三)家庭作業

(四)評量

(五)教室氣氛

(六)資訊技術

(七)計算器用途

(八)強調的研究重點

(九)班級大小

30

五學生

(一)家庭背景

(二)經驗

(三)態度

當 TIMSS 施測後許多國家對於施測結果所蘊藏的意義做了許多的解釋他

們認為施測結果不止顯示了學術成就還包括了學生所接受的課程和教育

(SchmidtJordeCoganBarrierGonzaloMoserShimizuSawadaValverde

PrawatMcknightRaizenBrittonWileyWolfe1996)國際比較主要的目的

在於評估不同國家的學生程度而另一個同樣重要的目的在於嘗試去了解及解釋

造成差異的原因Jaekyung Lee 在 1999 年時提出當我們進行國際比較時有三

點要注意的事項一應該要同時著重正規教育和學校教育以外的學習經驗

二重視區域性的差異

三注意學校的改革政策因為它會影響教育的實施與成果所以成績好不應沾

沾自喜而表現不好也應深究原因去注意其他表現好的國家真正做了什麼並

加以學習而非歸罪於整個制度

根據 TIMSS 2003 國際數學和科學報告(TIMSS 2003 International Reports

in Mathematics and Science)其中提到幾個圖表是跟本文有關並值得分析注

意的

31

圖2-2-1 1995年到2003年4年級學生的數學趨勢

32

上圖是從該報告第一章表格13擷取出來的該圖表顯示出從1995年到2003

年的4年級學生的數學趨勢其中香港拉脫維亞英國賽普勒斯紐西蘭

斯洛伐尼亞加拿大安大略省等七個國家或地區是呈現進步的情況而荷蘭挪

威加拿大魁北克省是退步的趨勢其他在圖表中的國家是沒有顯著差異的另

外在其文字說明部份也提到以色列和菲律賓從1999到2003也顯示出顯著的改

進像上述這些國家數學成就方面趨勢的變化可能跟社會或教育的改變有關

例如東方的政治變化跟歐洲十幾年前的教育改革已經實際改變這些國家的教育

成就例如立陶宛跟拉脫維亞這兩個國家的成就趨勢反映他們在改革過程中的

努力已經獲得某些驚人的成就

33

圖 2-2-2 4 年級學生在男女性別上的差異

上圖是從該報告第一章表格14擷取出來的該圖表顯示大部分國家或地區4

年級學生在男女性別上並無顯著差異但在幾個國家例外新加坡菲律賓亞

美尼亞跟Moldova共和國的女生有較高的數學平均成就荷蘭美國義大利

蘇格蘭賽普勒斯和兩個加拿大省份則是男生有較高的數學平均成就

34

圖2-2-3 1995到2003年的男女生進退步情形

上圖是從該報告第一章表格15擷取出來的該圖表表示從1995到2003年的

男女生進退步情形從圖表中得知男女生同時進步的國家或地區有賽普勒斯英

國香港拉脫維亞紐西蘭斯洛伐尼亞和安大略省而同時退步的國家有挪

威和魁北克省僅有男生退步但女生沒有的國家是荷蘭

第三節 TIMSS 試題與國內數學課程關係之分析

在魔術師的題組中研究者希望學生透過摺紙的方式不管對摺幾次最後

限制只能用剪刀剪一次的情況下要求學生剪出下列 3個圖型

35

每個學生剪每個圖型都有 3次機會這個題組的目的不止希望學生可以運用

全等的直覺利用幾何操作如平移旋轉翻轉等方式印證平時的經驗並將

全等的概念更加清晰還希望學生透過摺紙的方式了解認識垂直和對稱而剪紙

又可以增進學童分解圖形與建構圖形的能力所以本題組主要在測量學生對於全

等的直覺跟幾何操作垂直跟對稱和空間關係的瞭解以及解決非慣例題目的能

在圖形題中前 2個小題分別要求學生在一個長方形中劃一條直線將該長

方形分成 2個三角形或 2個長方形第 3小題要求學生在一個長方形中劃兩條直

線將該長方形分成 2 個三角形跟 1 個長方形第 4 小題則給等腰梯形並連接 2

條對角線在內部形成的 4個三角形中要求學生找出形狀相同但大小不同的兩

個三角形本題組在了解學生能否透過操作直尺或三角板在二維空間上剪裁出

指定的基本圖型並利用直觀的方式指出形狀相同但大小不同的三角形

上述兩個題目在評量學生的幾何能力根據我國國民中小學九年一貫課程綱

要數學學習領域中指出小學教師在從事幾何教學時最要避免的是來自本身歐

氏公設幾何訓練的干擾處處受制於定義的認定與邏輯順序由歷史來看人類

是先由應用操作實踐中認識各種幾何要素與性質彼此之間並沒有一定的

先後關係歐氏幾何的價值首先是對這些先民知識的歸類與整理其次才是作

36

為知識典範的演繹系統所以將幾何課程概分成四階段而學生在四年級時所應

該要學習到的幾何知識就如下列所示

一階段一(一年級到三年級)較強調幾何形體的認識探索與操作學生對

幾何形體中的幾何要素也許能指認但尚不清楚其結構意義

二階段二(四年級到五年級)由於數與量的發展逐漸成熟學生開始結合「數」

與「形」兩大主題學習運用幾何形體的構成要素(如角邊面)及其數量性

質(如角度邊長面積)

更詳細的相關能力指標詳列如下

1-S-04能依給定圖示將簡單形體作平面舖設與立體堆疊給定的圖示

可為圖卡或實物透過拼圖與堆積木等活動讓學童進行平移翻轉重疊

比對hellip等全等操作的練習

3-S-06能透過操作將簡單圖形切割重組成另一已知簡單圖形

4-S-02能透過操作認識基本三角形與四邊形的簡單性質

4-S-03能認識平面圖形全等的意義

4-S-16能理解平面上直角垂直與平行的意義

4-S-07能由直角垂直與平行的概念認識簡單平面圖形

4-S-08能利用三角板畫出直角與兩平行線段並用來描繪平面圖形

例學童會使用直尺或三角板畫出直角及兩平行線段進而用來繪製直角三角

形正方形長方形平行四邊形與梯形

因此學生在回答這兩個問題時應已具備足夠的能力

在幾何方塊的題組中給學生 3 塊白色方塊4 塊黑白相間的方塊和 3 塊黑

色方塊要求學生完成

一利用 2 張黑白相間方塊拼出一個較大的黑色三角形

二利用 4 張黑白相間方塊拼出一個黑色的正方形並求出佔幾分之幾

三不准使用黑白相間方塊將 4 張方塊拼出一個正方形使得黑色的部分佔 12

37

四請用 8 張方塊拼出一個如下圖的長方形使得黑色部分佔 58

這是一種包含幾何跟數與量的題目其中幾何的部份是要求學生建立一個二維圖

形並滿足題目的要求(數與量)幾何部分已經如上所述現在分析相關的數

與量

根據我國國民中小學九年一貫課程綱要數學學習領域中指出有理數是小學

的核心課程之一也是小學數學教育中最有挑戰性的教學主題因為學生較缺

乏有理數的前置經驗日常生活中的有理數情境也比整數少分數的形式是學生

首次碰到兩整數並置的約定至於什麼是穩當的有理數教學並無定論但是基

本的共識是學生需要較長的時間來學習掌握有理數的概念不論是先形式程

序或者先概念理解兩者都必須不斷互相支持在有理數教學中必須將材料

作適當的安排先從較容易的平分或測量入手而將其它的應用課題作為錘鍊

有理數數感的課題

在相關的能力指標詳列如下

3-n-09能在具體情境中初步認識分數並解決同分母分數的比較與加

減問題學童從具體情境或活動中掌握分數的概念能學會分數的記號並理

解運用分數記號來記錄同分母分數的比較與加減的方式例如以平分為基礎的

活動(離散量)問下列深色區域是全部圖形的幾分之幾

4-n-07能認識真分數假分數與帶分數熟練假分數與帶分數的互換

並進行同分母分數的比較加減與非帶分數的整數倍的計算

4-n-08能理解等值分數進行簡單異分母分數的比較並用來做簡單分

數與小數的互換在具體情境中說明分數等值的理由可先由分母的倍數差 2

4倍的分數先出發(因為切半的操作最簡單)

在施測學校所使用的教科書中第七冊第十單元分數中其教學目標也有

38

透過單位分數的合成和累加活動以真分數來描述單位分數的幾份可見此題對

施測學校的學生來說應有能力解決

另外兩題有關數與量的題目是數字卡跟猜一猜在數字卡部份題目分為兩

部份第一部份為抽出三張 0-9 的數字卡任意排列後找出最接近總和為 20 的

方法第二部份為抽出三張 0-9 的數字卡任意排列後分別找出和差跟積最大

的方法這在我國國民中小學九年一貫課程綱要數學學習領域中分類在數與量

中的整數部分根據附錄說明中指出整數計算是一切數學學習的基礎在教學

中學童經由活動情境掌握計算的意義藉著各種例子體驗計算的規則與策略

流暢的計算能力有如語文學習中基本的文字駕馭能力不僅可以內化學童的

數字感並且是日後(國高中)學習抽象運算及形式推導的基礎這樣的能力

固然是學習科學所必須也是能夠有效處理日常生活的基本能力之一所以國小

整數教學的課程目標在於

一從計數開始學習位值的約定與換算並在演算中逐步熟悉最後能掌握

大數

二在二年級下學期理解算術的樞紐九九乘法作為日後所有計算的基礎

三到四年級時能夠不拘泥於位數熟練加減乘除的直式計算

有關數與量的題目另一題是猜一猜題目是在 9個碗中前 4個碗中豆子

的數量分別是 29313128 個請猜一猜罐子中大約有幾個豆子並解釋你

的想法這在我國國民中小學九年一貫課程綱要數學學習領域中分類在數與

量中的估算部分估算在國民教育中可粗分為離散量的估算(自然數四則運算的

估算)與連續量的估算前者的教學應在學生已經能掌握確算後再進行而後

者的教學應透過測量時量不盡的正常情境與小數的教學共同開展認識小數

之細分與精確度的要求乃是一體的兩面估算的教學可以先在計算與驗算中強

調讓學生能對不合理的答案透過估算剔除然後是能判斷應用問題對答案

精確度的要求並藉由過去的解題經驗發展正確的估算策略或者是能針對

39

問題與解答發展估算策略驗算解答的合理性要注意的是估算屬於較高層

次的數學能力學生必須先對所使用的概念程序與問題情境有相當的理解才能

恰當地估算進而能正確判斷估算的時機與精確度的要求國小的估算教學要

特別注意評量的問題切忌因為強求估算禁止學生使用正常計算教師應在評

量的問題上下功夫讓問題本身暗示估算的好處

最後一題是擲骰子題目是用一個規則來改變骰子擲出來的數字要求學

生發現改變後的數字有什麼特性另外要求學生丟 30 次將結果記錄並統計在

表格中這是屬於統計與機率的部份我國課程在這部份強調統計和機率的知識

背景應來自生活環境因此以學生的生活經驗為主從學生感興趣的主題出發

使其學會敘述統計所呈現出的數字和圖表的意義強調圖表的表達和溝通並了

解抽樣機率的初步概念且能正確地運用各項統計資料於實際的生活中並要

求在三年級之前 先藉由簡易表格的製作協助學生建立資料的整理與分組的

概念進而練習報讀與說明資料並建立個別資料出現頻率概念的認識再藉著

直接和交叉對應表格的介紹並配合「數與量」的教學希望學生能掌握對表格

的認識並能加以運用

40

第三章 方法與步驟

本章節乃根據前兩章所提的研究目的與文獻探討進行研究設計以下將分別

就研究架構研究工具發展研究的信效度與實作評量的試題架構三節加以說明

第一節 研究架構

壹研究方法本研究是使用實作評量的方法進行實際施測使用 SPSS

與 EXCEL 軟體分析回收的施測數據

貳研究樣本本研究之研究對象是針對國小四年級學生以台中縣神岡鄉

某國小四年級學生為受試者共四班 127 人學校環境是住

宅與工業混合區

叁研究工具本研究的研究工具分為兩部份民國 89 年徐美英研究論文

中的題目跟 TIMSS 2003 公開的實作評量試題各三題TIMSS

2003 公開的實作評量試題是由 TIMSS 網站下載試題後再進

行翻譯每一個題組的施測時間是 30 分鐘

第二節 研究工具發展

本研究的研究工具分為兩部份民國 89 年徐美英研究論文中的題目跟 TIMSS

2003 公開的實作評量試題各三題以下將分別就試題的編製過程評分標準施

測人員和評分者四點加以說明

壹試題編製過程

一研究分析相關公開試題並與學校教材相互對照後進行選題

二選定題目後進行翻譯

三將翻譯好後的題目跟原始原文題目交給學校英語科任老師進行確認

41

四確定翻譯工作後與現任資深國小四年級的教師們共同討論題目的適切

性修改試題敘述的語句使文句的敘述能符合四年級學生的認知

五將修改後的題目請上述老師再做一次確認

六提供評分標準給上述老師討論全對部份給分不給分的情況

七題目定案

以數字卡這題為例題目如下

【題目數字卡】

在這部分你將會拿到一張印有 0到 9的數字卡如下圖請將這些數字卡

取下來

總和為ldquo20的數字遊戲

小杰與小明這兩個小孩正在玩一個ldquo總和為 20的遊戲其規則如下

總和為ldquo20的規則

一抽數字卡每一個人抽出三張數字卡

二加數字卡每一個人利用這三張數字卡做出一個加法問題使得算出的

總和最接近 20 例如假如抽出的數字卡 將數字任

意組合後下面是其中四種可能的方法

0 1 2 3 4

5 6 7 8 9

1 4 5

42

+ + + +

5 5 4 6 1 9 +

15 1 0

這時玩家應該選擇 + 4 因為它的總和 19最接近 20

19

小杰和小明開始玩遊戲了小杰抽出了 三張數字卡小明抽出

了 三張數字卡

一小杰要如何安排三張數字卡做出一個加法問題才能讓它的總和為最接

近 20記得要寫總和

二小明要如何安排三張數字卡做出一個加法問題才能讓它的總和最接近

20記得要寫總和

三小明說假如我抽到 我可以用兩種方法做出總和 20

請告訴我們小明用哪兩種方法可以使 做出總和 20

第一種方法

第二種方法

1

4

5 1

4

5

1

4 51

4

5

972

6 3 1

1 4 6

1 4 6

43

找出最大的數

小杰和小明利用數字卡玩另一個新的遊戲就是利用三張數字卡做出最

大的數

甲將 三張數字卡填入下列的格子內讓相加的結果為最大

乙將 三個數字填入下列的格子內讓相減的結果為最大

丙將 三個數字填入下列的格子內讓相乘的結果為最大

貳施測人員

由四位該班導師擔任在正式施測前由研究者針對施測應注意事項對施

測人員說明並在每一份題目上附上給老師的話說明施測時應注意的事項

及給分說明部分實作評量試題需要用到一些材料由研究者事先準備妥

當於考前交給施測人員至於材料的發放跟試題說明的時間並不包括在 30

分鐘的測驗時間之內

叁評分標準

一 89 年徐美英研究論文中的題目直接使用其附錄中的評分標準以擲

times

9 5 1

+

2 3 7

1 4 5

44

骰子這題為例其評分標準如下

第一題 1 正確的計算出(042648)

2 給分範圍2分

第二題 1 描述的類型與資料一致

2 形式可以是一個或多個以下的情形例如所有的數字

都是偶數數字的範圍從 0~84 出現 2次數字排列有

規則如+4-2+4-2

3 給分範圍2分

第三題 1 至少完成 25 次擲骰子的紀錄

2 正確的計算

3 給分範圍2分

第四題 1 統計的次數與第三題的資料一致

2 給分範圍2分

第 5a 題1 答案與資料一致

2 給分範圍1分

第 5b 題1 對觀察的數字提供合理的解釋

2 給分範圍1分

二 TIMSS 2003 公開的實作評量試題部分參照其公佈的評分標準翻譯

成中文以提供給資深四年級老師參考以數字卡這題為例

(一)第一部分總和為 20 的數字遊戲

1 第甲題

(1) 給分範圍 1分

1 寫出 2+7+9=18

2 沒有任何算式但有答案是 18 者

(2) 給分範圍0分

45

1 有寫出算式 2+7+9 但沒有答案 18 出現

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

或偏離主題的回答)

3 完全空白

2 第乙題

(1) 給分範圍1分

1 13+6=19 或 16+3=19

2 沒有任何算式但有答案是 19 者

(2) 給分範圍0分

1 有寫出算式 13+6 或 16+3 但沒有答案 19 出現

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

3 完全空白

3 第丙題

(1) 給分範圍2分

兩種方法都正確(16+4 和 14+6)

(2) 給分範圍1分

只有寫出其中一種方法(16+4 或 14+6)

(3) 給分範圍0分

1 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

2 完全空白

(二)第二部份找出最大的數

1 第甲題

(1) 給分範圍1分

46

91+5 或 95+1

(2) 給分範圍0分

1 將 159擺在任何其他不正確的位置

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

3 完全空白

2 第乙題

(1) 給分範圍1分

73-2

(2) 給分範圍0分

1 72-3

2 將 237擺在任何其他不正確的位置

3 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

4 完全空白

3 第丙題

(1) 給分範圍1分

41times5

(2) 給分範圍0分

1 51times4

2 將 145擺在任何其他不正確的位置

3 其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的

或偏離主題的回答)

4 完全空白

47

第三節 研究的信效度與實作評量的試題架構

壹信效度

由於此次的實作評量採用多元化記分的方式故信度計算採用 Cronbach α

係數算出信度值為 079而且每一題均有詳細說明細節行為的項目給定參考

答案圖形的作品量表各題除經著名國際測驗機構審核施測過外並由研究者另

請學校資深四年級教師共同研究討論題目與答案對於施測過程研究者也與四

位監考老師討論後訂出共同標準所以在效度方面具有專家效度跟內容效度

貳試題架構

此次實作評量的試題共六題分別是屬於數與量幾何統計與機率等三大

主題依據九年一貫課程綱要數學學習領域裡對這幾個大主題在國小四年級前的

學習說明研究者編制下表的試題架構

48

表 3-3-1 試題架構

題目 學習主題 主題層次 評量內涵說明

擲骰子 數與量

統計與機率

(1)整數

(2)簡易表格的製作

(1)可以對整數的變化

提出一套模式或發現

(2)簡易表格的製作結

果統計與發現

猜一猜 數與量 估算 使用估算的技巧協助計算

與解題

魔術師 幾何 對稱的實際操作 透過摺紙的對稱觀念理解

平面圖形的線對稱關係

圖形題 幾何

(1)幾何形體的認識與

切割

(2)幾何形體『形』的

直觀認識

(1)透過操作將簡單圖

形切割成另一簡單圖

(2)直觀指出平面圖形的

相似

數字卡 數與量 運用加減乘法求最大值

透過位值概念將給定的數

字編排在不同的位值進行

加減乘法得到接近題

目要求的答案或所有可能

的最大值

幾何方塊 幾何

數與量

(1)幾何形體的拼合

(2)有理數(部分全體

的意涵)

(1)利用黑白相間方塊

拼出指定的簡單平面

圖形

(2)在具體情境中認識

分數

49

第四章 結果與討論

本章主要是呈現資料分析的結果並加以討論共分為四節第一節是利用

TIMSS 1999 實作評量試題比較民國 89 年跟民國 95 年的成績差異第二節是利

用 TIMSS 2003 實作評量試題檢視施測學校在性別及班級間是否存在差異第

三節是利用 TIMSS 2003 實作評量試題比較施測學校與原始施測資料的成績差

異第四節是實作評量試題的類推性

第一節 利用 TIMSS 1999 實作評量試題比較民國

89 年跟民國 95 年的成績差異

研究者本小節要探討的是 TIMSS 1999 的施測結果與民國 89 年徐美英所進行

的研究之比較主要的比較項目為平均數標準差及得分情形分配百分比基於

此研究者採用百分比圖表及各小題反推出得分人數之後用獨立樣本 t檢定的

方式比較平均數另外依百分比反推出人數時有時會因四捨五入產生總人數多

1人的情況此時會對進位數最小的數採取無條件捨去法以符合總人數一致另

因研究者分三天進行六題施測每題實際受測人數也有不同研究者使用的資料

來源有兩個分別是 TIMSS 2003 實作評量題目及 TIMSS 1999 實作評量題目為

了呈現方便研究者將取自 TIMSS 2003 實作評量題目所作的施測結果用『95 年』

表示另外 TIMSS 1999 實作評量題目為研究者從民國 89 年徐美英的論文中擷取

出來的當年的施測結果以『89 年』表示

50

壹魔術師

表4-1-1 95年魔術師題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

魔術師ㄧ 16 16 68 5 127

魔術師二 101 151 748 5 127

魔術師三 202 235 563 5 127

由表 4-1-1 得知研究者此次此題型的施測結果各題得分均以得 2分者居

多得 1分居次利用表 4-1-1研究者也從民國 89 年徐美英的論文中找到類

似資料列在表 4-1-2表 4-1-2 是從論文的本文中摘錄下來的研究者反覆研

究該論文時發現在 P73 也有附錄一份有關魔術師各題的資料統整不過兩者的

個數有所差異下表總人數 156 人遺漏值 5人附錄中個數是 155 人下表反推

出人數後的平均數也與附錄稍有出入研究者以本文的表格為準

表4-1-2 89年魔術師題組得分情形分配表

題目 得 0分人數() 得 1分人數()得 2分人數() 遺漏值 總人數

魔術師ㄧ 419 258 323 5 156

魔術師二 194 194 613 5 156

魔術師三 258 258 484 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

51

0

10

20

30

40

50

60

70

80

魔術師ㄧ 魔術師二 魔術師三

95年答對率

89年答對率

圖 4-1-1 百分比圖表比較結果

由上圖可知95 年答對的答對率在 3題中均優於 89 年的結果其中以魔術

師ㄧ的資料差距最大但此兩年的資料也有一個共同的趨勢就是該年度的答對

率有魔術師二的答對率>魔術師ㄧ的答對率>魔術師三的答對率研究者進一步

反推 89 年的得分人數後將兩年的資料進行獨立樣本 t檢定結果列於表 4-1-3

表 4-1-4表 4-1-5

表 4-1-3 魔術師ㄧ獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異數

相等 4323 0039 6098 272000 0000 0410 0800

1

不假設變異

數相等 6173 270036 0000 0410 0800

52

表 4-1-3 可以看出變異數 Leven 檢定結果P值lt005所以達到顯著差異

可見變異數是不能視為相等的後面 t檢定值 6173P 值lt005所以有達到顯

著差異可見平均數是不能視為相等故這一小題明顯的是 95 年的學生成績較

表 4-1-4 魔術師二獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異數

相等 17130 0000 2550 270000 0011 0050 0410

2

不假設變異

數相等 2605 270000 0010 0060 0400

表4-1-4可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是不能視為相等的後面t檢定值2605P值lt005所以有達到顯著

差異可見平均數是不能視為相等故這一小題明顯的也是95年的學生成績較佳

表 4-1-5 魔術師三獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 0443 0506 1332 272000 0184 -0100 0330

3

不假設變

異數相等 1338 265000 0182 -0100 0330

53

表4-1-5可以看出變異數Leven檢定結果P值gt005所以沒有達到顯著差

異可見變異數是要視為相等的後面t檢定值1332P值gt005所以沒有達到

顯著差異可見平均數是也可以視為相等故這一小題兩年的學生成績沒有差別

接著研究者對整個題組總得分進行比較由於 89 年論文中只有平均數與標

準差兩項資料研究者只能稍做比較95 年施測的平均數為 424標準差為 208

而 89 年的平均數是 375標準差是 207由於兩者標準差的差距很小可見兩

項資料的集中平均數的趨勢是差不多的而平均數則是 95 年多 049 分

二擲骰子

表4-1-6 95年擲骰子題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

擲骰子一 101 202 697 8 127

擲骰子二 597 395 08 8 127

擲骰子三 25 319 655 8 127

擲骰子四 345 378 277 8 127

擲骰子五 a 462 538 8 127

擲骰子五 b 950 50 8 127

由表 4-1-6 得知研究者此次擲骰子題組中各題得分擲骰子一以得 2分

居多佔 697擲骰子二以得 0分居多佔 597擲骰子三以得 2分居多

佔 655擲骰子四以得 1分居多佔 378擲骰子五 a以得 1分居多佔 538

擲骰子五 b以得 0分居多佔 95擲骰子二與擲骰子五 b是要求學生說明理由

或描述規則可見學校教學應該可以再加強學生在解釋資料上的能力

54

表4-1-7 89年擲骰子題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

擲骰子一 32 65 903 5 156

擲骰子二 548 387 65 5 156

擲骰子三 00 65 935 5 156

擲骰子四 65 129 806 5 156

擲骰子五 a 97 903 5 156

擲骰子五 b 839 161 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

0

20

40

60

80

100

擲骰

子一

擲骰

子二

擲骰

子三

擲骰

子四

擲骰

子五

a

擲骰

子五

b

95年答對率

89年答對率

圖 4-1-2 百分比圖表比較結果

由上圖可知89 年答對的答對率在 5題中均優於 95 年的結果其中擲骰子

二與擲骰子五 b兩年的答對率都很低可見對位於城鄉交界處的台灣學生而言

這種類型的題目屬於偏難的題型研究者進一步反推 89 年的得分人數後將兩

年的資料進行獨立樣本 t檢定結果列於表 4-1-8表 4-1-9表 4-1-10表

55

4-1-11表 4-1-12表 4-1-13

表 4-1-8 擲骰子一獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 56450 0000 -4100 270000 0000 -0400 -0140

1

不假設變

異數相等 -3900 195000 0000 -0400 -0130

表4-1-8可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是要假設不相等的後面t檢定值-3906P值lt005所以也達到顯

著差異可見平均數是不能視為相等故這一小題是89年的學生表現較優秀

表 4-1-9 擲骰子二獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 9470 0002 -1500 270000 0141 -0200 0035

2

不假設變

異數相等 -1500 270000 0133 -0200 0032

表4-1-9可以看出變異數Leven檢定結果P值lt005所以有達到顯著差異

可見變異數是要視為不相等的後面t檢定值-1506P值gt005所以沒有達到

顯著差異可見平均數是可以視為相等故這一小題兩年的學生成績沒有差別

56

表 4-1-10 擲骰子三獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 186200 0000 -6200 270000 0000 -0400 -0210

3

不假設變

異數相等 -5800 162000 0000 -0400 -0200

表4-1-10可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是要視為不相等的後面t檢定值-5806P值lt005所以達到顯著

差異可見平均數是有顯著差異的故這一小題89年的學生成績表現較好

表 4-1-11 擲骰子四獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 19580 0000 -9900 270000 0000 -1000 -0650

4

不假設變

異數相等 -9600 212000 0000 -1000 -0650

表4-1-11可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-9565P值lt005有達到顯著差異

可見平均數是有顯著差異的故這一小題89年的學生成績比較好

57

表4-1-12 擲骰子五a獨立樣本t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 207800 0000 -7400 270000 0000 -0500 -0270

五 a

不假設變

異數相等 -7000 187000 0000 -0500 -0260

表4-1-12可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-7036P值lt005有達到顯著差異

可見平均數是有顯著差異故這一小題89年的學生成績比較好

表 4-1-13 擲骰子五 b獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 38760 0000 -2900 270000 0004 -0200 -0035

五b

不假設變

異數相等 -3100 251000 0003 -0200 -0039

表4-1-13可以看出變異數Leven檢定結果P值lt005達到顯著差異可見

變異數是要視為不相等的後面t檢定值-3052P值lt005達到顯著差異可

見平均數是有顯著差異故這一小題89年的學生成績比較好

接著研究者對整個題組總得分進行比較由於 89 年論文中只有平均數與標

58

準差兩項資料研究者只能稍做比較95 年施測的平均數為 48346標準差為

24455而 89 年的平均數是 68258標準差是 16947可見 89 年的資料顯示

集中平均數的趨勢較高而 95 年的資料則較為分散而且平均數又是 89 年多

19912 分多出將近 12 倍

三猜一猜

表4-1-14 95年猜一猜題組得分情形分配表

題目 得0分人

數()

得1分人

數()

得2分人

數()

得3分人

數()

得4分人

數()

得5分人

數() 遺漏值 總人數

猜一猜 3858 2441 1102 630 787 1181 0 127

由表 4-1-14 得知研究者此次擲骰子題組中得分以得 0分者居多顯示

學生的概算能力非常不足其次是得 1分的較多這顯示學生曉得題目要掌握哪

些資訊只是不懂得利用這些資訊0分與 1分的人數竟佔超過 50結果頗令

人訝異

表 4-1-15 89 年擲骰子題組得分情形分配表

題目 得0分人

數()

得1分人

數()

得2分人

數()

得3分人

數()

得4分人

數()

得5分人

數() 遺漏值 總人數

猜一猜 2580 650 100 1190 3230 2260 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

59

猜一猜

0

10

20

30

40

50

60

95年答對率 89年答對率

圖4-1-3 百分比圖表比較結果

本題研究者將得 4分與得 5分者列為答對人數由上圖可知89 年答對的答

對率優於 95 年的結果研究者進一步反推 89 年的得分人數後將兩年的資料進

行獨立樣本 t檢定結果列於表 4-1-16表 4-1-17

表4-1-16 猜一猜資料統計

年度 個數 平均數 標準差平均數的

標準誤

95 127 156 175 016 得分

89 151 286 196 016

表4-1-17 猜一猜獨立樣本t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 5639 0018 -5800 276000 0000 -1700 -0860猜

猜 不假設變

異數相等 -5900 275000 0000 -1700 -0864

60

表4-1-17可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-5856P值lt005有達到顯著差異

可見平均數是有顯著差異故這一小題89年的學生成績比較好

第二節 利用 TIMSS 2003 實作評量試題檢視施測

學校在性別及班級間是否存在差異

在各題型得分的相關情形方面將之整理成表格 4-2-1由表中得知除了

圖形題與猜一猜的相關係數達到005的顯著水準之外其他相關各題均達到001

的顯著水準也就是說圖形題與數字卡幾何方塊魔術師猜一猜擲骰子

等題有相當程度的關係其他各題相互之間也是類似的關係這說明了此次的考

題不只是幾何能力之間有相關的情況幾何能力與統計概念數的運算能力

概算能力之間也有相當程度的關係

61

表 4-2-1 各題型之相關係數

圖形題 數字卡 幾何方塊 魔術師 猜一猜 擲骰子

Pearson 相關 1 0617 0419 0487 0174 044

顯著性 (雙尾) 0 0 0 005 0 圖形

個數 127 127 127 127 127 127

Pearson 相關 0617 1 0517 0562 0272 0587

顯著性 (雙尾) 0 0 0 0002 0 數字

個數 127 127 127 127 127 127

Pearson 相關 0419 0517 1 0397 0308 0389

顯著性 (雙尾) 0 0 0 0 0 幾何

方塊

個數 127 127 127 127 127 127

Pearson 相關 0487 0562 0397 1 0248 0509

顯著性 (雙尾) 0 0 0 0005 0 魔術

個數 127 127 127 127 127 127

Pearson 相關 0174 0272 0308 0248 1 0317

顯著性 (雙尾) 005 0002 0 0005 0 猜一

個數 127 127 127 127 127 127

Pearson 相關 044 0587 0389 0509 0317 1

顯著性 (雙尾) 0 0 0 0 0 擲骰

個數 127 127 127 127 127 127

在顯著水準為001時 (雙尾)顯著相關

在顯著水準為005時 (雙尾)顯著相關

62

表4-2-2 班級對總分之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

班級 390132 3000 130044 2046 0111

誤差 7806910 123000 63471

總和 8197040 126000

以單因子變異數分析班級對總分的結果如表4-2-2在α=005之下F檢定值為

2049相對應的P值是0111因為P值>005所以未達顯著差異也就是各班

級間的實作評量總分並沒有因班級的不同而顯現出差異

表4-2-3 性別對總分之組別統計量與t檢定表

性別 個數 平均數 標準差 平均數的標準誤

男生 65 21892 7567 0939 總分

女生 62 23355 8595 1092

獨立樣本檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 0320 0573 -0998 125000 0320 -4263 1404

分 不假設變

異數相等 -0996 121524 0322 -4272 1413

從表4-2-3來看雖然女生平均成績是2331分高於男生的2188分但根

據獨立樣本t檢定的檢定結果變異數的Levene檢定F值為0320P值為0573

顯示出男生與女生的變異數沒有顯著差異而平均數的t檢定值為-0998P值為

63

032也顯示出男女生的平均數是沒有顯著差異的研究者進一步分析性別與各

題的t檢定結果顯示於表4-2-4

表4-2-4 性別對各題之組別統計量與t檢定表

性別 個數 平均數 標準差 平均數的標準誤

男生 65 326 112 014 圖形題

女生 62 340 098 012

男生 65 418 215 027 數字卡

女生 62 474 212 027

男生 65 417 160 020 幾何方塊

女生 62 413 167 021

男生 65 417 204 025 魔術師

女生 62 432 213 027

男生 65 135 163 020 猜一猜

女生 62 177 185 023

男生 65 474 237 029 擲骰子

女生 62 494 253 032

64

獨立樣本檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 1522 0220 -0756 125000 0451 -0510 0230圖

題 不假設變

異數相等 -0758 124117 0450 -0510 0230

假設變異

數相等 0431 0513 -1471 125000 0144 -1310 0190數

卡 不假設變

異數相等 -1471 124863 0144 -1310 0190

假設變異

數相等 0067 0797 0139 125000 0890 -0530 0610

不假設變

異數相等 0138 123883 0890 -0530 0620

假設變異

數相等 0031 0860 -0414 125000 0680 -0890 0580魔

師 不假設變

異數相等 -0413 123981 0680 -0890 0580

假設變異

數相等 2029 0157 -1359 125000 0177 -1030 0190猜

猜 不假設變

異數相等 -1355 121450 0178 -1030 0190

假設變異

數相等 0391 0533 -0452 125000 0652 -1060 0660擲

子 不假設變

異數相等 -0452 123426 0652 -1060 0670

65

結果顯示各小題的平均數女生分別是34474413432177

494男生分別是326418417417135474除了幾何方塊之外

幾乎都是女生高於男生而各小題的Levene變異數檢定結果其P值分別是

0220513079708601570533均大於005顯示沒有顯著差異

而平均數的檢驗結果各題的P值分別是0451014408906801770652

也都大於005也呈現沒有達到顯著差異可見這6題的考題成績結果與刻板

印象「男生數理比較厲害」有不同的結果

第三節 利用 TIMSS 2003 實作評量試題比較施測

學校與原始施測資料的成績差異

本節研究重點是 TIMSS 2003 的題目與國際受測國家中總體表現較好的國家

資料及台灣原始資料進行比較TIMSS 網站上提供各個受測國家的資料檔研究

者下載了新加坡香港日本台灣比利時與美國的資料之所以下載這幾個

國家的資料是因為四年級測驗總分結果前五名剛好是新加坡香港日本台

灣比利時而且從總分的分析結果顯示台灣與新加坡香港有顯著差異與日

本沒有顯著差異而比利時與台灣也有顯著差異所以比較這五個國家而美國

是因為研究者想了解美國學生是否真的比較會活用故列入此次的比較探討在

實作評量上是否達到顯這差異研究方法採用變異數分析與事後比較事後比較

採用雪費(Scheffe)檢定法由於 TIMSS 施測時採用 12 本測驗題本所以參與

實作評量的各題人數並不一致會出現同一個國家在不同題目上有不同人數的情

況另外因研究者分三天進行六題施測每題實際受測人數也有不同

一圖形題

66

表4-3-1 95年圖形題題組得分情形分配表

題目 得 0分人數 得 1分人數 缺失值 總人數

圖形題甲 66 934 6 127

圖形題乙 41 959 6 127

圖形題丙 174 826 6 127

圖形題丁 223 777 6 127

由表 4-3-1 可知在圖形題題組中各小題得分均以得 1分的人數分別是

934959826777各題百分比是否達到顯著不同研究者用百分比

同質性檢定結果列於表 4-3-2

表 4-3-2 圖形題百分比同質性檢定

得分題目 交叉表

題目

1 2 3 4 總和

得分 0 8 5 21 27 61

得分 1 113 116 100 94 423

總和 121 121 121 121 484

卡方檢定

數值 自由度 p-value

Pearson 卡方 24666a 3000 0000

概似比 25936 3000 0000

線性對線性的關連 19950 1000 0000

有效觀察值的個數 484000

a 0 格(0)的預期個數少於 5最小的預期個數為 1525

67

結果顯示 Pearson 的卡方值 24666df=3p=0000達到顯著水準所以

各題的答對率百分比是不同的

表4-3-3 圖形題題組各國答對率的比較

題目 新加坡答

對率

香港答對

日本答對

台灣答對

比利時答

對率

美國答對

施測學校

答對率

圖形題甲 830 958 917 936 833 727 934

圖形題乙 937 988 902 950 911 877 959

圖形題丙 702 859 744 847 504 328 826

圖形題丁 616 490 634 656 504 553 777

00

400

800

新加坡

香港

日本

台灣

比利時

美國

施測學

圖形

題甲

圖形

題乙

圖形

題丙

圖形

題丁

圖4-3-1 圖形題題組答對率之比較圖

由表 4-3-3 與圖 4-3-1 可知在圖形題題組中甲題的答對率以香港最高

台灣與施測學校居次美國最低乙題的答對率以香港最高台灣與施測學校還

是居次美國最低丙題的答對率以香港最高台灣居次美國最低而且低到

328丁題的答對率以施測學校最高台灣居次香港最低低到 490香港

68

在此小題的表現與上述三小題的結果明顯有很大差距

接著進行變異數分析與事後比較的結果

表4-3-4 圖形題各題之資料統整

圖形題甲

有效的個數 平均數 標準差

新加坡甲 1103 0830462 0375396

香港甲 757 0957728 0201342

日本甲 767 0916558 0276730

台灣甲 776 0935567 0245681

比利時甲 779 0833119 0373109

美國甲 1636 0726773 0445753

施測甲 121 0933884 0249517

圖形題乙

有效的個數 平均數 標準差

新加坡乙 1103 0937443 0242274

香港乙 757 0988111 0108458

日本乙 767 0902216 0297216

台灣乙 776 0949742 0218617

比利時乙 779 0911425 0284312

美國乙 1636 0877139 0328378

施測乙 121 0958678 0199862

題形題丙

有效的個數 平均數 標準差

新加坡丙 1103 0701723 0457709

香港丙 757 0858653 0348610

日本丙 767 0744459 0436450

台灣丙 776 0846649 0360557

比利時丙 779 0504493 0500301

美國丙 1636 0327628 0469492

施測丙 121 0826446 0380300

69

圖形題丁

有效的個數 平均數 標準差

新加坡丁 1103 0615594 0486675

香港丁 757 0490092 0500232

日本丁 767 0633638 0482125

台灣丁 776 0655928 0475371

比利時丁 779 0504493 0500301

美國丁 1636 0552567 0497381

施測丁 121 0776860 0418083

由表 4-3-4 得知參與此題的人數以美國的 1636 人最多香港日本台

灣比利時的人數差不多經變異數分析後如表 4-3-5 所示

表 4-3-5 圖形題各題之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

圖形題甲 組間 44078 6 7346 59531 0000

組內 732026 5932 0123

總和 776103 5938

圖形題乙 組間 8009 6 1335 18752 0000

組內 422269 5932 0071

總和 430278 5938

圖形題丙 組間 257623 6 42937 223054 0000

組內 1141889 5932 0192

總和 1399511 5938

圖形題丁 組間 24546 6 4091 17047 0000

組內 1423561 5932 0240

總和 1448107 5938

70

表4-3-5顯示在α=005之下圖形題4小題的P值均<005均達顯著

水準可見這4題的平均得分有顯著不同所以研究者進一步做事後分析如表

4-3-6所示配合研究者的研究目的本文中只摘錄與研究目的相關的資料其

他比較結果請參閱附錄表格

表 4-3-6 圖形題各題之事後比較

Scheffe 法

題目 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0100 0034 0150

香港 -0024 0034 0998

日本 0017 0034 1000

台灣 -0002 0034 1000

比利時 0100 0034 0196

圖形題

美國 0210 0033 0000

施測 新加坡 0021 0026 0995

香港 -0029 0026 0973

日本 0057 0026 0585

台灣 0009 0026 1000

比利時 0047 0026 0772

圖形題

美國 0082 0025 0105

施測 新加坡 0120 0042 0185

香港 -0032 0043 0997

日本 0082 0043 0724

台灣 -0020 0043 1000

比利時 0320 0043 0000

圖形題

美國 0500 0041 0000

施測 新加坡 0160 0047 0066

香港 0290 0048 0000

日本 0140 0048 0178

台灣 0120 0048 0382

比利時 0270 0048 0000

圖形題

美國 0220 0046 0001

71

由表4-3-6所顯示的結果得知在圖形題這四小題中施測學校與台灣在2003

年所作的調查結果的資料並沒有達到顯著差異可見施測學校的圖形題各小題的

平均得分與2003年的台灣資料的圖形題各小題的平均得分是視為相等的施測學

校在圖形題乙的部分與國際上2003年表現較好的國家的施測資料也都沒有達到

顯著差異可見在這一小題上施測學校與國際上表現較好的國家的平均得分也

是可以視為相等的但是在圖形題甲中施測學校與美國有達到顯著差異在圖

形題丙中施測學校與比利時美國有達到顯著差異在圖形題丁中施測學校

與香港比利時美國有達到顯著差異可見在圖形題甲中施測學校的平均得

分優於美國在圖形題丙中施測學校的平均得分優於比利時與美國在圖形題

丁中施測學校的平均得分優於香港比利時與美國

接下來以整個圖形題的題組來看由表 4-3-7 所示變異數分析的結果

表4-3-7 圖形題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 725457 6 120910 107817 0000

組內 6652328 5932 1121

總和 7377785 5938

在α=005的情況下F檢定值為107817plt005達到顯著差異所以

可以得知這七個國家的平均得分有顯著差異所以要進行事後比較如表4-3-8

所示

72

表4-3-8 圖形題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0410 0101 0012

香港 0200 0104 0708

日本 0300 0104 0215

台灣 0110 0104 0982

比利時 0740 0103 0000

美國 1010 0100 0000

由表 4-3-8 得知整個題組的事後分析顯示在α=005 的情況下施測學

校的總分平均得分與與台彎沒有達到顯著差異所以平均總得分是可以視為相等

的而施測學校總平均得分與新加坡比利時美國有達到顯著差異所以施測

學校的總平均得分是優於新加坡比利時與美國

二數字卡題組

表4-3-9 95年數字卡題題組得分情形分配表

得 0分人數 得 1分人數 得 2分人數 遺漏值 總人數

數字卡 1 317 683 7 127

數字卡 2 242 758 7 127

數字卡 3 117 92 792 7 127

數字卡 4 300 700 7 127

數字卡 5 317 683 7 127

數字卡 6 783 217 7 127

由表 4-3-9 可知在數字卡題題組中各小題得分分別以數字卡 1得 1分者

73

佔 683以數字卡 2得 1分者佔 758以數字卡 3得 2分者佔 792以數字

卡 4得 1分者佔 70以數字卡 5得 1分者佔 683以數字卡 6得 0分者佔 783

居多數字卡 6得分偏低此小題是要求學生將已知的三個數字拼成兩個數後所

得乘積最大結果顯示學生答對率偏低但學生在加法與減法上則無此現象(數

字卡 4與數字卡 5)此題各國答對率的比較結果列於表 4-3-10

表4-3-10 數字卡題題組各國答對率的比較

題目 新加坡 香港 日本 台灣 比利時 美國 施測學校

數字卡 1 494 624 646 698 475 416 683

數字卡 2 567 538 619 657 556 458 758

數字卡 3 645 595 594 657 553 563 792

數字卡 4 713 710 754 647 556 534 700

數字卡 5 693 689 738 629 546 497 683

數字卡 6 264 243 362 225 185 135 217

0

20

40

60

80

100

數字卡1

數字卡2

數字卡3

數字卡4

數字卡5

數字卡6

圖 4-3-2 數字卡題題組答對率之比較圖

74

由表 4-3-10 與圖 4-3-2 可知在圖形題題組中第 1題的答對率以台灣最

高施測學校居次美國最低第 2題的答對率以施測學校最高台灣居次美

國最低第 3題的答對率以施測學校最高台灣居次比利時最低第 4題的答

對率以日本最高新加坡和香港居次美國最低第 5題的答對率以日本最高

新加坡居次美國最低第 6題的答對率還是以日本最高新加坡居次美國最

低接著進行變異數分析結果列於表 4-3-11

表 4-3-11 數字卡題各題之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

組間 34477 6 5746 2418 0000

組內 717422 3019 0238 第一題

總和 751899 3025

組間 18413 6 3069 12727 0000

組內 727966 3019 0241 第二題

總和 746379 3025

組間 36829 6 6138 7166 0000

組內 2585878 3019 0857 第三題

總和 2622707 3025

組間 22038 6 3673 16419 0000

組內 675332 3019 0224 第四題

總和 697369 3025

組間 24878 6 4146 18142 0000

組內 689975 3019 0229 第五題

總和 714853 3025

組間 14939 6 2490 14850 0000

組內 506156 3019 0168 第六題

總和 521095 3025

75

表4-3-11顯示在α=005之下數字卡題6小題均達顯著水準可見這6小題

的平均得分有顯著不同所以研究者進一步做事後分析如表4-3-12所示配合

研究者的研究目的本文中只摘錄與研究目的相關的資料其他比較結果請參

閱附錄表格

表4-3-12 數字卡題之事後比較

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0190 0049 0021

香港 0059 0051 0969

日本 0037 0051 0998

台灣 -0015 0051 1000

比利時 0209 0051 0010

第一題

美國 0267 0048 0000

施測 新加坡 0192 0049 0020

香港 0221 0051 0005

日本 0140 0052 0296

台灣 0101 0051 0692

比利時 0203 0051 0016

第二題

美國 0301 0048 0000

施測 新加坡 0335 0093 0045

香港 0451 0097 0001

日本 0404 0098 0009

台灣 0302 0097 0136

比利時 0500 0097 0000

第三題

美國 0490 0091 0000

施測 新加坡 -0013 0048 1000

香港 -0010 0050 1000

日本 -0054 0050 0978

台灣 0053 0049 0979

比利時 0144 0049 0201

第四題

美國 0166 0046 0045

76

表 4-3-12(續) 數字卡題之事後比較

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 -0010 0048 1000

香港 -0006 0050 1000

日本 -0054 0050 0979

台灣 0054 0050 0978

比利時 0138 0050 0267

第五題

美國 0186 0047 0014

施測 新加坡 -0047 0041 0971

香港 -0026 428E-02 0999

日本 -0145 0043 0079

台灣 -0008 0043 1000

比利時 0031 0043 0997

第六題

美國 0082 0040 0654

由表4-3-12所顯示的結果得知在數字卡題這六小題中施測學校與台

灣在2003年所作的調查結果資料並沒有達到顯著差異可見施測學校的數字卡題

各小題的平均得分與2003年的台灣資料的數字卡題各小題的平均得分是視為相

等的施測學校在數字卡題第六題的部分與國際上2003年表現較好的國家的施測

資料也都沒有達到顯著差異可見在這一小題上施測學校與國際上表現較好的

國家的平均得分也是可以視為相等的但是在數字卡題第一題中施測學校與新

加坡比利時美國有達到顯著差異顯示在這一小題中施測學校的成績是優

於這三個國家的在數字卡題第二題中施測學校與新加坡香港比利時美

國有達到顯著差異顯示在這一小題中施測學校的成績是優於這四個國家的

在數字卡題第三題中施測學校與新加坡香港日本比利時美國有達到顯

著差異顯示在這一小題中施測學校的成績是優於這五個國家的在數字卡題

第四題中施測學校與美國有達到顯著差異顯示在這一小題中施測學校的成

績是優於美國的在數字卡題第五題中施測學校與美國有達到顯著差異顯示

77

在這一小題中施測學校的成績是優於美國的

接下來以整個數字卡題的題組來看由表 4-3-13 所示變異數分析的結果

表4-3-13 數字卡題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 660902 6 110150 23261 0000

組內 14295950 3019 4735

總和 14956850 3025

在α=005的情況下F檢定值為23261plt005達到顯著差異所

以可見這七個國家總分的平均得分有顯著差異所以進行事後比較如表4-3-14

所示

表 4-3-14 數字卡題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0645 0219 0192

香港 0688 0228 0167

日本 0327 0229 0916

台灣 0486 0227 0598

比利時 1224 0227 0000

美國 1492 0213 0000

由表4-3-14得知整個題組的事後分析顯示在α=005的情況下施測學校

的總分平均得分與台彎沒有達到顯著差異所以平均總得分是可以視為相等的

而施測學校總平均得分與比利時美國有達到顯著差異所以施測學校的總平均

得分是優於比利時與美國

78

三幾何方塊題組

表4-3-15 95年幾何方塊題題組得分情形分配表

得 0分人數 得 1分人數 得 2分人數 遺漏值 總人數

幾何方塊 1 50 950 8 127

幾何方塊 2 109 891 8 127

幾何方塊 3 252 748 8 127

幾何方塊 4 193 807 8 127

幾何方塊 5 244 479 277 8 127

由表 4-3-15 可知在幾何方塊題題組中各小題得分分別以幾何方塊 1得 1

分者佔 95以幾何方塊 2得 1 分者佔 891以幾何方塊 3 得 1 分者佔 748

以幾何方塊 4得 1分者佔 807以幾何方塊 5得 1分者佔 479居多各題各

國答對率的比較結果列於表 4-3-16

表 4-3-16 幾何方塊題題組各國答對率的比較

題目 新加坡 香港 日本 台灣 比利時 美國 施測學校

幾何方塊 1 432 602 785 580 517 399 950

幾何方塊 2 447 470 717 546 548 405 891

幾何方塊 3 720 702 557 613 432 461 748

幾何方塊 4 557 436 447 323 516 446 807

幾何方塊 5 115 66 135 82 123 76 277

79

0

20

40

60

80

100

幾何

方塊1

幾何

方塊2

幾何方塊3

幾何

方塊4

幾何

方塊5

圖4-3-3 幾何方塊題題組答對率之比較圖

由表 4-3-16 與圖 4-3-3 可知在幾何方塊題組中第 1題的答對率以施測

學校最高日本居次美國最低第 2題的答對率以施測學校最高日本居次

美國最低第 3題的答對率以施測學校最高新加坡居次比利時最低第 4題

的答對率以施測學校最高新加坡居次台灣最低第 5題的答對率以施測學校

最高日本居次香港最低接著進行變異數分析結果列於表 4-3-17

80

表 4-3-17 幾何方塊題各題之變異數分析

得分 平方和 自由度 平均平方和 F 檢定 p-value

組間 115732 6 19289 83927 0000

組內 1363788 5934 0230 第一題

總和 1479520 5940

組間 75877 6 12646 53259 0000

組內 1409236 5935 0237 第二題

總和 1485112 5941

組間 77699 6 12950 55905 0000

組內 1374774 5935 0232 第三題

總和 1452473 5941

組間 42205 6 7034 29061 0000

組內 1436564 5935 0242 第四題

總和 1478768 5941

組間 51860 6 8643 20902 0000

組內 2454259 5935 0414 第五題

總和 2506120 5941

表4-3-17顯示幾何方塊題5小題均達顯著水準可見這5題的平均得分

有顯著不同所以研究者進一步做事後分析如表4-3-18所示配合研究者的研

究目的本文中只摘錄與研究目的相關的資料其他比較結果請參閱附錄表格

81

表4-3-18 幾何方塊題各題之事後比較

Scheffe 法

題號 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0520 0046 0000

香港 0350 0047 0000

日本 0160 0047 0060

台灣 0370 0047 0000

比利時 0430 0047 0000

第一題

美國 0550 0046 0000

施測 新加坡 0440 0047 0000

香港 0420 0048 0000

日本 0170 0048 0040

台灣 0340 0048 0000

比利時 0340 0048 0000

第二題

美國 0490 0046 0000

施測 新加坡 0028 0046 0999

香港 0046 0047 0988

日本 0190 0047 0012

台灣 0140 0047 0230

比利時 0320 0047 0000

第三題

美國 0290 0046 0000

施測 新加坡 0250 0047 0000

香港 0370 0049 0000

日本 0360 0049 0000

台灣 0480 0049 0000

比利時 0290 0049 0000

第四題

美國 0360 0047 0000

82

表 4-3-18(續) 幾何方塊題各題之事後比較

題號 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0260 0062 0006

香港 0430 0063 0000

日本 0280 0063 0004

台灣 0480 0063 0000

比利時 0350 0063 0000

第五題

美國 0420 0061 0000

由表4-3-18所顯示的結果得知在幾何方塊題這五小題中只有第三小

題施測學校與台灣在2003年所作的調查結果資料並沒有達到顯著差異其他四小

題的結果都是與台灣達到顯著差異的可見施測學校的平均得分在這四小題中是

優於台灣在2003年所作的調查結果資料在幾何方塊題第一題中施測學校與新

加坡香港比利時美國有達到顯著差異顯示在這一小題中施測學校的成

績是優於這四個國家的在幾何方塊題第二題中施測學校與新加坡香港日

本比利時美國有達到顯著差異顯示在這一小題中施測學校的成績是優於

這五個國家的在幾何方塊題第三題中施測學校與日本比利時美國有達到

顯著差異顯示在這一小題中施測學校的成績是優於這三個國家的在幾何方

塊題第四題中施測學校與新加坡香港日本比利時美國有達到顯著差異

顯示在這一小題中施測學校的成績是優於這五個國家的在幾何方塊題第五題

中施測學校與新加坡香港日本比利時美國有達到顯著差異顯示在這

一小題中施測學校的成績是優於這五個國家的

接下來以整個幾何方塊題的題組來看由表 4-3-19 所示變異數分析的結果

83

表4-3-19 幾何方塊題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 885084 6 147514 50368 0000

組內 17379220 5934 2929

總和 18264300 5940

在α=005的情況下F檢定值為50368plt005達到顯著差異所

以可見這七個國家總分的平均得分有顯著差異所以進行事後比較如表4-3-20

所示

表4-3-20 幾何方塊題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 1499 0165 0000

香港 1615 0169 0000

日本 1166 0169 0000

台灣 1814 0169 0000

比利時 1727 0169 0000

美國 2101 0162 0000

由表4-3-20得知整個題組的事後分析顯示在α=005的情況下施測學

校的總分平均得分與台彎有達到顯著差異所以平均總得分是施測學校優於台灣

在2003年所作的調查結果資料的而施測學校總平均得分與新加坡香港日本

比利時美國有達到顯著差異所以施測學校的總平均得分是優於新加坡香港

日本比利時美國

84

第四節 實作評量試題的類推性

本研究試題的評分者有兩位所以採用的是評分者與工作項目的兩面向交叉

設計(the two-facet crossed persontimesratertimestask design)研究者原先想

利用 SPSS 套裝軟體進行多變量變異數分析將評分的結果做概化程度的分析

計算出各個變異來源之變異成份的大小及其佔總變異的百分比但因檔案太

大SPSS 套裝軟體無法進行多變量變異數分析所以研究者改用 EXCEL 軟體進行

試算其結果列於表 4-4-1

表4-4-1 實作評量概化程度變異成分表

變異來源 估計變異成份 佔總變異之百分比

受試者 0887981185 1944983082

評分者 96E-16 211E-14

工作項目 1697518073 3718146275

受試者評分者 0 0

受試者工作項目 1872595983 410162689

評分者工作項目 0033245844 0728197914

受試者評分者工作項目及誤差 0074154589 1624239615

G 係數 0736144063

註 1在受試者與評分者的交互作用項中其估計變異成份的大小為-106396E-15Shavelson

Webb(1991)指出當某變異成份實際的值接近或等於 0 時取樣的誤差可能導致該變異成份

的估計值成為負數此時可將負值的變異成份大小設定為 0

從以上的表 4-4-1研究者有以下的發現

一實作評量最大的三個變異來源是受試者和工作項目的交互作用工作項

目之間的變異與受試者之間的變異

實作評量最大的變異來源是受試者和工作項目的交互作用佔總變異量的

85

41016表示在研究者的實作評量裡學生的成績會因著工作項目的不同而有

高低起伏如此一來便會降低以某位受試者的觀察分數概化至其真實分數的可

靠程度所以研究者無法以學生在少量的實作評量評量項目上的表現來做為他

們在數學科能力的推論

此外在研究者的實作評量中第二大的變異來源為工作項目之間的變異

其值為 170佔總變異的 37181這只是反應了學生在評量項目上能力表

現的差異並非影響 G係數大小的主要因素關於這一點研究者從計算 G係數

的公式可以了解G係數的計算公式是這樣的

G=σ2p(σ2

p+σ2ptnt+σ2

rpnr+σ2rptenrtimesnt)

G 係數的意義是受試者間的變異量在與受試者有關的變異量之總和中所佔的

比例大小因此若受試者間的變異量愈大而相對於受試者與其他實驗設計面

向的變異量及誤差愈小則 G係數便會愈大也就是根據測驗成績來作推論的可

靠性愈高

二兩位評分者之間的變異極小

評分者之間的變異為傳統的評分者信度從表 4-4-1 可以看到兩位評分結果

之間的變異值為 96E-16僅佔總變異的 211E-14顯示研究者的評分標準非

常一致也就是說研究者兩位當中並沒有誰評分時較為嚴格(stringent)或

較為寬大(liberal)

三受試者與評分者之間沒有交互作用

表 4-4-1 顯示受試者與評分者之間的交互作用為 0表示研究者兩位評分者

並沒有受到月暈效應的影響而對某些學生給予較高的成績對其他學生則給予較

低的成績這一點也可做為評量是否具有公平性的證據之一

四評分者與工作項目間的交互作用非常小

評分者與評量項目間的交互作用很小表示兩位評分者在評定各個評量項目

的評量標準相當一致這原因是由於評分標準訂定的相當明確而且具體讓評分

86

者之間沒有認知的差異存在

從評量工作項目的內容來看本次測驗所測量的雖然同樣是數學能力

測驗但各題所涵蓋的領域包含了統計的資料處理分析能力(擲骰子)幾

何對稱概念(魔術師)概算能力(猜一猜)幾何圖型的直觀概念(圖形

題)數與量中的整數加減乘的運算分析能力(數字卡)結合數與形兩大

主題的幾何形體構成要素及其數量性質(幾何方塊)題目本身的差異性很

大而且每位學生所擅長的方面有所不同在工作項目的表現自然就有所

不同在加上每題的配分並不盡相同所以由這些評量項目概化至其他數

學科能力的程度就降低了這也就是本研究的 G 係數僅達 0313表示如果

使用少量的實作評量工作項目將無法達到所需要的信度

另外主要效果是受試者的變異數值是 0888佔總變異的 19450代

表學生之間的程度差異也很大

根據概化程度研究的結果研究者可以進一步做決策研究(decision

study)決策研究是用來指出若要達到足夠小的誤差變異或足夠大的概化

係數時每一個學生需要多少工作項目以及每一個工作項目需要多少評分

者下面研究者分別分析在幾個評分者的情況下實作評量工作項目為幾

個時G 係數才能達到 08

87

表 4-4-2 G 研究與各種 D 研究之變異成分分析與推論力係數

變異源 G 研究變異成

分之估計值D研究變異成分之估計值

nr= 1 2 3 5 2 2 2

ni= 1 6 6 6 7 8 9

受試者 0888 0888 0888 0888 0888 0888 0888

評分者 0000 0000 0000 0000 0000 0000 0000

工作項目 1698 0283 0283 0283 0243 0212 0189

受試者評分者 0000 0000 0000 0000 0000 0000 0000

受試者工作項目 1873 0312 0312 0312 0268 0234 0208

評分者工作項目 0033 0100 0066 0040 0116 0133 0150

受試者評分者工

作項目及誤差 0074 0006 0004 0002 0005 0005 0004

σRel 1947 0318 0316 0315 0273 0239 0212

G 係數 0313 0736 0737 0738 0765 0788 0807

由表 4-4-2 可知原設計研究 2位研究者與 6道題目的方式推出 G係數只有

0736當評分者增加一位而題目維持六題時G係數只增加 001 達到 0737

如果將評分者增加到五位而題目仍維持六題時G係數只增加 002 達到 0738

可見增加評分者的影響有限如果評分者維持兩位而題目增加為七題G係數會

增加 0029達到 0765如果評分者維持兩位而題目增加為八題G係數會增加

0052達到 0788可見增加題目的效果比增加評分者更為有效當評分者為兩

位題目為九題時G係數可達 0807顯示評分者為兩位題目為九題時內

部一致性較佳

88

第五章 結論

本研究以 TIMSS 數學實作評量的題目為工具進行特定環境背景不同年度的

縱貫研究及與其他國際上表現較佳的國家進行橫貫研究以下為本研究進行所得

的經驗以及資料分析所得之結果分別以結論以及建議等兩節進行說明

第一節 結論

壹實作評量的信效度

TIMSS 試題在台灣之施測是具有一定信效度在信度方面經實際施測後計

算的結果為 0799所以 TIMSS 數學實作評量試題在台灣之施測是具有信度的

但根據實作評量試題的類推性分析結果發現G研究中的 G係數只有 0313深

入探討其原因可能是試題難易程度的差別較大與各題配分比例不同所造成的

所以在 D研究中要補救其信度低的措施就是增加評分者為兩位題目為九題時

其 G係數就可以達到 0807在效度方面每一題均有詳細說明細節行為的項目

給定參考答案圖形的作品量表各題除經著名國際測驗機構審核施測過外並由

研究者另請學校資深四年級教師共同研究討論題目與答案對於施測過程研究

者也與四位監考老師討論後訂出共同標準所以在效度方面具有專家效度跟內

容效度

貳評量結果與比較

一在進行縱貫研究方面在魔術師題型上民國 95 年的結果較佳在擲

骰子題型上是民國 89 年的結果較佳在猜一猜題型上民國 89 年的結

果較佳此結果顯示在幾何概念的對稱觀念上民國 95 年的學生有較

佳的表現但在統計觀念及概數觀念上民國 89 年的學生表現較佳

在實際施測過程中研究者發現在魔術師題型的第一題上許多民國

95 年的學生是先將題目要求的圖形剪出來後再進行對摺當然如果學生

是交出這樣的答案紙條評分者是不給分的因為當評分者在沿著摺線

89

還原時就會發現不是一刀剪出來的可是因為有三個機會所以許多學

生得到這樣的經驗後就會在第二次或第三次時剪出題目要求的結果

而且第一題的成功經驗會連帶的影響第二題的作答因為摺的方式是

一樣的只是剪的地方是不同的所以不管民國 95 年或是民國 89 年的

作答結果都會發現第二題的答對率均比第一題高而第三題的作答方

式因為要多摺一次而且較難複製前面成功的經驗所以第三小題的答

對率比前兩題均比較低所以研究者認為在這一題型上民國 95 年的

學生會表現得比較好的原因可能在於有比較好的作答技巧

二TIMSS 實作評量在性別及班級之間沒有顯著差異

三在圖形題題型上施測學校與台灣西元 2003 年施測結果沒有達到顯著

差異在數字卡題型上施測學校與台灣西元 2003 年施測結果沒有達

到顯著差異在幾何方塊題型上施測學校與台灣西元 2003 年施測結

果達到顯著差異之所以在幾何方塊題型上會達到顯著差異研究者認

為可能是時間點的問題因為研究者施測的時間是利用學期末期末考

後而剛好這次期末考有分數的單元所以學生對這個範圍比較熟悉

才可能造成施測學校的成績特別突出

四在圖形題題型上施測學校優於新加坡比利時及美國在數字卡題型

上我國優於比利時美國在幾何方塊題型上施測學校優於新加坡

香港日本比利時美國研究者特別注意到香港與美國這兩個國家

在 89 年徐美英論文中香港在該年的施測結果都比徐美英施測結果落

後但在 95 年的施測結果卻只有幾何方塊題型是明顯落後施測學校這

表示不是台灣學生在這幾年程度變低了就是這幾年香港程度變高了

在跟縱貫研究做交叉比較後研究者認為台灣學生這幾年程度變低的可

能性較大而美國不管是在 89 年與徐美英論文的施測結果比較或是與

95 年施測結果比較均在這兩次比較中明顯落後

90

第二節 建議

壹TIMSS 實作評量的後續研究

由於數學科實作評量在實際施測時常有人力與物力上的考量以至於在實

際教育現場上並不常用但是實作評量所測出的學生能力與紙筆測驗所測出的

學生能力是不同面向的經過此次實際施測的經驗研究者認為運用 TIMSS 實

作評量的試題來了解學生的學習成就可以在經濟負擔的考慮範圍內達到可

信賴的研究成果因此建議後續研究者可朝向此方向繼續研究以期能更深入

了解學生學習成就的變化情形

貳學生學習成就的長期追蹤

建立台灣的長期教育資料庫是必要的這是從事教育基礎研究的中外學者

的共識研究者此次研究以 TIMSS 實作評量的試題為工具來了解民國 89

年跟民國 95 年特定環境背景的國小四年級學生學習成就的比較即以此理念

為出發點目前在中央研究院教育部和國科會共同推動下『台灣教育長期

追蹤資料庫』的建置工作也已在 2001 年 10 月份起正式展開目的是為了從教

育基礎研究的角度出發研究哪些因素會影響到學生解決問題的能力如學

生努力程度學習機會和學習能力等等當然資料的品質是累積而來的不做

沒有開始就不可能有改進也就不可能有較豐富的資料內容美國國家教育

長期研究(National Education Longitudinal Study NELS)其資料的品質

和豐富素為各國教育研究學者所稱道就是因為它累積了二十多年的經驗

且經過多次的增刪修改研究者也希望能有後續研究者投入後續的相關研究

並累積相關的資料以利決策者能創造出適合台灣學生的最佳學習環境

叁開放性問題的評量研究

在此次研究中發現學生對於開放性問題的解題能力非常不足對於設計

好的題目較難提出歸納模式或者合理的推測這或許歸因於教學現場中的標

91

準化測驗在整個學習過程中教學活動跟教學評量是交互不斷進行而常常

受限於時間跟經濟因素教師只能被迫選擇標準化測驗以診斷學生學習困難

處但是標準化測驗容易讓學生誤以為答案是唯一的而且數學知識是可以切

割成不相關的小部分的因此在國民中小學九年一貫課程綱要中提出「教師

應透過各種評量方式以檢驗教學效果」的觀念研究者建議後續研究者能進一

步探討這方面的相關研究

肆國際比較的重要性

許多國家多年以前即開始參與大型國際研究以了解自己國家學生與其他

不同國家或區域的學生學習成就的差異特別的是此類國際研究對於結果的分

析是深入且多面向的包括學生家庭背景班級學校等民國 95 年中國時

報特別以專欄方式提出芬蘭的教育成功經驗以供國內教育改革的參考為什

麼要特別提出芬蘭呢因為芬蘭在重要的國際比較研究中常常名列前矛所

以參與大型的國際研究可以找出成功的經驗減少自己摸索的時間

92

參考文獻

壹中文部份

王秀琲 (民 92)實作評量在國小數學科之應用-以五年級學童分數為例國立

臺中師範學院教育測驗統計研究所碩士論文

方泰山(民 91)第四次 TIMSS 2003 NRC 自由反應評分系統研討會會議報告

httpichochemntnuedutwpub4thnrcreporthtm

石千奇(民 93)國小六學童在數學實作評量中的小組解題歷程分析國立中山

大學教育研究所碩士論文

江文慈(民 87)一個新評量理念的探討多元智力取向的評量教育資料與研

究20 期6-12

曲慧娟 (民 94)實作評量在國中學術性向優異班招生鑑定之效度研究~以臺灣

北區為例國立臺灣師範大學特殊教育研究所碩士論文

李坤崇(民 88)多元化教學評量台北心理

余民寧(民 93)教育測驗與評量-成就測驗與教學評量第二版台北心理

吳毓瑩(民 85)評量的蛻變與突破-從哲學思潮與效度理論參考起教育資料

與研究13 期2-15

李虎雄張敏雪(民 87)由學力評量觀點談實作評量之特性測驗與輔導

3104-3108

吳明隆(民 87)教室做為評量環境的內涵與其評量新趨勢研習資訊15 卷

4期62-77

93

吳清山林天佑(民 85)教育名詞 mdash分流教育教育資料與研究885

李長柏(民 91)國小數學簡單機率解題實作評量與後設認知之相關研究國立

臺中師範學院教育測驗統計研究所碩士論文

呂政隆(民 93)國小學童在數學實作評量解題整合認知與課程之相關研究

國立臺中師範學院教育測驗統計研究所碩士論文

呂金燮(民 88)實作評量-理論載於王文中呂金燮吳毓瑩張郁雯張淑

慧(合著)教育測驗與評量教室學習觀點(頁 173-207)台北五

李茂能(民 85)信度考驗的另一途徑推論力理論國民教育學報227-48

林清山(民 81)心理與教育統計學台北東華

林敬修(民 92)影響國小數學科實作評量信度相關因素之類推性理論分析國

立屏東師範學院教育心理與輔導學系研究所碩士論文

洪之昀(民 89)數學科實作評量對國小高年級學童學習策略影響之研究國立

臺中師範學院教育測驗統計研究所碩士論文

桂怡芬吳毓瑩(民 87)自然科實作評量的效度探討測驗年刊45(2)19-36

桂怡芬(民 85)自然科實作評量的效度探討國立台北師範學院國民教育研究

所碩士論文

桂怡芬(民 85)紙筆與實作的互補我的實作評量經驗教育資料與研究13

期36-40

徐美英(民 89)TIMSS 數學實作評量在台灣之試用探討國立臺中師範學院教

育測驗統計研究所碩士論文

94

夏淑琴(民 88)教學評量革新-多元評量載於高強華主編(民 88)學校變遷與

學校革新台北師大

教育部(民 92)國民中小學九年一貫課程綱要數學學習領域台北教育部

張紹勳張紹評林秀娟(民 92a)SPSS For Windows 統計分析初等統計與高

等統計(上冊)(第四版)台北文魁資訊股份有限公司

張紹勳張紹評林秀娟(民 92b)SPSS For Windows 統計分析初等統計與高

等統計(下冊)(第四版)台北文魁資訊股份有限公司

張敏雪(民 86)實作評量的本質及國民中小學數理科教師對實作評量的態度探

討國立臺灣師範大學數學研究所碩士論文

張敏雪(民 87)教室內的實作評量教育資料與研究20 期24-27

張敏雪(民 86)實作評量的本質及國民中小學數理科教師對實作評量的態度探

討國立師範大學數學研究所碩士論文

張英傑等著(民 94)數學科教師手冊台南南一書局

張永杰 (民 92)實作評量取向的幾何思考研究國立臺灣大學國際企業學研究

所碩士論文

張麗麗(民 91a)從分數的意義談實作評量效度的建立教育研究月刊9837-51

張麗麗(民 91b)評量改革的應許之地虛幻或真實-談實作評量之作業與表

現規準教育研究月刊9376-86

郭生玉(民 84)心理與教育研究法台北精華

陳英豪吳裕益(民 85)測驗與評量高雄復文

95

陳文典陳義勳李虎雄簡茂發(民 84)由馬里蘭州的學習成就評量與其在

台灣的施測結果看-實作評量的功能與應用科學教育月刊185 期

2-10

陳昭地(民 88)「第三次國際數學與科學教育成就研究」後續調查

httpreporticentnutwnscreportTIMSS-R(1999)實測後

期中報告--交國科會htm

陳怡玉(民 94)降低國小數學科實作評量人和作業交互作用變異方法的探討---

以類推性理論分析國立臺南大學測驗統計研究所碩士論文

莊明貞(民 84)變通性評量的發展與實施研習簡訊261

莊明貞(民 85)實作評量理論與實際教育資料與研究9期44-48

曾惠敏(民 87)國小分數概念實作評量之發展及其相關研究國立台南師範學

院國民教育研究所碩士論文

游麗卿(民 87)從實作表現診斷學生乘除法的錯誤概念觀念測驗與輔導雙月

刊149 期3094-3099

鄒慧英譯(民 92)測驗與評量(原作者 Robert L linn and Norman E

Gronlund)台北洪葉文化

鄒慧英(民 86)實作型評量的品管議題兼談檔案評量的應用載於八十七年度

教育測驗新近發展趨勢學術研討會

詹志禹(民 85)評量改革為什麼要進行-回應吳毓瑩<評量的蛻變與突破>

教育資料與研究13 期45-47

96

詹元智(民 91)國小數學科實作評量之效度探討國立屏東師範學院教育心理

與輔導研究所碩士論文

蔡正濱(民 95)國小數學科實作評量評分者ㄧ致性相關因素探討國立屏東教

育大學教育心理與輔導學系研究所碩士論文

鄭麗玉(民 88)教學評量的改革教師之友40 卷1期23-33

歐滄和(民 91)教育測驗與評量台北心理

盧雪梅(民 87)實作評量的應許難題和挑戰教育資料與研究20 期1-5

簡茂發(民 80)命題方法與試題分析國教輔導31(1)2-13

蘇義翔(民 86)實作評量的理論與啟示測驗與輔導3099-3102

貳英文部分

Airasian PW (1991) Classroom assessment New York McGraw-Hill

Airasian PW (1994) Classroom assessment(2nd ed)NewYork

McGraw-Hill

Baron J B (1991) Strategies for the development of effective

performance exercise Applied Measurement in Education 4(4)

305-318

Baxter G P Shavelson R J Goldman S R amp Pine J

(1992) Evaluation of a procedure-based scoring for hands-on

science assessment Journal of Educational Measurement 29(1)

1-17

97

Baxter G P Shavelson R J Herman S J Brown K A amp Valadez

J R(1993) Mathematics performance as sessment technical

quality and diverse student impact Journal for Research in

Mathematics Education 24(3) 1990-216

Dunbar S B Koretz DM amp Hoover HD(1991) Quality control control

in the development and use performance assessmentApplied

Measurement in Educational 4(4) 289-303

Frechtling J A (1991) Performance assessment Moonstruck or the real

thing Educational Measurement Issues and Practice 10(4)

23-25

Haertel EH and Linn RL (1996) ldquoComparability in GW Philips

(Ed) Technical Issues in Large-Scale Performance Assessment

Washington DC National Center for Education Statistics

Harmon M amp KellyTA(1996) Development and Design of the TIMSS

performance Assessment In MartinMO and Kelly

DL(eds)Third International Mathematics and Science Study

(TIMSS) Technical Report Volume I Design andd Development

Chestnut Hill MABoston College

Herman JL Aschbacher PR amp Winters L(1990 November) Issues in

developing alternative assessments Paper presented at the

annual meeting of the California Educational Research

Association Chicago

98

Mullis IVS Martin MO Gonzalez EJ Chrostowski SJ(2005)

TIMSS 2003 International Mathematics Report

httptimssbcedutimss2003imathDhtml p31-p47

Linn RL(1993) Educational assessment Expanded expectations and

challenges Educational Evaluation and Policy Analysis 15(1)

1-16

Linn RL Bader EL amp Dunbar SB(1991) Complex Performemce-based

assessmentexpectations and validation criteria Educational

Researcher 20(8) 1521

Linn RL (2000) Assessments and accountability Educational Researcher

29(2) 4-16

Long C amp Stansbury K (1994) Performance assessment for beginning

teachers Phi Delta Kappan76318-322

Messick S (1994) The interplay of evidence and consequences in the

validation of performance assessments Educational Researcher

23(2) 13-23

Messick S (1995) Standards of validity and the validity of standards

in performance assessment Educational Measurement Issues and

Practice 14(4) 5-8

Martin MOMullis IVSChrostowski SJ(2005)TIMSS 2003 Technical

Report httptimssbcedutimss2003itechnicalDhtml

Martin MO(2005) TIMSS 2003 User Guide for the International Database

99

httptimssbcedutimss2003itechnicalDhtml

Miller M D amp Linn R L (2000) Validity of performance-based

assessments Applied Psychological Measurement 24(4) 367-378

Moss P (1994) Can there be validity without reliability Educational

Researcher 23 (2) 5-12

Mullis IVS Martin MO amp Foy P (2005) IEAs TIMSS 2003

International Report on Achievement in the Mathematics Cognitive

Domains httptimssbcedutimss2003imcgdmhtmlp15-p36

Roid G H amp Haladyna T M (1982) A technology for test-item writing

Orlando FL Academic Press

Ruiz-Primo M A Baxter G P amp Shavelson R J(1993) On the stability

of performance assessments Journal of Educational Measurement

30(1) 41-53

Shavelson R J Baxter G P amp Gao X (1993) Sampling variability of

performance assessments Journal of Educational Measurement 30

3215-32

Shavelson R J amp Webb N W (1991) Generalizability theory A primer

Newbury Park CASage

Shepard L A Flexer R J Hiebert E H Marion S F Mayfield

V amp Weston TJ (1996) Effects of introducing classroom

performance assessments on student learning Educational

Measurement Issues and Practice 15(3) 7-18

100

Schmidt W H Jorde D Cogan L Barrier E Gonzalo I Moser U

Shimizu K Sawada T Valverde G Prawat R Mcknight C

Raizen S Britton E Wiley D amp Wolfe R (1996)

Characterizing pedagogical flow An investigation of

mathematics and science teaching in six countries Hinglham

MAKluwer

Silver E A (1993) On mathematical problem posing In N Nohda amp F L

Lin (Eds) Proceedings of the Seventeenth Annual Meeting of the

International Group for the Psychology of Mathematics Education

Vol 1 (pp 66-85) Tsukuba Japan Author

Stiggins R J (1994) Stundent-centered classroom assessment New York

MerrillMacmillan

Stiggins R J (1987) Design and development of performance assessment

Educational Measurement Issues and Practice 6(3)33-42

Telese J A amp Kulm G (1995) Performance-based assessment of at-risk

students in mathematics The effects of context and setting

Paper presented at Annual Meeting of the American Educational

Research Association (ERIC Document Reproduction Service No

ED 382 685)

TIMSS (1997) Performance Assessment in IEAs Third International

Mathematics And Science Study Chestnut Hill MABoston

College

Webb G (1992) On pretexts for higher education development activities

101

Higher Education 24 (3) pp351-61

Wiggins G(1998) Educative assessment Designing assessments to inform

and improve student performance San Francisco California

Jossey-Bass

102

附錄

附錄一TIMSS 2003 參與的國家

Argentina

Armenia

Australia

Bahrain

Belgium (Flemish)

Botswana

Bulgaria

Chile

Chinese Taipei

Cyprus

Egypt

England

Estonia

Ghana

Hong Kong SAR

Hungary

Indonesia

Iran Islamic Republic of Israel

Italy

Japan

Jordan

Korea Republic of Latvia

Lebanon

Lithuania

Macedonia Republic of Malaysia

Moldova

Morocco

Netherlands

New Zealand

Norway

Palestinian National Authority

Philippines

Romania

Russian Federation

Saudi Arabia

Scotland

Serbia

Singapore

Slovak Republic

Slovenia

South Africa

Sweden

Syrian Arab Republic

Tunisia

United States

Yemen Republic of

103

附錄二題目

一猜一猜

媽媽有一個裝滿豆子的密封罐有一天媽媽將豆子分別倒在 9個碗中前 4個

碗中豆子的數量分別是 29313128 個

1 請你猜一猜罐子中大約有幾個豆子

2把你的想法寫出來

二魔術師

一 材料9張紙剪刀一個信封

二你的工作

1 將紙對摺一次或一次以上並剪掉部分的紙使紙的形狀符合題目所給的

形狀

2 每張紙摺疊的次數和形狀隨你喜歡但只能剪一次

【第一題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後

做出如圖一的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

【第二題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後做出如

圖二的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

(在每張你使用過的紙寫上 1和名字)

104

(圖二)

【第三題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後做出如圖三

的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

(圖三)

三擲骰子

一材料一個骰子搖杯

二你的工作

當我們用一個規則來改變骰子擲出來的數字你發現了什麼

改變數字的規則是

當骰子擲出的數字是奇數時減 1並記下結果

當骰子擲出的數字是偶數時加 2並記下結果

1 在下列表中已經示範了兩個例子給你看使用這個規則並找其他

改變後的數字完成這個表格

(在每張你使用過的紙寫上 2和名字)

(在每張你使用過的紙寫上 3和名字)

105

骰子的數字 改變後的數字

2

6

2 看看你所紀錄的「改變後的數字」你發現了什麼

3 擲骰子 30 次並使用規則去改變每次所擲的數字將它紀錄下來

寫在下列的表格中

106

骰子的數字 改變後的數字 骰子的數字 改變後的數字

4將表 3中各個改變後數字出現的次數記在下表中

改變後的數字 次數

0

1

2

3

4

5

6

7

8

5a哪一個數字是你紀錄次數最多的

107

5b為什麼會這樣請寫出你的看法

四幾何方塊

在這一大題你會拿到一張紙板紙板上有10 張小卡片(如下圖)請將這些

正方形卡片分開若你沒有拿到紙卡請舉手

甲利用2 張黑白相間方塊拼出一個較大的黑色三角形並將您的拼法塗在下面

指定的區域

在這裡用斜線塗出

您拼出的黑色三角形

3 個白色方塊

4 張黑白相間方塊

3 個黑色方塊

108

乙利用4 張黑白相間方塊拼出一個黑色的正方形並將您的拼法塗在下面指定

的區域

在這裡用斜線塗出

您拼出的黑色正方形

丙在第乙題中塗黑色的部分佔了全部的幾分之幾

作出分數

甲不准使用黑白相間方塊將4 張方塊拼出一個正方形使得黑色的部分佔

21

並將您的拼法塗在下面指定的區域

在這裡用斜線塗出

您拼出的黑色部分

109

乙請用8 張方塊拼出一個如下圖的長方形使得黑色部分佔

85

並將您的拼法塗在下面指定的區域

在這裡用斜線塗出

您拼出的黑色部分

五圖形題

甲請畫一條直線將這個長方形分成2 個三角形

110

乙請畫一條直線將這個長方形分成2 個長方形

丙請畫兩條直線將這個長方形分成1 個長方形和2 個三角形

丁在下圖的四個三角形中有兩個是形狀相同但大小不同請把這兩個三角形

塗上顏色(線甲乙跟線丙丁平行)

六數字卡

在這部分你將會拿到一張印有 0到 9的數字卡如下圖請將這些數字卡

取下來

甲 乙

1 2

3

4

111

總和為ldquo20的數字遊戲

小杰與小明這兩個小孩正在玩一個ldquo總和為 20的遊戲其規則如下

總和為ldquo20的規則

(1)抽數字卡每一個人抽出三張數字卡

(2)加數字卡每一個人利用這三張數字卡做出一個加法問題使得算出

的總和最接近 20 例如假如抽出的數字卡 將數字任意組

合後下面是其中四種可能的方法

+ + + +

5 5 4 6 1 9 +

1 0

15

這時玩家應該選擇 + 4 因為它的總和 19最接近 20

19

小杰和小明開始玩遊戲了小杰抽出了 三張數字卡小明抽

出了 三張數字卡

(1)小杰要如何安排三張數字卡做出一個加法問題才能讓它的總和為最

接近 20記得要寫總和

0 1 2 3 4

5 6 7 8 9

1 4 5

1

4

5 1

4

5

1

4 51

4

5

972

6 3 1

112

(2)小明要如何安排三張數字卡做出一個加法問題才能讓它的總和最接

近 20記得要寫總和

(3)小明說假如我抽到 我可以用兩種方法做出總和 20

請告訴我們小明用哪兩種方法可以使 做出總和 20

第一種方法

第二種方法

找出最大的數

小杰和小明利用數字卡玩另一個新的遊戲就是利用三張數字卡做出最

大的數

甲將 三張數字卡填入下列的格子內讓相加的結果為最大

乙將 三張數字填入下列的格子內讓相減的結果為最大

丙將 三張數字卡填入下列的格子內讓相乘的結果為最大

times

1 4 6

1 4 6

9 5 1

+

-

2 3 7

1 4 5

113

附錄三給老師的話

題目猜一猜

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說

明如下

題目預測的能力

測量學生在生活情境中了解概數意義的能力

實施時間

20 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意讓同學清楚的知道這份試卷要他們

做的是什麼

評量結束後收回試紙

注意要點

請老師先做一次示範給學生看完之後再讓學生作答

請老師提醒學生計算完後要記得將他們為什麼要這樣做的原因寫清楚

評分標準

等級 5 算出前 4碗豆子的總和再乘以 2再加上一個合理的近似值或使用估

計或平均值找出每一碗豆子的近似值再乘以 9

等級 4 合理的估計其他各碗的豆子數量並算出總和

等級 3 推測出大部分合理少部分不合理的估計值並算出總和

等級 2 推論出一個杯子約有 30 個但未算出總和

等級 1 將已知碗的數量變成一組模式將此模式推論至其他碗不一定剛好總

114

和為 10 個碗

等級 0 未作答或不知所云

題目幾何方塊

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說

明如下

題目預測的能力

這是一種包含幾何跟數與量的題目其中幾何的部份是要求學生建立一個二

維圖形並滿足題目的要求(數與量)

實施時間

30 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意讓同學清楚的知道這份試卷要他們

做的是什麼

評量結束後收回試紙

注意要點

請老師提醒學生答案是用鉛筆塗在指定的區域並且不可以超過格線並不是將

紙卡貼在題目上要注意

請老師提醒學生撕紙卡要小心務必要使用剪刀或直尺沿著線撕

評分標準

115

給分範圍1分

給分範圍0分

(1)雖然使用 2塊黑白相間方塊組合但卻變成 2個小三角形而不是組合成 1

個大三角形

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

給分範圍1分

給分範圍0分

(1)雖然使用 4塊黑白相間方塊組合但卻不是組合成 1個大的黑色正方形

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

116

給分範圍1分

(1) 21

或是它的等值分數

(2)乙题雖然畫錯但此題答案正確

給分範圍0分

(1) 41

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

做出分數

給分範圍1分

由 2塊白色跟 2塊黑色組合成請看下面的例子

給分範圍0分

(1)雖然得出 21但是使用黑白相間的方塊

(2)畫出黑色的部份佔 41

117

(3)畫出黑色的部份佔 43

(4)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(5)完全空白

給分範圍2分

任何使用 3塊黑色的方塊1塊白色的方塊和 4塊黑白相間的方塊的組合圖形

給分範圍1分

塗出 85的答案但不是使用正確的方塊組合

給分範圍0分

(1)塗出 21

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

題目魔術師

118

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生對稱的觀念空間關係及解決非例行問題的能力

施測時間

30 分鐘

實施步驟

1 發試紙和所需材料

2 題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的

知道這份試卷要他們做的是什麼

3 評量結束試紙及材料

注意要點

1請老師提醒學生每張紙只能直直的剪一次不可改變方向且要記得在紙上寫

編號和名字

評分標準

第一題1在紙上只剪一次

2有兩條正確的摺線

給分範圍2

第二題1在紙上只剪一次

2 有兩條正確的摺線

給分範圍2

第三題同上兩題

119

題目圖形題

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生二維空間的分割的觀念了解學生能否透過操作直尺或三角板在二維

空間上剪裁出指定的基本圖型並利用直觀的方式指出形狀相同但大小不同的三

角形

施測時間

30 分鐘

實施步驟

1 發試紙

2 題目解說實施評量前請老師加以說明題意讓學生清楚的知道這份試卷要他

們做的是什麼

3 評量結束收回試紙

評分標準

甲給分範圍1分

正確的畫一條對角線將長方形分成 2個三角形

給分範圍0分

(1)有畫出一條橫線或垂直線但不是畫出精確的對角線

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的

回答)

(3)完全空白

乙給分範圍1分

120

正確的畫一條橫線或垂直線將長方形分成 2個長方形

給分範圍0分

(1)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回

答)

(2)完全空白

丙給分範圍1分

正確的畫兩條線將長方形分成 1個較小的長方形跟兩個三角形

給分範圍0分

(1)有畫出兩條線但沒有將長方形分割成兩個較小的長方形或有分割成

兩個較小的長方形卻沒有在其中之ㄧ上畫出精確的對角線

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(3)完全空白

丁給分範圍1分

在三角形 3跟三角形 4上塗上顏色

給分範圍0分

(1)在三角形 1跟三角形 2上塗上顏色

(2)在三角形 2跟三角形 4上塗上顏色在三角形 1跟三角形 3上塗上顏色

在三角形 1跟三角形 4上塗上顏色在三角形 2跟三角形 3上塗上顏色

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

121

題目數字卡

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生計算的規則與策略及對數字的觀念並能運用所學過的概念於計算策

略上

施測時間

30 分鐘

實施步驟

1 發試紙和所需材料

2 題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的

知道這份試卷要他們做的是什麼

3 評量結束試紙及材料

評分標準

總和為 20 的數字遊戲

甲給分範圍1分

(1)寫出 2+7+9=18

(2)沒有任何算式但有答案是 18 者

給分範圍0分

(1)有寫出算式 2+7+9 但沒有答案 18 出現

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的

回答)

(3)完全空白

122

乙給分範圍1分

(1)13+6=19 或 16+3=19

(2)沒有任何算式但有答案是 19 者

給分範圍0分

(1)有寫出算式 13+6 或 16+3 但沒有答案 19 出現

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回

答)

(3)完全空白

丙給分範圍2分

兩種方法都正確(16+4 和 14+6)

給分範圍1分

只有寫出其中一種方法(16+4 或 14+6)

給分範圍0分

(1)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(2)完全空白

找出最大的數

甲給分範圍1分

91+5 或 95+1

給分範圍0分

(1)將 159擺在任何其他不正確的位置

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(3)完全空白

123

乙給分範圍1分

73-2

給分範圍0分

(1)72-3

(2)將 237擺在任何其他不正確的位置

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

丙給分範圍1分

41times5

給分範圍0分

(1)51times4

(2)將 145擺在任何其他不正確的位置

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

題目擲骰子

親愛的老師

您好感謝您參與此次數學科學實作評量的研究關於此次施測的注意事項說明

如下

題目欲測的能力

測量學生對於任意數字計算紀錄和分析的能力以及辨識並解釋記錄資料

的結果

施測時間

124

30 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的知

道這份試卷要他們做的是什麼

評量結束後收回試紙及材料

評分標準

第一題正確的計算出(042648)

給分範圍2

第二題1描述的類型與資料一致

2形式可以是一個或多個以下的情形所有的數字都是偶數數字

的範圍從 0~84 出現 2次數字排列有規則如+4-2+4-2

給分範圍1

第三題1至少完成 25 次擲骰子的紀錄

2正確的計算

給分範圍2

第四題統計的次數與第三題的資料一致

給分範圍2

第 5a 題答案與資料一致

給分範圍1

第 5b 題對觀察的數字提供合理的解釋

給分範圍1

125

附錄四分析資料補充

附錄四表格中以數字 1代表新加坡數字 2代表香港數字 3代表日本數字

4代表台灣 2003 年原始資料數字 5代表比利時數字 6代表美國數字 7代表

施測學校

一圖形題補充

表附錄 4-1-1 圖形題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 187 0 32 0 64 0 50 新加

坡甲 1 916

香港

甲 1 725

日本

甲 1 703

台灣

甲 1 726

得分 次數 得分 次數 得分 次數 得分 次數

0 69 0 9 0 75 0 39 新加

坡乙 1 1034

香港

乙 1 748

日本

乙 1 692

台灣

乙 1 737

得分 次數 得分 次數 得分 次數 得分 次數

0 329 0 107 0 196 0 119新加

坡丙 1 774

香港

丙 1 650

日本

丙 1 571

台灣

丙 1 657

得分 次數 得分 次數 得分 次數 得分 次數

0 424 0 386 0 281 0 267新加

坡丁 1 679

香港

丁 1 371

日本

丁 1 486

台灣

丁 1 509

得分 次數 得分 次數 得分 次數

0 130 0 447 0 8 比利

時甲 1 649

美國

甲 1 1189

施測

甲 1 113

得分 次數 得分 次數 得分 次數

0 69 0 201 0 5 比利

時乙 1 710

美國

乙 1 1435

施測

乙 1 116

得分 次數 得分 次數 得分 次數

0 386 0 1100 0 21 比利

時丙 1 393

美國

丙 1 536

施測

丙 1 100

得分 次數 得分 次數 得分 次數

0 386 0 732 0 27 比利

時丁 1 393

美國

丁 1 904

施測

丁 1 94

126

表附錄 4-1-1(續) 圖形題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 44 0 6 0 31 0 17

1 75 1 17 1 44 1 20

2 137 2 64 2 64 2 45

3 334 3 331 3 232 3 257

新加

坡總

4 513

香港

總分

4 339

日本

總分

4 396

台灣

總分

4 437

得分 次數 得分 次數 得分 次數

0 36 0 114 0 0

1 72 1 243 1 5

2 176 2 389 2 5

3 259 3 517 3 36

比利

總分

4 236

美國

總分

4 373

施測

總分

4 75

表附錄 4-1-2 圖形題各國事後分析表

圖形題甲 圖形題乙

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0130 0000 1 2 -0051 0013

3 -0086 0000 3 0035 0247

4 -0110 0000 4 -0012 0987

5 -0003 1000 5 0026 0631

6 0100 0000 6 0060 0000

2 3 0041 0514 2 3 0086 0000

2 4 0022 0958 4 0038 0244

5 0120 0000 5 0077 0000

6 0230 0000 6 0110 0000

3 4 -0019 0980 3 4 -0048 0057

5 0083 0001 5 -0009 0998

6 0190 0000 6 0025 0594

4 5 0100 0000 4 5 0038 0237

6 0210 0000 6 0073 0000

5 6 0110 0000 5 6 0034 0190

127

表附錄 4-1-2(續) 圖形題各國事後分析表

圖形題丙 圖形題丁

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0160 0000 1 2 0130 0000

3 -0043 0637 3 -0018 0996

4 -0140 0000 4 -0040 0798

5 0200 0000 5 0110 0001

6 0370 0000 6 0063 0092

2 3 0110 0000 2 3 -0140 0000

2 4 0012 1000 4 -0170 0000

5 0350 0000 5 -0014 0999

6 0530 0000 6 -0063 0209

3 4 -0100 0002 3 4 -0022 0992

5 0240 0000 5 0130 0000

6 0420 0000 6 0081 0027

4 5 0340 0000 4 5 0150 0000

6 0520 0000 6 0100 0001

5 6 0180 0000 5 6 -0048 0533

圖形題總分

(I) (J) 平均差異 (I-J) p-value

1 2 -0210 0008

3 -0110 0540

4 -0300 0000

5 0330 0000

6 0600 0000

2 3 0098 0778

4 -0093 0812

5 0540 0000

6 0810 0000

3 4 -0190 0051

5 0440 0000

6 0710 0000

4 5 0630 0000

6 0900 0000

5 6 0270 0000

128

二數字卡題型

表附錄 4-2-1 數字卡題各國得分統計表

分數 次數 分數 次數 分數 次數 分數 次數

0 284 0 144 0 128 0 118新加

坡 1 1 277

香港

1 1 239

日本

1 1 234

台灣

1 1 273

分數 次數 分數 次數 分數 次數 分數 次數

0 243 0 177 0 138 0 134新加

坡 2 1 318

香港

2 1 206

日本

2 1 224

台灣

2 1 257

分數 次數 分數 次數 分數 次數 分數 次數

0 171 0 142 0 117 0 111

1 28 1 13 1 30 1 23

新加

坡 3

2 362

香港

3

2 228

日本

3

2 215

台灣

3

2 257

分數 次數 分數 次數 分數 次數 分數 次數

0 161 0 111 0 89 0 138新加

坡 4 1 400

香港

4 1 272

日本

4 1 273

台灣

4 1 253

分數 次數 分數 次數 分數 次數 分數 次數

0 172 0 119 0 95 0 145新加

坡 5 1 389

香港

5 1 264

日本

5 1 267

台灣

5 1 246

分數 次數 分數 次數 分數 次數 分數 次數

0 413 0 290 0 231 0 303新加

坡 6 1 148

香港

6 1 93

日本

6 1 131

台灣

6 1 88

分數 次數 分數 次數 分數 次數

0 207 0 476 0 38 比利

時 1 1 187

美國

1 1 339

施測

1 1 82

分數 次數 分數 次數 分數 次數

0 175 0 442 0 29 比利

時 2 1 219

美國

2 1 373

施測

2 1 91

分數 次數 分數 次數 分數 次數

0 149 0 308 0 14

1 27 1 48 1 11

比利

時 3

2 218

美國

3

2 459

施測

3

2 95

129

表附錄 4-2-1(續) 數字卡題各國得分統計表

分數 次數 分數 次數 分數 次數

0 175 0 380 0 36 比利

時 4 1 219

美國

4 1 435

施測

4 1 84

分數 次數 分數 次數 分數 次數

0 179 0 410 0 38 比利

時 5 1 215

美國

5 1 405

施測

5 1 82

分數 次數 分數 次數 分數 次數

0 321 0 705 0 94 比利

時 6 1 73

美國

6 1 110

施測

6 1 26

分數 次數 分數 次數 分數 次數 分數 次數

0 64 0 38 0 21 0 37

1 39 1 25 1 23 1 33

2 62 2 36 2 35 2 21

3 40 3 50 3 44 3 44

4 60 4 49 4 34 4 41

5 87 5 51 5 59 5 60

6 137 6 93 6 89 6 102

新加

坡總

7 72

香港

總分

7 41

日本

總分

7 57

台灣

總分

7 53

分數 次數 分數 次數 分數 次數

0 31 0 135 0 5

1 48 1 94 1 5

2 49 2 98 2 9

3 67 3 101 3 9

4 61 4 114 4 16

5 63 5 101 5 20

6 55 6 130 6 40

比利

時總

7 20

美國

總分

7 42

施測

總分

7 16

130

表附錄 4-2-2 數字卡題各國事後分析表

第一題 第二題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0130 0013 1 2 0029 0992

3 -0153 0001 3 -0052 0873

4 -0204 0000 4 -0090 0252

5 0019 0999 5 0011 1000

6 0078 0206 6 0109 0012

2 3 -0022 0999 2 3 -0081 0537

4 -0074 0612 4 -0119 0076

5 0149 0006 5 -0018 1000

6 0208 0000 6 0080 0326

3 4 -0052 0908 3 4 -0039 0979

5 0172 0001 5 0063 0796

6 0231 0000 6 0161 0000

4 5 0224 0000 4 5 0102 0212

6 0282 0000 6 0200 0000

5 6 0059 0697 5 6 0098 0101

第三題 第四題

1 2 0116 0734 1 2 0003 1000

3 0070 0974 3 -0041 0948

4 -0033 1000 4 0066 0612

5 0165 0287 5 0157 0000

6 0155 0156 6 0179 0000

2 3 -0046 0998 2 3 -0044 0952

4 -0149 0543 4 0063 0751

5 0049 0997 5 0154 0002

6 0039 0998 6 0176 0000

3 4 -0103 0889 3 4 0107 0141

5 0096 0918 5 0198 0000

6 0085 0907 6 0220 0000

4 5 0198 0174 4 5 0091 0294

6 0188 0091 6 0113 0019

5 6 -0010 1000 5 6 0022 0997

131

表附錄 4-2-2(續) 數字卡題各國事後分析表

第五題 第六題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0004 1000 1 2 0021 0996

3 -0044 0931 3 -0098 0050

4 0064 0655 4 0039 0914

5 0148 0001 5 0079 0203

6 0197 0000 6 0129 0000

2 3 -0048 0929 2 3 -0119 0015

4 0060 0801 4 0018 0999

5 0144 0008 5 0058 0699

6 0192 0000 6 0108 0006

3 4 0108 0140 3 4 0137 0002

5 0192 0000 5 0177 0000

6 0241 0000 6 0227 0000

4 5 0083 0425 4 5 0040 0933

6 0132 0003 6 0090 0047

5 6 0049 0838 5 6 0050 0675

數字卡總分

1 2 0043 1000

3 -0318 0582

4 -0159 0975

5 0579 0012

6 0847 4850

2 3 -0361 0529

4 -0201 0948

5 0536 0067

6 0804 0000

3 4 0159 0985

5 0897 0000

6 1165 0000

4 5 0738 0001

6 1006 0000

5 6 0268 0673

132

三幾何方塊題型

表附錄 4-3-1 幾何方塊題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 633 0 303 0 165 0 322新加

坡甲 1 482

香港

甲 1 458

日本

甲 1 604

台灣

甲 1 445

得分 次數 得分 次數 得分 次數 得分 次數

0 617 0 403 0 218 0 348新加

坡乙 1 499

香港

乙 1 358

日本

乙 1 551

台灣

乙 1 419

得分 次數 得分 次數 得分 次數 得分 次數

0 312 0 227 0 341 0 297新加

坡丙 1 804

香港

丙 1 534

日本

丙 1 428

台灣

丙 1 470

得分 次數 得分 次數 得分 次數 得分 次數

0 494 0 429 0 425 0 519新加

坡丁 1 622

香港

丁 1 332

日本

丁 1 344

台灣

丁 1 248

得分 次數 得分 次數 得分 次數 得分 次數

0 385 0 352 0 291 0 407

1 603 1 359 1 374 1 297

新加

坡戊

2 128

香港

2 50

日本

2 104

台灣

2 63

得分 次數 得分 次數 得分 次數

0 372 0 985 0 6 比利

時甲 1 398

美國

甲 1 655

施測

甲 1 113

得分 次數 得分 次數 得分 次數

0 348 0 976 0 13 比利

時乙 1 422

美國

乙 1 664

施測

乙 1 106

得分 次數 得分 次數 得分 次數

0 437 0 884 0 30 比利

時丙 1 333

美國

丙 1 756

施測

丙 1 89

得分 次數 得分 次數 得分 次數

0 373 0 908 0 23 比利

時丁 1 397

美國

丁 1 732

施測

丁 1 96

133

表附錄 4-3-1(續) 幾何方塊題各國得分統計表

得分 次數 得分 次數 得分 次數

0 335 0 754 0 29

1 340 1 762 1 57

比利

時戊

2 95

美國

2 124

施測

2 33

得分 次數 得分 次數 得分 次數 得分 次數

0 141 0 86 0 52 0 115

1 126 1 83 1 78 1 111

2 167 2 128 2 122 2 121

3 257 3 205 3 157 3 183

4 178 4 143 4 153 4 123

5 153 5 81 5 138 5 73

新加

坡總

6 93

香港

總分

6 35

日本

總分

6 69

台灣

總分

6 41

得分 次數 得分 次數 得分 次數

0 100 0 331 0 1

1 101 1 250 1 1

2 154 2 317 2 5

3 164 3 300 3 22

4 127 4 246 4 26

5 73 5 127 5 38

比利

時總

6 51

美國

總分

6 69

施測

總分

6 26

134

表附錄 4-3-2 幾何方塊題各國事後分析表

第一題 第二題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0170 0000 1 2 -0023 0984

3 -0350 0000 3 -0270 0000

4 -0150 0000 4 -0099 0005

5 -0085 0028 5 -0100 0003

6 0033 0793 6 0042 0545

2 3 -0180 0000 2 3 -0250 0000

4 0022 0993 4 -0076 0160

5 0085 0062 5 -0078 0138

6 0200 0000 6 0066 0152

3 4 0210 0000 3 4 0170 0000

5 0270 0000 5 0170 0000

6 0390 0000 6 0310 0000

4 5 0063 0350 4 5 -0002 1000

6 0180 0000 6 0140 0000

5 6 0120 0000 5 6 0140 0000

第三題 第四題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0019 0995 1 2 0120 0000

3 0160 0000 3 0110 0001

4 0110 0001 4 0230 0000

5 0290 0000 5 0042 0773

6 0260 0000 6 0110 0000

2 3 0150 0000 2 3 -0011 1000

4 0089 0043 4 0110 0003

5 0270 0000 5 -0079 0127

6 0240 0000 6 -0010 1000

3 4 -0056 0514 3 4 0120 0000

5 0120 0000 5 -0068 0285

6 0096 0002 6 0001 1000

4 5 0180 0000 4 5 -0190 0000

6 0150 0000 6 -0120 0000

5 6 -0029 0934 5 6 0069 0110

135

表附錄 4-3-2(續) 幾何方塊題各國事後分析表

第五題 總分

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0170 0000 1 2 0120 0913

3 0013 1000 3 -0330 0008

4 0220 0000 4 0320 0017

5 0081 0294 5 0230 0233

6 0150 0000 6 0600 0000

2 3 -0150 0001 2 3 -0450 0000

4 0052 0872 4 0200 0521

5 -0085 0348 5 0110 0949

6 -0013 1000 6 0490 0000

3 4 0210 0000 3 4 0650 0000

5 0069 0627 5 0560 0000

6 0140 0000 6 0940 0000

4 5 -0140 0008 4 5 -0087 0986

6 -0064 0514 6 0290 0023

5 6 0073 0354 5 6 0370 0000

Page 6: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較

IV

group However the outcome on the ldquoGeometrical Square

questions reached significance than that of 2003 mother group

4 On the ldquoFigure questions our students performed better than

those of Singapore Belgium and USA On the ldquoNumber-card questions

they were superior to those of Belgium and USA On the ldquoGeometrical

Square questions they displayed better abilities than those of Singapore

Hong Kong Japan Belgium as well as USA

KeywordTIMSSperformance assessmentgender

V

目 錄

第一章 緒論

第一節 研究動機1

第二節 待答問題5

第三節 名詞釋義5

第四節 研究限制7

第二章 文獻探討

第一節 實作評量8

第二節 第三次國際數學與科學教育成就研究 25

第三節 TIMSS試題與國內數學課程關係之分析34

第三章 方法與步驟

第一節 研究架構40

第二節 研究工具發展40

第三節 研究的信效度與實作評量的試題架構47

第四章 結果與討論

第一節 利用TIMSS 1999實作評量試題比較民國89年跟民國95年的成績差

異49

第二節 利用TIMSS 2003實作評量試題檢視施測學校在性別及班級間是否

存在差異60

VI

第三節 利用TIMSS 2003實作評量試題比較施測學校與原始施測資料的成

績差異65

第四節 實作評量試題的類推性84

第五章 結論

第一節 結論88

第二節 建議90

參考文獻

壹 中文部分92

貳 英文部分96

附錄

附錄一 TIMSS 2003參與的國家102

附錄二 題目103

附錄三 給老師的話113

附錄四 分析資料補充125

VII

表目錄

表 2-1-1 實作評量與紙筆測驗的比較17

表 2-1-2 各種評量類型的比較18

表 2-2-1 TIMSS 2003課程架構27

表 2-2-2 維京評分系統28

表 3-3-1 試題架構48

表 4-1-1 95年魔術師題組得分情形分配表50

表 4-1-2 89年魔術師題組得分情形分配表50

表 4-1-3 魔術師ㄧ獨立樣本t 檢定51

表 4-1-4 魔術師二獨立樣本t 檢定52

表 4-1-5 魔術師三獨立樣本t 檢定52

表 4-1-6 95年擲骰子題組得分情形分配表53

表 4-1-7 89年擲骰子題組得分情形分配表54

表 4-1-8 擲骰子一獨立樣本t 檢定55

表 4-1-9 擲骰子二獨立樣本t 檢定55

表 4-1-10 擲骰子三獨立樣本t 檢定56

表 4-1-11 擲骰子四獨立樣本t 檢定56

表 4-1-12 擲骰子五 a獨立樣本t 檢定57

表 4-1-13 擲骰子五 b獨立樣本t 檢定57

VIII

表 4-1-14 95年猜一猜題組得分情形分配表58

表 4-1-15 89年擲骰子題組得分情形分配表58

表 4-1-16 猜一猜資料統計59

表 4-1-17 猜一猜獨立樣本t 檢定59

表 4-2-1 各題型之相關係數61

表 4-2-2 班級對總分之變異數分析62

表 4-2-3 性別對總分之組別統計量與t檢定表62

表 4-2-4 性別對各題之組別統計量與t檢定表63

表 4-3-1 95 年圖形題題組得分情形分配表66

表 4-3-2 圖形題百分比同質性檢定66

表 4-3-3 圖形題題組各國答對率的比較67

表 4-3-4 圖形題各題之資料統整68

表 4-3-5 圖形題各題之變異數分析69

表 4-3-6 圖形題各題之事後比較70

表 4-3-7 圖形題總分變異數分析的結果71

表 4-3-8 圖形題總分事後分析72

表 4-3-9 95年數字卡題題組得分情形分配表72

表 4-3-10 數字卡題題組各國答對率的比較73

表 4-3-11 數字卡題各題之變異數分析74

IX

表 4-3-12 數字卡題之事後比較75

表 4-3-13 數字卡題總分變異數分析的結果77

表 4-3-14 數字卡題總分事後分析77

表 4-3-15 95年幾何方塊題題組得分情形分配表78

表 4-3-16 幾何方塊題題組各國答對率的比較78

表 4-3-17 幾何方塊題各題之變異數分析80

表 4-3-18 幾何方塊題各題之事後比較81

表 4-3-19 幾何方塊題總分變異數分析的結果83

表 4-3-20 幾何方塊題總分事後分析83

表 4-4-1 實作評量概化程度變異成分表84

表 4-4-2 G研究與各種D研究之變異成分分析與推論力係數87

表附錄 4-1-1 圖形題各國得分統計表125

表附錄 4-1-2 圖形題各國事後分析表126

表附錄 4-2-1 數字卡題各國得分統計表128

表附錄 4-2-2 數字卡題各國事後分析表130

表附錄 4-3-1 幾何方塊題各國得分統計表132

表附錄 4-3-2 幾何方塊題各國事後分析表134

X

圖目錄

圖 2-2-1 1995年到2003年4年級學生的數學趨勢31

圖 2-2-2 4年級學生在男女性別上的差異33

圖 2-2-3 1995 到2003年的男女生進退步情形34

圖 4-1-1 百分比圖表比較結果51

圖 4-1-2 百分比圖表比較結果54

圖 4-1-3 百分比圖表比較結果59

圖 4-3-1 圖形題題組答對率之比較圖67

圖 4-3-2 數字卡題題組答對率之比較圖73

圖 4-3-3 幾何方塊題題組答對率之比較圖79

1

第一章 緒論

本研究主題是利用 TIMSS 1999 跟 TIMSS 2003 的公開實作評量試題為測驗工

具比較探討台灣學生在這方面的進退步情形本章節將說明本研究的研究動機

與目的問題和研究中所用的特定名詞

第一節 研究動機 從民國八十二年民間團體發起了 410 教改大遊行迄今此波教育改革歷時 12

年最近因為中央研究院李遠哲院長在立法院接受立委質詢時對教育改革因為

沒有減少學生的壓力而公開道歉(中時電子報 2005)又引起了一陣教改失敗

的言論其實改革是多面向的學生的壓力固然是改革的重點但學生的程度更

是我們所關心的畢竟學生的程度關係著下一代的競爭力所以在國民中小學九

年一貫課程綱要(教育部民 92)中特別提到迎接二十一世紀的來臨與世界各

國之教改脈動政府必須致力教育改革期以整體提升國民之素質及國家競爭

力所以改革是為了回應社會期待以及國家發展的需求基於此項認知由中

央研究院國科會和教育部共同規劃的「台灣地區教育長期追蹤資料庫」(Taiwan

Education Panel Survey簡稱 TEPS)預計用六個學年國中樣本從 2001 年 9

月開始高中樣本分成 2001 年下半年和 2003 年上半年進行兩個梯次的資料收

集主要研究團隊包括六位中研院全職研究人員投入大量的時間與精力以及多

位大學相關領域之研究者積極參與可見這項工程的浩大與重要所以本研究主

要為利用一份已發展成且具有信效度及良好試題特性的國小數學實作評量題目

來進行施測其結果除了跟民國 89 年研究者徐美英的結果相互比較學生程度差

別外並為後續研究者提供相互比較的基準

國際教育成就調查委員會 (The International Association for the

Evaluation of Educational Achievement簡稱 IEA) 主辦的「國際數學與科

學教育成就趨勢調查」(Trends in Mathematics and Science Study 2003簡

2

稱 TIMSS 2003)是自 1995 年以來第三次主辦連續週期性調查學生的數學和科學

成就主要目的在提供各國長期追蹤學生數學和科學趨勢成就以提升學生數學

和科學的學習成效由此可見學生程度一向是國際重視的課題世界各國尤其

是美國不斷的監測自己國家學生的程度不僅僅與國際上各國進行比較並將

資料建檔也進行縱貫比較另外除了本研究所提的 TIMSS 是針對數學與科學外

還有PIRLS針對語文科進行比較PIRLS目前有2001跟2006年兩年資料而TIMSS

則已經有 199519992003 三年的施測2007 年的施測目前已經開始進行籌劃

TIMSS 2003 以 13 歲群(即國二生)和 9 歲群(即小四生)為調查對象國科會和

教育部體認到未來我國國民在國際上競爭力的重要性希望持續了解我國學生的

學習成就與家庭背景學習環境教師等影響因素的關係以及我國學生的學習

特色與優缺點並與其他國家進行比較提供改進我國中小學數學及科學教育政

策及課程之參考並積極參與國際間科學教育的交流與合作因此補助國立台灣

師範大學科學教育中心進行 TIMSS 2003 調查研究TIMSS 2003 從 2000 年九月

開始發展研究調查相關工作總計有 49 個國家參加其中 48 個國家參加 13 歲

群調查26 個國家參加 9歲群調查我國自 2001 年元月開始加入 TIMSS 2003 國

際調查工作包括提供命題架構意見數學和科學試題命題試測(field test)

資料收集參加專家問卷會議實測(main survey)資料收集參加公佈 TIMSS

2003 結果記者會國際成果指標會議國際資料分析會議等各項工作國內學者

引用 TIMSS 相關資料進行相關研究的有

(1)徐美英TIMSS 數學實作評量在台灣之試用探討(民國 89 年)

(2)洪瑞鎂從「第三次國際數學與科學教育成就研究後續調查」探究台灣國

二學生的數學基本能力(民國 90 年)

(3)洪佳慧由教科書內容與性別面向分析我國國二學生在第三次國際數學與

科學教育成就研究後續調查(TIMSS-R)的學習表現-生命科學以及環境與資源議

題部分(民國 91 年)

(4) 劉佳容我國國二學生在 TIMSS-1999 中之理化學習成就分析(民國 91 年)

3

(5)侯怡如由考試文化的角度分析我國學生在 TIMSS 1999 的答題表現----生

命科學部分(民國 92 年)

(6) 鄭心怡教育指標與經濟指標對學業成就影響之國際比較以 TIMSS 為例

(民國 93 年)

(7)羅珮華從「第三次國際科學與數學教育成就研究後續調查(TIMSS 1999)」

結果探討國中學生學習成就與學生特質的關係七個國家之比較(民國 93 年)

(8)顏秀玫我國小學四年級學生在「2003 年國際數學與科學教育成就趨勢調

查(民國 93 年)

(9)張謝玲宜蘭區某國中國二學生 科學成效影響因子之探討-引用國際調查

報告 TIMSS-R 之研究方法(民國 93 年)

綜觀上述國內學者研究的內容可以發現均重視該年段橫向的比較而缺乏

進行縱貫的研究值此世界各國進行教育大改革之際台灣也難免追隨這波改革

浪潮在課程內容與制度大變動之際學生是否保持原有的程度或甚至更好是

值得我們更加關注在國民中小學九年一貫課程綱要(教育部民 92)中針對

數學科明確提出下列四個原則一 參考施行有年且有穩定基礎的傳統教材

二 採用國際間數學課程必備的核心題材三 考慮數學作為科學工具性的特

質四 現有學生能夠有效學習數學的一般能力具體而言九年一貫數學學

習領域的教學總體目標為

(1) 培養學生的演算能力抽象能力推論能力及溝通能力

(2) 學習應用問題的解題方法

(3) 奠定下一階段的數學基礎

(4) 培養欣賞數學的態度及能力

其中國民小學階段的目標為

(5) 在第一階段(一至三年級)能掌握數量形的概念

(6) 在第二階段(四至五年級)能熟練非負整數的四則與混合計算培養流暢

的數字感

4

(7) 在小學畢業前能熟練小數與分數的四則計算能利用常用數量關係解

決日常生活的問題能認識簡單幾何形體的幾何性質並理解其面積與體積公

式能報讀簡單統計圖形並理解其概念

由以上的課程目標中可以清楚的看出數學課程的改革內容除了參考以往課

程內容之外也參考國際的課程內容進行改革並因為數學具有工具性的性質

具體的指出各階段需要具備的基本能力研究者希望透過已具有信效度及良好試

題特性的國小數學實作評量題目的施測一方面跟國際資料庫進行學生程度的比

較另一方面也跟徐美英TIMSS 數學實作評量在台灣之試用探討(民國 89 年)

在台灣施測的資料進行縱向比較以了解學生在這幾年的教育改革中在國小四

年級這個範圍內透過實作評量的方式評斷出來的能力是否有所差異

徐美英論文中指出其自編試題(猜一猜)學生能夠完整的敘述解釋百分比

僅達 549所以表示台灣學生在以數學語言的溝通上尚待加強而該試題與

TIMSS 試題有一定程度相關的是擲骰子繞過彎道和魔術師所以本研究研究者

打算選取其中 3 題(猜一猜擲骰子魔術師)找跟原論文相似的環境(住宅

跟工業混合區的學校)進行施測將兩項資料進行比較以探討在這樣的環境背

景中的學生經過這 5年的教育改革後對這個範圍內經由實作評量所測出來的

能力是否有所不同另外再從 TIMSS 2003 已公佈的實作評量題目中找出 3

題(幾何方塊數字卡圖形題)進行施測其結果跟國際資料庫進行比較進

一步探討這樣環境下的學生跟原始台灣施測資料中的學生是否有程度上的差

異跟國際上整體表現較好的國家學生的表現比較是否有程度上的差異

本研究測驗題目將從徐美英論文中選取 3 題從 TIMSS 2003 公佈的實作評

量試題中選取 3題並以 TIMSS 對實作評量採取的維京評分系統(又稱建構反應

評分系統Constructed Response簡稱 CR)為評分工具資料用 SPSS 進行分

析比較並以推論力理論推算本次施測的信度係數研究者希望能從施測中獲得

教育改革的成果從實作評量的角度是否是進步的並期待施測的資料能提供

未來需要再做類似研究者的比較基準

5

第二節 待答問題 壹探討特定環境背景的台灣國小四年級學生在民國 89 年與民國 95 年對

TIMSS 1999 實作評量的成績有何差異

貳探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 實作評量的

成績在性別及班級間是否有差異

叁探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 實作評量的

成績與台灣原始施測資料中的學生實作評量成績是否有程度上的差

肆探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 的實作評量

成績與國際上整體表現較好國家的學生實作評量成績是否有程度上

的差異

第三節 名詞釋義

壹實作評量

在教室情境中學生有幾類學習行為及其成就表現是無法用客觀式紙筆測

驗來正確評量出來的這些學習行為表現包括

(1)溝通技能(如說話口語表達演講朗讀寫作等)

(2)心理動作技能(如實驗室內的儀器操作書法打字繪畫工藝烹

飪樂器演奏戲劇表演等)

(3)運動技能(如跑跳直球游泳舞蹈等運動技能)

(4)概念應用(如應用所學的概念和知識解決日常生活所遇到的實際問題)

(5)情意特質(如團隊合作遵守規定自我反省等)

這些都是強調實際的表現行為(actual performance)都需要教師根據學生的

表現過程之有效性或最後完成作品的成果品質分別或合併地進行評分才能決

定學生在這方面學習的成就高低這種強調實際表現行為的評量方式稱為「實

6

作評量」(performance assessment)(余民寧民 93)所謂實作評量就是在自

然或已建構好的環境中要求學生執行或處理(process)一件指定的工作並

由教師觀察或評鑑學生的建構性反應的過程與結果看他們是否適當精確和完

美的達成教學目標(歐滄和民 91)

貳TIMSS

國際數學與科學學習成就調查研究係由國際教育學習成就調查委員會主

持主要目的在於了解各國數學與科學學習成就與各國文化背景教育環境影響

因子之相關性並進一步做國際間之比較研究分析第一次國際數學與科學教育

成就調查於 1970 年舉行共有 19 個國家參與經十年後1980 年進行第二次國

際數學與科學教育成就調查(SIMSS)有 24 個國家參與我國曾於 1987 年 5 月

經 IEA 總部同意引用第二次國際數學與科學教育成就調查工具在我國進行測

驗(但不是正式參加)由國立台灣師範大學科學教育中心負責執行以了解我國

國小國中及高中學生數學及科學成就在國際上所佔的地位IEA 自 1990 年開始

推動進行「第三次國際數學與科學教育成就研究(Third International

Mathematics and Science Study TIMSS)」本計畫有四十餘國參加第三次國

際數學與科學教育成就研究後續調查(稱為 TIMSS REPEATTIMSS-R)於 1999 年

舉辦調查對象為國二學生(13 歲群)共有 38 個國家參加鑒於世界各國對國

際數學與科學教育成就研究的熱烈反應IEA 計劃往後每四年辦理國際數學與科

學教育成就研究一次並改名為國際數學與科學教育成就趨勢調查(Trends in

International Mathematics and Science Study 簡稱 TIMSS )TIMSS 2003

的調查對象包括國小四年級及國中二年級學生TIMSS 的測驗內容包括數學跟科

學並從學生教師和校長們的回答中廣泛地蒐集有關數學跟科學教學與學習資

料另外還經由課程指引教科書和其他教學媒體的分析探討參與國家的數學

7

和科學課程並將結果發表成一系列的國際報告讓參與國家的教育政策制定者

和實務工作者得到有關在數學與科學教學上跟學生學習成就上的珍貴訊息

第四節 研究限制

本研究對於整個計畫的擬定與進行過程中由於在時間上與人力上尚有所不

足的影響以至於對本研究的進行有所限制茲分別就研究工具與分析研究樣

本與應用範圍兩方面說明之

壹研究工具與分析

在 TIMSS 2003 試題部分由於是翻譯試題照理應該經專家學者進行反譯

程序以確保試題的原意未被扭曲但因資源限制所以只經國小專任資深英文

教師與研究者討論而定案

貳研究樣本與應用範圍

因人力與時間的限制只能選擇一間學校來實驗因樣本受限於某一學校

所以本研究的結果與建議限制受限於相同類型的學校

8

第二章 文獻探討

本研究的文獻探討將分成三節第一節為探討實作評量的意涵和特色以及

國內相關實作評量的研究第二節為 TIMSS 的簡介及國外相關的研究第三節為

TIMSS 試題與國內數學課程的分析

第一節 實作評量

壹實作評量的緣起

長久以來多數人將評量窄化為紙筆測驗的考試用考試的成績來論斷一個

人的高下使得評量的目的偏狹方式單調內容枯躁意義盡失再加上過度

倚賴標準化測驗常導致課程窄化且易流於基本技能與片面瑣碎事實的學習忽

視複雜思考和問題解決能力(江文慈民 87詹志禹民 85)簡言之考試第

一分數至上的迷思等於將評量窄化了也扭曲了評量的目的更簡化了評量

的結果事實上考試只是評量的方法之一評量的目的是要提供學生有益的回

饋評量的改革意味著教學與課程發展的改進因此在教育改革中教師要採

用新的評量方式以符合教學的新趨勢評量的意義在於了解學生學習與教師教

學之用其主要的目的是在教育的過程能隨時掌握學生的學習讓教師明白教

學情況藉以發揮教育的效率與效能實作評量受到歡迎的主要原因之一是一

般人對於選擇式的測驗題感到不滿意例如選擇式的測驗題只能測量學生「知

道」什麼但無法測量學生「能做」什麼此外認為以選擇題為主的標準化測

驗對於教師的教學和學生的學習造成一些偏差的影響標準化測驗經常是一般家

長用來評估學校教學績效的方式在績效的壓力之下造成部分教師教學側重於

測驗的內容而扭曲了教學的面貌和窄化學生的學習結果在教育改革的推動

上教育界期望藉著評量的革新來提升教師教學的品質和學生學習的成就此

外一些入學考試和證照考試也在原有的選擇題之外增加建構反應題或實作測

9

驗部分實作評量在教育界和測驗界已是一個非常顯明的趨勢Silver(1993)

認為假如我們沒有將看過或聽過的數學留住那它將永遠不會變成我們的知識

所以實作評量吸引人的地方正在於它讓教師更能洞悉學生的思考並將所得的訊

息直接應用在教育計畫中

實作評量的提倡者主張實際工作的評量模式比紙筆測驗更能充分深入的了

解學生的知識和理解程度(Haertel amp Linn1996)以下將各學者對實作評量

的定義整理概述如下

一以觀察和專業判斷來評量學生學習成就的評量方式都可以稱為實作評量其

型式非常的多元化例如建構反應題書面報告作文演說操作實驗

資料蒐集作品展示等都是實作評量的例子( Stiggins 1987 )

二案卷評量也是實作評量的一種型式實作評量具有下列幾點特徵

(一)要求學生執行或製作一些需要高層思考或問題解決技能的事或物

(二)評量的作業( tasks )是具有意義性挑戰性且與教學活動相結合

(三)評量的作業能與真實生活產生關聯

(四)歷程( process )和作品( product )通常是評量的重點

(五)表現的規準( criteria )和標準( standards)-也就是評量的重

要層面與給分標準要事先確定實作評量有時也被稱為真實性評量

(authentic assessment )( Herman Aschbacher amp Winters 1990 )

三實作評量可視為『以超越傳統評量方式為了解學生熟練度而蒐集資料的一

種評量方式』(DnubarKoretz amp Hoover1991)

四實作評量不僅反應出學生解答的正確性同時也顯現出其得到答案的過程

(Ruiz-primoBaxter amp Shavelson1993)

五實作評量是應用各種評量方式評量各種能力及技巧要求學生展示知識的

應用而非僅展示知識的本身(Long amp Stansbury1994)

六實作評量乃是模擬一些標準情境(亦即是在自然情境下的實作)之測驗其

10

模擬的程度高於一般紙筆測驗所代表者(陳英豪吳裕益民 85)

七實作評量係指根據學生實際完成一項特定任務或工作表現所作的評量這些

任務或工作可能是實際操作口頭報告科學實驗數學解題寫作hellip等

因此其所使用的方式係透過直接的觀察學生表現或間接的從學生作品去

評量(吳清山林天祐民 85)

八凡是以學生在評量過程中的表現或成果作為評量的依據再根據教師的判

斷用事先指定的標準來評定等級的評量方式都可稱之為實作評量(夏

淑琴民 88)

貳實作評量的特色

綜合國內外學者觀點實作評量具有以下特色

一銜接教學與評量教學與評量的密切配合可以對學生的學習情形提供較全面

性的完整的深入的訊息此訊息可以幫助老師更了解學生的學習優勢及

問題掌握學生真正的能力及進步情形使老師能在教學上做適當的調整來

幫助學生解決問題提升其學習水準而惟有重視過程的評量學生才有機

會去反思自己學習上的問題省察如何在學習上求進步而這些也才是真正

的學習

二使學習更有意義更深入強調教學與評量的內容應為重要的完整的概念

而非瑣碎知識的累積應重視思考與問題解決能力的培養而非低層次的記

憶與歸納它的目的在幫助學生獲得完整有意義的概念增進表達技巧及

運用策略的能力並激發學生從事較複雜的深層思考所以實作評量著重脈

絡下有意義的學習在教學與評量的過程中它鼓勵學生主動探索深入思

考並表達學習此種評量方式有助於提升學生的思考及問題解決能力使

學生的學習更有意義更為深入

11

三強調學生知道什麼能做什麼實作評量的重心不在於偵測學生哪裡做錯了

而在於強調學生知道什麼能做什麼及如何再進一步知道得更多做得更

好簡言之其精神是「你會做很多事你還可以學會更多事」對於學生

嘗試去做好某一件事的努力(縱然尚未達到預期的目標)也給予正面的回

饋以學習理論而言較符合學習理論中的公平性或正當性亦即努力是有

收穫的

四強調與實際生活的結合實作評量可以讓教師瞭解學生對問題瞭解程度投

入程度解決的技能和表達自我的能力能夠較完整的反映出學生的學習結

果因為實作評量與真實生活較為相近其支持者認為實作評量能夠增進學

生學習的動機提高學生參與和投入的程度

五幫助學生建構有意義的學習情境發展問題解決能力批判性思考和表達自

我的能力

六有時候實作評量也可以做為一種教學策略提高學生的學習興趣和學習結

果評量和學生的學習以及老師的教學應該是密不可分並且互相支援的評

量的目的是幫助學生學習跟老師教學所以評量應該是自然的融入出現在

課堂而不是強制性的加進課堂上實作評量與實際教學過程有相當密切的

關係往往可以成為實際教學的一部份實作評量本身就是一種有效的教學

活動

七鼓勵合作學習許多文獻顯示合作學習可以提高學生的學習成就增強學

生的理解能力藉由溝通與辯論的過程學生可以重述自己的概念架構和知

識體系以促成有效的概念改變並達到有意義的學習在一個小組合作評

量的情境下藉由同儕的誘導和鼓勵彼此意見的分享並相互進行共同評

量是提高學生成就表現的重要機制

八直接評量排除語文能力的干擾實作評量比較不需要用到語文能力這對

於閱讀或文字表達能力較差的學生而言是比較公平的

12

叁實作評量的目的

Webb(1992)認為一個好的評量應具備四個目的第一個目的是成為教師蒐

集資料的工具透過評量的回饋教師可以知道學生學會多少和能做什麼第二

個目的是要表達學生在學習過程中所做所學的哪些東西是有價值第三個目的

是提供教育決策者一些教學績效之訊息最後的目的評量應該對整個教育體系

提供積極之建議(張敏雪民 86)雖然評量方式會因不同的評量目的而有所

不同然而現行的紙筆測驗過於強調排等第忽略了評量原先之目的教師只

教要考的學生只讀要考的成了所謂「考試領導教學」然而二十一世紀的

國民不是只會在試卷作答的人而是要有「分析預測及適應能力的人」簡而

言之就是能為生活而思考的人(曾慧敏民 87)實作評量重視教育過程本身

的價值和學生主動建構的能力因此重視學生學習過程和結果讓學生有意義

的學習使學生能靈活應用所學不僅評量認知層次也評量技能及情感層次

較傳統的紙筆測驗更能蒐集到學生較豐富的學習訊息

實作評量的目的如下(桂怡芬民 85曾慧敏民 87 Linn 2000)

一檢視學生學習成果是否能達到教學期望的結果

二從評量的結果能清楚交代學生的學習成就

實作評量能直接觀察學生到達結果的過程不只是評量答案之正確性能完

整的呈現學生在複雜能力及歷程上的表現並能依表現推論其構念表現

三藉由此評量可展現學生的技能和能力

實作評量除了能直接的測出學生問題解決的歷程與結果也能展現出高層次

認知情意與技能及後設認知等能力

四使得教學與評量能充分配合

實作評量注重與教學的互動其主要的目的為幫助學生的學習與改進教師的

教學

13

五為課程改革的重要指標

因實作評量標榜著可提升學童高階思考與問題解決的能力因此在教育改革

時備受重視

肆實作評量步驟

實作評量強調在和生活相關的情境下能讓學童展現所知所學的能力來解

決問題然而若是活動或作業設計不夠完整評分規準不夠明確等都可能導

致實作評量無法達到預期的目的(鄒慧英民 87)因此應如何設計出一份好

的實作評量試卷呢(Stiggins 1994)以下提出幾個注意要點

一確立設計評量的原因與目的

評量之所以實施一定有其原因包括確定評量結果所要作的決定例如

分組個別鑑定等第評定與優缺點的診斷等接著考量評量結果是否用於「排

名」或用於決定學生否達到精熟水準

二設計實作評量的內容

(一)選擇作業的形式

可以蒐集教室中自然而然發生的事件也可以設計結構化作業引發

學生表現的機會測出學生真實能力的實作評量

(二)決定評量的實施情境

因為怕受試者的動機與考試的焦慮可能影響學生的真實能力之表

現施測者可考慮事先告知學生相關評量的性質與評分標準因此在一

般的測驗情境下應先觀察受試者的焦慮情形再決定是否事先告訴受試

者評量事宜或採取不事先告知以測出學童最大的表現能力本研究採取

後者

(三)確定所要編製的實作試題數

14

決定實作題目數量應考慮評量的作業是否具代表性蒐集到的證據數

量是否可以提供較精確的學生能力思考層次

三確定實作評量成績計分標準

(一)決定分數的型式

如果評量的目的是做為分組或選擇的依據則可採整體性評分若是

診斷或檢定學童的基本能力可採取分析性細部評分本研究為診斷學童

分數的學習能力採用開放式的結構題型由學生自行建構答案因此

根據不同的答案給予不同層次的分數

(二)選擇評分者

評分者可為教師專家同學或受試者本身但基本上所有的評分

者得先接受專業的評分者訓練使每個人對評分歸準有所共識本研究請

已有五年以上之教學經驗的教師擔任評分者

(三)紀錄評分結果的方法

可採用檢核表評定量表軼事紀錄表等評定量表同時呈現了觀察

項目及分數評比常用於歷程與結果之評量適用於各學科之實作評量

本研究採用評定量表來紀錄評量結果總之發展實作評量時首先需

澄清「教學目標」與「評量的目的」是必要的其次「評量內容」或「評

量對象」取樣的代表性更是影響評量效度的重大因素最後清楚的「評

分規準」與完整的「評分者訓練」及詳細的「評分程度」則是影響評量的

信度唯有如此才能獲致高品質的實作評量(鄒慧英民 86)

伍實作評量的限制

一實施上非常耗費人力時間跟金錢

真正在實施實作評量時通常會受到器材跟場地的限制或是因為擔心產生相

15

互干擾因素而一次只能有限個學生同時進行施測這點跟團體施測的紙筆測驗

相比是非常耗費人力跟時間另外實作評量常需要有器材設備以及消耗性材料這

點跟團體施測的紙筆測驗相比是非常耗費金錢

二測驗情境控制困難

由於不是同時全體施測所以先後受測的學生容易相互干擾而且未受測

的學生跟已受測的學生的交談或傳授經驗也影響到考試的公平性加上前後施

測使得後面的同學很難有一致的施測條件例如場地未乾淨儀器未復原或被

損壞等

三計分不容易客觀

實施實作評量的目的不外乎想根據評量結果來為學生做決策因此獲

得一個正確而又可靠的評量結果(即高信度跟高效度值)便成為一件很重要的

事然而很不幸的實作評量如論文評分一樣由於是使用觀察跟判斷等兩類比

較主觀的評分方式來進行所以其結果難免具有很高的評分者誤差存在一般而

言評分者誤差有三種來源偏見月暈效應跟評量次數過少

四對容易焦慮的學生不利

實作評量的正式性與控制性會使得缺乏自信心或很在意他人評價的學生

產生過度焦慮進而影響其表現

陸實作評量的信效度

實作評量的信效度仍有待探討實作評量的信度通常是以概化程度

(generalizability)來描述(BaxterShavelsonGoldmanPine1992Dunbar

et al1991LinnBakerDunbar1991Linn1993Moss1994Ruiz-Primo

et al1993ShavelsonBaxterGao1993)概化程度包括評分者之間一致

的程度以及學生在不同工作項目(task)表現的一致程度(Shavelson et

16

al1993)根據 Shavelson 等人的研究結果發現實作評量在評量工作項目方面

的概化性較低顯示學生在不同工作項目上的表現有較大的差異在效度方面

實作評量所顯露出的問題有以下三個

一客觀性及公平性實作評量通常僅以一個評分者評定學生的表現所以

評量的結果可能過於主觀或有潛在的偏見(bias)問題(Airasian1991

Frechtling1991Linn et al1991Linn1993)

二評量內容的涵蓋性由於實作評量實施方式及時間的限制通常所評量

的學生行為表現較傳統測驗為少即評量內容的涵蓋範圍較小不易獲得學生行

為的適當樣本(Airasian1991Linn et al1991Linn1993)

三成本及效率問題這部份即時間與經濟的考量Linn 等人(1991)Linn

(1993)及 Messick(19941995)將這一點併入實作評量的效度標準

Baxter 等人(1992)Ruiz-Primo 等人(1993)及 Shavelson 等人

(199119921993)均從概化理論(generalizability theory)的觀點出發

採用取樣架構(sampling framework)來分析實作評量的信度(概化性)探討

評分者間評量項目間評量時間等的取樣變異以及其他潛在的誤差來源他們

針對神秘的電路盒(electric mysteries)毛細現象(paper towels)及小蟲

的習性(bugs)等評量項目採專家觀察(expert observation)實驗筆記

(notebook)電腦模擬測驗(computer simulation test)及紙筆測驗等方式

記錄學生的表現研究結果發現與評分者有關的取樣變異不大評量時間的取

樣變異極小而評分者與受試者間的交互作用(ratertimesperson interaction)和

評分者與評量項目的交互作用(ratertimestask interaction)這兩個部份的變異也

幾乎為 0故他們認為只要一個經過良好訓練的評分者(one well-trained

rater)即可用以評定學生在實作評量上的表現但他們發現在實作評量中評

量項目與受試者及該兩者與時間的交互作用是兩個最大的變異來源研究結果顯

示學生的表現因為工作項目的不同而有極大的差異而這樣的變異在不同時機上

17

更是明顯因此欲提高實作評量結果的一致性必須增加評量的工作項目使得以

學生在實作評量上的行為表現做其能力的推論時能夠降低與學生實際能力無關

的變異

Baxter 等人(1992)及 Shavelson 等人(19921993)主要是從評量對學生

能力的鑑別程度不同評量方式間的輻合效度不同特質及方法間的區辨效度等

三方面探討實作評量的效度他們的研究結果顯示不同的測量方法所得到的結果

並不一致Shavelson 等人(1993)發現在同一個工作項目之下不同的測量方

法中實驗操作與實驗記錄的相關最高實驗記錄與紙筆填充測驗及電腦模擬測

驗與紙筆填充測驗之間的相關最低這是因為實驗操作與實驗記錄為同一思考流

程所以相關較高此外他們也發現受試者與工作項目及測量方法間的交互作

用及誤差是變異的最大來源表示不同的測量方法可能是在測量科學成就的不同

面向(Shavelson et al1993p227-229)最後在不同工作項目之下採用

相同或不同測量方法所得到的相關的確較低顯示實作評量具有區辨效度

柒實作評量與其他評量的比較

大體上實作評量具有下列各項功能(Airasian 1994)茲列表如下

表 2-1-1 實作評量與紙筆測驗的比較

實作評量 紙筆測驗

學生把知識轉化成可觀察的表現行

為或成品的能力 主要涉及學生的知識及資訊的獲得

設計及施測費時但評量表可針對

同一或新的學生重複施測

設計費時但可同時施測許多學生

同組學生僅能使用一次

學生表現不佳可予診斷及補救

可監控學生進步實況

除論文式及開放式數學題之外甚少

提供方向指示如何改進表現

教學首重表現及過程 教學重內容知識

資料來源Airasian (1994) P236

18

表 2-1-2 各種評量類型的比較

客觀式測驗 論文式測驗 口頭發問 實作評量

目的

以最大的效率

及信度測驗

代表性的知

評估思考的技

巧及知識結構

的瞭解程度

教學時評估

知識

評估知識及瞭

解化為行動的

能力

學生的

反應

閱讀評量

選擇 組織寫作 口頭回答

計劃建構

及表達原始的

反應

主要優

效率在測驗

時間內可測驗

到許多項目

可測量複雜的

認知結果

使評估與教學

結合

提供充分的表

現技巧

對學習

的影響

過度強調回

憶鼓勵背誦

記憶如能適

當出題可促進

思考技巧

鼓勵思考及寫

作技巧的發

刺激學生參與

學習提供教

師立即回饋了

解教學是否有

強調運用知

識技巧於實

際的問題情

資料來源Airasian (1994) P229 et ls

捌實作評量相關研究

國內有許多探討實作評量設計的可行性研究以下將就國內學者所做的研

究整理說明

一陳文典陳義勳李虎雄簡茂發(民 84)美國馬里蘭州學校實作評

量國際共同研究計畫

將 MSPAP(the Maryland School Performance Assessment Program)的

19

試題轉譯成中文在國內進行小規模的施測藉以了解這種測驗的功能

使用上的時機及應用上的困難在其對我國五年級學生施以數學理化

和生物等實作評量題目後發現此種測驗模式能遍及各項科學能力我

國學生在回答問題時顯示其傳達與獨立作業能力均不足其評分客觀

的標準化可經由評分者講習的培訓達到目標實作評量可適用於平時作

業學生的科學能力競賽或教育行政單位的各校科學教育教學成效評鑑

等時機

二徐美英(民 89)TIMSS 數學實作評量在台灣之試用探討

(一)TIMSS 試題在台灣之施測具有信效度

(二)台灣四年級學生在 TIMSS 實作評量的表現顯著優於美國和香港地

區的學生

(三)TIMSS 試題在台灣之施測在男女生之間和班級間在總得分並

沒有顯著差異

(四)自編之試題猜一猜與 TIMSS 試題擲骰子繞過彎道

和魔術師有一定程度的相關

三洪之昀(民89)數學科實作評量對國小高年級學童學習策略影響之研究

(一)學生認為實作評量能增加對數學內容的了解提升學習興趣發

現數學的有趣擴大學習範圍並兼具情意評量的功能但也有學生認

為實作評量在實施上太麻煩且費時

(二)學生批判思考數學溝通數學表達的能力有待加強

(三)學生具有多方面的潛能亟待以實作評量的方式加以開發

四詹元智(民 91)國小數學科實作評量之效度探討

採準實驗研究設計的方式進行以屏東師範學院附屬小學六年級兩個班

的學生為研究對象一班為實驗組接受為期二個半月的數學實作評量

另一班為對照組接受傳統數學紙筆測驗的評量研究者於實驗前與實

20

驗後對兩組學生施以「傳統數學紙筆測驗」「數學實作評量」及「數學

學習解題態度」等三種測驗的前後測並對部份學生進行「數學實作

評量前後測的放聲思考訪談」概化性研究的分析結果顯示在一位評分

者及一題作業項目上之評分者間的變異相當小(319)不過分數的變

異有相當大的比例(約 50)是來自作業項目間及作業項目與受試者交

互作用的變異而在二位評分者及五題作業項目之概化性係數可達 08

以上顯示該研究之數學實作評量的結果能有效地推論至學生在其他評

分者及實作評量作業上數學問題解決的表現

五李長柏(民91)國小數學簡單機率解題實作評量與後設認知之相關研究

(一)數學解題實作評量具有良好的信效度

(二)本研究結果顯示具有良好的評分者信度

(三)數學解題能力和後設認知能力具有相關性

(四)性別在數學解題能力和後設認知能力上沒有差異

六王秀琲(民 92)實作評量在國小數學科之應用-以五年級學童分數為例

(一)實作評量能實際測出學童的分數概念在分割活動上連續量比

離散量好在表徵轉換上具體操作轉換符號模式為佳圖形轉換符號

模式較不理想分割策略會因情境的不同而使用較為簡便的方式來

解題

(二)從實作評量中學童能展現自行所建構的解題策略所獲得的訊

息比紙筆測驗多

(三)以 SS 分析法來分析實作評量之試題所呈現的試題關聯結構圖

中可以了解等分和連續量的分割活動是學童最易理解的概念而離散

量分割等值及單位量則是學童最難理解的概念

七張永杰(民 92)實作評量取向的幾何思考研究

(一)年級之幾何水準層次分佈情形有統計上的顯著差異存在年級

21

越高屬於高層次水準的學生越多

(二)當受試學生通過某一水準層次n的考驗但卻未能通過之前的任

一水準層次的考驗則稱為逆序現象有 697學生之幾何層次分佈呈

現逆序的情形

(三)學生不同 van Hiele 水準層次在後設認知能力上表現出顯著差異

(四)順序組學生能力值越高集聚的情形越明顯結構越完整逆序

組學生的概念結構比較少集聚呈現零散不完整的結構

(五)順序組能力低的學生所形成的關連結構比較零散而且概念間

的關聯程度不高能力越高的學生其關連結構概念問題結構化比較明

顯而且上下位觀念比較顯著逆序組學生的關連結構不但呈現零散不

完整的結構且關連結構圖中上下位觀念的情形比較不規律顯現其

概念結構比較雜亂

八林敬修(民 92)影響國小數學科實作評量信度相關因素之類推性理論

分析

(一)影響數學科實作評量分數一致性的主要變異來源為受試者與作業

項目交互作用(ptimest)變異其次為受試者(p)變異再其次為作業項目(t)

變異

(二)在評分者數學知能背景及評分者訓練對數學科實作評量分數一致

性的影響方面評分者的給分一致性因評分者數學知能背景及評分者訓

練而不同

(三)在題目結構度對數學科實作評量分數一致性的影響方面跨不同

結構度之作業項目對分數一致性的影響遠大過於跨相同結構度之作業項

目對分數一致性的影響此外不同數學知能背景及評分者訓練的評分

者在不同結構度的試題給分一致性上也有差異

(四)整體而言各評分組別的評分者一致性因評分向度之不同而有差

22

異其中以在「溝通表達」此一評分向度上的評分者一致性最低

九呂政隆(民 93)國小學童在數學實作評量解題整合認知與課程之相

關研究

運用實作評量的方式分別在九十學年度九十三學年度對五年級學生

施測以探討學生的數學解題與整合認知能力之相關性進而探討性別

課程在數學解題與整合認知能力上是否有顯著差異研究結果顯示實施

九年一貫課程後之九十三學年度整合認知中能力組在本研究之四份實作

評量之數學解題能力明顯低於九十學年度實施八十二年版國民小學課程

標準之數學解題與整合認知能力組

十石千奇(民 93)國小六學童在數學實作評量中的小組解題歷程分析

解題歷程模式受同儕討論的影響小組解題是四個人四條思考路線互相

牽引的結果解題歷程模式受操作實物的影響操作實物會影響解題階

段進行的走向小組成員並非全程參與解題歷程會因為題目的難易

互動過程階段性質等因素的影響而未能全程參與小組解題的階段變

化各行其道在各個解題階段的參與變化沒有一致性的發展操作實物

對各個解題階段皆有影響各產生不同的作用小組成員喜歡在實作評

量中以小組解題的模式解題覺得這樣的評量方式可以幫助解題

因此建議數學教師多採用以四人為一個小組在形成性評量中以小組

解題的方式進行實作評量

十一曲慧娟(民 94)實作評量在國中學術性向優異班招生鑑定之效度研

究~以臺灣北區為例

(一)錄取組和未錄取學生在入學後成就表現的差異分析顯示英文組

達顯著水準 (t=6159plt05)數理組未達顯著水準

(二)實作評量錄取學生在入學後之特殊表現的訪談結果發現各組學

生在發表能力競賽檢定檔案成果上的參與興趣濃厚也比較有所發

23

(三)受訪教師學生及參加座談會的教師們對實作評量的看法和意

見主要有下列重點

1命題是最大的困難各校命題均請專家學者指導師生都反應覺

得題目的品質不錯題型也很有創意和其它測驗不一樣但自然

科實驗器材的準備耗時費工是很大的負擔因此很多學校選擇用資

料分析的題目類型避免實驗操作器材準備的困擾

2實施程序上時間說明器材提供均適宜但場地的考量較多

如實驗位置的區隔語文施測時需安靜的場所等監考過程也是爭

議較多的如學生覺得監考老師應多幾位老師的尺度不同等

3受訪學生指出實作評量的應答方式和以往參加過的測驗有很大

的不同但都持肯定態度同時覺得語文表達能力會影響到實作評

量的成績

4各校評分都採集中閱卷的方式評分標準爭議性得分大都透過

閱卷老師討論後取得共識再給分

5目前各校在鑑定學生時決策的標準不一因此反應意見差異頗

大但從訪談資料發現受訪學生及教師都較支持運用初試複試

成績加權計算作為選擇學生的標準

6受訪教師表示學生入學後的表現和以往相較起來沒有明顯的

差異但在科展競賽檢定發表上的熱誠度較高

7學生的訪談結果發現大多數學生覺得實作評量可以測出他們在

學術性向上的能力或天份

8實作評量的保密情形比其它測驗要好很多但坊間仍有業者猜

題補習受訪學生及老師也表示有模擬實作或補習經驗者對

實作表現或多或少有影響惟一沒有保密困擾的是國文組

24

十二陳怡玉(民 94)降低國小數學科實作評量人和作業交互作用變異方

法的探討---以類推性理論分析

(一)由於分層變項選取不易導致「作業分層」無法有效降低人和作

業交互作用的變異

(二)「以圖表組織圖為鷹架」可以降低人和作業交互作用的變異

(三)「以圖表組織圖為鷹架」比「作業分層」更能讓人和作業交互作用

的變異降低

(四)進行「作業分層」的比較時實作評量的類推性係數和可靠性指

標以同一階層的作業採 ptimesTtimesR 設計最高但屬分層之 ptimes(TS)timesR 設計

卻低於作業未分層時的分析(即採作業 1234 的 ptimesTtimesR 設計來分

析)

(五)「以圖表組織圖為鷹架」能提高實作評量的類推性係數和可靠性指

十三蔡正濱(民 95)國小數學科實作評量評分者ㄧ致性相關因素探討

(一)影響數學科實作評量分數一致性的主要變異來源為受試者與作業

項目交互作用(ptimest)變異其次為受試者(p)變異再其次為受試者

作業與評分者三者之交互作用及誤差(ptimesttimesre)的部分

(二)在使用不同類型及等級數的計分規準對評分者間一致性的影響方

面在 ptimesttimesr 類推設計下不分計分規準種類與評分者有關的變異量

(含 rptimesr及 ttimesr 三者的總和)均相當小幾乎接近 0而在 ptimesr 設

計的整體類推性相關係數及給分差異比例方面分析式計分規準優於

整體式計分規準在不同等級數方面ptimesttimesr 類推設計中與評分者有

關的變異量及整體類推性七等級計分規準略佳但差異性不大在 ptimesr

設計的整體類推性相關係數及給分差異比例方面七等級計分規準優

於四等級計分規準其中又以使用整體式計分規準及評定高複雜度試題

25

時較為明顯

(三)在不同複雜度作業對評分者間一致性的影響方面低複雜度試題

的一致性高於高複雜度試題顯示評分者面對受試者在高複雜度試題的

作答反應時出現給分較不一致的情形最後受試者是否具備實作評

量計分規準之經驗對評分者間一致性的影響方面在低複雜度試題兩

組受試者之評分者一致性的差異性不大在高複雜度試題 A 組評分者

一致性大致高於僅具實作評量經驗之組別 B組而 AB兩組受試者的評

分者一致性差異程度在分析式計分規準上低於其在整體式計分規準之

差異程度

第二節 第三次國際數學與科學教育成就研究

由國際教育成就調查委員會(The International Association for the

Evaluation of Educational Achievement簡稱 IEA)主辦的「國際數學與科學

教育成就趨勢調查」(Trends in Mathematics and Science Study 2003 簡稱

TIMSS 2003)」是目前有關國際間對學生成就的調查研究中規模最大的一項調查

該測驗採取全世界合作模式主要單位有

一國家研究協調中心(National Research Coordinators)國家研究協

調中心負責選擇學校樣品 收集資料 計分標準和資料輸入 和準備研究結

果的一個國際報告

二TIMSS amp PIRLS 國際研究中心(在波士頓學院)(TIMSS amp PIRLS

International Study Center at Boston College)國際研究中心(ISC) 負責

TIMSS 的整體設計發展和實施這包括建立規程監督工具發展舉辦訓練

ISC 進行分析並且在國際報告和用戶資料庫中發布研究結果

三IEA 秘書處(IEA Secretariat)總部設在荷蘭的阿姆斯特丹IEA 秘

書處負責提供整體支持監督籌款和協助參與國家協調參與 TIMSS 的國家取得

26

測驗工具的翻譯證明

四IEA 資料處理中心(IEA Data Processing Center)IEA 有它自己的

資料處理中心位於德國的漢堡資料處理中心(DPC)負責處理和核對從所有參與

國家得到的資料和建立國際資料庫

五統計(Statistics Canada)在加拿大的渥太華負責 TIMSS 的所有採

樣活動包括開發取樣步驟和文獻和協助參加者能符合 TIMSS 的採樣設計

六教育測試的服務(ETS)(Educational Testing Service (ETS))ETS 為

TIMSS 成就測驗資料提供軟體和心理測量的支持 ETS 總部設在新澤西州的普

林斯頓

TIMSS 2003 是 IEA 自 1995 年以來第三次主辦連續週期性調查學生的數學和

科學成就主要目的在提供各國長期追蹤學生數學和科學趨勢成就以提升學生

數學和科學的學習成效TIMSS 2003 以 13 歲群(即國二生)和 9 歲群(即小四生)

為調查對象從 2000 年九月開始發展研究調查相關工作總計有 49 個國家參

加其中 48 個國家參加 13 歲群調查26 個國家參加 9歲群調查測驗的內容

包括數學和科學並從學生教師和學校的問卷回答中廣泛的搜集有關數學和科

學的教學和學習資訊並經由課程指引教科書和其他教學媒體的分析探討參

與國家的數學和科學課程以提供參與國家的政策制定者和實務工作者有關教學

和學生學習成就方面的珍貴訊息而技術報告和完整的國際資料庫也一併出版公

TIMSS 試題的編製流程是先製訂課程架構在根據課程架構編製成就測驗

而此課程架構是由一群來自 TIMSS 國家研究協調中心(TIMSS National Research

Coordinator)的數學和科學教育專家所發展出來的在 TIMSS 2003 的課程架構

中共分為兩個向度內容領域跟認知領域詳細內容如表 2-2-1 所示

27

表 2-2-1 TIMSS 2003 課程架構

數學 科學

內容領域 內容領域

數 生命科學

代數 化學

測量 物理學

幾何學 地球科學

8

級 資料

8

級環境科學

數目 生命科學

模式等式和關係 自然科學

測量 地球科學

4

級 幾何學數據

4

認知領域 認知領域

知道事實和程式 事實的知識

使用概念 概念的理解

解決日常問題 推理和分析

推理

第4年級代數內容領域被叫為模式等式和關係

其中在實作評量方面設計的原則是依照實用的可負擔的和容易翻譯成

多國語言和文化原則所設計的透過預試時取得評分指南包括正確的答覆跟不

正確答覆的描述及給分標準其評分系統採用維京評分系統以表格說明如下

28

表 2-2-2 維京評分系統

第一個碼

  2 類型的 CR 項目(分數碼)

(1) 2 分(外延反應評分)

2 分完整無誤

1 分部分對

(2) 1 分(問答)

(3) 0 分7-9

2 分

1 分

第二個碼

  診斷訊息碼

0-5表出現之頻次類次配合參數碼標之

如 20-2510-1570-75

9 為其他無特殊類別

  如 291979

78=自個兒ldquo診斷碼(國家碼 可自選)

  99 為空白

  79(Erases)

另外在問卷調查部份分為

一課程

(一)公式化課程

(二)課程的範圍和內容

(三)課程的組織

(四)監測和評估被實施的課程

(五)課程材料和支持

二學校

29

(一)學校組織

(二)學校目標

(三)校長的角色

(四)支持數學與科學的資源

(五)父母親介入

(六)學校環境

三老師和他們的準備

(一)學術準備和證明

(二)老師補充

(三)老師任務

(四)老師歸納

(五)老師經驗

(六)教的樣式

(七)專業發展

四教室活動和特徵

(一)課程題目

(二)時間

(三)家庭作業

(四)評量

(五)教室氣氛

(六)資訊技術

(七)計算器用途

(八)強調的研究重點

(九)班級大小

30

五學生

(一)家庭背景

(二)經驗

(三)態度

當 TIMSS 施測後許多國家對於施測結果所蘊藏的意義做了許多的解釋他

們認為施測結果不止顯示了學術成就還包括了學生所接受的課程和教育

(SchmidtJordeCoganBarrierGonzaloMoserShimizuSawadaValverde

PrawatMcknightRaizenBrittonWileyWolfe1996)國際比較主要的目的

在於評估不同國家的學生程度而另一個同樣重要的目的在於嘗試去了解及解釋

造成差異的原因Jaekyung Lee 在 1999 年時提出當我們進行國際比較時有三

點要注意的事項一應該要同時著重正規教育和學校教育以外的學習經驗

二重視區域性的差異

三注意學校的改革政策因為它會影響教育的實施與成果所以成績好不應沾

沾自喜而表現不好也應深究原因去注意其他表現好的國家真正做了什麼並

加以學習而非歸罪於整個制度

根據 TIMSS 2003 國際數學和科學報告(TIMSS 2003 International Reports

in Mathematics and Science)其中提到幾個圖表是跟本文有關並值得分析注

意的

31

圖2-2-1 1995年到2003年4年級學生的數學趨勢

32

上圖是從該報告第一章表格13擷取出來的該圖表顯示出從1995年到2003

年的4年級學生的數學趨勢其中香港拉脫維亞英國賽普勒斯紐西蘭

斯洛伐尼亞加拿大安大略省等七個國家或地區是呈現進步的情況而荷蘭挪

威加拿大魁北克省是退步的趨勢其他在圖表中的國家是沒有顯著差異的另

外在其文字說明部份也提到以色列和菲律賓從1999到2003也顯示出顯著的改

進像上述這些國家數學成就方面趨勢的變化可能跟社會或教育的改變有關

例如東方的政治變化跟歐洲十幾年前的教育改革已經實際改變這些國家的教育

成就例如立陶宛跟拉脫維亞這兩個國家的成就趨勢反映他們在改革過程中的

努力已經獲得某些驚人的成就

33

圖 2-2-2 4 年級學生在男女性別上的差異

上圖是從該報告第一章表格14擷取出來的該圖表顯示大部分國家或地區4

年級學生在男女性別上並無顯著差異但在幾個國家例外新加坡菲律賓亞

美尼亞跟Moldova共和國的女生有較高的數學平均成就荷蘭美國義大利

蘇格蘭賽普勒斯和兩個加拿大省份則是男生有較高的數學平均成就

34

圖2-2-3 1995到2003年的男女生進退步情形

上圖是從該報告第一章表格15擷取出來的該圖表表示從1995到2003年的

男女生進退步情形從圖表中得知男女生同時進步的國家或地區有賽普勒斯英

國香港拉脫維亞紐西蘭斯洛伐尼亞和安大略省而同時退步的國家有挪

威和魁北克省僅有男生退步但女生沒有的國家是荷蘭

第三節 TIMSS 試題與國內數學課程關係之分析

在魔術師的題組中研究者希望學生透過摺紙的方式不管對摺幾次最後

限制只能用剪刀剪一次的情況下要求學生剪出下列 3個圖型

35

每個學生剪每個圖型都有 3次機會這個題組的目的不止希望學生可以運用

全等的直覺利用幾何操作如平移旋轉翻轉等方式印證平時的經驗並將

全等的概念更加清晰還希望學生透過摺紙的方式了解認識垂直和對稱而剪紙

又可以增進學童分解圖形與建構圖形的能力所以本題組主要在測量學生對於全

等的直覺跟幾何操作垂直跟對稱和空間關係的瞭解以及解決非慣例題目的能

在圖形題中前 2個小題分別要求學生在一個長方形中劃一條直線將該長

方形分成 2個三角形或 2個長方形第 3小題要求學生在一個長方形中劃兩條直

線將該長方形分成 2 個三角形跟 1 個長方形第 4 小題則給等腰梯形並連接 2

條對角線在內部形成的 4個三角形中要求學生找出形狀相同但大小不同的兩

個三角形本題組在了解學生能否透過操作直尺或三角板在二維空間上剪裁出

指定的基本圖型並利用直觀的方式指出形狀相同但大小不同的三角形

上述兩個題目在評量學生的幾何能力根據我國國民中小學九年一貫課程綱

要數學學習領域中指出小學教師在從事幾何教學時最要避免的是來自本身歐

氏公設幾何訓練的干擾處處受制於定義的認定與邏輯順序由歷史來看人類

是先由應用操作實踐中認識各種幾何要素與性質彼此之間並沒有一定的

先後關係歐氏幾何的價值首先是對這些先民知識的歸類與整理其次才是作

36

為知識典範的演繹系統所以將幾何課程概分成四階段而學生在四年級時所應

該要學習到的幾何知識就如下列所示

一階段一(一年級到三年級)較強調幾何形體的認識探索與操作學生對

幾何形體中的幾何要素也許能指認但尚不清楚其結構意義

二階段二(四年級到五年級)由於數與量的發展逐漸成熟學生開始結合「數」

與「形」兩大主題學習運用幾何形體的構成要素(如角邊面)及其數量性

質(如角度邊長面積)

更詳細的相關能力指標詳列如下

1-S-04能依給定圖示將簡單形體作平面舖設與立體堆疊給定的圖示

可為圖卡或實物透過拼圖與堆積木等活動讓學童進行平移翻轉重疊

比對hellip等全等操作的練習

3-S-06能透過操作將簡單圖形切割重組成另一已知簡單圖形

4-S-02能透過操作認識基本三角形與四邊形的簡單性質

4-S-03能認識平面圖形全等的意義

4-S-16能理解平面上直角垂直與平行的意義

4-S-07能由直角垂直與平行的概念認識簡單平面圖形

4-S-08能利用三角板畫出直角與兩平行線段並用來描繪平面圖形

例學童會使用直尺或三角板畫出直角及兩平行線段進而用來繪製直角三角

形正方形長方形平行四邊形與梯形

因此學生在回答這兩個問題時應已具備足夠的能力

在幾何方塊的題組中給學生 3 塊白色方塊4 塊黑白相間的方塊和 3 塊黑

色方塊要求學生完成

一利用 2 張黑白相間方塊拼出一個較大的黑色三角形

二利用 4 張黑白相間方塊拼出一個黑色的正方形並求出佔幾分之幾

三不准使用黑白相間方塊將 4 張方塊拼出一個正方形使得黑色的部分佔 12

37

四請用 8 張方塊拼出一個如下圖的長方形使得黑色部分佔 58

這是一種包含幾何跟數與量的題目其中幾何的部份是要求學生建立一個二維圖

形並滿足題目的要求(數與量)幾何部分已經如上所述現在分析相關的數

與量

根據我國國民中小學九年一貫課程綱要數學學習領域中指出有理數是小學

的核心課程之一也是小學數學教育中最有挑戰性的教學主題因為學生較缺

乏有理數的前置經驗日常生活中的有理數情境也比整數少分數的形式是學生

首次碰到兩整數並置的約定至於什麼是穩當的有理數教學並無定論但是基

本的共識是學生需要較長的時間來學習掌握有理數的概念不論是先形式程

序或者先概念理解兩者都必須不斷互相支持在有理數教學中必須將材料

作適當的安排先從較容易的平分或測量入手而將其它的應用課題作為錘鍊

有理數數感的課題

在相關的能力指標詳列如下

3-n-09能在具體情境中初步認識分數並解決同分母分數的比較與加

減問題學童從具體情境或活動中掌握分數的概念能學會分數的記號並理

解運用分數記號來記錄同分母分數的比較與加減的方式例如以平分為基礎的

活動(離散量)問下列深色區域是全部圖形的幾分之幾

4-n-07能認識真分數假分數與帶分數熟練假分數與帶分數的互換

並進行同分母分數的比較加減與非帶分數的整數倍的計算

4-n-08能理解等值分數進行簡單異分母分數的比較並用來做簡單分

數與小數的互換在具體情境中說明分數等值的理由可先由分母的倍數差 2

4倍的分數先出發(因為切半的操作最簡單)

在施測學校所使用的教科書中第七冊第十單元分數中其教學目標也有

38

透過單位分數的合成和累加活動以真分數來描述單位分數的幾份可見此題對

施測學校的學生來說應有能力解決

另外兩題有關數與量的題目是數字卡跟猜一猜在數字卡部份題目分為兩

部份第一部份為抽出三張 0-9 的數字卡任意排列後找出最接近總和為 20 的

方法第二部份為抽出三張 0-9 的數字卡任意排列後分別找出和差跟積最大

的方法這在我國國民中小學九年一貫課程綱要數學學習領域中分類在數與量

中的整數部分根據附錄說明中指出整數計算是一切數學學習的基礎在教學

中學童經由活動情境掌握計算的意義藉著各種例子體驗計算的規則與策略

流暢的計算能力有如語文學習中基本的文字駕馭能力不僅可以內化學童的

數字感並且是日後(國高中)學習抽象運算及形式推導的基礎這樣的能力

固然是學習科學所必須也是能夠有效處理日常生活的基本能力之一所以國小

整數教學的課程目標在於

一從計數開始學習位值的約定與換算並在演算中逐步熟悉最後能掌握

大數

二在二年級下學期理解算術的樞紐九九乘法作為日後所有計算的基礎

三到四年級時能夠不拘泥於位數熟練加減乘除的直式計算

有關數與量的題目另一題是猜一猜題目是在 9個碗中前 4個碗中豆子

的數量分別是 29313128 個請猜一猜罐子中大約有幾個豆子並解釋你

的想法這在我國國民中小學九年一貫課程綱要數學學習領域中分類在數與

量中的估算部分估算在國民教育中可粗分為離散量的估算(自然數四則運算的

估算)與連續量的估算前者的教學應在學生已經能掌握確算後再進行而後

者的教學應透過測量時量不盡的正常情境與小數的教學共同開展認識小數

之細分與精確度的要求乃是一體的兩面估算的教學可以先在計算與驗算中強

調讓學生能對不合理的答案透過估算剔除然後是能判斷應用問題對答案

精確度的要求並藉由過去的解題經驗發展正確的估算策略或者是能針對

39

問題與解答發展估算策略驗算解答的合理性要注意的是估算屬於較高層

次的數學能力學生必須先對所使用的概念程序與問題情境有相當的理解才能

恰當地估算進而能正確判斷估算的時機與精確度的要求國小的估算教學要

特別注意評量的問題切忌因為強求估算禁止學生使用正常計算教師應在評

量的問題上下功夫讓問題本身暗示估算的好處

最後一題是擲骰子題目是用一個規則來改變骰子擲出來的數字要求學

生發現改變後的數字有什麼特性另外要求學生丟 30 次將結果記錄並統計在

表格中這是屬於統計與機率的部份我國課程在這部份強調統計和機率的知識

背景應來自生活環境因此以學生的生活經驗為主從學生感興趣的主題出發

使其學會敘述統計所呈現出的數字和圖表的意義強調圖表的表達和溝通並了

解抽樣機率的初步概念且能正確地運用各項統計資料於實際的生活中並要

求在三年級之前 先藉由簡易表格的製作協助學生建立資料的整理與分組的

概念進而練習報讀與說明資料並建立個別資料出現頻率概念的認識再藉著

直接和交叉對應表格的介紹並配合「數與量」的教學希望學生能掌握對表格

的認識並能加以運用

40

第三章 方法與步驟

本章節乃根據前兩章所提的研究目的與文獻探討進行研究設計以下將分別

就研究架構研究工具發展研究的信效度與實作評量的試題架構三節加以說明

第一節 研究架構

壹研究方法本研究是使用實作評量的方法進行實際施測使用 SPSS

與 EXCEL 軟體分析回收的施測數據

貳研究樣本本研究之研究對象是針對國小四年級學生以台中縣神岡鄉

某國小四年級學生為受試者共四班 127 人學校環境是住

宅與工業混合區

叁研究工具本研究的研究工具分為兩部份民國 89 年徐美英研究論文

中的題目跟 TIMSS 2003 公開的實作評量試題各三題TIMSS

2003 公開的實作評量試題是由 TIMSS 網站下載試題後再進

行翻譯每一個題組的施測時間是 30 分鐘

第二節 研究工具發展

本研究的研究工具分為兩部份民國 89 年徐美英研究論文中的題目跟 TIMSS

2003 公開的實作評量試題各三題以下將分別就試題的編製過程評分標準施

測人員和評分者四點加以說明

壹試題編製過程

一研究分析相關公開試題並與學校教材相互對照後進行選題

二選定題目後進行翻譯

三將翻譯好後的題目跟原始原文題目交給學校英語科任老師進行確認

41

四確定翻譯工作後與現任資深國小四年級的教師們共同討論題目的適切

性修改試題敘述的語句使文句的敘述能符合四年級學生的認知

五將修改後的題目請上述老師再做一次確認

六提供評分標準給上述老師討論全對部份給分不給分的情況

七題目定案

以數字卡這題為例題目如下

【題目數字卡】

在這部分你將會拿到一張印有 0到 9的數字卡如下圖請將這些數字卡

取下來

總和為ldquo20的數字遊戲

小杰與小明這兩個小孩正在玩一個ldquo總和為 20的遊戲其規則如下

總和為ldquo20的規則

一抽數字卡每一個人抽出三張數字卡

二加數字卡每一個人利用這三張數字卡做出一個加法問題使得算出的

總和最接近 20 例如假如抽出的數字卡 將數字任

意組合後下面是其中四種可能的方法

0 1 2 3 4

5 6 7 8 9

1 4 5

42

+ + + +

5 5 4 6 1 9 +

15 1 0

這時玩家應該選擇 + 4 因為它的總和 19最接近 20

19

小杰和小明開始玩遊戲了小杰抽出了 三張數字卡小明抽出

了 三張數字卡

一小杰要如何安排三張數字卡做出一個加法問題才能讓它的總和為最接

近 20記得要寫總和

二小明要如何安排三張數字卡做出一個加法問題才能讓它的總和最接近

20記得要寫總和

三小明說假如我抽到 我可以用兩種方法做出總和 20

請告訴我們小明用哪兩種方法可以使 做出總和 20

第一種方法

第二種方法

1

4

5 1

4

5

1

4 51

4

5

972

6 3 1

1 4 6

1 4 6

43

找出最大的數

小杰和小明利用數字卡玩另一個新的遊戲就是利用三張數字卡做出最

大的數

甲將 三張數字卡填入下列的格子內讓相加的結果為最大

乙將 三個數字填入下列的格子內讓相減的結果為最大

丙將 三個數字填入下列的格子內讓相乘的結果為最大

貳施測人員

由四位該班導師擔任在正式施測前由研究者針對施測應注意事項對施

測人員說明並在每一份題目上附上給老師的話說明施測時應注意的事項

及給分說明部分實作評量試題需要用到一些材料由研究者事先準備妥

當於考前交給施測人員至於材料的發放跟試題說明的時間並不包括在 30

分鐘的測驗時間之內

叁評分標準

一 89 年徐美英研究論文中的題目直接使用其附錄中的評分標準以擲

times

9 5 1

+

2 3 7

1 4 5

44

骰子這題為例其評分標準如下

第一題 1 正確的計算出(042648)

2 給分範圍2分

第二題 1 描述的類型與資料一致

2 形式可以是一個或多個以下的情形例如所有的數字

都是偶數數字的範圍從 0~84 出現 2次數字排列有

規則如+4-2+4-2

3 給分範圍2分

第三題 1 至少完成 25 次擲骰子的紀錄

2 正確的計算

3 給分範圍2分

第四題 1 統計的次數與第三題的資料一致

2 給分範圍2分

第 5a 題1 答案與資料一致

2 給分範圍1分

第 5b 題1 對觀察的數字提供合理的解釋

2 給分範圍1分

二 TIMSS 2003 公開的實作評量試題部分參照其公佈的評分標準翻譯

成中文以提供給資深四年級老師參考以數字卡這題為例

(一)第一部分總和為 20 的數字遊戲

1 第甲題

(1) 給分範圍 1分

1 寫出 2+7+9=18

2 沒有任何算式但有答案是 18 者

(2) 給分範圍0分

45

1 有寫出算式 2+7+9 但沒有答案 18 出現

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

或偏離主題的回答)

3 完全空白

2 第乙題

(1) 給分範圍1分

1 13+6=19 或 16+3=19

2 沒有任何算式但有答案是 19 者

(2) 給分範圍0分

1 有寫出算式 13+6 或 16+3 但沒有答案 19 出現

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

3 完全空白

3 第丙題

(1) 給分範圍2分

兩種方法都正確(16+4 和 14+6)

(2) 給分範圍1分

只有寫出其中一種方法(16+4 或 14+6)

(3) 給分範圍0分

1 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

2 完全空白

(二)第二部份找出最大的數

1 第甲題

(1) 給分範圍1分

46

91+5 或 95+1

(2) 給分範圍0分

1 將 159擺在任何其他不正確的位置

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

3 完全空白

2 第乙題

(1) 給分範圍1分

73-2

(2) 給分範圍0分

1 72-3

2 將 237擺在任何其他不正確的位置

3 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

4 完全空白

3 第丙題

(1) 給分範圍1分

41times5

(2) 給分範圍0分

1 51times4

2 將 145擺在任何其他不正確的位置

3 其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的

或偏離主題的回答)

4 完全空白

47

第三節 研究的信效度與實作評量的試題架構

壹信效度

由於此次的實作評量採用多元化記分的方式故信度計算採用 Cronbach α

係數算出信度值為 079而且每一題均有詳細說明細節行為的項目給定參考

答案圖形的作品量表各題除經著名國際測驗機構審核施測過外並由研究者另

請學校資深四年級教師共同研究討論題目與答案對於施測過程研究者也與四

位監考老師討論後訂出共同標準所以在效度方面具有專家效度跟內容效度

貳試題架構

此次實作評量的試題共六題分別是屬於數與量幾何統計與機率等三大

主題依據九年一貫課程綱要數學學習領域裡對這幾個大主題在國小四年級前的

學習說明研究者編制下表的試題架構

48

表 3-3-1 試題架構

題目 學習主題 主題層次 評量內涵說明

擲骰子 數與量

統計與機率

(1)整數

(2)簡易表格的製作

(1)可以對整數的變化

提出一套模式或發現

(2)簡易表格的製作結

果統計與發現

猜一猜 數與量 估算 使用估算的技巧協助計算

與解題

魔術師 幾何 對稱的實際操作 透過摺紙的對稱觀念理解

平面圖形的線對稱關係

圖形題 幾何

(1)幾何形體的認識與

切割

(2)幾何形體『形』的

直觀認識

(1)透過操作將簡單圖

形切割成另一簡單圖

(2)直觀指出平面圖形的

相似

數字卡 數與量 運用加減乘法求最大值

透過位值概念將給定的數

字編排在不同的位值進行

加減乘法得到接近題

目要求的答案或所有可能

的最大值

幾何方塊 幾何

數與量

(1)幾何形體的拼合

(2)有理數(部分全體

的意涵)

(1)利用黑白相間方塊

拼出指定的簡單平面

圖形

(2)在具體情境中認識

分數

49

第四章 結果與討論

本章主要是呈現資料分析的結果並加以討論共分為四節第一節是利用

TIMSS 1999 實作評量試題比較民國 89 年跟民國 95 年的成績差異第二節是利

用 TIMSS 2003 實作評量試題檢視施測學校在性別及班級間是否存在差異第

三節是利用 TIMSS 2003 實作評量試題比較施測學校與原始施測資料的成績差

異第四節是實作評量試題的類推性

第一節 利用 TIMSS 1999 實作評量試題比較民國

89 年跟民國 95 年的成績差異

研究者本小節要探討的是 TIMSS 1999 的施測結果與民國 89 年徐美英所進行

的研究之比較主要的比較項目為平均數標準差及得分情形分配百分比基於

此研究者採用百分比圖表及各小題反推出得分人數之後用獨立樣本 t檢定的

方式比較平均數另外依百分比反推出人數時有時會因四捨五入產生總人數多

1人的情況此時會對進位數最小的數採取無條件捨去法以符合總人數一致另

因研究者分三天進行六題施測每題實際受測人數也有不同研究者使用的資料

來源有兩個分別是 TIMSS 2003 實作評量題目及 TIMSS 1999 實作評量題目為

了呈現方便研究者將取自 TIMSS 2003 實作評量題目所作的施測結果用『95 年』

表示另外 TIMSS 1999 實作評量題目為研究者從民國 89 年徐美英的論文中擷取

出來的當年的施測結果以『89 年』表示

50

壹魔術師

表4-1-1 95年魔術師題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

魔術師ㄧ 16 16 68 5 127

魔術師二 101 151 748 5 127

魔術師三 202 235 563 5 127

由表 4-1-1 得知研究者此次此題型的施測結果各題得分均以得 2分者居

多得 1分居次利用表 4-1-1研究者也從民國 89 年徐美英的論文中找到類

似資料列在表 4-1-2表 4-1-2 是從論文的本文中摘錄下來的研究者反覆研

究該論文時發現在 P73 也有附錄一份有關魔術師各題的資料統整不過兩者的

個數有所差異下表總人數 156 人遺漏值 5人附錄中個數是 155 人下表反推

出人數後的平均數也與附錄稍有出入研究者以本文的表格為準

表4-1-2 89年魔術師題組得分情形分配表

題目 得 0分人數() 得 1分人數()得 2分人數() 遺漏值 總人數

魔術師ㄧ 419 258 323 5 156

魔術師二 194 194 613 5 156

魔術師三 258 258 484 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

51

0

10

20

30

40

50

60

70

80

魔術師ㄧ 魔術師二 魔術師三

95年答對率

89年答對率

圖 4-1-1 百分比圖表比較結果

由上圖可知95 年答對的答對率在 3題中均優於 89 年的結果其中以魔術

師ㄧ的資料差距最大但此兩年的資料也有一個共同的趨勢就是該年度的答對

率有魔術師二的答對率>魔術師ㄧ的答對率>魔術師三的答對率研究者進一步

反推 89 年的得分人數後將兩年的資料進行獨立樣本 t檢定結果列於表 4-1-3

表 4-1-4表 4-1-5

表 4-1-3 魔術師ㄧ獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異數

相等 4323 0039 6098 272000 0000 0410 0800

1

不假設變異

數相等 6173 270036 0000 0410 0800

52

表 4-1-3 可以看出變異數 Leven 檢定結果P值lt005所以達到顯著差異

可見變異數是不能視為相等的後面 t檢定值 6173P 值lt005所以有達到顯

著差異可見平均數是不能視為相等故這一小題明顯的是 95 年的學生成績較

表 4-1-4 魔術師二獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異數

相等 17130 0000 2550 270000 0011 0050 0410

2

不假設變異

數相等 2605 270000 0010 0060 0400

表4-1-4可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是不能視為相等的後面t檢定值2605P值lt005所以有達到顯著

差異可見平均數是不能視為相等故這一小題明顯的也是95年的學生成績較佳

表 4-1-5 魔術師三獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 0443 0506 1332 272000 0184 -0100 0330

3

不假設變

異數相等 1338 265000 0182 -0100 0330

53

表4-1-5可以看出變異數Leven檢定結果P值gt005所以沒有達到顯著差

異可見變異數是要視為相等的後面t檢定值1332P值gt005所以沒有達到

顯著差異可見平均數是也可以視為相等故這一小題兩年的學生成績沒有差別

接著研究者對整個題組總得分進行比較由於 89 年論文中只有平均數與標

準差兩項資料研究者只能稍做比較95 年施測的平均數為 424標準差為 208

而 89 年的平均數是 375標準差是 207由於兩者標準差的差距很小可見兩

項資料的集中平均數的趨勢是差不多的而平均數則是 95 年多 049 分

二擲骰子

表4-1-6 95年擲骰子題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

擲骰子一 101 202 697 8 127

擲骰子二 597 395 08 8 127

擲骰子三 25 319 655 8 127

擲骰子四 345 378 277 8 127

擲骰子五 a 462 538 8 127

擲骰子五 b 950 50 8 127

由表 4-1-6 得知研究者此次擲骰子題組中各題得分擲骰子一以得 2分

居多佔 697擲骰子二以得 0分居多佔 597擲骰子三以得 2分居多

佔 655擲骰子四以得 1分居多佔 378擲骰子五 a以得 1分居多佔 538

擲骰子五 b以得 0分居多佔 95擲骰子二與擲骰子五 b是要求學生說明理由

或描述規則可見學校教學應該可以再加強學生在解釋資料上的能力

54

表4-1-7 89年擲骰子題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

擲骰子一 32 65 903 5 156

擲骰子二 548 387 65 5 156

擲骰子三 00 65 935 5 156

擲骰子四 65 129 806 5 156

擲骰子五 a 97 903 5 156

擲骰子五 b 839 161 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

0

20

40

60

80

100

擲骰

子一

擲骰

子二

擲骰

子三

擲骰

子四

擲骰

子五

a

擲骰

子五

b

95年答對率

89年答對率

圖 4-1-2 百分比圖表比較結果

由上圖可知89 年答對的答對率在 5題中均優於 95 年的結果其中擲骰子

二與擲骰子五 b兩年的答對率都很低可見對位於城鄉交界處的台灣學生而言

這種類型的題目屬於偏難的題型研究者進一步反推 89 年的得分人數後將兩

年的資料進行獨立樣本 t檢定結果列於表 4-1-8表 4-1-9表 4-1-10表

55

4-1-11表 4-1-12表 4-1-13

表 4-1-8 擲骰子一獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 56450 0000 -4100 270000 0000 -0400 -0140

1

不假設變

異數相等 -3900 195000 0000 -0400 -0130

表4-1-8可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是要假設不相等的後面t檢定值-3906P值lt005所以也達到顯

著差異可見平均數是不能視為相等故這一小題是89年的學生表現較優秀

表 4-1-9 擲骰子二獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 9470 0002 -1500 270000 0141 -0200 0035

2

不假設變

異數相等 -1500 270000 0133 -0200 0032

表4-1-9可以看出變異數Leven檢定結果P值lt005所以有達到顯著差異

可見變異數是要視為不相等的後面t檢定值-1506P值gt005所以沒有達到

顯著差異可見平均數是可以視為相等故這一小題兩年的學生成績沒有差別

56

表 4-1-10 擲骰子三獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 186200 0000 -6200 270000 0000 -0400 -0210

3

不假設變

異數相等 -5800 162000 0000 -0400 -0200

表4-1-10可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是要視為不相等的後面t檢定值-5806P值lt005所以達到顯著

差異可見平均數是有顯著差異的故這一小題89年的學生成績表現較好

表 4-1-11 擲骰子四獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 19580 0000 -9900 270000 0000 -1000 -0650

4

不假設變

異數相等 -9600 212000 0000 -1000 -0650

表4-1-11可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-9565P值lt005有達到顯著差異

可見平均數是有顯著差異的故這一小題89年的學生成績比較好

57

表4-1-12 擲骰子五a獨立樣本t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 207800 0000 -7400 270000 0000 -0500 -0270

五 a

不假設變

異數相等 -7000 187000 0000 -0500 -0260

表4-1-12可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-7036P值lt005有達到顯著差異

可見平均數是有顯著差異故這一小題89年的學生成績比較好

表 4-1-13 擲骰子五 b獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 38760 0000 -2900 270000 0004 -0200 -0035

五b

不假設變

異數相等 -3100 251000 0003 -0200 -0039

表4-1-13可以看出變異數Leven檢定結果P值lt005達到顯著差異可見

變異數是要視為不相等的後面t檢定值-3052P值lt005達到顯著差異可

見平均數是有顯著差異故這一小題89年的學生成績比較好

接著研究者對整個題組總得分進行比較由於 89 年論文中只有平均數與標

58

準差兩項資料研究者只能稍做比較95 年施測的平均數為 48346標準差為

24455而 89 年的平均數是 68258標準差是 16947可見 89 年的資料顯示

集中平均數的趨勢較高而 95 年的資料則較為分散而且平均數又是 89 年多

19912 分多出將近 12 倍

三猜一猜

表4-1-14 95年猜一猜題組得分情形分配表

題目 得0分人

數()

得1分人

數()

得2分人

數()

得3分人

數()

得4分人

數()

得5分人

數() 遺漏值 總人數

猜一猜 3858 2441 1102 630 787 1181 0 127

由表 4-1-14 得知研究者此次擲骰子題組中得分以得 0分者居多顯示

學生的概算能力非常不足其次是得 1分的較多這顯示學生曉得題目要掌握哪

些資訊只是不懂得利用這些資訊0分與 1分的人數竟佔超過 50結果頗令

人訝異

表 4-1-15 89 年擲骰子題組得分情形分配表

題目 得0分人

數()

得1分人

數()

得2分人

數()

得3分人

數()

得4分人

數()

得5分人

數() 遺漏值 總人數

猜一猜 2580 650 100 1190 3230 2260 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

59

猜一猜

0

10

20

30

40

50

60

95年答對率 89年答對率

圖4-1-3 百分比圖表比較結果

本題研究者將得 4分與得 5分者列為答對人數由上圖可知89 年答對的答

對率優於 95 年的結果研究者進一步反推 89 年的得分人數後將兩年的資料進

行獨立樣本 t檢定結果列於表 4-1-16表 4-1-17

表4-1-16 猜一猜資料統計

年度 個數 平均數 標準差平均數的

標準誤

95 127 156 175 016 得分

89 151 286 196 016

表4-1-17 猜一猜獨立樣本t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 5639 0018 -5800 276000 0000 -1700 -0860猜

猜 不假設變

異數相等 -5900 275000 0000 -1700 -0864

60

表4-1-17可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-5856P值lt005有達到顯著差異

可見平均數是有顯著差異故這一小題89年的學生成績比較好

第二節 利用 TIMSS 2003 實作評量試題檢視施測

學校在性別及班級間是否存在差異

在各題型得分的相關情形方面將之整理成表格 4-2-1由表中得知除了

圖形題與猜一猜的相關係數達到005的顯著水準之外其他相關各題均達到001

的顯著水準也就是說圖形題與數字卡幾何方塊魔術師猜一猜擲骰子

等題有相當程度的關係其他各題相互之間也是類似的關係這說明了此次的考

題不只是幾何能力之間有相關的情況幾何能力與統計概念數的運算能力

概算能力之間也有相當程度的關係

61

表 4-2-1 各題型之相關係數

圖形題 數字卡 幾何方塊 魔術師 猜一猜 擲骰子

Pearson 相關 1 0617 0419 0487 0174 044

顯著性 (雙尾) 0 0 0 005 0 圖形

個數 127 127 127 127 127 127

Pearson 相關 0617 1 0517 0562 0272 0587

顯著性 (雙尾) 0 0 0 0002 0 數字

個數 127 127 127 127 127 127

Pearson 相關 0419 0517 1 0397 0308 0389

顯著性 (雙尾) 0 0 0 0 0 幾何

方塊

個數 127 127 127 127 127 127

Pearson 相關 0487 0562 0397 1 0248 0509

顯著性 (雙尾) 0 0 0 0005 0 魔術

個數 127 127 127 127 127 127

Pearson 相關 0174 0272 0308 0248 1 0317

顯著性 (雙尾) 005 0002 0 0005 0 猜一

個數 127 127 127 127 127 127

Pearson 相關 044 0587 0389 0509 0317 1

顯著性 (雙尾) 0 0 0 0 0 擲骰

個數 127 127 127 127 127 127

在顯著水準為001時 (雙尾)顯著相關

在顯著水準為005時 (雙尾)顯著相關

62

表4-2-2 班級對總分之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

班級 390132 3000 130044 2046 0111

誤差 7806910 123000 63471

總和 8197040 126000

以單因子變異數分析班級對總分的結果如表4-2-2在α=005之下F檢定值為

2049相對應的P值是0111因為P值>005所以未達顯著差異也就是各班

級間的實作評量總分並沒有因班級的不同而顯現出差異

表4-2-3 性別對總分之組別統計量與t檢定表

性別 個數 平均數 標準差 平均數的標準誤

男生 65 21892 7567 0939 總分

女生 62 23355 8595 1092

獨立樣本檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 0320 0573 -0998 125000 0320 -4263 1404

分 不假設變

異數相等 -0996 121524 0322 -4272 1413

從表4-2-3來看雖然女生平均成績是2331分高於男生的2188分但根

據獨立樣本t檢定的檢定結果變異數的Levene檢定F值為0320P值為0573

顯示出男生與女生的變異數沒有顯著差異而平均數的t檢定值為-0998P值為

63

032也顯示出男女生的平均數是沒有顯著差異的研究者進一步分析性別與各

題的t檢定結果顯示於表4-2-4

表4-2-4 性別對各題之組別統計量與t檢定表

性別 個數 平均數 標準差 平均數的標準誤

男生 65 326 112 014 圖形題

女生 62 340 098 012

男生 65 418 215 027 數字卡

女生 62 474 212 027

男生 65 417 160 020 幾何方塊

女生 62 413 167 021

男生 65 417 204 025 魔術師

女生 62 432 213 027

男生 65 135 163 020 猜一猜

女生 62 177 185 023

男生 65 474 237 029 擲骰子

女生 62 494 253 032

64

獨立樣本檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 1522 0220 -0756 125000 0451 -0510 0230圖

題 不假設變

異數相等 -0758 124117 0450 -0510 0230

假設變異

數相等 0431 0513 -1471 125000 0144 -1310 0190數

卡 不假設變

異數相等 -1471 124863 0144 -1310 0190

假設變異

數相等 0067 0797 0139 125000 0890 -0530 0610

不假設變

異數相等 0138 123883 0890 -0530 0620

假設變異

數相等 0031 0860 -0414 125000 0680 -0890 0580魔

師 不假設變

異數相等 -0413 123981 0680 -0890 0580

假設變異

數相等 2029 0157 -1359 125000 0177 -1030 0190猜

猜 不假設變

異數相等 -1355 121450 0178 -1030 0190

假設變異

數相等 0391 0533 -0452 125000 0652 -1060 0660擲

子 不假設變

異數相等 -0452 123426 0652 -1060 0670

65

結果顯示各小題的平均數女生分別是34474413432177

494男生分別是326418417417135474除了幾何方塊之外

幾乎都是女生高於男生而各小題的Levene變異數檢定結果其P值分別是

0220513079708601570533均大於005顯示沒有顯著差異

而平均數的檢驗結果各題的P值分別是0451014408906801770652

也都大於005也呈現沒有達到顯著差異可見這6題的考題成績結果與刻板

印象「男生數理比較厲害」有不同的結果

第三節 利用 TIMSS 2003 實作評量試題比較施測

學校與原始施測資料的成績差異

本節研究重點是 TIMSS 2003 的題目與國際受測國家中總體表現較好的國家

資料及台灣原始資料進行比較TIMSS 網站上提供各個受測國家的資料檔研究

者下載了新加坡香港日本台灣比利時與美國的資料之所以下載這幾個

國家的資料是因為四年級測驗總分結果前五名剛好是新加坡香港日本台

灣比利時而且從總分的分析結果顯示台灣與新加坡香港有顯著差異與日

本沒有顯著差異而比利時與台灣也有顯著差異所以比較這五個國家而美國

是因為研究者想了解美國學生是否真的比較會活用故列入此次的比較探討在

實作評量上是否達到顯這差異研究方法採用變異數分析與事後比較事後比較

採用雪費(Scheffe)檢定法由於 TIMSS 施測時採用 12 本測驗題本所以參與

實作評量的各題人數並不一致會出現同一個國家在不同題目上有不同人數的情

況另外因研究者分三天進行六題施測每題實際受測人數也有不同

一圖形題

66

表4-3-1 95年圖形題題組得分情形分配表

題目 得 0分人數 得 1分人數 缺失值 總人數

圖形題甲 66 934 6 127

圖形題乙 41 959 6 127

圖形題丙 174 826 6 127

圖形題丁 223 777 6 127

由表 4-3-1 可知在圖形題題組中各小題得分均以得 1分的人數分別是

934959826777各題百分比是否達到顯著不同研究者用百分比

同質性檢定結果列於表 4-3-2

表 4-3-2 圖形題百分比同質性檢定

得分題目 交叉表

題目

1 2 3 4 總和

得分 0 8 5 21 27 61

得分 1 113 116 100 94 423

總和 121 121 121 121 484

卡方檢定

數值 自由度 p-value

Pearson 卡方 24666a 3000 0000

概似比 25936 3000 0000

線性對線性的關連 19950 1000 0000

有效觀察值的個數 484000

a 0 格(0)的預期個數少於 5最小的預期個數為 1525

67

結果顯示 Pearson 的卡方值 24666df=3p=0000達到顯著水準所以

各題的答對率百分比是不同的

表4-3-3 圖形題題組各國答對率的比較

題目 新加坡答

對率

香港答對

日本答對

台灣答對

比利時答

對率

美國答對

施測學校

答對率

圖形題甲 830 958 917 936 833 727 934

圖形題乙 937 988 902 950 911 877 959

圖形題丙 702 859 744 847 504 328 826

圖形題丁 616 490 634 656 504 553 777

00

400

800

新加坡

香港

日本

台灣

比利時

美國

施測學

圖形

題甲

圖形

題乙

圖形

題丙

圖形

題丁

圖4-3-1 圖形題題組答對率之比較圖

由表 4-3-3 與圖 4-3-1 可知在圖形題題組中甲題的答對率以香港最高

台灣與施測學校居次美國最低乙題的答對率以香港最高台灣與施測學校還

是居次美國最低丙題的答對率以香港最高台灣居次美國最低而且低到

328丁題的答對率以施測學校最高台灣居次香港最低低到 490香港

68

在此小題的表現與上述三小題的結果明顯有很大差距

接著進行變異數分析與事後比較的結果

表4-3-4 圖形題各題之資料統整

圖形題甲

有效的個數 平均數 標準差

新加坡甲 1103 0830462 0375396

香港甲 757 0957728 0201342

日本甲 767 0916558 0276730

台灣甲 776 0935567 0245681

比利時甲 779 0833119 0373109

美國甲 1636 0726773 0445753

施測甲 121 0933884 0249517

圖形題乙

有效的個數 平均數 標準差

新加坡乙 1103 0937443 0242274

香港乙 757 0988111 0108458

日本乙 767 0902216 0297216

台灣乙 776 0949742 0218617

比利時乙 779 0911425 0284312

美國乙 1636 0877139 0328378

施測乙 121 0958678 0199862

題形題丙

有效的個數 平均數 標準差

新加坡丙 1103 0701723 0457709

香港丙 757 0858653 0348610

日本丙 767 0744459 0436450

台灣丙 776 0846649 0360557

比利時丙 779 0504493 0500301

美國丙 1636 0327628 0469492

施測丙 121 0826446 0380300

69

圖形題丁

有效的個數 平均數 標準差

新加坡丁 1103 0615594 0486675

香港丁 757 0490092 0500232

日本丁 767 0633638 0482125

台灣丁 776 0655928 0475371

比利時丁 779 0504493 0500301

美國丁 1636 0552567 0497381

施測丁 121 0776860 0418083

由表 4-3-4 得知參與此題的人數以美國的 1636 人最多香港日本台

灣比利時的人數差不多經變異數分析後如表 4-3-5 所示

表 4-3-5 圖形題各題之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

圖形題甲 組間 44078 6 7346 59531 0000

組內 732026 5932 0123

總和 776103 5938

圖形題乙 組間 8009 6 1335 18752 0000

組內 422269 5932 0071

總和 430278 5938

圖形題丙 組間 257623 6 42937 223054 0000

組內 1141889 5932 0192

總和 1399511 5938

圖形題丁 組間 24546 6 4091 17047 0000

組內 1423561 5932 0240

總和 1448107 5938

70

表4-3-5顯示在α=005之下圖形題4小題的P值均<005均達顯著

水準可見這4題的平均得分有顯著不同所以研究者進一步做事後分析如表

4-3-6所示配合研究者的研究目的本文中只摘錄與研究目的相關的資料其

他比較結果請參閱附錄表格

表 4-3-6 圖形題各題之事後比較

Scheffe 法

題目 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0100 0034 0150

香港 -0024 0034 0998

日本 0017 0034 1000

台灣 -0002 0034 1000

比利時 0100 0034 0196

圖形題

美國 0210 0033 0000

施測 新加坡 0021 0026 0995

香港 -0029 0026 0973

日本 0057 0026 0585

台灣 0009 0026 1000

比利時 0047 0026 0772

圖形題

美國 0082 0025 0105

施測 新加坡 0120 0042 0185

香港 -0032 0043 0997

日本 0082 0043 0724

台灣 -0020 0043 1000

比利時 0320 0043 0000

圖形題

美國 0500 0041 0000

施測 新加坡 0160 0047 0066

香港 0290 0048 0000

日本 0140 0048 0178

台灣 0120 0048 0382

比利時 0270 0048 0000

圖形題

美國 0220 0046 0001

71

由表4-3-6所顯示的結果得知在圖形題這四小題中施測學校與台灣在2003

年所作的調查結果的資料並沒有達到顯著差異可見施測學校的圖形題各小題的

平均得分與2003年的台灣資料的圖形題各小題的平均得分是視為相等的施測學

校在圖形題乙的部分與國際上2003年表現較好的國家的施測資料也都沒有達到

顯著差異可見在這一小題上施測學校與國際上表現較好的國家的平均得分也

是可以視為相等的但是在圖形題甲中施測學校與美國有達到顯著差異在圖

形題丙中施測學校與比利時美國有達到顯著差異在圖形題丁中施測學校

與香港比利時美國有達到顯著差異可見在圖形題甲中施測學校的平均得

分優於美國在圖形題丙中施測學校的平均得分優於比利時與美國在圖形題

丁中施測學校的平均得分優於香港比利時與美國

接下來以整個圖形題的題組來看由表 4-3-7 所示變異數分析的結果

表4-3-7 圖形題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 725457 6 120910 107817 0000

組內 6652328 5932 1121

總和 7377785 5938

在α=005的情況下F檢定值為107817plt005達到顯著差異所以

可以得知這七個國家的平均得分有顯著差異所以要進行事後比較如表4-3-8

所示

72

表4-3-8 圖形題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0410 0101 0012

香港 0200 0104 0708

日本 0300 0104 0215

台灣 0110 0104 0982

比利時 0740 0103 0000

美國 1010 0100 0000

由表 4-3-8 得知整個題組的事後分析顯示在α=005 的情況下施測學

校的總分平均得分與與台彎沒有達到顯著差異所以平均總得分是可以視為相等

的而施測學校總平均得分與新加坡比利時美國有達到顯著差異所以施測

學校的總平均得分是優於新加坡比利時與美國

二數字卡題組

表4-3-9 95年數字卡題題組得分情形分配表

得 0分人數 得 1分人數 得 2分人數 遺漏值 總人數

數字卡 1 317 683 7 127

數字卡 2 242 758 7 127

數字卡 3 117 92 792 7 127

數字卡 4 300 700 7 127

數字卡 5 317 683 7 127

數字卡 6 783 217 7 127

由表 4-3-9 可知在數字卡題題組中各小題得分分別以數字卡 1得 1分者

73

佔 683以數字卡 2得 1分者佔 758以數字卡 3得 2分者佔 792以數字

卡 4得 1分者佔 70以數字卡 5得 1分者佔 683以數字卡 6得 0分者佔 783

居多數字卡 6得分偏低此小題是要求學生將已知的三個數字拼成兩個數後所

得乘積最大結果顯示學生答對率偏低但學生在加法與減法上則無此現象(數

字卡 4與數字卡 5)此題各國答對率的比較結果列於表 4-3-10

表4-3-10 數字卡題題組各國答對率的比較

題目 新加坡 香港 日本 台灣 比利時 美國 施測學校

數字卡 1 494 624 646 698 475 416 683

數字卡 2 567 538 619 657 556 458 758

數字卡 3 645 595 594 657 553 563 792

數字卡 4 713 710 754 647 556 534 700

數字卡 5 693 689 738 629 546 497 683

數字卡 6 264 243 362 225 185 135 217

0

20

40

60

80

100

數字卡1

數字卡2

數字卡3

數字卡4

數字卡5

數字卡6

圖 4-3-2 數字卡題題組答對率之比較圖

74

由表 4-3-10 與圖 4-3-2 可知在圖形題題組中第 1題的答對率以台灣最

高施測學校居次美國最低第 2題的答對率以施測學校最高台灣居次美

國最低第 3題的答對率以施測學校最高台灣居次比利時最低第 4題的答

對率以日本最高新加坡和香港居次美國最低第 5題的答對率以日本最高

新加坡居次美國最低第 6題的答對率還是以日本最高新加坡居次美國最

低接著進行變異數分析結果列於表 4-3-11

表 4-3-11 數字卡題各題之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

組間 34477 6 5746 2418 0000

組內 717422 3019 0238 第一題

總和 751899 3025

組間 18413 6 3069 12727 0000

組內 727966 3019 0241 第二題

總和 746379 3025

組間 36829 6 6138 7166 0000

組內 2585878 3019 0857 第三題

總和 2622707 3025

組間 22038 6 3673 16419 0000

組內 675332 3019 0224 第四題

總和 697369 3025

組間 24878 6 4146 18142 0000

組內 689975 3019 0229 第五題

總和 714853 3025

組間 14939 6 2490 14850 0000

組內 506156 3019 0168 第六題

總和 521095 3025

75

表4-3-11顯示在α=005之下數字卡題6小題均達顯著水準可見這6小題

的平均得分有顯著不同所以研究者進一步做事後分析如表4-3-12所示配合

研究者的研究目的本文中只摘錄與研究目的相關的資料其他比較結果請參

閱附錄表格

表4-3-12 數字卡題之事後比較

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0190 0049 0021

香港 0059 0051 0969

日本 0037 0051 0998

台灣 -0015 0051 1000

比利時 0209 0051 0010

第一題

美國 0267 0048 0000

施測 新加坡 0192 0049 0020

香港 0221 0051 0005

日本 0140 0052 0296

台灣 0101 0051 0692

比利時 0203 0051 0016

第二題

美國 0301 0048 0000

施測 新加坡 0335 0093 0045

香港 0451 0097 0001

日本 0404 0098 0009

台灣 0302 0097 0136

比利時 0500 0097 0000

第三題

美國 0490 0091 0000

施測 新加坡 -0013 0048 1000

香港 -0010 0050 1000

日本 -0054 0050 0978

台灣 0053 0049 0979

比利時 0144 0049 0201

第四題

美國 0166 0046 0045

76

表 4-3-12(續) 數字卡題之事後比較

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 -0010 0048 1000

香港 -0006 0050 1000

日本 -0054 0050 0979

台灣 0054 0050 0978

比利時 0138 0050 0267

第五題

美國 0186 0047 0014

施測 新加坡 -0047 0041 0971

香港 -0026 428E-02 0999

日本 -0145 0043 0079

台灣 -0008 0043 1000

比利時 0031 0043 0997

第六題

美國 0082 0040 0654

由表4-3-12所顯示的結果得知在數字卡題這六小題中施測學校與台

灣在2003年所作的調查結果資料並沒有達到顯著差異可見施測學校的數字卡題

各小題的平均得分與2003年的台灣資料的數字卡題各小題的平均得分是視為相

等的施測學校在數字卡題第六題的部分與國際上2003年表現較好的國家的施測

資料也都沒有達到顯著差異可見在這一小題上施測學校與國際上表現較好的

國家的平均得分也是可以視為相等的但是在數字卡題第一題中施測學校與新

加坡比利時美國有達到顯著差異顯示在這一小題中施測學校的成績是優

於這三個國家的在數字卡題第二題中施測學校與新加坡香港比利時美

國有達到顯著差異顯示在這一小題中施測學校的成績是優於這四個國家的

在數字卡題第三題中施測學校與新加坡香港日本比利時美國有達到顯

著差異顯示在這一小題中施測學校的成績是優於這五個國家的在數字卡題

第四題中施測學校與美國有達到顯著差異顯示在這一小題中施測學校的成

績是優於美國的在數字卡題第五題中施測學校與美國有達到顯著差異顯示

77

在這一小題中施測學校的成績是優於美國的

接下來以整個數字卡題的題組來看由表 4-3-13 所示變異數分析的結果

表4-3-13 數字卡題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 660902 6 110150 23261 0000

組內 14295950 3019 4735

總和 14956850 3025

在α=005的情況下F檢定值為23261plt005達到顯著差異所

以可見這七個國家總分的平均得分有顯著差異所以進行事後比較如表4-3-14

所示

表 4-3-14 數字卡題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0645 0219 0192

香港 0688 0228 0167

日本 0327 0229 0916

台灣 0486 0227 0598

比利時 1224 0227 0000

美國 1492 0213 0000

由表4-3-14得知整個題組的事後分析顯示在α=005的情況下施測學校

的總分平均得分與台彎沒有達到顯著差異所以平均總得分是可以視為相等的

而施測學校總平均得分與比利時美國有達到顯著差異所以施測學校的總平均

得分是優於比利時與美國

78

三幾何方塊題組

表4-3-15 95年幾何方塊題題組得分情形分配表

得 0分人數 得 1分人數 得 2分人數 遺漏值 總人數

幾何方塊 1 50 950 8 127

幾何方塊 2 109 891 8 127

幾何方塊 3 252 748 8 127

幾何方塊 4 193 807 8 127

幾何方塊 5 244 479 277 8 127

由表 4-3-15 可知在幾何方塊題題組中各小題得分分別以幾何方塊 1得 1

分者佔 95以幾何方塊 2得 1 分者佔 891以幾何方塊 3 得 1 分者佔 748

以幾何方塊 4得 1分者佔 807以幾何方塊 5得 1分者佔 479居多各題各

國答對率的比較結果列於表 4-3-16

表 4-3-16 幾何方塊題題組各國答對率的比較

題目 新加坡 香港 日本 台灣 比利時 美國 施測學校

幾何方塊 1 432 602 785 580 517 399 950

幾何方塊 2 447 470 717 546 548 405 891

幾何方塊 3 720 702 557 613 432 461 748

幾何方塊 4 557 436 447 323 516 446 807

幾何方塊 5 115 66 135 82 123 76 277

79

0

20

40

60

80

100

幾何

方塊1

幾何

方塊2

幾何方塊3

幾何

方塊4

幾何

方塊5

圖4-3-3 幾何方塊題題組答對率之比較圖

由表 4-3-16 與圖 4-3-3 可知在幾何方塊題組中第 1題的答對率以施測

學校最高日本居次美國最低第 2題的答對率以施測學校最高日本居次

美國最低第 3題的答對率以施測學校最高新加坡居次比利時最低第 4題

的答對率以施測學校最高新加坡居次台灣最低第 5題的答對率以施測學校

最高日本居次香港最低接著進行變異數分析結果列於表 4-3-17

80

表 4-3-17 幾何方塊題各題之變異數分析

得分 平方和 自由度 平均平方和 F 檢定 p-value

組間 115732 6 19289 83927 0000

組內 1363788 5934 0230 第一題

總和 1479520 5940

組間 75877 6 12646 53259 0000

組內 1409236 5935 0237 第二題

總和 1485112 5941

組間 77699 6 12950 55905 0000

組內 1374774 5935 0232 第三題

總和 1452473 5941

組間 42205 6 7034 29061 0000

組內 1436564 5935 0242 第四題

總和 1478768 5941

組間 51860 6 8643 20902 0000

組內 2454259 5935 0414 第五題

總和 2506120 5941

表4-3-17顯示幾何方塊題5小題均達顯著水準可見這5題的平均得分

有顯著不同所以研究者進一步做事後分析如表4-3-18所示配合研究者的研

究目的本文中只摘錄與研究目的相關的資料其他比較結果請參閱附錄表格

81

表4-3-18 幾何方塊題各題之事後比較

Scheffe 法

題號 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0520 0046 0000

香港 0350 0047 0000

日本 0160 0047 0060

台灣 0370 0047 0000

比利時 0430 0047 0000

第一題

美國 0550 0046 0000

施測 新加坡 0440 0047 0000

香港 0420 0048 0000

日本 0170 0048 0040

台灣 0340 0048 0000

比利時 0340 0048 0000

第二題

美國 0490 0046 0000

施測 新加坡 0028 0046 0999

香港 0046 0047 0988

日本 0190 0047 0012

台灣 0140 0047 0230

比利時 0320 0047 0000

第三題

美國 0290 0046 0000

施測 新加坡 0250 0047 0000

香港 0370 0049 0000

日本 0360 0049 0000

台灣 0480 0049 0000

比利時 0290 0049 0000

第四題

美國 0360 0047 0000

82

表 4-3-18(續) 幾何方塊題各題之事後比較

題號 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0260 0062 0006

香港 0430 0063 0000

日本 0280 0063 0004

台灣 0480 0063 0000

比利時 0350 0063 0000

第五題

美國 0420 0061 0000

由表4-3-18所顯示的結果得知在幾何方塊題這五小題中只有第三小

題施測學校與台灣在2003年所作的調查結果資料並沒有達到顯著差異其他四小

題的結果都是與台灣達到顯著差異的可見施測學校的平均得分在這四小題中是

優於台灣在2003年所作的調查結果資料在幾何方塊題第一題中施測學校與新

加坡香港比利時美國有達到顯著差異顯示在這一小題中施測學校的成

績是優於這四個國家的在幾何方塊題第二題中施測學校與新加坡香港日

本比利時美國有達到顯著差異顯示在這一小題中施測學校的成績是優於

這五個國家的在幾何方塊題第三題中施測學校與日本比利時美國有達到

顯著差異顯示在這一小題中施測學校的成績是優於這三個國家的在幾何方

塊題第四題中施測學校與新加坡香港日本比利時美國有達到顯著差異

顯示在這一小題中施測學校的成績是優於這五個國家的在幾何方塊題第五題

中施測學校與新加坡香港日本比利時美國有達到顯著差異顯示在這

一小題中施測學校的成績是優於這五個國家的

接下來以整個幾何方塊題的題組來看由表 4-3-19 所示變異數分析的結果

83

表4-3-19 幾何方塊題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 885084 6 147514 50368 0000

組內 17379220 5934 2929

總和 18264300 5940

在α=005的情況下F檢定值為50368plt005達到顯著差異所

以可見這七個國家總分的平均得分有顯著差異所以進行事後比較如表4-3-20

所示

表4-3-20 幾何方塊題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 1499 0165 0000

香港 1615 0169 0000

日本 1166 0169 0000

台灣 1814 0169 0000

比利時 1727 0169 0000

美國 2101 0162 0000

由表4-3-20得知整個題組的事後分析顯示在α=005的情況下施測學

校的總分平均得分與台彎有達到顯著差異所以平均總得分是施測學校優於台灣

在2003年所作的調查結果資料的而施測學校總平均得分與新加坡香港日本

比利時美國有達到顯著差異所以施測學校的總平均得分是優於新加坡香港

日本比利時美國

84

第四節 實作評量試題的類推性

本研究試題的評分者有兩位所以採用的是評分者與工作項目的兩面向交叉

設計(the two-facet crossed persontimesratertimestask design)研究者原先想

利用 SPSS 套裝軟體進行多變量變異數分析將評分的結果做概化程度的分析

計算出各個變異來源之變異成份的大小及其佔總變異的百分比但因檔案太

大SPSS 套裝軟體無法進行多變量變異數分析所以研究者改用 EXCEL 軟體進行

試算其結果列於表 4-4-1

表4-4-1 實作評量概化程度變異成分表

變異來源 估計變異成份 佔總變異之百分比

受試者 0887981185 1944983082

評分者 96E-16 211E-14

工作項目 1697518073 3718146275

受試者評分者 0 0

受試者工作項目 1872595983 410162689

評分者工作項目 0033245844 0728197914

受試者評分者工作項目及誤差 0074154589 1624239615

G 係數 0736144063

註 1在受試者與評分者的交互作用項中其估計變異成份的大小為-106396E-15Shavelson

Webb(1991)指出當某變異成份實際的值接近或等於 0 時取樣的誤差可能導致該變異成份

的估計值成為負數此時可將負值的變異成份大小設定為 0

從以上的表 4-4-1研究者有以下的發現

一實作評量最大的三個變異來源是受試者和工作項目的交互作用工作項

目之間的變異與受試者之間的變異

實作評量最大的變異來源是受試者和工作項目的交互作用佔總變異量的

85

41016表示在研究者的實作評量裡學生的成績會因著工作項目的不同而有

高低起伏如此一來便會降低以某位受試者的觀察分數概化至其真實分數的可

靠程度所以研究者無法以學生在少量的實作評量評量項目上的表現來做為他

們在數學科能力的推論

此外在研究者的實作評量中第二大的變異來源為工作項目之間的變異

其值為 170佔總變異的 37181這只是反應了學生在評量項目上能力表

現的差異並非影響 G係數大小的主要因素關於這一點研究者從計算 G係數

的公式可以了解G係數的計算公式是這樣的

G=σ2p(σ2

p+σ2ptnt+σ2

rpnr+σ2rptenrtimesnt)

G 係數的意義是受試者間的變異量在與受試者有關的變異量之總和中所佔的

比例大小因此若受試者間的變異量愈大而相對於受試者與其他實驗設計面

向的變異量及誤差愈小則 G係數便會愈大也就是根據測驗成績來作推論的可

靠性愈高

二兩位評分者之間的變異極小

評分者之間的變異為傳統的評分者信度從表 4-4-1 可以看到兩位評分結果

之間的變異值為 96E-16僅佔總變異的 211E-14顯示研究者的評分標準非

常一致也就是說研究者兩位當中並沒有誰評分時較為嚴格(stringent)或

較為寬大(liberal)

三受試者與評分者之間沒有交互作用

表 4-4-1 顯示受試者與評分者之間的交互作用為 0表示研究者兩位評分者

並沒有受到月暈效應的影響而對某些學生給予較高的成績對其他學生則給予較

低的成績這一點也可做為評量是否具有公平性的證據之一

四評分者與工作項目間的交互作用非常小

評分者與評量項目間的交互作用很小表示兩位評分者在評定各個評量項目

的評量標準相當一致這原因是由於評分標準訂定的相當明確而且具體讓評分

86

者之間沒有認知的差異存在

從評量工作項目的內容來看本次測驗所測量的雖然同樣是數學能力

測驗但各題所涵蓋的領域包含了統計的資料處理分析能力(擲骰子)幾

何對稱概念(魔術師)概算能力(猜一猜)幾何圖型的直觀概念(圖形

題)數與量中的整數加減乘的運算分析能力(數字卡)結合數與形兩大

主題的幾何形體構成要素及其數量性質(幾何方塊)題目本身的差異性很

大而且每位學生所擅長的方面有所不同在工作項目的表現自然就有所

不同在加上每題的配分並不盡相同所以由這些評量項目概化至其他數

學科能力的程度就降低了這也就是本研究的 G 係數僅達 0313表示如果

使用少量的實作評量工作項目將無法達到所需要的信度

另外主要效果是受試者的變異數值是 0888佔總變異的 19450代

表學生之間的程度差異也很大

根據概化程度研究的結果研究者可以進一步做決策研究(decision

study)決策研究是用來指出若要達到足夠小的誤差變異或足夠大的概化

係數時每一個學生需要多少工作項目以及每一個工作項目需要多少評分

者下面研究者分別分析在幾個評分者的情況下實作評量工作項目為幾

個時G 係數才能達到 08

87

表 4-4-2 G 研究與各種 D 研究之變異成分分析與推論力係數

變異源 G 研究變異成

分之估計值D研究變異成分之估計值

nr= 1 2 3 5 2 2 2

ni= 1 6 6 6 7 8 9

受試者 0888 0888 0888 0888 0888 0888 0888

評分者 0000 0000 0000 0000 0000 0000 0000

工作項目 1698 0283 0283 0283 0243 0212 0189

受試者評分者 0000 0000 0000 0000 0000 0000 0000

受試者工作項目 1873 0312 0312 0312 0268 0234 0208

評分者工作項目 0033 0100 0066 0040 0116 0133 0150

受試者評分者工

作項目及誤差 0074 0006 0004 0002 0005 0005 0004

σRel 1947 0318 0316 0315 0273 0239 0212

G 係數 0313 0736 0737 0738 0765 0788 0807

由表 4-4-2 可知原設計研究 2位研究者與 6道題目的方式推出 G係數只有

0736當評分者增加一位而題目維持六題時G係數只增加 001 達到 0737

如果將評分者增加到五位而題目仍維持六題時G係數只增加 002 達到 0738

可見增加評分者的影響有限如果評分者維持兩位而題目增加為七題G係數會

增加 0029達到 0765如果評分者維持兩位而題目增加為八題G係數會增加

0052達到 0788可見增加題目的效果比增加評分者更為有效當評分者為兩

位題目為九題時G係數可達 0807顯示評分者為兩位題目為九題時內

部一致性較佳

88

第五章 結論

本研究以 TIMSS 數學實作評量的題目為工具進行特定環境背景不同年度的

縱貫研究及與其他國際上表現較佳的國家進行橫貫研究以下為本研究進行所得

的經驗以及資料分析所得之結果分別以結論以及建議等兩節進行說明

第一節 結論

壹實作評量的信效度

TIMSS 試題在台灣之施測是具有一定信效度在信度方面經實際施測後計

算的結果為 0799所以 TIMSS 數學實作評量試題在台灣之施測是具有信度的

但根據實作評量試題的類推性分析結果發現G研究中的 G係數只有 0313深

入探討其原因可能是試題難易程度的差別較大與各題配分比例不同所造成的

所以在 D研究中要補救其信度低的措施就是增加評分者為兩位題目為九題時

其 G係數就可以達到 0807在效度方面每一題均有詳細說明細節行為的項目

給定參考答案圖形的作品量表各題除經著名國際測驗機構審核施測過外並由

研究者另請學校資深四年級教師共同研究討論題目與答案對於施測過程研究

者也與四位監考老師討論後訂出共同標準所以在效度方面具有專家效度跟內

容效度

貳評量結果與比較

一在進行縱貫研究方面在魔術師題型上民國 95 年的結果較佳在擲

骰子題型上是民國 89 年的結果較佳在猜一猜題型上民國 89 年的結

果較佳此結果顯示在幾何概念的對稱觀念上民國 95 年的學生有較

佳的表現但在統計觀念及概數觀念上民國 89 年的學生表現較佳

在實際施測過程中研究者發現在魔術師題型的第一題上許多民國

95 年的學生是先將題目要求的圖形剪出來後再進行對摺當然如果學生

是交出這樣的答案紙條評分者是不給分的因為當評分者在沿著摺線

89

還原時就會發現不是一刀剪出來的可是因為有三個機會所以許多學

生得到這樣的經驗後就會在第二次或第三次時剪出題目要求的結果

而且第一題的成功經驗會連帶的影響第二題的作答因為摺的方式是

一樣的只是剪的地方是不同的所以不管民國 95 年或是民國 89 年的

作答結果都會發現第二題的答對率均比第一題高而第三題的作答方

式因為要多摺一次而且較難複製前面成功的經驗所以第三小題的答

對率比前兩題均比較低所以研究者認為在這一題型上民國 95 年的

學生會表現得比較好的原因可能在於有比較好的作答技巧

二TIMSS 實作評量在性別及班級之間沒有顯著差異

三在圖形題題型上施測學校與台灣西元 2003 年施測結果沒有達到顯著

差異在數字卡題型上施測學校與台灣西元 2003 年施測結果沒有達

到顯著差異在幾何方塊題型上施測學校與台灣西元 2003 年施測結

果達到顯著差異之所以在幾何方塊題型上會達到顯著差異研究者認

為可能是時間點的問題因為研究者施測的時間是利用學期末期末考

後而剛好這次期末考有分數的單元所以學生對這個範圍比較熟悉

才可能造成施測學校的成績特別突出

四在圖形題題型上施測學校優於新加坡比利時及美國在數字卡題型

上我國優於比利時美國在幾何方塊題型上施測學校優於新加坡

香港日本比利時美國研究者特別注意到香港與美國這兩個國家

在 89 年徐美英論文中香港在該年的施測結果都比徐美英施測結果落

後但在 95 年的施測結果卻只有幾何方塊題型是明顯落後施測學校這

表示不是台灣學生在這幾年程度變低了就是這幾年香港程度變高了

在跟縱貫研究做交叉比較後研究者認為台灣學生這幾年程度變低的可

能性較大而美國不管是在 89 年與徐美英論文的施測結果比較或是與

95 年施測結果比較均在這兩次比較中明顯落後

90

第二節 建議

壹TIMSS 實作評量的後續研究

由於數學科實作評量在實際施測時常有人力與物力上的考量以至於在實

際教育現場上並不常用但是實作評量所測出的學生能力與紙筆測驗所測出的

學生能力是不同面向的經過此次實際施測的經驗研究者認為運用 TIMSS 實

作評量的試題來了解學生的學習成就可以在經濟負擔的考慮範圍內達到可

信賴的研究成果因此建議後續研究者可朝向此方向繼續研究以期能更深入

了解學生學習成就的變化情形

貳學生學習成就的長期追蹤

建立台灣的長期教育資料庫是必要的這是從事教育基礎研究的中外學者

的共識研究者此次研究以 TIMSS 實作評量的試題為工具來了解民國 89

年跟民國 95 年特定環境背景的國小四年級學生學習成就的比較即以此理念

為出發點目前在中央研究院教育部和國科會共同推動下『台灣教育長期

追蹤資料庫』的建置工作也已在 2001 年 10 月份起正式展開目的是為了從教

育基礎研究的角度出發研究哪些因素會影響到學生解決問題的能力如學

生努力程度學習機會和學習能力等等當然資料的品質是累積而來的不做

沒有開始就不可能有改進也就不可能有較豐富的資料內容美國國家教育

長期研究(National Education Longitudinal Study NELS)其資料的品質

和豐富素為各國教育研究學者所稱道就是因為它累積了二十多年的經驗

且經過多次的增刪修改研究者也希望能有後續研究者投入後續的相關研究

並累積相關的資料以利決策者能創造出適合台灣學生的最佳學習環境

叁開放性問題的評量研究

在此次研究中發現學生對於開放性問題的解題能力非常不足對於設計

好的題目較難提出歸納模式或者合理的推測這或許歸因於教學現場中的標

91

準化測驗在整個學習過程中教學活動跟教學評量是交互不斷進行而常常

受限於時間跟經濟因素教師只能被迫選擇標準化測驗以診斷學生學習困難

處但是標準化測驗容易讓學生誤以為答案是唯一的而且數學知識是可以切

割成不相關的小部分的因此在國民中小學九年一貫課程綱要中提出「教師

應透過各種評量方式以檢驗教學效果」的觀念研究者建議後續研究者能進一

步探討這方面的相關研究

肆國際比較的重要性

許多國家多年以前即開始參與大型國際研究以了解自己國家學生與其他

不同國家或區域的學生學習成就的差異特別的是此類國際研究對於結果的分

析是深入且多面向的包括學生家庭背景班級學校等民國 95 年中國時

報特別以專欄方式提出芬蘭的教育成功經驗以供國內教育改革的參考為什

麼要特別提出芬蘭呢因為芬蘭在重要的國際比較研究中常常名列前矛所

以參與大型的國際研究可以找出成功的經驗減少自己摸索的時間

92

參考文獻

壹中文部份

王秀琲 (民 92)實作評量在國小數學科之應用-以五年級學童分數為例國立

臺中師範學院教育測驗統計研究所碩士論文

方泰山(民 91)第四次 TIMSS 2003 NRC 自由反應評分系統研討會會議報告

httpichochemntnuedutwpub4thnrcreporthtm

石千奇(民 93)國小六學童在數學實作評量中的小組解題歷程分析國立中山

大學教育研究所碩士論文

江文慈(民 87)一個新評量理念的探討多元智力取向的評量教育資料與研

究20 期6-12

曲慧娟 (民 94)實作評量在國中學術性向優異班招生鑑定之效度研究~以臺灣

北區為例國立臺灣師範大學特殊教育研究所碩士論文

李坤崇(民 88)多元化教學評量台北心理

余民寧(民 93)教育測驗與評量-成就測驗與教學評量第二版台北心理

吳毓瑩(民 85)評量的蛻變與突破-從哲學思潮與效度理論參考起教育資料

與研究13 期2-15

李虎雄張敏雪(民 87)由學力評量觀點談實作評量之特性測驗與輔導

3104-3108

吳明隆(民 87)教室做為評量環境的內涵與其評量新趨勢研習資訊15 卷

4期62-77

93

吳清山林天佑(民 85)教育名詞 mdash分流教育教育資料與研究885

李長柏(民 91)國小數學簡單機率解題實作評量與後設認知之相關研究國立

臺中師範學院教育測驗統計研究所碩士論文

呂政隆(民 93)國小學童在數學實作評量解題整合認知與課程之相關研究

國立臺中師範學院教育測驗統計研究所碩士論文

呂金燮(民 88)實作評量-理論載於王文中呂金燮吳毓瑩張郁雯張淑

慧(合著)教育測驗與評量教室學習觀點(頁 173-207)台北五

李茂能(民 85)信度考驗的另一途徑推論力理論國民教育學報227-48

林清山(民 81)心理與教育統計學台北東華

林敬修(民 92)影響國小數學科實作評量信度相關因素之類推性理論分析國

立屏東師範學院教育心理與輔導學系研究所碩士論文

洪之昀(民 89)數學科實作評量對國小高年級學童學習策略影響之研究國立

臺中師範學院教育測驗統計研究所碩士論文

桂怡芬吳毓瑩(民 87)自然科實作評量的效度探討測驗年刊45(2)19-36

桂怡芬(民 85)自然科實作評量的效度探討國立台北師範學院國民教育研究

所碩士論文

桂怡芬(民 85)紙筆與實作的互補我的實作評量經驗教育資料與研究13

期36-40

徐美英(民 89)TIMSS 數學實作評量在台灣之試用探討國立臺中師範學院教

育測驗統計研究所碩士論文

94

夏淑琴(民 88)教學評量革新-多元評量載於高強華主編(民 88)學校變遷與

學校革新台北師大

教育部(民 92)國民中小學九年一貫課程綱要數學學習領域台北教育部

張紹勳張紹評林秀娟(民 92a)SPSS For Windows 統計分析初等統計與高

等統計(上冊)(第四版)台北文魁資訊股份有限公司

張紹勳張紹評林秀娟(民 92b)SPSS For Windows 統計分析初等統計與高

等統計(下冊)(第四版)台北文魁資訊股份有限公司

張敏雪(民 86)實作評量的本質及國民中小學數理科教師對實作評量的態度探

討國立臺灣師範大學數學研究所碩士論文

張敏雪(民 87)教室內的實作評量教育資料與研究20 期24-27

張敏雪(民 86)實作評量的本質及國民中小學數理科教師對實作評量的態度探

討國立師範大學數學研究所碩士論文

張英傑等著(民 94)數學科教師手冊台南南一書局

張永杰 (民 92)實作評量取向的幾何思考研究國立臺灣大學國際企業學研究

所碩士論文

張麗麗(民 91a)從分數的意義談實作評量效度的建立教育研究月刊9837-51

張麗麗(民 91b)評量改革的應許之地虛幻或真實-談實作評量之作業與表

現規準教育研究月刊9376-86

郭生玉(民 84)心理與教育研究法台北精華

陳英豪吳裕益(民 85)測驗與評量高雄復文

95

陳文典陳義勳李虎雄簡茂發(民 84)由馬里蘭州的學習成就評量與其在

台灣的施測結果看-實作評量的功能與應用科學教育月刊185 期

2-10

陳昭地(民 88)「第三次國際數學與科學教育成就研究」後續調查

httpreporticentnutwnscreportTIMSS-R(1999)實測後

期中報告--交國科會htm

陳怡玉(民 94)降低國小數學科實作評量人和作業交互作用變異方法的探討---

以類推性理論分析國立臺南大學測驗統計研究所碩士論文

莊明貞(民 84)變通性評量的發展與實施研習簡訊261

莊明貞(民 85)實作評量理論與實際教育資料與研究9期44-48

曾惠敏(民 87)國小分數概念實作評量之發展及其相關研究國立台南師範學

院國民教育研究所碩士論文

游麗卿(民 87)從實作表現診斷學生乘除法的錯誤概念觀念測驗與輔導雙月

刊149 期3094-3099

鄒慧英譯(民 92)測驗與評量(原作者 Robert L linn and Norman E

Gronlund)台北洪葉文化

鄒慧英(民 86)實作型評量的品管議題兼談檔案評量的應用載於八十七年度

教育測驗新近發展趨勢學術研討會

詹志禹(民 85)評量改革為什麼要進行-回應吳毓瑩<評量的蛻變與突破>

教育資料與研究13 期45-47

96

詹元智(民 91)國小數學科實作評量之效度探討國立屏東師範學院教育心理

與輔導研究所碩士論文

蔡正濱(民 95)國小數學科實作評量評分者ㄧ致性相關因素探討國立屏東教

育大學教育心理與輔導學系研究所碩士論文

鄭麗玉(民 88)教學評量的改革教師之友40 卷1期23-33

歐滄和(民 91)教育測驗與評量台北心理

盧雪梅(民 87)實作評量的應許難題和挑戰教育資料與研究20 期1-5

簡茂發(民 80)命題方法與試題分析國教輔導31(1)2-13

蘇義翔(民 86)實作評量的理論與啟示測驗與輔導3099-3102

貳英文部分

Airasian PW (1991) Classroom assessment New York McGraw-Hill

Airasian PW (1994) Classroom assessment(2nd ed)NewYork

McGraw-Hill

Baron J B (1991) Strategies for the development of effective

performance exercise Applied Measurement in Education 4(4)

305-318

Baxter G P Shavelson R J Goldman S R amp Pine J

(1992) Evaluation of a procedure-based scoring for hands-on

science assessment Journal of Educational Measurement 29(1)

1-17

97

Baxter G P Shavelson R J Herman S J Brown K A amp Valadez

J R(1993) Mathematics performance as sessment technical

quality and diverse student impact Journal for Research in

Mathematics Education 24(3) 1990-216

Dunbar S B Koretz DM amp Hoover HD(1991) Quality control control

in the development and use performance assessmentApplied

Measurement in Educational 4(4) 289-303

Frechtling J A (1991) Performance assessment Moonstruck or the real

thing Educational Measurement Issues and Practice 10(4)

23-25

Haertel EH and Linn RL (1996) ldquoComparability in GW Philips

(Ed) Technical Issues in Large-Scale Performance Assessment

Washington DC National Center for Education Statistics

Harmon M amp KellyTA(1996) Development and Design of the TIMSS

performance Assessment In MartinMO and Kelly

DL(eds)Third International Mathematics and Science Study

(TIMSS) Technical Report Volume I Design andd Development

Chestnut Hill MABoston College

Herman JL Aschbacher PR amp Winters L(1990 November) Issues in

developing alternative assessments Paper presented at the

annual meeting of the California Educational Research

Association Chicago

98

Mullis IVS Martin MO Gonzalez EJ Chrostowski SJ(2005)

TIMSS 2003 International Mathematics Report

httptimssbcedutimss2003imathDhtml p31-p47

Linn RL(1993) Educational assessment Expanded expectations and

challenges Educational Evaluation and Policy Analysis 15(1)

1-16

Linn RL Bader EL amp Dunbar SB(1991) Complex Performemce-based

assessmentexpectations and validation criteria Educational

Researcher 20(8) 1521

Linn RL (2000) Assessments and accountability Educational Researcher

29(2) 4-16

Long C amp Stansbury K (1994) Performance assessment for beginning

teachers Phi Delta Kappan76318-322

Messick S (1994) The interplay of evidence and consequences in the

validation of performance assessments Educational Researcher

23(2) 13-23

Messick S (1995) Standards of validity and the validity of standards

in performance assessment Educational Measurement Issues and

Practice 14(4) 5-8

Martin MOMullis IVSChrostowski SJ(2005)TIMSS 2003 Technical

Report httptimssbcedutimss2003itechnicalDhtml

Martin MO(2005) TIMSS 2003 User Guide for the International Database

99

httptimssbcedutimss2003itechnicalDhtml

Miller M D amp Linn R L (2000) Validity of performance-based

assessments Applied Psychological Measurement 24(4) 367-378

Moss P (1994) Can there be validity without reliability Educational

Researcher 23 (2) 5-12

Mullis IVS Martin MO amp Foy P (2005) IEAs TIMSS 2003

International Report on Achievement in the Mathematics Cognitive

Domains httptimssbcedutimss2003imcgdmhtmlp15-p36

Roid G H amp Haladyna T M (1982) A technology for test-item writing

Orlando FL Academic Press

Ruiz-Primo M A Baxter G P amp Shavelson R J(1993) On the stability

of performance assessments Journal of Educational Measurement

30(1) 41-53

Shavelson R J Baxter G P amp Gao X (1993) Sampling variability of

performance assessments Journal of Educational Measurement 30

3215-32

Shavelson R J amp Webb N W (1991) Generalizability theory A primer

Newbury Park CASage

Shepard L A Flexer R J Hiebert E H Marion S F Mayfield

V amp Weston TJ (1996) Effects of introducing classroom

performance assessments on student learning Educational

Measurement Issues and Practice 15(3) 7-18

100

Schmidt W H Jorde D Cogan L Barrier E Gonzalo I Moser U

Shimizu K Sawada T Valverde G Prawat R Mcknight C

Raizen S Britton E Wiley D amp Wolfe R (1996)

Characterizing pedagogical flow An investigation of

mathematics and science teaching in six countries Hinglham

MAKluwer

Silver E A (1993) On mathematical problem posing In N Nohda amp F L

Lin (Eds) Proceedings of the Seventeenth Annual Meeting of the

International Group for the Psychology of Mathematics Education

Vol 1 (pp 66-85) Tsukuba Japan Author

Stiggins R J (1994) Stundent-centered classroom assessment New York

MerrillMacmillan

Stiggins R J (1987) Design and development of performance assessment

Educational Measurement Issues and Practice 6(3)33-42

Telese J A amp Kulm G (1995) Performance-based assessment of at-risk

students in mathematics The effects of context and setting

Paper presented at Annual Meeting of the American Educational

Research Association (ERIC Document Reproduction Service No

ED 382 685)

TIMSS (1997) Performance Assessment in IEAs Third International

Mathematics And Science Study Chestnut Hill MABoston

College

Webb G (1992) On pretexts for higher education development activities

101

Higher Education 24 (3) pp351-61

Wiggins G(1998) Educative assessment Designing assessments to inform

and improve student performance San Francisco California

Jossey-Bass

102

附錄

附錄一TIMSS 2003 參與的國家

Argentina

Armenia

Australia

Bahrain

Belgium (Flemish)

Botswana

Bulgaria

Chile

Chinese Taipei

Cyprus

Egypt

England

Estonia

Ghana

Hong Kong SAR

Hungary

Indonesia

Iran Islamic Republic of Israel

Italy

Japan

Jordan

Korea Republic of Latvia

Lebanon

Lithuania

Macedonia Republic of Malaysia

Moldova

Morocco

Netherlands

New Zealand

Norway

Palestinian National Authority

Philippines

Romania

Russian Federation

Saudi Arabia

Scotland

Serbia

Singapore

Slovak Republic

Slovenia

South Africa

Sweden

Syrian Arab Republic

Tunisia

United States

Yemen Republic of

103

附錄二題目

一猜一猜

媽媽有一個裝滿豆子的密封罐有一天媽媽將豆子分別倒在 9個碗中前 4個

碗中豆子的數量分別是 29313128 個

1 請你猜一猜罐子中大約有幾個豆子

2把你的想法寫出來

二魔術師

一 材料9張紙剪刀一個信封

二你的工作

1 將紙對摺一次或一次以上並剪掉部分的紙使紙的形狀符合題目所給的

形狀

2 每張紙摺疊的次數和形狀隨你喜歡但只能剪一次

【第一題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後

做出如圖一的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

【第二題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後做出如

圖二的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

(在每張你使用過的紙寫上 1和名字)

104

(圖二)

【第三題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後做出如圖三

的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

(圖三)

三擲骰子

一材料一個骰子搖杯

二你的工作

當我們用一個規則來改變骰子擲出來的數字你發現了什麼

改變數字的規則是

當骰子擲出的數字是奇數時減 1並記下結果

當骰子擲出的數字是偶數時加 2並記下結果

1 在下列表中已經示範了兩個例子給你看使用這個規則並找其他

改變後的數字完成這個表格

(在每張你使用過的紙寫上 2和名字)

(在每張你使用過的紙寫上 3和名字)

105

骰子的數字 改變後的數字

2

6

2 看看你所紀錄的「改變後的數字」你發現了什麼

3 擲骰子 30 次並使用規則去改變每次所擲的數字將它紀錄下來

寫在下列的表格中

106

骰子的數字 改變後的數字 骰子的數字 改變後的數字

4將表 3中各個改變後數字出現的次數記在下表中

改變後的數字 次數

0

1

2

3

4

5

6

7

8

5a哪一個數字是你紀錄次數最多的

107

5b為什麼會這樣請寫出你的看法

四幾何方塊

在這一大題你會拿到一張紙板紙板上有10 張小卡片(如下圖)請將這些

正方形卡片分開若你沒有拿到紙卡請舉手

甲利用2 張黑白相間方塊拼出一個較大的黑色三角形並將您的拼法塗在下面

指定的區域

在這裡用斜線塗出

您拼出的黑色三角形

3 個白色方塊

4 張黑白相間方塊

3 個黑色方塊

108

乙利用4 張黑白相間方塊拼出一個黑色的正方形並將您的拼法塗在下面指定

的區域

在這裡用斜線塗出

您拼出的黑色正方形

丙在第乙題中塗黑色的部分佔了全部的幾分之幾

作出分數

甲不准使用黑白相間方塊將4 張方塊拼出一個正方形使得黑色的部分佔

21

並將您的拼法塗在下面指定的區域

在這裡用斜線塗出

您拼出的黑色部分

109

乙請用8 張方塊拼出一個如下圖的長方形使得黑色部分佔

85

並將您的拼法塗在下面指定的區域

在這裡用斜線塗出

您拼出的黑色部分

五圖形題

甲請畫一條直線將這個長方形分成2 個三角形

110

乙請畫一條直線將這個長方形分成2 個長方形

丙請畫兩條直線將這個長方形分成1 個長方形和2 個三角形

丁在下圖的四個三角形中有兩個是形狀相同但大小不同請把這兩個三角形

塗上顏色(線甲乙跟線丙丁平行)

六數字卡

在這部分你將會拿到一張印有 0到 9的數字卡如下圖請將這些數字卡

取下來

甲 乙

1 2

3

4

111

總和為ldquo20的數字遊戲

小杰與小明這兩個小孩正在玩一個ldquo總和為 20的遊戲其規則如下

總和為ldquo20的規則

(1)抽數字卡每一個人抽出三張數字卡

(2)加數字卡每一個人利用這三張數字卡做出一個加法問題使得算出

的總和最接近 20 例如假如抽出的數字卡 將數字任意組

合後下面是其中四種可能的方法

+ + + +

5 5 4 6 1 9 +

1 0

15

這時玩家應該選擇 + 4 因為它的總和 19最接近 20

19

小杰和小明開始玩遊戲了小杰抽出了 三張數字卡小明抽

出了 三張數字卡

(1)小杰要如何安排三張數字卡做出一個加法問題才能讓它的總和為最

接近 20記得要寫總和

0 1 2 3 4

5 6 7 8 9

1 4 5

1

4

5 1

4

5

1

4 51

4

5

972

6 3 1

112

(2)小明要如何安排三張數字卡做出一個加法問題才能讓它的總和最接

近 20記得要寫總和

(3)小明說假如我抽到 我可以用兩種方法做出總和 20

請告訴我們小明用哪兩種方法可以使 做出總和 20

第一種方法

第二種方法

找出最大的數

小杰和小明利用數字卡玩另一個新的遊戲就是利用三張數字卡做出最

大的數

甲將 三張數字卡填入下列的格子內讓相加的結果為最大

乙將 三張數字填入下列的格子內讓相減的結果為最大

丙將 三張數字卡填入下列的格子內讓相乘的結果為最大

times

1 4 6

1 4 6

9 5 1

+

-

2 3 7

1 4 5

113

附錄三給老師的話

題目猜一猜

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說

明如下

題目預測的能力

測量學生在生活情境中了解概數意義的能力

實施時間

20 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意讓同學清楚的知道這份試卷要他們

做的是什麼

評量結束後收回試紙

注意要點

請老師先做一次示範給學生看完之後再讓學生作答

請老師提醒學生計算完後要記得將他們為什麼要這樣做的原因寫清楚

評分標準

等級 5 算出前 4碗豆子的總和再乘以 2再加上一個合理的近似值或使用估

計或平均值找出每一碗豆子的近似值再乘以 9

等級 4 合理的估計其他各碗的豆子數量並算出總和

等級 3 推測出大部分合理少部分不合理的估計值並算出總和

等級 2 推論出一個杯子約有 30 個但未算出總和

等級 1 將已知碗的數量變成一組模式將此模式推論至其他碗不一定剛好總

114

和為 10 個碗

等級 0 未作答或不知所云

題目幾何方塊

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說

明如下

題目預測的能力

這是一種包含幾何跟數與量的題目其中幾何的部份是要求學生建立一個二

維圖形並滿足題目的要求(數與量)

實施時間

30 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意讓同學清楚的知道這份試卷要他們

做的是什麼

評量結束後收回試紙

注意要點

請老師提醒學生答案是用鉛筆塗在指定的區域並且不可以超過格線並不是將

紙卡貼在題目上要注意

請老師提醒學生撕紙卡要小心務必要使用剪刀或直尺沿著線撕

評分標準

115

給分範圍1分

給分範圍0分

(1)雖然使用 2塊黑白相間方塊組合但卻變成 2個小三角形而不是組合成 1

個大三角形

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

給分範圍1分

給分範圍0分

(1)雖然使用 4塊黑白相間方塊組合但卻不是組合成 1個大的黑色正方形

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

116

給分範圍1分

(1) 21

或是它的等值分數

(2)乙题雖然畫錯但此題答案正確

給分範圍0分

(1) 41

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

做出分數

給分範圍1分

由 2塊白色跟 2塊黑色組合成請看下面的例子

給分範圍0分

(1)雖然得出 21但是使用黑白相間的方塊

(2)畫出黑色的部份佔 41

117

(3)畫出黑色的部份佔 43

(4)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(5)完全空白

給分範圍2分

任何使用 3塊黑色的方塊1塊白色的方塊和 4塊黑白相間的方塊的組合圖形

給分範圍1分

塗出 85的答案但不是使用正確的方塊組合

給分範圍0分

(1)塗出 21

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

題目魔術師

118

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生對稱的觀念空間關係及解決非例行問題的能力

施測時間

30 分鐘

實施步驟

1 發試紙和所需材料

2 題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的

知道這份試卷要他們做的是什麼

3 評量結束試紙及材料

注意要點

1請老師提醒學生每張紙只能直直的剪一次不可改變方向且要記得在紙上寫

編號和名字

評分標準

第一題1在紙上只剪一次

2有兩條正確的摺線

給分範圍2

第二題1在紙上只剪一次

2 有兩條正確的摺線

給分範圍2

第三題同上兩題

119

題目圖形題

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生二維空間的分割的觀念了解學生能否透過操作直尺或三角板在二維

空間上剪裁出指定的基本圖型並利用直觀的方式指出形狀相同但大小不同的三

角形

施測時間

30 分鐘

實施步驟

1 發試紙

2 題目解說實施評量前請老師加以說明題意讓學生清楚的知道這份試卷要他

們做的是什麼

3 評量結束收回試紙

評分標準

甲給分範圍1分

正確的畫一條對角線將長方形分成 2個三角形

給分範圍0分

(1)有畫出一條橫線或垂直線但不是畫出精確的對角線

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的

回答)

(3)完全空白

乙給分範圍1分

120

正確的畫一條橫線或垂直線將長方形分成 2個長方形

給分範圍0分

(1)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回

答)

(2)完全空白

丙給分範圍1分

正確的畫兩條線將長方形分成 1個較小的長方形跟兩個三角形

給分範圍0分

(1)有畫出兩條線但沒有將長方形分割成兩個較小的長方形或有分割成

兩個較小的長方形卻沒有在其中之ㄧ上畫出精確的對角線

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(3)完全空白

丁給分範圍1分

在三角形 3跟三角形 4上塗上顏色

給分範圍0分

(1)在三角形 1跟三角形 2上塗上顏色

(2)在三角形 2跟三角形 4上塗上顏色在三角形 1跟三角形 3上塗上顏色

在三角形 1跟三角形 4上塗上顏色在三角形 2跟三角形 3上塗上顏色

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

121

題目數字卡

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生計算的規則與策略及對數字的觀念並能運用所學過的概念於計算策

略上

施測時間

30 分鐘

實施步驟

1 發試紙和所需材料

2 題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的

知道這份試卷要他們做的是什麼

3 評量結束試紙及材料

評分標準

總和為 20 的數字遊戲

甲給分範圍1分

(1)寫出 2+7+9=18

(2)沒有任何算式但有答案是 18 者

給分範圍0分

(1)有寫出算式 2+7+9 但沒有答案 18 出現

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的

回答)

(3)完全空白

122

乙給分範圍1分

(1)13+6=19 或 16+3=19

(2)沒有任何算式但有答案是 19 者

給分範圍0分

(1)有寫出算式 13+6 或 16+3 但沒有答案 19 出現

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回

答)

(3)完全空白

丙給分範圍2分

兩種方法都正確(16+4 和 14+6)

給分範圍1分

只有寫出其中一種方法(16+4 或 14+6)

給分範圍0分

(1)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(2)完全空白

找出最大的數

甲給分範圍1分

91+5 或 95+1

給分範圍0分

(1)將 159擺在任何其他不正確的位置

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(3)完全空白

123

乙給分範圍1分

73-2

給分範圍0分

(1)72-3

(2)將 237擺在任何其他不正確的位置

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

丙給分範圍1分

41times5

給分範圍0分

(1)51times4

(2)將 145擺在任何其他不正確的位置

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

題目擲骰子

親愛的老師

您好感謝您參與此次數學科學實作評量的研究關於此次施測的注意事項說明

如下

題目欲測的能力

測量學生對於任意數字計算紀錄和分析的能力以及辨識並解釋記錄資料

的結果

施測時間

124

30 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的知

道這份試卷要他們做的是什麼

評量結束後收回試紙及材料

評分標準

第一題正確的計算出(042648)

給分範圍2

第二題1描述的類型與資料一致

2形式可以是一個或多個以下的情形所有的數字都是偶數數字

的範圍從 0~84 出現 2次數字排列有規則如+4-2+4-2

給分範圍1

第三題1至少完成 25 次擲骰子的紀錄

2正確的計算

給分範圍2

第四題統計的次數與第三題的資料一致

給分範圍2

第 5a 題答案與資料一致

給分範圍1

第 5b 題對觀察的數字提供合理的解釋

給分範圍1

125

附錄四分析資料補充

附錄四表格中以數字 1代表新加坡數字 2代表香港數字 3代表日本數字

4代表台灣 2003 年原始資料數字 5代表比利時數字 6代表美國數字 7代表

施測學校

一圖形題補充

表附錄 4-1-1 圖形題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 187 0 32 0 64 0 50 新加

坡甲 1 916

香港

甲 1 725

日本

甲 1 703

台灣

甲 1 726

得分 次數 得分 次數 得分 次數 得分 次數

0 69 0 9 0 75 0 39 新加

坡乙 1 1034

香港

乙 1 748

日本

乙 1 692

台灣

乙 1 737

得分 次數 得分 次數 得分 次數 得分 次數

0 329 0 107 0 196 0 119新加

坡丙 1 774

香港

丙 1 650

日本

丙 1 571

台灣

丙 1 657

得分 次數 得分 次數 得分 次數 得分 次數

0 424 0 386 0 281 0 267新加

坡丁 1 679

香港

丁 1 371

日本

丁 1 486

台灣

丁 1 509

得分 次數 得分 次數 得分 次數

0 130 0 447 0 8 比利

時甲 1 649

美國

甲 1 1189

施測

甲 1 113

得分 次數 得分 次數 得分 次數

0 69 0 201 0 5 比利

時乙 1 710

美國

乙 1 1435

施測

乙 1 116

得分 次數 得分 次數 得分 次數

0 386 0 1100 0 21 比利

時丙 1 393

美國

丙 1 536

施測

丙 1 100

得分 次數 得分 次數 得分 次數

0 386 0 732 0 27 比利

時丁 1 393

美國

丁 1 904

施測

丁 1 94

126

表附錄 4-1-1(續) 圖形題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 44 0 6 0 31 0 17

1 75 1 17 1 44 1 20

2 137 2 64 2 64 2 45

3 334 3 331 3 232 3 257

新加

坡總

4 513

香港

總分

4 339

日本

總分

4 396

台灣

總分

4 437

得分 次數 得分 次數 得分 次數

0 36 0 114 0 0

1 72 1 243 1 5

2 176 2 389 2 5

3 259 3 517 3 36

比利

總分

4 236

美國

總分

4 373

施測

總分

4 75

表附錄 4-1-2 圖形題各國事後分析表

圖形題甲 圖形題乙

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0130 0000 1 2 -0051 0013

3 -0086 0000 3 0035 0247

4 -0110 0000 4 -0012 0987

5 -0003 1000 5 0026 0631

6 0100 0000 6 0060 0000

2 3 0041 0514 2 3 0086 0000

2 4 0022 0958 4 0038 0244

5 0120 0000 5 0077 0000

6 0230 0000 6 0110 0000

3 4 -0019 0980 3 4 -0048 0057

5 0083 0001 5 -0009 0998

6 0190 0000 6 0025 0594

4 5 0100 0000 4 5 0038 0237

6 0210 0000 6 0073 0000

5 6 0110 0000 5 6 0034 0190

127

表附錄 4-1-2(續) 圖形題各國事後分析表

圖形題丙 圖形題丁

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0160 0000 1 2 0130 0000

3 -0043 0637 3 -0018 0996

4 -0140 0000 4 -0040 0798

5 0200 0000 5 0110 0001

6 0370 0000 6 0063 0092

2 3 0110 0000 2 3 -0140 0000

2 4 0012 1000 4 -0170 0000

5 0350 0000 5 -0014 0999

6 0530 0000 6 -0063 0209

3 4 -0100 0002 3 4 -0022 0992

5 0240 0000 5 0130 0000

6 0420 0000 6 0081 0027

4 5 0340 0000 4 5 0150 0000

6 0520 0000 6 0100 0001

5 6 0180 0000 5 6 -0048 0533

圖形題總分

(I) (J) 平均差異 (I-J) p-value

1 2 -0210 0008

3 -0110 0540

4 -0300 0000

5 0330 0000

6 0600 0000

2 3 0098 0778

4 -0093 0812

5 0540 0000

6 0810 0000

3 4 -0190 0051

5 0440 0000

6 0710 0000

4 5 0630 0000

6 0900 0000

5 6 0270 0000

128

二數字卡題型

表附錄 4-2-1 數字卡題各國得分統計表

分數 次數 分數 次數 分數 次數 分數 次數

0 284 0 144 0 128 0 118新加

坡 1 1 277

香港

1 1 239

日本

1 1 234

台灣

1 1 273

分數 次數 分數 次數 分數 次數 分數 次數

0 243 0 177 0 138 0 134新加

坡 2 1 318

香港

2 1 206

日本

2 1 224

台灣

2 1 257

分數 次數 分數 次數 分數 次數 分數 次數

0 171 0 142 0 117 0 111

1 28 1 13 1 30 1 23

新加

坡 3

2 362

香港

3

2 228

日本

3

2 215

台灣

3

2 257

分數 次數 分數 次數 分數 次數 分數 次數

0 161 0 111 0 89 0 138新加

坡 4 1 400

香港

4 1 272

日本

4 1 273

台灣

4 1 253

分數 次數 分數 次數 分數 次數 分數 次數

0 172 0 119 0 95 0 145新加

坡 5 1 389

香港

5 1 264

日本

5 1 267

台灣

5 1 246

分數 次數 分數 次數 分數 次數 分數 次數

0 413 0 290 0 231 0 303新加

坡 6 1 148

香港

6 1 93

日本

6 1 131

台灣

6 1 88

分數 次數 分數 次數 分數 次數

0 207 0 476 0 38 比利

時 1 1 187

美國

1 1 339

施測

1 1 82

分數 次數 分數 次數 分數 次數

0 175 0 442 0 29 比利

時 2 1 219

美國

2 1 373

施測

2 1 91

分數 次數 分數 次數 分數 次數

0 149 0 308 0 14

1 27 1 48 1 11

比利

時 3

2 218

美國

3

2 459

施測

3

2 95

129

表附錄 4-2-1(續) 數字卡題各國得分統計表

分數 次數 分數 次數 分數 次數

0 175 0 380 0 36 比利

時 4 1 219

美國

4 1 435

施測

4 1 84

分數 次數 分數 次數 分數 次數

0 179 0 410 0 38 比利

時 5 1 215

美國

5 1 405

施測

5 1 82

分數 次數 分數 次數 分數 次數

0 321 0 705 0 94 比利

時 6 1 73

美國

6 1 110

施測

6 1 26

分數 次數 分數 次數 分數 次數 分數 次數

0 64 0 38 0 21 0 37

1 39 1 25 1 23 1 33

2 62 2 36 2 35 2 21

3 40 3 50 3 44 3 44

4 60 4 49 4 34 4 41

5 87 5 51 5 59 5 60

6 137 6 93 6 89 6 102

新加

坡總

7 72

香港

總分

7 41

日本

總分

7 57

台灣

總分

7 53

分數 次數 分數 次數 分數 次數

0 31 0 135 0 5

1 48 1 94 1 5

2 49 2 98 2 9

3 67 3 101 3 9

4 61 4 114 4 16

5 63 5 101 5 20

6 55 6 130 6 40

比利

時總

7 20

美國

總分

7 42

施測

總分

7 16

130

表附錄 4-2-2 數字卡題各國事後分析表

第一題 第二題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0130 0013 1 2 0029 0992

3 -0153 0001 3 -0052 0873

4 -0204 0000 4 -0090 0252

5 0019 0999 5 0011 1000

6 0078 0206 6 0109 0012

2 3 -0022 0999 2 3 -0081 0537

4 -0074 0612 4 -0119 0076

5 0149 0006 5 -0018 1000

6 0208 0000 6 0080 0326

3 4 -0052 0908 3 4 -0039 0979

5 0172 0001 5 0063 0796

6 0231 0000 6 0161 0000

4 5 0224 0000 4 5 0102 0212

6 0282 0000 6 0200 0000

5 6 0059 0697 5 6 0098 0101

第三題 第四題

1 2 0116 0734 1 2 0003 1000

3 0070 0974 3 -0041 0948

4 -0033 1000 4 0066 0612

5 0165 0287 5 0157 0000

6 0155 0156 6 0179 0000

2 3 -0046 0998 2 3 -0044 0952

4 -0149 0543 4 0063 0751

5 0049 0997 5 0154 0002

6 0039 0998 6 0176 0000

3 4 -0103 0889 3 4 0107 0141

5 0096 0918 5 0198 0000

6 0085 0907 6 0220 0000

4 5 0198 0174 4 5 0091 0294

6 0188 0091 6 0113 0019

5 6 -0010 1000 5 6 0022 0997

131

表附錄 4-2-2(續) 數字卡題各國事後分析表

第五題 第六題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0004 1000 1 2 0021 0996

3 -0044 0931 3 -0098 0050

4 0064 0655 4 0039 0914

5 0148 0001 5 0079 0203

6 0197 0000 6 0129 0000

2 3 -0048 0929 2 3 -0119 0015

4 0060 0801 4 0018 0999

5 0144 0008 5 0058 0699

6 0192 0000 6 0108 0006

3 4 0108 0140 3 4 0137 0002

5 0192 0000 5 0177 0000

6 0241 0000 6 0227 0000

4 5 0083 0425 4 5 0040 0933

6 0132 0003 6 0090 0047

5 6 0049 0838 5 6 0050 0675

數字卡總分

1 2 0043 1000

3 -0318 0582

4 -0159 0975

5 0579 0012

6 0847 4850

2 3 -0361 0529

4 -0201 0948

5 0536 0067

6 0804 0000

3 4 0159 0985

5 0897 0000

6 1165 0000

4 5 0738 0001

6 1006 0000

5 6 0268 0673

132

三幾何方塊題型

表附錄 4-3-1 幾何方塊題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 633 0 303 0 165 0 322新加

坡甲 1 482

香港

甲 1 458

日本

甲 1 604

台灣

甲 1 445

得分 次數 得分 次數 得分 次數 得分 次數

0 617 0 403 0 218 0 348新加

坡乙 1 499

香港

乙 1 358

日本

乙 1 551

台灣

乙 1 419

得分 次數 得分 次數 得分 次數 得分 次數

0 312 0 227 0 341 0 297新加

坡丙 1 804

香港

丙 1 534

日本

丙 1 428

台灣

丙 1 470

得分 次數 得分 次數 得分 次數 得分 次數

0 494 0 429 0 425 0 519新加

坡丁 1 622

香港

丁 1 332

日本

丁 1 344

台灣

丁 1 248

得分 次數 得分 次數 得分 次數 得分 次數

0 385 0 352 0 291 0 407

1 603 1 359 1 374 1 297

新加

坡戊

2 128

香港

2 50

日本

2 104

台灣

2 63

得分 次數 得分 次數 得分 次數

0 372 0 985 0 6 比利

時甲 1 398

美國

甲 1 655

施測

甲 1 113

得分 次數 得分 次數 得分 次數

0 348 0 976 0 13 比利

時乙 1 422

美國

乙 1 664

施測

乙 1 106

得分 次數 得分 次數 得分 次數

0 437 0 884 0 30 比利

時丙 1 333

美國

丙 1 756

施測

丙 1 89

得分 次數 得分 次數 得分 次數

0 373 0 908 0 23 比利

時丁 1 397

美國

丁 1 732

施測

丁 1 96

133

表附錄 4-3-1(續) 幾何方塊題各國得分統計表

得分 次數 得分 次數 得分 次數

0 335 0 754 0 29

1 340 1 762 1 57

比利

時戊

2 95

美國

2 124

施測

2 33

得分 次數 得分 次數 得分 次數 得分 次數

0 141 0 86 0 52 0 115

1 126 1 83 1 78 1 111

2 167 2 128 2 122 2 121

3 257 3 205 3 157 3 183

4 178 4 143 4 153 4 123

5 153 5 81 5 138 5 73

新加

坡總

6 93

香港

總分

6 35

日本

總分

6 69

台灣

總分

6 41

得分 次數 得分 次數 得分 次數

0 100 0 331 0 1

1 101 1 250 1 1

2 154 2 317 2 5

3 164 3 300 3 22

4 127 4 246 4 26

5 73 5 127 5 38

比利

時總

6 51

美國

總分

6 69

施測

總分

6 26

134

表附錄 4-3-2 幾何方塊題各國事後分析表

第一題 第二題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0170 0000 1 2 -0023 0984

3 -0350 0000 3 -0270 0000

4 -0150 0000 4 -0099 0005

5 -0085 0028 5 -0100 0003

6 0033 0793 6 0042 0545

2 3 -0180 0000 2 3 -0250 0000

4 0022 0993 4 -0076 0160

5 0085 0062 5 -0078 0138

6 0200 0000 6 0066 0152

3 4 0210 0000 3 4 0170 0000

5 0270 0000 5 0170 0000

6 0390 0000 6 0310 0000

4 5 0063 0350 4 5 -0002 1000

6 0180 0000 6 0140 0000

5 6 0120 0000 5 6 0140 0000

第三題 第四題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0019 0995 1 2 0120 0000

3 0160 0000 3 0110 0001

4 0110 0001 4 0230 0000

5 0290 0000 5 0042 0773

6 0260 0000 6 0110 0000

2 3 0150 0000 2 3 -0011 1000

4 0089 0043 4 0110 0003

5 0270 0000 5 -0079 0127

6 0240 0000 6 -0010 1000

3 4 -0056 0514 3 4 0120 0000

5 0120 0000 5 -0068 0285

6 0096 0002 6 0001 1000

4 5 0180 0000 4 5 -0190 0000

6 0150 0000 6 -0120 0000

5 6 -0029 0934 5 6 0069 0110

135

表附錄 4-3-2(續) 幾何方塊題各國事後分析表

第五題 總分

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0170 0000 1 2 0120 0913

3 0013 1000 3 -0330 0008

4 0220 0000 4 0320 0017

5 0081 0294 5 0230 0233

6 0150 0000 6 0600 0000

2 3 -0150 0001 2 3 -0450 0000

4 0052 0872 4 0200 0521

5 -0085 0348 5 0110 0949

6 -0013 1000 6 0490 0000

3 4 0210 0000 3 4 0650 0000

5 0069 0627 5 0560 0000

6 0140 0000 6 0940 0000

4 5 -0140 0008 4 5 -0087 0986

6 -0064 0514 6 0290 0023

5 6 0073 0354 5 6 0370 0000

Page 7: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較

V

目 錄

第一章 緒論

第一節 研究動機1

第二節 待答問題5

第三節 名詞釋義5

第四節 研究限制7

第二章 文獻探討

第一節 實作評量8

第二節 第三次國際數學與科學教育成就研究 25

第三節 TIMSS試題與國內數學課程關係之分析34

第三章 方法與步驟

第一節 研究架構40

第二節 研究工具發展40

第三節 研究的信效度與實作評量的試題架構47

第四章 結果與討論

第一節 利用TIMSS 1999實作評量試題比較民國89年跟民國95年的成績差

異49

第二節 利用TIMSS 2003實作評量試題檢視施測學校在性別及班級間是否

存在差異60

VI

第三節 利用TIMSS 2003實作評量試題比較施測學校與原始施測資料的成

績差異65

第四節 實作評量試題的類推性84

第五章 結論

第一節 結論88

第二節 建議90

參考文獻

壹 中文部分92

貳 英文部分96

附錄

附錄一 TIMSS 2003參與的國家102

附錄二 題目103

附錄三 給老師的話113

附錄四 分析資料補充125

VII

表目錄

表 2-1-1 實作評量與紙筆測驗的比較17

表 2-1-2 各種評量類型的比較18

表 2-2-1 TIMSS 2003課程架構27

表 2-2-2 維京評分系統28

表 3-3-1 試題架構48

表 4-1-1 95年魔術師題組得分情形分配表50

表 4-1-2 89年魔術師題組得分情形分配表50

表 4-1-3 魔術師ㄧ獨立樣本t 檢定51

表 4-1-4 魔術師二獨立樣本t 檢定52

表 4-1-5 魔術師三獨立樣本t 檢定52

表 4-1-6 95年擲骰子題組得分情形分配表53

表 4-1-7 89年擲骰子題組得分情形分配表54

表 4-1-8 擲骰子一獨立樣本t 檢定55

表 4-1-9 擲骰子二獨立樣本t 檢定55

表 4-1-10 擲骰子三獨立樣本t 檢定56

表 4-1-11 擲骰子四獨立樣本t 檢定56

表 4-1-12 擲骰子五 a獨立樣本t 檢定57

表 4-1-13 擲骰子五 b獨立樣本t 檢定57

VIII

表 4-1-14 95年猜一猜題組得分情形分配表58

表 4-1-15 89年擲骰子題組得分情形分配表58

表 4-1-16 猜一猜資料統計59

表 4-1-17 猜一猜獨立樣本t 檢定59

表 4-2-1 各題型之相關係數61

表 4-2-2 班級對總分之變異數分析62

表 4-2-3 性別對總分之組別統計量與t檢定表62

表 4-2-4 性別對各題之組別統計量與t檢定表63

表 4-3-1 95 年圖形題題組得分情形分配表66

表 4-3-2 圖形題百分比同質性檢定66

表 4-3-3 圖形題題組各國答對率的比較67

表 4-3-4 圖形題各題之資料統整68

表 4-3-5 圖形題各題之變異數分析69

表 4-3-6 圖形題各題之事後比較70

表 4-3-7 圖形題總分變異數分析的結果71

表 4-3-8 圖形題總分事後分析72

表 4-3-9 95年數字卡題題組得分情形分配表72

表 4-3-10 數字卡題題組各國答對率的比較73

表 4-3-11 數字卡題各題之變異數分析74

IX

表 4-3-12 數字卡題之事後比較75

表 4-3-13 數字卡題總分變異數分析的結果77

表 4-3-14 數字卡題總分事後分析77

表 4-3-15 95年幾何方塊題題組得分情形分配表78

表 4-3-16 幾何方塊題題組各國答對率的比較78

表 4-3-17 幾何方塊題各題之變異數分析80

表 4-3-18 幾何方塊題各題之事後比較81

表 4-3-19 幾何方塊題總分變異數分析的結果83

表 4-3-20 幾何方塊題總分事後分析83

表 4-4-1 實作評量概化程度變異成分表84

表 4-4-2 G研究與各種D研究之變異成分分析與推論力係數87

表附錄 4-1-1 圖形題各國得分統計表125

表附錄 4-1-2 圖形題各國事後分析表126

表附錄 4-2-1 數字卡題各國得分統計表128

表附錄 4-2-2 數字卡題各國事後分析表130

表附錄 4-3-1 幾何方塊題各國得分統計表132

表附錄 4-3-2 幾何方塊題各國事後分析表134

X

圖目錄

圖 2-2-1 1995年到2003年4年級學生的數學趨勢31

圖 2-2-2 4年級學生在男女性別上的差異33

圖 2-2-3 1995 到2003年的男女生進退步情形34

圖 4-1-1 百分比圖表比較結果51

圖 4-1-2 百分比圖表比較結果54

圖 4-1-3 百分比圖表比較結果59

圖 4-3-1 圖形題題組答對率之比較圖67

圖 4-3-2 數字卡題題組答對率之比較圖73

圖 4-3-3 幾何方塊題題組答對率之比較圖79

1

第一章 緒論

本研究主題是利用 TIMSS 1999 跟 TIMSS 2003 的公開實作評量試題為測驗工

具比較探討台灣學生在這方面的進退步情形本章節將說明本研究的研究動機

與目的問題和研究中所用的特定名詞

第一節 研究動機 從民國八十二年民間團體發起了 410 教改大遊行迄今此波教育改革歷時 12

年最近因為中央研究院李遠哲院長在立法院接受立委質詢時對教育改革因為

沒有減少學生的壓力而公開道歉(中時電子報 2005)又引起了一陣教改失敗

的言論其實改革是多面向的學生的壓力固然是改革的重點但學生的程度更

是我們所關心的畢竟學生的程度關係著下一代的競爭力所以在國民中小學九

年一貫課程綱要(教育部民 92)中特別提到迎接二十一世紀的來臨與世界各

國之教改脈動政府必須致力教育改革期以整體提升國民之素質及國家競爭

力所以改革是為了回應社會期待以及國家發展的需求基於此項認知由中

央研究院國科會和教育部共同規劃的「台灣地區教育長期追蹤資料庫」(Taiwan

Education Panel Survey簡稱 TEPS)預計用六個學年國中樣本從 2001 年 9

月開始高中樣本分成 2001 年下半年和 2003 年上半年進行兩個梯次的資料收

集主要研究團隊包括六位中研院全職研究人員投入大量的時間與精力以及多

位大學相關領域之研究者積極參與可見這項工程的浩大與重要所以本研究主

要為利用一份已發展成且具有信效度及良好試題特性的國小數學實作評量題目

來進行施測其結果除了跟民國 89 年研究者徐美英的結果相互比較學生程度差

別外並為後續研究者提供相互比較的基準

國際教育成就調查委員會 (The International Association for the

Evaluation of Educational Achievement簡稱 IEA) 主辦的「國際數學與科

學教育成就趨勢調查」(Trends in Mathematics and Science Study 2003簡

2

稱 TIMSS 2003)是自 1995 年以來第三次主辦連續週期性調查學生的數學和科學

成就主要目的在提供各國長期追蹤學生數學和科學趨勢成就以提升學生數學

和科學的學習成效由此可見學生程度一向是國際重視的課題世界各國尤其

是美國不斷的監測自己國家學生的程度不僅僅與國際上各國進行比較並將

資料建檔也進行縱貫比較另外除了本研究所提的 TIMSS 是針對數學與科學外

還有PIRLS針對語文科進行比較PIRLS目前有2001跟2006年兩年資料而TIMSS

則已經有 199519992003 三年的施測2007 年的施測目前已經開始進行籌劃

TIMSS 2003 以 13 歲群(即國二生)和 9 歲群(即小四生)為調查對象國科會和

教育部體認到未來我國國民在國際上競爭力的重要性希望持續了解我國學生的

學習成就與家庭背景學習環境教師等影響因素的關係以及我國學生的學習

特色與優缺點並與其他國家進行比較提供改進我國中小學數學及科學教育政

策及課程之參考並積極參與國際間科學教育的交流與合作因此補助國立台灣

師範大學科學教育中心進行 TIMSS 2003 調查研究TIMSS 2003 從 2000 年九月

開始發展研究調查相關工作總計有 49 個國家參加其中 48 個國家參加 13 歲

群調查26 個國家參加 9歲群調查我國自 2001 年元月開始加入 TIMSS 2003 國

際調查工作包括提供命題架構意見數學和科學試題命題試測(field test)

資料收集參加專家問卷會議實測(main survey)資料收集參加公佈 TIMSS

2003 結果記者會國際成果指標會議國際資料分析會議等各項工作國內學者

引用 TIMSS 相關資料進行相關研究的有

(1)徐美英TIMSS 數學實作評量在台灣之試用探討(民國 89 年)

(2)洪瑞鎂從「第三次國際數學與科學教育成就研究後續調查」探究台灣國

二學生的數學基本能力(民國 90 年)

(3)洪佳慧由教科書內容與性別面向分析我國國二學生在第三次國際數學與

科學教育成就研究後續調查(TIMSS-R)的學習表現-生命科學以及環境與資源議

題部分(民國 91 年)

(4) 劉佳容我國國二學生在 TIMSS-1999 中之理化學習成就分析(民國 91 年)

3

(5)侯怡如由考試文化的角度分析我國學生在 TIMSS 1999 的答題表現----生

命科學部分(民國 92 年)

(6) 鄭心怡教育指標與經濟指標對學業成就影響之國際比較以 TIMSS 為例

(民國 93 年)

(7)羅珮華從「第三次國際科學與數學教育成就研究後續調查(TIMSS 1999)」

結果探討國中學生學習成就與學生特質的關係七個國家之比較(民國 93 年)

(8)顏秀玫我國小學四年級學生在「2003 年國際數學與科學教育成就趨勢調

查(民國 93 年)

(9)張謝玲宜蘭區某國中國二學生 科學成效影響因子之探討-引用國際調查

報告 TIMSS-R 之研究方法(民國 93 年)

綜觀上述國內學者研究的內容可以發現均重視該年段橫向的比較而缺乏

進行縱貫的研究值此世界各國進行教育大改革之際台灣也難免追隨這波改革

浪潮在課程內容與制度大變動之際學生是否保持原有的程度或甚至更好是

值得我們更加關注在國民中小學九年一貫課程綱要(教育部民 92)中針對

數學科明確提出下列四個原則一 參考施行有年且有穩定基礎的傳統教材

二 採用國際間數學課程必備的核心題材三 考慮數學作為科學工具性的特

質四 現有學生能夠有效學習數學的一般能力具體而言九年一貫數學學

習領域的教學總體目標為

(1) 培養學生的演算能力抽象能力推論能力及溝通能力

(2) 學習應用問題的解題方法

(3) 奠定下一階段的數學基礎

(4) 培養欣賞數學的態度及能力

其中國民小學階段的目標為

(5) 在第一階段(一至三年級)能掌握數量形的概念

(6) 在第二階段(四至五年級)能熟練非負整數的四則與混合計算培養流暢

的數字感

4

(7) 在小學畢業前能熟練小數與分數的四則計算能利用常用數量關係解

決日常生活的問題能認識簡單幾何形體的幾何性質並理解其面積與體積公

式能報讀簡單統計圖形並理解其概念

由以上的課程目標中可以清楚的看出數學課程的改革內容除了參考以往課

程內容之外也參考國際的課程內容進行改革並因為數學具有工具性的性質

具體的指出各階段需要具備的基本能力研究者希望透過已具有信效度及良好試

題特性的國小數學實作評量題目的施測一方面跟國際資料庫進行學生程度的比

較另一方面也跟徐美英TIMSS 數學實作評量在台灣之試用探討(民國 89 年)

在台灣施測的資料進行縱向比較以了解學生在這幾年的教育改革中在國小四

年級這個範圍內透過實作評量的方式評斷出來的能力是否有所差異

徐美英論文中指出其自編試題(猜一猜)學生能夠完整的敘述解釋百分比

僅達 549所以表示台灣學生在以數學語言的溝通上尚待加強而該試題與

TIMSS 試題有一定程度相關的是擲骰子繞過彎道和魔術師所以本研究研究者

打算選取其中 3 題(猜一猜擲骰子魔術師)找跟原論文相似的環境(住宅

跟工業混合區的學校)進行施測將兩項資料進行比較以探討在這樣的環境背

景中的學生經過這 5年的教育改革後對這個範圍內經由實作評量所測出來的

能力是否有所不同另外再從 TIMSS 2003 已公佈的實作評量題目中找出 3

題(幾何方塊數字卡圖形題)進行施測其結果跟國際資料庫進行比較進

一步探討這樣環境下的學生跟原始台灣施測資料中的學生是否有程度上的差

異跟國際上整體表現較好的國家學生的表現比較是否有程度上的差異

本研究測驗題目將從徐美英論文中選取 3 題從 TIMSS 2003 公佈的實作評

量試題中選取 3題並以 TIMSS 對實作評量採取的維京評分系統(又稱建構反應

評分系統Constructed Response簡稱 CR)為評分工具資料用 SPSS 進行分

析比較並以推論力理論推算本次施測的信度係數研究者希望能從施測中獲得

教育改革的成果從實作評量的角度是否是進步的並期待施測的資料能提供

未來需要再做類似研究者的比較基準

5

第二節 待答問題 壹探討特定環境背景的台灣國小四年級學生在民國 89 年與民國 95 年對

TIMSS 1999 實作評量的成績有何差異

貳探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 實作評量的

成績在性別及班級間是否有差異

叁探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 實作評量的

成績與台灣原始施測資料中的學生實作評量成績是否有程度上的差

肆探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 的實作評量

成績與國際上整體表現較好國家的學生實作評量成績是否有程度上

的差異

第三節 名詞釋義

壹實作評量

在教室情境中學生有幾類學習行為及其成就表現是無法用客觀式紙筆測

驗來正確評量出來的這些學習行為表現包括

(1)溝通技能(如說話口語表達演講朗讀寫作等)

(2)心理動作技能(如實驗室內的儀器操作書法打字繪畫工藝烹

飪樂器演奏戲劇表演等)

(3)運動技能(如跑跳直球游泳舞蹈等運動技能)

(4)概念應用(如應用所學的概念和知識解決日常生活所遇到的實際問題)

(5)情意特質(如團隊合作遵守規定自我反省等)

這些都是強調實際的表現行為(actual performance)都需要教師根據學生的

表現過程之有效性或最後完成作品的成果品質分別或合併地進行評分才能決

定學生在這方面學習的成就高低這種強調實際表現行為的評量方式稱為「實

6

作評量」(performance assessment)(余民寧民 93)所謂實作評量就是在自

然或已建構好的環境中要求學生執行或處理(process)一件指定的工作並

由教師觀察或評鑑學生的建構性反應的過程與結果看他們是否適當精確和完

美的達成教學目標(歐滄和民 91)

貳TIMSS

國際數學與科學學習成就調查研究係由國際教育學習成就調查委員會主

持主要目的在於了解各國數學與科學學習成就與各國文化背景教育環境影響

因子之相關性並進一步做國際間之比較研究分析第一次國際數學與科學教育

成就調查於 1970 年舉行共有 19 個國家參與經十年後1980 年進行第二次國

際數學與科學教育成就調查(SIMSS)有 24 個國家參與我國曾於 1987 年 5 月

經 IEA 總部同意引用第二次國際數學與科學教育成就調查工具在我國進行測

驗(但不是正式參加)由國立台灣師範大學科學教育中心負責執行以了解我國

國小國中及高中學生數學及科學成就在國際上所佔的地位IEA 自 1990 年開始

推動進行「第三次國際數學與科學教育成就研究(Third International

Mathematics and Science Study TIMSS)」本計畫有四十餘國參加第三次國

際數學與科學教育成就研究後續調查(稱為 TIMSS REPEATTIMSS-R)於 1999 年

舉辦調查對象為國二學生(13 歲群)共有 38 個國家參加鑒於世界各國對國

際數學與科學教育成就研究的熱烈反應IEA 計劃往後每四年辦理國際數學與科

學教育成就研究一次並改名為國際數學與科學教育成就趨勢調查(Trends in

International Mathematics and Science Study 簡稱 TIMSS )TIMSS 2003

的調查對象包括國小四年級及國中二年級學生TIMSS 的測驗內容包括數學跟科

學並從學生教師和校長們的回答中廣泛地蒐集有關數學跟科學教學與學習資

料另外還經由課程指引教科書和其他教學媒體的分析探討參與國家的數學

7

和科學課程並將結果發表成一系列的國際報告讓參與國家的教育政策制定者

和實務工作者得到有關在數學與科學教學上跟學生學習成就上的珍貴訊息

第四節 研究限制

本研究對於整個計畫的擬定與進行過程中由於在時間上與人力上尚有所不

足的影響以至於對本研究的進行有所限制茲分別就研究工具與分析研究樣

本與應用範圍兩方面說明之

壹研究工具與分析

在 TIMSS 2003 試題部分由於是翻譯試題照理應該經專家學者進行反譯

程序以確保試題的原意未被扭曲但因資源限制所以只經國小專任資深英文

教師與研究者討論而定案

貳研究樣本與應用範圍

因人力與時間的限制只能選擇一間學校來實驗因樣本受限於某一學校

所以本研究的結果與建議限制受限於相同類型的學校

8

第二章 文獻探討

本研究的文獻探討將分成三節第一節為探討實作評量的意涵和特色以及

國內相關實作評量的研究第二節為 TIMSS 的簡介及國外相關的研究第三節為

TIMSS 試題與國內數學課程的分析

第一節 實作評量

壹實作評量的緣起

長久以來多數人將評量窄化為紙筆測驗的考試用考試的成績來論斷一個

人的高下使得評量的目的偏狹方式單調內容枯躁意義盡失再加上過度

倚賴標準化測驗常導致課程窄化且易流於基本技能與片面瑣碎事實的學習忽

視複雜思考和問題解決能力(江文慈民 87詹志禹民 85)簡言之考試第

一分數至上的迷思等於將評量窄化了也扭曲了評量的目的更簡化了評量

的結果事實上考試只是評量的方法之一評量的目的是要提供學生有益的回

饋評量的改革意味著教學與課程發展的改進因此在教育改革中教師要採

用新的評量方式以符合教學的新趨勢評量的意義在於了解學生學習與教師教

學之用其主要的目的是在教育的過程能隨時掌握學生的學習讓教師明白教

學情況藉以發揮教育的效率與效能實作評量受到歡迎的主要原因之一是一

般人對於選擇式的測驗題感到不滿意例如選擇式的測驗題只能測量學生「知

道」什麼但無法測量學生「能做」什麼此外認為以選擇題為主的標準化測

驗對於教師的教學和學生的學習造成一些偏差的影響標準化測驗經常是一般家

長用來評估學校教學績效的方式在績效的壓力之下造成部分教師教學側重於

測驗的內容而扭曲了教學的面貌和窄化學生的學習結果在教育改革的推動

上教育界期望藉著評量的革新來提升教師教學的品質和學生學習的成就此

外一些入學考試和證照考試也在原有的選擇題之外增加建構反應題或實作測

9

驗部分實作評量在教育界和測驗界已是一個非常顯明的趨勢Silver(1993)

認為假如我們沒有將看過或聽過的數學留住那它將永遠不會變成我們的知識

所以實作評量吸引人的地方正在於它讓教師更能洞悉學生的思考並將所得的訊

息直接應用在教育計畫中

實作評量的提倡者主張實際工作的評量模式比紙筆測驗更能充分深入的了

解學生的知識和理解程度(Haertel amp Linn1996)以下將各學者對實作評量

的定義整理概述如下

一以觀察和專業判斷來評量學生學習成就的評量方式都可以稱為實作評量其

型式非常的多元化例如建構反應題書面報告作文演說操作實驗

資料蒐集作品展示等都是實作評量的例子( Stiggins 1987 )

二案卷評量也是實作評量的一種型式實作評量具有下列幾點特徵

(一)要求學生執行或製作一些需要高層思考或問題解決技能的事或物

(二)評量的作業( tasks )是具有意義性挑戰性且與教學活動相結合

(三)評量的作業能與真實生活產生關聯

(四)歷程( process )和作品( product )通常是評量的重點

(五)表現的規準( criteria )和標準( standards)-也就是評量的重

要層面與給分標準要事先確定實作評量有時也被稱為真實性評量

(authentic assessment )( Herman Aschbacher amp Winters 1990 )

三實作評量可視為『以超越傳統評量方式為了解學生熟練度而蒐集資料的一

種評量方式』(DnubarKoretz amp Hoover1991)

四實作評量不僅反應出學生解答的正確性同時也顯現出其得到答案的過程

(Ruiz-primoBaxter amp Shavelson1993)

五實作評量是應用各種評量方式評量各種能力及技巧要求學生展示知識的

應用而非僅展示知識的本身(Long amp Stansbury1994)

六實作評量乃是模擬一些標準情境(亦即是在自然情境下的實作)之測驗其

10

模擬的程度高於一般紙筆測驗所代表者(陳英豪吳裕益民 85)

七實作評量係指根據學生實際完成一項特定任務或工作表現所作的評量這些

任務或工作可能是實際操作口頭報告科學實驗數學解題寫作hellip等

因此其所使用的方式係透過直接的觀察學生表現或間接的從學生作品去

評量(吳清山林天祐民 85)

八凡是以學生在評量過程中的表現或成果作為評量的依據再根據教師的判

斷用事先指定的標準來評定等級的評量方式都可稱之為實作評量(夏

淑琴民 88)

貳實作評量的特色

綜合國內外學者觀點實作評量具有以下特色

一銜接教學與評量教學與評量的密切配合可以對學生的學習情形提供較全面

性的完整的深入的訊息此訊息可以幫助老師更了解學生的學習優勢及

問題掌握學生真正的能力及進步情形使老師能在教學上做適當的調整來

幫助學生解決問題提升其學習水準而惟有重視過程的評量學生才有機

會去反思自己學習上的問題省察如何在學習上求進步而這些也才是真正

的學習

二使學習更有意義更深入強調教學與評量的內容應為重要的完整的概念

而非瑣碎知識的累積應重視思考與問題解決能力的培養而非低層次的記

憶與歸納它的目的在幫助學生獲得完整有意義的概念增進表達技巧及

運用策略的能力並激發學生從事較複雜的深層思考所以實作評量著重脈

絡下有意義的學習在教學與評量的過程中它鼓勵學生主動探索深入思

考並表達學習此種評量方式有助於提升學生的思考及問題解決能力使

學生的學習更有意義更為深入

11

三強調學生知道什麼能做什麼實作評量的重心不在於偵測學生哪裡做錯了

而在於強調學生知道什麼能做什麼及如何再進一步知道得更多做得更

好簡言之其精神是「你會做很多事你還可以學會更多事」對於學生

嘗試去做好某一件事的努力(縱然尚未達到預期的目標)也給予正面的回

饋以學習理論而言較符合學習理論中的公平性或正當性亦即努力是有

收穫的

四強調與實際生活的結合實作評量可以讓教師瞭解學生對問題瞭解程度投

入程度解決的技能和表達自我的能力能夠較完整的反映出學生的學習結

果因為實作評量與真實生活較為相近其支持者認為實作評量能夠增進學

生學習的動機提高學生參與和投入的程度

五幫助學生建構有意義的學習情境發展問題解決能力批判性思考和表達自

我的能力

六有時候實作評量也可以做為一種教學策略提高學生的學習興趣和學習結

果評量和學生的學習以及老師的教學應該是密不可分並且互相支援的評

量的目的是幫助學生學習跟老師教學所以評量應該是自然的融入出現在

課堂而不是強制性的加進課堂上實作評量與實際教學過程有相當密切的

關係往往可以成為實際教學的一部份實作評量本身就是一種有效的教學

活動

七鼓勵合作學習許多文獻顯示合作學習可以提高學生的學習成就增強學

生的理解能力藉由溝通與辯論的過程學生可以重述自己的概念架構和知

識體系以促成有效的概念改變並達到有意義的學習在一個小組合作評

量的情境下藉由同儕的誘導和鼓勵彼此意見的分享並相互進行共同評

量是提高學生成就表現的重要機制

八直接評量排除語文能力的干擾實作評量比較不需要用到語文能力這對

於閱讀或文字表達能力較差的學生而言是比較公平的

12

叁實作評量的目的

Webb(1992)認為一個好的評量應具備四個目的第一個目的是成為教師蒐

集資料的工具透過評量的回饋教師可以知道學生學會多少和能做什麼第二

個目的是要表達學生在學習過程中所做所學的哪些東西是有價值第三個目的

是提供教育決策者一些教學績效之訊息最後的目的評量應該對整個教育體系

提供積極之建議(張敏雪民 86)雖然評量方式會因不同的評量目的而有所

不同然而現行的紙筆測驗過於強調排等第忽略了評量原先之目的教師只

教要考的學生只讀要考的成了所謂「考試領導教學」然而二十一世紀的

國民不是只會在試卷作答的人而是要有「分析預測及適應能力的人」簡而

言之就是能為生活而思考的人(曾慧敏民 87)實作評量重視教育過程本身

的價值和學生主動建構的能力因此重視學生學習過程和結果讓學生有意義

的學習使學生能靈活應用所學不僅評量認知層次也評量技能及情感層次

較傳統的紙筆測驗更能蒐集到學生較豐富的學習訊息

實作評量的目的如下(桂怡芬民 85曾慧敏民 87 Linn 2000)

一檢視學生學習成果是否能達到教學期望的結果

二從評量的結果能清楚交代學生的學習成就

實作評量能直接觀察學生到達結果的過程不只是評量答案之正確性能完

整的呈現學生在複雜能力及歷程上的表現並能依表現推論其構念表現

三藉由此評量可展現學生的技能和能力

實作評量除了能直接的測出學生問題解決的歷程與結果也能展現出高層次

認知情意與技能及後設認知等能力

四使得教學與評量能充分配合

實作評量注重與教學的互動其主要的目的為幫助學生的學習與改進教師的

教學

13

五為課程改革的重要指標

因實作評量標榜著可提升學童高階思考與問題解決的能力因此在教育改革

時備受重視

肆實作評量步驟

實作評量強調在和生活相關的情境下能讓學童展現所知所學的能力來解

決問題然而若是活動或作業設計不夠完整評分規準不夠明確等都可能導

致實作評量無法達到預期的目的(鄒慧英民 87)因此應如何設計出一份好

的實作評量試卷呢(Stiggins 1994)以下提出幾個注意要點

一確立設計評量的原因與目的

評量之所以實施一定有其原因包括確定評量結果所要作的決定例如

分組個別鑑定等第評定與優缺點的診斷等接著考量評量結果是否用於「排

名」或用於決定學生否達到精熟水準

二設計實作評量的內容

(一)選擇作業的形式

可以蒐集教室中自然而然發生的事件也可以設計結構化作業引發

學生表現的機會測出學生真實能力的實作評量

(二)決定評量的實施情境

因為怕受試者的動機與考試的焦慮可能影響學生的真實能力之表

現施測者可考慮事先告知學生相關評量的性質與評分標準因此在一

般的測驗情境下應先觀察受試者的焦慮情形再決定是否事先告訴受試

者評量事宜或採取不事先告知以測出學童最大的表現能力本研究採取

後者

(三)確定所要編製的實作試題數

14

決定實作題目數量應考慮評量的作業是否具代表性蒐集到的證據數

量是否可以提供較精確的學生能力思考層次

三確定實作評量成績計分標準

(一)決定分數的型式

如果評量的目的是做為分組或選擇的依據則可採整體性評分若是

診斷或檢定學童的基本能力可採取分析性細部評分本研究為診斷學童

分數的學習能力採用開放式的結構題型由學生自行建構答案因此

根據不同的答案給予不同層次的分數

(二)選擇評分者

評分者可為教師專家同學或受試者本身但基本上所有的評分

者得先接受專業的評分者訓練使每個人對評分歸準有所共識本研究請

已有五年以上之教學經驗的教師擔任評分者

(三)紀錄評分結果的方法

可採用檢核表評定量表軼事紀錄表等評定量表同時呈現了觀察

項目及分數評比常用於歷程與結果之評量適用於各學科之實作評量

本研究採用評定量表來紀錄評量結果總之發展實作評量時首先需

澄清「教學目標」與「評量的目的」是必要的其次「評量內容」或「評

量對象」取樣的代表性更是影響評量效度的重大因素最後清楚的「評

分規準」與完整的「評分者訓練」及詳細的「評分程度」則是影響評量的

信度唯有如此才能獲致高品質的實作評量(鄒慧英民 86)

伍實作評量的限制

一實施上非常耗費人力時間跟金錢

真正在實施實作評量時通常會受到器材跟場地的限制或是因為擔心產生相

15

互干擾因素而一次只能有限個學生同時進行施測這點跟團體施測的紙筆測驗

相比是非常耗費人力跟時間另外實作評量常需要有器材設備以及消耗性材料這

點跟團體施測的紙筆測驗相比是非常耗費金錢

二測驗情境控制困難

由於不是同時全體施測所以先後受測的學生容易相互干擾而且未受測

的學生跟已受測的學生的交談或傳授經驗也影響到考試的公平性加上前後施

測使得後面的同學很難有一致的施測條件例如場地未乾淨儀器未復原或被

損壞等

三計分不容易客觀

實施實作評量的目的不外乎想根據評量結果來為學生做決策因此獲

得一個正確而又可靠的評量結果(即高信度跟高效度值)便成為一件很重要的

事然而很不幸的實作評量如論文評分一樣由於是使用觀察跟判斷等兩類比

較主觀的評分方式來進行所以其結果難免具有很高的評分者誤差存在一般而

言評分者誤差有三種來源偏見月暈效應跟評量次數過少

四對容易焦慮的學生不利

實作評量的正式性與控制性會使得缺乏自信心或很在意他人評價的學生

產生過度焦慮進而影響其表現

陸實作評量的信效度

實作評量的信效度仍有待探討實作評量的信度通常是以概化程度

(generalizability)來描述(BaxterShavelsonGoldmanPine1992Dunbar

et al1991LinnBakerDunbar1991Linn1993Moss1994Ruiz-Primo

et al1993ShavelsonBaxterGao1993)概化程度包括評分者之間一致

的程度以及學生在不同工作項目(task)表現的一致程度(Shavelson et

16

al1993)根據 Shavelson 等人的研究結果發現實作評量在評量工作項目方面

的概化性較低顯示學生在不同工作項目上的表現有較大的差異在效度方面

實作評量所顯露出的問題有以下三個

一客觀性及公平性實作評量通常僅以一個評分者評定學生的表現所以

評量的結果可能過於主觀或有潛在的偏見(bias)問題(Airasian1991

Frechtling1991Linn et al1991Linn1993)

二評量內容的涵蓋性由於實作評量實施方式及時間的限制通常所評量

的學生行為表現較傳統測驗為少即評量內容的涵蓋範圍較小不易獲得學生行

為的適當樣本(Airasian1991Linn et al1991Linn1993)

三成本及效率問題這部份即時間與經濟的考量Linn 等人(1991)Linn

(1993)及 Messick(19941995)將這一點併入實作評量的效度標準

Baxter 等人(1992)Ruiz-Primo 等人(1993)及 Shavelson 等人

(199119921993)均從概化理論(generalizability theory)的觀點出發

採用取樣架構(sampling framework)來分析實作評量的信度(概化性)探討

評分者間評量項目間評量時間等的取樣變異以及其他潛在的誤差來源他們

針對神秘的電路盒(electric mysteries)毛細現象(paper towels)及小蟲

的習性(bugs)等評量項目採專家觀察(expert observation)實驗筆記

(notebook)電腦模擬測驗(computer simulation test)及紙筆測驗等方式

記錄學生的表現研究結果發現與評分者有關的取樣變異不大評量時間的取

樣變異極小而評分者與受試者間的交互作用(ratertimesperson interaction)和

評分者與評量項目的交互作用(ratertimestask interaction)這兩個部份的變異也

幾乎為 0故他們認為只要一個經過良好訓練的評分者(one well-trained

rater)即可用以評定學生在實作評量上的表現但他們發現在實作評量中評

量項目與受試者及該兩者與時間的交互作用是兩個最大的變異來源研究結果顯

示學生的表現因為工作項目的不同而有極大的差異而這樣的變異在不同時機上

17

更是明顯因此欲提高實作評量結果的一致性必須增加評量的工作項目使得以

學生在實作評量上的行為表現做其能力的推論時能夠降低與學生實際能力無關

的變異

Baxter 等人(1992)及 Shavelson 等人(19921993)主要是從評量對學生

能力的鑑別程度不同評量方式間的輻合效度不同特質及方法間的區辨效度等

三方面探討實作評量的效度他們的研究結果顯示不同的測量方法所得到的結果

並不一致Shavelson 等人(1993)發現在同一個工作項目之下不同的測量方

法中實驗操作與實驗記錄的相關最高實驗記錄與紙筆填充測驗及電腦模擬測

驗與紙筆填充測驗之間的相關最低這是因為實驗操作與實驗記錄為同一思考流

程所以相關較高此外他們也發現受試者與工作項目及測量方法間的交互作

用及誤差是變異的最大來源表示不同的測量方法可能是在測量科學成就的不同

面向(Shavelson et al1993p227-229)最後在不同工作項目之下採用

相同或不同測量方法所得到的相關的確較低顯示實作評量具有區辨效度

柒實作評量與其他評量的比較

大體上實作評量具有下列各項功能(Airasian 1994)茲列表如下

表 2-1-1 實作評量與紙筆測驗的比較

實作評量 紙筆測驗

學生把知識轉化成可觀察的表現行

為或成品的能力 主要涉及學生的知識及資訊的獲得

設計及施測費時但評量表可針對

同一或新的學生重複施測

設計費時但可同時施測許多學生

同組學生僅能使用一次

學生表現不佳可予診斷及補救

可監控學生進步實況

除論文式及開放式數學題之外甚少

提供方向指示如何改進表現

教學首重表現及過程 教學重內容知識

資料來源Airasian (1994) P236

18

表 2-1-2 各種評量類型的比較

客觀式測驗 論文式測驗 口頭發問 實作評量

目的

以最大的效率

及信度測驗

代表性的知

評估思考的技

巧及知識結構

的瞭解程度

教學時評估

知識

評估知識及瞭

解化為行動的

能力

學生的

反應

閱讀評量

選擇 組織寫作 口頭回答

計劃建構

及表達原始的

反應

主要優

效率在測驗

時間內可測驗

到許多項目

可測量複雜的

認知結果

使評估與教學

結合

提供充分的表

現技巧

對學習

的影響

過度強調回

憶鼓勵背誦

記憶如能適

當出題可促進

思考技巧

鼓勵思考及寫

作技巧的發

刺激學生參與

學習提供教

師立即回饋了

解教學是否有

強調運用知

識技巧於實

際的問題情

資料來源Airasian (1994) P229 et ls

捌實作評量相關研究

國內有許多探討實作評量設計的可行性研究以下將就國內學者所做的研

究整理說明

一陳文典陳義勳李虎雄簡茂發(民 84)美國馬里蘭州學校實作評

量國際共同研究計畫

將 MSPAP(the Maryland School Performance Assessment Program)的

19

試題轉譯成中文在國內進行小規模的施測藉以了解這種測驗的功能

使用上的時機及應用上的困難在其對我國五年級學生施以數學理化

和生物等實作評量題目後發現此種測驗模式能遍及各項科學能力我

國學生在回答問題時顯示其傳達與獨立作業能力均不足其評分客觀

的標準化可經由評分者講習的培訓達到目標實作評量可適用於平時作

業學生的科學能力競賽或教育行政單位的各校科學教育教學成效評鑑

等時機

二徐美英(民 89)TIMSS 數學實作評量在台灣之試用探討

(一)TIMSS 試題在台灣之施測具有信效度

(二)台灣四年級學生在 TIMSS 實作評量的表現顯著優於美國和香港地

區的學生

(三)TIMSS 試題在台灣之施測在男女生之間和班級間在總得分並

沒有顯著差異

(四)自編之試題猜一猜與 TIMSS 試題擲骰子繞過彎道

和魔術師有一定程度的相關

三洪之昀(民89)數學科實作評量對國小高年級學童學習策略影響之研究

(一)學生認為實作評量能增加對數學內容的了解提升學習興趣發

現數學的有趣擴大學習範圍並兼具情意評量的功能但也有學生認

為實作評量在實施上太麻煩且費時

(二)學生批判思考數學溝通數學表達的能力有待加強

(三)學生具有多方面的潛能亟待以實作評量的方式加以開發

四詹元智(民 91)國小數學科實作評量之效度探討

採準實驗研究設計的方式進行以屏東師範學院附屬小學六年級兩個班

的學生為研究對象一班為實驗組接受為期二個半月的數學實作評量

另一班為對照組接受傳統數學紙筆測驗的評量研究者於實驗前與實

20

驗後對兩組學生施以「傳統數學紙筆測驗」「數學實作評量」及「數學

學習解題態度」等三種測驗的前後測並對部份學生進行「數學實作

評量前後測的放聲思考訪談」概化性研究的分析結果顯示在一位評分

者及一題作業項目上之評分者間的變異相當小(319)不過分數的變

異有相當大的比例(約 50)是來自作業項目間及作業項目與受試者交

互作用的變異而在二位評分者及五題作業項目之概化性係數可達 08

以上顯示該研究之數學實作評量的結果能有效地推論至學生在其他評

分者及實作評量作業上數學問題解決的表現

五李長柏(民91)國小數學簡單機率解題實作評量與後設認知之相關研究

(一)數學解題實作評量具有良好的信效度

(二)本研究結果顯示具有良好的評分者信度

(三)數學解題能力和後設認知能力具有相關性

(四)性別在數學解題能力和後設認知能力上沒有差異

六王秀琲(民 92)實作評量在國小數學科之應用-以五年級學童分數為例

(一)實作評量能實際測出學童的分數概念在分割活動上連續量比

離散量好在表徵轉換上具體操作轉換符號模式為佳圖形轉換符號

模式較不理想分割策略會因情境的不同而使用較為簡便的方式來

解題

(二)從實作評量中學童能展現自行所建構的解題策略所獲得的訊

息比紙筆測驗多

(三)以 SS 分析法來分析實作評量之試題所呈現的試題關聯結構圖

中可以了解等分和連續量的分割活動是學童最易理解的概念而離散

量分割等值及單位量則是學童最難理解的概念

七張永杰(民 92)實作評量取向的幾何思考研究

(一)年級之幾何水準層次分佈情形有統計上的顯著差異存在年級

21

越高屬於高層次水準的學生越多

(二)當受試學生通過某一水準層次n的考驗但卻未能通過之前的任

一水準層次的考驗則稱為逆序現象有 697學生之幾何層次分佈呈

現逆序的情形

(三)學生不同 van Hiele 水準層次在後設認知能力上表現出顯著差異

(四)順序組學生能力值越高集聚的情形越明顯結構越完整逆序

組學生的概念結構比較少集聚呈現零散不完整的結構

(五)順序組能力低的學生所形成的關連結構比較零散而且概念間

的關聯程度不高能力越高的學生其關連結構概念問題結構化比較明

顯而且上下位觀念比較顯著逆序組學生的關連結構不但呈現零散不

完整的結構且關連結構圖中上下位觀念的情形比較不規律顯現其

概念結構比較雜亂

八林敬修(民 92)影響國小數學科實作評量信度相關因素之類推性理論

分析

(一)影響數學科實作評量分數一致性的主要變異來源為受試者與作業

項目交互作用(ptimest)變異其次為受試者(p)變異再其次為作業項目(t)

變異

(二)在評分者數學知能背景及評分者訓練對數學科實作評量分數一致

性的影響方面評分者的給分一致性因評分者數學知能背景及評分者訓

練而不同

(三)在題目結構度對數學科實作評量分數一致性的影響方面跨不同

結構度之作業項目對分數一致性的影響遠大過於跨相同結構度之作業項

目對分數一致性的影響此外不同數學知能背景及評分者訓練的評分

者在不同結構度的試題給分一致性上也有差異

(四)整體而言各評分組別的評分者一致性因評分向度之不同而有差

22

異其中以在「溝通表達」此一評分向度上的評分者一致性最低

九呂政隆(民 93)國小學童在數學實作評量解題整合認知與課程之相

關研究

運用實作評量的方式分別在九十學年度九十三學年度對五年級學生

施測以探討學生的數學解題與整合認知能力之相關性進而探討性別

課程在數學解題與整合認知能力上是否有顯著差異研究結果顯示實施

九年一貫課程後之九十三學年度整合認知中能力組在本研究之四份實作

評量之數學解題能力明顯低於九十學年度實施八十二年版國民小學課程

標準之數學解題與整合認知能力組

十石千奇(民 93)國小六學童在數學實作評量中的小組解題歷程分析

解題歷程模式受同儕討論的影響小組解題是四個人四條思考路線互相

牽引的結果解題歷程模式受操作實物的影響操作實物會影響解題階

段進行的走向小組成員並非全程參與解題歷程會因為題目的難易

互動過程階段性質等因素的影響而未能全程參與小組解題的階段變

化各行其道在各個解題階段的參與變化沒有一致性的發展操作實物

對各個解題階段皆有影響各產生不同的作用小組成員喜歡在實作評

量中以小組解題的模式解題覺得這樣的評量方式可以幫助解題

因此建議數學教師多採用以四人為一個小組在形成性評量中以小組

解題的方式進行實作評量

十一曲慧娟(民 94)實作評量在國中學術性向優異班招生鑑定之效度研

究~以臺灣北區為例

(一)錄取組和未錄取學生在入學後成就表現的差異分析顯示英文組

達顯著水準 (t=6159plt05)數理組未達顯著水準

(二)實作評量錄取學生在入學後之特殊表現的訪談結果發現各組學

生在發表能力競賽檢定檔案成果上的參與興趣濃厚也比較有所發

23

(三)受訪教師學生及參加座談會的教師們對實作評量的看法和意

見主要有下列重點

1命題是最大的困難各校命題均請專家學者指導師生都反應覺

得題目的品質不錯題型也很有創意和其它測驗不一樣但自然

科實驗器材的準備耗時費工是很大的負擔因此很多學校選擇用資

料分析的題目類型避免實驗操作器材準備的困擾

2實施程序上時間說明器材提供均適宜但場地的考量較多

如實驗位置的區隔語文施測時需安靜的場所等監考過程也是爭

議較多的如學生覺得監考老師應多幾位老師的尺度不同等

3受訪學生指出實作評量的應答方式和以往參加過的測驗有很大

的不同但都持肯定態度同時覺得語文表達能力會影響到實作評

量的成績

4各校評分都採集中閱卷的方式評分標準爭議性得分大都透過

閱卷老師討論後取得共識再給分

5目前各校在鑑定學生時決策的標準不一因此反應意見差異頗

大但從訪談資料發現受訪學生及教師都較支持運用初試複試

成績加權計算作為選擇學生的標準

6受訪教師表示學生入學後的表現和以往相較起來沒有明顯的

差異但在科展競賽檢定發表上的熱誠度較高

7學生的訪談結果發現大多數學生覺得實作評量可以測出他們在

學術性向上的能力或天份

8實作評量的保密情形比其它測驗要好很多但坊間仍有業者猜

題補習受訪學生及老師也表示有模擬實作或補習經驗者對

實作表現或多或少有影響惟一沒有保密困擾的是國文組

24

十二陳怡玉(民 94)降低國小數學科實作評量人和作業交互作用變異方

法的探討---以類推性理論分析

(一)由於分層變項選取不易導致「作業分層」無法有效降低人和作

業交互作用的變異

(二)「以圖表組織圖為鷹架」可以降低人和作業交互作用的變異

(三)「以圖表組織圖為鷹架」比「作業分層」更能讓人和作業交互作用

的變異降低

(四)進行「作業分層」的比較時實作評量的類推性係數和可靠性指

標以同一階層的作業採 ptimesTtimesR 設計最高但屬分層之 ptimes(TS)timesR 設計

卻低於作業未分層時的分析(即採作業 1234 的 ptimesTtimesR 設計來分

析)

(五)「以圖表組織圖為鷹架」能提高實作評量的類推性係數和可靠性指

十三蔡正濱(民 95)國小數學科實作評量評分者ㄧ致性相關因素探討

(一)影響數學科實作評量分數一致性的主要變異來源為受試者與作業

項目交互作用(ptimest)變異其次為受試者(p)變異再其次為受試者

作業與評分者三者之交互作用及誤差(ptimesttimesre)的部分

(二)在使用不同類型及等級數的計分規準對評分者間一致性的影響方

面在 ptimesttimesr 類推設計下不分計分規準種類與評分者有關的變異量

(含 rptimesr及 ttimesr 三者的總和)均相當小幾乎接近 0而在 ptimesr 設

計的整體類推性相關係數及給分差異比例方面分析式計分規準優於

整體式計分規準在不同等級數方面ptimesttimesr 類推設計中與評分者有

關的變異量及整體類推性七等級計分規準略佳但差異性不大在 ptimesr

設計的整體類推性相關係數及給分差異比例方面七等級計分規準優

於四等級計分規準其中又以使用整體式計分規準及評定高複雜度試題

25

時較為明顯

(三)在不同複雜度作業對評分者間一致性的影響方面低複雜度試題

的一致性高於高複雜度試題顯示評分者面對受試者在高複雜度試題的

作答反應時出現給分較不一致的情形最後受試者是否具備實作評

量計分規準之經驗對評分者間一致性的影響方面在低複雜度試題兩

組受試者之評分者一致性的差異性不大在高複雜度試題 A 組評分者

一致性大致高於僅具實作評量經驗之組別 B組而 AB兩組受試者的評

分者一致性差異程度在分析式計分規準上低於其在整體式計分規準之

差異程度

第二節 第三次國際數學與科學教育成就研究

由國際教育成就調查委員會(The International Association for the

Evaluation of Educational Achievement簡稱 IEA)主辦的「國際數學與科學

教育成就趨勢調查」(Trends in Mathematics and Science Study 2003 簡稱

TIMSS 2003)」是目前有關國際間對學生成就的調查研究中規模最大的一項調查

該測驗採取全世界合作模式主要單位有

一國家研究協調中心(National Research Coordinators)國家研究協

調中心負責選擇學校樣品 收集資料 計分標準和資料輸入 和準備研究結

果的一個國際報告

二TIMSS amp PIRLS 國際研究中心(在波士頓學院)(TIMSS amp PIRLS

International Study Center at Boston College)國際研究中心(ISC) 負責

TIMSS 的整體設計發展和實施這包括建立規程監督工具發展舉辦訓練

ISC 進行分析並且在國際報告和用戶資料庫中發布研究結果

三IEA 秘書處(IEA Secretariat)總部設在荷蘭的阿姆斯特丹IEA 秘

書處負責提供整體支持監督籌款和協助參與國家協調參與 TIMSS 的國家取得

26

測驗工具的翻譯證明

四IEA 資料處理中心(IEA Data Processing Center)IEA 有它自己的

資料處理中心位於德國的漢堡資料處理中心(DPC)負責處理和核對從所有參與

國家得到的資料和建立國際資料庫

五統計(Statistics Canada)在加拿大的渥太華負責 TIMSS 的所有採

樣活動包括開發取樣步驟和文獻和協助參加者能符合 TIMSS 的採樣設計

六教育測試的服務(ETS)(Educational Testing Service (ETS))ETS 為

TIMSS 成就測驗資料提供軟體和心理測量的支持 ETS 總部設在新澤西州的普

林斯頓

TIMSS 2003 是 IEA 自 1995 年以來第三次主辦連續週期性調查學生的數學和

科學成就主要目的在提供各國長期追蹤學生數學和科學趨勢成就以提升學生

數學和科學的學習成效TIMSS 2003 以 13 歲群(即國二生)和 9 歲群(即小四生)

為調查對象從 2000 年九月開始發展研究調查相關工作總計有 49 個國家參

加其中 48 個國家參加 13 歲群調查26 個國家參加 9歲群調查測驗的內容

包括數學和科學並從學生教師和學校的問卷回答中廣泛的搜集有關數學和科

學的教學和學習資訊並經由課程指引教科書和其他教學媒體的分析探討參

與國家的數學和科學課程以提供參與國家的政策制定者和實務工作者有關教學

和學生學習成就方面的珍貴訊息而技術報告和完整的國際資料庫也一併出版公

TIMSS 試題的編製流程是先製訂課程架構在根據課程架構編製成就測驗

而此課程架構是由一群來自 TIMSS 國家研究協調中心(TIMSS National Research

Coordinator)的數學和科學教育專家所發展出來的在 TIMSS 2003 的課程架構

中共分為兩個向度內容領域跟認知領域詳細內容如表 2-2-1 所示

27

表 2-2-1 TIMSS 2003 課程架構

數學 科學

內容領域 內容領域

數 生命科學

代數 化學

測量 物理學

幾何學 地球科學

8

級 資料

8

級環境科學

數目 生命科學

模式等式和關係 自然科學

測量 地球科學

4

級 幾何學數據

4

認知領域 認知領域

知道事實和程式 事實的知識

使用概念 概念的理解

解決日常問題 推理和分析

推理

第4年級代數內容領域被叫為模式等式和關係

其中在實作評量方面設計的原則是依照實用的可負擔的和容易翻譯成

多國語言和文化原則所設計的透過預試時取得評分指南包括正確的答覆跟不

正確答覆的描述及給分標準其評分系統採用維京評分系統以表格說明如下

28

表 2-2-2 維京評分系統

第一個碼

  2 類型的 CR 項目(分數碼)

(1) 2 分(外延反應評分)

2 分完整無誤

1 分部分對

(2) 1 分(問答)

(3) 0 分7-9

2 分

1 分

第二個碼

  診斷訊息碼

0-5表出現之頻次類次配合參數碼標之

如 20-2510-1570-75

9 為其他無特殊類別

  如 291979

78=自個兒ldquo診斷碼(國家碼 可自選)

  99 為空白

  79(Erases)

另外在問卷調查部份分為

一課程

(一)公式化課程

(二)課程的範圍和內容

(三)課程的組織

(四)監測和評估被實施的課程

(五)課程材料和支持

二學校

29

(一)學校組織

(二)學校目標

(三)校長的角色

(四)支持數學與科學的資源

(五)父母親介入

(六)學校環境

三老師和他們的準備

(一)學術準備和證明

(二)老師補充

(三)老師任務

(四)老師歸納

(五)老師經驗

(六)教的樣式

(七)專業發展

四教室活動和特徵

(一)課程題目

(二)時間

(三)家庭作業

(四)評量

(五)教室氣氛

(六)資訊技術

(七)計算器用途

(八)強調的研究重點

(九)班級大小

30

五學生

(一)家庭背景

(二)經驗

(三)態度

當 TIMSS 施測後許多國家對於施測結果所蘊藏的意義做了許多的解釋他

們認為施測結果不止顯示了學術成就還包括了學生所接受的課程和教育

(SchmidtJordeCoganBarrierGonzaloMoserShimizuSawadaValverde

PrawatMcknightRaizenBrittonWileyWolfe1996)國際比較主要的目的

在於評估不同國家的學生程度而另一個同樣重要的目的在於嘗試去了解及解釋

造成差異的原因Jaekyung Lee 在 1999 年時提出當我們進行國際比較時有三

點要注意的事項一應該要同時著重正規教育和學校教育以外的學習經驗

二重視區域性的差異

三注意學校的改革政策因為它會影響教育的實施與成果所以成績好不應沾

沾自喜而表現不好也應深究原因去注意其他表現好的國家真正做了什麼並

加以學習而非歸罪於整個制度

根據 TIMSS 2003 國際數學和科學報告(TIMSS 2003 International Reports

in Mathematics and Science)其中提到幾個圖表是跟本文有關並值得分析注

意的

31

圖2-2-1 1995年到2003年4年級學生的數學趨勢

32

上圖是從該報告第一章表格13擷取出來的該圖表顯示出從1995年到2003

年的4年級學生的數學趨勢其中香港拉脫維亞英國賽普勒斯紐西蘭

斯洛伐尼亞加拿大安大略省等七個國家或地區是呈現進步的情況而荷蘭挪

威加拿大魁北克省是退步的趨勢其他在圖表中的國家是沒有顯著差異的另

外在其文字說明部份也提到以色列和菲律賓從1999到2003也顯示出顯著的改

進像上述這些國家數學成就方面趨勢的變化可能跟社會或教育的改變有關

例如東方的政治變化跟歐洲十幾年前的教育改革已經實際改變這些國家的教育

成就例如立陶宛跟拉脫維亞這兩個國家的成就趨勢反映他們在改革過程中的

努力已經獲得某些驚人的成就

33

圖 2-2-2 4 年級學生在男女性別上的差異

上圖是從該報告第一章表格14擷取出來的該圖表顯示大部分國家或地區4

年級學生在男女性別上並無顯著差異但在幾個國家例外新加坡菲律賓亞

美尼亞跟Moldova共和國的女生有較高的數學平均成就荷蘭美國義大利

蘇格蘭賽普勒斯和兩個加拿大省份則是男生有較高的數學平均成就

34

圖2-2-3 1995到2003年的男女生進退步情形

上圖是從該報告第一章表格15擷取出來的該圖表表示從1995到2003年的

男女生進退步情形從圖表中得知男女生同時進步的國家或地區有賽普勒斯英

國香港拉脫維亞紐西蘭斯洛伐尼亞和安大略省而同時退步的國家有挪

威和魁北克省僅有男生退步但女生沒有的國家是荷蘭

第三節 TIMSS 試題與國內數學課程關係之分析

在魔術師的題組中研究者希望學生透過摺紙的方式不管對摺幾次最後

限制只能用剪刀剪一次的情況下要求學生剪出下列 3個圖型

35

每個學生剪每個圖型都有 3次機會這個題組的目的不止希望學生可以運用

全等的直覺利用幾何操作如平移旋轉翻轉等方式印證平時的經驗並將

全等的概念更加清晰還希望學生透過摺紙的方式了解認識垂直和對稱而剪紙

又可以增進學童分解圖形與建構圖形的能力所以本題組主要在測量學生對於全

等的直覺跟幾何操作垂直跟對稱和空間關係的瞭解以及解決非慣例題目的能

在圖形題中前 2個小題分別要求學生在一個長方形中劃一條直線將該長

方形分成 2個三角形或 2個長方形第 3小題要求學生在一個長方形中劃兩條直

線將該長方形分成 2 個三角形跟 1 個長方形第 4 小題則給等腰梯形並連接 2

條對角線在內部形成的 4個三角形中要求學生找出形狀相同但大小不同的兩

個三角形本題組在了解學生能否透過操作直尺或三角板在二維空間上剪裁出

指定的基本圖型並利用直觀的方式指出形狀相同但大小不同的三角形

上述兩個題目在評量學生的幾何能力根據我國國民中小學九年一貫課程綱

要數學學習領域中指出小學教師在從事幾何教學時最要避免的是來自本身歐

氏公設幾何訓練的干擾處處受制於定義的認定與邏輯順序由歷史來看人類

是先由應用操作實踐中認識各種幾何要素與性質彼此之間並沒有一定的

先後關係歐氏幾何的價值首先是對這些先民知識的歸類與整理其次才是作

36

為知識典範的演繹系統所以將幾何課程概分成四階段而學生在四年級時所應

該要學習到的幾何知識就如下列所示

一階段一(一年級到三年級)較強調幾何形體的認識探索與操作學生對

幾何形體中的幾何要素也許能指認但尚不清楚其結構意義

二階段二(四年級到五年級)由於數與量的發展逐漸成熟學生開始結合「數」

與「形」兩大主題學習運用幾何形體的構成要素(如角邊面)及其數量性

質(如角度邊長面積)

更詳細的相關能力指標詳列如下

1-S-04能依給定圖示將簡單形體作平面舖設與立體堆疊給定的圖示

可為圖卡或實物透過拼圖與堆積木等活動讓學童進行平移翻轉重疊

比對hellip等全等操作的練習

3-S-06能透過操作將簡單圖形切割重組成另一已知簡單圖形

4-S-02能透過操作認識基本三角形與四邊形的簡單性質

4-S-03能認識平面圖形全等的意義

4-S-16能理解平面上直角垂直與平行的意義

4-S-07能由直角垂直與平行的概念認識簡單平面圖形

4-S-08能利用三角板畫出直角與兩平行線段並用來描繪平面圖形

例學童會使用直尺或三角板畫出直角及兩平行線段進而用來繪製直角三角

形正方形長方形平行四邊形與梯形

因此學生在回答這兩個問題時應已具備足夠的能力

在幾何方塊的題組中給學生 3 塊白色方塊4 塊黑白相間的方塊和 3 塊黑

色方塊要求學生完成

一利用 2 張黑白相間方塊拼出一個較大的黑色三角形

二利用 4 張黑白相間方塊拼出一個黑色的正方形並求出佔幾分之幾

三不准使用黑白相間方塊將 4 張方塊拼出一個正方形使得黑色的部分佔 12

37

四請用 8 張方塊拼出一個如下圖的長方形使得黑色部分佔 58

這是一種包含幾何跟數與量的題目其中幾何的部份是要求學生建立一個二維圖

形並滿足題目的要求(數與量)幾何部分已經如上所述現在分析相關的數

與量

根據我國國民中小學九年一貫課程綱要數學學習領域中指出有理數是小學

的核心課程之一也是小學數學教育中最有挑戰性的教學主題因為學生較缺

乏有理數的前置經驗日常生活中的有理數情境也比整數少分數的形式是學生

首次碰到兩整數並置的約定至於什麼是穩當的有理數教學並無定論但是基

本的共識是學生需要較長的時間來學習掌握有理數的概念不論是先形式程

序或者先概念理解兩者都必須不斷互相支持在有理數教學中必須將材料

作適當的安排先從較容易的平分或測量入手而將其它的應用課題作為錘鍊

有理數數感的課題

在相關的能力指標詳列如下

3-n-09能在具體情境中初步認識分數並解決同分母分數的比較與加

減問題學童從具體情境或活動中掌握分數的概念能學會分數的記號並理

解運用分數記號來記錄同分母分數的比較與加減的方式例如以平分為基礎的

活動(離散量)問下列深色區域是全部圖形的幾分之幾

4-n-07能認識真分數假分數與帶分數熟練假分數與帶分數的互換

並進行同分母分數的比較加減與非帶分數的整數倍的計算

4-n-08能理解等值分數進行簡單異分母分數的比較並用來做簡單分

數與小數的互換在具體情境中說明分數等值的理由可先由分母的倍數差 2

4倍的分數先出發(因為切半的操作最簡單)

在施測學校所使用的教科書中第七冊第十單元分數中其教學目標也有

38

透過單位分數的合成和累加活動以真分數來描述單位分數的幾份可見此題對

施測學校的學生來說應有能力解決

另外兩題有關數與量的題目是數字卡跟猜一猜在數字卡部份題目分為兩

部份第一部份為抽出三張 0-9 的數字卡任意排列後找出最接近總和為 20 的

方法第二部份為抽出三張 0-9 的數字卡任意排列後分別找出和差跟積最大

的方法這在我國國民中小學九年一貫課程綱要數學學習領域中分類在數與量

中的整數部分根據附錄說明中指出整數計算是一切數學學習的基礎在教學

中學童經由活動情境掌握計算的意義藉著各種例子體驗計算的規則與策略

流暢的計算能力有如語文學習中基本的文字駕馭能力不僅可以內化學童的

數字感並且是日後(國高中)學習抽象運算及形式推導的基礎這樣的能力

固然是學習科學所必須也是能夠有效處理日常生活的基本能力之一所以國小

整數教學的課程目標在於

一從計數開始學習位值的約定與換算並在演算中逐步熟悉最後能掌握

大數

二在二年級下學期理解算術的樞紐九九乘法作為日後所有計算的基礎

三到四年級時能夠不拘泥於位數熟練加減乘除的直式計算

有關數與量的題目另一題是猜一猜題目是在 9個碗中前 4個碗中豆子

的數量分別是 29313128 個請猜一猜罐子中大約有幾個豆子並解釋你

的想法這在我國國民中小學九年一貫課程綱要數學學習領域中分類在數與

量中的估算部分估算在國民教育中可粗分為離散量的估算(自然數四則運算的

估算)與連續量的估算前者的教學應在學生已經能掌握確算後再進行而後

者的教學應透過測量時量不盡的正常情境與小數的教學共同開展認識小數

之細分與精確度的要求乃是一體的兩面估算的教學可以先在計算與驗算中強

調讓學生能對不合理的答案透過估算剔除然後是能判斷應用問題對答案

精確度的要求並藉由過去的解題經驗發展正確的估算策略或者是能針對

39

問題與解答發展估算策略驗算解答的合理性要注意的是估算屬於較高層

次的數學能力學生必須先對所使用的概念程序與問題情境有相當的理解才能

恰當地估算進而能正確判斷估算的時機與精確度的要求國小的估算教學要

特別注意評量的問題切忌因為強求估算禁止學生使用正常計算教師應在評

量的問題上下功夫讓問題本身暗示估算的好處

最後一題是擲骰子題目是用一個規則來改變骰子擲出來的數字要求學

生發現改變後的數字有什麼特性另外要求學生丟 30 次將結果記錄並統計在

表格中這是屬於統計與機率的部份我國課程在這部份強調統計和機率的知識

背景應來自生活環境因此以學生的生活經驗為主從學生感興趣的主題出發

使其學會敘述統計所呈現出的數字和圖表的意義強調圖表的表達和溝通並了

解抽樣機率的初步概念且能正確地運用各項統計資料於實際的生活中並要

求在三年級之前 先藉由簡易表格的製作協助學生建立資料的整理與分組的

概念進而練習報讀與說明資料並建立個別資料出現頻率概念的認識再藉著

直接和交叉對應表格的介紹並配合「數與量」的教學希望學生能掌握對表格

的認識並能加以運用

40

第三章 方法與步驟

本章節乃根據前兩章所提的研究目的與文獻探討進行研究設計以下將分別

就研究架構研究工具發展研究的信效度與實作評量的試題架構三節加以說明

第一節 研究架構

壹研究方法本研究是使用實作評量的方法進行實際施測使用 SPSS

與 EXCEL 軟體分析回收的施測數據

貳研究樣本本研究之研究對象是針對國小四年級學生以台中縣神岡鄉

某國小四年級學生為受試者共四班 127 人學校環境是住

宅與工業混合區

叁研究工具本研究的研究工具分為兩部份民國 89 年徐美英研究論文

中的題目跟 TIMSS 2003 公開的實作評量試題各三題TIMSS

2003 公開的實作評量試題是由 TIMSS 網站下載試題後再進

行翻譯每一個題組的施測時間是 30 分鐘

第二節 研究工具發展

本研究的研究工具分為兩部份民國 89 年徐美英研究論文中的題目跟 TIMSS

2003 公開的實作評量試題各三題以下將分別就試題的編製過程評分標準施

測人員和評分者四點加以說明

壹試題編製過程

一研究分析相關公開試題並與學校教材相互對照後進行選題

二選定題目後進行翻譯

三將翻譯好後的題目跟原始原文題目交給學校英語科任老師進行確認

41

四確定翻譯工作後與現任資深國小四年級的教師們共同討論題目的適切

性修改試題敘述的語句使文句的敘述能符合四年級學生的認知

五將修改後的題目請上述老師再做一次確認

六提供評分標準給上述老師討論全對部份給分不給分的情況

七題目定案

以數字卡這題為例題目如下

【題目數字卡】

在這部分你將會拿到一張印有 0到 9的數字卡如下圖請將這些數字卡

取下來

總和為ldquo20的數字遊戲

小杰與小明這兩個小孩正在玩一個ldquo總和為 20的遊戲其規則如下

總和為ldquo20的規則

一抽數字卡每一個人抽出三張數字卡

二加數字卡每一個人利用這三張數字卡做出一個加法問題使得算出的

總和最接近 20 例如假如抽出的數字卡 將數字任

意組合後下面是其中四種可能的方法

0 1 2 3 4

5 6 7 8 9

1 4 5

42

+ + + +

5 5 4 6 1 9 +

15 1 0

這時玩家應該選擇 + 4 因為它的總和 19最接近 20

19

小杰和小明開始玩遊戲了小杰抽出了 三張數字卡小明抽出

了 三張數字卡

一小杰要如何安排三張數字卡做出一個加法問題才能讓它的總和為最接

近 20記得要寫總和

二小明要如何安排三張數字卡做出一個加法問題才能讓它的總和最接近

20記得要寫總和

三小明說假如我抽到 我可以用兩種方法做出總和 20

請告訴我們小明用哪兩種方法可以使 做出總和 20

第一種方法

第二種方法

1

4

5 1

4

5

1

4 51

4

5

972

6 3 1

1 4 6

1 4 6

43

找出最大的數

小杰和小明利用數字卡玩另一個新的遊戲就是利用三張數字卡做出最

大的數

甲將 三張數字卡填入下列的格子內讓相加的結果為最大

乙將 三個數字填入下列的格子內讓相減的結果為最大

丙將 三個數字填入下列的格子內讓相乘的結果為最大

貳施測人員

由四位該班導師擔任在正式施測前由研究者針對施測應注意事項對施

測人員說明並在每一份題目上附上給老師的話說明施測時應注意的事項

及給分說明部分實作評量試題需要用到一些材料由研究者事先準備妥

當於考前交給施測人員至於材料的發放跟試題說明的時間並不包括在 30

分鐘的測驗時間之內

叁評分標準

一 89 年徐美英研究論文中的題目直接使用其附錄中的評分標準以擲

times

9 5 1

+

2 3 7

1 4 5

44

骰子這題為例其評分標準如下

第一題 1 正確的計算出(042648)

2 給分範圍2分

第二題 1 描述的類型與資料一致

2 形式可以是一個或多個以下的情形例如所有的數字

都是偶數數字的範圍從 0~84 出現 2次數字排列有

規則如+4-2+4-2

3 給分範圍2分

第三題 1 至少完成 25 次擲骰子的紀錄

2 正確的計算

3 給分範圍2分

第四題 1 統計的次數與第三題的資料一致

2 給分範圍2分

第 5a 題1 答案與資料一致

2 給分範圍1分

第 5b 題1 對觀察的數字提供合理的解釋

2 給分範圍1分

二 TIMSS 2003 公開的實作評量試題部分參照其公佈的評分標準翻譯

成中文以提供給資深四年級老師參考以數字卡這題為例

(一)第一部分總和為 20 的數字遊戲

1 第甲題

(1) 給分範圍 1分

1 寫出 2+7+9=18

2 沒有任何算式但有答案是 18 者

(2) 給分範圍0分

45

1 有寫出算式 2+7+9 但沒有答案 18 出現

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

或偏離主題的回答)

3 完全空白

2 第乙題

(1) 給分範圍1分

1 13+6=19 或 16+3=19

2 沒有任何算式但有答案是 19 者

(2) 給分範圍0分

1 有寫出算式 13+6 或 16+3 但沒有答案 19 出現

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

3 完全空白

3 第丙題

(1) 給分範圍2分

兩種方法都正確(16+4 和 14+6)

(2) 給分範圍1分

只有寫出其中一種方法(16+4 或 14+6)

(3) 給分範圍0分

1 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

2 完全空白

(二)第二部份找出最大的數

1 第甲題

(1) 給分範圍1分

46

91+5 或 95+1

(2) 給分範圍0分

1 將 159擺在任何其他不正確的位置

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

3 完全空白

2 第乙題

(1) 給分範圍1分

73-2

(2) 給分範圍0分

1 72-3

2 將 237擺在任何其他不正確的位置

3 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

4 完全空白

3 第丙題

(1) 給分範圍1分

41times5

(2) 給分範圍0分

1 51times4

2 將 145擺在任何其他不正確的位置

3 其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的

或偏離主題的回答)

4 完全空白

47

第三節 研究的信效度與實作評量的試題架構

壹信效度

由於此次的實作評量採用多元化記分的方式故信度計算採用 Cronbach α

係數算出信度值為 079而且每一題均有詳細說明細節行為的項目給定參考

答案圖形的作品量表各題除經著名國際測驗機構審核施測過外並由研究者另

請學校資深四年級教師共同研究討論題目與答案對於施測過程研究者也與四

位監考老師討論後訂出共同標準所以在效度方面具有專家效度跟內容效度

貳試題架構

此次實作評量的試題共六題分別是屬於數與量幾何統計與機率等三大

主題依據九年一貫課程綱要數學學習領域裡對這幾個大主題在國小四年級前的

學習說明研究者編制下表的試題架構

48

表 3-3-1 試題架構

題目 學習主題 主題層次 評量內涵說明

擲骰子 數與量

統計與機率

(1)整數

(2)簡易表格的製作

(1)可以對整數的變化

提出一套模式或發現

(2)簡易表格的製作結

果統計與發現

猜一猜 數與量 估算 使用估算的技巧協助計算

與解題

魔術師 幾何 對稱的實際操作 透過摺紙的對稱觀念理解

平面圖形的線對稱關係

圖形題 幾何

(1)幾何形體的認識與

切割

(2)幾何形體『形』的

直觀認識

(1)透過操作將簡單圖

形切割成另一簡單圖

(2)直觀指出平面圖形的

相似

數字卡 數與量 運用加減乘法求最大值

透過位值概念將給定的數

字編排在不同的位值進行

加減乘法得到接近題

目要求的答案或所有可能

的最大值

幾何方塊 幾何

數與量

(1)幾何形體的拼合

(2)有理數(部分全體

的意涵)

(1)利用黑白相間方塊

拼出指定的簡單平面

圖形

(2)在具體情境中認識

分數

49

第四章 結果與討論

本章主要是呈現資料分析的結果並加以討論共分為四節第一節是利用

TIMSS 1999 實作評量試題比較民國 89 年跟民國 95 年的成績差異第二節是利

用 TIMSS 2003 實作評量試題檢視施測學校在性別及班級間是否存在差異第

三節是利用 TIMSS 2003 實作評量試題比較施測學校與原始施測資料的成績差

異第四節是實作評量試題的類推性

第一節 利用 TIMSS 1999 實作評量試題比較民國

89 年跟民國 95 年的成績差異

研究者本小節要探討的是 TIMSS 1999 的施測結果與民國 89 年徐美英所進行

的研究之比較主要的比較項目為平均數標準差及得分情形分配百分比基於

此研究者採用百分比圖表及各小題反推出得分人數之後用獨立樣本 t檢定的

方式比較平均數另外依百分比反推出人數時有時會因四捨五入產生總人數多

1人的情況此時會對進位數最小的數採取無條件捨去法以符合總人數一致另

因研究者分三天進行六題施測每題實際受測人數也有不同研究者使用的資料

來源有兩個分別是 TIMSS 2003 實作評量題目及 TIMSS 1999 實作評量題目為

了呈現方便研究者將取自 TIMSS 2003 實作評量題目所作的施測結果用『95 年』

表示另外 TIMSS 1999 實作評量題目為研究者從民國 89 年徐美英的論文中擷取

出來的當年的施測結果以『89 年』表示

50

壹魔術師

表4-1-1 95年魔術師題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

魔術師ㄧ 16 16 68 5 127

魔術師二 101 151 748 5 127

魔術師三 202 235 563 5 127

由表 4-1-1 得知研究者此次此題型的施測結果各題得分均以得 2分者居

多得 1分居次利用表 4-1-1研究者也從民國 89 年徐美英的論文中找到類

似資料列在表 4-1-2表 4-1-2 是從論文的本文中摘錄下來的研究者反覆研

究該論文時發現在 P73 也有附錄一份有關魔術師各題的資料統整不過兩者的

個數有所差異下表總人數 156 人遺漏值 5人附錄中個數是 155 人下表反推

出人數後的平均數也與附錄稍有出入研究者以本文的表格為準

表4-1-2 89年魔術師題組得分情形分配表

題目 得 0分人數() 得 1分人數()得 2分人數() 遺漏值 總人數

魔術師ㄧ 419 258 323 5 156

魔術師二 194 194 613 5 156

魔術師三 258 258 484 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

51

0

10

20

30

40

50

60

70

80

魔術師ㄧ 魔術師二 魔術師三

95年答對率

89年答對率

圖 4-1-1 百分比圖表比較結果

由上圖可知95 年答對的答對率在 3題中均優於 89 年的結果其中以魔術

師ㄧ的資料差距最大但此兩年的資料也有一個共同的趨勢就是該年度的答對

率有魔術師二的答對率>魔術師ㄧ的答對率>魔術師三的答對率研究者進一步

反推 89 年的得分人數後將兩年的資料進行獨立樣本 t檢定結果列於表 4-1-3

表 4-1-4表 4-1-5

表 4-1-3 魔術師ㄧ獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異數

相等 4323 0039 6098 272000 0000 0410 0800

1

不假設變異

數相等 6173 270036 0000 0410 0800

52

表 4-1-3 可以看出變異數 Leven 檢定結果P值lt005所以達到顯著差異

可見變異數是不能視為相等的後面 t檢定值 6173P 值lt005所以有達到顯

著差異可見平均數是不能視為相等故這一小題明顯的是 95 年的學生成績較

表 4-1-4 魔術師二獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異數

相等 17130 0000 2550 270000 0011 0050 0410

2

不假設變異

數相等 2605 270000 0010 0060 0400

表4-1-4可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是不能視為相等的後面t檢定值2605P值lt005所以有達到顯著

差異可見平均數是不能視為相等故這一小題明顯的也是95年的學生成績較佳

表 4-1-5 魔術師三獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 0443 0506 1332 272000 0184 -0100 0330

3

不假設變

異數相等 1338 265000 0182 -0100 0330

53

表4-1-5可以看出變異數Leven檢定結果P值gt005所以沒有達到顯著差

異可見變異數是要視為相等的後面t檢定值1332P值gt005所以沒有達到

顯著差異可見平均數是也可以視為相等故這一小題兩年的學生成績沒有差別

接著研究者對整個題組總得分進行比較由於 89 年論文中只有平均數與標

準差兩項資料研究者只能稍做比較95 年施測的平均數為 424標準差為 208

而 89 年的平均數是 375標準差是 207由於兩者標準差的差距很小可見兩

項資料的集中平均數的趨勢是差不多的而平均數則是 95 年多 049 分

二擲骰子

表4-1-6 95年擲骰子題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

擲骰子一 101 202 697 8 127

擲骰子二 597 395 08 8 127

擲骰子三 25 319 655 8 127

擲骰子四 345 378 277 8 127

擲骰子五 a 462 538 8 127

擲骰子五 b 950 50 8 127

由表 4-1-6 得知研究者此次擲骰子題組中各題得分擲骰子一以得 2分

居多佔 697擲骰子二以得 0分居多佔 597擲骰子三以得 2分居多

佔 655擲骰子四以得 1分居多佔 378擲骰子五 a以得 1分居多佔 538

擲骰子五 b以得 0分居多佔 95擲骰子二與擲骰子五 b是要求學生說明理由

或描述規則可見學校教學應該可以再加強學生在解釋資料上的能力

54

表4-1-7 89年擲骰子題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

擲骰子一 32 65 903 5 156

擲骰子二 548 387 65 5 156

擲骰子三 00 65 935 5 156

擲骰子四 65 129 806 5 156

擲骰子五 a 97 903 5 156

擲骰子五 b 839 161 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

0

20

40

60

80

100

擲骰

子一

擲骰

子二

擲骰

子三

擲骰

子四

擲骰

子五

a

擲骰

子五

b

95年答對率

89年答對率

圖 4-1-2 百分比圖表比較結果

由上圖可知89 年答對的答對率在 5題中均優於 95 年的結果其中擲骰子

二與擲骰子五 b兩年的答對率都很低可見對位於城鄉交界處的台灣學生而言

這種類型的題目屬於偏難的題型研究者進一步反推 89 年的得分人數後將兩

年的資料進行獨立樣本 t檢定結果列於表 4-1-8表 4-1-9表 4-1-10表

55

4-1-11表 4-1-12表 4-1-13

表 4-1-8 擲骰子一獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 56450 0000 -4100 270000 0000 -0400 -0140

1

不假設變

異數相等 -3900 195000 0000 -0400 -0130

表4-1-8可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是要假設不相等的後面t檢定值-3906P值lt005所以也達到顯

著差異可見平均數是不能視為相等故這一小題是89年的學生表現較優秀

表 4-1-9 擲骰子二獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 9470 0002 -1500 270000 0141 -0200 0035

2

不假設變

異數相等 -1500 270000 0133 -0200 0032

表4-1-9可以看出變異數Leven檢定結果P值lt005所以有達到顯著差異

可見變異數是要視為不相等的後面t檢定值-1506P值gt005所以沒有達到

顯著差異可見平均數是可以視為相等故這一小題兩年的學生成績沒有差別

56

表 4-1-10 擲骰子三獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 186200 0000 -6200 270000 0000 -0400 -0210

3

不假設變

異數相等 -5800 162000 0000 -0400 -0200

表4-1-10可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是要視為不相等的後面t檢定值-5806P值lt005所以達到顯著

差異可見平均數是有顯著差異的故這一小題89年的學生成績表現較好

表 4-1-11 擲骰子四獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 19580 0000 -9900 270000 0000 -1000 -0650

4

不假設變

異數相等 -9600 212000 0000 -1000 -0650

表4-1-11可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-9565P值lt005有達到顯著差異

可見平均數是有顯著差異的故這一小題89年的學生成績比較好

57

表4-1-12 擲骰子五a獨立樣本t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 207800 0000 -7400 270000 0000 -0500 -0270

五 a

不假設變

異數相等 -7000 187000 0000 -0500 -0260

表4-1-12可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-7036P值lt005有達到顯著差異

可見平均數是有顯著差異故這一小題89年的學生成績比較好

表 4-1-13 擲骰子五 b獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 38760 0000 -2900 270000 0004 -0200 -0035

五b

不假設變

異數相等 -3100 251000 0003 -0200 -0039

表4-1-13可以看出變異數Leven檢定結果P值lt005達到顯著差異可見

變異數是要視為不相等的後面t檢定值-3052P值lt005達到顯著差異可

見平均數是有顯著差異故這一小題89年的學生成績比較好

接著研究者對整個題組總得分進行比較由於 89 年論文中只有平均數與標

58

準差兩項資料研究者只能稍做比較95 年施測的平均數為 48346標準差為

24455而 89 年的平均數是 68258標準差是 16947可見 89 年的資料顯示

集中平均數的趨勢較高而 95 年的資料則較為分散而且平均數又是 89 年多

19912 分多出將近 12 倍

三猜一猜

表4-1-14 95年猜一猜題組得分情形分配表

題目 得0分人

數()

得1分人

數()

得2分人

數()

得3分人

數()

得4分人

數()

得5分人

數() 遺漏值 總人數

猜一猜 3858 2441 1102 630 787 1181 0 127

由表 4-1-14 得知研究者此次擲骰子題組中得分以得 0分者居多顯示

學生的概算能力非常不足其次是得 1分的較多這顯示學生曉得題目要掌握哪

些資訊只是不懂得利用這些資訊0分與 1分的人數竟佔超過 50結果頗令

人訝異

表 4-1-15 89 年擲骰子題組得分情形分配表

題目 得0分人

數()

得1分人

數()

得2分人

數()

得3分人

數()

得4分人

數()

得5分人

數() 遺漏值 總人數

猜一猜 2580 650 100 1190 3230 2260 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

59

猜一猜

0

10

20

30

40

50

60

95年答對率 89年答對率

圖4-1-3 百分比圖表比較結果

本題研究者將得 4分與得 5分者列為答對人數由上圖可知89 年答對的答

對率優於 95 年的結果研究者進一步反推 89 年的得分人數後將兩年的資料進

行獨立樣本 t檢定結果列於表 4-1-16表 4-1-17

表4-1-16 猜一猜資料統計

年度 個數 平均數 標準差平均數的

標準誤

95 127 156 175 016 得分

89 151 286 196 016

表4-1-17 猜一猜獨立樣本t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 5639 0018 -5800 276000 0000 -1700 -0860猜

猜 不假設變

異數相等 -5900 275000 0000 -1700 -0864

60

表4-1-17可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-5856P值lt005有達到顯著差異

可見平均數是有顯著差異故這一小題89年的學生成績比較好

第二節 利用 TIMSS 2003 實作評量試題檢視施測

學校在性別及班級間是否存在差異

在各題型得分的相關情形方面將之整理成表格 4-2-1由表中得知除了

圖形題與猜一猜的相關係數達到005的顯著水準之外其他相關各題均達到001

的顯著水準也就是說圖形題與數字卡幾何方塊魔術師猜一猜擲骰子

等題有相當程度的關係其他各題相互之間也是類似的關係這說明了此次的考

題不只是幾何能力之間有相關的情況幾何能力與統計概念數的運算能力

概算能力之間也有相當程度的關係

61

表 4-2-1 各題型之相關係數

圖形題 數字卡 幾何方塊 魔術師 猜一猜 擲骰子

Pearson 相關 1 0617 0419 0487 0174 044

顯著性 (雙尾) 0 0 0 005 0 圖形

個數 127 127 127 127 127 127

Pearson 相關 0617 1 0517 0562 0272 0587

顯著性 (雙尾) 0 0 0 0002 0 數字

個數 127 127 127 127 127 127

Pearson 相關 0419 0517 1 0397 0308 0389

顯著性 (雙尾) 0 0 0 0 0 幾何

方塊

個數 127 127 127 127 127 127

Pearson 相關 0487 0562 0397 1 0248 0509

顯著性 (雙尾) 0 0 0 0005 0 魔術

個數 127 127 127 127 127 127

Pearson 相關 0174 0272 0308 0248 1 0317

顯著性 (雙尾) 005 0002 0 0005 0 猜一

個數 127 127 127 127 127 127

Pearson 相關 044 0587 0389 0509 0317 1

顯著性 (雙尾) 0 0 0 0 0 擲骰

個數 127 127 127 127 127 127

在顯著水準為001時 (雙尾)顯著相關

在顯著水準為005時 (雙尾)顯著相關

62

表4-2-2 班級對總分之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

班級 390132 3000 130044 2046 0111

誤差 7806910 123000 63471

總和 8197040 126000

以單因子變異數分析班級對總分的結果如表4-2-2在α=005之下F檢定值為

2049相對應的P值是0111因為P值>005所以未達顯著差異也就是各班

級間的實作評量總分並沒有因班級的不同而顯現出差異

表4-2-3 性別對總分之組別統計量與t檢定表

性別 個數 平均數 標準差 平均數的標準誤

男生 65 21892 7567 0939 總分

女生 62 23355 8595 1092

獨立樣本檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 0320 0573 -0998 125000 0320 -4263 1404

分 不假設變

異數相等 -0996 121524 0322 -4272 1413

從表4-2-3來看雖然女生平均成績是2331分高於男生的2188分但根

據獨立樣本t檢定的檢定結果變異數的Levene檢定F值為0320P值為0573

顯示出男生與女生的變異數沒有顯著差異而平均數的t檢定值為-0998P值為

63

032也顯示出男女生的平均數是沒有顯著差異的研究者進一步分析性別與各

題的t檢定結果顯示於表4-2-4

表4-2-4 性別對各題之組別統計量與t檢定表

性別 個數 平均數 標準差 平均數的標準誤

男生 65 326 112 014 圖形題

女生 62 340 098 012

男生 65 418 215 027 數字卡

女生 62 474 212 027

男生 65 417 160 020 幾何方塊

女生 62 413 167 021

男生 65 417 204 025 魔術師

女生 62 432 213 027

男生 65 135 163 020 猜一猜

女生 62 177 185 023

男生 65 474 237 029 擲骰子

女生 62 494 253 032

64

獨立樣本檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 1522 0220 -0756 125000 0451 -0510 0230圖

題 不假設變

異數相等 -0758 124117 0450 -0510 0230

假設變異

數相等 0431 0513 -1471 125000 0144 -1310 0190數

卡 不假設變

異數相等 -1471 124863 0144 -1310 0190

假設變異

數相等 0067 0797 0139 125000 0890 -0530 0610

不假設變

異數相等 0138 123883 0890 -0530 0620

假設變異

數相等 0031 0860 -0414 125000 0680 -0890 0580魔

師 不假設變

異數相等 -0413 123981 0680 -0890 0580

假設變異

數相等 2029 0157 -1359 125000 0177 -1030 0190猜

猜 不假設變

異數相等 -1355 121450 0178 -1030 0190

假設變異

數相等 0391 0533 -0452 125000 0652 -1060 0660擲

子 不假設變

異數相等 -0452 123426 0652 -1060 0670

65

結果顯示各小題的平均數女生分別是34474413432177

494男生分別是326418417417135474除了幾何方塊之外

幾乎都是女生高於男生而各小題的Levene變異數檢定結果其P值分別是

0220513079708601570533均大於005顯示沒有顯著差異

而平均數的檢驗結果各題的P值分別是0451014408906801770652

也都大於005也呈現沒有達到顯著差異可見這6題的考題成績結果與刻板

印象「男生數理比較厲害」有不同的結果

第三節 利用 TIMSS 2003 實作評量試題比較施測

學校與原始施測資料的成績差異

本節研究重點是 TIMSS 2003 的題目與國際受測國家中總體表現較好的國家

資料及台灣原始資料進行比較TIMSS 網站上提供各個受測國家的資料檔研究

者下載了新加坡香港日本台灣比利時與美國的資料之所以下載這幾個

國家的資料是因為四年級測驗總分結果前五名剛好是新加坡香港日本台

灣比利時而且從總分的分析結果顯示台灣與新加坡香港有顯著差異與日

本沒有顯著差異而比利時與台灣也有顯著差異所以比較這五個國家而美國

是因為研究者想了解美國學生是否真的比較會活用故列入此次的比較探討在

實作評量上是否達到顯這差異研究方法採用變異數分析與事後比較事後比較

採用雪費(Scheffe)檢定法由於 TIMSS 施測時採用 12 本測驗題本所以參與

實作評量的各題人數並不一致會出現同一個國家在不同題目上有不同人數的情

況另外因研究者分三天進行六題施測每題實際受測人數也有不同

一圖形題

66

表4-3-1 95年圖形題題組得分情形分配表

題目 得 0分人數 得 1分人數 缺失值 總人數

圖形題甲 66 934 6 127

圖形題乙 41 959 6 127

圖形題丙 174 826 6 127

圖形題丁 223 777 6 127

由表 4-3-1 可知在圖形題題組中各小題得分均以得 1分的人數分別是

934959826777各題百分比是否達到顯著不同研究者用百分比

同質性檢定結果列於表 4-3-2

表 4-3-2 圖形題百分比同質性檢定

得分題目 交叉表

題目

1 2 3 4 總和

得分 0 8 5 21 27 61

得分 1 113 116 100 94 423

總和 121 121 121 121 484

卡方檢定

數值 自由度 p-value

Pearson 卡方 24666a 3000 0000

概似比 25936 3000 0000

線性對線性的關連 19950 1000 0000

有效觀察值的個數 484000

a 0 格(0)的預期個數少於 5最小的預期個數為 1525

67

結果顯示 Pearson 的卡方值 24666df=3p=0000達到顯著水準所以

各題的答對率百分比是不同的

表4-3-3 圖形題題組各國答對率的比較

題目 新加坡答

對率

香港答對

日本答對

台灣答對

比利時答

對率

美國答對

施測學校

答對率

圖形題甲 830 958 917 936 833 727 934

圖形題乙 937 988 902 950 911 877 959

圖形題丙 702 859 744 847 504 328 826

圖形題丁 616 490 634 656 504 553 777

00

400

800

新加坡

香港

日本

台灣

比利時

美國

施測學

圖形

題甲

圖形

題乙

圖形

題丙

圖形

題丁

圖4-3-1 圖形題題組答對率之比較圖

由表 4-3-3 與圖 4-3-1 可知在圖形題題組中甲題的答對率以香港最高

台灣與施測學校居次美國最低乙題的答對率以香港最高台灣與施測學校還

是居次美國最低丙題的答對率以香港最高台灣居次美國最低而且低到

328丁題的答對率以施測學校最高台灣居次香港最低低到 490香港

68

在此小題的表現與上述三小題的結果明顯有很大差距

接著進行變異數分析與事後比較的結果

表4-3-4 圖形題各題之資料統整

圖形題甲

有效的個數 平均數 標準差

新加坡甲 1103 0830462 0375396

香港甲 757 0957728 0201342

日本甲 767 0916558 0276730

台灣甲 776 0935567 0245681

比利時甲 779 0833119 0373109

美國甲 1636 0726773 0445753

施測甲 121 0933884 0249517

圖形題乙

有效的個數 平均數 標準差

新加坡乙 1103 0937443 0242274

香港乙 757 0988111 0108458

日本乙 767 0902216 0297216

台灣乙 776 0949742 0218617

比利時乙 779 0911425 0284312

美國乙 1636 0877139 0328378

施測乙 121 0958678 0199862

題形題丙

有效的個數 平均數 標準差

新加坡丙 1103 0701723 0457709

香港丙 757 0858653 0348610

日本丙 767 0744459 0436450

台灣丙 776 0846649 0360557

比利時丙 779 0504493 0500301

美國丙 1636 0327628 0469492

施測丙 121 0826446 0380300

69

圖形題丁

有效的個數 平均數 標準差

新加坡丁 1103 0615594 0486675

香港丁 757 0490092 0500232

日本丁 767 0633638 0482125

台灣丁 776 0655928 0475371

比利時丁 779 0504493 0500301

美國丁 1636 0552567 0497381

施測丁 121 0776860 0418083

由表 4-3-4 得知參與此題的人數以美國的 1636 人最多香港日本台

灣比利時的人數差不多經變異數分析後如表 4-3-5 所示

表 4-3-5 圖形題各題之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

圖形題甲 組間 44078 6 7346 59531 0000

組內 732026 5932 0123

總和 776103 5938

圖形題乙 組間 8009 6 1335 18752 0000

組內 422269 5932 0071

總和 430278 5938

圖形題丙 組間 257623 6 42937 223054 0000

組內 1141889 5932 0192

總和 1399511 5938

圖形題丁 組間 24546 6 4091 17047 0000

組內 1423561 5932 0240

總和 1448107 5938

70

表4-3-5顯示在α=005之下圖形題4小題的P值均<005均達顯著

水準可見這4題的平均得分有顯著不同所以研究者進一步做事後分析如表

4-3-6所示配合研究者的研究目的本文中只摘錄與研究目的相關的資料其

他比較結果請參閱附錄表格

表 4-3-6 圖形題各題之事後比較

Scheffe 法

題目 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0100 0034 0150

香港 -0024 0034 0998

日本 0017 0034 1000

台灣 -0002 0034 1000

比利時 0100 0034 0196

圖形題

美國 0210 0033 0000

施測 新加坡 0021 0026 0995

香港 -0029 0026 0973

日本 0057 0026 0585

台灣 0009 0026 1000

比利時 0047 0026 0772

圖形題

美國 0082 0025 0105

施測 新加坡 0120 0042 0185

香港 -0032 0043 0997

日本 0082 0043 0724

台灣 -0020 0043 1000

比利時 0320 0043 0000

圖形題

美國 0500 0041 0000

施測 新加坡 0160 0047 0066

香港 0290 0048 0000

日本 0140 0048 0178

台灣 0120 0048 0382

比利時 0270 0048 0000

圖形題

美國 0220 0046 0001

71

由表4-3-6所顯示的結果得知在圖形題這四小題中施測學校與台灣在2003

年所作的調查結果的資料並沒有達到顯著差異可見施測學校的圖形題各小題的

平均得分與2003年的台灣資料的圖形題各小題的平均得分是視為相等的施測學

校在圖形題乙的部分與國際上2003年表現較好的國家的施測資料也都沒有達到

顯著差異可見在這一小題上施測學校與國際上表現較好的國家的平均得分也

是可以視為相等的但是在圖形題甲中施測學校與美國有達到顯著差異在圖

形題丙中施測學校與比利時美國有達到顯著差異在圖形題丁中施測學校

與香港比利時美國有達到顯著差異可見在圖形題甲中施測學校的平均得

分優於美國在圖形題丙中施測學校的平均得分優於比利時與美國在圖形題

丁中施測學校的平均得分優於香港比利時與美國

接下來以整個圖形題的題組來看由表 4-3-7 所示變異數分析的結果

表4-3-7 圖形題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 725457 6 120910 107817 0000

組內 6652328 5932 1121

總和 7377785 5938

在α=005的情況下F檢定值為107817plt005達到顯著差異所以

可以得知這七個國家的平均得分有顯著差異所以要進行事後比較如表4-3-8

所示

72

表4-3-8 圖形題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0410 0101 0012

香港 0200 0104 0708

日本 0300 0104 0215

台灣 0110 0104 0982

比利時 0740 0103 0000

美國 1010 0100 0000

由表 4-3-8 得知整個題組的事後分析顯示在α=005 的情況下施測學

校的總分平均得分與與台彎沒有達到顯著差異所以平均總得分是可以視為相等

的而施測學校總平均得分與新加坡比利時美國有達到顯著差異所以施測

學校的總平均得分是優於新加坡比利時與美國

二數字卡題組

表4-3-9 95年數字卡題題組得分情形分配表

得 0分人數 得 1分人數 得 2分人數 遺漏值 總人數

數字卡 1 317 683 7 127

數字卡 2 242 758 7 127

數字卡 3 117 92 792 7 127

數字卡 4 300 700 7 127

數字卡 5 317 683 7 127

數字卡 6 783 217 7 127

由表 4-3-9 可知在數字卡題題組中各小題得分分別以數字卡 1得 1分者

73

佔 683以數字卡 2得 1分者佔 758以數字卡 3得 2分者佔 792以數字

卡 4得 1分者佔 70以數字卡 5得 1分者佔 683以數字卡 6得 0分者佔 783

居多數字卡 6得分偏低此小題是要求學生將已知的三個數字拼成兩個數後所

得乘積最大結果顯示學生答對率偏低但學生在加法與減法上則無此現象(數

字卡 4與數字卡 5)此題各國答對率的比較結果列於表 4-3-10

表4-3-10 數字卡題題組各國答對率的比較

題目 新加坡 香港 日本 台灣 比利時 美國 施測學校

數字卡 1 494 624 646 698 475 416 683

數字卡 2 567 538 619 657 556 458 758

數字卡 3 645 595 594 657 553 563 792

數字卡 4 713 710 754 647 556 534 700

數字卡 5 693 689 738 629 546 497 683

數字卡 6 264 243 362 225 185 135 217

0

20

40

60

80

100

數字卡1

數字卡2

數字卡3

數字卡4

數字卡5

數字卡6

圖 4-3-2 數字卡題題組答對率之比較圖

74

由表 4-3-10 與圖 4-3-2 可知在圖形題題組中第 1題的答對率以台灣最

高施測學校居次美國最低第 2題的答對率以施測學校最高台灣居次美

國最低第 3題的答對率以施測學校最高台灣居次比利時最低第 4題的答

對率以日本最高新加坡和香港居次美國最低第 5題的答對率以日本最高

新加坡居次美國最低第 6題的答對率還是以日本最高新加坡居次美國最

低接著進行變異數分析結果列於表 4-3-11

表 4-3-11 數字卡題各題之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

組間 34477 6 5746 2418 0000

組內 717422 3019 0238 第一題

總和 751899 3025

組間 18413 6 3069 12727 0000

組內 727966 3019 0241 第二題

總和 746379 3025

組間 36829 6 6138 7166 0000

組內 2585878 3019 0857 第三題

總和 2622707 3025

組間 22038 6 3673 16419 0000

組內 675332 3019 0224 第四題

總和 697369 3025

組間 24878 6 4146 18142 0000

組內 689975 3019 0229 第五題

總和 714853 3025

組間 14939 6 2490 14850 0000

組內 506156 3019 0168 第六題

總和 521095 3025

75

表4-3-11顯示在α=005之下數字卡題6小題均達顯著水準可見這6小題

的平均得分有顯著不同所以研究者進一步做事後分析如表4-3-12所示配合

研究者的研究目的本文中只摘錄與研究目的相關的資料其他比較結果請參

閱附錄表格

表4-3-12 數字卡題之事後比較

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0190 0049 0021

香港 0059 0051 0969

日本 0037 0051 0998

台灣 -0015 0051 1000

比利時 0209 0051 0010

第一題

美國 0267 0048 0000

施測 新加坡 0192 0049 0020

香港 0221 0051 0005

日本 0140 0052 0296

台灣 0101 0051 0692

比利時 0203 0051 0016

第二題

美國 0301 0048 0000

施測 新加坡 0335 0093 0045

香港 0451 0097 0001

日本 0404 0098 0009

台灣 0302 0097 0136

比利時 0500 0097 0000

第三題

美國 0490 0091 0000

施測 新加坡 -0013 0048 1000

香港 -0010 0050 1000

日本 -0054 0050 0978

台灣 0053 0049 0979

比利時 0144 0049 0201

第四題

美國 0166 0046 0045

76

表 4-3-12(續) 數字卡題之事後比較

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 -0010 0048 1000

香港 -0006 0050 1000

日本 -0054 0050 0979

台灣 0054 0050 0978

比利時 0138 0050 0267

第五題

美國 0186 0047 0014

施測 新加坡 -0047 0041 0971

香港 -0026 428E-02 0999

日本 -0145 0043 0079

台灣 -0008 0043 1000

比利時 0031 0043 0997

第六題

美國 0082 0040 0654

由表4-3-12所顯示的結果得知在數字卡題這六小題中施測學校與台

灣在2003年所作的調查結果資料並沒有達到顯著差異可見施測學校的數字卡題

各小題的平均得分與2003年的台灣資料的數字卡題各小題的平均得分是視為相

等的施測學校在數字卡題第六題的部分與國際上2003年表現較好的國家的施測

資料也都沒有達到顯著差異可見在這一小題上施測學校與國際上表現較好的

國家的平均得分也是可以視為相等的但是在數字卡題第一題中施測學校與新

加坡比利時美國有達到顯著差異顯示在這一小題中施測學校的成績是優

於這三個國家的在數字卡題第二題中施測學校與新加坡香港比利時美

國有達到顯著差異顯示在這一小題中施測學校的成績是優於這四個國家的

在數字卡題第三題中施測學校與新加坡香港日本比利時美國有達到顯

著差異顯示在這一小題中施測學校的成績是優於這五個國家的在數字卡題

第四題中施測學校與美國有達到顯著差異顯示在這一小題中施測學校的成

績是優於美國的在數字卡題第五題中施測學校與美國有達到顯著差異顯示

77

在這一小題中施測學校的成績是優於美國的

接下來以整個數字卡題的題組來看由表 4-3-13 所示變異數分析的結果

表4-3-13 數字卡題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 660902 6 110150 23261 0000

組內 14295950 3019 4735

總和 14956850 3025

在α=005的情況下F檢定值為23261plt005達到顯著差異所

以可見這七個國家總分的平均得分有顯著差異所以進行事後比較如表4-3-14

所示

表 4-3-14 數字卡題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0645 0219 0192

香港 0688 0228 0167

日本 0327 0229 0916

台灣 0486 0227 0598

比利時 1224 0227 0000

美國 1492 0213 0000

由表4-3-14得知整個題組的事後分析顯示在α=005的情況下施測學校

的總分平均得分與台彎沒有達到顯著差異所以平均總得分是可以視為相等的

而施測學校總平均得分與比利時美國有達到顯著差異所以施測學校的總平均

得分是優於比利時與美國

78

三幾何方塊題組

表4-3-15 95年幾何方塊題題組得分情形分配表

得 0分人數 得 1分人數 得 2分人數 遺漏值 總人數

幾何方塊 1 50 950 8 127

幾何方塊 2 109 891 8 127

幾何方塊 3 252 748 8 127

幾何方塊 4 193 807 8 127

幾何方塊 5 244 479 277 8 127

由表 4-3-15 可知在幾何方塊題題組中各小題得分分別以幾何方塊 1得 1

分者佔 95以幾何方塊 2得 1 分者佔 891以幾何方塊 3 得 1 分者佔 748

以幾何方塊 4得 1分者佔 807以幾何方塊 5得 1分者佔 479居多各題各

國答對率的比較結果列於表 4-3-16

表 4-3-16 幾何方塊題題組各國答對率的比較

題目 新加坡 香港 日本 台灣 比利時 美國 施測學校

幾何方塊 1 432 602 785 580 517 399 950

幾何方塊 2 447 470 717 546 548 405 891

幾何方塊 3 720 702 557 613 432 461 748

幾何方塊 4 557 436 447 323 516 446 807

幾何方塊 5 115 66 135 82 123 76 277

79

0

20

40

60

80

100

幾何

方塊1

幾何

方塊2

幾何方塊3

幾何

方塊4

幾何

方塊5

圖4-3-3 幾何方塊題題組答對率之比較圖

由表 4-3-16 與圖 4-3-3 可知在幾何方塊題組中第 1題的答對率以施測

學校最高日本居次美國最低第 2題的答對率以施測學校最高日本居次

美國最低第 3題的答對率以施測學校最高新加坡居次比利時最低第 4題

的答對率以施測學校最高新加坡居次台灣最低第 5題的答對率以施測學校

最高日本居次香港最低接著進行變異數分析結果列於表 4-3-17

80

表 4-3-17 幾何方塊題各題之變異數分析

得分 平方和 自由度 平均平方和 F 檢定 p-value

組間 115732 6 19289 83927 0000

組內 1363788 5934 0230 第一題

總和 1479520 5940

組間 75877 6 12646 53259 0000

組內 1409236 5935 0237 第二題

總和 1485112 5941

組間 77699 6 12950 55905 0000

組內 1374774 5935 0232 第三題

總和 1452473 5941

組間 42205 6 7034 29061 0000

組內 1436564 5935 0242 第四題

總和 1478768 5941

組間 51860 6 8643 20902 0000

組內 2454259 5935 0414 第五題

總和 2506120 5941

表4-3-17顯示幾何方塊題5小題均達顯著水準可見這5題的平均得分

有顯著不同所以研究者進一步做事後分析如表4-3-18所示配合研究者的研

究目的本文中只摘錄與研究目的相關的資料其他比較結果請參閱附錄表格

81

表4-3-18 幾何方塊題各題之事後比較

Scheffe 法

題號 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0520 0046 0000

香港 0350 0047 0000

日本 0160 0047 0060

台灣 0370 0047 0000

比利時 0430 0047 0000

第一題

美國 0550 0046 0000

施測 新加坡 0440 0047 0000

香港 0420 0048 0000

日本 0170 0048 0040

台灣 0340 0048 0000

比利時 0340 0048 0000

第二題

美國 0490 0046 0000

施測 新加坡 0028 0046 0999

香港 0046 0047 0988

日本 0190 0047 0012

台灣 0140 0047 0230

比利時 0320 0047 0000

第三題

美國 0290 0046 0000

施測 新加坡 0250 0047 0000

香港 0370 0049 0000

日本 0360 0049 0000

台灣 0480 0049 0000

比利時 0290 0049 0000

第四題

美國 0360 0047 0000

82

表 4-3-18(續) 幾何方塊題各題之事後比較

題號 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0260 0062 0006

香港 0430 0063 0000

日本 0280 0063 0004

台灣 0480 0063 0000

比利時 0350 0063 0000

第五題

美國 0420 0061 0000

由表4-3-18所顯示的結果得知在幾何方塊題這五小題中只有第三小

題施測學校與台灣在2003年所作的調查結果資料並沒有達到顯著差異其他四小

題的結果都是與台灣達到顯著差異的可見施測學校的平均得分在這四小題中是

優於台灣在2003年所作的調查結果資料在幾何方塊題第一題中施測學校與新

加坡香港比利時美國有達到顯著差異顯示在這一小題中施測學校的成

績是優於這四個國家的在幾何方塊題第二題中施測學校與新加坡香港日

本比利時美國有達到顯著差異顯示在這一小題中施測學校的成績是優於

這五個國家的在幾何方塊題第三題中施測學校與日本比利時美國有達到

顯著差異顯示在這一小題中施測學校的成績是優於這三個國家的在幾何方

塊題第四題中施測學校與新加坡香港日本比利時美國有達到顯著差異

顯示在這一小題中施測學校的成績是優於這五個國家的在幾何方塊題第五題

中施測學校與新加坡香港日本比利時美國有達到顯著差異顯示在這

一小題中施測學校的成績是優於這五個國家的

接下來以整個幾何方塊題的題組來看由表 4-3-19 所示變異數分析的結果

83

表4-3-19 幾何方塊題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 885084 6 147514 50368 0000

組內 17379220 5934 2929

總和 18264300 5940

在α=005的情況下F檢定值為50368plt005達到顯著差異所

以可見這七個國家總分的平均得分有顯著差異所以進行事後比較如表4-3-20

所示

表4-3-20 幾何方塊題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 1499 0165 0000

香港 1615 0169 0000

日本 1166 0169 0000

台灣 1814 0169 0000

比利時 1727 0169 0000

美國 2101 0162 0000

由表4-3-20得知整個題組的事後分析顯示在α=005的情況下施測學

校的總分平均得分與台彎有達到顯著差異所以平均總得分是施測學校優於台灣

在2003年所作的調查結果資料的而施測學校總平均得分與新加坡香港日本

比利時美國有達到顯著差異所以施測學校的總平均得分是優於新加坡香港

日本比利時美國

84

第四節 實作評量試題的類推性

本研究試題的評分者有兩位所以採用的是評分者與工作項目的兩面向交叉

設計(the two-facet crossed persontimesratertimestask design)研究者原先想

利用 SPSS 套裝軟體進行多變量變異數分析將評分的結果做概化程度的分析

計算出各個變異來源之變異成份的大小及其佔總變異的百分比但因檔案太

大SPSS 套裝軟體無法進行多變量變異數分析所以研究者改用 EXCEL 軟體進行

試算其結果列於表 4-4-1

表4-4-1 實作評量概化程度變異成分表

變異來源 估計變異成份 佔總變異之百分比

受試者 0887981185 1944983082

評分者 96E-16 211E-14

工作項目 1697518073 3718146275

受試者評分者 0 0

受試者工作項目 1872595983 410162689

評分者工作項目 0033245844 0728197914

受試者評分者工作項目及誤差 0074154589 1624239615

G 係數 0736144063

註 1在受試者與評分者的交互作用項中其估計變異成份的大小為-106396E-15Shavelson

Webb(1991)指出當某變異成份實際的值接近或等於 0 時取樣的誤差可能導致該變異成份

的估計值成為負數此時可將負值的變異成份大小設定為 0

從以上的表 4-4-1研究者有以下的發現

一實作評量最大的三個變異來源是受試者和工作項目的交互作用工作項

目之間的變異與受試者之間的變異

實作評量最大的變異來源是受試者和工作項目的交互作用佔總變異量的

85

41016表示在研究者的實作評量裡學生的成績會因著工作項目的不同而有

高低起伏如此一來便會降低以某位受試者的觀察分數概化至其真實分數的可

靠程度所以研究者無法以學生在少量的實作評量評量項目上的表現來做為他

們在數學科能力的推論

此外在研究者的實作評量中第二大的變異來源為工作項目之間的變異

其值為 170佔總變異的 37181這只是反應了學生在評量項目上能力表

現的差異並非影響 G係數大小的主要因素關於這一點研究者從計算 G係數

的公式可以了解G係數的計算公式是這樣的

G=σ2p(σ2

p+σ2ptnt+σ2

rpnr+σ2rptenrtimesnt)

G 係數的意義是受試者間的變異量在與受試者有關的變異量之總和中所佔的

比例大小因此若受試者間的變異量愈大而相對於受試者與其他實驗設計面

向的變異量及誤差愈小則 G係數便會愈大也就是根據測驗成績來作推論的可

靠性愈高

二兩位評分者之間的變異極小

評分者之間的變異為傳統的評分者信度從表 4-4-1 可以看到兩位評分結果

之間的變異值為 96E-16僅佔總變異的 211E-14顯示研究者的評分標準非

常一致也就是說研究者兩位當中並沒有誰評分時較為嚴格(stringent)或

較為寬大(liberal)

三受試者與評分者之間沒有交互作用

表 4-4-1 顯示受試者與評分者之間的交互作用為 0表示研究者兩位評分者

並沒有受到月暈效應的影響而對某些學生給予較高的成績對其他學生則給予較

低的成績這一點也可做為評量是否具有公平性的證據之一

四評分者與工作項目間的交互作用非常小

評分者與評量項目間的交互作用很小表示兩位評分者在評定各個評量項目

的評量標準相當一致這原因是由於評分標準訂定的相當明確而且具體讓評分

86

者之間沒有認知的差異存在

從評量工作項目的內容來看本次測驗所測量的雖然同樣是數學能力

測驗但各題所涵蓋的領域包含了統計的資料處理分析能力(擲骰子)幾

何對稱概念(魔術師)概算能力(猜一猜)幾何圖型的直觀概念(圖形

題)數與量中的整數加減乘的運算分析能力(數字卡)結合數與形兩大

主題的幾何形體構成要素及其數量性質(幾何方塊)題目本身的差異性很

大而且每位學生所擅長的方面有所不同在工作項目的表現自然就有所

不同在加上每題的配分並不盡相同所以由這些評量項目概化至其他數

學科能力的程度就降低了這也就是本研究的 G 係數僅達 0313表示如果

使用少量的實作評量工作項目將無法達到所需要的信度

另外主要效果是受試者的變異數值是 0888佔總變異的 19450代

表學生之間的程度差異也很大

根據概化程度研究的結果研究者可以進一步做決策研究(decision

study)決策研究是用來指出若要達到足夠小的誤差變異或足夠大的概化

係數時每一個學生需要多少工作項目以及每一個工作項目需要多少評分

者下面研究者分別分析在幾個評分者的情況下實作評量工作項目為幾

個時G 係數才能達到 08

87

表 4-4-2 G 研究與各種 D 研究之變異成分分析與推論力係數

變異源 G 研究變異成

分之估計值D研究變異成分之估計值

nr= 1 2 3 5 2 2 2

ni= 1 6 6 6 7 8 9

受試者 0888 0888 0888 0888 0888 0888 0888

評分者 0000 0000 0000 0000 0000 0000 0000

工作項目 1698 0283 0283 0283 0243 0212 0189

受試者評分者 0000 0000 0000 0000 0000 0000 0000

受試者工作項目 1873 0312 0312 0312 0268 0234 0208

評分者工作項目 0033 0100 0066 0040 0116 0133 0150

受試者評分者工

作項目及誤差 0074 0006 0004 0002 0005 0005 0004

σRel 1947 0318 0316 0315 0273 0239 0212

G 係數 0313 0736 0737 0738 0765 0788 0807

由表 4-4-2 可知原設計研究 2位研究者與 6道題目的方式推出 G係數只有

0736當評分者增加一位而題目維持六題時G係數只增加 001 達到 0737

如果將評分者增加到五位而題目仍維持六題時G係數只增加 002 達到 0738

可見增加評分者的影響有限如果評分者維持兩位而題目增加為七題G係數會

增加 0029達到 0765如果評分者維持兩位而題目增加為八題G係數會增加

0052達到 0788可見增加題目的效果比增加評分者更為有效當評分者為兩

位題目為九題時G係數可達 0807顯示評分者為兩位題目為九題時內

部一致性較佳

88

第五章 結論

本研究以 TIMSS 數學實作評量的題目為工具進行特定環境背景不同年度的

縱貫研究及與其他國際上表現較佳的國家進行橫貫研究以下為本研究進行所得

的經驗以及資料分析所得之結果分別以結論以及建議等兩節進行說明

第一節 結論

壹實作評量的信效度

TIMSS 試題在台灣之施測是具有一定信效度在信度方面經實際施測後計

算的結果為 0799所以 TIMSS 數學實作評量試題在台灣之施測是具有信度的

但根據實作評量試題的類推性分析結果發現G研究中的 G係數只有 0313深

入探討其原因可能是試題難易程度的差別較大與各題配分比例不同所造成的

所以在 D研究中要補救其信度低的措施就是增加評分者為兩位題目為九題時

其 G係數就可以達到 0807在效度方面每一題均有詳細說明細節行為的項目

給定參考答案圖形的作品量表各題除經著名國際測驗機構審核施測過外並由

研究者另請學校資深四年級教師共同研究討論題目與答案對於施測過程研究

者也與四位監考老師討論後訂出共同標準所以在效度方面具有專家效度跟內

容效度

貳評量結果與比較

一在進行縱貫研究方面在魔術師題型上民國 95 年的結果較佳在擲

骰子題型上是民國 89 年的結果較佳在猜一猜題型上民國 89 年的結

果較佳此結果顯示在幾何概念的對稱觀念上民國 95 年的學生有較

佳的表現但在統計觀念及概數觀念上民國 89 年的學生表現較佳

在實際施測過程中研究者發現在魔術師題型的第一題上許多民國

95 年的學生是先將題目要求的圖形剪出來後再進行對摺當然如果學生

是交出這樣的答案紙條評分者是不給分的因為當評分者在沿著摺線

89

還原時就會發現不是一刀剪出來的可是因為有三個機會所以許多學

生得到這樣的經驗後就會在第二次或第三次時剪出題目要求的結果

而且第一題的成功經驗會連帶的影響第二題的作答因為摺的方式是

一樣的只是剪的地方是不同的所以不管民國 95 年或是民國 89 年的

作答結果都會發現第二題的答對率均比第一題高而第三題的作答方

式因為要多摺一次而且較難複製前面成功的經驗所以第三小題的答

對率比前兩題均比較低所以研究者認為在這一題型上民國 95 年的

學生會表現得比較好的原因可能在於有比較好的作答技巧

二TIMSS 實作評量在性別及班級之間沒有顯著差異

三在圖形題題型上施測學校與台灣西元 2003 年施測結果沒有達到顯著

差異在數字卡題型上施測學校與台灣西元 2003 年施測結果沒有達

到顯著差異在幾何方塊題型上施測學校與台灣西元 2003 年施測結

果達到顯著差異之所以在幾何方塊題型上會達到顯著差異研究者認

為可能是時間點的問題因為研究者施測的時間是利用學期末期末考

後而剛好這次期末考有分數的單元所以學生對這個範圍比較熟悉

才可能造成施測學校的成績特別突出

四在圖形題題型上施測學校優於新加坡比利時及美國在數字卡題型

上我國優於比利時美國在幾何方塊題型上施測學校優於新加坡

香港日本比利時美國研究者特別注意到香港與美國這兩個國家

在 89 年徐美英論文中香港在該年的施測結果都比徐美英施測結果落

後但在 95 年的施測結果卻只有幾何方塊題型是明顯落後施測學校這

表示不是台灣學生在這幾年程度變低了就是這幾年香港程度變高了

在跟縱貫研究做交叉比較後研究者認為台灣學生這幾年程度變低的可

能性較大而美國不管是在 89 年與徐美英論文的施測結果比較或是與

95 年施測結果比較均在這兩次比較中明顯落後

90

第二節 建議

壹TIMSS 實作評量的後續研究

由於數學科實作評量在實際施測時常有人力與物力上的考量以至於在實

際教育現場上並不常用但是實作評量所測出的學生能力與紙筆測驗所測出的

學生能力是不同面向的經過此次實際施測的經驗研究者認為運用 TIMSS 實

作評量的試題來了解學生的學習成就可以在經濟負擔的考慮範圍內達到可

信賴的研究成果因此建議後續研究者可朝向此方向繼續研究以期能更深入

了解學生學習成就的變化情形

貳學生學習成就的長期追蹤

建立台灣的長期教育資料庫是必要的這是從事教育基礎研究的中外學者

的共識研究者此次研究以 TIMSS 實作評量的試題為工具來了解民國 89

年跟民國 95 年特定環境背景的國小四年級學生學習成就的比較即以此理念

為出發點目前在中央研究院教育部和國科會共同推動下『台灣教育長期

追蹤資料庫』的建置工作也已在 2001 年 10 月份起正式展開目的是為了從教

育基礎研究的角度出發研究哪些因素會影響到學生解決問題的能力如學

生努力程度學習機會和學習能力等等當然資料的品質是累積而來的不做

沒有開始就不可能有改進也就不可能有較豐富的資料內容美國國家教育

長期研究(National Education Longitudinal Study NELS)其資料的品質

和豐富素為各國教育研究學者所稱道就是因為它累積了二十多年的經驗

且經過多次的增刪修改研究者也希望能有後續研究者投入後續的相關研究

並累積相關的資料以利決策者能創造出適合台灣學生的最佳學習環境

叁開放性問題的評量研究

在此次研究中發現學生對於開放性問題的解題能力非常不足對於設計

好的題目較難提出歸納模式或者合理的推測這或許歸因於教學現場中的標

91

準化測驗在整個學習過程中教學活動跟教學評量是交互不斷進行而常常

受限於時間跟經濟因素教師只能被迫選擇標準化測驗以診斷學生學習困難

處但是標準化測驗容易讓學生誤以為答案是唯一的而且數學知識是可以切

割成不相關的小部分的因此在國民中小學九年一貫課程綱要中提出「教師

應透過各種評量方式以檢驗教學效果」的觀念研究者建議後續研究者能進一

步探討這方面的相關研究

肆國際比較的重要性

許多國家多年以前即開始參與大型國際研究以了解自己國家學生與其他

不同國家或區域的學生學習成就的差異特別的是此類國際研究對於結果的分

析是深入且多面向的包括學生家庭背景班級學校等民國 95 年中國時

報特別以專欄方式提出芬蘭的教育成功經驗以供國內教育改革的參考為什

麼要特別提出芬蘭呢因為芬蘭在重要的國際比較研究中常常名列前矛所

以參與大型的國際研究可以找出成功的經驗減少自己摸索的時間

92

參考文獻

壹中文部份

王秀琲 (民 92)實作評量在國小數學科之應用-以五年級學童分數為例國立

臺中師範學院教育測驗統計研究所碩士論文

方泰山(民 91)第四次 TIMSS 2003 NRC 自由反應評分系統研討會會議報告

httpichochemntnuedutwpub4thnrcreporthtm

石千奇(民 93)國小六學童在數學實作評量中的小組解題歷程分析國立中山

大學教育研究所碩士論文

江文慈(民 87)一個新評量理念的探討多元智力取向的評量教育資料與研

究20 期6-12

曲慧娟 (民 94)實作評量在國中學術性向優異班招生鑑定之效度研究~以臺灣

北區為例國立臺灣師範大學特殊教育研究所碩士論文

李坤崇(民 88)多元化教學評量台北心理

余民寧(民 93)教育測驗與評量-成就測驗與教學評量第二版台北心理

吳毓瑩(民 85)評量的蛻變與突破-從哲學思潮與效度理論參考起教育資料

與研究13 期2-15

李虎雄張敏雪(民 87)由學力評量觀點談實作評量之特性測驗與輔導

3104-3108

吳明隆(民 87)教室做為評量環境的內涵與其評量新趨勢研習資訊15 卷

4期62-77

93

吳清山林天佑(民 85)教育名詞 mdash分流教育教育資料與研究885

李長柏(民 91)國小數學簡單機率解題實作評量與後設認知之相關研究國立

臺中師範學院教育測驗統計研究所碩士論文

呂政隆(民 93)國小學童在數學實作評量解題整合認知與課程之相關研究

國立臺中師範學院教育測驗統計研究所碩士論文

呂金燮(民 88)實作評量-理論載於王文中呂金燮吳毓瑩張郁雯張淑

慧(合著)教育測驗與評量教室學習觀點(頁 173-207)台北五

李茂能(民 85)信度考驗的另一途徑推論力理論國民教育學報227-48

林清山(民 81)心理與教育統計學台北東華

林敬修(民 92)影響國小數學科實作評量信度相關因素之類推性理論分析國

立屏東師範學院教育心理與輔導學系研究所碩士論文

洪之昀(民 89)數學科實作評量對國小高年級學童學習策略影響之研究國立

臺中師範學院教育測驗統計研究所碩士論文

桂怡芬吳毓瑩(民 87)自然科實作評量的效度探討測驗年刊45(2)19-36

桂怡芬(民 85)自然科實作評量的效度探討國立台北師範學院國民教育研究

所碩士論文

桂怡芬(民 85)紙筆與實作的互補我的實作評量經驗教育資料與研究13

期36-40

徐美英(民 89)TIMSS 數學實作評量在台灣之試用探討國立臺中師範學院教

育測驗統計研究所碩士論文

94

夏淑琴(民 88)教學評量革新-多元評量載於高強華主編(民 88)學校變遷與

學校革新台北師大

教育部(民 92)國民中小學九年一貫課程綱要數學學習領域台北教育部

張紹勳張紹評林秀娟(民 92a)SPSS For Windows 統計分析初等統計與高

等統計(上冊)(第四版)台北文魁資訊股份有限公司

張紹勳張紹評林秀娟(民 92b)SPSS For Windows 統計分析初等統計與高

等統計(下冊)(第四版)台北文魁資訊股份有限公司

張敏雪(民 86)實作評量的本質及國民中小學數理科教師對實作評量的態度探

討國立臺灣師範大學數學研究所碩士論文

張敏雪(民 87)教室內的實作評量教育資料與研究20 期24-27

張敏雪(民 86)實作評量的本質及國民中小學數理科教師對實作評量的態度探

討國立師範大學數學研究所碩士論文

張英傑等著(民 94)數學科教師手冊台南南一書局

張永杰 (民 92)實作評量取向的幾何思考研究國立臺灣大學國際企業學研究

所碩士論文

張麗麗(民 91a)從分數的意義談實作評量效度的建立教育研究月刊9837-51

張麗麗(民 91b)評量改革的應許之地虛幻或真實-談實作評量之作業與表

現規準教育研究月刊9376-86

郭生玉(民 84)心理與教育研究法台北精華

陳英豪吳裕益(民 85)測驗與評量高雄復文

95

陳文典陳義勳李虎雄簡茂發(民 84)由馬里蘭州的學習成就評量與其在

台灣的施測結果看-實作評量的功能與應用科學教育月刊185 期

2-10

陳昭地(民 88)「第三次國際數學與科學教育成就研究」後續調查

httpreporticentnutwnscreportTIMSS-R(1999)實測後

期中報告--交國科會htm

陳怡玉(民 94)降低國小數學科實作評量人和作業交互作用變異方法的探討---

以類推性理論分析國立臺南大學測驗統計研究所碩士論文

莊明貞(民 84)變通性評量的發展與實施研習簡訊261

莊明貞(民 85)實作評量理論與實際教育資料與研究9期44-48

曾惠敏(民 87)國小分數概念實作評量之發展及其相關研究國立台南師範學

院國民教育研究所碩士論文

游麗卿(民 87)從實作表現診斷學生乘除法的錯誤概念觀念測驗與輔導雙月

刊149 期3094-3099

鄒慧英譯(民 92)測驗與評量(原作者 Robert L linn and Norman E

Gronlund)台北洪葉文化

鄒慧英(民 86)實作型評量的品管議題兼談檔案評量的應用載於八十七年度

教育測驗新近發展趨勢學術研討會

詹志禹(民 85)評量改革為什麼要進行-回應吳毓瑩<評量的蛻變與突破>

教育資料與研究13 期45-47

96

詹元智(民 91)國小數學科實作評量之效度探討國立屏東師範學院教育心理

與輔導研究所碩士論文

蔡正濱(民 95)國小數學科實作評量評分者ㄧ致性相關因素探討國立屏東教

育大學教育心理與輔導學系研究所碩士論文

鄭麗玉(民 88)教學評量的改革教師之友40 卷1期23-33

歐滄和(民 91)教育測驗與評量台北心理

盧雪梅(民 87)實作評量的應許難題和挑戰教育資料與研究20 期1-5

簡茂發(民 80)命題方法與試題分析國教輔導31(1)2-13

蘇義翔(民 86)實作評量的理論與啟示測驗與輔導3099-3102

貳英文部分

Airasian PW (1991) Classroom assessment New York McGraw-Hill

Airasian PW (1994) Classroom assessment(2nd ed)NewYork

McGraw-Hill

Baron J B (1991) Strategies for the development of effective

performance exercise Applied Measurement in Education 4(4)

305-318

Baxter G P Shavelson R J Goldman S R amp Pine J

(1992) Evaluation of a procedure-based scoring for hands-on

science assessment Journal of Educational Measurement 29(1)

1-17

97

Baxter G P Shavelson R J Herman S J Brown K A amp Valadez

J R(1993) Mathematics performance as sessment technical

quality and diverse student impact Journal for Research in

Mathematics Education 24(3) 1990-216

Dunbar S B Koretz DM amp Hoover HD(1991) Quality control control

in the development and use performance assessmentApplied

Measurement in Educational 4(4) 289-303

Frechtling J A (1991) Performance assessment Moonstruck or the real

thing Educational Measurement Issues and Practice 10(4)

23-25

Haertel EH and Linn RL (1996) ldquoComparability in GW Philips

(Ed) Technical Issues in Large-Scale Performance Assessment

Washington DC National Center for Education Statistics

Harmon M amp KellyTA(1996) Development and Design of the TIMSS

performance Assessment In MartinMO and Kelly

DL(eds)Third International Mathematics and Science Study

(TIMSS) Technical Report Volume I Design andd Development

Chestnut Hill MABoston College

Herman JL Aschbacher PR amp Winters L(1990 November) Issues in

developing alternative assessments Paper presented at the

annual meeting of the California Educational Research

Association Chicago

98

Mullis IVS Martin MO Gonzalez EJ Chrostowski SJ(2005)

TIMSS 2003 International Mathematics Report

httptimssbcedutimss2003imathDhtml p31-p47

Linn RL(1993) Educational assessment Expanded expectations and

challenges Educational Evaluation and Policy Analysis 15(1)

1-16

Linn RL Bader EL amp Dunbar SB(1991) Complex Performemce-based

assessmentexpectations and validation criteria Educational

Researcher 20(8) 1521

Linn RL (2000) Assessments and accountability Educational Researcher

29(2) 4-16

Long C amp Stansbury K (1994) Performance assessment for beginning

teachers Phi Delta Kappan76318-322

Messick S (1994) The interplay of evidence and consequences in the

validation of performance assessments Educational Researcher

23(2) 13-23

Messick S (1995) Standards of validity and the validity of standards

in performance assessment Educational Measurement Issues and

Practice 14(4) 5-8

Martin MOMullis IVSChrostowski SJ(2005)TIMSS 2003 Technical

Report httptimssbcedutimss2003itechnicalDhtml

Martin MO(2005) TIMSS 2003 User Guide for the International Database

99

httptimssbcedutimss2003itechnicalDhtml

Miller M D amp Linn R L (2000) Validity of performance-based

assessments Applied Psychological Measurement 24(4) 367-378

Moss P (1994) Can there be validity without reliability Educational

Researcher 23 (2) 5-12

Mullis IVS Martin MO amp Foy P (2005) IEAs TIMSS 2003

International Report on Achievement in the Mathematics Cognitive

Domains httptimssbcedutimss2003imcgdmhtmlp15-p36

Roid G H amp Haladyna T M (1982) A technology for test-item writing

Orlando FL Academic Press

Ruiz-Primo M A Baxter G P amp Shavelson R J(1993) On the stability

of performance assessments Journal of Educational Measurement

30(1) 41-53

Shavelson R J Baxter G P amp Gao X (1993) Sampling variability of

performance assessments Journal of Educational Measurement 30

3215-32

Shavelson R J amp Webb N W (1991) Generalizability theory A primer

Newbury Park CASage

Shepard L A Flexer R J Hiebert E H Marion S F Mayfield

V amp Weston TJ (1996) Effects of introducing classroom

performance assessments on student learning Educational

Measurement Issues and Practice 15(3) 7-18

100

Schmidt W H Jorde D Cogan L Barrier E Gonzalo I Moser U

Shimizu K Sawada T Valverde G Prawat R Mcknight C

Raizen S Britton E Wiley D amp Wolfe R (1996)

Characterizing pedagogical flow An investigation of

mathematics and science teaching in six countries Hinglham

MAKluwer

Silver E A (1993) On mathematical problem posing In N Nohda amp F L

Lin (Eds) Proceedings of the Seventeenth Annual Meeting of the

International Group for the Psychology of Mathematics Education

Vol 1 (pp 66-85) Tsukuba Japan Author

Stiggins R J (1994) Stundent-centered classroom assessment New York

MerrillMacmillan

Stiggins R J (1987) Design and development of performance assessment

Educational Measurement Issues and Practice 6(3)33-42

Telese J A amp Kulm G (1995) Performance-based assessment of at-risk

students in mathematics The effects of context and setting

Paper presented at Annual Meeting of the American Educational

Research Association (ERIC Document Reproduction Service No

ED 382 685)

TIMSS (1997) Performance Assessment in IEAs Third International

Mathematics And Science Study Chestnut Hill MABoston

College

Webb G (1992) On pretexts for higher education development activities

101

Higher Education 24 (3) pp351-61

Wiggins G(1998) Educative assessment Designing assessments to inform

and improve student performance San Francisco California

Jossey-Bass

102

附錄

附錄一TIMSS 2003 參與的國家

Argentina

Armenia

Australia

Bahrain

Belgium (Flemish)

Botswana

Bulgaria

Chile

Chinese Taipei

Cyprus

Egypt

England

Estonia

Ghana

Hong Kong SAR

Hungary

Indonesia

Iran Islamic Republic of Israel

Italy

Japan

Jordan

Korea Republic of Latvia

Lebanon

Lithuania

Macedonia Republic of Malaysia

Moldova

Morocco

Netherlands

New Zealand

Norway

Palestinian National Authority

Philippines

Romania

Russian Federation

Saudi Arabia

Scotland

Serbia

Singapore

Slovak Republic

Slovenia

South Africa

Sweden

Syrian Arab Republic

Tunisia

United States

Yemen Republic of

103

附錄二題目

一猜一猜

媽媽有一個裝滿豆子的密封罐有一天媽媽將豆子分別倒在 9個碗中前 4個

碗中豆子的數量分別是 29313128 個

1 請你猜一猜罐子中大約有幾個豆子

2把你的想法寫出來

二魔術師

一 材料9張紙剪刀一個信封

二你的工作

1 將紙對摺一次或一次以上並剪掉部分的紙使紙的形狀符合題目所給的

形狀

2 每張紙摺疊的次數和形狀隨你喜歡但只能剪一次

【第一題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後

做出如圖一的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

【第二題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後做出如

圖二的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

(在每張你使用過的紙寫上 1和名字)

104

(圖二)

【第三題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後做出如圖三

的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

(圖三)

三擲骰子

一材料一個骰子搖杯

二你的工作

當我們用一個規則來改變骰子擲出來的數字你發現了什麼

改變數字的規則是

當骰子擲出的數字是奇數時減 1並記下結果

當骰子擲出的數字是偶數時加 2並記下結果

1 在下列表中已經示範了兩個例子給你看使用這個規則並找其他

改變後的數字完成這個表格

(在每張你使用過的紙寫上 2和名字)

(在每張你使用過的紙寫上 3和名字)

105

骰子的數字 改變後的數字

2

6

2 看看你所紀錄的「改變後的數字」你發現了什麼

3 擲骰子 30 次並使用規則去改變每次所擲的數字將它紀錄下來

寫在下列的表格中

106

骰子的數字 改變後的數字 骰子的數字 改變後的數字

4將表 3中各個改變後數字出現的次數記在下表中

改變後的數字 次數

0

1

2

3

4

5

6

7

8

5a哪一個數字是你紀錄次數最多的

107

5b為什麼會這樣請寫出你的看法

四幾何方塊

在這一大題你會拿到一張紙板紙板上有10 張小卡片(如下圖)請將這些

正方形卡片分開若你沒有拿到紙卡請舉手

甲利用2 張黑白相間方塊拼出一個較大的黑色三角形並將您的拼法塗在下面

指定的區域

在這裡用斜線塗出

您拼出的黑色三角形

3 個白色方塊

4 張黑白相間方塊

3 個黑色方塊

108

乙利用4 張黑白相間方塊拼出一個黑色的正方形並將您的拼法塗在下面指定

的區域

在這裡用斜線塗出

您拼出的黑色正方形

丙在第乙題中塗黑色的部分佔了全部的幾分之幾

作出分數

甲不准使用黑白相間方塊將4 張方塊拼出一個正方形使得黑色的部分佔

21

並將您的拼法塗在下面指定的區域

在這裡用斜線塗出

您拼出的黑色部分

109

乙請用8 張方塊拼出一個如下圖的長方形使得黑色部分佔

85

並將您的拼法塗在下面指定的區域

在這裡用斜線塗出

您拼出的黑色部分

五圖形題

甲請畫一條直線將這個長方形分成2 個三角形

110

乙請畫一條直線將這個長方形分成2 個長方形

丙請畫兩條直線將這個長方形分成1 個長方形和2 個三角形

丁在下圖的四個三角形中有兩個是形狀相同但大小不同請把這兩個三角形

塗上顏色(線甲乙跟線丙丁平行)

六數字卡

在這部分你將會拿到一張印有 0到 9的數字卡如下圖請將這些數字卡

取下來

甲 乙

1 2

3

4

111

總和為ldquo20的數字遊戲

小杰與小明這兩個小孩正在玩一個ldquo總和為 20的遊戲其規則如下

總和為ldquo20的規則

(1)抽數字卡每一個人抽出三張數字卡

(2)加數字卡每一個人利用這三張數字卡做出一個加法問題使得算出

的總和最接近 20 例如假如抽出的數字卡 將數字任意組

合後下面是其中四種可能的方法

+ + + +

5 5 4 6 1 9 +

1 0

15

這時玩家應該選擇 + 4 因為它的總和 19最接近 20

19

小杰和小明開始玩遊戲了小杰抽出了 三張數字卡小明抽

出了 三張數字卡

(1)小杰要如何安排三張數字卡做出一個加法問題才能讓它的總和為最

接近 20記得要寫總和

0 1 2 3 4

5 6 7 8 9

1 4 5

1

4

5 1

4

5

1

4 51

4

5

972

6 3 1

112

(2)小明要如何安排三張數字卡做出一個加法問題才能讓它的總和最接

近 20記得要寫總和

(3)小明說假如我抽到 我可以用兩種方法做出總和 20

請告訴我們小明用哪兩種方法可以使 做出總和 20

第一種方法

第二種方法

找出最大的數

小杰和小明利用數字卡玩另一個新的遊戲就是利用三張數字卡做出最

大的數

甲將 三張數字卡填入下列的格子內讓相加的結果為最大

乙將 三張數字填入下列的格子內讓相減的結果為最大

丙將 三張數字卡填入下列的格子內讓相乘的結果為最大

times

1 4 6

1 4 6

9 5 1

+

-

2 3 7

1 4 5

113

附錄三給老師的話

題目猜一猜

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說

明如下

題目預測的能力

測量學生在生活情境中了解概數意義的能力

實施時間

20 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意讓同學清楚的知道這份試卷要他們

做的是什麼

評量結束後收回試紙

注意要點

請老師先做一次示範給學生看完之後再讓學生作答

請老師提醒學生計算完後要記得將他們為什麼要這樣做的原因寫清楚

評分標準

等級 5 算出前 4碗豆子的總和再乘以 2再加上一個合理的近似值或使用估

計或平均值找出每一碗豆子的近似值再乘以 9

等級 4 合理的估計其他各碗的豆子數量並算出總和

等級 3 推測出大部分合理少部分不合理的估計值並算出總和

等級 2 推論出一個杯子約有 30 個但未算出總和

等級 1 將已知碗的數量變成一組模式將此模式推論至其他碗不一定剛好總

114

和為 10 個碗

等級 0 未作答或不知所云

題目幾何方塊

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說

明如下

題目預測的能力

這是一種包含幾何跟數與量的題目其中幾何的部份是要求學生建立一個二

維圖形並滿足題目的要求(數與量)

實施時間

30 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意讓同學清楚的知道這份試卷要他們

做的是什麼

評量結束後收回試紙

注意要點

請老師提醒學生答案是用鉛筆塗在指定的區域並且不可以超過格線並不是將

紙卡貼在題目上要注意

請老師提醒學生撕紙卡要小心務必要使用剪刀或直尺沿著線撕

評分標準

115

給分範圍1分

給分範圍0分

(1)雖然使用 2塊黑白相間方塊組合但卻變成 2個小三角形而不是組合成 1

個大三角形

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

給分範圍1分

給分範圍0分

(1)雖然使用 4塊黑白相間方塊組合但卻不是組合成 1個大的黑色正方形

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

116

給分範圍1分

(1) 21

或是它的等值分數

(2)乙题雖然畫錯但此題答案正確

給分範圍0分

(1) 41

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

做出分數

給分範圍1分

由 2塊白色跟 2塊黑色組合成請看下面的例子

給分範圍0分

(1)雖然得出 21但是使用黑白相間的方塊

(2)畫出黑色的部份佔 41

117

(3)畫出黑色的部份佔 43

(4)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(5)完全空白

給分範圍2分

任何使用 3塊黑色的方塊1塊白色的方塊和 4塊黑白相間的方塊的組合圖形

給分範圍1分

塗出 85的答案但不是使用正確的方塊組合

給分範圍0分

(1)塗出 21

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

題目魔術師

118

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生對稱的觀念空間關係及解決非例行問題的能力

施測時間

30 分鐘

實施步驟

1 發試紙和所需材料

2 題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的

知道這份試卷要他們做的是什麼

3 評量結束試紙及材料

注意要點

1請老師提醒學生每張紙只能直直的剪一次不可改變方向且要記得在紙上寫

編號和名字

評分標準

第一題1在紙上只剪一次

2有兩條正確的摺線

給分範圍2

第二題1在紙上只剪一次

2 有兩條正確的摺線

給分範圍2

第三題同上兩題

119

題目圖形題

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生二維空間的分割的觀念了解學生能否透過操作直尺或三角板在二維

空間上剪裁出指定的基本圖型並利用直觀的方式指出形狀相同但大小不同的三

角形

施測時間

30 分鐘

實施步驟

1 發試紙

2 題目解說實施評量前請老師加以說明題意讓學生清楚的知道這份試卷要他

們做的是什麼

3 評量結束收回試紙

評分標準

甲給分範圍1分

正確的畫一條對角線將長方形分成 2個三角形

給分範圍0分

(1)有畫出一條橫線或垂直線但不是畫出精確的對角線

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的

回答)

(3)完全空白

乙給分範圍1分

120

正確的畫一條橫線或垂直線將長方形分成 2個長方形

給分範圍0分

(1)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回

答)

(2)完全空白

丙給分範圍1分

正確的畫兩條線將長方形分成 1個較小的長方形跟兩個三角形

給分範圍0分

(1)有畫出兩條線但沒有將長方形分割成兩個較小的長方形或有分割成

兩個較小的長方形卻沒有在其中之ㄧ上畫出精確的對角線

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(3)完全空白

丁給分範圍1分

在三角形 3跟三角形 4上塗上顏色

給分範圍0分

(1)在三角形 1跟三角形 2上塗上顏色

(2)在三角形 2跟三角形 4上塗上顏色在三角形 1跟三角形 3上塗上顏色

在三角形 1跟三角形 4上塗上顏色在三角形 2跟三角形 3上塗上顏色

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

121

題目數字卡

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生計算的規則與策略及對數字的觀念並能運用所學過的概念於計算策

略上

施測時間

30 分鐘

實施步驟

1 發試紙和所需材料

2 題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的

知道這份試卷要他們做的是什麼

3 評量結束試紙及材料

評分標準

總和為 20 的數字遊戲

甲給分範圍1分

(1)寫出 2+7+9=18

(2)沒有任何算式但有答案是 18 者

給分範圍0分

(1)有寫出算式 2+7+9 但沒有答案 18 出現

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的

回答)

(3)完全空白

122

乙給分範圍1分

(1)13+6=19 或 16+3=19

(2)沒有任何算式但有答案是 19 者

給分範圍0分

(1)有寫出算式 13+6 或 16+3 但沒有答案 19 出現

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回

答)

(3)完全空白

丙給分範圍2分

兩種方法都正確(16+4 和 14+6)

給分範圍1分

只有寫出其中一種方法(16+4 或 14+6)

給分範圍0分

(1)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(2)完全空白

找出最大的數

甲給分範圍1分

91+5 或 95+1

給分範圍0分

(1)將 159擺在任何其他不正確的位置

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(3)完全空白

123

乙給分範圍1分

73-2

給分範圍0分

(1)72-3

(2)將 237擺在任何其他不正確的位置

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

丙給分範圍1分

41times5

給分範圍0分

(1)51times4

(2)將 145擺在任何其他不正確的位置

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

題目擲骰子

親愛的老師

您好感謝您參與此次數學科學實作評量的研究關於此次施測的注意事項說明

如下

題目欲測的能力

測量學生對於任意數字計算紀錄和分析的能力以及辨識並解釋記錄資料

的結果

施測時間

124

30 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的知

道這份試卷要他們做的是什麼

評量結束後收回試紙及材料

評分標準

第一題正確的計算出(042648)

給分範圍2

第二題1描述的類型與資料一致

2形式可以是一個或多個以下的情形所有的數字都是偶數數字

的範圍從 0~84 出現 2次數字排列有規則如+4-2+4-2

給分範圍1

第三題1至少完成 25 次擲骰子的紀錄

2正確的計算

給分範圍2

第四題統計的次數與第三題的資料一致

給分範圍2

第 5a 題答案與資料一致

給分範圍1

第 5b 題對觀察的數字提供合理的解釋

給分範圍1

125

附錄四分析資料補充

附錄四表格中以數字 1代表新加坡數字 2代表香港數字 3代表日本數字

4代表台灣 2003 年原始資料數字 5代表比利時數字 6代表美國數字 7代表

施測學校

一圖形題補充

表附錄 4-1-1 圖形題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 187 0 32 0 64 0 50 新加

坡甲 1 916

香港

甲 1 725

日本

甲 1 703

台灣

甲 1 726

得分 次數 得分 次數 得分 次數 得分 次數

0 69 0 9 0 75 0 39 新加

坡乙 1 1034

香港

乙 1 748

日本

乙 1 692

台灣

乙 1 737

得分 次數 得分 次數 得分 次數 得分 次數

0 329 0 107 0 196 0 119新加

坡丙 1 774

香港

丙 1 650

日本

丙 1 571

台灣

丙 1 657

得分 次數 得分 次數 得分 次數 得分 次數

0 424 0 386 0 281 0 267新加

坡丁 1 679

香港

丁 1 371

日本

丁 1 486

台灣

丁 1 509

得分 次數 得分 次數 得分 次數

0 130 0 447 0 8 比利

時甲 1 649

美國

甲 1 1189

施測

甲 1 113

得分 次數 得分 次數 得分 次數

0 69 0 201 0 5 比利

時乙 1 710

美國

乙 1 1435

施測

乙 1 116

得分 次數 得分 次數 得分 次數

0 386 0 1100 0 21 比利

時丙 1 393

美國

丙 1 536

施測

丙 1 100

得分 次數 得分 次數 得分 次數

0 386 0 732 0 27 比利

時丁 1 393

美國

丁 1 904

施測

丁 1 94

126

表附錄 4-1-1(續) 圖形題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 44 0 6 0 31 0 17

1 75 1 17 1 44 1 20

2 137 2 64 2 64 2 45

3 334 3 331 3 232 3 257

新加

坡總

4 513

香港

總分

4 339

日本

總分

4 396

台灣

總分

4 437

得分 次數 得分 次數 得分 次數

0 36 0 114 0 0

1 72 1 243 1 5

2 176 2 389 2 5

3 259 3 517 3 36

比利

總分

4 236

美國

總分

4 373

施測

總分

4 75

表附錄 4-1-2 圖形題各國事後分析表

圖形題甲 圖形題乙

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0130 0000 1 2 -0051 0013

3 -0086 0000 3 0035 0247

4 -0110 0000 4 -0012 0987

5 -0003 1000 5 0026 0631

6 0100 0000 6 0060 0000

2 3 0041 0514 2 3 0086 0000

2 4 0022 0958 4 0038 0244

5 0120 0000 5 0077 0000

6 0230 0000 6 0110 0000

3 4 -0019 0980 3 4 -0048 0057

5 0083 0001 5 -0009 0998

6 0190 0000 6 0025 0594

4 5 0100 0000 4 5 0038 0237

6 0210 0000 6 0073 0000

5 6 0110 0000 5 6 0034 0190

127

表附錄 4-1-2(續) 圖形題各國事後分析表

圖形題丙 圖形題丁

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0160 0000 1 2 0130 0000

3 -0043 0637 3 -0018 0996

4 -0140 0000 4 -0040 0798

5 0200 0000 5 0110 0001

6 0370 0000 6 0063 0092

2 3 0110 0000 2 3 -0140 0000

2 4 0012 1000 4 -0170 0000

5 0350 0000 5 -0014 0999

6 0530 0000 6 -0063 0209

3 4 -0100 0002 3 4 -0022 0992

5 0240 0000 5 0130 0000

6 0420 0000 6 0081 0027

4 5 0340 0000 4 5 0150 0000

6 0520 0000 6 0100 0001

5 6 0180 0000 5 6 -0048 0533

圖形題總分

(I) (J) 平均差異 (I-J) p-value

1 2 -0210 0008

3 -0110 0540

4 -0300 0000

5 0330 0000

6 0600 0000

2 3 0098 0778

4 -0093 0812

5 0540 0000

6 0810 0000

3 4 -0190 0051

5 0440 0000

6 0710 0000

4 5 0630 0000

6 0900 0000

5 6 0270 0000

128

二數字卡題型

表附錄 4-2-1 數字卡題各國得分統計表

分數 次數 分數 次數 分數 次數 分數 次數

0 284 0 144 0 128 0 118新加

坡 1 1 277

香港

1 1 239

日本

1 1 234

台灣

1 1 273

分數 次數 分數 次數 分數 次數 分數 次數

0 243 0 177 0 138 0 134新加

坡 2 1 318

香港

2 1 206

日本

2 1 224

台灣

2 1 257

分數 次數 分數 次數 分數 次數 分數 次數

0 171 0 142 0 117 0 111

1 28 1 13 1 30 1 23

新加

坡 3

2 362

香港

3

2 228

日本

3

2 215

台灣

3

2 257

分數 次數 分數 次數 分數 次數 分數 次數

0 161 0 111 0 89 0 138新加

坡 4 1 400

香港

4 1 272

日本

4 1 273

台灣

4 1 253

分數 次數 分數 次數 分數 次數 分數 次數

0 172 0 119 0 95 0 145新加

坡 5 1 389

香港

5 1 264

日本

5 1 267

台灣

5 1 246

分數 次數 分數 次數 分數 次數 分數 次數

0 413 0 290 0 231 0 303新加

坡 6 1 148

香港

6 1 93

日本

6 1 131

台灣

6 1 88

分數 次數 分數 次數 分數 次數

0 207 0 476 0 38 比利

時 1 1 187

美國

1 1 339

施測

1 1 82

分數 次數 分數 次數 分數 次數

0 175 0 442 0 29 比利

時 2 1 219

美國

2 1 373

施測

2 1 91

分數 次數 分數 次數 分數 次數

0 149 0 308 0 14

1 27 1 48 1 11

比利

時 3

2 218

美國

3

2 459

施測

3

2 95

129

表附錄 4-2-1(續) 數字卡題各國得分統計表

分數 次數 分數 次數 分數 次數

0 175 0 380 0 36 比利

時 4 1 219

美國

4 1 435

施測

4 1 84

分數 次數 分數 次數 分數 次數

0 179 0 410 0 38 比利

時 5 1 215

美國

5 1 405

施測

5 1 82

分數 次數 分數 次數 分數 次數

0 321 0 705 0 94 比利

時 6 1 73

美國

6 1 110

施測

6 1 26

分數 次數 分數 次數 分數 次數 分數 次數

0 64 0 38 0 21 0 37

1 39 1 25 1 23 1 33

2 62 2 36 2 35 2 21

3 40 3 50 3 44 3 44

4 60 4 49 4 34 4 41

5 87 5 51 5 59 5 60

6 137 6 93 6 89 6 102

新加

坡總

7 72

香港

總分

7 41

日本

總分

7 57

台灣

總分

7 53

分數 次數 分數 次數 分數 次數

0 31 0 135 0 5

1 48 1 94 1 5

2 49 2 98 2 9

3 67 3 101 3 9

4 61 4 114 4 16

5 63 5 101 5 20

6 55 6 130 6 40

比利

時總

7 20

美國

總分

7 42

施測

總分

7 16

130

表附錄 4-2-2 數字卡題各國事後分析表

第一題 第二題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0130 0013 1 2 0029 0992

3 -0153 0001 3 -0052 0873

4 -0204 0000 4 -0090 0252

5 0019 0999 5 0011 1000

6 0078 0206 6 0109 0012

2 3 -0022 0999 2 3 -0081 0537

4 -0074 0612 4 -0119 0076

5 0149 0006 5 -0018 1000

6 0208 0000 6 0080 0326

3 4 -0052 0908 3 4 -0039 0979

5 0172 0001 5 0063 0796

6 0231 0000 6 0161 0000

4 5 0224 0000 4 5 0102 0212

6 0282 0000 6 0200 0000

5 6 0059 0697 5 6 0098 0101

第三題 第四題

1 2 0116 0734 1 2 0003 1000

3 0070 0974 3 -0041 0948

4 -0033 1000 4 0066 0612

5 0165 0287 5 0157 0000

6 0155 0156 6 0179 0000

2 3 -0046 0998 2 3 -0044 0952

4 -0149 0543 4 0063 0751

5 0049 0997 5 0154 0002

6 0039 0998 6 0176 0000

3 4 -0103 0889 3 4 0107 0141

5 0096 0918 5 0198 0000

6 0085 0907 6 0220 0000

4 5 0198 0174 4 5 0091 0294

6 0188 0091 6 0113 0019

5 6 -0010 1000 5 6 0022 0997

131

表附錄 4-2-2(續) 數字卡題各國事後分析表

第五題 第六題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0004 1000 1 2 0021 0996

3 -0044 0931 3 -0098 0050

4 0064 0655 4 0039 0914

5 0148 0001 5 0079 0203

6 0197 0000 6 0129 0000

2 3 -0048 0929 2 3 -0119 0015

4 0060 0801 4 0018 0999

5 0144 0008 5 0058 0699

6 0192 0000 6 0108 0006

3 4 0108 0140 3 4 0137 0002

5 0192 0000 5 0177 0000

6 0241 0000 6 0227 0000

4 5 0083 0425 4 5 0040 0933

6 0132 0003 6 0090 0047

5 6 0049 0838 5 6 0050 0675

數字卡總分

1 2 0043 1000

3 -0318 0582

4 -0159 0975

5 0579 0012

6 0847 4850

2 3 -0361 0529

4 -0201 0948

5 0536 0067

6 0804 0000

3 4 0159 0985

5 0897 0000

6 1165 0000

4 5 0738 0001

6 1006 0000

5 6 0268 0673

132

三幾何方塊題型

表附錄 4-3-1 幾何方塊題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 633 0 303 0 165 0 322新加

坡甲 1 482

香港

甲 1 458

日本

甲 1 604

台灣

甲 1 445

得分 次數 得分 次數 得分 次數 得分 次數

0 617 0 403 0 218 0 348新加

坡乙 1 499

香港

乙 1 358

日本

乙 1 551

台灣

乙 1 419

得分 次數 得分 次數 得分 次數 得分 次數

0 312 0 227 0 341 0 297新加

坡丙 1 804

香港

丙 1 534

日本

丙 1 428

台灣

丙 1 470

得分 次數 得分 次數 得分 次數 得分 次數

0 494 0 429 0 425 0 519新加

坡丁 1 622

香港

丁 1 332

日本

丁 1 344

台灣

丁 1 248

得分 次數 得分 次數 得分 次數 得分 次數

0 385 0 352 0 291 0 407

1 603 1 359 1 374 1 297

新加

坡戊

2 128

香港

2 50

日本

2 104

台灣

2 63

得分 次數 得分 次數 得分 次數

0 372 0 985 0 6 比利

時甲 1 398

美國

甲 1 655

施測

甲 1 113

得分 次數 得分 次數 得分 次數

0 348 0 976 0 13 比利

時乙 1 422

美國

乙 1 664

施測

乙 1 106

得分 次數 得分 次數 得分 次數

0 437 0 884 0 30 比利

時丙 1 333

美國

丙 1 756

施測

丙 1 89

得分 次數 得分 次數 得分 次數

0 373 0 908 0 23 比利

時丁 1 397

美國

丁 1 732

施測

丁 1 96

133

表附錄 4-3-1(續) 幾何方塊題各國得分統計表

得分 次數 得分 次數 得分 次數

0 335 0 754 0 29

1 340 1 762 1 57

比利

時戊

2 95

美國

2 124

施測

2 33

得分 次數 得分 次數 得分 次數 得分 次數

0 141 0 86 0 52 0 115

1 126 1 83 1 78 1 111

2 167 2 128 2 122 2 121

3 257 3 205 3 157 3 183

4 178 4 143 4 153 4 123

5 153 5 81 5 138 5 73

新加

坡總

6 93

香港

總分

6 35

日本

總分

6 69

台灣

總分

6 41

得分 次數 得分 次數 得分 次數

0 100 0 331 0 1

1 101 1 250 1 1

2 154 2 317 2 5

3 164 3 300 3 22

4 127 4 246 4 26

5 73 5 127 5 38

比利

時總

6 51

美國

總分

6 69

施測

總分

6 26

134

表附錄 4-3-2 幾何方塊題各國事後分析表

第一題 第二題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0170 0000 1 2 -0023 0984

3 -0350 0000 3 -0270 0000

4 -0150 0000 4 -0099 0005

5 -0085 0028 5 -0100 0003

6 0033 0793 6 0042 0545

2 3 -0180 0000 2 3 -0250 0000

4 0022 0993 4 -0076 0160

5 0085 0062 5 -0078 0138

6 0200 0000 6 0066 0152

3 4 0210 0000 3 4 0170 0000

5 0270 0000 5 0170 0000

6 0390 0000 6 0310 0000

4 5 0063 0350 4 5 -0002 1000

6 0180 0000 6 0140 0000

5 6 0120 0000 5 6 0140 0000

第三題 第四題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0019 0995 1 2 0120 0000

3 0160 0000 3 0110 0001

4 0110 0001 4 0230 0000

5 0290 0000 5 0042 0773

6 0260 0000 6 0110 0000

2 3 0150 0000 2 3 -0011 1000

4 0089 0043 4 0110 0003

5 0270 0000 5 -0079 0127

6 0240 0000 6 -0010 1000

3 4 -0056 0514 3 4 0120 0000

5 0120 0000 5 -0068 0285

6 0096 0002 6 0001 1000

4 5 0180 0000 4 5 -0190 0000

6 0150 0000 6 -0120 0000

5 6 -0029 0934 5 6 0069 0110

135

表附錄 4-3-2(續) 幾何方塊題各國事後分析表

第五題 總分

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0170 0000 1 2 0120 0913

3 0013 1000 3 -0330 0008

4 0220 0000 4 0320 0017

5 0081 0294 5 0230 0233

6 0150 0000 6 0600 0000

2 3 -0150 0001 2 3 -0450 0000

4 0052 0872 4 0200 0521

5 -0085 0348 5 0110 0949

6 -0013 1000 6 0490 0000

3 4 0210 0000 3 4 0650 0000

5 0069 0627 5 0560 0000

6 0140 0000 6 0940 0000

4 5 -0140 0008 4 5 -0087 0986

6 -0064 0514 6 0290 0023

5 6 0073 0354 5 6 0370 0000

Page 8: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較

VI

第三節 利用TIMSS 2003實作評量試題比較施測學校與原始施測資料的成

績差異65

第四節 實作評量試題的類推性84

第五章 結論

第一節 結論88

第二節 建議90

參考文獻

壹 中文部分92

貳 英文部分96

附錄

附錄一 TIMSS 2003參與的國家102

附錄二 題目103

附錄三 給老師的話113

附錄四 分析資料補充125

VII

表目錄

表 2-1-1 實作評量與紙筆測驗的比較17

表 2-1-2 各種評量類型的比較18

表 2-2-1 TIMSS 2003課程架構27

表 2-2-2 維京評分系統28

表 3-3-1 試題架構48

表 4-1-1 95年魔術師題組得分情形分配表50

表 4-1-2 89年魔術師題組得分情形分配表50

表 4-1-3 魔術師ㄧ獨立樣本t 檢定51

表 4-1-4 魔術師二獨立樣本t 檢定52

表 4-1-5 魔術師三獨立樣本t 檢定52

表 4-1-6 95年擲骰子題組得分情形分配表53

表 4-1-7 89年擲骰子題組得分情形分配表54

表 4-1-8 擲骰子一獨立樣本t 檢定55

表 4-1-9 擲骰子二獨立樣本t 檢定55

表 4-1-10 擲骰子三獨立樣本t 檢定56

表 4-1-11 擲骰子四獨立樣本t 檢定56

表 4-1-12 擲骰子五 a獨立樣本t 檢定57

表 4-1-13 擲骰子五 b獨立樣本t 檢定57

VIII

表 4-1-14 95年猜一猜題組得分情形分配表58

表 4-1-15 89年擲骰子題組得分情形分配表58

表 4-1-16 猜一猜資料統計59

表 4-1-17 猜一猜獨立樣本t 檢定59

表 4-2-1 各題型之相關係數61

表 4-2-2 班級對總分之變異數分析62

表 4-2-3 性別對總分之組別統計量與t檢定表62

表 4-2-4 性別對各題之組別統計量與t檢定表63

表 4-3-1 95 年圖形題題組得分情形分配表66

表 4-3-2 圖形題百分比同質性檢定66

表 4-3-3 圖形題題組各國答對率的比較67

表 4-3-4 圖形題各題之資料統整68

表 4-3-5 圖形題各題之變異數分析69

表 4-3-6 圖形題各題之事後比較70

表 4-3-7 圖形題總分變異數分析的結果71

表 4-3-8 圖形題總分事後分析72

表 4-3-9 95年數字卡題題組得分情形分配表72

表 4-3-10 數字卡題題組各國答對率的比較73

表 4-3-11 數字卡題各題之變異數分析74

IX

表 4-3-12 數字卡題之事後比較75

表 4-3-13 數字卡題總分變異數分析的結果77

表 4-3-14 數字卡題總分事後分析77

表 4-3-15 95年幾何方塊題題組得分情形分配表78

表 4-3-16 幾何方塊題題組各國答對率的比較78

表 4-3-17 幾何方塊題各題之變異數分析80

表 4-3-18 幾何方塊題各題之事後比較81

表 4-3-19 幾何方塊題總分變異數分析的結果83

表 4-3-20 幾何方塊題總分事後分析83

表 4-4-1 實作評量概化程度變異成分表84

表 4-4-2 G研究與各種D研究之變異成分分析與推論力係數87

表附錄 4-1-1 圖形題各國得分統計表125

表附錄 4-1-2 圖形題各國事後分析表126

表附錄 4-2-1 數字卡題各國得分統計表128

表附錄 4-2-2 數字卡題各國事後分析表130

表附錄 4-3-1 幾何方塊題各國得分統計表132

表附錄 4-3-2 幾何方塊題各國事後分析表134

X

圖目錄

圖 2-2-1 1995年到2003年4年級學生的數學趨勢31

圖 2-2-2 4年級學生在男女性別上的差異33

圖 2-2-3 1995 到2003年的男女生進退步情形34

圖 4-1-1 百分比圖表比較結果51

圖 4-1-2 百分比圖表比較結果54

圖 4-1-3 百分比圖表比較結果59

圖 4-3-1 圖形題題組答對率之比較圖67

圖 4-3-2 數字卡題題組答對率之比較圖73

圖 4-3-3 幾何方塊題題組答對率之比較圖79

1

第一章 緒論

本研究主題是利用 TIMSS 1999 跟 TIMSS 2003 的公開實作評量試題為測驗工

具比較探討台灣學生在這方面的進退步情形本章節將說明本研究的研究動機

與目的問題和研究中所用的特定名詞

第一節 研究動機 從民國八十二年民間團體發起了 410 教改大遊行迄今此波教育改革歷時 12

年最近因為中央研究院李遠哲院長在立法院接受立委質詢時對教育改革因為

沒有減少學生的壓力而公開道歉(中時電子報 2005)又引起了一陣教改失敗

的言論其實改革是多面向的學生的壓力固然是改革的重點但學生的程度更

是我們所關心的畢竟學生的程度關係著下一代的競爭力所以在國民中小學九

年一貫課程綱要(教育部民 92)中特別提到迎接二十一世紀的來臨與世界各

國之教改脈動政府必須致力教育改革期以整體提升國民之素質及國家競爭

力所以改革是為了回應社會期待以及國家發展的需求基於此項認知由中

央研究院國科會和教育部共同規劃的「台灣地區教育長期追蹤資料庫」(Taiwan

Education Panel Survey簡稱 TEPS)預計用六個學年國中樣本從 2001 年 9

月開始高中樣本分成 2001 年下半年和 2003 年上半年進行兩個梯次的資料收

集主要研究團隊包括六位中研院全職研究人員投入大量的時間與精力以及多

位大學相關領域之研究者積極參與可見這項工程的浩大與重要所以本研究主

要為利用一份已發展成且具有信效度及良好試題特性的國小數學實作評量題目

來進行施測其結果除了跟民國 89 年研究者徐美英的結果相互比較學生程度差

別外並為後續研究者提供相互比較的基準

國際教育成就調查委員會 (The International Association for the

Evaluation of Educational Achievement簡稱 IEA) 主辦的「國際數學與科

學教育成就趨勢調查」(Trends in Mathematics and Science Study 2003簡

2

稱 TIMSS 2003)是自 1995 年以來第三次主辦連續週期性調查學生的數學和科學

成就主要目的在提供各國長期追蹤學生數學和科學趨勢成就以提升學生數學

和科學的學習成效由此可見學生程度一向是國際重視的課題世界各國尤其

是美國不斷的監測自己國家學生的程度不僅僅與國際上各國進行比較並將

資料建檔也進行縱貫比較另外除了本研究所提的 TIMSS 是針對數學與科學外

還有PIRLS針對語文科進行比較PIRLS目前有2001跟2006年兩年資料而TIMSS

則已經有 199519992003 三年的施測2007 年的施測目前已經開始進行籌劃

TIMSS 2003 以 13 歲群(即國二生)和 9 歲群(即小四生)為調查對象國科會和

教育部體認到未來我國國民在國際上競爭力的重要性希望持續了解我國學生的

學習成就與家庭背景學習環境教師等影響因素的關係以及我國學生的學習

特色與優缺點並與其他國家進行比較提供改進我國中小學數學及科學教育政

策及課程之參考並積極參與國際間科學教育的交流與合作因此補助國立台灣

師範大學科學教育中心進行 TIMSS 2003 調查研究TIMSS 2003 從 2000 年九月

開始發展研究調查相關工作總計有 49 個國家參加其中 48 個國家參加 13 歲

群調查26 個國家參加 9歲群調查我國自 2001 年元月開始加入 TIMSS 2003 國

際調查工作包括提供命題架構意見數學和科學試題命題試測(field test)

資料收集參加專家問卷會議實測(main survey)資料收集參加公佈 TIMSS

2003 結果記者會國際成果指標會議國際資料分析會議等各項工作國內學者

引用 TIMSS 相關資料進行相關研究的有

(1)徐美英TIMSS 數學實作評量在台灣之試用探討(民國 89 年)

(2)洪瑞鎂從「第三次國際數學與科學教育成就研究後續調查」探究台灣國

二學生的數學基本能力(民國 90 年)

(3)洪佳慧由教科書內容與性別面向分析我國國二學生在第三次國際數學與

科學教育成就研究後續調查(TIMSS-R)的學習表現-生命科學以及環境與資源議

題部分(民國 91 年)

(4) 劉佳容我國國二學生在 TIMSS-1999 中之理化學習成就分析(民國 91 年)

3

(5)侯怡如由考試文化的角度分析我國學生在 TIMSS 1999 的答題表現----生

命科學部分(民國 92 年)

(6) 鄭心怡教育指標與經濟指標對學業成就影響之國際比較以 TIMSS 為例

(民國 93 年)

(7)羅珮華從「第三次國際科學與數學教育成就研究後續調查(TIMSS 1999)」

結果探討國中學生學習成就與學生特質的關係七個國家之比較(民國 93 年)

(8)顏秀玫我國小學四年級學生在「2003 年國際數學與科學教育成就趨勢調

查(民國 93 年)

(9)張謝玲宜蘭區某國中國二學生 科學成效影響因子之探討-引用國際調查

報告 TIMSS-R 之研究方法(民國 93 年)

綜觀上述國內學者研究的內容可以發現均重視該年段橫向的比較而缺乏

進行縱貫的研究值此世界各國進行教育大改革之際台灣也難免追隨這波改革

浪潮在課程內容與制度大變動之際學生是否保持原有的程度或甚至更好是

值得我們更加關注在國民中小學九年一貫課程綱要(教育部民 92)中針對

數學科明確提出下列四個原則一 參考施行有年且有穩定基礎的傳統教材

二 採用國際間數學課程必備的核心題材三 考慮數學作為科學工具性的特

質四 現有學生能夠有效學習數學的一般能力具體而言九年一貫數學學

習領域的教學總體目標為

(1) 培養學生的演算能力抽象能力推論能力及溝通能力

(2) 學習應用問題的解題方法

(3) 奠定下一階段的數學基礎

(4) 培養欣賞數學的態度及能力

其中國民小學階段的目標為

(5) 在第一階段(一至三年級)能掌握數量形的概念

(6) 在第二階段(四至五年級)能熟練非負整數的四則與混合計算培養流暢

的數字感

4

(7) 在小學畢業前能熟練小數與分數的四則計算能利用常用數量關係解

決日常生活的問題能認識簡單幾何形體的幾何性質並理解其面積與體積公

式能報讀簡單統計圖形並理解其概念

由以上的課程目標中可以清楚的看出數學課程的改革內容除了參考以往課

程內容之外也參考國際的課程內容進行改革並因為數學具有工具性的性質

具體的指出各階段需要具備的基本能力研究者希望透過已具有信效度及良好試

題特性的國小數學實作評量題目的施測一方面跟國際資料庫進行學生程度的比

較另一方面也跟徐美英TIMSS 數學實作評量在台灣之試用探討(民國 89 年)

在台灣施測的資料進行縱向比較以了解學生在這幾年的教育改革中在國小四

年級這個範圍內透過實作評量的方式評斷出來的能力是否有所差異

徐美英論文中指出其自編試題(猜一猜)學生能夠完整的敘述解釋百分比

僅達 549所以表示台灣學生在以數學語言的溝通上尚待加強而該試題與

TIMSS 試題有一定程度相關的是擲骰子繞過彎道和魔術師所以本研究研究者

打算選取其中 3 題(猜一猜擲骰子魔術師)找跟原論文相似的環境(住宅

跟工業混合區的學校)進行施測將兩項資料進行比較以探討在這樣的環境背

景中的學生經過這 5年的教育改革後對這個範圍內經由實作評量所測出來的

能力是否有所不同另外再從 TIMSS 2003 已公佈的實作評量題目中找出 3

題(幾何方塊數字卡圖形題)進行施測其結果跟國際資料庫進行比較進

一步探討這樣環境下的學生跟原始台灣施測資料中的學生是否有程度上的差

異跟國際上整體表現較好的國家學生的表現比較是否有程度上的差異

本研究測驗題目將從徐美英論文中選取 3 題從 TIMSS 2003 公佈的實作評

量試題中選取 3題並以 TIMSS 對實作評量採取的維京評分系統(又稱建構反應

評分系統Constructed Response簡稱 CR)為評分工具資料用 SPSS 進行分

析比較並以推論力理論推算本次施測的信度係數研究者希望能從施測中獲得

教育改革的成果從實作評量的角度是否是進步的並期待施測的資料能提供

未來需要再做類似研究者的比較基準

5

第二節 待答問題 壹探討特定環境背景的台灣國小四年級學生在民國 89 年與民國 95 年對

TIMSS 1999 實作評量的成績有何差異

貳探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 實作評量的

成績在性別及班級間是否有差異

叁探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 實作評量的

成績與台灣原始施測資料中的學生實作評量成績是否有程度上的差

肆探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 的實作評量

成績與國際上整體表現較好國家的學生實作評量成績是否有程度上

的差異

第三節 名詞釋義

壹實作評量

在教室情境中學生有幾類學習行為及其成就表現是無法用客觀式紙筆測

驗來正確評量出來的這些學習行為表現包括

(1)溝通技能(如說話口語表達演講朗讀寫作等)

(2)心理動作技能(如實驗室內的儀器操作書法打字繪畫工藝烹

飪樂器演奏戲劇表演等)

(3)運動技能(如跑跳直球游泳舞蹈等運動技能)

(4)概念應用(如應用所學的概念和知識解決日常生活所遇到的實際問題)

(5)情意特質(如團隊合作遵守規定自我反省等)

這些都是強調實際的表現行為(actual performance)都需要教師根據學生的

表現過程之有效性或最後完成作品的成果品質分別或合併地進行評分才能決

定學生在這方面學習的成就高低這種強調實際表現行為的評量方式稱為「實

6

作評量」(performance assessment)(余民寧民 93)所謂實作評量就是在自

然或已建構好的環境中要求學生執行或處理(process)一件指定的工作並

由教師觀察或評鑑學生的建構性反應的過程與結果看他們是否適當精確和完

美的達成教學目標(歐滄和民 91)

貳TIMSS

國際數學與科學學習成就調查研究係由國際教育學習成就調查委員會主

持主要目的在於了解各國數學與科學學習成就與各國文化背景教育環境影響

因子之相關性並進一步做國際間之比較研究分析第一次國際數學與科學教育

成就調查於 1970 年舉行共有 19 個國家參與經十年後1980 年進行第二次國

際數學與科學教育成就調查(SIMSS)有 24 個國家參與我國曾於 1987 年 5 月

經 IEA 總部同意引用第二次國際數學與科學教育成就調查工具在我國進行測

驗(但不是正式參加)由國立台灣師範大學科學教育中心負責執行以了解我國

國小國中及高中學生數學及科學成就在國際上所佔的地位IEA 自 1990 年開始

推動進行「第三次國際數學與科學教育成就研究(Third International

Mathematics and Science Study TIMSS)」本計畫有四十餘國參加第三次國

際數學與科學教育成就研究後續調查(稱為 TIMSS REPEATTIMSS-R)於 1999 年

舉辦調查對象為國二學生(13 歲群)共有 38 個國家參加鑒於世界各國對國

際數學與科學教育成就研究的熱烈反應IEA 計劃往後每四年辦理國際數學與科

學教育成就研究一次並改名為國際數學與科學教育成就趨勢調查(Trends in

International Mathematics and Science Study 簡稱 TIMSS )TIMSS 2003

的調查對象包括國小四年級及國中二年級學生TIMSS 的測驗內容包括數學跟科

學並從學生教師和校長們的回答中廣泛地蒐集有關數學跟科學教學與學習資

料另外還經由課程指引教科書和其他教學媒體的分析探討參與國家的數學

7

和科學課程並將結果發表成一系列的國際報告讓參與國家的教育政策制定者

和實務工作者得到有關在數學與科學教學上跟學生學習成就上的珍貴訊息

第四節 研究限制

本研究對於整個計畫的擬定與進行過程中由於在時間上與人力上尚有所不

足的影響以至於對本研究的進行有所限制茲分別就研究工具與分析研究樣

本與應用範圍兩方面說明之

壹研究工具與分析

在 TIMSS 2003 試題部分由於是翻譯試題照理應該經專家學者進行反譯

程序以確保試題的原意未被扭曲但因資源限制所以只經國小專任資深英文

教師與研究者討論而定案

貳研究樣本與應用範圍

因人力與時間的限制只能選擇一間學校來實驗因樣本受限於某一學校

所以本研究的結果與建議限制受限於相同類型的學校

8

第二章 文獻探討

本研究的文獻探討將分成三節第一節為探討實作評量的意涵和特色以及

國內相關實作評量的研究第二節為 TIMSS 的簡介及國外相關的研究第三節為

TIMSS 試題與國內數學課程的分析

第一節 實作評量

壹實作評量的緣起

長久以來多數人將評量窄化為紙筆測驗的考試用考試的成績來論斷一個

人的高下使得評量的目的偏狹方式單調內容枯躁意義盡失再加上過度

倚賴標準化測驗常導致課程窄化且易流於基本技能與片面瑣碎事實的學習忽

視複雜思考和問題解決能力(江文慈民 87詹志禹民 85)簡言之考試第

一分數至上的迷思等於將評量窄化了也扭曲了評量的目的更簡化了評量

的結果事實上考試只是評量的方法之一評量的目的是要提供學生有益的回

饋評量的改革意味著教學與課程發展的改進因此在教育改革中教師要採

用新的評量方式以符合教學的新趨勢評量的意義在於了解學生學習與教師教

學之用其主要的目的是在教育的過程能隨時掌握學生的學習讓教師明白教

學情況藉以發揮教育的效率與效能實作評量受到歡迎的主要原因之一是一

般人對於選擇式的測驗題感到不滿意例如選擇式的測驗題只能測量學生「知

道」什麼但無法測量學生「能做」什麼此外認為以選擇題為主的標準化測

驗對於教師的教學和學生的學習造成一些偏差的影響標準化測驗經常是一般家

長用來評估學校教學績效的方式在績效的壓力之下造成部分教師教學側重於

測驗的內容而扭曲了教學的面貌和窄化學生的學習結果在教育改革的推動

上教育界期望藉著評量的革新來提升教師教學的品質和學生學習的成就此

外一些入學考試和證照考試也在原有的選擇題之外增加建構反應題或實作測

9

驗部分實作評量在教育界和測驗界已是一個非常顯明的趨勢Silver(1993)

認為假如我們沒有將看過或聽過的數學留住那它將永遠不會變成我們的知識

所以實作評量吸引人的地方正在於它讓教師更能洞悉學生的思考並將所得的訊

息直接應用在教育計畫中

實作評量的提倡者主張實際工作的評量模式比紙筆測驗更能充分深入的了

解學生的知識和理解程度(Haertel amp Linn1996)以下將各學者對實作評量

的定義整理概述如下

一以觀察和專業判斷來評量學生學習成就的評量方式都可以稱為實作評量其

型式非常的多元化例如建構反應題書面報告作文演說操作實驗

資料蒐集作品展示等都是實作評量的例子( Stiggins 1987 )

二案卷評量也是實作評量的一種型式實作評量具有下列幾點特徵

(一)要求學生執行或製作一些需要高層思考或問題解決技能的事或物

(二)評量的作業( tasks )是具有意義性挑戰性且與教學活動相結合

(三)評量的作業能與真實生活產生關聯

(四)歷程( process )和作品( product )通常是評量的重點

(五)表現的規準( criteria )和標準( standards)-也就是評量的重

要層面與給分標準要事先確定實作評量有時也被稱為真實性評量

(authentic assessment )( Herman Aschbacher amp Winters 1990 )

三實作評量可視為『以超越傳統評量方式為了解學生熟練度而蒐集資料的一

種評量方式』(DnubarKoretz amp Hoover1991)

四實作評量不僅反應出學生解答的正確性同時也顯現出其得到答案的過程

(Ruiz-primoBaxter amp Shavelson1993)

五實作評量是應用各種評量方式評量各種能力及技巧要求學生展示知識的

應用而非僅展示知識的本身(Long amp Stansbury1994)

六實作評量乃是模擬一些標準情境(亦即是在自然情境下的實作)之測驗其

10

模擬的程度高於一般紙筆測驗所代表者(陳英豪吳裕益民 85)

七實作評量係指根據學生實際完成一項特定任務或工作表現所作的評量這些

任務或工作可能是實際操作口頭報告科學實驗數學解題寫作hellip等

因此其所使用的方式係透過直接的觀察學生表現或間接的從學生作品去

評量(吳清山林天祐民 85)

八凡是以學生在評量過程中的表現或成果作為評量的依據再根據教師的判

斷用事先指定的標準來評定等級的評量方式都可稱之為實作評量(夏

淑琴民 88)

貳實作評量的特色

綜合國內外學者觀點實作評量具有以下特色

一銜接教學與評量教學與評量的密切配合可以對學生的學習情形提供較全面

性的完整的深入的訊息此訊息可以幫助老師更了解學生的學習優勢及

問題掌握學生真正的能力及進步情形使老師能在教學上做適當的調整來

幫助學生解決問題提升其學習水準而惟有重視過程的評量學生才有機

會去反思自己學習上的問題省察如何在學習上求進步而這些也才是真正

的學習

二使學習更有意義更深入強調教學與評量的內容應為重要的完整的概念

而非瑣碎知識的累積應重視思考與問題解決能力的培養而非低層次的記

憶與歸納它的目的在幫助學生獲得完整有意義的概念增進表達技巧及

運用策略的能力並激發學生從事較複雜的深層思考所以實作評量著重脈

絡下有意義的學習在教學與評量的過程中它鼓勵學生主動探索深入思

考並表達學習此種評量方式有助於提升學生的思考及問題解決能力使

學生的學習更有意義更為深入

11

三強調學生知道什麼能做什麼實作評量的重心不在於偵測學生哪裡做錯了

而在於強調學生知道什麼能做什麼及如何再進一步知道得更多做得更

好簡言之其精神是「你會做很多事你還可以學會更多事」對於學生

嘗試去做好某一件事的努力(縱然尚未達到預期的目標)也給予正面的回

饋以學習理論而言較符合學習理論中的公平性或正當性亦即努力是有

收穫的

四強調與實際生活的結合實作評量可以讓教師瞭解學生對問題瞭解程度投

入程度解決的技能和表達自我的能力能夠較完整的反映出學生的學習結

果因為實作評量與真實生活較為相近其支持者認為實作評量能夠增進學

生學習的動機提高學生參與和投入的程度

五幫助學生建構有意義的學習情境發展問題解決能力批判性思考和表達自

我的能力

六有時候實作評量也可以做為一種教學策略提高學生的學習興趣和學習結

果評量和學生的學習以及老師的教學應該是密不可分並且互相支援的評

量的目的是幫助學生學習跟老師教學所以評量應該是自然的融入出現在

課堂而不是強制性的加進課堂上實作評量與實際教學過程有相當密切的

關係往往可以成為實際教學的一部份實作評量本身就是一種有效的教學

活動

七鼓勵合作學習許多文獻顯示合作學習可以提高學生的學習成就增強學

生的理解能力藉由溝通與辯論的過程學生可以重述自己的概念架構和知

識體系以促成有效的概念改變並達到有意義的學習在一個小組合作評

量的情境下藉由同儕的誘導和鼓勵彼此意見的分享並相互進行共同評

量是提高學生成就表現的重要機制

八直接評量排除語文能力的干擾實作評量比較不需要用到語文能力這對

於閱讀或文字表達能力較差的學生而言是比較公平的

12

叁實作評量的目的

Webb(1992)認為一個好的評量應具備四個目的第一個目的是成為教師蒐

集資料的工具透過評量的回饋教師可以知道學生學會多少和能做什麼第二

個目的是要表達學生在學習過程中所做所學的哪些東西是有價值第三個目的

是提供教育決策者一些教學績效之訊息最後的目的評量應該對整個教育體系

提供積極之建議(張敏雪民 86)雖然評量方式會因不同的評量目的而有所

不同然而現行的紙筆測驗過於強調排等第忽略了評量原先之目的教師只

教要考的學生只讀要考的成了所謂「考試領導教學」然而二十一世紀的

國民不是只會在試卷作答的人而是要有「分析預測及適應能力的人」簡而

言之就是能為生活而思考的人(曾慧敏民 87)實作評量重視教育過程本身

的價值和學生主動建構的能力因此重視學生學習過程和結果讓學生有意義

的學習使學生能靈活應用所學不僅評量認知層次也評量技能及情感層次

較傳統的紙筆測驗更能蒐集到學生較豐富的學習訊息

實作評量的目的如下(桂怡芬民 85曾慧敏民 87 Linn 2000)

一檢視學生學習成果是否能達到教學期望的結果

二從評量的結果能清楚交代學生的學習成就

實作評量能直接觀察學生到達結果的過程不只是評量答案之正確性能完

整的呈現學生在複雜能力及歷程上的表現並能依表現推論其構念表現

三藉由此評量可展現學生的技能和能力

實作評量除了能直接的測出學生問題解決的歷程與結果也能展現出高層次

認知情意與技能及後設認知等能力

四使得教學與評量能充分配合

實作評量注重與教學的互動其主要的目的為幫助學生的學習與改進教師的

教學

13

五為課程改革的重要指標

因實作評量標榜著可提升學童高階思考與問題解決的能力因此在教育改革

時備受重視

肆實作評量步驟

實作評量強調在和生活相關的情境下能讓學童展現所知所學的能力來解

決問題然而若是活動或作業設計不夠完整評分規準不夠明確等都可能導

致實作評量無法達到預期的目的(鄒慧英民 87)因此應如何設計出一份好

的實作評量試卷呢(Stiggins 1994)以下提出幾個注意要點

一確立設計評量的原因與目的

評量之所以實施一定有其原因包括確定評量結果所要作的決定例如

分組個別鑑定等第評定與優缺點的診斷等接著考量評量結果是否用於「排

名」或用於決定學生否達到精熟水準

二設計實作評量的內容

(一)選擇作業的形式

可以蒐集教室中自然而然發生的事件也可以設計結構化作業引發

學生表現的機會測出學生真實能力的實作評量

(二)決定評量的實施情境

因為怕受試者的動機與考試的焦慮可能影響學生的真實能力之表

現施測者可考慮事先告知學生相關評量的性質與評分標準因此在一

般的測驗情境下應先觀察受試者的焦慮情形再決定是否事先告訴受試

者評量事宜或採取不事先告知以測出學童最大的表現能力本研究採取

後者

(三)確定所要編製的實作試題數

14

決定實作題目數量應考慮評量的作業是否具代表性蒐集到的證據數

量是否可以提供較精確的學生能力思考層次

三確定實作評量成績計分標準

(一)決定分數的型式

如果評量的目的是做為分組或選擇的依據則可採整體性評分若是

診斷或檢定學童的基本能力可採取分析性細部評分本研究為診斷學童

分數的學習能力採用開放式的結構題型由學生自行建構答案因此

根據不同的答案給予不同層次的分數

(二)選擇評分者

評分者可為教師專家同學或受試者本身但基本上所有的評分

者得先接受專業的評分者訓練使每個人對評分歸準有所共識本研究請

已有五年以上之教學經驗的教師擔任評分者

(三)紀錄評分結果的方法

可採用檢核表評定量表軼事紀錄表等評定量表同時呈現了觀察

項目及分數評比常用於歷程與結果之評量適用於各學科之實作評量

本研究採用評定量表來紀錄評量結果總之發展實作評量時首先需

澄清「教學目標」與「評量的目的」是必要的其次「評量內容」或「評

量對象」取樣的代表性更是影響評量效度的重大因素最後清楚的「評

分規準」與完整的「評分者訓練」及詳細的「評分程度」則是影響評量的

信度唯有如此才能獲致高品質的實作評量(鄒慧英民 86)

伍實作評量的限制

一實施上非常耗費人力時間跟金錢

真正在實施實作評量時通常會受到器材跟場地的限制或是因為擔心產生相

15

互干擾因素而一次只能有限個學生同時進行施測這點跟團體施測的紙筆測驗

相比是非常耗費人力跟時間另外實作評量常需要有器材設備以及消耗性材料這

點跟團體施測的紙筆測驗相比是非常耗費金錢

二測驗情境控制困難

由於不是同時全體施測所以先後受測的學生容易相互干擾而且未受測

的學生跟已受測的學生的交談或傳授經驗也影響到考試的公平性加上前後施

測使得後面的同學很難有一致的施測條件例如場地未乾淨儀器未復原或被

損壞等

三計分不容易客觀

實施實作評量的目的不外乎想根據評量結果來為學生做決策因此獲

得一個正確而又可靠的評量結果(即高信度跟高效度值)便成為一件很重要的

事然而很不幸的實作評量如論文評分一樣由於是使用觀察跟判斷等兩類比

較主觀的評分方式來進行所以其結果難免具有很高的評分者誤差存在一般而

言評分者誤差有三種來源偏見月暈效應跟評量次數過少

四對容易焦慮的學生不利

實作評量的正式性與控制性會使得缺乏自信心或很在意他人評價的學生

產生過度焦慮進而影響其表現

陸實作評量的信效度

實作評量的信效度仍有待探討實作評量的信度通常是以概化程度

(generalizability)來描述(BaxterShavelsonGoldmanPine1992Dunbar

et al1991LinnBakerDunbar1991Linn1993Moss1994Ruiz-Primo

et al1993ShavelsonBaxterGao1993)概化程度包括評分者之間一致

的程度以及學生在不同工作項目(task)表現的一致程度(Shavelson et

16

al1993)根據 Shavelson 等人的研究結果發現實作評量在評量工作項目方面

的概化性較低顯示學生在不同工作項目上的表現有較大的差異在效度方面

實作評量所顯露出的問題有以下三個

一客觀性及公平性實作評量通常僅以一個評分者評定學生的表現所以

評量的結果可能過於主觀或有潛在的偏見(bias)問題(Airasian1991

Frechtling1991Linn et al1991Linn1993)

二評量內容的涵蓋性由於實作評量實施方式及時間的限制通常所評量

的學生行為表現較傳統測驗為少即評量內容的涵蓋範圍較小不易獲得學生行

為的適當樣本(Airasian1991Linn et al1991Linn1993)

三成本及效率問題這部份即時間與經濟的考量Linn 等人(1991)Linn

(1993)及 Messick(19941995)將這一點併入實作評量的效度標準

Baxter 等人(1992)Ruiz-Primo 等人(1993)及 Shavelson 等人

(199119921993)均從概化理論(generalizability theory)的觀點出發

採用取樣架構(sampling framework)來分析實作評量的信度(概化性)探討

評分者間評量項目間評量時間等的取樣變異以及其他潛在的誤差來源他們

針對神秘的電路盒(electric mysteries)毛細現象(paper towels)及小蟲

的習性(bugs)等評量項目採專家觀察(expert observation)實驗筆記

(notebook)電腦模擬測驗(computer simulation test)及紙筆測驗等方式

記錄學生的表現研究結果發現與評分者有關的取樣變異不大評量時間的取

樣變異極小而評分者與受試者間的交互作用(ratertimesperson interaction)和

評分者與評量項目的交互作用(ratertimestask interaction)這兩個部份的變異也

幾乎為 0故他們認為只要一個經過良好訓練的評分者(one well-trained

rater)即可用以評定學生在實作評量上的表現但他們發現在實作評量中評

量項目與受試者及該兩者與時間的交互作用是兩個最大的變異來源研究結果顯

示學生的表現因為工作項目的不同而有極大的差異而這樣的變異在不同時機上

17

更是明顯因此欲提高實作評量結果的一致性必須增加評量的工作項目使得以

學生在實作評量上的行為表現做其能力的推論時能夠降低與學生實際能力無關

的變異

Baxter 等人(1992)及 Shavelson 等人(19921993)主要是從評量對學生

能力的鑑別程度不同評量方式間的輻合效度不同特質及方法間的區辨效度等

三方面探討實作評量的效度他們的研究結果顯示不同的測量方法所得到的結果

並不一致Shavelson 等人(1993)發現在同一個工作項目之下不同的測量方

法中實驗操作與實驗記錄的相關最高實驗記錄與紙筆填充測驗及電腦模擬測

驗與紙筆填充測驗之間的相關最低這是因為實驗操作與實驗記錄為同一思考流

程所以相關較高此外他們也發現受試者與工作項目及測量方法間的交互作

用及誤差是變異的最大來源表示不同的測量方法可能是在測量科學成就的不同

面向(Shavelson et al1993p227-229)最後在不同工作項目之下採用

相同或不同測量方法所得到的相關的確較低顯示實作評量具有區辨效度

柒實作評量與其他評量的比較

大體上實作評量具有下列各項功能(Airasian 1994)茲列表如下

表 2-1-1 實作評量與紙筆測驗的比較

實作評量 紙筆測驗

學生把知識轉化成可觀察的表現行

為或成品的能力 主要涉及學生的知識及資訊的獲得

設計及施測費時但評量表可針對

同一或新的學生重複施測

設計費時但可同時施測許多學生

同組學生僅能使用一次

學生表現不佳可予診斷及補救

可監控學生進步實況

除論文式及開放式數學題之外甚少

提供方向指示如何改進表現

教學首重表現及過程 教學重內容知識

資料來源Airasian (1994) P236

18

表 2-1-2 各種評量類型的比較

客觀式測驗 論文式測驗 口頭發問 實作評量

目的

以最大的效率

及信度測驗

代表性的知

評估思考的技

巧及知識結構

的瞭解程度

教學時評估

知識

評估知識及瞭

解化為行動的

能力

學生的

反應

閱讀評量

選擇 組織寫作 口頭回答

計劃建構

及表達原始的

反應

主要優

效率在測驗

時間內可測驗

到許多項目

可測量複雜的

認知結果

使評估與教學

結合

提供充分的表

現技巧

對學習

的影響

過度強調回

憶鼓勵背誦

記憶如能適

當出題可促進

思考技巧

鼓勵思考及寫

作技巧的發

刺激學生參與

學習提供教

師立即回饋了

解教學是否有

強調運用知

識技巧於實

際的問題情

資料來源Airasian (1994) P229 et ls

捌實作評量相關研究

國內有許多探討實作評量設計的可行性研究以下將就國內學者所做的研

究整理說明

一陳文典陳義勳李虎雄簡茂發(民 84)美國馬里蘭州學校實作評

量國際共同研究計畫

將 MSPAP(the Maryland School Performance Assessment Program)的

19

試題轉譯成中文在國內進行小規模的施測藉以了解這種測驗的功能

使用上的時機及應用上的困難在其對我國五年級學生施以數學理化

和生物等實作評量題目後發現此種測驗模式能遍及各項科學能力我

國學生在回答問題時顯示其傳達與獨立作業能力均不足其評分客觀

的標準化可經由評分者講習的培訓達到目標實作評量可適用於平時作

業學生的科學能力競賽或教育行政單位的各校科學教育教學成效評鑑

等時機

二徐美英(民 89)TIMSS 數學實作評量在台灣之試用探討

(一)TIMSS 試題在台灣之施測具有信效度

(二)台灣四年級學生在 TIMSS 實作評量的表現顯著優於美國和香港地

區的學生

(三)TIMSS 試題在台灣之施測在男女生之間和班級間在總得分並

沒有顯著差異

(四)自編之試題猜一猜與 TIMSS 試題擲骰子繞過彎道

和魔術師有一定程度的相關

三洪之昀(民89)數學科實作評量對國小高年級學童學習策略影響之研究

(一)學生認為實作評量能增加對數學內容的了解提升學習興趣發

現數學的有趣擴大學習範圍並兼具情意評量的功能但也有學生認

為實作評量在實施上太麻煩且費時

(二)學生批判思考數學溝通數學表達的能力有待加強

(三)學生具有多方面的潛能亟待以實作評量的方式加以開發

四詹元智(民 91)國小數學科實作評量之效度探討

採準實驗研究設計的方式進行以屏東師範學院附屬小學六年級兩個班

的學生為研究對象一班為實驗組接受為期二個半月的數學實作評量

另一班為對照組接受傳統數學紙筆測驗的評量研究者於實驗前與實

20

驗後對兩組學生施以「傳統數學紙筆測驗」「數學實作評量」及「數學

學習解題態度」等三種測驗的前後測並對部份學生進行「數學實作

評量前後測的放聲思考訪談」概化性研究的分析結果顯示在一位評分

者及一題作業項目上之評分者間的變異相當小(319)不過分數的變

異有相當大的比例(約 50)是來自作業項目間及作業項目與受試者交

互作用的變異而在二位評分者及五題作業項目之概化性係數可達 08

以上顯示該研究之數學實作評量的結果能有效地推論至學生在其他評

分者及實作評量作業上數學問題解決的表現

五李長柏(民91)國小數學簡單機率解題實作評量與後設認知之相關研究

(一)數學解題實作評量具有良好的信效度

(二)本研究結果顯示具有良好的評分者信度

(三)數學解題能力和後設認知能力具有相關性

(四)性別在數學解題能力和後設認知能力上沒有差異

六王秀琲(民 92)實作評量在國小數學科之應用-以五年級學童分數為例

(一)實作評量能實際測出學童的分數概念在分割活動上連續量比

離散量好在表徵轉換上具體操作轉換符號模式為佳圖形轉換符號

模式較不理想分割策略會因情境的不同而使用較為簡便的方式來

解題

(二)從實作評量中學童能展現自行所建構的解題策略所獲得的訊

息比紙筆測驗多

(三)以 SS 分析法來分析實作評量之試題所呈現的試題關聯結構圖

中可以了解等分和連續量的分割活動是學童最易理解的概念而離散

量分割等值及單位量則是學童最難理解的概念

七張永杰(民 92)實作評量取向的幾何思考研究

(一)年級之幾何水準層次分佈情形有統計上的顯著差異存在年級

21

越高屬於高層次水準的學生越多

(二)當受試學生通過某一水準層次n的考驗但卻未能通過之前的任

一水準層次的考驗則稱為逆序現象有 697學生之幾何層次分佈呈

現逆序的情形

(三)學生不同 van Hiele 水準層次在後設認知能力上表現出顯著差異

(四)順序組學生能力值越高集聚的情形越明顯結構越完整逆序

組學生的概念結構比較少集聚呈現零散不完整的結構

(五)順序組能力低的學生所形成的關連結構比較零散而且概念間

的關聯程度不高能力越高的學生其關連結構概念問題結構化比較明

顯而且上下位觀念比較顯著逆序組學生的關連結構不但呈現零散不

完整的結構且關連結構圖中上下位觀念的情形比較不規律顯現其

概念結構比較雜亂

八林敬修(民 92)影響國小數學科實作評量信度相關因素之類推性理論

分析

(一)影響數學科實作評量分數一致性的主要變異來源為受試者與作業

項目交互作用(ptimest)變異其次為受試者(p)變異再其次為作業項目(t)

變異

(二)在評分者數學知能背景及評分者訓練對數學科實作評量分數一致

性的影響方面評分者的給分一致性因評分者數學知能背景及評分者訓

練而不同

(三)在題目結構度對數學科實作評量分數一致性的影響方面跨不同

結構度之作業項目對分數一致性的影響遠大過於跨相同結構度之作業項

目對分數一致性的影響此外不同數學知能背景及評分者訓練的評分

者在不同結構度的試題給分一致性上也有差異

(四)整體而言各評分組別的評分者一致性因評分向度之不同而有差

22

異其中以在「溝通表達」此一評分向度上的評分者一致性最低

九呂政隆(民 93)國小學童在數學實作評量解題整合認知與課程之相

關研究

運用實作評量的方式分別在九十學年度九十三學年度對五年級學生

施測以探討學生的數學解題與整合認知能力之相關性進而探討性別

課程在數學解題與整合認知能力上是否有顯著差異研究結果顯示實施

九年一貫課程後之九十三學年度整合認知中能力組在本研究之四份實作

評量之數學解題能力明顯低於九十學年度實施八十二年版國民小學課程

標準之數學解題與整合認知能力組

十石千奇(民 93)國小六學童在數學實作評量中的小組解題歷程分析

解題歷程模式受同儕討論的影響小組解題是四個人四條思考路線互相

牽引的結果解題歷程模式受操作實物的影響操作實物會影響解題階

段進行的走向小組成員並非全程參與解題歷程會因為題目的難易

互動過程階段性質等因素的影響而未能全程參與小組解題的階段變

化各行其道在各個解題階段的參與變化沒有一致性的發展操作實物

對各個解題階段皆有影響各產生不同的作用小組成員喜歡在實作評

量中以小組解題的模式解題覺得這樣的評量方式可以幫助解題

因此建議數學教師多採用以四人為一個小組在形成性評量中以小組

解題的方式進行實作評量

十一曲慧娟(民 94)實作評量在國中學術性向優異班招生鑑定之效度研

究~以臺灣北區為例

(一)錄取組和未錄取學生在入學後成就表現的差異分析顯示英文組

達顯著水準 (t=6159plt05)數理組未達顯著水準

(二)實作評量錄取學生在入學後之特殊表現的訪談結果發現各組學

生在發表能力競賽檢定檔案成果上的參與興趣濃厚也比較有所發

23

(三)受訪教師學生及參加座談會的教師們對實作評量的看法和意

見主要有下列重點

1命題是最大的困難各校命題均請專家學者指導師生都反應覺

得題目的品質不錯題型也很有創意和其它測驗不一樣但自然

科實驗器材的準備耗時費工是很大的負擔因此很多學校選擇用資

料分析的題目類型避免實驗操作器材準備的困擾

2實施程序上時間說明器材提供均適宜但場地的考量較多

如實驗位置的區隔語文施測時需安靜的場所等監考過程也是爭

議較多的如學生覺得監考老師應多幾位老師的尺度不同等

3受訪學生指出實作評量的應答方式和以往參加過的測驗有很大

的不同但都持肯定態度同時覺得語文表達能力會影響到實作評

量的成績

4各校評分都採集中閱卷的方式評分標準爭議性得分大都透過

閱卷老師討論後取得共識再給分

5目前各校在鑑定學生時決策的標準不一因此反應意見差異頗

大但從訪談資料發現受訪學生及教師都較支持運用初試複試

成績加權計算作為選擇學生的標準

6受訪教師表示學生入學後的表現和以往相較起來沒有明顯的

差異但在科展競賽檢定發表上的熱誠度較高

7學生的訪談結果發現大多數學生覺得實作評量可以測出他們在

學術性向上的能力或天份

8實作評量的保密情形比其它測驗要好很多但坊間仍有業者猜

題補習受訪學生及老師也表示有模擬實作或補習經驗者對

實作表現或多或少有影響惟一沒有保密困擾的是國文組

24

十二陳怡玉(民 94)降低國小數學科實作評量人和作業交互作用變異方

法的探討---以類推性理論分析

(一)由於分層變項選取不易導致「作業分層」無法有效降低人和作

業交互作用的變異

(二)「以圖表組織圖為鷹架」可以降低人和作業交互作用的變異

(三)「以圖表組織圖為鷹架」比「作業分層」更能讓人和作業交互作用

的變異降低

(四)進行「作業分層」的比較時實作評量的類推性係數和可靠性指

標以同一階層的作業採 ptimesTtimesR 設計最高但屬分層之 ptimes(TS)timesR 設計

卻低於作業未分層時的分析(即採作業 1234 的 ptimesTtimesR 設計來分

析)

(五)「以圖表組織圖為鷹架」能提高實作評量的類推性係數和可靠性指

十三蔡正濱(民 95)國小數學科實作評量評分者ㄧ致性相關因素探討

(一)影響數學科實作評量分數一致性的主要變異來源為受試者與作業

項目交互作用(ptimest)變異其次為受試者(p)變異再其次為受試者

作業與評分者三者之交互作用及誤差(ptimesttimesre)的部分

(二)在使用不同類型及等級數的計分規準對評分者間一致性的影響方

面在 ptimesttimesr 類推設計下不分計分規準種類與評分者有關的變異量

(含 rptimesr及 ttimesr 三者的總和)均相當小幾乎接近 0而在 ptimesr 設

計的整體類推性相關係數及給分差異比例方面分析式計分規準優於

整體式計分規準在不同等級數方面ptimesttimesr 類推設計中與評分者有

關的變異量及整體類推性七等級計分規準略佳但差異性不大在 ptimesr

設計的整體類推性相關係數及給分差異比例方面七等級計分規準優

於四等級計分規準其中又以使用整體式計分規準及評定高複雜度試題

25

時較為明顯

(三)在不同複雜度作業對評分者間一致性的影響方面低複雜度試題

的一致性高於高複雜度試題顯示評分者面對受試者在高複雜度試題的

作答反應時出現給分較不一致的情形最後受試者是否具備實作評

量計分規準之經驗對評分者間一致性的影響方面在低複雜度試題兩

組受試者之評分者一致性的差異性不大在高複雜度試題 A 組評分者

一致性大致高於僅具實作評量經驗之組別 B組而 AB兩組受試者的評

分者一致性差異程度在分析式計分規準上低於其在整體式計分規準之

差異程度

第二節 第三次國際數學與科學教育成就研究

由國際教育成就調查委員會(The International Association for the

Evaluation of Educational Achievement簡稱 IEA)主辦的「國際數學與科學

教育成就趨勢調查」(Trends in Mathematics and Science Study 2003 簡稱

TIMSS 2003)」是目前有關國際間對學生成就的調查研究中規模最大的一項調查

該測驗採取全世界合作模式主要單位有

一國家研究協調中心(National Research Coordinators)國家研究協

調中心負責選擇學校樣品 收集資料 計分標準和資料輸入 和準備研究結

果的一個國際報告

二TIMSS amp PIRLS 國際研究中心(在波士頓學院)(TIMSS amp PIRLS

International Study Center at Boston College)國際研究中心(ISC) 負責

TIMSS 的整體設計發展和實施這包括建立規程監督工具發展舉辦訓練

ISC 進行分析並且在國際報告和用戶資料庫中發布研究結果

三IEA 秘書處(IEA Secretariat)總部設在荷蘭的阿姆斯特丹IEA 秘

書處負責提供整體支持監督籌款和協助參與國家協調參與 TIMSS 的國家取得

26

測驗工具的翻譯證明

四IEA 資料處理中心(IEA Data Processing Center)IEA 有它自己的

資料處理中心位於德國的漢堡資料處理中心(DPC)負責處理和核對從所有參與

國家得到的資料和建立國際資料庫

五統計(Statistics Canada)在加拿大的渥太華負責 TIMSS 的所有採

樣活動包括開發取樣步驟和文獻和協助參加者能符合 TIMSS 的採樣設計

六教育測試的服務(ETS)(Educational Testing Service (ETS))ETS 為

TIMSS 成就測驗資料提供軟體和心理測量的支持 ETS 總部設在新澤西州的普

林斯頓

TIMSS 2003 是 IEA 自 1995 年以來第三次主辦連續週期性調查學生的數學和

科學成就主要目的在提供各國長期追蹤學生數學和科學趨勢成就以提升學生

數學和科學的學習成效TIMSS 2003 以 13 歲群(即國二生)和 9 歲群(即小四生)

為調查對象從 2000 年九月開始發展研究調查相關工作總計有 49 個國家參

加其中 48 個國家參加 13 歲群調查26 個國家參加 9歲群調查測驗的內容

包括數學和科學並從學生教師和學校的問卷回答中廣泛的搜集有關數學和科

學的教學和學習資訊並經由課程指引教科書和其他教學媒體的分析探討參

與國家的數學和科學課程以提供參與國家的政策制定者和實務工作者有關教學

和學生學習成就方面的珍貴訊息而技術報告和完整的國際資料庫也一併出版公

TIMSS 試題的編製流程是先製訂課程架構在根據課程架構編製成就測驗

而此課程架構是由一群來自 TIMSS 國家研究協調中心(TIMSS National Research

Coordinator)的數學和科學教育專家所發展出來的在 TIMSS 2003 的課程架構

中共分為兩個向度內容領域跟認知領域詳細內容如表 2-2-1 所示

27

表 2-2-1 TIMSS 2003 課程架構

數學 科學

內容領域 內容領域

數 生命科學

代數 化學

測量 物理學

幾何學 地球科學

8

級 資料

8

級環境科學

數目 生命科學

模式等式和關係 自然科學

測量 地球科學

4

級 幾何學數據

4

認知領域 認知領域

知道事實和程式 事實的知識

使用概念 概念的理解

解決日常問題 推理和分析

推理

第4年級代數內容領域被叫為模式等式和關係

其中在實作評量方面設計的原則是依照實用的可負擔的和容易翻譯成

多國語言和文化原則所設計的透過預試時取得評分指南包括正確的答覆跟不

正確答覆的描述及給分標準其評分系統採用維京評分系統以表格說明如下

28

表 2-2-2 維京評分系統

第一個碼

  2 類型的 CR 項目(分數碼)

(1) 2 分(外延反應評分)

2 分完整無誤

1 分部分對

(2) 1 分(問答)

(3) 0 分7-9

2 分

1 分

第二個碼

  診斷訊息碼

0-5表出現之頻次類次配合參數碼標之

如 20-2510-1570-75

9 為其他無特殊類別

  如 291979

78=自個兒ldquo診斷碼(國家碼 可自選)

  99 為空白

  79(Erases)

另外在問卷調查部份分為

一課程

(一)公式化課程

(二)課程的範圍和內容

(三)課程的組織

(四)監測和評估被實施的課程

(五)課程材料和支持

二學校

29

(一)學校組織

(二)學校目標

(三)校長的角色

(四)支持數學與科學的資源

(五)父母親介入

(六)學校環境

三老師和他們的準備

(一)學術準備和證明

(二)老師補充

(三)老師任務

(四)老師歸納

(五)老師經驗

(六)教的樣式

(七)專業發展

四教室活動和特徵

(一)課程題目

(二)時間

(三)家庭作業

(四)評量

(五)教室氣氛

(六)資訊技術

(七)計算器用途

(八)強調的研究重點

(九)班級大小

30

五學生

(一)家庭背景

(二)經驗

(三)態度

當 TIMSS 施測後許多國家對於施測結果所蘊藏的意義做了許多的解釋他

們認為施測結果不止顯示了學術成就還包括了學生所接受的課程和教育

(SchmidtJordeCoganBarrierGonzaloMoserShimizuSawadaValverde

PrawatMcknightRaizenBrittonWileyWolfe1996)國際比較主要的目的

在於評估不同國家的學生程度而另一個同樣重要的目的在於嘗試去了解及解釋

造成差異的原因Jaekyung Lee 在 1999 年時提出當我們進行國際比較時有三

點要注意的事項一應該要同時著重正規教育和學校教育以外的學習經驗

二重視區域性的差異

三注意學校的改革政策因為它會影響教育的實施與成果所以成績好不應沾

沾自喜而表現不好也應深究原因去注意其他表現好的國家真正做了什麼並

加以學習而非歸罪於整個制度

根據 TIMSS 2003 國際數學和科學報告(TIMSS 2003 International Reports

in Mathematics and Science)其中提到幾個圖表是跟本文有關並值得分析注

意的

31

圖2-2-1 1995年到2003年4年級學生的數學趨勢

32

上圖是從該報告第一章表格13擷取出來的該圖表顯示出從1995年到2003

年的4年級學生的數學趨勢其中香港拉脫維亞英國賽普勒斯紐西蘭

斯洛伐尼亞加拿大安大略省等七個國家或地區是呈現進步的情況而荷蘭挪

威加拿大魁北克省是退步的趨勢其他在圖表中的國家是沒有顯著差異的另

外在其文字說明部份也提到以色列和菲律賓從1999到2003也顯示出顯著的改

進像上述這些國家數學成就方面趨勢的變化可能跟社會或教育的改變有關

例如東方的政治變化跟歐洲十幾年前的教育改革已經實際改變這些國家的教育

成就例如立陶宛跟拉脫維亞這兩個國家的成就趨勢反映他們在改革過程中的

努力已經獲得某些驚人的成就

33

圖 2-2-2 4 年級學生在男女性別上的差異

上圖是從該報告第一章表格14擷取出來的該圖表顯示大部分國家或地區4

年級學生在男女性別上並無顯著差異但在幾個國家例外新加坡菲律賓亞

美尼亞跟Moldova共和國的女生有較高的數學平均成就荷蘭美國義大利

蘇格蘭賽普勒斯和兩個加拿大省份則是男生有較高的數學平均成就

34

圖2-2-3 1995到2003年的男女生進退步情形

上圖是從該報告第一章表格15擷取出來的該圖表表示從1995到2003年的

男女生進退步情形從圖表中得知男女生同時進步的國家或地區有賽普勒斯英

國香港拉脫維亞紐西蘭斯洛伐尼亞和安大略省而同時退步的國家有挪

威和魁北克省僅有男生退步但女生沒有的國家是荷蘭

第三節 TIMSS 試題與國內數學課程關係之分析

在魔術師的題組中研究者希望學生透過摺紙的方式不管對摺幾次最後

限制只能用剪刀剪一次的情況下要求學生剪出下列 3個圖型

35

每個學生剪每個圖型都有 3次機會這個題組的目的不止希望學生可以運用

全等的直覺利用幾何操作如平移旋轉翻轉等方式印證平時的經驗並將

全等的概念更加清晰還希望學生透過摺紙的方式了解認識垂直和對稱而剪紙

又可以增進學童分解圖形與建構圖形的能力所以本題組主要在測量學生對於全

等的直覺跟幾何操作垂直跟對稱和空間關係的瞭解以及解決非慣例題目的能

在圖形題中前 2個小題分別要求學生在一個長方形中劃一條直線將該長

方形分成 2個三角形或 2個長方形第 3小題要求學生在一個長方形中劃兩條直

線將該長方形分成 2 個三角形跟 1 個長方形第 4 小題則給等腰梯形並連接 2

條對角線在內部形成的 4個三角形中要求學生找出形狀相同但大小不同的兩

個三角形本題組在了解學生能否透過操作直尺或三角板在二維空間上剪裁出

指定的基本圖型並利用直觀的方式指出形狀相同但大小不同的三角形

上述兩個題目在評量學生的幾何能力根據我國國民中小學九年一貫課程綱

要數學學習領域中指出小學教師在從事幾何教學時最要避免的是來自本身歐

氏公設幾何訓練的干擾處處受制於定義的認定與邏輯順序由歷史來看人類

是先由應用操作實踐中認識各種幾何要素與性質彼此之間並沒有一定的

先後關係歐氏幾何的價值首先是對這些先民知識的歸類與整理其次才是作

36

為知識典範的演繹系統所以將幾何課程概分成四階段而學生在四年級時所應

該要學習到的幾何知識就如下列所示

一階段一(一年級到三年級)較強調幾何形體的認識探索與操作學生對

幾何形體中的幾何要素也許能指認但尚不清楚其結構意義

二階段二(四年級到五年級)由於數與量的發展逐漸成熟學生開始結合「數」

與「形」兩大主題學習運用幾何形體的構成要素(如角邊面)及其數量性

質(如角度邊長面積)

更詳細的相關能力指標詳列如下

1-S-04能依給定圖示將簡單形體作平面舖設與立體堆疊給定的圖示

可為圖卡或實物透過拼圖與堆積木等活動讓學童進行平移翻轉重疊

比對hellip等全等操作的練習

3-S-06能透過操作將簡單圖形切割重組成另一已知簡單圖形

4-S-02能透過操作認識基本三角形與四邊形的簡單性質

4-S-03能認識平面圖形全等的意義

4-S-16能理解平面上直角垂直與平行的意義

4-S-07能由直角垂直與平行的概念認識簡單平面圖形

4-S-08能利用三角板畫出直角與兩平行線段並用來描繪平面圖形

例學童會使用直尺或三角板畫出直角及兩平行線段進而用來繪製直角三角

形正方形長方形平行四邊形與梯形

因此學生在回答這兩個問題時應已具備足夠的能力

在幾何方塊的題組中給學生 3 塊白色方塊4 塊黑白相間的方塊和 3 塊黑

色方塊要求學生完成

一利用 2 張黑白相間方塊拼出一個較大的黑色三角形

二利用 4 張黑白相間方塊拼出一個黑色的正方形並求出佔幾分之幾

三不准使用黑白相間方塊將 4 張方塊拼出一個正方形使得黑色的部分佔 12

37

四請用 8 張方塊拼出一個如下圖的長方形使得黑色部分佔 58

這是一種包含幾何跟數與量的題目其中幾何的部份是要求學生建立一個二維圖

形並滿足題目的要求(數與量)幾何部分已經如上所述現在分析相關的數

與量

根據我國國民中小學九年一貫課程綱要數學學習領域中指出有理數是小學

的核心課程之一也是小學數學教育中最有挑戰性的教學主題因為學生較缺

乏有理數的前置經驗日常生活中的有理數情境也比整數少分數的形式是學生

首次碰到兩整數並置的約定至於什麼是穩當的有理數教學並無定論但是基

本的共識是學生需要較長的時間來學習掌握有理數的概念不論是先形式程

序或者先概念理解兩者都必須不斷互相支持在有理數教學中必須將材料

作適當的安排先從較容易的平分或測量入手而將其它的應用課題作為錘鍊

有理數數感的課題

在相關的能力指標詳列如下

3-n-09能在具體情境中初步認識分數並解決同分母分數的比較與加

減問題學童從具體情境或活動中掌握分數的概念能學會分數的記號並理

解運用分數記號來記錄同分母分數的比較與加減的方式例如以平分為基礎的

活動(離散量)問下列深色區域是全部圖形的幾分之幾

4-n-07能認識真分數假分數與帶分數熟練假分數與帶分數的互換

並進行同分母分數的比較加減與非帶分數的整數倍的計算

4-n-08能理解等值分數進行簡單異分母分數的比較並用來做簡單分

數與小數的互換在具體情境中說明分數等值的理由可先由分母的倍數差 2

4倍的分數先出發(因為切半的操作最簡單)

在施測學校所使用的教科書中第七冊第十單元分數中其教學目標也有

38

透過單位分數的合成和累加活動以真分數來描述單位分數的幾份可見此題對

施測學校的學生來說應有能力解決

另外兩題有關數與量的題目是數字卡跟猜一猜在數字卡部份題目分為兩

部份第一部份為抽出三張 0-9 的數字卡任意排列後找出最接近總和為 20 的

方法第二部份為抽出三張 0-9 的數字卡任意排列後分別找出和差跟積最大

的方法這在我國國民中小學九年一貫課程綱要數學學習領域中分類在數與量

中的整數部分根據附錄說明中指出整數計算是一切數學學習的基礎在教學

中學童經由活動情境掌握計算的意義藉著各種例子體驗計算的規則與策略

流暢的計算能力有如語文學習中基本的文字駕馭能力不僅可以內化學童的

數字感並且是日後(國高中)學習抽象運算及形式推導的基礎這樣的能力

固然是學習科學所必須也是能夠有效處理日常生活的基本能力之一所以國小

整數教學的課程目標在於

一從計數開始學習位值的約定與換算並在演算中逐步熟悉最後能掌握

大數

二在二年級下學期理解算術的樞紐九九乘法作為日後所有計算的基礎

三到四年級時能夠不拘泥於位數熟練加減乘除的直式計算

有關數與量的題目另一題是猜一猜題目是在 9個碗中前 4個碗中豆子

的數量分別是 29313128 個請猜一猜罐子中大約有幾個豆子並解釋你

的想法這在我國國民中小學九年一貫課程綱要數學學習領域中分類在數與

量中的估算部分估算在國民教育中可粗分為離散量的估算(自然數四則運算的

估算)與連續量的估算前者的教學應在學生已經能掌握確算後再進行而後

者的教學應透過測量時量不盡的正常情境與小數的教學共同開展認識小數

之細分與精確度的要求乃是一體的兩面估算的教學可以先在計算與驗算中強

調讓學生能對不合理的答案透過估算剔除然後是能判斷應用問題對答案

精確度的要求並藉由過去的解題經驗發展正確的估算策略或者是能針對

39

問題與解答發展估算策略驗算解答的合理性要注意的是估算屬於較高層

次的數學能力學生必須先對所使用的概念程序與問題情境有相當的理解才能

恰當地估算進而能正確判斷估算的時機與精確度的要求國小的估算教學要

特別注意評量的問題切忌因為強求估算禁止學生使用正常計算教師應在評

量的問題上下功夫讓問題本身暗示估算的好處

最後一題是擲骰子題目是用一個規則來改變骰子擲出來的數字要求學

生發現改變後的數字有什麼特性另外要求學生丟 30 次將結果記錄並統計在

表格中這是屬於統計與機率的部份我國課程在這部份強調統計和機率的知識

背景應來自生活環境因此以學生的生活經驗為主從學生感興趣的主題出發

使其學會敘述統計所呈現出的數字和圖表的意義強調圖表的表達和溝通並了

解抽樣機率的初步概念且能正確地運用各項統計資料於實際的生活中並要

求在三年級之前 先藉由簡易表格的製作協助學生建立資料的整理與分組的

概念進而練習報讀與說明資料並建立個別資料出現頻率概念的認識再藉著

直接和交叉對應表格的介紹並配合「數與量」的教學希望學生能掌握對表格

的認識並能加以運用

40

第三章 方法與步驟

本章節乃根據前兩章所提的研究目的與文獻探討進行研究設計以下將分別

就研究架構研究工具發展研究的信效度與實作評量的試題架構三節加以說明

第一節 研究架構

壹研究方法本研究是使用實作評量的方法進行實際施測使用 SPSS

與 EXCEL 軟體分析回收的施測數據

貳研究樣本本研究之研究對象是針對國小四年級學生以台中縣神岡鄉

某國小四年級學生為受試者共四班 127 人學校環境是住

宅與工業混合區

叁研究工具本研究的研究工具分為兩部份民國 89 年徐美英研究論文

中的題目跟 TIMSS 2003 公開的實作評量試題各三題TIMSS

2003 公開的實作評量試題是由 TIMSS 網站下載試題後再進

行翻譯每一個題組的施測時間是 30 分鐘

第二節 研究工具發展

本研究的研究工具分為兩部份民國 89 年徐美英研究論文中的題目跟 TIMSS

2003 公開的實作評量試題各三題以下將分別就試題的編製過程評分標準施

測人員和評分者四點加以說明

壹試題編製過程

一研究分析相關公開試題並與學校教材相互對照後進行選題

二選定題目後進行翻譯

三將翻譯好後的題目跟原始原文題目交給學校英語科任老師進行確認

41

四確定翻譯工作後與現任資深國小四年級的教師們共同討論題目的適切

性修改試題敘述的語句使文句的敘述能符合四年級學生的認知

五將修改後的題目請上述老師再做一次確認

六提供評分標準給上述老師討論全對部份給分不給分的情況

七題目定案

以數字卡這題為例題目如下

【題目數字卡】

在這部分你將會拿到一張印有 0到 9的數字卡如下圖請將這些數字卡

取下來

總和為ldquo20的數字遊戲

小杰與小明這兩個小孩正在玩一個ldquo總和為 20的遊戲其規則如下

總和為ldquo20的規則

一抽數字卡每一個人抽出三張數字卡

二加數字卡每一個人利用這三張數字卡做出一個加法問題使得算出的

總和最接近 20 例如假如抽出的數字卡 將數字任

意組合後下面是其中四種可能的方法

0 1 2 3 4

5 6 7 8 9

1 4 5

42

+ + + +

5 5 4 6 1 9 +

15 1 0

這時玩家應該選擇 + 4 因為它的總和 19最接近 20

19

小杰和小明開始玩遊戲了小杰抽出了 三張數字卡小明抽出

了 三張數字卡

一小杰要如何安排三張數字卡做出一個加法問題才能讓它的總和為最接

近 20記得要寫總和

二小明要如何安排三張數字卡做出一個加法問題才能讓它的總和最接近

20記得要寫總和

三小明說假如我抽到 我可以用兩種方法做出總和 20

請告訴我們小明用哪兩種方法可以使 做出總和 20

第一種方法

第二種方法

1

4

5 1

4

5

1

4 51

4

5

972

6 3 1

1 4 6

1 4 6

43

找出最大的數

小杰和小明利用數字卡玩另一個新的遊戲就是利用三張數字卡做出最

大的數

甲將 三張數字卡填入下列的格子內讓相加的結果為最大

乙將 三個數字填入下列的格子內讓相減的結果為最大

丙將 三個數字填入下列的格子內讓相乘的結果為最大

貳施測人員

由四位該班導師擔任在正式施測前由研究者針對施測應注意事項對施

測人員說明並在每一份題目上附上給老師的話說明施測時應注意的事項

及給分說明部分實作評量試題需要用到一些材料由研究者事先準備妥

當於考前交給施測人員至於材料的發放跟試題說明的時間並不包括在 30

分鐘的測驗時間之內

叁評分標準

一 89 年徐美英研究論文中的題目直接使用其附錄中的評分標準以擲

times

9 5 1

+

2 3 7

1 4 5

44

骰子這題為例其評分標準如下

第一題 1 正確的計算出(042648)

2 給分範圍2分

第二題 1 描述的類型與資料一致

2 形式可以是一個或多個以下的情形例如所有的數字

都是偶數數字的範圍從 0~84 出現 2次數字排列有

規則如+4-2+4-2

3 給分範圍2分

第三題 1 至少完成 25 次擲骰子的紀錄

2 正確的計算

3 給分範圍2分

第四題 1 統計的次數與第三題的資料一致

2 給分範圍2分

第 5a 題1 答案與資料一致

2 給分範圍1分

第 5b 題1 對觀察的數字提供合理的解釋

2 給分範圍1分

二 TIMSS 2003 公開的實作評量試題部分參照其公佈的評分標準翻譯

成中文以提供給資深四年級老師參考以數字卡這題為例

(一)第一部分總和為 20 的數字遊戲

1 第甲題

(1) 給分範圍 1分

1 寫出 2+7+9=18

2 沒有任何算式但有答案是 18 者

(2) 給分範圍0分

45

1 有寫出算式 2+7+9 但沒有答案 18 出現

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

或偏離主題的回答)

3 完全空白

2 第乙題

(1) 給分範圍1分

1 13+6=19 或 16+3=19

2 沒有任何算式但有答案是 19 者

(2) 給分範圍0分

1 有寫出算式 13+6 或 16+3 但沒有答案 19 出現

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

3 完全空白

3 第丙題

(1) 給分範圍2分

兩種方法都正確(16+4 和 14+6)

(2) 給分範圍1分

只有寫出其中一種方法(16+4 或 14+6)

(3) 給分範圍0分

1 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

2 完全空白

(二)第二部份找出最大的數

1 第甲題

(1) 給分範圍1分

46

91+5 或 95+1

(2) 給分範圍0分

1 將 159擺在任何其他不正確的位置

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

3 完全空白

2 第乙題

(1) 給分範圍1分

73-2

(2) 給分範圍0分

1 72-3

2 將 237擺在任何其他不正確的位置

3 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

4 完全空白

3 第丙題

(1) 給分範圍1分

41times5

(2) 給分範圍0分

1 51times4

2 將 145擺在任何其他不正確的位置

3 其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的

或偏離主題的回答)

4 完全空白

47

第三節 研究的信效度與實作評量的試題架構

壹信效度

由於此次的實作評量採用多元化記分的方式故信度計算採用 Cronbach α

係數算出信度值為 079而且每一題均有詳細說明細節行為的項目給定參考

答案圖形的作品量表各題除經著名國際測驗機構審核施測過外並由研究者另

請學校資深四年級教師共同研究討論題目與答案對於施測過程研究者也與四

位監考老師討論後訂出共同標準所以在效度方面具有專家效度跟內容效度

貳試題架構

此次實作評量的試題共六題分別是屬於數與量幾何統計與機率等三大

主題依據九年一貫課程綱要數學學習領域裡對這幾個大主題在國小四年級前的

學習說明研究者編制下表的試題架構

48

表 3-3-1 試題架構

題目 學習主題 主題層次 評量內涵說明

擲骰子 數與量

統計與機率

(1)整數

(2)簡易表格的製作

(1)可以對整數的變化

提出一套模式或發現

(2)簡易表格的製作結

果統計與發現

猜一猜 數與量 估算 使用估算的技巧協助計算

與解題

魔術師 幾何 對稱的實際操作 透過摺紙的對稱觀念理解

平面圖形的線對稱關係

圖形題 幾何

(1)幾何形體的認識與

切割

(2)幾何形體『形』的

直觀認識

(1)透過操作將簡單圖

形切割成另一簡單圖

(2)直觀指出平面圖形的

相似

數字卡 數與量 運用加減乘法求最大值

透過位值概念將給定的數

字編排在不同的位值進行

加減乘法得到接近題

目要求的答案或所有可能

的最大值

幾何方塊 幾何

數與量

(1)幾何形體的拼合

(2)有理數(部分全體

的意涵)

(1)利用黑白相間方塊

拼出指定的簡單平面

圖形

(2)在具體情境中認識

分數

49

第四章 結果與討論

本章主要是呈現資料分析的結果並加以討論共分為四節第一節是利用

TIMSS 1999 實作評量試題比較民國 89 年跟民國 95 年的成績差異第二節是利

用 TIMSS 2003 實作評量試題檢視施測學校在性別及班級間是否存在差異第

三節是利用 TIMSS 2003 實作評量試題比較施測學校與原始施測資料的成績差

異第四節是實作評量試題的類推性

第一節 利用 TIMSS 1999 實作評量試題比較民國

89 年跟民國 95 年的成績差異

研究者本小節要探討的是 TIMSS 1999 的施測結果與民國 89 年徐美英所進行

的研究之比較主要的比較項目為平均數標準差及得分情形分配百分比基於

此研究者採用百分比圖表及各小題反推出得分人數之後用獨立樣本 t檢定的

方式比較平均數另外依百分比反推出人數時有時會因四捨五入產生總人數多

1人的情況此時會對進位數最小的數採取無條件捨去法以符合總人數一致另

因研究者分三天進行六題施測每題實際受測人數也有不同研究者使用的資料

來源有兩個分別是 TIMSS 2003 實作評量題目及 TIMSS 1999 實作評量題目為

了呈現方便研究者將取自 TIMSS 2003 實作評量題目所作的施測結果用『95 年』

表示另外 TIMSS 1999 實作評量題目為研究者從民國 89 年徐美英的論文中擷取

出來的當年的施測結果以『89 年』表示

50

壹魔術師

表4-1-1 95年魔術師題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

魔術師ㄧ 16 16 68 5 127

魔術師二 101 151 748 5 127

魔術師三 202 235 563 5 127

由表 4-1-1 得知研究者此次此題型的施測結果各題得分均以得 2分者居

多得 1分居次利用表 4-1-1研究者也從民國 89 年徐美英的論文中找到類

似資料列在表 4-1-2表 4-1-2 是從論文的本文中摘錄下來的研究者反覆研

究該論文時發現在 P73 也有附錄一份有關魔術師各題的資料統整不過兩者的

個數有所差異下表總人數 156 人遺漏值 5人附錄中個數是 155 人下表反推

出人數後的平均數也與附錄稍有出入研究者以本文的表格為準

表4-1-2 89年魔術師題組得分情形分配表

題目 得 0分人數() 得 1分人數()得 2分人數() 遺漏值 總人數

魔術師ㄧ 419 258 323 5 156

魔術師二 194 194 613 5 156

魔術師三 258 258 484 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

51

0

10

20

30

40

50

60

70

80

魔術師ㄧ 魔術師二 魔術師三

95年答對率

89年答對率

圖 4-1-1 百分比圖表比較結果

由上圖可知95 年答對的答對率在 3題中均優於 89 年的結果其中以魔術

師ㄧ的資料差距最大但此兩年的資料也有一個共同的趨勢就是該年度的答對

率有魔術師二的答對率>魔術師ㄧ的答對率>魔術師三的答對率研究者進一步

反推 89 年的得分人數後將兩年的資料進行獨立樣本 t檢定結果列於表 4-1-3

表 4-1-4表 4-1-5

表 4-1-3 魔術師ㄧ獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異數

相等 4323 0039 6098 272000 0000 0410 0800

1

不假設變異

數相等 6173 270036 0000 0410 0800

52

表 4-1-3 可以看出變異數 Leven 檢定結果P值lt005所以達到顯著差異

可見變異數是不能視為相等的後面 t檢定值 6173P 值lt005所以有達到顯

著差異可見平均數是不能視為相等故這一小題明顯的是 95 年的學生成績較

表 4-1-4 魔術師二獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異數

相等 17130 0000 2550 270000 0011 0050 0410

2

不假設變異

數相等 2605 270000 0010 0060 0400

表4-1-4可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是不能視為相等的後面t檢定值2605P值lt005所以有達到顯著

差異可見平均數是不能視為相等故這一小題明顯的也是95年的學生成績較佳

表 4-1-5 魔術師三獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 0443 0506 1332 272000 0184 -0100 0330

3

不假設變

異數相等 1338 265000 0182 -0100 0330

53

表4-1-5可以看出變異數Leven檢定結果P值gt005所以沒有達到顯著差

異可見變異數是要視為相等的後面t檢定值1332P值gt005所以沒有達到

顯著差異可見平均數是也可以視為相等故這一小題兩年的學生成績沒有差別

接著研究者對整個題組總得分進行比較由於 89 年論文中只有平均數與標

準差兩項資料研究者只能稍做比較95 年施測的平均數為 424標準差為 208

而 89 年的平均數是 375標準差是 207由於兩者標準差的差距很小可見兩

項資料的集中平均數的趨勢是差不多的而平均數則是 95 年多 049 分

二擲骰子

表4-1-6 95年擲骰子題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

擲骰子一 101 202 697 8 127

擲骰子二 597 395 08 8 127

擲骰子三 25 319 655 8 127

擲骰子四 345 378 277 8 127

擲骰子五 a 462 538 8 127

擲骰子五 b 950 50 8 127

由表 4-1-6 得知研究者此次擲骰子題組中各題得分擲骰子一以得 2分

居多佔 697擲骰子二以得 0分居多佔 597擲骰子三以得 2分居多

佔 655擲骰子四以得 1分居多佔 378擲骰子五 a以得 1分居多佔 538

擲骰子五 b以得 0分居多佔 95擲骰子二與擲骰子五 b是要求學生說明理由

或描述規則可見學校教學應該可以再加強學生在解釋資料上的能力

54

表4-1-7 89年擲骰子題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

擲骰子一 32 65 903 5 156

擲骰子二 548 387 65 5 156

擲骰子三 00 65 935 5 156

擲骰子四 65 129 806 5 156

擲骰子五 a 97 903 5 156

擲骰子五 b 839 161 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

0

20

40

60

80

100

擲骰

子一

擲骰

子二

擲骰

子三

擲骰

子四

擲骰

子五

a

擲骰

子五

b

95年答對率

89年答對率

圖 4-1-2 百分比圖表比較結果

由上圖可知89 年答對的答對率在 5題中均優於 95 年的結果其中擲骰子

二與擲骰子五 b兩年的答對率都很低可見對位於城鄉交界處的台灣學生而言

這種類型的題目屬於偏難的題型研究者進一步反推 89 年的得分人數後將兩

年的資料進行獨立樣本 t檢定結果列於表 4-1-8表 4-1-9表 4-1-10表

55

4-1-11表 4-1-12表 4-1-13

表 4-1-8 擲骰子一獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 56450 0000 -4100 270000 0000 -0400 -0140

1

不假設變

異數相等 -3900 195000 0000 -0400 -0130

表4-1-8可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是要假設不相等的後面t檢定值-3906P值lt005所以也達到顯

著差異可見平均數是不能視為相等故這一小題是89年的學生表現較優秀

表 4-1-9 擲骰子二獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 9470 0002 -1500 270000 0141 -0200 0035

2

不假設變

異數相等 -1500 270000 0133 -0200 0032

表4-1-9可以看出變異數Leven檢定結果P值lt005所以有達到顯著差異

可見變異數是要視為不相等的後面t檢定值-1506P值gt005所以沒有達到

顯著差異可見平均數是可以視為相等故這一小題兩年的學生成績沒有差別

56

表 4-1-10 擲骰子三獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 186200 0000 -6200 270000 0000 -0400 -0210

3

不假設變

異數相等 -5800 162000 0000 -0400 -0200

表4-1-10可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是要視為不相等的後面t檢定值-5806P值lt005所以達到顯著

差異可見平均數是有顯著差異的故這一小題89年的學生成績表現較好

表 4-1-11 擲骰子四獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 19580 0000 -9900 270000 0000 -1000 -0650

4

不假設變

異數相等 -9600 212000 0000 -1000 -0650

表4-1-11可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-9565P值lt005有達到顯著差異

可見平均數是有顯著差異的故這一小題89年的學生成績比較好

57

表4-1-12 擲骰子五a獨立樣本t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 207800 0000 -7400 270000 0000 -0500 -0270

五 a

不假設變

異數相等 -7000 187000 0000 -0500 -0260

表4-1-12可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-7036P值lt005有達到顯著差異

可見平均數是有顯著差異故這一小題89年的學生成績比較好

表 4-1-13 擲骰子五 b獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 38760 0000 -2900 270000 0004 -0200 -0035

五b

不假設變

異數相等 -3100 251000 0003 -0200 -0039

表4-1-13可以看出變異數Leven檢定結果P值lt005達到顯著差異可見

變異數是要視為不相等的後面t檢定值-3052P值lt005達到顯著差異可

見平均數是有顯著差異故這一小題89年的學生成績比較好

接著研究者對整個題組總得分進行比較由於 89 年論文中只有平均數與標

58

準差兩項資料研究者只能稍做比較95 年施測的平均數為 48346標準差為

24455而 89 年的平均數是 68258標準差是 16947可見 89 年的資料顯示

集中平均數的趨勢較高而 95 年的資料則較為分散而且平均數又是 89 年多

19912 分多出將近 12 倍

三猜一猜

表4-1-14 95年猜一猜題組得分情形分配表

題目 得0分人

數()

得1分人

數()

得2分人

數()

得3分人

數()

得4分人

數()

得5分人

數() 遺漏值 總人數

猜一猜 3858 2441 1102 630 787 1181 0 127

由表 4-1-14 得知研究者此次擲骰子題組中得分以得 0分者居多顯示

學生的概算能力非常不足其次是得 1分的較多這顯示學生曉得題目要掌握哪

些資訊只是不懂得利用這些資訊0分與 1分的人數竟佔超過 50結果頗令

人訝異

表 4-1-15 89 年擲骰子題組得分情形分配表

題目 得0分人

數()

得1分人

數()

得2分人

數()

得3分人

數()

得4分人

數()

得5分人

數() 遺漏值 總人數

猜一猜 2580 650 100 1190 3230 2260 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

59

猜一猜

0

10

20

30

40

50

60

95年答對率 89年答對率

圖4-1-3 百分比圖表比較結果

本題研究者將得 4分與得 5分者列為答對人數由上圖可知89 年答對的答

對率優於 95 年的結果研究者進一步反推 89 年的得分人數後將兩年的資料進

行獨立樣本 t檢定結果列於表 4-1-16表 4-1-17

表4-1-16 猜一猜資料統計

年度 個數 平均數 標準差平均數的

標準誤

95 127 156 175 016 得分

89 151 286 196 016

表4-1-17 猜一猜獨立樣本t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 5639 0018 -5800 276000 0000 -1700 -0860猜

猜 不假設變

異數相等 -5900 275000 0000 -1700 -0864

60

表4-1-17可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-5856P值lt005有達到顯著差異

可見平均數是有顯著差異故這一小題89年的學生成績比較好

第二節 利用 TIMSS 2003 實作評量試題檢視施測

學校在性別及班級間是否存在差異

在各題型得分的相關情形方面將之整理成表格 4-2-1由表中得知除了

圖形題與猜一猜的相關係數達到005的顯著水準之外其他相關各題均達到001

的顯著水準也就是說圖形題與數字卡幾何方塊魔術師猜一猜擲骰子

等題有相當程度的關係其他各題相互之間也是類似的關係這說明了此次的考

題不只是幾何能力之間有相關的情況幾何能力與統計概念數的運算能力

概算能力之間也有相當程度的關係

61

表 4-2-1 各題型之相關係數

圖形題 數字卡 幾何方塊 魔術師 猜一猜 擲骰子

Pearson 相關 1 0617 0419 0487 0174 044

顯著性 (雙尾) 0 0 0 005 0 圖形

個數 127 127 127 127 127 127

Pearson 相關 0617 1 0517 0562 0272 0587

顯著性 (雙尾) 0 0 0 0002 0 數字

個數 127 127 127 127 127 127

Pearson 相關 0419 0517 1 0397 0308 0389

顯著性 (雙尾) 0 0 0 0 0 幾何

方塊

個數 127 127 127 127 127 127

Pearson 相關 0487 0562 0397 1 0248 0509

顯著性 (雙尾) 0 0 0 0005 0 魔術

個數 127 127 127 127 127 127

Pearson 相關 0174 0272 0308 0248 1 0317

顯著性 (雙尾) 005 0002 0 0005 0 猜一

個數 127 127 127 127 127 127

Pearson 相關 044 0587 0389 0509 0317 1

顯著性 (雙尾) 0 0 0 0 0 擲骰

個數 127 127 127 127 127 127

在顯著水準為001時 (雙尾)顯著相關

在顯著水準為005時 (雙尾)顯著相關

62

表4-2-2 班級對總分之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

班級 390132 3000 130044 2046 0111

誤差 7806910 123000 63471

總和 8197040 126000

以單因子變異數分析班級對總分的結果如表4-2-2在α=005之下F檢定值為

2049相對應的P值是0111因為P值>005所以未達顯著差異也就是各班

級間的實作評量總分並沒有因班級的不同而顯現出差異

表4-2-3 性別對總分之組別統計量與t檢定表

性別 個數 平均數 標準差 平均數的標準誤

男生 65 21892 7567 0939 總分

女生 62 23355 8595 1092

獨立樣本檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 0320 0573 -0998 125000 0320 -4263 1404

分 不假設變

異數相等 -0996 121524 0322 -4272 1413

從表4-2-3來看雖然女生平均成績是2331分高於男生的2188分但根

據獨立樣本t檢定的檢定結果變異數的Levene檢定F值為0320P值為0573

顯示出男生與女生的變異數沒有顯著差異而平均數的t檢定值為-0998P值為

63

032也顯示出男女生的平均數是沒有顯著差異的研究者進一步分析性別與各

題的t檢定結果顯示於表4-2-4

表4-2-4 性別對各題之組別統計量與t檢定表

性別 個數 平均數 標準差 平均數的標準誤

男生 65 326 112 014 圖形題

女生 62 340 098 012

男生 65 418 215 027 數字卡

女生 62 474 212 027

男生 65 417 160 020 幾何方塊

女生 62 413 167 021

男生 65 417 204 025 魔術師

女生 62 432 213 027

男生 65 135 163 020 猜一猜

女生 62 177 185 023

男生 65 474 237 029 擲骰子

女生 62 494 253 032

64

獨立樣本檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 1522 0220 -0756 125000 0451 -0510 0230圖

題 不假設變

異數相等 -0758 124117 0450 -0510 0230

假設變異

數相等 0431 0513 -1471 125000 0144 -1310 0190數

卡 不假設變

異數相等 -1471 124863 0144 -1310 0190

假設變異

數相等 0067 0797 0139 125000 0890 -0530 0610

不假設變

異數相等 0138 123883 0890 -0530 0620

假設變異

數相等 0031 0860 -0414 125000 0680 -0890 0580魔

師 不假設變

異數相等 -0413 123981 0680 -0890 0580

假設變異

數相等 2029 0157 -1359 125000 0177 -1030 0190猜

猜 不假設變

異數相等 -1355 121450 0178 -1030 0190

假設變異

數相等 0391 0533 -0452 125000 0652 -1060 0660擲

子 不假設變

異數相等 -0452 123426 0652 -1060 0670

65

結果顯示各小題的平均數女生分別是34474413432177

494男生分別是326418417417135474除了幾何方塊之外

幾乎都是女生高於男生而各小題的Levene變異數檢定結果其P值分別是

0220513079708601570533均大於005顯示沒有顯著差異

而平均數的檢驗結果各題的P值分別是0451014408906801770652

也都大於005也呈現沒有達到顯著差異可見這6題的考題成績結果與刻板

印象「男生數理比較厲害」有不同的結果

第三節 利用 TIMSS 2003 實作評量試題比較施測

學校與原始施測資料的成績差異

本節研究重點是 TIMSS 2003 的題目與國際受測國家中總體表現較好的國家

資料及台灣原始資料進行比較TIMSS 網站上提供各個受測國家的資料檔研究

者下載了新加坡香港日本台灣比利時與美國的資料之所以下載這幾個

國家的資料是因為四年級測驗總分結果前五名剛好是新加坡香港日本台

灣比利時而且從總分的分析結果顯示台灣與新加坡香港有顯著差異與日

本沒有顯著差異而比利時與台灣也有顯著差異所以比較這五個國家而美國

是因為研究者想了解美國學生是否真的比較會活用故列入此次的比較探討在

實作評量上是否達到顯這差異研究方法採用變異數分析與事後比較事後比較

採用雪費(Scheffe)檢定法由於 TIMSS 施測時採用 12 本測驗題本所以參與

實作評量的各題人數並不一致會出現同一個國家在不同題目上有不同人數的情

況另外因研究者分三天進行六題施測每題實際受測人數也有不同

一圖形題

66

表4-3-1 95年圖形題題組得分情形分配表

題目 得 0分人數 得 1分人數 缺失值 總人數

圖形題甲 66 934 6 127

圖形題乙 41 959 6 127

圖形題丙 174 826 6 127

圖形題丁 223 777 6 127

由表 4-3-1 可知在圖形題題組中各小題得分均以得 1分的人數分別是

934959826777各題百分比是否達到顯著不同研究者用百分比

同質性檢定結果列於表 4-3-2

表 4-3-2 圖形題百分比同質性檢定

得分題目 交叉表

題目

1 2 3 4 總和

得分 0 8 5 21 27 61

得分 1 113 116 100 94 423

總和 121 121 121 121 484

卡方檢定

數值 自由度 p-value

Pearson 卡方 24666a 3000 0000

概似比 25936 3000 0000

線性對線性的關連 19950 1000 0000

有效觀察值的個數 484000

a 0 格(0)的預期個數少於 5最小的預期個數為 1525

67

結果顯示 Pearson 的卡方值 24666df=3p=0000達到顯著水準所以

各題的答對率百分比是不同的

表4-3-3 圖形題題組各國答對率的比較

題目 新加坡答

對率

香港答對

日本答對

台灣答對

比利時答

對率

美國答對

施測學校

答對率

圖形題甲 830 958 917 936 833 727 934

圖形題乙 937 988 902 950 911 877 959

圖形題丙 702 859 744 847 504 328 826

圖形題丁 616 490 634 656 504 553 777

00

400

800

新加坡

香港

日本

台灣

比利時

美國

施測學

圖形

題甲

圖形

題乙

圖形

題丙

圖形

題丁

圖4-3-1 圖形題題組答對率之比較圖

由表 4-3-3 與圖 4-3-1 可知在圖形題題組中甲題的答對率以香港最高

台灣與施測學校居次美國最低乙題的答對率以香港最高台灣與施測學校還

是居次美國最低丙題的答對率以香港最高台灣居次美國最低而且低到

328丁題的答對率以施測學校最高台灣居次香港最低低到 490香港

68

在此小題的表現與上述三小題的結果明顯有很大差距

接著進行變異數分析與事後比較的結果

表4-3-4 圖形題各題之資料統整

圖形題甲

有效的個數 平均數 標準差

新加坡甲 1103 0830462 0375396

香港甲 757 0957728 0201342

日本甲 767 0916558 0276730

台灣甲 776 0935567 0245681

比利時甲 779 0833119 0373109

美國甲 1636 0726773 0445753

施測甲 121 0933884 0249517

圖形題乙

有效的個數 平均數 標準差

新加坡乙 1103 0937443 0242274

香港乙 757 0988111 0108458

日本乙 767 0902216 0297216

台灣乙 776 0949742 0218617

比利時乙 779 0911425 0284312

美國乙 1636 0877139 0328378

施測乙 121 0958678 0199862

題形題丙

有效的個數 平均數 標準差

新加坡丙 1103 0701723 0457709

香港丙 757 0858653 0348610

日本丙 767 0744459 0436450

台灣丙 776 0846649 0360557

比利時丙 779 0504493 0500301

美國丙 1636 0327628 0469492

施測丙 121 0826446 0380300

69

圖形題丁

有效的個數 平均數 標準差

新加坡丁 1103 0615594 0486675

香港丁 757 0490092 0500232

日本丁 767 0633638 0482125

台灣丁 776 0655928 0475371

比利時丁 779 0504493 0500301

美國丁 1636 0552567 0497381

施測丁 121 0776860 0418083

由表 4-3-4 得知參與此題的人數以美國的 1636 人最多香港日本台

灣比利時的人數差不多經變異數分析後如表 4-3-5 所示

表 4-3-5 圖形題各題之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

圖形題甲 組間 44078 6 7346 59531 0000

組內 732026 5932 0123

總和 776103 5938

圖形題乙 組間 8009 6 1335 18752 0000

組內 422269 5932 0071

總和 430278 5938

圖形題丙 組間 257623 6 42937 223054 0000

組內 1141889 5932 0192

總和 1399511 5938

圖形題丁 組間 24546 6 4091 17047 0000

組內 1423561 5932 0240

總和 1448107 5938

70

表4-3-5顯示在α=005之下圖形題4小題的P值均<005均達顯著

水準可見這4題的平均得分有顯著不同所以研究者進一步做事後分析如表

4-3-6所示配合研究者的研究目的本文中只摘錄與研究目的相關的資料其

他比較結果請參閱附錄表格

表 4-3-6 圖形題各題之事後比較

Scheffe 法

題目 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0100 0034 0150

香港 -0024 0034 0998

日本 0017 0034 1000

台灣 -0002 0034 1000

比利時 0100 0034 0196

圖形題

美國 0210 0033 0000

施測 新加坡 0021 0026 0995

香港 -0029 0026 0973

日本 0057 0026 0585

台灣 0009 0026 1000

比利時 0047 0026 0772

圖形題

美國 0082 0025 0105

施測 新加坡 0120 0042 0185

香港 -0032 0043 0997

日本 0082 0043 0724

台灣 -0020 0043 1000

比利時 0320 0043 0000

圖形題

美國 0500 0041 0000

施測 新加坡 0160 0047 0066

香港 0290 0048 0000

日本 0140 0048 0178

台灣 0120 0048 0382

比利時 0270 0048 0000

圖形題

美國 0220 0046 0001

71

由表4-3-6所顯示的結果得知在圖形題這四小題中施測學校與台灣在2003

年所作的調查結果的資料並沒有達到顯著差異可見施測學校的圖形題各小題的

平均得分與2003年的台灣資料的圖形題各小題的平均得分是視為相等的施測學

校在圖形題乙的部分與國際上2003年表現較好的國家的施測資料也都沒有達到

顯著差異可見在這一小題上施測學校與國際上表現較好的國家的平均得分也

是可以視為相等的但是在圖形題甲中施測學校與美國有達到顯著差異在圖

形題丙中施測學校與比利時美國有達到顯著差異在圖形題丁中施測學校

與香港比利時美國有達到顯著差異可見在圖形題甲中施測學校的平均得

分優於美國在圖形題丙中施測學校的平均得分優於比利時與美國在圖形題

丁中施測學校的平均得分優於香港比利時與美國

接下來以整個圖形題的題組來看由表 4-3-7 所示變異數分析的結果

表4-3-7 圖形題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 725457 6 120910 107817 0000

組內 6652328 5932 1121

總和 7377785 5938

在α=005的情況下F檢定值為107817plt005達到顯著差異所以

可以得知這七個國家的平均得分有顯著差異所以要進行事後比較如表4-3-8

所示

72

表4-3-8 圖形題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0410 0101 0012

香港 0200 0104 0708

日本 0300 0104 0215

台灣 0110 0104 0982

比利時 0740 0103 0000

美國 1010 0100 0000

由表 4-3-8 得知整個題組的事後分析顯示在α=005 的情況下施測學

校的總分平均得分與與台彎沒有達到顯著差異所以平均總得分是可以視為相等

的而施測學校總平均得分與新加坡比利時美國有達到顯著差異所以施測

學校的總平均得分是優於新加坡比利時與美國

二數字卡題組

表4-3-9 95年數字卡題題組得分情形分配表

得 0分人數 得 1分人數 得 2分人數 遺漏值 總人數

數字卡 1 317 683 7 127

數字卡 2 242 758 7 127

數字卡 3 117 92 792 7 127

數字卡 4 300 700 7 127

數字卡 5 317 683 7 127

數字卡 6 783 217 7 127

由表 4-3-9 可知在數字卡題題組中各小題得分分別以數字卡 1得 1分者

73

佔 683以數字卡 2得 1分者佔 758以數字卡 3得 2分者佔 792以數字

卡 4得 1分者佔 70以數字卡 5得 1分者佔 683以數字卡 6得 0分者佔 783

居多數字卡 6得分偏低此小題是要求學生將已知的三個數字拼成兩個數後所

得乘積最大結果顯示學生答對率偏低但學生在加法與減法上則無此現象(數

字卡 4與數字卡 5)此題各國答對率的比較結果列於表 4-3-10

表4-3-10 數字卡題題組各國答對率的比較

題目 新加坡 香港 日本 台灣 比利時 美國 施測學校

數字卡 1 494 624 646 698 475 416 683

數字卡 2 567 538 619 657 556 458 758

數字卡 3 645 595 594 657 553 563 792

數字卡 4 713 710 754 647 556 534 700

數字卡 5 693 689 738 629 546 497 683

數字卡 6 264 243 362 225 185 135 217

0

20

40

60

80

100

數字卡1

數字卡2

數字卡3

數字卡4

數字卡5

數字卡6

圖 4-3-2 數字卡題題組答對率之比較圖

74

由表 4-3-10 與圖 4-3-2 可知在圖形題題組中第 1題的答對率以台灣最

高施測學校居次美國最低第 2題的答對率以施測學校最高台灣居次美

國最低第 3題的答對率以施測學校最高台灣居次比利時最低第 4題的答

對率以日本最高新加坡和香港居次美國最低第 5題的答對率以日本最高

新加坡居次美國最低第 6題的答對率還是以日本最高新加坡居次美國最

低接著進行變異數分析結果列於表 4-3-11

表 4-3-11 數字卡題各題之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

組間 34477 6 5746 2418 0000

組內 717422 3019 0238 第一題

總和 751899 3025

組間 18413 6 3069 12727 0000

組內 727966 3019 0241 第二題

總和 746379 3025

組間 36829 6 6138 7166 0000

組內 2585878 3019 0857 第三題

總和 2622707 3025

組間 22038 6 3673 16419 0000

組內 675332 3019 0224 第四題

總和 697369 3025

組間 24878 6 4146 18142 0000

組內 689975 3019 0229 第五題

總和 714853 3025

組間 14939 6 2490 14850 0000

組內 506156 3019 0168 第六題

總和 521095 3025

75

表4-3-11顯示在α=005之下數字卡題6小題均達顯著水準可見這6小題

的平均得分有顯著不同所以研究者進一步做事後分析如表4-3-12所示配合

研究者的研究目的本文中只摘錄與研究目的相關的資料其他比較結果請參

閱附錄表格

表4-3-12 數字卡題之事後比較

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0190 0049 0021

香港 0059 0051 0969

日本 0037 0051 0998

台灣 -0015 0051 1000

比利時 0209 0051 0010

第一題

美國 0267 0048 0000

施測 新加坡 0192 0049 0020

香港 0221 0051 0005

日本 0140 0052 0296

台灣 0101 0051 0692

比利時 0203 0051 0016

第二題

美國 0301 0048 0000

施測 新加坡 0335 0093 0045

香港 0451 0097 0001

日本 0404 0098 0009

台灣 0302 0097 0136

比利時 0500 0097 0000

第三題

美國 0490 0091 0000

施測 新加坡 -0013 0048 1000

香港 -0010 0050 1000

日本 -0054 0050 0978

台灣 0053 0049 0979

比利時 0144 0049 0201

第四題

美國 0166 0046 0045

76

表 4-3-12(續) 數字卡題之事後比較

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 -0010 0048 1000

香港 -0006 0050 1000

日本 -0054 0050 0979

台灣 0054 0050 0978

比利時 0138 0050 0267

第五題

美國 0186 0047 0014

施測 新加坡 -0047 0041 0971

香港 -0026 428E-02 0999

日本 -0145 0043 0079

台灣 -0008 0043 1000

比利時 0031 0043 0997

第六題

美國 0082 0040 0654

由表4-3-12所顯示的結果得知在數字卡題這六小題中施測學校與台

灣在2003年所作的調查結果資料並沒有達到顯著差異可見施測學校的數字卡題

各小題的平均得分與2003年的台灣資料的數字卡題各小題的平均得分是視為相

等的施測學校在數字卡題第六題的部分與國際上2003年表現較好的國家的施測

資料也都沒有達到顯著差異可見在這一小題上施測學校與國際上表現較好的

國家的平均得分也是可以視為相等的但是在數字卡題第一題中施測學校與新

加坡比利時美國有達到顯著差異顯示在這一小題中施測學校的成績是優

於這三個國家的在數字卡題第二題中施測學校與新加坡香港比利時美

國有達到顯著差異顯示在這一小題中施測學校的成績是優於這四個國家的

在數字卡題第三題中施測學校與新加坡香港日本比利時美國有達到顯

著差異顯示在這一小題中施測學校的成績是優於這五個國家的在數字卡題

第四題中施測學校與美國有達到顯著差異顯示在這一小題中施測學校的成

績是優於美國的在數字卡題第五題中施測學校與美國有達到顯著差異顯示

77

在這一小題中施測學校的成績是優於美國的

接下來以整個數字卡題的題組來看由表 4-3-13 所示變異數分析的結果

表4-3-13 數字卡題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 660902 6 110150 23261 0000

組內 14295950 3019 4735

總和 14956850 3025

在α=005的情況下F檢定值為23261plt005達到顯著差異所

以可見這七個國家總分的平均得分有顯著差異所以進行事後比較如表4-3-14

所示

表 4-3-14 數字卡題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0645 0219 0192

香港 0688 0228 0167

日本 0327 0229 0916

台灣 0486 0227 0598

比利時 1224 0227 0000

美國 1492 0213 0000

由表4-3-14得知整個題組的事後分析顯示在α=005的情況下施測學校

的總分平均得分與台彎沒有達到顯著差異所以平均總得分是可以視為相等的

而施測學校總平均得分與比利時美國有達到顯著差異所以施測學校的總平均

得分是優於比利時與美國

78

三幾何方塊題組

表4-3-15 95年幾何方塊題題組得分情形分配表

得 0分人數 得 1分人數 得 2分人數 遺漏值 總人數

幾何方塊 1 50 950 8 127

幾何方塊 2 109 891 8 127

幾何方塊 3 252 748 8 127

幾何方塊 4 193 807 8 127

幾何方塊 5 244 479 277 8 127

由表 4-3-15 可知在幾何方塊題題組中各小題得分分別以幾何方塊 1得 1

分者佔 95以幾何方塊 2得 1 分者佔 891以幾何方塊 3 得 1 分者佔 748

以幾何方塊 4得 1分者佔 807以幾何方塊 5得 1分者佔 479居多各題各

國答對率的比較結果列於表 4-3-16

表 4-3-16 幾何方塊題題組各國答對率的比較

題目 新加坡 香港 日本 台灣 比利時 美國 施測學校

幾何方塊 1 432 602 785 580 517 399 950

幾何方塊 2 447 470 717 546 548 405 891

幾何方塊 3 720 702 557 613 432 461 748

幾何方塊 4 557 436 447 323 516 446 807

幾何方塊 5 115 66 135 82 123 76 277

79

0

20

40

60

80

100

幾何

方塊1

幾何

方塊2

幾何方塊3

幾何

方塊4

幾何

方塊5

圖4-3-3 幾何方塊題題組答對率之比較圖

由表 4-3-16 與圖 4-3-3 可知在幾何方塊題組中第 1題的答對率以施測

學校最高日本居次美國最低第 2題的答對率以施測學校最高日本居次

美國最低第 3題的答對率以施測學校最高新加坡居次比利時最低第 4題

的答對率以施測學校最高新加坡居次台灣最低第 5題的答對率以施測學校

最高日本居次香港最低接著進行變異數分析結果列於表 4-3-17

80

表 4-3-17 幾何方塊題各題之變異數分析

得分 平方和 自由度 平均平方和 F 檢定 p-value

組間 115732 6 19289 83927 0000

組內 1363788 5934 0230 第一題

總和 1479520 5940

組間 75877 6 12646 53259 0000

組內 1409236 5935 0237 第二題

總和 1485112 5941

組間 77699 6 12950 55905 0000

組內 1374774 5935 0232 第三題

總和 1452473 5941

組間 42205 6 7034 29061 0000

組內 1436564 5935 0242 第四題

總和 1478768 5941

組間 51860 6 8643 20902 0000

組內 2454259 5935 0414 第五題

總和 2506120 5941

表4-3-17顯示幾何方塊題5小題均達顯著水準可見這5題的平均得分

有顯著不同所以研究者進一步做事後分析如表4-3-18所示配合研究者的研

究目的本文中只摘錄與研究目的相關的資料其他比較結果請參閱附錄表格

81

表4-3-18 幾何方塊題各題之事後比較

Scheffe 法

題號 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0520 0046 0000

香港 0350 0047 0000

日本 0160 0047 0060

台灣 0370 0047 0000

比利時 0430 0047 0000

第一題

美國 0550 0046 0000

施測 新加坡 0440 0047 0000

香港 0420 0048 0000

日本 0170 0048 0040

台灣 0340 0048 0000

比利時 0340 0048 0000

第二題

美國 0490 0046 0000

施測 新加坡 0028 0046 0999

香港 0046 0047 0988

日本 0190 0047 0012

台灣 0140 0047 0230

比利時 0320 0047 0000

第三題

美國 0290 0046 0000

施測 新加坡 0250 0047 0000

香港 0370 0049 0000

日本 0360 0049 0000

台灣 0480 0049 0000

比利時 0290 0049 0000

第四題

美國 0360 0047 0000

82

表 4-3-18(續) 幾何方塊題各題之事後比較

題號 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0260 0062 0006

香港 0430 0063 0000

日本 0280 0063 0004

台灣 0480 0063 0000

比利時 0350 0063 0000

第五題

美國 0420 0061 0000

由表4-3-18所顯示的結果得知在幾何方塊題這五小題中只有第三小

題施測學校與台灣在2003年所作的調查結果資料並沒有達到顯著差異其他四小

題的結果都是與台灣達到顯著差異的可見施測學校的平均得分在這四小題中是

優於台灣在2003年所作的調查結果資料在幾何方塊題第一題中施測學校與新

加坡香港比利時美國有達到顯著差異顯示在這一小題中施測學校的成

績是優於這四個國家的在幾何方塊題第二題中施測學校與新加坡香港日

本比利時美國有達到顯著差異顯示在這一小題中施測學校的成績是優於

這五個國家的在幾何方塊題第三題中施測學校與日本比利時美國有達到

顯著差異顯示在這一小題中施測學校的成績是優於這三個國家的在幾何方

塊題第四題中施測學校與新加坡香港日本比利時美國有達到顯著差異

顯示在這一小題中施測學校的成績是優於這五個國家的在幾何方塊題第五題

中施測學校與新加坡香港日本比利時美國有達到顯著差異顯示在這

一小題中施測學校的成績是優於這五個國家的

接下來以整個幾何方塊題的題組來看由表 4-3-19 所示變異數分析的結果

83

表4-3-19 幾何方塊題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 885084 6 147514 50368 0000

組內 17379220 5934 2929

總和 18264300 5940

在α=005的情況下F檢定值為50368plt005達到顯著差異所

以可見這七個國家總分的平均得分有顯著差異所以進行事後比較如表4-3-20

所示

表4-3-20 幾何方塊題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 1499 0165 0000

香港 1615 0169 0000

日本 1166 0169 0000

台灣 1814 0169 0000

比利時 1727 0169 0000

美國 2101 0162 0000

由表4-3-20得知整個題組的事後分析顯示在α=005的情況下施測學

校的總分平均得分與台彎有達到顯著差異所以平均總得分是施測學校優於台灣

在2003年所作的調查結果資料的而施測學校總平均得分與新加坡香港日本

比利時美國有達到顯著差異所以施測學校的總平均得分是優於新加坡香港

日本比利時美國

84

第四節 實作評量試題的類推性

本研究試題的評分者有兩位所以採用的是評分者與工作項目的兩面向交叉

設計(the two-facet crossed persontimesratertimestask design)研究者原先想

利用 SPSS 套裝軟體進行多變量變異數分析將評分的結果做概化程度的分析

計算出各個變異來源之變異成份的大小及其佔總變異的百分比但因檔案太

大SPSS 套裝軟體無法進行多變量變異數分析所以研究者改用 EXCEL 軟體進行

試算其結果列於表 4-4-1

表4-4-1 實作評量概化程度變異成分表

變異來源 估計變異成份 佔總變異之百分比

受試者 0887981185 1944983082

評分者 96E-16 211E-14

工作項目 1697518073 3718146275

受試者評分者 0 0

受試者工作項目 1872595983 410162689

評分者工作項目 0033245844 0728197914

受試者評分者工作項目及誤差 0074154589 1624239615

G 係數 0736144063

註 1在受試者與評分者的交互作用項中其估計變異成份的大小為-106396E-15Shavelson

Webb(1991)指出當某變異成份實際的值接近或等於 0 時取樣的誤差可能導致該變異成份

的估計值成為負數此時可將負值的變異成份大小設定為 0

從以上的表 4-4-1研究者有以下的發現

一實作評量最大的三個變異來源是受試者和工作項目的交互作用工作項

目之間的變異與受試者之間的變異

實作評量最大的變異來源是受試者和工作項目的交互作用佔總變異量的

85

41016表示在研究者的實作評量裡學生的成績會因著工作項目的不同而有

高低起伏如此一來便會降低以某位受試者的觀察分數概化至其真實分數的可

靠程度所以研究者無法以學生在少量的實作評量評量項目上的表現來做為他

們在數學科能力的推論

此外在研究者的實作評量中第二大的變異來源為工作項目之間的變異

其值為 170佔總變異的 37181這只是反應了學生在評量項目上能力表

現的差異並非影響 G係數大小的主要因素關於這一點研究者從計算 G係數

的公式可以了解G係數的計算公式是這樣的

G=σ2p(σ2

p+σ2ptnt+σ2

rpnr+σ2rptenrtimesnt)

G 係數的意義是受試者間的變異量在與受試者有關的變異量之總和中所佔的

比例大小因此若受試者間的變異量愈大而相對於受試者與其他實驗設計面

向的變異量及誤差愈小則 G係數便會愈大也就是根據測驗成績來作推論的可

靠性愈高

二兩位評分者之間的變異極小

評分者之間的變異為傳統的評分者信度從表 4-4-1 可以看到兩位評分結果

之間的變異值為 96E-16僅佔總變異的 211E-14顯示研究者的評分標準非

常一致也就是說研究者兩位當中並沒有誰評分時較為嚴格(stringent)或

較為寬大(liberal)

三受試者與評分者之間沒有交互作用

表 4-4-1 顯示受試者與評分者之間的交互作用為 0表示研究者兩位評分者

並沒有受到月暈效應的影響而對某些學生給予較高的成績對其他學生則給予較

低的成績這一點也可做為評量是否具有公平性的證據之一

四評分者與工作項目間的交互作用非常小

評分者與評量項目間的交互作用很小表示兩位評分者在評定各個評量項目

的評量標準相當一致這原因是由於評分標準訂定的相當明確而且具體讓評分

86

者之間沒有認知的差異存在

從評量工作項目的內容來看本次測驗所測量的雖然同樣是數學能力

測驗但各題所涵蓋的領域包含了統計的資料處理分析能力(擲骰子)幾

何對稱概念(魔術師)概算能力(猜一猜)幾何圖型的直觀概念(圖形

題)數與量中的整數加減乘的運算分析能力(數字卡)結合數與形兩大

主題的幾何形體構成要素及其數量性質(幾何方塊)題目本身的差異性很

大而且每位學生所擅長的方面有所不同在工作項目的表現自然就有所

不同在加上每題的配分並不盡相同所以由這些評量項目概化至其他數

學科能力的程度就降低了這也就是本研究的 G 係數僅達 0313表示如果

使用少量的實作評量工作項目將無法達到所需要的信度

另外主要效果是受試者的變異數值是 0888佔總變異的 19450代

表學生之間的程度差異也很大

根據概化程度研究的結果研究者可以進一步做決策研究(decision

study)決策研究是用來指出若要達到足夠小的誤差變異或足夠大的概化

係數時每一個學生需要多少工作項目以及每一個工作項目需要多少評分

者下面研究者分別分析在幾個評分者的情況下實作評量工作項目為幾

個時G 係數才能達到 08

87

表 4-4-2 G 研究與各種 D 研究之變異成分分析與推論力係數

變異源 G 研究變異成

分之估計值D研究變異成分之估計值

nr= 1 2 3 5 2 2 2

ni= 1 6 6 6 7 8 9

受試者 0888 0888 0888 0888 0888 0888 0888

評分者 0000 0000 0000 0000 0000 0000 0000

工作項目 1698 0283 0283 0283 0243 0212 0189

受試者評分者 0000 0000 0000 0000 0000 0000 0000

受試者工作項目 1873 0312 0312 0312 0268 0234 0208

評分者工作項目 0033 0100 0066 0040 0116 0133 0150

受試者評分者工

作項目及誤差 0074 0006 0004 0002 0005 0005 0004

σRel 1947 0318 0316 0315 0273 0239 0212

G 係數 0313 0736 0737 0738 0765 0788 0807

由表 4-4-2 可知原設計研究 2位研究者與 6道題目的方式推出 G係數只有

0736當評分者增加一位而題目維持六題時G係數只增加 001 達到 0737

如果將評分者增加到五位而題目仍維持六題時G係數只增加 002 達到 0738

可見增加評分者的影響有限如果評分者維持兩位而題目增加為七題G係數會

增加 0029達到 0765如果評分者維持兩位而題目增加為八題G係數會增加

0052達到 0788可見增加題目的效果比增加評分者更為有效當評分者為兩

位題目為九題時G係數可達 0807顯示評分者為兩位題目為九題時內

部一致性較佳

88

第五章 結論

本研究以 TIMSS 數學實作評量的題目為工具進行特定環境背景不同年度的

縱貫研究及與其他國際上表現較佳的國家進行橫貫研究以下為本研究進行所得

的經驗以及資料分析所得之結果分別以結論以及建議等兩節進行說明

第一節 結論

壹實作評量的信效度

TIMSS 試題在台灣之施測是具有一定信效度在信度方面經實際施測後計

算的結果為 0799所以 TIMSS 數學實作評量試題在台灣之施測是具有信度的

但根據實作評量試題的類推性分析結果發現G研究中的 G係數只有 0313深

入探討其原因可能是試題難易程度的差別較大與各題配分比例不同所造成的

所以在 D研究中要補救其信度低的措施就是增加評分者為兩位題目為九題時

其 G係數就可以達到 0807在效度方面每一題均有詳細說明細節行為的項目

給定參考答案圖形的作品量表各題除經著名國際測驗機構審核施測過外並由

研究者另請學校資深四年級教師共同研究討論題目與答案對於施測過程研究

者也與四位監考老師討論後訂出共同標準所以在效度方面具有專家效度跟內

容效度

貳評量結果與比較

一在進行縱貫研究方面在魔術師題型上民國 95 年的結果較佳在擲

骰子題型上是民國 89 年的結果較佳在猜一猜題型上民國 89 年的結

果較佳此結果顯示在幾何概念的對稱觀念上民國 95 年的學生有較

佳的表現但在統計觀念及概數觀念上民國 89 年的學生表現較佳

在實際施測過程中研究者發現在魔術師題型的第一題上許多民國

95 年的學生是先將題目要求的圖形剪出來後再進行對摺當然如果學生

是交出這樣的答案紙條評分者是不給分的因為當評分者在沿著摺線

89

還原時就會發現不是一刀剪出來的可是因為有三個機會所以許多學

生得到這樣的經驗後就會在第二次或第三次時剪出題目要求的結果

而且第一題的成功經驗會連帶的影響第二題的作答因為摺的方式是

一樣的只是剪的地方是不同的所以不管民國 95 年或是民國 89 年的

作答結果都會發現第二題的答對率均比第一題高而第三題的作答方

式因為要多摺一次而且較難複製前面成功的經驗所以第三小題的答

對率比前兩題均比較低所以研究者認為在這一題型上民國 95 年的

學生會表現得比較好的原因可能在於有比較好的作答技巧

二TIMSS 實作評量在性別及班級之間沒有顯著差異

三在圖形題題型上施測學校與台灣西元 2003 年施測結果沒有達到顯著

差異在數字卡題型上施測學校與台灣西元 2003 年施測結果沒有達

到顯著差異在幾何方塊題型上施測學校與台灣西元 2003 年施測結

果達到顯著差異之所以在幾何方塊題型上會達到顯著差異研究者認

為可能是時間點的問題因為研究者施測的時間是利用學期末期末考

後而剛好這次期末考有分數的單元所以學生對這個範圍比較熟悉

才可能造成施測學校的成績特別突出

四在圖形題題型上施測學校優於新加坡比利時及美國在數字卡題型

上我國優於比利時美國在幾何方塊題型上施測學校優於新加坡

香港日本比利時美國研究者特別注意到香港與美國這兩個國家

在 89 年徐美英論文中香港在該年的施測結果都比徐美英施測結果落

後但在 95 年的施測結果卻只有幾何方塊題型是明顯落後施測學校這

表示不是台灣學生在這幾年程度變低了就是這幾年香港程度變高了

在跟縱貫研究做交叉比較後研究者認為台灣學生這幾年程度變低的可

能性較大而美國不管是在 89 年與徐美英論文的施測結果比較或是與

95 年施測結果比較均在這兩次比較中明顯落後

90

第二節 建議

壹TIMSS 實作評量的後續研究

由於數學科實作評量在實際施測時常有人力與物力上的考量以至於在實

際教育現場上並不常用但是實作評量所測出的學生能力與紙筆測驗所測出的

學生能力是不同面向的經過此次實際施測的經驗研究者認為運用 TIMSS 實

作評量的試題來了解學生的學習成就可以在經濟負擔的考慮範圍內達到可

信賴的研究成果因此建議後續研究者可朝向此方向繼續研究以期能更深入

了解學生學習成就的變化情形

貳學生學習成就的長期追蹤

建立台灣的長期教育資料庫是必要的這是從事教育基礎研究的中外學者

的共識研究者此次研究以 TIMSS 實作評量的試題為工具來了解民國 89

年跟民國 95 年特定環境背景的國小四年級學生學習成就的比較即以此理念

為出發點目前在中央研究院教育部和國科會共同推動下『台灣教育長期

追蹤資料庫』的建置工作也已在 2001 年 10 月份起正式展開目的是為了從教

育基礎研究的角度出發研究哪些因素會影響到學生解決問題的能力如學

生努力程度學習機會和學習能力等等當然資料的品質是累積而來的不做

沒有開始就不可能有改進也就不可能有較豐富的資料內容美國國家教育

長期研究(National Education Longitudinal Study NELS)其資料的品質

和豐富素為各國教育研究學者所稱道就是因為它累積了二十多年的經驗

且經過多次的增刪修改研究者也希望能有後續研究者投入後續的相關研究

並累積相關的資料以利決策者能創造出適合台灣學生的最佳學習環境

叁開放性問題的評量研究

在此次研究中發現學生對於開放性問題的解題能力非常不足對於設計

好的題目較難提出歸納模式或者合理的推測這或許歸因於教學現場中的標

91

準化測驗在整個學習過程中教學活動跟教學評量是交互不斷進行而常常

受限於時間跟經濟因素教師只能被迫選擇標準化測驗以診斷學生學習困難

處但是標準化測驗容易讓學生誤以為答案是唯一的而且數學知識是可以切

割成不相關的小部分的因此在國民中小學九年一貫課程綱要中提出「教師

應透過各種評量方式以檢驗教學效果」的觀念研究者建議後續研究者能進一

步探討這方面的相關研究

肆國際比較的重要性

許多國家多年以前即開始參與大型國際研究以了解自己國家學生與其他

不同國家或區域的學生學習成就的差異特別的是此類國際研究對於結果的分

析是深入且多面向的包括學生家庭背景班級學校等民國 95 年中國時

報特別以專欄方式提出芬蘭的教育成功經驗以供國內教育改革的參考為什

麼要特別提出芬蘭呢因為芬蘭在重要的國際比較研究中常常名列前矛所

以參與大型的國際研究可以找出成功的經驗減少自己摸索的時間

92

參考文獻

壹中文部份

王秀琲 (民 92)實作評量在國小數學科之應用-以五年級學童分數為例國立

臺中師範學院教育測驗統計研究所碩士論文

方泰山(民 91)第四次 TIMSS 2003 NRC 自由反應評分系統研討會會議報告

httpichochemntnuedutwpub4thnrcreporthtm

石千奇(民 93)國小六學童在數學實作評量中的小組解題歷程分析國立中山

大學教育研究所碩士論文

江文慈(民 87)一個新評量理念的探討多元智力取向的評量教育資料與研

究20 期6-12

曲慧娟 (民 94)實作評量在國中學術性向優異班招生鑑定之效度研究~以臺灣

北區為例國立臺灣師範大學特殊教育研究所碩士論文

李坤崇(民 88)多元化教學評量台北心理

余民寧(民 93)教育測驗與評量-成就測驗與教學評量第二版台北心理

吳毓瑩(民 85)評量的蛻變與突破-從哲學思潮與效度理論參考起教育資料

與研究13 期2-15

李虎雄張敏雪(民 87)由學力評量觀點談實作評量之特性測驗與輔導

3104-3108

吳明隆(民 87)教室做為評量環境的內涵與其評量新趨勢研習資訊15 卷

4期62-77

93

吳清山林天佑(民 85)教育名詞 mdash分流教育教育資料與研究885

李長柏(民 91)國小數學簡單機率解題實作評量與後設認知之相關研究國立

臺中師範學院教育測驗統計研究所碩士論文

呂政隆(民 93)國小學童在數學實作評量解題整合認知與課程之相關研究

國立臺中師範學院教育測驗統計研究所碩士論文

呂金燮(民 88)實作評量-理論載於王文中呂金燮吳毓瑩張郁雯張淑

慧(合著)教育測驗與評量教室學習觀點(頁 173-207)台北五

李茂能(民 85)信度考驗的另一途徑推論力理論國民教育學報227-48

林清山(民 81)心理與教育統計學台北東華

林敬修(民 92)影響國小數學科實作評量信度相關因素之類推性理論分析國

立屏東師範學院教育心理與輔導學系研究所碩士論文

洪之昀(民 89)數學科實作評量對國小高年級學童學習策略影響之研究國立

臺中師範學院教育測驗統計研究所碩士論文

桂怡芬吳毓瑩(民 87)自然科實作評量的效度探討測驗年刊45(2)19-36

桂怡芬(民 85)自然科實作評量的效度探討國立台北師範學院國民教育研究

所碩士論文

桂怡芬(民 85)紙筆與實作的互補我的實作評量經驗教育資料與研究13

期36-40

徐美英(民 89)TIMSS 數學實作評量在台灣之試用探討國立臺中師範學院教

育測驗統計研究所碩士論文

94

夏淑琴(民 88)教學評量革新-多元評量載於高強華主編(民 88)學校變遷與

學校革新台北師大

教育部(民 92)國民中小學九年一貫課程綱要數學學習領域台北教育部

張紹勳張紹評林秀娟(民 92a)SPSS For Windows 統計分析初等統計與高

等統計(上冊)(第四版)台北文魁資訊股份有限公司

張紹勳張紹評林秀娟(民 92b)SPSS For Windows 統計分析初等統計與高

等統計(下冊)(第四版)台北文魁資訊股份有限公司

張敏雪(民 86)實作評量的本質及國民中小學數理科教師對實作評量的態度探

討國立臺灣師範大學數學研究所碩士論文

張敏雪(民 87)教室內的實作評量教育資料與研究20 期24-27

張敏雪(民 86)實作評量的本質及國民中小學數理科教師對實作評量的態度探

討國立師範大學數學研究所碩士論文

張英傑等著(民 94)數學科教師手冊台南南一書局

張永杰 (民 92)實作評量取向的幾何思考研究國立臺灣大學國際企業學研究

所碩士論文

張麗麗(民 91a)從分數的意義談實作評量效度的建立教育研究月刊9837-51

張麗麗(民 91b)評量改革的應許之地虛幻或真實-談實作評量之作業與表

現規準教育研究月刊9376-86

郭生玉(民 84)心理與教育研究法台北精華

陳英豪吳裕益(民 85)測驗與評量高雄復文

95

陳文典陳義勳李虎雄簡茂發(民 84)由馬里蘭州的學習成就評量與其在

台灣的施測結果看-實作評量的功能與應用科學教育月刊185 期

2-10

陳昭地(民 88)「第三次國際數學與科學教育成就研究」後續調查

httpreporticentnutwnscreportTIMSS-R(1999)實測後

期中報告--交國科會htm

陳怡玉(民 94)降低國小數學科實作評量人和作業交互作用變異方法的探討---

以類推性理論分析國立臺南大學測驗統計研究所碩士論文

莊明貞(民 84)變通性評量的發展與實施研習簡訊261

莊明貞(民 85)實作評量理論與實際教育資料與研究9期44-48

曾惠敏(民 87)國小分數概念實作評量之發展及其相關研究國立台南師範學

院國民教育研究所碩士論文

游麗卿(民 87)從實作表現診斷學生乘除法的錯誤概念觀念測驗與輔導雙月

刊149 期3094-3099

鄒慧英譯(民 92)測驗與評量(原作者 Robert L linn and Norman E

Gronlund)台北洪葉文化

鄒慧英(民 86)實作型評量的品管議題兼談檔案評量的應用載於八十七年度

教育測驗新近發展趨勢學術研討會

詹志禹(民 85)評量改革為什麼要進行-回應吳毓瑩<評量的蛻變與突破>

教育資料與研究13 期45-47

96

詹元智(民 91)國小數學科實作評量之效度探討國立屏東師範學院教育心理

與輔導研究所碩士論文

蔡正濱(民 95)國小數學科實作評量評分者ㄧ致性相關因素探討國立屏東教

育大學教育心理與輔導學系研究所碩士論文

鄭麗玉(民 88)教學評量的改革教師之友40 卷1期23-33

歐滄和(民 91)教育測驗與評量台北心理

盧雪梅(民 87)實作評量的應許難題和挑戰教育資料與研究20 期1-5

簡茂發(民 80)命題方法與試題分析國教輔導31(1)2-13

蘇義翔(民 86)實作評量的理論與啟示測驗與輔導3099-3102

貳英文部分

Airasian PW (1991) Classroom assessment New York McGraw-Hill

Airasian PW (1994) Classroom assessment(2nd ed)NewYork

McGraw-Hill

Baron J B (1991) Strategies for the development of effective

performance exercise Applied Measurement in Education 4(4)

305-318

Baxter G P Shavelson R J Goldman S R amp Pine J

(1992) Evaluation of a procedure-based scoring for hands-on

science assessment Journal of Educational Measurement 29(1)

1-17

97

Baxter G P Shavelson R J Herman S J Brown K A amp Valadez

J R(1993) Mathematics performance as sessment technical

quality and diverse student impact Journal for Research in

Mathematics Education 24(3) 1990-216

Dunbar S B Koretz DM amp Hoover HD(1991) Quality control control

in the development and use performance assessmentApplied

Measurement in Educational 4(4) 289-303

Frechtling J A (1991) Performance assessment Moonstruck or the real

thing Educational Measurement Issues and Practice 10(4)

23-25

Haertel EH and Linn RL (1996) ldquoComparability in GW Philips

(Ed) Technical Issues in Large-Scale Performance Assessment

Washington DC National Center for Education Statistics

Harmon M amp KellyTA(1996) Development and Design of the TIMSS

performance Assessment In MartinMO and Kelly

DL(eds)Third International Mathematics and Science Study

(TIMSS) Technical Report Volume I Design andd Development

Chestnut Hill MABoston College

Herman JL Aschbacher PR amp Winters L(1990 November) Issues in

developing alternative assessments Paper presented at the

annual meeting of the California Educational Research

Association Chicago

98

Mullis IVS Martin MO Gonzalez EJ Chrostowski SJ(2005)

TIMSS 2003 International Mathematics Report

httptimssbcedutimss2003imathDhtml p31-p47

Linn RL(1993) Educational assessment Expanded expectations and

challenges Educational Evaluation and Policy Analysis 15(1)

1-16

Linn RL Bader EL amp Dunbar SB(1991) Complex Performemce-based

assessmentexpectations and validation criteria Educational

Researcher 20(8) 1521

Linn RL (2000) Assessments and accountability Educational Researcher

29(2) 4-16

Long C amp Stansbury K (1994) Performance assessment for beginning

teachers Phi Delta Kappan76318-322

Messick S (1994) The interplay of evidence and consequences in the

validation of performance assessments Educational Researcher

23(2) 13-23

Messick S (1995) Standards of validity and the validity of standards

in performance assessment Educational Measurement Issues and

Practice 14(4) 5-8

Martin MOMullis IVSChrostowski SJ(2005)TIMSS 2003 Technical

Report httptimssbcedutimss2003itechnicalDhtml

Martin MO(2005) TIMSS 2003 User Guide for the International Database

99

httptimssbcedutimss2003itechnicalDhtml

Miller M D amp Linn R L (2000) Validity of performance-based

assessments Applied Psychological Measurement 24(4) 367-378

Moss P (1994) Can there be validity without reliability Educational

Researcher 23 (2) 5-12

Mullis IVS Martin MO amp Foy P (2005) IEAs TIMSS 2003

International Report on Achievement in the Mathematics Cognitive

Domains httptimssbcedutimss2003imcgdmhtmlp15-p36

Roid G H amp Haladyna T M (1982) A technology for test-item writing

Orlando FL Academic Press

Ruiz-Primo M A Baxter G P amp Shavelson R J(1993) On the stability

of performance assessments Journal of Educational Measurement

30(1) 41-53

Shavelson R J Baxter G P amp Gao X (1993) Sampling variability of

performance assessments Journal of Educational Measurement 30

3215-32

Shavelson R J amp Webb N W (1991) Generalizability theory A primer

Newbury Park CASage

Shepard L A Flexer R J Hiebert E H Marion S F Mayfield

V amp Weston TJ (1996) Effects of introducing classroom

performance assessments on student learning Educational

Measurement Issues and Practice 15(3) 7-18

100

Schmidt W H Jorde D Cogan L Barrier E Gonzalo I Moser U

Shimizu K Sawada T Valverde G Prawat R Mcknight C

Raizen S Britton E Wiley D amp Wolfe R (1996)

Characterizing pedagogical flow An investigation of

mathematics and science teaching in six countries Hinglham

MAKluwer

Silver E A (1993) On mathematical problem posing In N Nohda amp F L

Lin (Eds) Proceedings of the Seventeenth Annual Meeting of the

International Group for the Psychology of Mathematics Education

Vol 1 (pp 66-85) Tsukuba Japan Author

Stiggins R J (1994) Stundent-centered classroom assessment New York

MerrillMacmillan

Stiggins R J (1987) Design and development of performance assessment

Educational Measurement Issues and Practice 6(3)33-42

Telese J A amp Kulm G (1995) Performance-based assessment of at-risk

students in mathematics The effects of context and setting

Paper presented at Annual Meeting of the American Educational

Research Association (ERIC Document Reproduction Service No

ED 382 685)

TIMSS (1997) Performance Assessment in IEAs Third International

Mathematics And Science Study Chestnut Hill MABoston

College

Webb G (1992) On pretexts for higher education development activities

101

Higher Education 24 (3) pp351-61

Wiggins G(1998) Educative assessment Designing assessments to inform

and improve student performance San Francisco California

Jossey-Bass

102

附錄

附錄一TIMSS 2003 參與的國家

Argentina

Armenia

Australia

Bahrain

Belgium (Flemish)

Botswana

Bulgaria

Chile

Chinese Taipei

Cyprus

Egypt

England

Estonia

Ghana

Hong Kong SAR

Hungary

Indonesia

Iran Islamic Republic of Israel

Italy

Japan

Jordan

Korea Republic of Latvia

Lebanon

Lithuania

Macedonia Republic of Malaysia

Moldova

Morocco

Netherlands

New Zealand

Norway

Palestinian National Authority

Philippines

Romania

Russian Federation

Saudi Arabia

Scotland

Serbia

Singapore

Slovak Republic

Slovenia

South Africa

Sweden

Syrian Arab Republic

Tunisia

United States

Yemen Republic of

103

附錄二題目

一猜一猜

媽媽有一個裝滿豆子的密封罐有一天媽媽將豆子分別倒在 9個碗中前 4個

碗中豆子的數量分別是 29313128 個

1 請你猜一猜罐子中大約有幾個豆子

2把你的想法寫出來

二魔術師

一 材料9張紙剪刀一個信封

二你的工作

1 將紙對摺一次或一次以上並剪掉部分的紙使紙的形狀符合題目所給的

形狀

2 每張紙摺疊的次數和形狀隨你喜歡但只能剪一次

【第一題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後

做出如圖一的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

【第二題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後做出如

圖二的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

(在每張你使用過的紙寫上 1和名字)

104

(圖二)

【第三題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後做出如圖三

的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

(圖三)

三擲骰子

一材料一個骰子搖杯

二你的工作

當我們用一個規則來改變骰子擲出來的數字你發現了什麼

改變數字的規則是

當骰子擲出的數字是奇數時減 1並記下結果

當骰子擲出的數字是偶數時加 2並記下結果

1 在下列表中已經示範了兩個例子給你看使用這個規則並找其他

改變後的數字完成這個表格

(在每張你使用過的紙寫上 2和名字)

(在每張你使用過的紙寫上 3和名字)

105

骰子的數字 改變後的數字

2

6

2 看看你所紀錄的「改變後的數字」你發現了什麼

3 擲骰子 30 次並使用規則去改變每次所擲的數字將它紀錄下來

寫在下列的表格中

106

骰子的數字 改變後的數字 骰子的數字 改變後的數字

4將表 3中各個改變後數字出現的次數記在下表中

改變後的數字 次數

0

1

2

3

4

5

6

7

8

5a哪一個數字是你紀錄次數最多的

107

5b為什麼會這樣請寫出你的看法

四幾何方塊

在這一大題你會拿到一張紙板紙板上有10 張小卡片(如下圖)請將這些

正方形卡片分開若你沒有拿到紙卡請舉手

甲利用2 張黑白相間方塊拼出一個較大的黑色三角形並將您的拼法塗在下面

指定的區域

在這裡用斜線塗出

您拼出的黑色三角形

3 個白色方塊

4 張黑白相間方塊

3 個黑色方塊

108

乙利用4 張黑白相間方塊拼出一個黑色的正方形並將您的拼法塗在下面指定

的區域

在這裡用斜線塗出

您拼出的黑色正方形

丙在第乙題中塗黑色的部分佔了全部的幾分之幾

作出分數

甲不准使用黑白相間方塊將4 張方塊拼出一個正方形使得黑色的部分佔

21

並將您的拼法塗在下面指定的區域

在這裡用斜線塗出

您拼出的黑色部分

109

乙請用8 張方塊拼出一個如下圖的長方形使得黑色部分佔

85

並將您的拼法塗在下面指定的區域

在這裡用斜線塗出

您拼出的黑色部分

五圖形題

甲請畫一條直線將這個長方形分成2 個三角形

110

乙請畫一條直線將這個長方形分成2 個長方形

丙請畫兩條直線將這個長方形分成1 個長方形和2 個三角形

丁在下圖的四個三角形中有兩個是形狀相同但大小不同請把這兩個三角形

塗上顏色(線甲乙跟線丙丁平行)

六數字卡

在這部分你將會拿到一張印有 0到 9的數字卡如下圖請將這些數字卡

取下來

甲 乙

1 2

3

4

111

總和為ldquo20的數字遊戲

小杰與小明這兩個小孩正在玩一個ldquo總和為 20的遊戲其規則如下

總和為ldquo20的規則

(1)抽數字卡每一個人抽出三張數字卡

(2)加數字卡每一個人利用這三張數字卡做出一個加法問題使得算出

的總和最接近 20 例如假如抽出的數字卡 將數字任意組

合後下面是其中四種可能的方法

+ + + +

5 5 4 6 1 9 +

1 0

15

這時玩家應該選擇 + 4 因為它的總和 19最接近 20

19

小杰和小明開始玩遊戲了小杰抽出了 三張數字卡小明抽

出了 三張數字卡

(1)小杰要如何安排三張數字卡做出一個加法問題才能讓它的總和為最

接近 20記得要寫總和

0 1 2 3 4

5 6 7 8 9

1 4 5

1

4

5 1

4

5

1

4 51

4

5

972

6 3 1

112

(2)小明要如何安排三張數字卡做出一個加法問題才能讓它的總和最接

近 20記得要寫總和

(3)小明說假如我抽到 我可以用兩種方法做出總和 20

請告訴我們小明用哪兩種方法可以使 做出總和 20

第一種方法

第二種方法

找出最大的數

小杰和小明利用數字卡玩另一個新的遊戲就是利用三張數字卡做出最

大的數

甲將 三張數字卡填入下列的格子內讓相加的結果為最大

乙將 三張數字填入下列的格子內讓相減的結果為最大

丙將 三張數字卡填入下列的格子內讓相乘的結果為最大

times

1 4 6

1 4 6

9 5 1

+

-

2 3 7

1 4 5

113

附錄三給老師的話

題目猜一猜

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說

明如下

題目預測的能力

測量學生在生活情境中了解概數意義的能力

實施時間

20 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意讓同學清楚的知道這份試卷要他們

做的是什麼

評量結束後收回試紙

注意要點

請老師先做一次示範給學生看完之後再讓學生作答

請老師提醒學生計算完後要記得將他們為什麼要這樣做的原因寫清楚

評分標準

等級 5 算出前 4碗豆子的總和再乘以 2再加上一個合理的近似值或使用估

計或平均值找出每一碗豆子的近似值再乘以 9

等級 4 合理的估計其他各碗的豆子數量並算出總和

等級 3 推測出大部分合理少部分不合理的估計值並算出總和

等級 2 推論出一個杯子約有 30 個但未算出總和

等級 1 將已知碗的數量變成一組模式將此模式推論至其他碗不一定剛好總

114

和為 10 個碗

等級 0 未作答或不知所云

題目幾何方塊

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說

明如下

題目預測的能力

這是一種包含幾何跟數與量的題目其中幾何的部份是要求學生建立一個二

維圖形並滿足題目的要求(數與量)

實施時間

30 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意讓同學清楚的知道這份試卷要他們

做的是什麼

評量結束後收回試紙

注意要點

請老師提醒學生答案是用鉛筆塗在指定的區域並且不可以超過格線並不是將

紙卡貼在題目上要注意

請老師提醒學生撕紙卡要小心務必要使用剪刀或直尺沿著線撕

評分標準

115

給分範圍1分

給分範圍0分

(1)雖然使用 2塊黑白相間方塊組合但卻變成 2個小三角形而不是組合成 1

個大三角形

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

給分範圍1分

給分範圍0分

(1)雖然使用 4塊黑白相間方塊組合但卻不是組合成 1個大的黑色正方形

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

116

給分範圍1分

(1) 21

或是它的等值分數

(2)乙题雖然畫錯但此題答案正確

給分範圍0分

(1) 41

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

做出分數

給分範圍1分

由 2塊白色跟 2塊黑色組合成請看下面的例子

給分範圍0分

(1)雖然得出 21但是使用黑白相間的方塊

(2)畫出黑色的部份佔 41

117

(3)畫出黑色的部份佔 43

(4)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(5)完全空白

給分範圍2分

任何使用 3塊黑色的方塊1塊白色的方塊和 4塊黑白相間的方塊的組合圖形

給分範圍1分

塗出 85的答案但不是使用正確的方塊組合

給分範圍0分

(1)塗出 21

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

題目魔術師

118

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生對稱的觀念空間關係及解決非例行問題的能力

施測時間

30 分鐘

實施步驟

1 發試紙和所需材料

2 題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的

知道這份試卷要他們做的是什麼

3 評量結束試紙及材料

注意要點

1請老師提醒學生每張紙只能直直的剪一次不可改變方向且要記得在紙上寫

編號和名字

評分標準

第一題1在紙上只剪一次

2有兩條正確的摺線

給分範圍2

第二題1在紙上只剪一次

2 有兩條正確的摺線

給分範圍2

第三題同上兩題

119

題目圖形題

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生二維空間的分割的觀念了解學生能否透過操作直尺或三角板在二維

空間上剪裁出指定的基本圖型並利用直觀的方式指出形狀相同但大小不同的三

角形

施測時間

30 分鐘

實施步驟

1 發試紙

2 題目解說實施評量前請老師加以說明題意讓學生清楚的知道這份試卷要他

們做的是什麼

3 評量結束收回試紙

評分標準

甲給分範圍1分

正確的畫一條對角線將長方形分成 2個三角形

給分範圍0分

(1)有畫出一條橫線或垂直線但不是畫出精確的對角線

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的

回答)

(3)完全空白

乙給分範圍1分

120

正確的畫一條橫線或垂直線將長方形分成 2個長方形

給分範圍0分

(1)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回

答)

(2)完全空白

丙給分範圍1分

正確的畫兩條線將長方形分成 1個較小的長方形跟兩個三角形

給分範圍0分

(1)有畫出兩條線但沒有將長方形分割成兩個較小的長方形或有分割成

兩個較小的長方形卻沒有在其中之ㄧ上畫出精確的對角線

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(3)完全空白

丁給分範圍1分

在三角形 3跟三角形 4上塗上顏色

給分範圍0分

(1)在三角形 1跟三角形 2上塗上顏色

(2)在三角形 2跟三角形 4上塗上顏色在三角形 1跟三角形 3上塗上顏色

在三角形 1跟三角形 4上塗上顏色在三角形 2跟三角形 3上塗上顏色

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

121

題目數字卡

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生計算的規則與策略及對數字的觀念並能運用所學過的概念於計算策

略上

施測時間

30 分鐘

實施步驟

1 發試紙和所需材料

2 題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的

知道這份試卷要他們做的是什麼

3 評量結束試紙及材料

評分標準

總和為 20 的數字遊戲

甲給分範圍1分

(1)寫出 2+7+9=18

(2)沒有任何算式但有答案是 18 者

給分範圍0分

(1)有寫出算式 2+7+9 但沒有答案 18 出現

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的

回答)

(3)完全空白

122

乙給分範圍1分

(1)13+6=19 或 16+3=19

(2)沒有任何算式但有答案是 19 者

給分範圍0分

(1)有寫出算式 13+6 或 16+3 但沒有答案 19 出現

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回

答)

(3)完全空白

丙給分範圍2分

兩種方法都正確(16+4 和 14+6)

給分範圍1分

只有寫出其中一種方法(16+4 或 14+6)

給分範圍0分

(1)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(2)完全空白

找出最大的數

甲給分範圍1分

91+5 或 95+1

給分範圍0分

(1)將 159擺在任何其他不正確的位置

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(3)完全空白

123

乙給分範圍1分

73-2

給分範圍0分

(1)72-3

(2)將 237擺在任何其他不正確的位置

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

丙給分範圍1分

41times5

給分範圍0分

(1)51times4

(2)將 145擺在任何其他不正確的位置

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

題目擲骰子

親愛的老師

您好感謝您參與此次數學科學實作評量的研究關於此次施測的注意事項說明

如下

題目欲測的能力

測量學生對於任意數字計算紀錄和分析的能力以及辨識並解釋記錄資料

的結果

施測時間

124

30 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的知

道這份試卷要他們做的是什麼

評量結束後收回試紙及材料

評分標準

第一題正確的計算出(042648)

給分範圍2

第二題1描述的類型與資料一致

2形式可以是一個或多個以下的情形所有的數字都是偶數數字

的範圍從 0~84 出現 2次數字排列有規則如+4-2+4-2

給分範圍1

第三題1至少完成 25 次擲骰子的紀錄

2正確的計算

給分範圍2

第四題統計的次數與第三題的資料一致

給分範圍2

第 5a 題答案與資料一致

給分範圍1

第 5b 題對觀察的數字提供合理的解釋

給分範圍1

125

附錄四分析資料補充

附錄四表格中以數字 1代表新加坡數字 2代表香港數字 3代表日本數字

4代表台灣 2003 年原始資料數字 5代表比利時數字 6代表美國數字 7代表

施測學校

一圖形題補充

表附錄 4-1-1 圖形題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 187 0 32 0 64 0 50 新加

坡甲 1 916

香港

甲 1 725

日本

甲 1 703

台灣

甲 1 726

得分 次數 得分 次數 得分 次數 得分 次數

0 69 0 9 0 75 0 39 新加

坡乙 1 1034

香港

乙 1 748

日本

乙 1 692

台灣

乙 1 737

得分 次數 得分 次數 得分 次數 得分 次數

0 329 0 107 0 196 0 119新加

坡丙 1 774

香港

丙 1 650

日本

丙 1 571

台灣

丙 1 657

得分 次數 得分 次數 得分 次數 得分 次數

0 424 0 386 0 281 0 267新加

坡丁 1 679

香港

丁 1 371

日本

丁 1 486

台灣

丁 1 509

得分 次數 得分 次數 得分 次數

0 130 0 447 0 8 比利

時甲 1 649

美國

甲 1 1189

施測

甲 1 113

得分 次數 得分 次數 得分 次數

0 69 0 201 0 5 比利

時乙 1 710

美國

乙 1 1435

施測

乙 1 116

得分 次數 得分 次數 得分 次數

0 386 0 1100 0 21 比利

時丙 1 393

美國

丙 1 536

施測

丙 1 100

得分 次數 得分 次數 得分 次數

0 386 0 732 0 27 比利

時丁 1 393

美國

丁 1 904

施測

丁 1 94

126

表附錄 4-1-1(續) 圖形題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 44 0 6 0 31 0 17

1 75 1 17 1 44 1 20

2 137 2 64 2 64 2 45

3 334 3 331 3 232 3 257

新加

坡總

4 513

香港

總分

4 339

日本

總分

4 396

台灣

總分

4 437

得分 次數 得分 次數 得分 次數

0 36 0 114 0 0

1 72 1 243 1 5

2 176 2 389 2 5

3 259 3 517 3 36

比利

總分

4 236

美國

總分

4 373

施測

總分

4 75

表附錄 4-1-2 圖形題各國事後分析表

圖形題甲 圖形題乙

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0130 0000 1 2 -0051 0013

3 -0086 0000 3 0035 0247

4 -0110 0000 4 -0012 0987

5 -0003 1000 5 0026 0631

6 0100 0000 6 0060 0000

2 3 0041 0514 2 3 0086 0000

2 4 0022 0958 4 0038 0244

5 0120 0000 5 0077 0000

6 0230 0000 6 0110 0000

3 4 -0019 0980 3 4 -0048 0057

5 0083 0001 5 -0009 0998

6 0190 0000 6 0025 0594

4 5 0100 0000 4 5 0038 0237

6 0210 0000 6 0073 0000

5 6 0110 0000 5 6 0034 0190

127

表附錄 4-1-2(續) 圖形題各國事後分析表

圖形題丙 圖形題丁

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0160 0000 1 2 0130 0000

3 -0043 0637 3 -0018 0996

4 -0140 0000 4 -0040 0798

5 0200 0000 5 0110 0001

6 0370 0000 6 0063 0092

2 3 0110 0000 2 3 -0140 0000

2 4 0012 1000 4 -0170 0000

5 0350 0000 5 -0014 0999

6 0530 0000 6 -0063 0209

3 4 -0100 0002 3 4 -0022 0992

5 0240 0000 5 0130 0000

6 0420 0000 6 0081 0027

4 5 0340 0000 4 5 0150 0000

6 0520 0000 6 0100 0001

5 6 0180 0000 5 6 -0048 0533

圖形題總分

(I) (J) 平均差異 (I-J) p-value

1 2 -0210 0008

3 -0110 0540

4 -0300 0000

5 0330 0000

6 0600 0000

2 3 0098 0778

4 -0093 0812

5 0540 0000

6 0810 0000

3 4 -0190 0051

5 0440 0000

6 0710 0000

4 5 0630 0000

6 0900 0000

5 6 0270 0000

128

二數字卡題型

表附錄 4-2-1 數字卡題各國得分統計表

分數 次數 分數 次數 分數 次數 分數 次數

0 284 0 144 0 128 0 118新加

坡 1 1 277

香港

1 1 239

日本

1 1 234

台灣

1 1 273

分數 次數 分數 次數 分數 次數 分數 次數

0 243 0 177 0 138 0 134新加

坡 2 1 318

香港

2 1 206

日本

2 1 224

台灣

2 1 257

分數 次數 分數 次數 分數 次數 分數 次數

0 171 0 142 0 117 0 111

1 28 1 13 1 30 1 23

新加

坡 3

2 362

香港

3

2 228

日本

3

2 215

台灣

3

2 257

分數 次數 分數 次數 分數 次數 分數 次數

0 161 0 111 0 89 0 138新加

坡 4 1 400

香港

4 1 272

日本

4 1 273

台灣

4 1 253

分數 次數 分數 次數 分數 次數 分數 次數

0 172 0 119 0 95 0 145新加

坡 5 1 389

香港

5 1 264

日本

5 1 267

台灣

5 1 246

分數 次數 分數 次數 分數 次數 分數 次數

0 413 0 290 0 231 0 303新加

坡 6 1 148

香港

6 1 93

日本

6 1 131

台灣

6 1 88

分數 次數 分數 次數 分數 次數

0 207 0 476 0 38 比利

時 1 1 187

美國

1 1 339

施測

1 1 82

分數 次數 分數 次數 分數 次數

0 175 0 442 0 29 比利

時 2 1 219

美國

2 1 373

施測

2 1 91

分數 次數 分數 次數 分數 次數

0 149 0 308 0 14

1 27 1 48 1 11

比利

時 3

2 218

美國

3

2 459

施測

3

2 95

129

表附錄 4-2-1(續) 數字卡題各國得分統計表

分數 次數 分數 次數 分數 次數

0 175 0 380 0 36 比利

時 4 1 219

美國

4 1 435

施測

4 1 84

分數 次數 分數 次數 分數 次數

0 179 0 410 0 38 比利

時 5 1 215

美國

5 1 405

施測

5 1 82

分數 次數 分數 次數 分數 次數

0 321 0 705 0 94 比利

時 6 1 73

美國

6 1 110

施測

6 1 26

分數 次數 分數 次數 分數 次數 分數 次數

0 64 0 38 0 21 0 37

1 39 1 25 1 23 1 33

2 62 2 36 2 35 2 21

3 40 3 50 3 44 3 44

4 60 4 49 4 34 4 41

5 87 5 51 5 59 5 60

6 137 6 93 6 89 6 102

新加

坡總

7 72

香港

總分

7 41

日本

總分

7 57

台灣

總分

7 53

分數 次數 分數 次數 分數 次數

0 31 0 135 0 5

1 48 1 94 1 5

2 49 2 98 2 9

3 67 3 101 3 9

4 61 4 114 4 16

5 63 5 101 5 20

6 55 6 130 6 40

比利

時總

7 20

美國

總分

7 42

施測

總分

7 16

130

表附錄 4-2-2 數字卡題各國事後分析表

第一題 第二題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0130 0013 1 2 0029 0992

3 -0153 0001 3 -0052 0873

4 -0204 0000 4 -0090 0252

5 0019 0999 5 0011 1000

6 0078 0206 6 0109 0012

2 3 -0022 0999 2 3 -0081 0537

4 -0074 0612 4 -0119 0076

5 0149 0006 5 -0018 1000

6 0208 0000 6 0080 0326

3 4 -0052 0908 3 4 -0039 0979

5 0172 0001 5 0063 0796

6 0231 0000 6 0161 0000

4 5 0224 0000 4 5 0102 0212

6 0282 0000 6 0200 0000

5 6 0059 0697 5 6 0098 0101

第三題 第四題

1 2 0116 0734 1 2 0003 1000

3 0070 0974 3 -0041 0948

4 -0033 1000 4 0066 0612

5 0165 0287 5 0157 0000

6 0155 0156 6 0179 0000

2 3 -0046 0998 2 3 -0044 0952

4 -0149 0543 4 0063 0751

5 0049 0997 5 0154 0002

6 0039 0998 6 0176 0000

3 4 -0103 0889 3 4 0107 0141

5 0096 0918 5 0198 0000

6 0085 0907 6 0220 0000

4 5 0198 0174 4 5 0091 0294

6 0188 0091 6 0113 0019

5 6 -0010 1000 5 6 0022 0997

131

表附錄 4-2-2(續) 數字卡題各國事後分析表

第五題 第六題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0004 1000 1 2 0021 0996

3 -0044 0931 3 -0098 0050

4 0064 0655 4 0039 0914

5 0148 0001 5 0079 0203

6 0197 0000 6 0129 0000

2 3 -0048 0929 2 3 -0119 0015

4 0060 0801 4 0018 0999

5 0144 0008 5 0058 0699

6 0192 0000 6 0108 0006

3 4 0108 0140 3 4 0137 0002

5 0192 0000 5 0177 0000

6 0241 0000 6 0227 0000

4 5 0083 0425 4 5 0040 0933

6 0132 0003 6 0090 0047

5 6 0049 0838 5 6 0050 0675

數字卡總分

1 2 0043 1000

3 -0318 0582

4 -0159 0975

5 0579 0012

6 0847 4850

2 3 -0361 0529

4 -0201 0948

5 0536 0067

6 0804 0000

3 4 0159 0985

5 0897 0000

6 1165 0000

4 5 0738 0001

6 1006 0000

5 6 0268 0673

132

三幾何方塊題型

表附錄 4-3-1 幾何方塊題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 633 0 303 0 165 0 322新加

坡甲 1 482

香港

甲 1 458

日本

甲 1 604

台灣

甲 1 445

得分 次數 得分 次數 得分 次數 得分 次數

0 617 0 403 0 218 0 348新加

坡乙 1 499

香港

乙 1 358

日本

乙 1 551

台灣

乙 1 419

得分 次數 得分 次數 得分 次數 得分 次數

0 312 0 227 0 341 0 297新加

坡丙 1 804

香港

丙 1 534

日本

丙 1 428

台灣

丙 1 470

得分 次數 得分 次數 得分 次數 得分 次數

0 494 0 429 0 425 0 519新加

坡丁 1 622

香港

丁 1 332

日本

丁 1 344

台灣

丁 1 248

得分 次數 得分 次數 得分 次數 得分 次數

0 385 0 352 0 291 0 407

1 603 1 359 1 374 1 297

新加

坡戊

2 128

香港

2 50

日本

2 104

台灣

2 63

得分 次數 得分 次數 得分 次數

0 372 0 985 0 6 比利

時甲 1 398

美國

甲 1 655

施測

甲 1 113

得分 次數 得分 次數 得分 次數

0 348 0 976 0 13 比利

時乙 1 422

美國

乙 1 664

施測

乙 1 106

得分 次數 得分 次數 得分 次數

0 437 0 884 0 30 比利

時丙 1 333

美國

丙 1 756

施測

丙 1 89

得分 次數 得分 次數 得分 次數

0 373 0 908 0 23 比利

時丁 1 397

美國

丁 1 732

施測

丁 1 96

133

表附錄 4-3-1(續) 幾何方塊題各國得分統計表

得分 次數 得分 次數 得分 次數

0 335 0 754 0 29

1 340 1 762 1 57

比利

時戊

2 95

美國

2 124

施測

2 33

得分 次數 得分 次數 得分 次數 得分 次數

0 141 0 86 0 52 0 115

1 126 1 83 1 78 1 111

2 167 2 128 2 122 2 121

3 257 3 205 3 157 3 183

4 178 4 143 4 153 4 123

5 153 5 81 5 138 5 73

新加

坡總

6 93

香港

總分

6 35

日本

總分

6 69

台灣

總分

6 41

得分 次數 得分 次數 得分 次數

0 100 0 331 0 1

1 101 1 250 1 1

2 154 2 317 2 5

3 164 3 300 3 22

4 127 4 246 4 26

5 73 5 127 5 38

比利

時總

6 51

美國

總分

6 69

施測

總分

6 26

134

表附錄 4-3-2 幾何方塊題各國事後分析表

第一題 第二題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0170 0000 1 2 -0023 0984

3 -0350 0000 3 -0270 0000

4 -0150 0000 4 -0099 0005

5 -0085 0028 5 -0100 0003

6 0033 0793 6 0042 0545

2 3 -0180 0000 2 3 -0250 0000

4 0022 0993 4 -0076 0160

5 0085 0062 5 -0078 0138

6 0200 0000 6 0066 0152

3 4 0210 0000 3 4 0170 0000

5 0270 0000 5 0170 0000

6 0390 0000 6 0310 0000

4 5 0063 0350 4 5 -0002 1000

6 0180 0000 6 0140 0000

5 6 0120 0000 5 6 0140 0000

第三題 第四題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0019 0995 1 2 0120 0000

3 0160 0000 3 0110 0001

4 0110 0001 4 0230 0000

5 0290 0000 5 0042 0773

6 0260 0000 6 0110 0000

2 3 0150 0000 2 3 -0011 1000

4 0089 0043 4 0110 0003

5 0270 0000 5 -0079 0127

6 0240 0000 6 -0010 1000

3 4 -0056 0514 3 4 0120 0000

5 0120 0000 5 -0068 0285

6 0096 0002 6 0001 1000

4 5 0180 0000 4 5 -0190 0000

6 0150 0000 6 -0120 0000

5 6 -0029 0934 5 6 0069 0110

135

表附錄 4-3-2(續) 幾何方塊題各國事後分析表

第五題 總分

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0170 0000 1 2 0120 0913

3 0013 1000 3 -0330 0008

4 0220 0000 4 0320 0017

5 0081 0294 5 0230 0233

6 0150 0000 6 0600 0000

2 3 -0150 0001 2 3 -0450 0000

4 0052 0872 4 0200 0521

5 -0085 0348 5 0110 0949

6 -0013 1000 6 0490 0000

3 4 0210 0000 3 4 0650 0000

5 0069 0627 5 0560 0000

6 0140 0000 6 0940 0000

4 5 -0140 0008 4 5 -0087 0986

6 -0064 0514 6 0290 0023

5 6 0073 0354 5 6 0370 0000

Page 9: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較

VII

表目錄

表 2-1-1 實作評量與紙筆測驗的比較17

表 2-1-2 各種評量類型的比較18

表 2-2-1 TIMSS 2003課程架構27

表 2-2-2 維京評分系統28

表 3-3-1 試題架構48

表 4-1-1 95年魔術師題組得分情形分配表50

表 4-1-2 89年魔術師題組得分情形分配表50

表 4-1-3 魔術師ㄧ獨立樣本t 檢定51

表 4-1-4 魔術師二獨立樣本t 檢定52

表 4-1-5 魔術師三獨立樣本t 檢定52

表 4-1-6 95年擲骰子題組得分情形分配表53

表 4-1-7 89年擲骰子題組得分情形分配表54

表 4-1-8 擲骰子一獨立樣本t 檢定55

表 4-1-9 擲骰子二獨立樣本t 檢定55

表 4-1-10 擲骰子三獨立樣本t 檢定56

表 4-1-11 擲骰子四獨立樣本t 檢定56

表 4-1-12 擲骰子五 a獨立樣本t 檢定57

表 4-1-13 擲骰子五 b獨立樣本t 檢定57

VIII

表 4-1-14 95年猜一猜題組得分情形分配表58

表 4-1-15 89年擲骰子題組得分情形分配表58

表 4-1-16 猜一猜資料統計59

表 4-1-17 猜一猜獨立樣本t 檢定59

表 4-2-1 各題型之相關係數61

表 4-2-2 班級對總分之變異數分析62

表 4-2-3 性別對總分之組別統計量與t檢定表62

表 4-2-4 性別對各題之組別統計量與t檢定表63

表 4-3-1 95 年圖形題題組得分情形分配表66

表 4-3-2 圖形題百分比同質性檢定66

表 4-3-3 圖形題題組各國答對率的比較67

表 4-3-4 圖形題各題之資料統整68

表 4-3-5 圖形題各題之變異數分析69

表 4-3-6 圖形題各題之事後比較70

表 4-3-7 圖形題總分變異數分析的結果71

表 4-3-8 圖形題總分事後分析72

表 4-3-9 95年數字卡題題組得分情形分配表72

表 4-3-10 數字卡題題組各國答對率的比較73

表 4-3-11 數字卡題各題之變異數分析74

IX

表 4-3-12 數字卡題之事後比較75

表 4-3-13 數字卡題總分變異數分析的結果77

表 4-3-14 數字卡題總分事後分析77

表 4-3-15 95年幾何方塊題題組得分情形分配表78

表 4-3-16 幾何方塊題題組各國答對率的比較78

表 4-3-17 幾何方塊題各題之變異數分析80

表 4-3-18 幾何方塊題各題之事後比較81

表 4-3-19 幾何方塊題總分變異數分析的結果83

表 4-3-20 幾何方塊題總分事後分析83

表 4-4-1 實作評量概化程度變異成分表84

表 4-4-2 G研究與各種D研究之變異成分分析與推論力係數87

表附錄 4-1-1 圖形題各國得分統計表125

表附錄 4-1-2 圖形題各國事後分析表126

表附錄 4-2-1 數字卡題各國得分統計表128

表附錄 4-2-2 數字卡題各國事後分析表130

表附錄 4-3-1 幾何方塊題各國得分統計表132

表附錄 4-3-2 幾何方塊題各國事後分析表134

X

圖目錄

圖 2-2-1 1995年到2003年4年級學生的數學趨勢31

圖 2-2-2 4年級學生在男女性別上的差異33

圖 2-2-3 1995 到2003年的男女生進退步情形34

圖 4-1-1 百分比圖表比較結果51

圖 4-1-2 百分比圖表比較結果54

圖 4-1-3 百分比圖表比較結果59

圖 4-3-1 圖形題題組答對率之比較圖67

圖 4-3-2 數字卡題題組答對率之比較圖73

圖 4-3-3 幾何方塊題題組答對率之比較圖79

1

第一章 緒論

本研究主題是利用 TIMSS 1999 跟 TIMSS 2003 的公開實作評量試題為測驗工

具比較探討台灣學生在這方面的進退步情形本章節將說明本研究的研究動機

與目的問題和研究中所用的特定名詞

第一節 研究動機 從民國八十二年民間團體發起了 410 教改大遊行迄今此波教育改革歷時 12

年最近因為中央研究院李遠哲院長在立法院接受立委質詢時對教育改革因為

沒有減少學生的壓力而公開道歉(中時電子報 2005)又引起了一陣教改失敗

的言論其實改革是多面向的學生的壓力固然是改革的重點但學生的程度更

是我們所關心的畢竟學生的程度關係著下一代的競爭力所以在國民中小學九

年一貫課程綱要(教育部民 92)中特別提到迎接二十一世紀的來臨與世界各

國之教改脈動政府必須致力教育改革期以整體提升國民之素質及國家競爭

力所以改革是為了回應社會期待以及國家發展的需求基於此項認知由中

央研究院國科會和教育部共同規劃的「台灣地區教育長期追蹤資料庫」(Taiwan

Education Panel Survey簡稱 TEPS)預計用六個學年國中樣本從 2001 年 9

月開始高中樣本分成 2001 年下半年和 2003 年上半年進行兩個梯次的資料收

集主要研究團隊包括六位中研院全職研究人員投入大量的時間與精力以及多

位大學相關領域之研究者積極參與可見這項工程的浩大與重要所以本研究主

要為利用一份已發展成且具有信效度及良好試題特性的國小數學實作評量題目

來進行施測其結果除了跟民國 89 年研究者徐美英的結果相互比較學生程度差

別外並為後續研究者提供相互比較的基準

國際教育成就調查委員會 (The International Association for the

Evaluation of Educational Achievement簡稱 IEA) 主辦的「國際數學與科

學教育成就趨勢調查」(Trends in Mathematics and Science Study 2003簡

2

稱 TIMSS 2003)是自 1995 年以來第三次主辦連續週期性調查學生的數學和科學

成就主要目的在提供各國長期追蹤學生數學和科學趨勢成就以提升學生數學

和科學的學習成效由此可見學生程度一向是國際重視的課題世界各國尤其

是美國不斷的監測自己國家學生的程度不僅僅與國際上各國進行比較並將

資料建檔也進行縱貫比較另外除了本研究所提的 TIMSS 是針對數學與科學外

還有PIRLS針對語文科進行比較PIRLS目前有2001跟2006年兩年資料而TIMSS

則已經有 199519992003 三年的施測2007 年的施測目前已經開始進行籌劃

TIMSS 2003 以 13 歲群(即國二生)和 9 歲群(即小四生)為調查對象國科會和

教育部體認到未來我國國民在國際上競爭力的重要性希望持續了解我國學生的

學習成就與家庭背景學習環境教師等影響因素的關係以及我國學生的學習

特色與優缺點並與其他國家進行比較提供改進我國中小學數學及科學教育政

策及課程之參考並積極參與國際間科學教育的交流與合作因此補助國立台灣

師範大學科學教育中心進行 TIMSS 2003 調查研究TIMSS 2003 從 2000 年九月

開始發展研究調查相關工作總計有 49 個國家參加其中 48 個國家參加 13 歲

群調查26 個國家參加 9歲群調查我國自 2001 年元月開始加入 TIMSS 2003 國

際調查工作包括提供命題架構意見數學和科學試題命題試測(field test)

資料收集參加專家問卷會議實測(main survey)資料收集參加公佈 TIMSS

2003 結果記者會國際成果指標會議國際資料分析會議等各項工作國內學者

引用 TIMSS 相關資料進行相關研究的有

(1)徐美英TIMSS 數學實作評量在台灣之試用探討(民國 89 年)

(2)洪瑞鎂從「第三次國際數學與科學教育成就研究後續調查」探究台灣國

二學生的數學基本能力(民國 90 年)

(3)洪佳慧由教科書內容與性別面向分析我國國二學生在第三次國際數學與

科學教育成就研究後續調查(TIMSS-R)的學習表現-生命科學以及環境與資源議

題部分(民國 91 年)

(4) 劉佳容我國國二學生在 TIMSS-1999 中之理化學習成就分析(民國 91 年)

3

(5)侯怡如由考試文化的角度分析我國學生在 TIMSS 1999 的答題表現----生

命科學部分(民國 92 年)

(6) 鄭心怡教育指標與經濟指標對學業成就影響之國際比較以 TIMSS 為例

(民國 93 年)

(7)羅珮華從「第三次國際科學與數學教育成就研究後續調查(TIMSS 1999)」

結果探討國中學生學習成就與學生特質的關係七個國家之比較(民國 93 年)

(8)顏秀玫我國小學四年級學生在「2003 年國際數學與科學教育成就趨勢調

查(民國 93 年)

(9)張謝玲宜蘭區某國中國二學生 科學成效影響因子之探討-引用國際調查

報告 TIMSS-R 之研究方法(民國 93 年)

綜觀上述國內學者研究的內容可以發現均重視該年段橫向的比較而缺乏

進行縱貫的研究值此世界各國進行教育大改革之際台灣也難免追隨這波改革

浪潮在課程內容與制度大變動之際學生是否保持原有的程度或甚至更好是

值得我們更加關注在國民中小學九年一貫課程綱要(教育部民 92)中針對

數學科明確提出下列四個原則一 參考施行有年且有穩定基礎的傳統教材

二 採用國際間數學課程必備的核心題材三 考慮數學作為科學工具性的特

質四 現有學生能夠有效學習數學的一般能力具體而言九年一貫數學學

習領域的教學總體目標為

(1) 培養學生的演算能力抽象能力推論能力及溝通能力

(2) 學習應用問題的解題方法

(3) 奠定下一階段的數學基礎

(4) 培養欣賞數學的態度及能力

其中國民小學階段的目標為

(5) 在第一階段(一至三年級)能掌握數量形的概念

(6) 在第二階段(四至五年級)能熟練非負整數的四則與混合計算培養流暢

的數字感

4

(7) 在小學畢業前能熟練小數與分數的四則計算能利用常用數量關係解

決日常生活的問題能認識簡單幾何形體的幾何性質並理解其面積與體積公

式能報讀簡單統計圖形並理解其概念

由以上的課程目標中可以清楚的看出數學課程的改革內容除了參考以往課

程內容之外也參考國際的課程內容進行改革並因為數學具有工具性的性質

具體的指出各階段需要具備的基本能力研究者希望透過已具有信效度及良好試

題特性的國小數學實作評量題目的施測一方面跟國際資料庫進行學生程度的比

較另一方面也跟徐美英TIMSS 數學實作評量在台灣之試用探討(民國 89 年)

在台灣施測的資料進行縱向比較以了解學生在這幾年的教育改革中在國小四

年級這個範圍內透過實作評量的方式評斷出來的能力是否有所差異

徐美英論文中指出其自編試題(猜一猜)學生能夠完整的敘述解釋百分比

僅達 549所以表示台灣學生在以數學語言的溝通上尚待加強而該試題與

TIMSS 試題有一定程度相關的是擲骰子繞過彎道和魔術師所以本研究研究者

打算選取其中 3 題(猜一猜擲骰子魔術師)找跟原論文相似的環境(住宅

跟工業混合區的學校)進行施測將兩項資料進行比較以探討在這樣的環境背

景中的學生經過這 5年的教育改革後對這個範圍內經由實作評量所測出來的

能力是否有所不同另外再從 TIMSS 2003 已公佈的實作評量題目中找出 3

題(幾何方塊數字卡圖形題)進行施測其結果跟國際資料庫進行比較進

一步探討這樣環境下的學生跟原始台灣施測資料中的學生是否有程度上的差

異跟國際上整體表現較好的國家學生的表現比較是否有程度上的差異

本研究測驗題目將從徐美英論文中選取 3 題從 TIMSS 2003 公佈的實作評

量試題中選取 3題並以 TIMSS 對實作評量採取的維京評分系統(又稱建構反應

評分系統Constructed Response簡稱 CR)為評分工具資料用 SPSS 進行分

析比較並以推論力理論推算本次施測的信度係數研究者希望能從施測中獲得

教育改革的成果從實作評量的角度是否是進步的並期待施測的資料能提供

未來需要再做類似研究者的比較基準

5

第二節 待答問題 壹探討特定環境背景的台灣國小四年級學生在民國 89 年與民國 95 年對

TIMSS 1999 實作評量的成績有何差異

貳探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 實作評量的

成績在性別及班級間是否有差異

叁探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 實作評量的

成績與台灣原始施測資料中的學生實作評量成績是否有程度上的差

肆探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 的實作評量

成績與國際上整體表現較好國家的學生實作評量成績是否有程度上

的差異

第三節 名詞釋義

壹實作評量

在教室情境中學生有幾類學習行為及其成就表現是無法用客觀式紙筆測

驗來正確評量出來的這些學習行為表現包括

(1)溝通技能(如說話口語表達演講朗讀寫作等)

(2)心理動作技能(如實驗室內的儀器操作書法打字繪畫工藝烹

飪樂器演奏戲劇表演等)

(3)運動技能(如跑跳直球游泳舞蹈等運動技能)

(4)概念應用(如應用所學的概念和知識解決日常生活所遇到的實際問題)

(5)情意特質(如團隊合作遵守規定自我反省等)

這些都是強調實際的表現行為(actual performance)都需要教師根據學生的

表現過程之有效性或最後完成作品的成果品質分別或合併地進行評分才能決

定學生在這方面學習的成就高低這種強調實際表現行為的評量方式稱為「實

6

作評量」(performance assessment)(余民寧民 93)所謂實作評量就是在自

然或已建構好的環境中要求學生執行或處理(process)一件指定的工作並

由教師觀察或評鑑學生的建構性反應的過程與結果看他們是否適當精確和完

美的達成教學目標(歐滄和民 91)

貳TIMSS

國際數學與科學學習成就調查研究係由國際教育學習成就調查委員會主

持主要目的在於了解各國數學與科學學習成就與各國文化背景教育環境影響

因子之相關性並進一步做國際間之比較研究分析第一次國際數學與科學教育

成就調查於 1970 年舉行共有 19 個國家參與經十年後1980 年進行第二次國

際數學與科學教育成就調查(SIMSS)有 24 個國家參與我國曾於 1987 年 5 月

經 IEA 總部同意引用第二次國際數學與科學教育成就調查工具在我國進行測

驗(但不是正式參加)由國立台灣師範大學科學教育中心負責執行以了解我國

國小國中及高中學生數學及科學成就在國際上所佔的地位IEA 自 1990 年開始

推動進行「第三次國際數學與科學教育成就研究(Third International

Mathematics and Science Study TIMSS)」本計畫有四十餘國參加第三次國

際數學與科學教育成就研究後續調查(稱為 TIMSS REPEATTIMSS-R)於 1999 年

舉辦調查對象為國二學生(13 歲群)共有 38 個國家參加鑒於世界各國對國

際數學與科學教育成就研究的熱烈反應IEA 計劃往後每四年辦理國際數學與科

學教育成就研究一次並改名為國際數學與科學教育成就趨勢調查(Trends in

International Mathematics and Science Study 簡稱 TIMSS )TIMSS 2003

的調查對象包括國小四年級及國中二年級學生TIMSS 的測驗內容包括數學跟科

學並從學生教師和校長們的回答中廣泛地蒐集有關數學跟科學教學與學習資

料另外還經由課程指引教科書和其他教學媒體的分析探討參與國家的數學

7

和科學課程並將結果發表成一系列的國際報告讓參與國家的教育政策制定者

和實務工作者得到有關在數學與科學教學上跟學生學習成就上的珍貴訊息

第四節 研究限制

本研究對於整個計畫的擬定與進行過程中由於在時間上與人力上尚有所不

足的影響以至於對本研究的進行有所限制茲分別就研究工具與分析研究樣

本與應用範圍兩方面說明之

壹研究工具與分析

在 TIMSS 2003 試題部分由於是翻譯試題照理應該經專家學者進行反譯

程序以確保試題的原意未被扭曲但因資源限制所以只經國小專任資深英文

教師與研究者討論而定案

貳研究樣本與應用範圍

因人力與時間的限制只能選擇一間學校來實驗因樣本受限於某一學校

所以本研究的結果與建議限制受限於相同類型的學校

8

第二章 文獻探討

本研究的文獻探討將分成三節第一節為探討實作評量的意涵和特色以及

國內相關實作評量的研究第二節為 TIMSS 的簡介及國外相關的研究第三節為

TIMSS 試題與國內數學課程的分析

第一節 實作評量

壹實作評量的緣起

長久以來多數人將評量窄化為紙筆測驗的考試用考試的成績來論斷一個

人的高下使得評量的目的偏狹方式單調內容枯躁意義盡失再加上過度

倚賴標準化測驗常導致課程窄化且易流於基本技能與片面瑣碎事實的學習忽

視複雜思考和問題解決能力(江文慈民 87詹志禹民 85)簡言之考試第

一分數至上的迷思等於將評量窄化了也扭曲了評量的目的更簡化了評量

的結果事實上考試只是評量的方法之一評量的目的是要提供學生有益的回

饋評量的改革意味著教學與課程發展的改進因此在教育改革中教師要採

用新的評量方式以符合教學的新趨勢評量的意義在於了解學生學習與教師教

學之用其主要的目的是在教育的過程能隨時掌握學生的學習讓教師明白教

學情況藉以發揮教育的效率與效能實作評量受到歡迎的主要原因之一是一

般人對於選擇式的測驗題感到不滿意例如選擇式的測驗題只能測量學生「知

道」什麼但無法測量學生「能做」什麼此外認為以選擇題為主的標準化測

驗對於教師的教學和學生的學習造成一些偏差的影響標準化測驗經常是一般家

長用來評估學校教學績效的方式在績效的壓力之下造成部分教師教學側重於

測驗的內容而扭曲了教學的面貌和窄化學生的學習結果在教育改革的推動

上教育界期望藉著評量的革新來提升教師教學的品質和學生學習的成就此

外一些入學考試和證照考試也在原有的選擇題之外增加建構反應題或實作測

9

驗部分實作評量在教育界和測驗界已是一個非常顯明的趨勢Silver(1993)

認為假如我們沒有將看過或聽過的數學留住那它將永遠不會變成我們的知識

所以實作評量吸引人的地方正在於它讓教師更能洞悉學生的思考並將所得的訊

息直接應用在教育計畫中

實作評量的提倡者主張實際工作的評量模式比紙筆測驗更能充分深入的了

解學生的知識和理解程度(Haertel amp Linn1996)以下將各學者對實作評量

的定義整理概述如下

一以觀察和專業判斷來評量學生學習成就的評量方式都可以稱為實作評量其

型式非常的多元化例如建構反應題書面報告作文演說操作實驗

資料蒐集作品展示等都是實作評量的例子( Stiggins 1987 )

二案卷評量也是實作評量的一種型式實作評量具有下列幾點特徵

(一)要求學生執行或製作一些需要高層思考或問題解決技能的事或物

(二)評量的作業( tasks )是具有意義性挑戰性且與教學活動相結合

(三)評量的作業能與真實生活產生關聯

(四)歷程( process )和作品( product )通常是評量的重點

(五)表現的規準( criteria )和標準( standards)-也就是評量的重

要層面與給分標準要事先確定實作評量有時也被稱為真實性評量

(authentic assessment )( Herman Aschbacher amp Winters 1990 )

三實作評量可視為『以超越傳統評量方式為了解學生熟練度而蒐集資料的一

種評量方式』(DnubarKoretz amp Hoover1991)

四實作評量不僅反應出學生解答的正確性同時也顯現出其得到答案的過程

(Ruiz-primoBaxter amp Shavelson1993)

五實作評量是應用各種評量方式評量各種能力及技巧要求學生展示知識的

應用而非僅展示知識的本身(Long amp Stansbury1994)

六實作評量乃是模擬一些標準情境(亦即是在自然情境下的實作)之測驗其

10

模擬的程度高於一般紙筆測驗所代表者(陳英豪吳裕益民 85)

七實作評量係指根據學生實際完成一項特定任務或工作表現所作的評量這些

任務或工作可能是實際操作口頭報告科學實驗數學解題寫作hellip等

因此其所使用的方式係透過直接的觀察學生表現或間接的從學生作品去

評量(吳清山林天祐民 85)

八凡是以學生在評量過程中的表現或成果作為評量的依據再根據教師的判

斷用事先指定的標準來評定等級的評量方式都可稱之為實作評量(夏

淑琴民 88)

貳實作評量的特色

綜合國內外學者觀點實作評量具有以下特色

一銜接教學與評量教學與評量的密切配合可以對學生的學習情形提供較全面

性的完整的深入的訊息此訊息可以幫助老師更了解學生的學習優勢及

問題掌握學生真正的能力及進步情形使老師能在教學上做適當的調整來

幫助學生解決問題提升其學習水準而惟有重視過程的評量學生才有機

會去反思自己學習上的問題省察如何在學習上求進步而這些也才是真正

的學習

二使學習更有意義更深入強調教學與評量的內容應為重要的完整的概念

而非瑣碎知識的累積應重視思考與問題解決能力的培養而非低層次的記

憶與歸納它的目的在幫助學生獲得完整有意義的概念增進表達技巧及

運用策略的能力並激發學生從事較複雜的深層思考所以實作評量著重脈

絡下有意義的學習在教學與評量的過程中它鼓勵學生主動探索深入思

考並表達學習此種評量方式有助於提升學生的思考及問題解決能力使

學生的學習更有意義更為深入

11

三強調學生知道什麼能做什麼實作評量的重心不在於偵測學生哪裡做錯了

而在於強調學生知道什麼能做什麼及如何再進一步知道得更多做得更

好簡言之其精神是「你會做很多事你還可以學會更多事」對於學生

嘗試去做好某一件事的努力(縱然尚未達到預期的目標)也給予正面的回

饋以學習理論而言較符合學習理論中的公平性或正當性亦即努力是有

收穫的

四強調與實際生活的結合實作評量可以讓教師瞭解學生對問題瞭解程度投

入程度解決的技能和表達自我的能力能夠較完整的反映出學生的學習結

果因為實作評量與真實生活較為相近其支持者認為實作評量能夠增進學

生學習的動機提高學生參與和投入的程度

五幫助學生建構有意義的學習情境發展問題解決能力批判性思考和表達自

我的能力

六有時候實作評量也可以做為一種教學策略提高學生的學習興趣和學習結

果評量和學生的學習以及老師的教學應該是密不可分並且互相支援的評

量的目的是幫助學生學習跟老師教學所以評量應該是自然的融入出現在

課堂而不是強制性的加進課堂上實作評量與實際教學過程有相當密切的

關係往往可以成為實際教學的一部份實作評量本身就是一種有效的教學

活動

七鼓勵合作學習許多文獻顯示合作學習可以提高學生的學習成就增強學

生的理解能力藉由溝通與辯論的過程學生可以重述自己的概念架構和知

識體系以促成有效的概念改變並達到有意義的學習在一個小組合作評

量的情境下藉由同儕的誘導和鼓勵彼此意見的分享並相互進行共同評

量是提高學生成就表現的重要機制

八直接評量排除語文能力的干擾實作評量比較不需要用到語文能力這對

於閱讀或文字表達能力較差的學生而言是比較公平的

12

叁實作評量的目的

Webb(1992)認為一個好的評量應具備四個目的第一個目的是成為教師蒐

集資料的工具透過評量的回饋教師可以知道學生學會多少和能做什麼第二

個目的是要表達學生在學習過程中所做所學的哪些東西是有價值第三個目的

是提供教育決策者一些教學績效之訊息最後的目的評量應該對整個教育體系

提供積極之建議(張敏雪民 86)雖然評量方式會因不同的評量目的而有所

不同然而現行的紙筆測驗過於強調排等第忽略了評量原先之目的教師只

教要考的學生只讀要考的成了所謂「考試領導教學」然而二十一世紀的

國民不是只會在試卷作答的人而是要有「分析預測及適應能力的人」簡而

言之就是能為生活而思考的人(曾慧敏民 87)實作評量重視教育過程本身

的價值和學生主動建構的能力因此重視學生學習過程和結果讓學生有意義

的學習使學生能靈活應用所學不僅評量認知層次也評量技能及情感層次

較傳統的紙筆測驗更能蒐集到學生較豐富的學習訊息

實作評量的目的如下(桂怡芬民 85曾慧敏民 87 Linn 2000)

一檢視學生學習成果是否能達到教學期望的結果

二從評量的結果能清楚交代學生的學習成就

實作評量能直接觀察學生到達結果的過程不只是評量答案之正確性能完

整的呈現學生在複雜能力及歷程上的表現並能依表現推論其構念表現

三藉由此評量可展現學生的技能和能力

實作評量除了能直接的測出學生問題解決的歷程與結果也能展現出高層次

認知情意與技能及後設認知等能力

四使得教學與評量能充分配合

實作評量注重與教學的互動其主要的目的為幫助學生的學習與改進教師的

教學

13

五為課程改革的重要指標

因實作評量標榜著可提升學童高階思考與問題解決的能力因此在教育改革

時備受重視

肆實作評量步驟

實作評量強調在和生活相關的情境下能讓學童展現所知所學的能力來解

決問題然而若是活動或作業設計不夠完整評分規準不夠明確等都可能導

致實作評量無法達到預期的目的(鄒慧英民 87)因此應如何設計出一份好

的實作評量試卷呢(Stiggins 1994)以下提出幾個注意要點

一確立設計評量的原因與目的

評量之所以實施一定有其原因包括確定評量結果所要作的決定例如

分組個別鑑定等第評定與優缺點的診斷等接著考量評量結果是否用於「排

名」或用於決定學生否達到精熟水準

二設計實作評量的內容

(一)選擇作業的形式

可以蒐集教室中自然而然發生的事件也可以設計結構化作業引發

學生表現的機會測出學生真實能力的實作評量

(二)決定評量的實施情境

因為怕受試者的動機與考試的焦慮可能影響學生的真實能力之表

現施測者可考慮事先告知學生相關評量的性質與評分標準因此在一

般的測驗情境下應先觀察受試者的焦慮情形再決定是否事先告訴受試

者評量事宜或採取不事先告知以測出學童最大的表現能力本研究採取

後者

(三)確定所要編製的實作試題數

14

決定實作題目數量應考慮評量的作業是否具代表性蒐集到的證據數

量是否可以提供較精確的學生能力思考層次

三確定實作評量成績計分標準

(一)決定分數的型式

如果評量的目的是做為分組或選擇的依據則可採整體性評分若是

診斷或檢定學童的基本能力可採取分析性細部評分本研究為診斷學童

分數的學習能力採用開放式的結構題型由學生自行建構答案因此

根據不同的答案給予不同層次的分數

(二)選擇評分者

評分者可為教師專家同學或受試者本身但基本上所有的評分

者得先接受專業的評分者訓練使每個人對評分歸準有所共識本研究請

已有五年以上之教學經驗的教師擔任評分者

(三)紀錄評分結果的方法

可採用檢核表評定量表軼事紀錄表等評定量表同時呈現了觀察

項目及分數評比常用於歷程與結果之評量適用於各學科之實作評量

本研究採用評定量表來紀錄評量結果總之發展實作評量時首先需

澄清「教學目標」與「評量的目的」是必要的其次「評量內容」或「評

量對象」取樣的代表性更是影響評量效度的重大因素最後清楚的「評

分規準」與完整的「評分者訓練」及詳細的「評分程度」則是影響評量的

信度唯有如此才能獲致高品質的實作評量(鄒慧英民 86)

伍實作評量的限制

一實施上非常耗費人力時間跟金錢

真正在實施實作評量時通常會受到器材跟場地的限制或是因為擔心產生相

15

互干擾因素而一次只能有限個學生同時進行施測這點跟團體施測的紙筆測驗

相比是非常耗費人力跟時間另外實作評量常需要有器材設備以及消耗性材料這

點跟團體施測的紙筆測驗相比是非常耗費金錢

二測驗情境控制困難

由於不是同時全體施測所以先後受測的學生容易相互干擾而且未受測

的學生跟已受測的學生的交談或傳授經驗也影響到考試的公平性加上前後施

測使得後面的同學很難有一致的施測條件例如場地未乾淨儀器未復原或被

損壞等

三計分不容易客觀

實施實作評量的目的不外乎想根據評量結果來為學生做決策因此獲

得一個正確而又可靠的評量結果(即高信度跟高效度值)便成為一件很重要的

事然而很不幸的實作評量如論文評分一樣由於是使用觀察跟判斷等兩類比

較主觀的評分方式來進行所以其結果難免具有很高的評分者誤差存在一般而

言評分者誤差有三種來源偏見月暈效應跟評量次數過少

四對容易焦慮的學生不利

實作評量的正式性與控制性會使得缺乏自信心或很在意他人評價的學生

產生過度焦慮進而影響其表現

陸實作評量的信效度

實作評量的信效度仍有待探討實作評量的信度通常是以概化程度

(generalizability)來描述(BaxterShavelsonGoldmanPine1992Dunbar

et al1991LinnBakerDunbar1991Linn1993Moss1994Ruiz-Primo

et al1993ShavelsonBaxterGao1993)概化程度包括評分者之間一致

的程度以及學生在不同工作項目(task)表現的一致程度(Shavelson et

16

al1993)根據 Shavelson 等人的研究結果發現實作評量在評量工作項目方面

的概化性較低顯示學生在不同工作項目上的表現有較大的差異在效度方面

實作評量所顯露出的問題有以下三個

一客觀性及公平性實作評量通常僅以一個評分者評定學生的表現所以

評量的結果可能過於主觀或有潛在的偏見(bias)問題(Airasian1991

Frechtling1991Linn et al1991Linn1993)

二評量內容的涵蓋性由於實作評量實施方式及時間的限制通常所評量

的學生行為表現較傳統測驗為少即評量內容的涵蓋範圍較小不易獲得學生行

為的適當樣本(Airasian1991Linn et al1991Linn1993)

三成本及效率問題這部份即時間與經濟的考量Linn 等人(1991)Linn

(1993)及 Messick(19941995)將這一點併入實作評量的效度標準

Baxter 等人(1992)Ruiz-Primo 等人(1993)及 Shavelson 等人

(199119921993)均從概化理論(generalizability theory)的觀點出發

採用取樣架構(sampling framework)來分析實作評量的信度(概化性)探討

評分者間評量項目間評量時間等的取樣變異以及其他潛在的誤差來源他們

針對神秘的電路盒(electric mysteries)毛細現象(paper towels)及小蟲

的習性(bugs)等評量項目採專家觀察(expert observation)實驗筆記

(notebook)電腦模擬測驗(computer simulation test)及紙筆測驗等方式

記錄學生的表現研究結果發現與評分者有關的取樣變異不大評量時間的取

樣變異極小而評分者與受試者間的交互作用(ratertimesperson interaction)和

評分者與評量項目的交互作用(ratertimestask interaction)這兩個部份的變異也

幾乎為 0故他們認為只要一個經過良好訓練的評分者(one well-trained

rater)即可用以評定學生在實作評量上的表現但他們發現在實作評量中評

量項目與受試者及該兩者與時間的交互作用是兩個最大的變異來源研究結果顯

示學生的表現因為工作項目的不同而有極大的差異而這樣的變異在不同時機上

17

更是明顯因此欲提高實作評量結果的一致性必須增加評量的工作項目使得以

學生在實作評量上的行為表現做其能力的推論時能夠降低與學生實際能力無關

的變異

Baxter 等人(1992)及 Shavelson 等人(19921993)主要是從評量對學生

能力的鑑別程度不同評量方式間的輻合效度不同特質及方法間的區辨效度等

三方面探討實作評量的效度他們的研究結果顯示不同的測量方法所得到的結果

並不一致Shavelson 等人(1993)發現在同一個工作項目之下不同的測量方

法中實驗操作與實驗記錄的相關最高實驗記錄與紙筆填充測驗及電腦模擬測

驗與紙筆填充測驗之間的相關最低這是因為實驗操作與實驗記錄為同一思考流

程所以相關較高此外他們也發現受試者與工作項目及測量方法間的交互作

用及誤差是變異的最大來源表示不同的測量方法可能是在測量科學成就的不同

面向(Shavelson et al1993p227-229)最後在不同工作項目之下採用

相同或不同測量方法所得到的相關的確較低顯示實作評量具有區辨效度

柒實作評量與其他評量的比較

大體上實作評量具有下列各項功能(Airasian 1994)茲列表如下

表 2-1-1 實作評量與紙筆測驗的比較

實作評量 紙筆測驗

學生把知識轉化成可觀察的表現行

為或成品的能力 主要涉及學生的知識及資訊的獲得

設計及施測費時但評量表可針對

同一或新的學生重複施測

設計費時但可同時施測許多學生

同組學生僅能使用一次

學生表現不佳可予診斷及補救

可監控學生進步實況

除論文式及開放式數學題之外甚少

提供方向指示如何改進表現

教學首重表現及過程 教學重內容知識

資料來源Airasian (1994) P236

18

表 2-1-2 各種評量類型的比較

客觀式測驗 論文式測驗 口頭發問 實作評量

目的

以最大的效率

及信度測驗

代表性的知

評估思考的技

巧及知識結構

的瞭解程度

教學時評估

知識

評估知識及瞭

解化為行動的

能力

學生的

反應

閱讀評量

選擇 組織寫作 口頭回答

計劃建構

及表達原始的

反應

主要優

效率在測驗

時間內可測驗

到許多項目

可測量複雜的

認知結果

使評估與教學

結合

提供充分的表

現技巧

對學習

的影響

過度強調回

憶鼓勵背誦

記憶如能適

當出題可促進

思考技巧

鼓勵思考及寫

作技巧的發

刺激學生參與

學習提供教

師立即回饋了

解教學是否有

強調運用知

識技巧於實

際的問題情

資料來源Airasian (1994) P229 et ls

捌實作評量相關研究

國內有許多探討實作評量設計的可行性研究以下將就國內學者所做的研

究整理說明

一陳文典陳義勳李虎雄簡茂發(民 84)美國馬里蘭州學校實作評

量國際共同研究計畫

將 MSPAP(the Maryland School Performance Assessment Program)的

19

試題轉譯成中文在國內進行小規模的施測藉以了解這種測驗的功能

使用上的時機及應用上的困難在其對我國五年級學生施以數學理化

和生物等實作評量題目後發現此種測驗模式能遍及各項科學能力我

國學生在回答問題時顯示其傳達與獨立作業能力均不足其評分客觀

的標準化可經由評分者講習的培訓達到目標實作評量可適用於平時作

業學生的科學能力競賽或教育行政單位的各校科學教育教學成效評鑑

等時機

二徐美英(民 89)TIMSS 數學實作評量在台灣之試用探討

(一)TIMSS 試題在台灣之施測具有信效度

(二)台灣四年級學生在 TIMSS 實作評量的表現顯著優於美國和香港地

區的學生

(三)TIMSS 試題在台灣之施測在男女生之間和班級間在總得分並

沒有顯著差異

(四)自編之試題猜一猜與 TIMSS 試題擲骰子繞過彎道

和魔術師有一定程度的相關

三洪之昀(民89)數學科實作評量對國小高年級學童學習策略影響之研究

(一)學生認為實作評量能增加對數學內容的了解提升學習興趣發

現數學的有趣擴大學習範圍並兼具情意評量的功能但也有學生認

為實作評量在實施上太麻煩且費時

(二)學生批判思考數學溝通數學表達的能力有待加強

(三)學生具有多方面的潛能亟待以實作評量的方式加以開發

四詹元智(民 91)國小數學科實作評量之效度探討

採準實驗研究設計的方式進行以屏東師範學院附屬小學六年級兩個班

的學生為研究對象一班為實驗組接受為期二個半月的數學實作評量

另一班為對照組接受傳統數學紙筆測驗的評量研究者於實驗前與實

20

驗後對兩組學生施以「傳統數學紙筆測驗」「數學實作評量」及「數學

學習解題態度」等三種測驗的前後測並對部份學生進行「數學實作

評量前後測的放聲思考訪談」概化性研究的分析結果顯示在一位評分

者及一題作業項目上之評分者間的變異相當小(319)不過分數的變

異有相當大的比例(約 50)是來自作業項目間及作業項目與受試者交

互作用的變異而在二位評分者及五題作業項目之概化性係數可達 08

以上顯示該研究之數學實作評量的結果能有效地推論至學生在其他評

分者及實作評量作業上數學問題解決的表現

五李長柏(民91)國小數學簡單機率解題實作評量與後設認知之相關研究

(一)數學解題實作評量具有良好的信效度

(二)本研究結果顯示具有良好的評分者信度

(三)數學解題能力和後設認知能力具有相關性

(四)性別在數學解題能力和後設認知能力上沒有差異

六王秀琲(民 92)實作評量在國小數學科之應用-以五年級學童分數為例

(一)實作評量能實際測出學童的分數概念在分割活動上連續量比

離散量好在表徵轉換上具體操作轉換符號模式為佳圖形轉換符號

模式較不理想分割策略會因情境的不同而使用較為簡便的方式來

解題

(二)從實作評量中學童能展現自行所建構的解題策略所獲得的訊

息比紙筆測驗多

(三)以 SS 分析法來分析實作評量之試題所呈現的試題關聯結構圖

中可以了解等分和連續量的分割活動是學童最易理解的概念而離散

量分割等值及單位量則是學童最難理解的概念

七張永杰(民 92)實作評量取向的幾何思考研究

(一)年級之幾何水準層次分佈情形有統計上的顯著差異存在年級

21

越高屬於高層次水準的學生越多

(二)當受試學生通過某一水準層次n的考驗但卻未能通過之前的任

一水準層次的考驗則稱為逆序現象有 697學生之幾何層次分佈呈

現逆序的情形

(三)學生不同 van Hiele 水準層次在後設認知能力上表現出顯著差異

(四)順序組學生能力值越高集聚的情形越明顯結構越完整逆序

組學生的概念結構比較少集聚呈現零散不完整的結構

(五)順序組能力低的學生所形成的關連結構比較零散而且概念間

的關聯程度不高能力越高的學生其關連結構概念問題結構化比較明

顯而且上下位觀念比較顯著逆序組學生的關連結構不但呈現零散不

完整的結構且關連結構圖中上下位觀念的情形比較不規律顯現其

概念結構比較雜亂

八林敬修(民 92)影響國小數學科實作評量信度相關因素之類推性理論

分析

(一)影響數學科實作評量分數一致性的主要變異來源為受試者與作業

項目交互作用(ptimest)變異其次為受試者(p)變異再其次為作業項目(t)

變異

(二)在評分者數學知能背景及評分者訓練對數學科實作評量分數一致

性的影響方面評分者的給分一致性因評分者數學知能背景及評分者訓

練而不同

(三)在題目結構度對數學科實作評量分數一致性的影響方面跨不同

結構度之作業項目對分數一致性的影響遠大過於跨相同結構度之作業項

目對分數一致性的影響此外不同數學知能背景及評分者訓練的評分

者在不同結構度的試題給分一致性上也有差異

(四)整體而言各評分組別的評分者一致性因評分向度之不同而有差

22

異其中以在「溝通表達」此一評分向度上的評分者一致性最低

九呂政隆(民 93)國小學童在數學實作評量解題整合認知與課程之相

關研究

運用實作評量的方式分別在九十學年度九十三學年度對五年級學生

施測以探討學生的數學解題與整合認知能力之相關性進而探討性別

課程在數學解題與整合認知能力上是否有顯著差異研究結果顯示實施

九年一貫課程後之九十三學年度整合認知中能力組在本研究之四份實作

評量之數學解題能力明顯低於九十學年度實施八十二年版國民小學課程

標準之數學解題與整合認知能力組

十石千奇(民 93)國小六學童在數學實作評量中的小組解題歷程分析

解題歷程模式受同儕討論的影響小組解題是四個人四條思考路線互相

牽引的結果解題歷程模式受操作實物的影響操作實物會影響解題階

段進行的走向小組成員並非全程參與解題歷程會因為題目的難易

互動過程階段性質等因素的影響而未能全程參與小組解題的階段變

化各行其道在各個解題階段的參與變化沒有一致性的發展操作實物

對各個解題階段皆有影響各產生不同的作用小組成員喜歡在實作評

量中以小組解題的模式解題覺得這樣的評量方式可以幫助解題

因此建議數學教師多採用以四人為一個小組在形成性評量中以小組

解題的方式進行實作評量

十一曲慧娟(民 94)實作評量在國中學術性向優異班招生鑑定之效度研

究~以臺灣北區為例

(一)錄取組和未錄取學生在入學後成就表現的差異分析顯示英文組

達顯著水準 (t=6159plt05)數理組未達顯著水準

(二)實作評量錄取學生在入學後之特殊表現的訪談結果發現各組學

生在發表能力競賽檢定檔案成果上的參與興趣濃厚也比較有所發

23

(三)受訪教師學生及參加座談會的教師們對實作評量的看法和意

見主要有下列重點

1命題是最大的困難各校命題均請專家學者指導師生都反應覺

得題目的品質不錯題型也很有創意和其它測驗不一樣但自然

科實驗器材的準備耗時費工是很大的負擔因此很多學校選擇用資

料分析的題目類型避免實驗操作器材準備的困擾

2實施程序上時間說明器材提供均適宜但場地的考量較多

如實驗位置的區隔語文施測時需安靜的場所等監考過程也是爭

議較多的如學生覺得監考老師應多幾位老師的尺度不同等

3受訪學生指出實作評量的應答方式和以往參加過的測驗有很大

的不同但都持肯定態度同時覺得語文表達能力會影響到實作評

量的成績

4各校評分都採集中閱卷的方式評分標準爭議性得分大都透過

閱卷老師討論後取得共識再給分

5目前各校在鑑定學生時決策的標準不一因此反應意見差異頗

大但從訪談資料發現受訪學生及教師都較支持運用初試複試

成績加權計算作為選擇學生的標準

6受訪教師表示學生入學後的表現和以往相較起來沒有明顯的

差異但在科展競賽檢定發表上的熱誠度較高

7學生的訪談結果發現大多數學生覺得實作評量可以測出他們在

學術性向上的能力或天份

8實作評量的保密情形比其它測驗要好很多但坊間仍有業者猜

題補習受訪學生及老師也表示有模擬實作或補習經驗者對

實作表現或多或少有影響惟一沒有保密困擾的是國文組

24

十二陳怡玉(民 94)降低國小數學科實作評量人和作業交互作用變異方

法的探討---以類推性理論分析

(一)由於分層變項選取不易導致「作業分層」無法有效降低人和作

業交互作用的變異

(二)「以圖表組織圖為鷹架」可以降低人和作業交互作用的變異

(三)「以圖表組織圖為鷹架」比「作業分層」更能讓人和作業交互作用

的變異降低

(四)進行「作業分層」的比較時實作評量的類推性係數和可靠性指

標以同一階層的作業採 ptimesTtimesR 設計最高但屬分層之 ptimes(TS)timesR 設計

卻低於作業未分層時的分析(即採作業 1234 的 ptimesTtimesR 設計來分

析)

(五)「以圖表組織圖為鷹架」能提高實作評量的類推性係數和可靠性指

十三蔡正濱(民 95)國小數學科實作評量評分者ㄧ致性相關因素探討

(一)影響數學科實作評量分數一致性的主要變異來源為受試者與作業

項目交互作用(ptimest)變異其次為受試者(p)變異再其次為受試者

作業與評分者三者之交互作用及誤差(ptimesttimesre)的部分

(二)在使用不同類型及等級數的計分規準對評分者間一致性的影響方

面在 ptimesttimesr 類推設計下不分計分規準種類與評分者有關的變異量

(含 rptimesr及 ttimesr 三者的總和)均相當小幾乎接近 0而在 ptimesr 設

計的整體類推性相關係數及給分差異比例方面分析式計分規準優於

整體式計分規準在不同等級數方面ptimesttimesr 類推設計中與評分者有

關的變異量及整體類推性七等級計分規準略佳但差異性不大在 ptimesr

設計的整體類推性相關係數及給分差異比例方面七等級計分規準優

於四等級計分規準其中又以使用整體式計分規準及評定高複雜度試題

25

時較為明顯

(三)在不同複雜度作業對評分者間一致性的影響方面低複雜度試題

的一致性高於高複雜度試題顯示評分者面對受試者在高複雜度試題的

作答反應時出現給分較不一致的情形最後受試者是否具備實作評

量計分規準之經驗對評分者間一致性的影響方面在低複雜度試題兩

組受試者之評分者一致性的差異性不大在高複雜度試題 A 組評分者

一致性大致高於僅具實作評量經驗之組別 B組而 AB兩組受試者的評

分者一致性差異程度在分析式計分規準上低於其在整體式計分規準之

差異程度

第二節 第三次國際數學與科學教育成就研究

由國際教育成就調查委員會(The International Association for the

Evaluation of Educational Achievement簡稱 IEA)主辦的「國際數學與科學

教育成就趨勢調查」(Trends in Mathematics and Science Study 2003 簡稱

TIMSS 2003)」是目前有關國際間對學生成就的調查研究中規模最大的一項調查

該測驗採取全世界合作模式主要單位有

一國家研究協調中心(National Research Coordinators)國家研究協

調中心負責選擇學校樣品 收集資料 計分標準和資料輸入 和準備研究結

果的一個國際報告

二TIMSS amp PIRLS 國際研究中心(在波士頓學院)(TIMSS amp PIRLS

International Study Center at Boston College)國際研究中心(ISC) 負責

TIMSS 的整體設計發展和實施這包括建立規程監督工具發展舉辦訓練

ISC 進行分析並且在國際報告和用戶資料庫中發布研究結果

三IEA 秘書處(IEA Secretariat)總部設在荷蘭的阿姆斯特丹IEA 秘

書處負責提供整體支持監督籌款和協助參與國家協調參與 TIMSS 的國家取得

26

測驗工具的翻譯證明

四IEA 資料處理中心(IEA Data Processing Center)IEA 有它自己的

資料處理中心位於德國的漢堡資料處理中心(DPC)負責處理和核對從所有參與

國家得到的資料和建立國際資料庫

五統計(Statistics Canada)在加拿大的渥太華負責 TIMSS 的所有採

樣活動包括開發取樣步驟和文獻和協助參加者能符合 TIMSS 的採樣設計

六教育測試的服務(ETS)(Educational Testing Service (ETS))ETS 為

TIMSS 成就測驗資料提供軟體和心理測量的支持 ETS 總部設在新澤西州的普

林斯頓

TIMSS 2003 是 IEA 自 1995 年以來第三次主辦連續週期性調查學生的數學和

科學成就主要目的在提供各國長期追蹤學生數學和科學趨勢成就以提升學生

數學和科學的學習成效TIMSS 2003 以 13 歲群(即國二生)和 9 歲群(即小四生)

為調查對象從 2000 年九月開始發展研究調查相關工作總計有 49 個國家參

加其中 48 個國家參加 13 歲群調查26 個國家參加 9歲群調查測驗的內容

包括數學和科學並從學生教師和學校的問卷回答中廣泛的搜集有關數學和科

學的教學和學習資訊並經由課程指引教科書和其他教學媒體的分析探討參

與國家的數學和科學課程以提供參與國家的政策制定者和實務工作者有關教學

和學生學習成就方面的珍貴訊息而技術報告和完整的國際資料庫也一併出版公

TIMSS 試題的編製流程是先製訂課程架構在根據課程架構編製成就測驗

而此課程架構是由一群來自 TIMSS 國家研究協調中心(TIMSS National Research

Coordinator)的數學和科學教育專家所發展出來的在 TIMSS 2003 的課程架構

中共分為兩個向度內容領域跟認知領域詳細內容如表 2-2-1 所示

27

表 2-2-1 TIMSS 2003 課程架構

數學 科學

內容領域 內容領域

數 生命科學

代數 化學

測量 物理學

幾何學 地球科學

8

級 資料

8

級環境科學

數目 生命科學

模式等式和關係 自然科學

測量 地球科學

4

級 幾何學數據

4

認知領域 認知領域

知道事實和程式 事實的知識

使用概念 概念的理解

解決日常問題 推理和分析

推理

第4年級代數內容領域被叫為模式等式和關係

其中在實作評量方面設計的原則是依照實用的可負擔的和容易翻譯成

多國語言和文化原則所設計的透過預試時取得評分指南包括正確的答覆跟不

正確答覆的描述及給分標準其評分系統採用維京評分系統以表格說明如下

28

表 2-2-2 維京評分系統

第一個碼

  2 類型的 CR 項目(分數碼)

(1) 2 分(外延反應評分)

2 分完整無誤

1 分部分對

(2) 1 分(問答)

(3) 0 分7-9

2 分

1 分

第二個碼

  診斷訊息碼

0-5表出現之頻次類次配合參數碼標之

如 20-2510-1570-75

9 為其他無特殊類別

  如 291979

78=自個兒ldquo診斷碼(國家碼 可自選)

  99 為空白

  79(Erases)

另外在問卷調查部份分為

一課程

(一)公式化課程

(二)課程的範圍和內容

(三)課程的組織

(四)監測和評估被實施的課程

(五)課程材料和支持

二學校

29

(一)學校組織

(二)學校目標

(三)校長的角色

(四)支持數學與科學的資源

(五)父母親介入

(六)學校環境

三老師和他們的準備

(一)學術準備和證明

(二)老師補充

(三)老師任務

(四)老師歸納

(五)老師經驗

(六)教的樣式

(七)專業發展

四教室活動和特徵

(一)課程題目

(二)時間

(三)家庭作業

(四)評量

(五)教室氣氛

(六)資訊技術

(七)計算器用途

(八)強調的研究重點

(九)班級大小

30

五學生

(一)家庭背景

(二)經驗

(三)態度

當 TIMSS 施測後許多國家對於施測結果所蘊藏的意義做了許多的解釋他

們認為施測結果不止顯示了學術成就還包括了學生所接受的課程和教育

(SchmidtJordeCoganBarrierGonzaloMoserShimizuSawadaValverde

PrawatMcknightRaizenBrittonWileyWolfe1996)國際比較主要的目的

在於評估不同國家的學生程度而另一個同樣重要的目的在於嘗試去了解及解釋

造成差異的原因Jaekyung Lee 在 1999 年時提出當我們進行國際比較時有三

點要注意的事項一應該要同時著重正規教育和學校教育以外的學習經驗

二重視區域性的差異

三注意學校的改革政策因為它會影響教育的實施與成果所以成績好不應沾

沾自喜而表現不好也應深究原因去注意其他表現好的國家真正做了什麼並

加以學習而非歸罪於整個制度

根據 TIMSS 2003 國際數學和科學報告(TIMSS 2003 International Reports

in Mathematics and Science)其中提到幾個圖表是跟本文有關並值得分析注

意的

31

圖2-2-1 1995年到2003年4年級學生的數學趨勢

32

上圖是從該報告第一章表格13擷取出來的該圖表顯示出從1995年到2003

年的4年級學生的數學趨勢其中香港拉脫維亞英國賽普勒斯紐西蘭

斯洛伐尼亞加拿大安大略省等七個國家或地區是呈現進步的情況而荷蘭挪

威加拿大魁北克省是退步的趨勢其他在圖表中的國家是沒有顯著差異的另

外在其文字說明部份也提到以色列和菲律賓從1999到2003也顯示出顯著的改

進像上述這些國家數學成就方面趨勢的變化可能跟社會或教育的改變有關

例如東方的政治變化跟歐洲十幾年前的教育改革已經實際改變這些國家的教育

成就例如立陶宛跟拉脫維亞這兩個國家的成就趨勢反映他們在改革過程中的

努力已經獲得某些驚人的成就

33

圖 2-2-2 4 年級學生在男女性別上的差異

上圖是從該報告第一章表格14擷取出來的該圖表顯示大部分國家或地區4

年級學生在男女性別上並無顯著差異但在幾個國家例外新加坡菲律賓亞

美尼亞跟Moldova共和國的女生有較高的數學平均成就荷蘭美國義大利

蘇格蘭賽普勒斯和兩個加拿大省份則是男生有較高的數學平均成就

34

圖2-2-3 1995到2003年的男女生進退步情形

上圖是從該報告第一章表格15擷取出來的該圖表表示從1995到2003年的

男女生進退步情形從圖表中得知男女生同時進步的國家或地區有賽普勒斯英

國香港拉脫維亞紐西蘭斯洛伐尼亞和安大略省而同時退步的國家有挪

威和魁北克省僅有男生退步但女生沒有的國家是荷蘭

第三節 TIMSS 試題與國內數學課程關係之分析

在魔術師的題組中研究者希望學生透過摺紙的方式不管對摺幾次最後

限制只能用剪刀剪一次的情況下要求學生剪出下列 3個圖型

35

每個學生剪每個圖型都有 3次機會這個題組的目的不止希望學生可以運用

全等的直覺利用幾何操作如平移旋轉翻轉等方式印證平時的經驗並將

全等的概念更加清晰還希望學生透過摺紙的方式了解認識垂直和對稱而剪紙

又可以增進學童分解圖形與建構圖形的能力所以本題組主要在測量學生對於全

等的直覺跟幾何操作垂直跟對稱和空間關係的瞭解以及解決非慣例題目的能

在圖形題中前 2個小題分別要求學生在一個長方形中劃一條直線將該長

方形分成 2個三角形或 2個長方形第 3小題要求學生在一個長方形中劃兩條直

線將該長方形分成 2 個三角形跟 1 個長方形第 4 小題則給等腰梯形並連接 2

條對角線在內部形成的 4個三角形中要求學生找出形狀相同但大小不同的兩

個三角形本題組在了解學生能否透過操作直尺或三角板在二維空間上剪裁出

指定的基本圖型並利用直觀的方式指出形狀相同但大小不同的三角形

上述兩個題目在評量學生的幾何能力根據我國國民中小學九年一貫課程綱

要數學學習領域中指出小學教師在從事幾何教學時最要避免的是來自本身歐

氏公設幾何訓練的干擾處處受制於定義的認定與邏輯順序由歷史來看人類

是先由應用操作實踐中認識各種幾何要素與性質彼此之間並沒有一定的

先後關係歐氏幾何的價值首先是對這些先民知識的歸類與整理其次才是作

36

為知識典範的演繹系統所以將幾何課程概分成四階段而學生在四年級時所應

該要學習到的幾何知識就如下列所示

一階段一(一年級到三年級)較強調幾何形體的認識探索與操作學生對

幾何形體中的幾何要素也許能指認但尚不清楚其結構意義

二階段二(四年級到五年級)由於數與量的發展逐漸成熟學生開始結合「數」

與「形」兩大主題學習運用幾何形體的構成要素(如角邊面)及其數量性

質(如角度邊長面積)

更詳細的相關能力指標詳列如下

1-S-04能依給定圖示將簡單形體作平面舖設與立體堆疊給定的圖示

可為圖卡或實物透過拼圖與堆積木等活動讓學童進行平移翻轉重疊

比對hellip等全等操作的練習

3-S-06能透過操作將簡單圖形切割重組成另一已知簡單圖形

4-S-02能透過操作認識基本三角形與四邊形的簡單性質

4-S-03能認識平面圖形全等的意義

4-S-16能理解平面上直角垂直與平行的意義

4-S-07能由直角垂直與平行的概念認識簡單平面圖形

4-S-08能利用三角板畫出直角與兩平行線段並用來描繪平面圖形

例學童會使用直尺或三角板畫出直角及兩平行線段進而用來繪製直角三角

形正方形長方形平行四邊形與梯形

因此學生在回答這兩個問題時應已具備足夠的能力

在幾何方塊的題組中給學生 3 塊白色方塊4 塊黑白相間的方塊和 3 塊黑

色方塊要求學生完成

一利用 2 張黑白相間方塊拼出一個較大的黑色三角形

二利用 4 張黑白相間方塊拼出一個黑色的正方形並求出佔幾分之幾

三不准使用黑白相間方塊將 4 張方塊拼出一個正方形使得黑色的部分佔 12

37

四請用 8 張方塊拼出一個如下圖的長方形使得黑色部分佔 58

這是一種包含幾何跟數與量的題目其中幾何的部份是要求學生建立一個二維圖

形並滿足題目的要求(數與量)幾何部分已經如上所述現在分析相關的數

與量

根據我國國民中小學九年一貫課程綱要數學學習領域中指出有理數是小學

的核心課程之一也是小學數學教育中最有挑戰性的教學主題因為學生較缺

乏有理數的前置經驗日常生活中的有理數情境也比整數少分數的形式是學生

首次碰到兩整數並置的約定至於什麼是穩當的有理數教學並無定論但是基

本的共識是學生需要較長的時間來學習掌握有理數的概念不論是先形式程

序或者先概念理解兩者都必須不斷互相支持在有理數教學中必須將材料

作適當的安排先從較容易的平分或測量入手而將其它的應用課題作為錘鍊

有理數數感的課題

在相關的能力指標詳列如下

3-n-09能在具體情境中初步認識分數並解決同分母分數的比較與加

減問題學童從具體情境或活動中掌握分數的概念能學會分數的記號並理

解運用分數記號來記錄同分母分數的比較與加減的方式例如以平分為基礎的

活動(離散量)問下列深色區域是全部圖形的幾分之幾

4-n-07能認識真分數假分數與帶分數熟練假分數與帶分數的互換

並進行同分母分數的比較加減與非帶分數的整數倍的計算

4-n-08能理解等值分數進行簡單異分母分數的比較並用來做簡單分

數與小數的互換在具體情境中說明分數等值的理由可先由分母的倍數差 2

4倍的分數先出發(因為切半的操作最簡單)

在施測學校所使用的教科書中第七冊第十單元分數中其教學目標也有

38

透過單位分數的合成和累加活動以真分數來描述單位分數的幾份可見此題對

施測學校的學生來說應有能力解決

另外兩題有關數與量的題目是數字卡跟猜一猜在數字卡部份題目分為兩

部份第一部份為抽出三張 0-9 的數字卡任意排列後找出最接近總和為 20 的

方法第二部份為抽出三張 0-9 的數字卡任意排列後分別找出和差跟積最大

的方法這在我國國民中小學九年一貫課程綱要數學學習領域中分類在數與量

中的整數部分根據附錄說明中指出整數計算是一切數學學習的基礎在教學

中學童經由活動情境掌握計算的意義藉著各種例子體驗計算的規則與策略

流暢的計算能力有如語文學習中基本的文字駕馭能力不僅可以內化學童的

數字感並且是日後(國高中)學習抽象運算及形式推導的基礎這樣的能力

固然是學習科學所必須也是能夠有效處理日常生活的基本能力之一所以國小

整數教學的課程目標在於

一從計數開始學習位值的約定與換算並在演算中逐步熟悉最後能掌握

大數

二在二年級下學期理解算術的樞紐九九乘法作為日後所有計算的基礎

三到四年級時能夠不拘泥於位數熟練加減乘除的直式計算

有關數與量的題目另一題是猜一猜題目是在 9個碗中前 4個碗中豆子

的數量分別是 29313128 個請猜一猜罐子中大約有幾個豆子並解釋你

的想法這在我國國民中小學九年一貫課程綱要數學學習領域中分類在數與

量中的估算部分估算在國民教育中可粗分為離散量的估算(自然數四則運算的

估算)與連續量的估算前者的教學應在學生已經能掌握確算後再進行而後

者的教學應透過測量時量不盡的正常情境與小數的教學共同開展認識小數

之細分與精確度的要求乃是一體的兩面估算的教學可以先在計算與驗算中強

調讓學生能對不合理的答案透過估算剔除然後是能判斷應用問題對答案

精確度的要求並藉由過去的解題經驗發展正確的估算策略或者是能針對

39

問題與解答發展估算策略驗算解答的合理性要注意的是估算屬於較高層

次的數學能力學生必須先對所使用的概念程序與問題情境有相當的理解才能

恰當地估算進而能正確判斷估算的時機與精確度的要求國小的估算教學要

特別注意評量的問題切忌因為強求估算禁止學生使用正常計算教師應在評

量的問題上下功夫讓問題本身暗示估算的好處

最後一題是擲骰子題目是用一個規則來改變骰子擲出來的數字要求學

生發現改變後的數字有什麼特性另外要求學生丟 30 次將結果記錄並統計在

表格中這是屬於統計與機率的部份我國課程在這部份強調統計和機率的知識

背景應來自生活環境因此以學生的生活經驗為主從學生感興趣的主題出發

使其學會敘述統計所呈現出的數字和圖表的意義強調圖表的表達和溝通並了

解抽樣機率的初步概念且能正確地運用各項統計資料於實際的生活中並要

求在三年級之前 先藉由簡易表格的製作協助學生建立資料的整理與分組的

概念進而練習報讀與說明資料並建立個別資料出現頻率概念的認識再藉著

直接和交叉對應表格的介紹並配合「數與量」的教學希望學生能掌握對表格

的認識並能加以運用

40

第三章 方法與步驟

本章節乃根據前兩章所提的研究目的與文獻探討進行研究設計以下將分別

就研究架構研究工具發展研究的信效度與實作評量的試題架構三節加以說明

第一節 研究架構

壹研究方法本研究是使用實作評量的方法進行實際施測使用 SPSS

與 EXCEL 軟體分析回收的施測數據

貳研究樣本本研究之研究對象是針對國小四年級學生以台中縣神岡鄉

某國小四年級學生為受試者共四班 127 人學校環境是住

宅與工業混合區

叁研究工具本研究的研究工具分為兩部份民國 89 年徐美英研究論文

中的題目跟 TIMSS 2003 公開的實作評量試題各三題TIMSS

2003 公開的實作評量試題是由 TIMSS 網站下載試題後再進

行翻譯每一個題組的施測時間是 30 分鐘

第二節 研究工具發展

本研究的研究工具分為兩部份民國 89 年徐美英研究論文中的題目跟 TIMSS

2003 公開的實作評量試題各三題以下將分別就試題的編製過程評分標準施

測人員和評分者四點加以說明

壹試題編製過程

一研究分析相關公開試題並與學校教材相互對照後進行選題

二選定題目後進行翻譯

三將翻譯好後的題目跟原始原文題目交給學校英語科任老師進行確認

41

四確定翻譯工作後與現任資深國小四年級的教師們共同討論題目的適切

性修改試題敘述的語句使文句的敘述能符合四年級學生的認知

五將修改後的題目請上述老師再做一次確認

六提供評分標準給上述老師討論全對部份給分不給分的情況

七題目定案

以數字卡這題為例題目如下

【題目數字卡】

在這部分你將會拿到一張印有 0到 9的數字卡如下圖請將這些數字卡

取下來

總和為ldquo20的數字遊戲

小杰與小明這兩個小孩正在玩一個ldquo總和為 20的遊戲其規則如下

總和為ldquo20的規則

一抽數字卡每一個人抽出三張數字卡

二加數字卡每一個人利用這三張數字卡做出一個加法問題使得算出的

總和最接近 20 例如假如抽出的數字卡 將數字任

意組合後下面是其中四種可能的方法

0 1 2 3 4

5 6 7 8 9

1 4 5

42

+ + + +

5 5 4 6 1 9 +

15 1 0

這時玩家應該選擇 + 4 因為它的總和 19最接近 20

19

小杰和小明開始玩遊戲了小杰抽出了 三張數字卡小明抽出

了 三張數字卡

一小杰要如何安排三張數字卡做出一個加法問題才能讓它的總和為最接

近 20記得要寫總和

二小明要如何安排三張數字卡做出一個加法問題才能讓它的總和最接近

20記得要寫總和

三小明說假如我抽到 我可以用兩種方法做出總和 20

請告訴我們小明用哪兩種方法可以使 做出總和 20

第一種方法

第二種方法

1

4

5 1

4

5

1

4 51

4

5

972

6 3 1

1 4 6

1 4 6

43

找出最大的數

小杰和小明利用數字卡玩另一個新的遊戲就是利用三張數字卡做出最

大的數

甲將 三張數字卡填入下列的格子內讓相加的結果為最大

乙將 三個數字填入下列的格子內讓相減的結果為最大

丙將 三個數字填入下列的格子內讓相乘的結果為最大

貳施測人員

由四位該班導師擔任在正式施測前由研究者針對施測應注意事項對施

測人員說明並在每一份題目上附上給老師的話說明施測時應注意的事項

及給分說明部分實作評量試題需要用到一些材料由研究者事先準備妥

當於考前交給施測人員至於材料的發放跟試題說明的時間並不包括在 30

分鐘的測驗時間之內

叁評分標準

一 89 年徐美英研究論文中的題目直接使用其附錄中的評分標準以擲

times

9 5 1

+

2 3 7

1 4 5

44

骰子這題為例其評分標準如下

第一題 1 正確的計算出(042648)

2 給分範圍2分

第二題 1 描述的類型與資料一致

2 形式可以是一個或多個以下的情形例如所有的數字

都是偶數數字的範圍從 0~84 出現 2次數字排列有

規則如+4-2+4-2

3 給分範圍2分

第三題 1 至少完成 25 次擲骰子的紀錄

2 正確的計算

3 給分範圍2分

第四題 1 統計的次數與第三題的資料一致

2 給分範圍2分

第 5a 題1 答案與資料一致

2 給分範圍1分

第 5b 題1 對觀察的數字提供合理的解釋

2 給分範圍1分

二 TIMSS 2003 公開的實作評量試題部分參照其公佈的評分標準翻譯

成中文以提供給資深四年級老師參考以數字卡這題為例

(一)第一部分總和為 20 的數字遊戲

1 第甲題

(1) 給分範圍 1分

1 寫出 2+7+9=18

2 沒有任何算式但有答案是 18 者

(2) 給分範圍0分

45

1 有寫出算式 2+7+9 但沒有答案 18 出現

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

或偏離主題的回答)

3 完全空白

2 第乙題

(1) 給分範圍1分

1 13+6=19 或 16+3=19

2 沒有任何算式但有答案是 19 者

(2) 給分範圍0分

1 有寫出算式 13+6 或 16+3 但沒有答案 19 出現

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

3 完全空白

3 第丙題

(1) 給分範圍2分

兩種方法都正確(16+4 和 14+6)

(2) 給分範圍1分

只有寫出其中一種方法(16+4 或 14+6)

(3) 給分範圍0分

1 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

2 完全空白

(二)第二部份找出最大的數

1 第甲題

(1) 給分範圍1分

46

91+5 或 95+1

(2) 給分範圍0分

1 將 159擺在任何其他不正確的位置

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

3 完全空白

2 第乙題

(1) 給分範圍1分

73-2

(2) 給分範圍0分

1 72-3

2 將 237擺在任何其他不正確的位置

3 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

4 完全空白

3 第丙題

(1) 給分範圍1分

41times5

(2) 給分範圍0分

1 51times4

2 將 145擺在任何其他不正確的位置

3 其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的

或偏離主題的回答)

4 完全空白

47

第三節 研究的信效度與實作評量的試題架構

壹信效度

由於此次的實作評量採用多元化記分的方式故信度計算採用 Cronbach α

係數算出信度值為 079而且每一題均有詳細說明細節行為的項目給定參考

答案圖形的作品量表各題除經著名國際測驗機構審核施測過外並由研究者另

請學校資深四年級教師共同研究討論題目與答案對於施測過程研究者也與四

位監考老師討論後訂出共同標準所以在效度方面具有專家效度跟內容效度

貳試題架構

此次實作評量的試題共六題分別是屬於數與量幾何統計與機率等三大

主題依據九年一貫課程綱要數學學習領域裡對這幾個大主題在國小四年級前的

學習說明研究者編制下表的試題架構

48

表 3-3-1 試題架構

題目 學習主題 主題層次 評量內涵說明

擲骰子 數與量

統計與機率

(1)整數

(2)簡易表格的製作

(1)可以對整數的變化

提出一套模式或發現

(2)簡易表格的製作結

果統計與發現

猜一猜 數與量 估算 使用估算的技巧協助計算

與解題

魔術師 幾何 對稱的實際操作 透過摺紙的對稱觀念理解

平面圖形的線對稱關係

圖形題 幾何

(1)幾何形體的認識與

切割

(2)幾何形體『形』的

直觀認識

(1)透過操作將簡單圖

形切割成另一簡單圖

(2)直觀指出平面圖形的

相似

數字卡 數與量 運用加減乘法求最大值

透過位值概念將給定的數

字編排在不同的位值進行

加減乘法得到接近題

目要求的答案或所有可能

的最大值

幾何方塊 幾何

數與量

(1)幾何形體的拼合

(2)有理數(部分全體

的意涵)

(1)利用黑白相間方塊

拼出指定的簡單平面

圖形

(2)在具體情境中認識

分數

49

第四章 結果與討論

本章主要是呈現資料分析的結果並加以討論共分為四節第一節是利用

TIMSS 1999 實作評量試題比較民國 89 年跟民國 95 年的成績差異第二節是利

用 TIMSS 2003 實作評量試題檢視施測學校在性別及班級間是否存在差異第

三節是利用 TIMSS 2003 實作評量試題比較施測學校與原始施測資料的成績差

異第四節是實作評量試題的類推性

第一節 利用 TIMSS 1999 實作評量試題比較民國

89 年跟民國 95 年的成績差異

研究者本小節要探討的是 TIMSS 1999 的施測結果與民國 89 年徐美英所進行

的研究之比較主要的比較項目為平均數標準差及得分情形分配百分比基於

此研究者採用百分比圖表及各小題反推出得分人數之後用獨立樣本 t檢定的

方式比較平均數另外依百分比反推出人數時有時會因四捨五入產生總人數多

1人的情況此時會對進位數最小的數採取無條件捨去法以符合總人數一致另

因研究者分三天進行六題施測每題實際受測人數也有不同研究者使用的資料

來源有兩個分別是 TIMSS 2003 實作評量題目及 TIMSS 1999 實作評量題目為

了呈現方便研究者將取自 TIMSS 2003 實作評量題目所作的施測結果用『95 年』

表示另外 TIMSS 1999 實作評量題目為研究者從民國 89 年徐美英的論文中擷取

出來的當年的施測結果以『89 年』表示

50

壹魔術師

表4-1-1 95年魔術師題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

魔術師ㄧ 16 16 68 5 127

魔術師二 101 151 748 5 127

魔術師三 202 235 563 5 127

由表 4-1-1 得知研究者此次此題型的施測結果各題得分均以得 2分者居

多得 1分居次利用表 4-1-1研究者也從民國 89 年徐美英的論文中找到類

似資料列在表 4-1-2表 4-1-2 是從論文的本文中摘錄下來的研究者反覆研

究該論文時發現在 P73 也有附錄一份有關魔術師各題的資料統整不過兩者的

個數有所差異下表總人數 156 人遺漏值 5人附錄中個數是 155 人下表反推

出人數後的平均數也與附錄稍有出入研究者以本文的表格為準

表4-1-2 89年魔術師題組得分情形分配表

題目 得 0分人數() 得 1分人數()得 2分人數() 遺漏值 總人數

魔術師ㄧ 419 258 323 5 156

魔術師二 194 194 613 5 156

魔術師三 258 258 484 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

51

0

10

20

30

40

50

60

70

80

魔術師ㄧ 魔術師二 魔術師三

95年答對率

89年答對率

圖 4-1-1 百分比圖表比較結果

由上圖可知95 年答對的答對率在 3題中均優於 89 年的結果其中以魔術

師ㄧ的資料差距最大但此兩年的資料也有一個共同的趨勢就是該年度的答對

率有魔術師二的答對率>魔術師ㄧ的答對率>魔術師三的答對率研究者進一步

反推 89 年的得分人數後將兩年的資料進行獨立樣本 t檢定結果列於表 4-1-3

表 4-1-4表 4-1-5

表 4-1-3 魔術師ㄧ獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異數

相等 4323 0039 6098 272000 0000 0410 0800

1

不假設變異

數相等 6173 270036 0000 0410 0800

52

表 4-1-3 可以看出變異數 Leven 檢定結果P值lt005所以達到顯著差異

可見變異數是不能視為相等的後面 t檢定值 6173P 值lt005所以有達到顯

著差異可見平均數是不能視為相等故這一小題明顯的是 95 年的學生成績較

表 4-1-4 魔術師二獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異數

相等 17130 0000 2550 270000 0011 0050 0410

2

不假設變異

數相等 2605 270000 0010 0060 0400

表4-1-4可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是不能視為相等的後面t檢定值2605P值lt005所以有達到顯著

差異可見平均數是不能視為相等故這一小題明顯的也是95年的學生成績較佳

表 4-1-5 魔術師三獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 0443 0506 1332 272000 0184 -0100 0330

3

不假設變

異數相等 1338 265000 0182 -0100 0330

53

表4-1-5可以看出變異數Leven檢定結果P值gt005所以沒有達到顯著差

異可見變異數是要視為相等的後面t檢定值1332P值gt005所以沒有達到

顯著差異可見平均數是也可以視為相等故這一小題兩年的學生成績沒有差別

接著研究者對整個題組總得分進行比較由於 89 年論文中只有平均數與標

準差兩項資料研究者只能稍做比較95 年施測的平均數為 424標準差為 208

而 89 年的平均數是 375標準差是 207由於兩者標準差的差距很小可見兩

項資料的集中平均數的趨勢是差不多的而平均數則是 95 年多 049 分

二擲骰子

表4-1-6 95年擲骰子題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

擲骰子一 101 202 697 8 127

擲骰子二 597 395 08 8 127

擲骰子三 25 319 655 8 127

擲骰子四 345 378 277 8 127

擲骰子五 a 462 538 8 127

擲骰子五 b 950 50 8 127

由表 4-1-6 得知研究者此次擲骰子題組中各題得分擲骰子一以得 2分

居多佔 697擲骰子二以得 0分居多佔 597擲骰子三以得 2分居多

佔 655擲骰子四以得 1分居多佔 378擲骰子五 a以得 1分居多佔 538

擲骰子五 b以得 0分居多佔 95擲骰子二與擲骰子五 b是要求學生說明理由

或描述規則可見學校教學應該可以再加強學生在解釋資料上的能力

54

表4-1-7 89年擲骰子題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

擲骰子一 32 65 903 5 156

擲骰子二 548 387 65 5 156

擲骰子三 00 65 935 5 156

擲骰子四 65 129 806 5 156

擲骰子五 a 97 903 5 156

擲骰子五 b 839 161 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

0

20

40

60

80

100

擲骰

子一

擲骰

子二

擲骰

子三

擲骰

子四

擲骰

子五

a

擲骰

子五

b

95年答對率

89年答對率

圖 4-1-2 百分比圖表比較結果

由上圖可知89 年答對的答對率在 5題中均優於 95 年的結果其中擲骰子

二與擲骰子五 b兩年的答對率都很低可見對位於城鄉交界處的台灣學生而言

這種類型的題目屬於偏難的題型研究者進一步反推 89 年的得分人數後將兩

年的資料進行獨立樣本 t檢定結果列於表 4-1-8表 4-1-9表 4-1-10表

55

4-1-11表 4-1-12表 4-1-13

表 4-1-8 擲骰子一獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 56450 0000 -4100 270000 0000 -0400 -0140

1

不假設變

異數相等 -3900 195000 0000 -0400 -0130

表4-1-8可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是要假設不相等的後面t檢定值-3906P值lt005所以也達到顯

著差異可見平均數是不能視為相等故這一小題是89年的學生表現較優秀

表 4-1-9 擲骰子二獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 9470 0002 -1500 270000 0141 -0200 0035

2

不假設變

異數相等 -1500 270000 0133 -0200 0032

表4-1-9可以看出變異數Leven檢定結果P值lt005所以有達到顯著差異

可見變異數是要視為不相等的後面t檢定值-1506P值gt005所以沒有達到

顯著差異可見平均數是可以視為相等故這一小題兩年的學生成績沒有差別

56

表 4-1-10 擲骰子三獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 186200 0000 -6200 270000 0000 -0400 -0210

3

不假設變

異數相等 -5800 162000 0000 -0400 -0200

表4-1-10可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是要視為不相等的後面t檢定值-5806P值lt005所以達到顯著

差異可見平均數是有顯著差異的故這一小題89年的學生成績表現較好

表 4-1-11 擲骰子四獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 19580 0000 -9900 270000 0000 -1000 -0650

4

不假設變

異數相等 -9600 212000 0000 -1000 -0650

表4-1-11可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-9565P值lt005有達到顯著差異

可見平均數是有顯著差異的故這一小題89年的學生成績比較好

57

表4-1-12 擲骰子五a獨立樣本t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 207800 0000 -7400 270000 0000 -0500 -0270

五 a

不假設變

異數相等 -7000 187000 0000 -0500 -0260

表4-1-12可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-7036P值lt005有達到顯著差異

可見平均數是有顯著差異故這一小題89年的學生成績比較好

表 4-1-13 擲骰子五 b獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 38760 0000 -2900 270000 0004 -0200 -0035

五b

不假設變

異數相等 -3100 251000 0003 -0200 -0039

表4-1-13可以看出變異數Leven檢定結果P值lt005達到顯著差異可見

變異數是要視為不相等的後面t檢定值-3052P值lt005達到顯著差異可

見平均數是有顯著差異故這一小題89年的學生成績比較好

接著研究者對整個題組總得分進行比較由於 89 年論文中只有平均數與標

58

準差兩項資料研究者只能稍做比較95 年施測的平均數為 48346標準差為

24455而 89 年的平均數是 68258標準差是 16947可見 89 年的資料顯示

集中平均數的趨勢較高而 95 年的資料則較為分散而且平均數又是 89 年多

19912 分多出將近 12 倍

三猜一猜

表4-1-14 95年猜一猜題組得分情形分配表

題目 得0分人

數()

得1分人

數()

得2分人

數()

得3分人

數()

得4分人

數()

得5分人

數() 遺漏值 總人數

猜一猜 3858 2441 1102 630 787 1181 0 127

由表 4-1-14 得知研究者此次擲骰子題組中得分以得 0分者居多顯示

學生的概算能力非常不足其次是得 1分的較多這顯示學生曉得題目要掌握哪

些資訊只是不懂得利用這些資訊0分與 1分的人數竟佔超過 50結果頗令

人訝異

表 4-1-15 89 年擲骰子題組得分情形分配表

題目 得0分人

數()

得1分人

數()

得2分人

數()

得3分人

數()

得4分人

數()

得5分人

數() 遺漏值 總人數

猜一猜 2580 650 100 1190 3230 2260 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

59

猜一猜

0

10

20

30

40

50

60

95年答對率 89年答對率

圖4-1-3 百分比圖表比較結果

本題研究者將得 4分與得 5分者列為答對人數由上圖可知89 年答對的答

對率優於 95 年的結果研究者進一步反推 89 年的得分人數後將兩年的資料進

行獨立樣本 t檢定結果列於表 4-1-16表 4-1-17

表4-1-16 猜一猜資料統計

年度 個數 平均數 標準差平均數的

標準誤

95 127 156 175 016 得分

89 151 286 196 016

表4-1-17 猜一猜獨立樣本t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 5639 0018 -5800 276000 0000 -1700 -0860猜

猜 不假設變

異數相等 -5900 275000 0000 -1700 -0864

60

表4-1-17可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-5856P值lt005有達到顯著差異

可見平均數是有顯著差異故這一小題89年的學生成績比較好

第二節 利用 TIMSS 2003 實作評量試題檢視施測

學校在性別及班級間是否存在差異

在各題型得分的相關情形方面將之整理成表格 4-2-1由表中得知除了

圖形題與猜一猜的相關係數達到005的顯著水準之外其他相關各題均達到001

的顯著水準也就是說圖形題與數字卡幾何方塊魔術師猜一猜擲骰子

等題有相當程度的關係其他各題相互之間也是類似的關係這說明了此次的考

題不只是幾何能力之間有相關的情況幾何能力與統計概念數的運算能力

概算能力之間也有相當程度的關係

61

表 4-2-1 各題型之相關係數

圖形題 數字卡 幾何方塊 魔術師 猜一猜 擲骰子

Pearson 相關 1 0617 0419 0487 0174 044

顯著性 (雙尾) 0 0 0 005 0 圖形

個數 127 127 127 127 127 127

Pearson 相關 0617 1 0517 0562 0272 0587

顯著性 (雙尾) 0 0 0 0002 0 數字

個數 127 127 127 127 127 127

Pearson 相關 0419 0517 1 0397 0308 0389

顯著性 (雙尾) 0 0 0 0 0 幾何

方塊

個數 127 127 127 127 127 127

Pearson 相關 0487 0562 0397 1 0248 0509

顯著性 (雙尾) 0 0 0 0005 0 魔術

個數 127 127 127 127 127 127

Pearson 相關 0174 0272 0308 0248 1 0317

顯著性 (雙尾) 005 0002 0 0005 0 猜一

個數 127 127 127 127 127 127

Pearson 相關 044 0587 0389 0509 0317 1

顯著性 (雙尾) 0 0 0 0 0 擲骰

個數 127 127 127 127 127 127

在顯著水準為001時 (雙尾)顯著相關

在顯著水準為005時 (雙尾)顯著相關

62

表4-2-2 班級對總分之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

班級 390132 3000 130044 2046 0111

誤差 7806910 123000 63471

總和 8197040 126000

以單因子變異數分析班級對總分的結果如表4-2-2在α=005之下F檢定值為

2049相對應的P值是0111因為P值>005所以未達顯著差異也就是各班

級間的實作評量總分並沒有因班級的不同而顯現出差異

表4-2-3 性別對總分之組別統計量與t檢定表

性別 個數 平均數 標準差 平均數的標準誤

男生 65 21892 7567 0939 總分

女生 62 23355 8595 1092

獨立樣本檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 0320 0573 -0998 125000 0320 -4263 1404

分 不假設變

異數相等 -0996 121524 0322 -4272 1413

從表4-2-3來看雖然女生平均成績是2331分高於男生的2188分但根

據獨立樣本t檢定的檢定結果變異數的Levene檢定F值為0320P值為0573

顯示出男生與女生的變異數沒有顯著差異而平均數的t檢定值為-0998P值為

63

032也顯示出男女生的平均數是沒有顯著差異的研究者進一步分析性別與各

題的t檢定結果顯示於表4-2-4

表4-2-4 性別對各題之組別統計量與t檢定表

性別 個數 平均數 標準差 平均數的標準誤

男生 65 326 112 014 圖形題

女生 62 340 098 012

男生 65 418 215 027 數字卡

女生 62 474 212 027

男生 65 417 160 020 幾何方塊

女生 62 413 167 021

男生 65 417 204 025 魔術師

女生 62 432 213 027

男生 65 135 163 020 猜一猜

女生 62 177 185 023

男生 65 474 237 029 擲骰子

女生 62 494 253 032

64

獨立樣本檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 1522 0220 -0756 125000 0451 -0510 0230圖

題 不假設變

異數相等 -0758 124117 0450 -0510 0230

假設變異

數相等 0431 0513 -1471 125000 0144 -1310 0190數

卡 不假設變

異數相等 -1471 124863 0144 -1310 0190

假設變異

數相等 0067 0797 0139 125000 0890 -0530 0610

不假設變

異數相等 0138 123883 0890 -0530 0620

假設變異

數相等 0031 0860 -0414 125000 0680 -0890 0580魔

師 不假設變

異數相等 -0413 123981 0680 -0890 0580

假設變異

數相等 2029 0157 -1359 125000 0177 -1030 0190猜

猜 不假設變

異數相等 -1355 121450 0178 -1030 0190

假設變異

數相等 0391 0533 -0452 125000 0652 -1060 0660擲

子 不假設變

異數相等 -0452 123426 0652 -1060 0670

65

結果顯示各小題的平均數女生分別是34474413432177

494男生分別是326418417417135474除了幾何方塊之外

幾乎都是女生高於男生而各小題的Levene變異數檢定結果其P值分別是

0220513079708601570533均大於005顯示沒有顯著差異

而平均數的檢驗結果各題的P值分別是0451014408906801770652

也都大於005也呈現沒有達到顯著差異可見這6題的考題成績結果與刻板

印象「男生數理比較厲害」有不同的結果

第三節 利用 TIMSS 2003 實作評量試題比較施測

學校與原始施測資料的成績差異

本節研究重點是 TIMSS 2003 的題目與國際受測國家中總體表現較好的國家

資料及台灣原始資料進行比較TIMSS 網站上提供各個受測國家的資料檔研究

者下載了新加坡香港日本台灣比利時與美國的資料之所以下載這幾個

國家的資料是因為四年級測驗總分結果前五名剛好是新加坡香港日本台

灣比利時而且從總分的分析結果顯示台灣與新加坡香港有顯著差異與日

本沒有顯著差異而比利時與台灣也有顯著差異所以比較這五個國家而美國

是因為研究者想了解美國學生是否真的比較會活用故列入此次的比較探討在

實作評量上是否達到顯這差異研究方法採用變異數分析與事後比較事後比較

採用雪費(Scheffe)檢定法由於 TIMSS 施測時採用 12 本測驗題本所以參與

實作評量的各題人數並不一致會出現同一個國家在不同題目上有不同人數的情

況另外因研究者分三天進行六題施測每題實際受測人數也有不同

一圖形題

66

表4-3-1 95年圖形題題組得分情形分配表

題目 得 0分人數 得 1分人數 缺失值 總人數

圖形題甲 66 934 6 127

圖形題乙 41 959 6 127

圖形題丙 174 826 6 127

圖形題丁 223 777 6 127

由表 4-3-1 可知在圖形題題組中各小題得分均以得 1分的人數分別是

934959826777各題百分比是否達到顯著不同研究者用百分比

同質性檢定結果列於表 4-3-2

表 4-3-2 圖形題百分比同質性檢定

得分題目 交叉表

題目

1 2 3 4 總和

得分 0 8 5 21 27 61

得分 1 113 116 100 94 423

總和 121 121 121 121 484

卡方檢定

數值 自由度 p-value

Pearson 卡方 24666a 3000 0000

概似比 25936 3000 0000

線性對線性的關連 19950 1000 0000

有效觀察值的個數 484000

a 0 格(0)的預期個數少於 5最小的預期個數為 1525

67

結果顯示 Pearson 的卡方值 24666df=3p=0000達到顯著水準所以

各題的答對率百分比是不同的

表4-3-3 圖形題題組各國答對率的比較

題目 新加坡答

對率

香港答對

日本答對

台灣答對

比利時答

對率

美國答對

施測學校

答對率

圖形題甲 830 958 917 936 833 727 934

圖形題乙 937 988 902 950 911 877 959

圖形題丙 702 859 744 847 504 328 826

圖形題丁 616 490 634 656 504 553 777

00

400

800

新加坡

香港

日本

台灣

比利時

美國

施測學

圖形

題甲

圖形

題乙

圖形

題丙

圖形

題丁

圖4-3-1 圖形題題組答對率之比較圖

由表 4-3-3 與圖 4-3-1 可知在圖形題題組中甲題的答對率以香港最高

台灣與施測學校居次美國最低乙題的答對率以香港最高台灣與施測學校還

是居次美國最低丙題的答對率以香港最高台灣居次美國最低而且低到

328丁題的答對率以施測學校最高台灣居次香港最低低到 490香港

68

在此小題的表現與上述三小題的結果明顯有很大差距

接著進行變異數分析與事後比較的結果

表4-3-4 圖形題各題之資料統整

圖形題甲

有效的個數 平均數 標準差

新加坡甲 1103 0830462 0375396

香港甲 757 0957728 0201342

日本甲 767 0916558 0276730

台灣甲 776 0935567 0245681

比利時甲 779 0833119 0373109

美國甲 1636 0726773 0445753

施測甲 121 0933884 0249517

圖形題乙

有效的個數 平均數 標準差

新加坡乙 1103 0937443 0242274

香港乙 757 0988111 0108458

日本乙 767 0902216 0297216

台灣乙 776 0949742 0218617

比利時乙 779 0911425 0284312

美國乙 1636 0877139 0328378

施測乙 121 0958678 0199862

題形題丙

有效的個數 平均數 標準差

新加坡丙 1103 0701723 0457709

香港丙 757 0858653 0348610

日本丙 767 0744459 0436450

台灣丙 776 0846649 0360557

比利時丙 779 0504493 0500301

美國丙 1636 0327628 0469492

施測丙 121 0826446 0380300

69

圖形題丁

有效的個數 平均數 標準差

新加坡丁 1103 0615594 0486675

香港丁 757 0490092 0500232

日本丁 767 0633638 0482125

台灣丁 776 0655928 0475371

比利時丁 779 0504493 0500301

美國丁 1636 0552567 0497381

施測丁 121 0776860 0418083

由表 4-3-4 得知參與此題的人數以美國的 1636 人最多香港日本台

灣比利時的人數差不多經變異數分析後如表 4-3-5 所示

表 4-3-5 圖形題各題之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

圖形題甲 組間 44078 6 7346 59531 0000

組內 732026 5932 0123

總和 776103 5938

圖形題乙 組間 8009 6 1335 18752 0000

組內 422269 5932 0071

總和 430278 5938

圖形題丙 組間 257623 6 42937 223054 0000

組內 1141889 5932 0192

總和 1399511 5938

圖形題丁 組間 24546 6 4091 17047 0000

組內 1423561 5932 0240

總和 1448107 5938

70

表4-3-5顯示在α=005之下圖形題4小題的P值均<005均達顯著

水準可見這4題的平均得分有顯著不同所以研究者進一步做事後分析如表

4-3-6所示配合研究者的研究目的本文中只摘錄與研究目的相關的資料其

他比較結果請參閱附錄表格

表 4-3-6 圖形題各題之事後比較

Scheffe 法

題目 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0100 0034 0150

香港 -0024 0034 0998

日本 0017 0034 1000

台灣 -0002 0034 1000

比利時 0100 0034 0196

圖形題

美國 0210 0033 0000

施測 新加坡 0021 0026 0995

香港 -0029 0026 0973

日本 0057 0026 0585

台灣 0009 0026 1000

比利時 0047 0026 0772

圖形題

美國 0082 0025 0105

施測 新加坡 0120 0042 0185

香港 -0032 0043 0997

日本 0082 0043 0724

台灣 -0020 0043 1000

比利時 0320 0043 0000

圖形題

美國 0500 0041 0000

施測 新加坡 0160 0047 0066

香港 0290 0048 0000

日本 0140 0048 0178

台灣 0120 0048 0382

比利時 0270 0048 0000

圖形題

美國 0220 0046 0001

71

由表4-3-6所顯示的結果得知在圖形題這四小題中施測學校與台灣在2003

年所作的調查結果的資料並沒有達到顯著差異可見施測學校的圖形題各小題的

平均得分與2003年的台灣資料的圖形題各小題的平均得分是視為相等的施測學

校在圖形題乙的部分與國際上2003年表現較好的國家的施測資料也都沒有達到

顯著差異可見在這一小題上施測學校與國際上表現較好的國家的平均得分也

是可以視為相等的但是在圖形題甲中施測學校與美國有達到顯著差異在圖

形題丙中施測學校與比利時美國有達到顯著差異在圖形題丁中施測學校

與香港比利時美國有達到顯著差異可見在圖形題甲中施測學校的平均得

分優於美國在圖形題丙中施測學校的平均得分優於比利時與美國在圖形題

丁中施測學校的平均得分優於香港比利時與美國

接下來以整個圖形題的題組來看由表 4-3-7 所示變異數分析的結果

表4-3-7 圖形題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 725457 6 120910 107817 0000

組內 6652328 5932 1121

總和 7377785 5938

在α=005的情況下F檢定值為107817plt005達到顯著差異所以

可以得知這七個國家的平均得分有顯著差異所以要進行事後比較如表4-3-8

所示

72

表4-3-8 圖形題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0410 0101 0012

香港 0200 0104 0708

日本 0300 0104 0215

台灣 0110 0104 0982

比利時 0740 0103 0000

美國 1010 0100 0000

由表 4-3-8 得知整個題組的事後分析顯示在α=005 的情況下施測學

校的總分平均得分與與台彎沒有達到顯著差異所以平均總得分是可以視為相等

的而施測學校總平均得分與新加坡比利時美國有達到顯著差異所以施測

學校的總平均得分是優於新加坡比利時與美國

二數字卡題組

表4-3-9 95年數字卡題題組得分情形分配表

得 0分人數 得 1分人數 得 2分人數 遺漏值 總人數

數字卡 1 317 683 7 127

數字卡 2 242 758 7 127

數字卡 3 117 92 792 7 127

數字卡 4 300 700 7 127

數字卡 5 317 683 7 127

數字卡 6 783 217 7 127

由表 4-3-9 可知在數字卡題題組中各小題得分分別以數字卡 1得 1分者

73

佔 683以數字卡 2得 1分者佔 758以數字卡 3得 2分者佔 792以數字

卡 4得 1分者佔 70以數字卡 5得 1分者佔 683以數字卡 6得 0分者佔 783

居多數字卡 6得分偏低此小題是要求學生將已知的三個數字拼成兩個數後所

得乘積最大結果顯示學生答對率偏低但學生在加法與減法上則無此現象(數

字卡 4與數字卡 5)此題各國答對率的比較結果列於表 4-3-10

表4-3-10 數字卡題題組各國答對率的比較

題目 新加坡 香港 日本 台灣 比利時 美國 施測學校

數字卡 1 494 624 646 698 475 416 683

數字卡 2 567 538 619 657 556 458 758

數字卡 3 645 595 594 657 553 563 792

數字卡 4 713 710 754 647 556 534 700

數字卡 5 693 689 738 629 546 497 683

數字卡 6 264 243 362 225 185 135 217

0

20

40

60

80

100

數字卡1

數字卡2

數字卡3

數字卡4

數字卡5

數字卡6

圖 4-3-2 數字卡題題組答對率之比較圖

74

由表 4-3-10 與圖 4-3-2 可知在圖形題題組中第 1題的答對率以台灣最

高施測學校居次美國最低第 2題的答對率以施測學校最高台灣居次美

國最低第 3題的答對率以施測學校最高台灣居次比利時最低第 4題的答

對率以日本最高新加坡和香港居次美國最低第 5題的答對率以日本最高

新加坡居次美國最低第 6題的答對率還是以日本最高新加坡居次美國最

低接著進行變異數分析結果列於表 4-3-11

表 4-3-11 數字卡題各題之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

組間 34477 6 5746 2418 0000

組內 717422 3019 0238 第一題

總和 751899 3025

組間 18413 6 3069 12727 0000

組內 727966 3019 0241 第二題

總和 746379 3025

組間 36829 6 6138 7166 0000

組內 2585878 3019 0857 第三題

總和 2622707 3025

組間 22038 6 3673 16419 0000

組內 675332 3019 0224 第四題

總和 697369 3025

組間 24878 6 4146 18142 0000

組內 689975 3019 0229 第五題

總和 714853 3025

組間 14939 6 2490 14850 0000

組內 506156 3019 0168 第六題

總和 521095 3025

75

表4-3-11顯示在α=005之下數字卡題6小題均達顯著水準可見這6小題

的平均得分有顯著不同所以研究者進一步做事後分析如表4-3-12所示配合

研究者的研究目的本文中只摘錄與研究目的相關的資料其他比較結果請參

閱附錄表格

表4-3-12 數字卡題之事後比較

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0190 0049 0021

香港 0059 0051 0969

日本 0037 0051 0998

台灣 -0015 0051 1000

比利時 0209 0051 0010

第一題

美國 0267 0048 0000

施測 新加坡 0192 0049 0020

香港 0221 0051 0005

日本 0140 0052 0296

台灣 0101 0051 0692

比利時 0203 0051 0016

第二題

美國 0301 0048 0000

施測 新加坡 0335 0093 0045

香港 0451 0097 0001

日本 0404 0098 0009

台灣 0302 0097 0136

比利時 0500 0097 0000

第三題

美國 0490 0091 0000

施測 新加坡 -0013 0048 1000

香港 -0010 0050 1000

日本 -0054 0050 0978

台灣 0053 0049 0979

比利時 0144 0049 0201

第四題

美國 0166 0046 0045

76

表 4-3-12(續) 數字卡題之事後比較

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 -0010 0048 1000

香港 -0006 0050 1000

日本 -0054 0050 0979

台灣 0054 0050 0978

比利時 0138 0050 0267

第五題

美國 0186 0047 0014

施測 新加坡 -0047 0041 0971

香港 -0026 428E-02 0999

日本 -0145 0043 0079

台灣 -0008 0043 1000

比利時 0031 0043 0997

第六題

美國 0082 0040 0654

由表4-3-12所顯示的結果得知在數字卡題這六小題中施測學校與台

灣在2003年所作的調查結果資料並沒有達到顯著差異可見施測學校的數字卡題

各小題的平均得分與2003年的台灣資料的數字卡題各小題的平均得分是視為相

等的施測學校在數字卡題第六題的部分與國際上2003年表現較好的國家的施測

資料也都沒有達到顯著差異可見在這一小題上施測學校與國際上表現較好的

國家的平均得分也是可以視為相等的但是在數字卡題第一題中施測學校與新

加坡比利時美國有達到顯著差異顯示在這一小題中施測學校的成績是優

於這三個國家的在數字卡題第二題中施測學校與新加坡香港比利時美

國有達到顯著差異顯示在這一小題中施測學校的成績是優於這四個國家的

在數字卡題第三題中施測學校與新加坡香港日本比利時美國有達到顯

著差異顯示在這一小題中施測學校的成績是優於這五個國家的在數字卡題

第四題中施測學校與美國有達到顯著差異顯示在這一小題中施測學校的成

績是優於美國的在數字卡題第五題中施測學校與美國有達到顯著差異顯示

77

在這一小題中施測學校的成績是優於美國的

接下來以整個數字卡題的題組來看由表 4-3-13 所示變異數分析的結果

表4-3-13 數字卡題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 660902 6 110150 23261 0000

組內 14295950 3019 4735

總和 14956850 3025

在α=005的情況下F檢定值為23261plt005達到顯著差異所

以可見這七個國家總分的平均得分有顯著差異所以進行事後比較如表4-3-14

所示

表 4-3-14 數字卡題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0645 0219 0192

香港 0688 0228 0167

日本 0327 0229 0916

台灣 0486 0227 0598

比利時 1224 0227 0000

美國 1492 0213 0000

由表4-3-14得知整個題組的事後分析顯示在α=005的情況下施測學校

的總分平均得分與台彎沒有達到顯著差異所以平均總得分是可以視為相等的

而施測學校總平均得分與比利時美國有達到顯著差異所以施測學校的總平均

得分是優於比利時與美國

78

三幾何方塊題組

表4-3-15 95年幾何方塊題題組得分情形分配表

得 0分人數 得 1分人數 得 2分人數 遺漏值 總人數

幾何方塊 1 50 950 8 127

幾何方塊 2 109 891 8 127

幾何方塊 3 252 748 8 127

幾何方塊 4 193 807 8 127

幾何方塊 5 244 479 277 8 127

由表 4-3-15 可知在幾何方塊題題組中各小題得分分別以幾何方塊 1得 1

分者佔 95以幾何方塊 2得 1 分者佔 891以幾何方塊 3 得 1 分者佔 748

以幾何方塊 4得 1分者佔 807以幾何方塊 5得 1分者佔 479居多各題各

國答對率的比較結果列於表 4-3-16

表 4-3-16 幾何方塊題題組各國答對率的比較

題目 新加坡 香港 日本 台灣 比利時 美國 施測學校

幾何方塊 1 432 602 785 580 517 399 950

幾何方塊 2 447 470 717 546 548 405 891

幾何方塊 3 720 702 557 613 432 461 748

幾何方塊 4 557 436 447 323 516 446 807

幾何方塊 5 115 66 135 82 123 76 277

79

0

20

40

60

80

100

幾何

方塊1

幾何

方塊2

幾何方塊3

幾何

方塊4

幾何

方塊5

圖4-3-3 幾何方塊題題組答對率之比較圖

由表 4-3-16 與圖 4-3-3 可知在幾何方塊題組中第 1題的答對率以施測

學校最高日本居次美國最低第 2題的答對率以施測學校最高日本居次

美國最低第 3題的答對率以施測學校最高新加坡居次比利時最低第 4題

的答對率以施測學校最高新加坡居次台灣最低第 5題的答對率以施測學校

最高日本居次香港最低接著進行變異數分析結果列於表 4-3-17

80

表 4-3-17 幾何方塊題各題之變異數分析

得分 平方和 自由度 平均平方和 F 檢定 p-value

組間 115732 6 19289 83927 0000

組內 1363788 5934 0230 第一題

總和 1479520 5940

組間 75877 6 12646 53259 0000

組內 1409236 5935 0237 第二題

總和 1485112 5941

組間 77699 6 12950 55905 0000

組內 1374774 5935 0232 第三題

總和 1452473 5941

組間 42205 6 7034 29061 0000

組內 1436564 5935 0242 第四題

總和 1478768 5941

組間 51860 6 8643 20902 0000

組內 2454259 5935 0414 第五題

總和 2506120 5941

表4-3-17顯示幾何方塊題5小題均達顯著水準可見這5題的平均得分

有顯著不同所以研究者進一步做事後分析如表4-3-18所示配合研究者的研

究目的本文中只摘錄與研究目的相關的資料其他比較結果請參閱附錄表格

81

表4-3-18 幾何方塊題各題之事後比較

Scheffe 法

題號 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0520 0046 0000

香港 0350 0047 0000

日本 0160 0047 0060

台灣 0370 0047 0000

比利時 0430 0047 0000

第一題

美國 0550 0046 0000

施測 新加坡 0440 0047 0000

香港 0420 0048 0000

日本 0170 0048 0040

台灣 0340 0048 0000

比利時 0340 0048 0000

第二題

美國 0490 0046 0000

施測 新加坡 0028 0046 0999

香港 0046 0047 0988

日本 0190 0047 0012

台灣 0140 0047 0230

比利時 0320 0047 0000

第三題

美國 0290 0046 0000

施測 新加坡 0250 0047 0000

香港 0370 0049 0000

日本 0360 0049 0000

台灣 0480 0049 0000

比利時 0290 0049 0000

第四題

美國 0360 0047 0000

82

表 4-3-18(續) 幾何方塊題各題之事後比較

題號 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0260 0062 0006

香港 0430 0063 0000

日本 0280 0063 0004

台灣 0480 0063 0000

比利時 0350 0063 0000

第五題

美國 0420 0061 0000

由表4-3-18所顯示的結果得知在幾何方塊題這五小題中只有第三小

題施測學校與台灣在2003年所作的調查結果資料並沒有達到顯著差異其他四小

題的結果都是與台灣達到顯著差異的可見施測學校的平均得分在這四小題中是

優於台灣在2003年所作的調查結果資料在幾何方塊題第一題中施測學校與新

加坡香港比利時美國有達到顯著差異顯示在這一小題中施測學校的成

績是優於這四個國家的在幾何方塊題第二題中施測學校與新加坡香港日

本比利時美國有達到顯著差異顯示在這一小題中施測學校的成績是優於

這五個國家的在幾何方塊題第三題中施測學校與日本比利時美國有達到

顯著差異顯示在這一小題中施測學校的成績是優於這三個國家的在幾何方

塊題第四題中施測學校與新加坡香港日本比利時美國有達到顯著差異

顯示在這一小題中施測學校的成績是優於這五個國家的在幾何方塊題第五題

中施測學校與新加坡香港日本比利時美國有達到顯著差異顯示在這

一小題中施測學校的成績是優於這五個國家的

接下來以整個幾何方塊題的題組來看由表 4-3-19 所示變異數分析的結果

83

表4-3-19 幾何方塊題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 885084 6 147514 50368 0000

組內 17379220 5934 2929

總和 18264300 5940

在α=005的情況下F檢定值為50368plt005達到顯著差異所

以可見這七個國家總分的平均得分有顯著差異所以進行事後比較如表4-3-20

所示

表4-3-20 幾何方塊題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 1499 0165 0000

香港 1615 0169 0000

日本 1166 0169 0000

台灣 1814 0169 0000

比利時 1727 0169 0000

美國 2101 0162 0000

由表4-3-20得知整個題組的事後分析顯示在α=005的情況下施測學

校的總分平均得分與台彎有達到顯著差異所以平均總得分是施測學校優於台灣

在2003年所作的調查結果資料的而施測學校總平均得分與新加坡香港日本

比利時美國有達到顯著差異所以施測學校的總平均得分是優於新加坡香港

日本比利時美國

84

第四節 實作評量試題的類推性

本研究試題的評分者有兩位所以採用的是評分者與工作項目的兩面向交叉

設計(the two-facet crossed persontimesratertimestask design)研究者原先想

利用 SPSS 套裝軟體進行多變量變異數分析將評分的結果做概化程度的分析

計算出各個變異來源之變異成份的大小及其佔總變異的百分比但因檔案太

大SPSS 套裝軟體無法進行多變量變異數分析所以研究者改用 EXCEL 軟體進行

試算其結果列於表 4-4-1

表4-4-1 實作評量概化程度變異成分表

變異來源 估計變異成份 佔總變異之百分比

受試者 0887981185 1944983082

評分者 96E-16 211E-14

工作項目 1697518073 3718146275

受試者評分者 0 0

受試者工作項目 1872595983 410162689

評分者工作項目 0033245844 0728197914

受試者評分者工作項目及誤差 0074154589 1624239615

G 係數 0736144063

註 1在受試者與評分者的交互作用項中其估計變異成份的大小為-106396E-15Shavelson

Webb(1991)指出當某變異成份實際的值接近或等於 0 時取樣的誤差可能導致該變異成份

的估計值成為負數此時可將負值的變異成份大小設定為 0

從以上的表 4-4-1研究者有以下的發現

一實作評量最大的三個變異來源是受試者和工作項目的交互作用工作項

目之間的變異與受試者之間的變異

實作評量最大的變異來源是受試者和工作項目的交互作用佔總變異量的

85

41016表示在研究者的實作評量裡學生的成績會因著工作項目的不同而有

高低起伏如此一來便會降低以某位受試者的觀察分數概化至其真實分數的可

靠程度所以研究者無法以學生在少量的實作評量評量項目上的表現來做為他

們在數學科能力的推論

此外在研究者的實作評量中第二大的變異來源為工作項目之間的變異

其值為 170佔總變異的 37181這只是反應了學生在評量項目上能力表

現的差異並非影響 G係數大小的主要因素關於這一點研究者從計算 G係數

的公式可以了解G係數的計算公式是這樣的

G=σ2p(σ2

p+σ2ptnt+σ2

rpnr+σ2rptenrtimesnt)

G 係數的意義是受試者間的變異量在與受試者有關的變異量之總和中所佔的

比例大小因此若受試者間的變異量愈大而相對於受試者與其他實驗設計面

向的變異量及誤差愈小則 G係數便會愈大也就是根據測驗成績來作推論的可

靠性愈高

二兩位評分者之間的變異極小

評分者之間的變異為傳統的評分者信度從表 4-4-1 可以看到兩位評分結果

之間的變異值為 96E-16僅佔總變異的 211E-14顯示研究者的評分標準非

常一致也就是說研究者兩位當中並沒有誰評分時較為嚴格(stringent)或

較為寬大(liberal)

三受試者與評分者之間沒有交互作用

表 4-4-1 顯示受試者與評分者之間的交互作用為 0表示研究者兩位評分者

並沒有受到月暈效應的影響而對某些學生給予較高的成績對其他學生則給予較

低的成績這一點也可做為評量是否具有公平性的證據之一

四評分者與工作項目間的交互作用非常小

評分者與評量項目間的交互作用很小表示兩位評分者在評定各個評量項目

的評量標準相當一致這原因是由於評分標準訂定的相當明確而且具體讓評分

86

者之間沒有認知的差異存在

從評量工作項目的內容來看本次測驗所測量的雖然同樣是數學能力

測驗但各題所涵蓋的領域包含了統計的資料處理分析能力(擲骰子)幾

何對稱概念(魔術師)概算能力(猜一猜)幾何圖型的直觀概念(圖形

題)數與量中的整數加減乘的運算分析能力(數字卡)結合數與形兩大

主題的幾何形體構成要素及其數量性質(幾何方塊)題目本身的差異性很

大而且每位學生所擅長的方面有所不同在工作項目的表現自然就有所

不同在加上每題的配分並不盡相同所以由這些評量項目概化至其他數

學科能力的程度就降低了這也就是本研究的 G 係數僅達 0313表示如果

使用少量的實作評量工作項目將無法達到所需要的信度

另外主要效果是受試者的變異數值是 0888佔總變異的 19450代

表學生之間的程度差異也很大

根據概化程度研究的結果研究者可以進一步做決策研究(decision

study)決策研究是用來指出若要達到足夠小的誤差變異或足夠大的概化

係數時每一個學生需要多少工作項目以及每一個工作項目需要多少評分

者下面研究者分別分析在幾個評分者的情況下實作評量工作項目為幾

個時G 係數才能達到 08

87

表 4-4-2 G 研究與各種 D 研究之變異成分分析與推論力係數

變異源 G 研究變異成

分之估計值D研究變異成分之估計值

nr= 1 2 3 5 2 2 2

ni= 1 6 6 6 7 8 9

受試者 0888 0888 0888 0888 0888 0888 0888

評分者 0000 0000 0000 0000 0000 0000 0000

工作項目 1698 0283 0283 0283 0243 0212 0189

受試者評分者 0000 0000 0000 0000 0000 0000 0000

受試者工作項目 1873 0312 0312 0312 0268 0234 0208

評分者工作項目 0033 0100 0066 0040 0116 0133 0150

受試者評分者工

作項目及誤差 0074 0006 0004 0002 0005 0005 0004

σRel 1947 0318 0316 0315 0273 0239 0212

G 係數 0313 0736 0737 0738 0765 0788 0807

由表 4-4-2 可知原設計研究 2位研究者與 6道題目的方式推出 G係數只有

0736當評分者增加一位而題目維持六題時G係數只增加 001 達到 0737

如果將評分者增加到五位而題目仍維持六題時G係數只增加 002 達到 0738

可見增加評分者的影響有限如果評分者維持兩位而題目增加為七題G係數會

增加 0029達到 0765如果評分者維持兩位而題目增加為八題G係數會增加

0052達到 0788可見增加題目的效果比增加評分者更為有效當評分者為兩

位題目為九題時G係數可達 0807顯示評分者為兩位題目為九題時內

部一致性較佳

88

第五章 結論

本研究以 TIMSS 數學實作評量的題目為工具進行特定環境背景不同年度的

縱貫研究及與其他國際上表現較佳的國家進行橫貫研究以下為本研究進行所得

的經驗以及資料分析所得之結果分別以結論以及建議等兩節進行說明

第一節 結論

壹實作評量的信效度

TIMSS 試題在台灣之施測是具有一定信效度在信度方面經實際施測後計

算的結果為 0799所以 TIMSS 數學實作評量試題在台灣之施測是具有信度的

但根據實作評量試題的類推性分析結果發現G研究中的 G係數只有 0313深

入探討其原因可能是試題難易程度的差別較大與各題配分比例不同所造成的

所以在 D研究中要補救其信度低的措施就是增加評分者為兩位題目為九題時

其 G係數就可以達到 0807在效度方面每一題均有詳細說明細節行為的項目

給定參考答案圖形的作品量表各題除經著名國際測驗機構審核施測過外並由

研究者另請學校資深四年級教師共同研究討論題目與答案對於施測過程研究

者也與四位監考老師討論後訂出共同標準所以在效度方面具有專家效度跟內

容效度

貳評量結果與比較

一在進行縱貫研究方面在魔術師題型上民國 95 年的結果較佳在擲

骰子題型上是民國 89 年的結果較佳在猜一猜題型上民國 89 年的結

果較佳此結果顯示在幾何概念的對稱觀念上民國 95 年的學生有較

佳的表現但在統計觀念及概數觀念上民國 89 年的學生表現較佳

在實際施測過程中研究者發現在魔術師題型的第一題上許多民國

95 年的學生是先將題目要求的圖形剪出來後再進行對摺當然如果學生

是交出這樣的答案紙條評分者是不給分的因為當評分者在沿著摺線

89

還原時就會發現不是一刀剪出來的可是因為有三個機會所以許多學

生得到這樣的經驗後就會在第二次或第三次時剪出題目要求的結果

而且第一題的成功經驗會連帶的影響第二題的作答因為摺的方式是

一樣的只是剪的地方是不同的所以不管民國 95 年或是民國 89 年的

作答結果都會發現第二題的答對率均比第一題高而第三題的作答方

式因為要多摺一次而且較難複製前面成功的經驗所以第三小題的答

對率比前兩題均比較低所以研究者認為在這一題型上民國 95 年的

學生會表現得比較好的原因可能在於有比較好的作答技巧

二TIMSS 實作評量在性別及班級之間沒有顯著差異

三在圖形題題型上施測學校與台灣西元 2003 年施測結果沒有達到顯著

差異在數字卡題型上施測學校與台灣西元 2003 年施測結果沒有達

到顯著差異在幾何方塊題型上施測學校與台灣西元 2003 年施測結

果達到顯著差異之所以在幾何方塊題型上會達到顯著差異研究者認

為可能是時間點的問題因為研究者施測的時間是利用學期末期末考

後而剛好這次期末考有分數的單元所以學生對這個範圍比較熟悉

才可能造成施測學校的成績特別突出

四在圖形題題型上施測學校優於新加坡比利時及美國在數字卡題型

上我國優於比利時美國在幾何方塊題型上施測學校優於新加坡

香港日本比利時美國研究者特別注意到香港與美國這兩個國家

在 89 年徐美英論文中香港在該年的施測結果都比徐美英施測結果落

後但在 95 年的施測結果卻只有幾何方塊題型是明顯落後施測學校這

表示不是台灣學生在這幾年程度變低了就是這幾年香港程度變高了

在跟縱貫研究做交叉比較後研究者認為台灣學生這幾年程度變低的可

能性較大而美國不管是在 89 年與徐美英論文的施測結果比較或是與

95 年施測結果比較均在這兩次比較中明顯落後

90

第二節 建議

壹TIMSS 實作評量的後續研究

由於數學科實作評量在實際施測時常有人力與物力上的考量以至於在實

際教育現場上並不常用但是實作評量所測出的學生能力與紙筆測驗所測出的

學生能力是不同面向的經過此次實際施測的經驗研究者認為運用 TIMSS 實

作評量的試題來了解學生的學習成就可以在經濟負擔的考慮範圍內達到可

信賴的研究成果因此建議後續研究者可朝向此方向繼續研究以期能更深入

了解學生學習成就的變化情形

貳學生學習成就的長期追蹤

建立台灣的長期教育資料庫是必要的這是從事教育基礎研究的中外學者

的共識研究者此次研究以 TIMSS 實作評量的試題為工具來了解民國 89

年跟民國 95 年特定環境背景的國小四年級學生學習成就的比較即以此理念

為出發點目前在中央研究院教育部和國科會共同推動下『台灣教育長期

追蹤資料庫』的建置工作也已在 2001 年 10 月份起正式展開目的是為了從教

育基礎研究的角度出發研究哪些因素會影響到學生解決問題的能力如學

生努力程度學習機會和學習能力等等當然資料的品質是累積而來的不做

沒有開始就不可能有改進也就不可能有較豐富的資料內容美國國家教育

長期研究(National Education Longitudinal Study NELS)其資料的品質

和豐富素為各國教育研究學者所稱道就是因為它累積了二十多年的經驗

且經過多次的增刪修改研究者也希望能有後續研究者投入後續的相關研究

並累積相關的資料以利決策者能創造出適合台灣學生的最佳學習環境

叁開放性問題的評量研究

在此次研究中發現學生對於開放性問題的解題能力非常不足對於設計

好的題目較難提出歸納模式或者合理的推測這或許歸因於教學現場中的標

91

準化測驗在整個學習過程中教學活動跟教學評量是交互不斷進行而常常

受限於時間跟經濟因素教師只能被迫選擇標準化測驗以診斷學生學習困難

處但是標準化測驗容易讓學生誤以為答案是唯一的而且數學知識是可以切

割成不相關的小部分的因此在國民中小學九年一貫課程綱要中提出「教師

應透過各種評量方式以檢驗教學效果」的觀念研究者建議後續研究者能進一

步探討這方面的相關研究

肆國際比較的重要性

許多國家多年以前即開始參與大型國際研究以了解自己國家學生與其他

不同國家或區域的學生學習成就的差異特別的是此類國際研究對於結果的分

析是深入且多面向的包括學生家庭背景班級學校等民國 95 年中國時

報特別以專欄方式提出芬蘭的教育成功經驗以供國內教育改革的參考為什

麼要特別提出芬蘭呢因為芬蘭在重要的國際比較研究中常常名列前矛所

以參與大型的國際研究可以找出成功的經驗減少自己摸索的時間

92

參考文獻

壹中文部份

王秀琲 (民 92)實作評量在國小數學科之應用-以五年級學童分數為例國立

臺中師範學院教育測驗統計研究所碩士論文

方泰山(民 91)第四次 TIMSS 2003 NRC 自由反應評分系統研討會會議報告

httpichochemntnuedutwpub4thnrcreporthtm

石千奇(民 93)國小六學童在數學實作評量中的小組解題歷程分析國立中山

大學教育研究所碩士論文

江文慈(民 87)一個新評量理念的探討多元智力取向的評量教育資料與研

究20 期6-12

曲慧娟 (民 94)實作評量在國中學術性向優異班招生鑑定之效度研究~以臺灣

北區為例國立臺灣師範大學特殊教育研究所碩士論文

李坤崇(民 88)多元化教學評量台北心理

余民寧(民 93)教育測驗與評量-成就測驗與教學評量第二版台北心理

吳毓瑩(民 85)評量的蛻變與突破-從哲學思潮與效度理論參考起教育資料

與研究13 期2-15

李虎雄張敏雪(民 87)由學力評量觀點談實作評量之特性測驗與輔導

3104-3108

吳明隆(民 87)教室做為評量環境的內涵與其評量新趨勢研習資訊15 卷

4期62-77

93

吳清山林天佑(民 85)教育名詞 mdash分流教育教育資料與研究885

李長柏(民 91)國小數學簡單機率解題實作評量與後設認知之相關研究國立

臺中師範學院教育測驗統計研究所碩士論文

呂政隆(民 93)國小學童在數學實作評量解題整合認知與課程之相關研究

國立臺中師範學院教育測驗統計研究所碩士論文

呂金燮(民 88)實作評量-理論載於王文中呂金燮吳毓瑩張郁雯張淑

慧(合著)教育測驗與評量教室學習觀點(頁 173-207)台北五

李茂能(民 85)信度考驗的另一途徑推論力理論國民教育學報227-48

林清山(民 81)心理與教育統計學台北東華

林敬修(民 92)影響國小數學科實作評量信度相關因素之類推性理論分析國

立屏東師範學院教育心理與輔導學系研究所碩士論文

洪之昀(民 89)數學科實作評量對國小高年級學童學習策略影響之研究國立

臺中師範學院教育測驗統計研究所碩士論文

桂怡芬吳毓瑩(民 87)自然科實作評量的效度探討測驗年刊45(2)19-36

桂怡芬(民 85)自然科實作評量的效度探討國立台北師範學院國民教育研究

所碩士論文

桂怡芬(民 85)紙筆與實作的互補我的實作評量經驗教育資料與研究13

期36-40

徐美英(民 89)TIMSS 數學實作評量在台灣之試用探討國立臺中師範學院教

育測驗統計研究所碩士論文

94

夏淑琴(民 88)教學評量革新-多元評量載於高強華主編(民 88)學校變遷與

學校革新台北師大

教育部(民 92)國民中小學九年一貫課程綱要數學學習領域台北教育部

張紹勳張紹評林秀娟(民 92a)SPSS For Windows 統計分析初等統計與高

等統計(上冊)(第四版)台北文魁資訊股份有限公司

張紹勳張紹評林秀娟(民 92b)SPSS For Windows 統計分析初等統計與高

等統計(下冊)(第四版)台北文魁資訊股份有限公司

張敏雪(民 86)實作評量的本質及國民中小學數理科教師對實作評量的態度探

討國立臺灣師範大學數學研究所碩士論文

張敏雪(民 87)教室內的實作評量教育資料與研究20 期24-27

張敏雪(民 86)實作評量的本質及國民中小學數理科教師對實作評量的態度探

討國立師範大學數學研究所碩士論文

張英傑等著(民 94)數學科教師手冊台南南一書局

張永杰 (民 92)實作評量取向的幾何思考研究國立臺灣大學國際企業學研究

所碩士論文

張麗麗(民 91a)從分數的意義談實作評量效度的建立教育研究月刊9837-51

張麗麗(民 91b)評量改革的應許之地虛幻或真實-談實作評量之作業與表

現規準教育研究月刊9376-86

郭生玉(民 84)心理與教育研究法台北精華

陳英豪吳裕益(民 85)測驗與評量高雄復文

95

陳文典陳義勳李虎雄簡茂發(民 84)由馬里蘭州的學習成就評量與其在

台灣的施測結果看-實作評量的功能與應用科學教育月刊185 期

2-10

陳昭地(民 88)「第三次國際數學與科學教育成就研究」後續調查

httpreporticentnutwnscreportTIMSS-R(1999)實測後

期中報告--交國科會htm

陳怡玉(民 94)降低國小數學科實作評量人和作業交互作用變異方法的探討---

以類推性理論分析國立臺南大學測驗統計研究所碩士論文

莊明貞(民 84)變通性評量的發展與實施研習簡訊261

莊明貞(民 85)實作評量理論與實際教育資料與研究9期44-48

曾惠敏(民 87)國小分數概念實作評量之發展及其相關研究國立台南師範學

院國民教育研究所碩士論文

游麗卿(民 87)從實作表現診斷學生乘除法的錯誤概念觀念測驗與輔導雙月

刊149 期3094-3099

鄒慧英譯(民 92)測驗與評量(原作者 Robert L linn and Norman E

Gronlund)台北洪葉文化

鄒慧英(民 86)實作型評量的品管議題兼談檔案評量的應用載於八十七年度

教育測驗新近發展趨勢學術研討會

詹志禹(民 85)評量改革為什麼要進行-回應吳毓瑩<評量的蛻變與突破>

教育資料與研究13 期45-47

96

詹元智(民 91)國小數學科實作評量之效度探討國立屏東師範學院教育心理

與輔導研究所碩士論文

蔡正濱(民 95)國小數學科實作評量評分者ㄧ致性相關因素探討國立屏東教

育大學教育心理與輔導學系研究所碩士論文

鄭麗玉(民 88)教學評量的改革教師之友40 卷1期23-33

歐滄和(民 91)教育測驗與評量台北心理

盧雪梅(民 87)實作評量的應許難題和挑戰教育資料與研究20 期1-5

簡茂發(民 80)命題方法與試題分析國教輔導31(1)2-13

蘇義翔(民 86)實作評量的理論與啟示測驗與輔導3099-3102

貳英文部分

Airasian PW (1991) Classroom assessment New York McGraw-Hill

Airasian PW (1994) Classroom assessment(2nd ed)NewYork

McGraw-Hill

Baron J B (1991) Strategies for the development of effective

performance exercise Applied Measurement in Education 4(4)

305-318

Baxter G P Shavelson R J Goldman S R amp Pine J

(1992) Evaluation of a procedure-based scoring for hands-on

science assessment Journal of Educational Measurement 29(1)

1-17

97

Baxter G P Shavelson R J Herman S J Brown K A amp Valadez

J R(1993) Mathematics performance as sessment technical

quality and diverse student impact Journal for Research in

Mathematics Education 24(3) 1990-216

Dunbar S B Koretz DM amp Hoover HD(1991) Quality control control

in the development and use performance assessmentApplied

Measurement in Educational 4(4) 289-303

Frechtling J A (1991) Performance assessment Moonstruck or the real

thing Educational Measurement Issues and Practice 10(4)

23-25

Haertel EH and Linn RL (1996) ldquoComparability in GW Philips

(Ed) Technical Issues in Large-Scale Performance Assessment

Washington DC National Center for Education Statistics

Harmon M amp KellyTA(1996) Development and Design of the TIMSS

performance Assessment In MartinMO and Kelly

DL(eds)Third International Mathematics and Science Study

(TIMSS) Technical Report Volume I Design andd Development

Chestnut Hill MABoston College

Herman JL Aschbacher PR amp Winters L(1990 November) Issues in

developing alternative assessments Paper presented at the

annual meeting of the California Educational Research

Association Chicago

98

Mullis IVS Martin MO Gonzalez EJ Chrostowski SJ(2005)

TIMSS 2003 International Mathematics Report

httptimssbcedutimss2003imathDhtml p31-p47

Linn RL(1993) Educational assessment Expanded expectations and

challenges Educational Evaluation and Policy Analysis 15(1)

1-16

Linn RL Bader EL amp Dunbar SB(1991) Complex Performemce-based

assessmentexpectations and validation criteria Educational

Researcher 20(8) 1521

Linn RL (2000) Assessments and accountability Educational Researcher

29(2) 4-16

Long C amp Stansbury K (1994) Performance assessment for beginning

teachers Phi Delta Kappan76318-322

Messick S (1994) The interplay of evidence and consequences in the

validation of performance assessments Educational Researcher

23(2) 13-23

Messick S (1995) Standards of validity and the validity of standards

in performance assessment Educational Measurement Issues and

Practice 14(4) 5-8

Martin MOMullis IVSChrostowski SJ(2005)TIMSS 2003 Technical

Report httptimssbcedutimss2003itechnicalDhtml

Martin MO(2005) TIMSS 2003 User Guide for the International Database

99

httptimssbcedutimss2003itechnicalDhtml

Miller M D amp Linn R L (2000) Validity of performance-based

assessments Applied Psychological Measurement 24(4) 367-378

Moss P (1994) Can there be validity without reliability Educational

Researcher 23 (2) 5-12

Mullis IVS Martin MO amp Foy P (2005) IEAs TIMSS 2003

International Report on Achievement in the Mathematics Cognitive

Domains httptimssbcedutimss2003imcgdmhtmlp15-p36

Roid G H amp Haladyna T M (1982) A technology for test-item writing

Orlando FL Academic Press

Ruiz-Primo M A Baxter G P amp Shavelson R J(1993) On the stability

of performance assessments Journal of Educational Measurement

30(1) 41-53

Shavelson R J Baxter G P amp Gao X (1993) Sampling variability of

performance assessments Journal of Educational Measurement 30

3215-32

Shavelson R J amp Webb N W (1991) Generalizability theory A primer

Newbury Park CASage

Shepard L A Flexer R J Hiebert E H Marion S F Mayfield

V amp Weston TJ (1996) Effects of introducing classroom

performance assessments on student learning Educational

Measurement Issues and Practice 15(3) 7-18

100

Schmidt W H Jorde D Cogan L Barrier E Gonzalo I Moser U

Shimizu K Sawada T Valverde G Prawat R Mcknight C

Raizen S Britton E Wiley D amp Wolfe R (1996)

Characterizing pedagogical flow An investigation of

mathematics and science teaching in six countries Hinglham

MAKluwer

Silver E A (1993) On mathematical problem posing In N Nohda amp F L

Lin (Eds) Proceedings of the Seventeenth Annual Meeting of the

International Group for the Psychology of Mathematics Education

Vol 1 (pp 66-85) Tsukuba Japan Author

Stiggins R J (1994) Stundent-centered classroom assessment New York

MerrillMacmillan

Stiggins R J (1987) Design and development of performance assessment

Educational Measurement Issues and Practice 6(3)33-42

Telese J A amp Kulm G (1995) Performance-based assessment of at-risk

students in mathematics The effects of context and setting

Paper presented at Annual Meeting of the American Educational

Research Association (ERIC Document Reproduction Service No

ED 382 685)

TIMSS (1997) Performance Assessment in IEAs Third International

Mathematics And Science Study Chestnut Hill MABoston

College

Webb G (1992) On pretexts for higher education development activities

101

Higher Education 24 (3) pp351-61

Wiggins G(1998) Educative assessment Designing assessments to inform

and improve student performance San Francisco California

Jossey-Bass

102

附錄

附錄一TIMSS 2003 參與的國家

Argentina

Armenia

Australia

Bahrain

Belgium (Flemish)

Botswana

Bulgaria

Chile

Chinese Taipei

Cyprus

Egypt

England

Estonia

Ghana

Hong Kong SAR

Hungary

Indonesia

Iran Islamic Republic of Israel

Italy

Japan

Jordan

Korea Republic of Latvia

Lebanon

Lithuania

Macedonia Republic of Malaysia

Moldova

Morocco

Netherlands

New Zealand

Norway

Palestinian National Authority

Philippines

Romania

Russian Federation

Saudi Arabia

Scotland

Serbia

Singapore

Slovak Republic

Slovenia

South Africa

Sweden

Syrian Arab Republic

Tunisia

United States

Yemen Republic of

103

附錄二題目

一猜一猜

媽媽有一個裝滿豆子的密封罐有一天媽媽將豆子分別倒在 9個碗中前 4個

碗中豆子的數量分別是 29313128 個

1 請你猜一猜罐子中大約有幾個豆子

2把你的想法寫出來

二魔術師

一 材料9張紙剪刀一個信封

二你的工作

1 將紙對摺一次或一次以上並剪掉部分的紙使紙的形狀符合題目所給的

形狀

2 每張紙摺疊的次數和形狀隨你喜歡但只能剪一次

【第一題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後

做出如圖一的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

【第二題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後做出如

圖二的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

(在每張你使用過的紙寫上 1和名字)

104

(圖二)

【第三題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後做出如圖三

的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

(圖三)

三擲骰子

一材料一個骰子搖杯

二你的工作

當我們用一個規則來改變骰子擲出來的數字你發現了什麼

改變數字的規則是

當骰子擲出的數字是奇數時減 1並記下結果

當骰子擲出的數字是偶數時加 2並記下結果

1 在下列表中已經示範了兩個例子給你看使用這個規則並找其他

改變後的數字完成這個表格

(在每張你使用過的紙寫上 2和名字)

(在每張你使用過的紙寫上 3和名字)

105

骰子的數字 改變後的數字

2

6

2 看看你所紀錄的「改變後的數字」你發現了什麼

3 擲骰子 30 次並使用規則去改變每次所擲的數字將它紀錄下來

寫在下列的表格中

106

骰子的數字 改變後的數字 骰子的數字 改變後的數字

4將表 3中各個改變後數字出現的次數記在下表中

改變後的數字 次數

0

1

2

3

4

5

6

7

8

5a哪一個數字是你紀錄次數最多的

107

5b為什麼會這樣請寫出你的看法

四幾何方塊

在這一大題你會拿到一張紙板紙板上有10 張小卡片(如下圖)請將這些

正方形卡片分開若你沒有拿到紙卡請舉手

甲利用2 張黑白相間方塊拼出一個較大的黑色三角形並將您的拼法塗在下面

指定的區域

在這裡用斜線塗出

您拼出的黑色三角形

3 個白色方塊

4 張黑白相間方塊

3 個黑色方塊

108

乙利用4 張黑白相間方塊拼出一個黑色的正方形並將您的拼法塗在下面指定

的區域

在這裡用斜線塗出

您拼出的黑色正方形

丙在第乙題中塗黑色的部分佔了全部的幾分之幾

作出分數

甲不准使用黑白相間方塊將4 張方塊拼出一個正方形使得黑色的部分佔

21

並將您的拼法塗在下面指定的區域

在這裡用斜線塗出

您拼出的黑色部分

109

乙請用8 張方塊拼出一個如下圖的長方形使得黑色部分佔

85

並將您的拼法塗在下面指定的區域

在這裡用斜線塗出

您拼出的黑色部分

五圖形題

甲請畫一條直線將這個長方形分成2 個三角形

110

乙請畫一條直線將這個長方形分成2 個長方形

丙請畫兩條直線將這個長方形分成1 個長方形和2 個三角形

丁在下圖的四個三角形中有兩個是形狀相同但大小不同請把這兩個三角形

塗上顏色(線甲乙跟線丙丁平行)

六數字卡

在這部分你將會拿到一張印有 0到 9的數字卡如下圖請將這些數字卡

取下來

甲 乙

1 2

3

4

111

總和為ldquo20的數字遊戲

小杰與小明這兩個小孩正在玩一個ldquo總和為 20的遊戲其規則如下

總和為ldquo20的規則

(1)抽數字卡每一個人抽出三張數字卡

(2)加數字卡每一個人利用這三張數字卡做出一個加法問題使得算出

的總和最接近 20 例如假如抽出的數字卡 將數字任意組

合後下面是其中四種可能的方法

+ + + +

5 5 4 6 1 9 +

1 0

15

這時玩家應該選擇 + 4 因為它的總和 19最接近 20

19

小杰和小明開始玩遊戲了小杰抽出了 三張數字卡小明抽

出了 三張數字卡

(1)小杰要如何安排三張數字卡做出一個加法問題才能讓它的總和為最

接近 20記得要寫總和

0 1 2 3 4

5 6 7 8 9

1 4 5

1

4

5 1

4

5

1

4 51

4

5

972

6 3 1

112

(2)小明要如何安排三張數字卡做出一個加法問題才能讓它的總和最接

近 20記得要寫總和

(3)小明說假如我抽到 我可以用兩種方法做出總和 20

請告訴我們小明用哪兩種方法可以使 做出總和 20

第一種方法

第二種方法

找出最大的數

小杰和小明利用數字卡玩另一個新的遊戲就是利用三張數字卡做出最

大的數

甲將 三張數字卡填入下列的格子內讓相加的結果為最大

乙將 三張數字填入下列的格子內讓相減的結果為最大

丙將 三張數字卡填入下列的格子內讓相乘的結果為最大

times

1 4 6

1 4 6

9 5 1

+

-

2 3 7

1 4 5

113

附錄三給老師的話

題目猜一猜

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說

明如下

題目預測的能力

測量學生在生活情境中了解概數意義的能力

實施時間

20 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意讓同學清楚的知道這份試卷要他們

做的是什麼

評量結束後收回試紙

注意要點

請老師先做一次示範給學生看完之後再讓學生作答

請老師提醒學生計算完後要記得將他們為什麼要這樣做的原因寫清楚

評分標準

等級 5 算出前 4碗豆子的總和再乘以 2再加上一個合理的近似值或使用估

計或平均值找出每一碗豆子的近似值再乘以 9

等級 4 合理的估計其他各碗的豆子數量並算出總和

等級 3 推測出大部分合理少部分不合理的估計值並算出總和

等級 2 推論出一個杯子約有 30 個但未算出總和

等級 1 將已知碗的數量變成一組模式將此模式推論至其他碗不一定剛好總

114

和為 10 個碗

等級 0 未作答或不知所云

題目幾何方塊

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說

明如下

題目預測的能力

這是一種包含幾何跟數與量的題目其中幾何的部份是要求學生建立一個二

維圖形並滿足題目的要求(數與量)

實施時間

30 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意讓同學清楚的知道這份試卷要他們

做的是什麼

評量結束後收回試紙

注意要點

請老師提醒學生答案是用鉛筆塗在指定的區域並且不可以超過格線並不是將

紙卡貼在題目上要注意

請老師提醒學生撕紙卡要小心務必要使用剪刀或直尺沿著線撕

評分標準

115

給分範圍1分

給分範圍0分

(1)雖然使用 2塊黑白相間方塊組合但卻變成 2個小三角形而不是組合成 1

個大三角形

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

給分範圍1分

給分範圍0分

(1)雖然使用 4塊黑白相間方塊組合但卻不是組合成 1個大的黑色正方形

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

116

給分範圍1分

(1) 21

或是它的等值分數

(2)乙题雖然畫錯但此題答案正確

給分範圍0分

(1) 41

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

做出分數

給分範圍1分

由 2塊白色跟 2塊黑色組合成請看下面的例子

給分範圍0分

(1)雖然得出 21但是使用黑白相間的方塊

(2)畫出黑色的部份佔 41

117

(3)畫出黑色的部份佔 43

(4)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(5)完全空白

給分範圍2分

任何使用 3塊黑色的方塊1塊白色的方塊和 4塊黑白相間的方塊的組合圖形

給分範圍1分

塗出 85的答案但不是使用正確的方塊組合

給分範圍0分

(1)塗出 21

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

題目魔術師

118

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生對稱的觀念空間關係及解決非例行問題的能力

施測時間

30 分鐘

實施步驟

1 發試紙和所需材料

2 題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的

知道這份試卷要他們做的是什麼

3 評量結束試紙及材料

注意要點

1請老師提醒學生每張紙只能直直的剪一次不可改變方向且要記得在紙上寫

編號和名字

評分標準

第一題1在紙上只剪一次

2有兩條正確的摺線

給分範圍2

第二題1在紙上只剪一次

2 有兩條正確的摺線

給分範圍2

第三題同上兩題

119

題目圖形題

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生二維空間的分割的觀念了解學生能否透過操作直尺或三角板在二維

空間上剪裁出指定的基本圖型並利用直觀的方式指出形狀相同但大小不同的三

角形

施測時間

30 分鐘

實施步驟

1 發試紙

2 題目解說實施評量前請老師加以說明題意讓學生清楚的知道這份試卷要他

們做的是什麼

3 評量結束收回試紙

評分標準

甲給分範圍1分

正確的畫一條對角線將長方形分成 2個三角形

給分範圍0分

(1)有畫出一條橫線或垂直線但不是畫出精確的對角線

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的

回答)

(3)完全空白

乙給分範圍1分

120

正確的畫一條橫線或垂直線將長方形分成 2個長方形

給分範圍0分

(1)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回

答)

(2)完全空白

丙給分範圍1分

正確的畫兩條線將長方形分成 1個較小的長方形跟兩個三角形

給分範圍0分

(1)有畫出兩條線但沒有將長方形分割成兩個較小的長方形或有分割成

兩個較小的長方形卻沒有在其中之ㄧ上畫出精確的對角線

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(3)完全空白

丁給分範圍1分

在三角形 3跟三角形 4上塗上顏色

給分範圍0分

(1)在三角形 1跟三角形 2上塗上顏色

(2)在三角形 2跟三角形 4上塗上顏色在三角形 1跟三角形 3上塗上顏色

在三角形 1跟三角形 4上塗上顏色在三角形 2跟三角形 3上塗上顏色

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

121

題目數字卡

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生計算的規則與策略及對數字的觀念並能運用所學過的概念於計算策

略上

施測時間

30 分鐘

實施步驟

1 發試紙和所需材料

2 題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的

知道這份試卷要他們做的是什麼

3 評量結束試紙及材料

評分標準

總和為 20 的數字遊戲

甲給分範圍1分

(1)寫出 2+7+9=18

(2)沒有任何算式但有答案是 18 者

給分範圍0分

(1)有寫出算式 2+7+9 但沒有答案 18 出現

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的

回答)

(3)完全空白

122

乙給分範圍1分

(1)13+6=19 或 16+3=19

(2)沒有任何算式但有答案是 19 者

給分範圍0分

(1)有寫出算式 13+6 或 16+3 但沒有答案 19 出現

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回

答)

(3)完全空白

丙給分範圍2分

兩種方法都正確(16+4 和 14+6)

給分範圍1分

只有寫出其中一種方法(16+4 或 14+6)

給分範圍0分

(1)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(2)完全空白

找出最大的數

甲給分範圍1分

91+5 或 95+1

給分範圍0分

(1)將 159擺在任何其他不正確的位置

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(3)完全空白

123

乙給分範圍1分

73-2

給分範圍0分

(1)72-3

(2)將 237擺在任何其他不正確的位置

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

丙給分範圍1分

41times5

給分範圍0分

(1)51times4

(2)將 145擺在任何其他不正確的位置

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

題目擲骰子

親愛的老師

您好感謝您參與此次數學科學實作評量的研究關於此次施測的注意事項說明

如下

題目欲測的能力

測量學生對於任意數字計算紀錄和分析的能力以及辨識並解釋記錄資料

的結果

施測時間

124

30 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的知

道這份試卷要他們做的是什麼

評量結束後收回試紙及材料

評分標準

第一題正確的計算出(042648)

給分範圍2

第二題1描述的類型與資料一致

2形式可以是一個或多個以下的情形所有的數字都是偶數數字

的範圍從 0~84 出現 2次數字排列有規則如+4-2+4-2

給分範圍1

第三題1至少完成 25 次擲骰子的紀錄

2正確的計算

給分範圍2

第四題統計的次數與第三題的資料一致

給分範圍2

第 5a 題答案與資料一致

給分範圍1

第 5b 題對觀察的數字提供合理的解釋

給分範圍1

125

附錄四分析資料補充

附錄四表格中以數字 1代表新加坡數字 2代表香港數字 3代表日本數字

4代表台灣 2003 年原始資料數字 5代表比利時數字 6代表美國數字 7代表

施測學校

一圖形題補充

表附錄 4-1-1 圖形題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 187 0 32 0 64 0 50 新加

坡甲 1 916

香港

甲 1 725

日本

甲 1 703

台灣

甲 1 726

得分 次數 得分 次數 得分 次數 得分 次數

0 69 0 9 0 75 0 39 新加

坡乙 1 1034

香港

乙 1 748

日本

乙 1 692

台灣

乙 1 737

得分 次數 得分 次數 得分 次數 得分 次數

0 329 0 107 0 196 0 119新加

坡丙 1 774

香港

丙 1 650

日本

丙 1 571

台灣

丙 1 657

得分 次數 得分 次數 得分 次數 得分 次數

0 424 0 386 0 281 0 267新加

坡丁 1 679

香港

丁 1 371

日本

丁 1 486

台灣

丁 1 509

得分 次數 得分 次數 得分 次數

0 130 0 447 0 8 比利

時甲 1 649

美國

甲 1 1189

施測

甲 1 113

得分 次數 得分 次數 得分 次數

0 69 0 201 0 5 比利

時乙 1 710

美國

乙 1 1435

施測

乙 1 116

得分 次數 得分 次數 得分 次數

0 386 0 1100 0 21 比利

時丙 1 393

美國

丙 1 536

施測

丙 1 100

得分 次數 得分 次數 得分 次數

0 386 0 732 0 27 比利

時丁 1 393

美國

丁 1 904

施測

丁 1 94

126

表附錄 4-1-1(續) 圖形題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 44 0 6 0 31 0 17

1 75 1 17 1 44 1 20

2 137 2 64 2 64 2 45

3 334 3 331 3 232 3 257

新加

坡總

4 513

香港

總分

4 339

日本

總分

4 396

台灣

總分

4 437

得分 次數 得分 次數 得分 次數

0 36 0 114 0 0

1 72 1 243 1 5

2 176 2 389 2 5

3 259 3 517 3 36

比利

總分

4 236

美國

總分

4 373

施測

總分

4 75

表附錄 4-1-2 圖形題各國事後分析表

圖形題甲 圖形題乙

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0130 0000 1 2 -0051 0013

3 -0086 0000 3 0035 0247

4 -0110 0000 4 -0012 0987

5 -0003 1000 5 0026 0631

6 0100 0000 6 0060 0000

2 3 0041 0514 2 3 0086 0000

2 4 0022 0958 4 0038 0244

5 0120 0000 5 0077 0000

6 0230 0000 6 0110 0000

3 4 -0019 0980 3 4 -0048 0057

5 0083 0001 5 -0009 0998

6 0190 0000 6 0025 0594

4 5 0100 0000 4 5 0038 0237

6 0210 0000 6 0073 0000

5 6 0110 0000 5 6 0034 0190

127

表附錄 4-1-2(續) 圖形題各國事後分析表

圖形題丙 圖形題丁

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0160 0000 1 2 0130 0000

3 -0043 0637 3 -0018 0996

4 -0140 0000 4 -0040 0798

5 0200 0000 5 0110 0001

6 0370 0000 6 0063 0092

2 3 0110 0000 2 3 -0140 0000

2 4 0012 1000 4 -0170 0000

5 0350 0000 5 -0014 0999

6 0530 0000 6 -0063 0209

3 4 -0100 0002 3 4 -0022 0992

5 0240 0000 5 0130 0000

6 0420 0000 6 0081 0027

4 5 0340 0000 4 5 0150 0000

6 0520 0000 6 0100 0001

5 6 0180 0000 5 6 -0048 0533

圖形題總分

(I) (J) 平均差異 (I-J) p-value

1 2 -0210 0008

3 -0110 0540

4 -0300 0000

5 0330 0000

6 0600 0000

2 3 0098 0778

4 -0093 0812

5 0540 0000

6 0810 0000

3 4 -0190 0051

5 0440 0000

6 0710 0000

4 5 0630 0000

6 0900 0000

5 6 0270 0000

128

二數字卡題型

表附錄 4-2-1 數字卡題各國得分統計表

分數 次數 分數 次數 分數 次數 分數 次數

0 284 0 144 0 128 0 118新加

坡 1 1 277

香港

1 1 239

日本

1 1 234

台灣

1 1 273

分數 次數 分數 次數 分數 次數 分數 次數

0 243 0 177 0 138 0 134新加

坡 2 1 318

香港

2 1 206

日本

2 1 224

台灣

2 1 257

分數 次數 分數 次數 分數 次數 分數 次數

0 171 0 142 0 117 0 111

1 28 1 13 1 30 1 23

新加

坡 3

2 362

香港

3

2 228

日本

3

2 215

台灣

3

2 257

分數 次數 分數 次數 分數 次數 分數 次數

0 161 0 111 0 89 0 138新加

坡 4 1 400

香港

4 1 272

日本

4 1 273

台灣

4 1 253

分數 次數 分數 次數 分數 次數 分數 次數

0 172 0 119 0 95 0 145新加

坡 5 1 389

香港

5 1 264

日本

5 1 267

台灣

5 1 246

分數 次數 分數 次數 分數 次數 分數 次數

0 413 0 290 0 231 0 303新加

坡 6 1 148

香港

6 1 93

日本

6 1 131

台灣

6 1 88

分數 次數 分數 次數 分數 次數

0 207 0 476 0 38 比利

時 1 1 187

美國

1 1 339

施測

1 1 82

分數 次數 分數 次數 分數 次數

0 175 0 442 0 29 比利

時 2 1 219

美國

2 1 373

施測

2 1 91

分數 次數 分數 次數 分數 次數

0 149 0 308 0 14

1 27 1 48 1 11

比利

時 3

2 218

美國

3

2 459

施測

3

2 95

129

表附錄 4-2-1(續) 數字卡題各國得分統計表

分數 次數 分數 次數 分數 次數

0 175 0 380 0 36 比利

時 4 1 219

美國

4 1 435

施測

4 1 84

分數 次數 分數 次數 分數 次數

0 179 0 410 0 38 比利

時 5 1 215

美國

5 1 405

施測

5 1 82

分數 次數 分數 次數 分數 次數

0 321 0 705 0 94 比利

時 6 1 73

美國

6 1 110

施測

6 1 26

分數 次數 分數 次數 分數 次數 分數 次數

0 64 0 38 0 21 0 37

1 39 1 25 1 23 1 33

2 62 2 36 2 35 2 21

3 40 3 50 3 44 3 44

4 60 4 49 4 34 4 41

5 87 5 51 5 59 5 60

6 137 6 93 6 89 6 102

新加

坡總

7 72

香港

總分

7 41

日本

總分

7 57

台灣

總分

7 53

分數 次數 分數 次數 分數 次數

0 31 0 135 0 5

1 48 1 94 1 5

2 49 2 98 2 9

3 67 3 101 3 9

4 61 4 114 4 16

5 63 5 101 5 20

6 55 6 130 6 40

比利

時總

7 20

美國

總分

7 42

施測

總分

7 16

130

表附錄 4-2-2 數字卡題各國事後分析表

第一題 第二題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0130 0013 1 2 0029 0992

3 -0153 0001 3 -0052 0873

4 -0204 0000 4 -0090 0252

5 0019 0999 5 0011 1000

6 0078 0206 6 0109 0012

2 3 -0022 0999 2 3 -0081 0537

4 -0074 0612 4 -0119 0076

5 0149 0006 5 -0018 1000

6 0208 0000 6 0080 0326

3 4 -0052 0908 3 4 -0039 0979

5 0172 0001 5 0063 0796

6 0231 0000 6 0161 0000

4 5 0224 0000 4 5 0102 0212

6 0282 0000 6 0200 0000

5 6 0059 0697 5 6 0098 0101

第三題 第四題

1 2 0116 0734 1 2 0003 1000

3 0070 0974 3 -0041 0948

4 -0033 1000 4 0066 0612

5 0165 0287 5 0157 0000

6 0155 0156 6 0179 0000

2 3 -0046 0998 2 3 -0044 0952

4 -0149 0543 4 0063 0751

5 0049 0997 5 0154 0002

6 0039 0998 6 0176 0000

3 4 -0103 0889 3 4 0107 0141

5 0096 0918 5 0198 0000

6 0085 0907 6 0220 0000

4 5 0198 0174 4 5 0091 0294

6 0188 0091 6 0113 0019

5 6 -0010 1000 5 6 0022 0997

131

表附錄 4-2-2(續) 數字卡題各國事後分析表

第五題 第六題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0004 1000 1 2 0021 0996

3 -0044 0931 3 -0098 0050

4 0064 0655 4 0039 0914

5 0148 0001 5 0079 0203

6 0197 0000 6 0129 0000

2 3 -0048 0929 2 3 -0119 0015

4 0060 0801 4 0018 0999

5 0144 0008 5 0058 0699

6 0192 0000 6 0108 0006

3 4 0108 0140 3 4 0137 0002

5 0192 0000 5 0177 0000

6 0241 0000 6 0227 0000

4 5 0083 0425 4 5 0040 0933

6 0132 0003 6 0090 0047

5 6 0049 0838 5 6 0050 0675

數字卡總分

1 2 0043 1000

3 -0318 0582

4 -0159 0975

5 0579 0012

6 0847 4850

2 3 -0361 0529

4 -0201 0948

5 0536 0067

6 0804 0000

3 4 0159 0985

5 0897 0000

6 1165 0000

4 5 0738 0001

6 1006 0000

5 6 0268 0673

132

三幾何方塊題型

表附錄 4-3-1 幾何方塊題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 633 0 303 0 165 0 322新加

坡甲 1 482

香港

甲 1 458

日本

甲 1 604

台灣

甲 1 445

得分 次數 得分 次數 得分 次數 得分 次數

0 617 0 403 0 218 0 348新加

坡乙 1 499

香港

乙 1 358

日本

乙 1 551

台灣

乙 1 419

得分 次數 得分 次數 得分 次數 得分 次數

0 312 0 227 0 341 0 297新加

坡丙 1 804

香港

丙 1 534

日本

丙 1 428

台灣

丙 1 470

得分 次數 得分 次數 得分 次數 得分 次數

0 494 0 429 0 425 0 519新加

坡丁 1 622

香港

丁 1 332

日本

丁 1 344

台灣

丁 1 248

得分 次數 得分 次數 得分 次數 得分 次數

0 385 0 352 0 291 0 407

1 603 1 359 1 374 1 297

新加

坡戊

2 128

香港

2 50

日本

2 104

台灣

2 63

得分 次數 得分 次數 得分 次數

0 372 0 985 0 6 比利

時甲 1 398

美國

甲 1 655

施測

甲 1 113

得分 次數 得分 次數 得分 次數

0 348 0 976 0 13 比利

時乙 1 422

美國

乙 1 664

施測

乙 1 106

得分 次數 得分 次數 得分 次數

0 437 0 884 0 30 比利

時丙 1 333

美國

丙 1 756

施測

丙 1 89

得分 次數 得分 次數 得分 次數

0 373 0 908 0 23 比利

時丁 1 397

美國

丁 1 732

施測

丁 1 96

133

表附錄 4-3-1(續) 幾何方塊題各國得分統計表

得分 次數 得分 次數 得分 次數

0 335 0 754 0 29

1 340 1 762 1 57

比利

時戊

2 95

美國

2 124

施測

2 33

得分 次數 得分 次數 得分 次數 得分 次數

0 141 0 86 0 52 0 115

1 126 1 83 1 78 1 111

2 167 2 128 2 122 2 121

3 257 3 205 3 157 3 183

4 178 4 143 4 153 4 123

5 153 5 81 5 138 5 73

新加

坡總

6 93

香港

總分

6 35

日本

總分

6 69

台灣

總分

6 41

得分 次數 得分 次數 得分 次數

0 100 0 331 0 1

1 101 1 250 1 1

2 154 2 317 2 5

3 164 3 300 3 22

4 127 4 246 4 26

5 73 5 127 5 38

比利

時總

6 51

美國

總分

6 69

施測

總分

6 26

134

表附錄 4-3-2 幾何方塊題各國事後分析表

第一題 第二題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0170 0000 1 2 -0023 0984

3 -0350 0000 3 -0270 0000

4 -0150 0000 4 -0099 0005

5 -0085 0028 5 -0100 0003

6 0033 0793 6 0042 0545

2 3 -0180 0000 2 3 -0250 0000

4 0022 0993 4 -0076 0160

5 0085 0062 5 -0078 0138

6 0200 0000 6 0066 0152

3 4 0210 0000 3 4 0170 0000

5 0270 0000 5 0170 0000

6 0390 0000 6 0310 0000

4 5 0063 0350 4 5 -0002 1000

6 0180 0000 6 0140 0000

5 6 0120 0000 5 6 0140 0000

第三題 第四題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0019 0995 1 2 0120 0000

3 0160 0000 3 0110 0001

4 0110 0001 4 0230 0000

5 0290 0000 5 0042 0773

6 0260 0000 6 0110 0000

2 3 0150 0000 2 3 -0011 1000

4 0089 0043 4 0110 0003

5 0270 0000 5 -0079 0127

6 0240 0000 6 -0010 1000

3 4 -0056 0514 3 4 0120 0000

5 0120 0000 5 -0068 0285

6 0096 0002 6 0001 1000

4 5 0180 0000 4 5 -0190 0000

6 0150 0000 6 -0120 0000

5 6 -0029 0934 5 6 0069 0110

135

表附錄 4-3-2(續) 幾何方塊題各國事後分析表

第五題 總分

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0170 0000 1 2 0120 0913

3 0013 1000 3 -0330 0008

4 0220 0000 4 0320 0017

5 0081 0294 5 0230 0233

6 0150 0000 6 0600 0000

2 3 -0150 0001 2 3 -0450 0000

4 0052 0872 4 0200 0521

5 -0085 0348 5 0110 0949

6 -0013 1000 6 0490 0000

3 4 0210 0000 3 4 0650 0000

5 0069 0627 5 0560 0000

6 0140 0000 6 0940 0000

4 5 -0140 0008 4 5 -0087 0986

6 -0064 0514 6 0290 0023

5 6 0073 0354 5 6 0370 0000

Page 10: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較

VIII

表 4-1-14 95年猜一猜題組得分情形分配表58

表 4-1-15 89年擲骰子題組得分情形分配表58

表 4-1-16 猜一猜資料統計59

表 4-1-17 猜一猜獨立樣本t 檢定59

表 4-2-1 各題型之相關係數61

表 4-2-2 班級對總分之變異數分析62

表 4-2-3 性別對總分之組別統計量與t檢定表62

表 4-2-4 性別對各題之組別統計量與t檢定表63

表 4-3-1 95 年圖形題題組得分情形分配表66

表 4-3-2 圖形題百分比同質性檢定66

表 4-3-3 圖形題題組各國答對率的比較67

表 4-3-4 圖形題各題之資料統整68

表 4-3-5 圖形題各題之變異數分析69

表 4-3-6 圖形題各題之事後比較70

表 4-3-7 圖形題總分變異數分析的結果71

表 4-3-8 圖形題總分事後分析72

表 4-3-9 95年數字卡題題組得分情形分配表72

表 4-3-10 數字卡題題組各國答對率的比較73

表 4-3-11 數字卡題各題之變異數分析74

IX

表 4-3-12 數字卡題之事後比較75

表 4-3-13 數字卡題總分變異數分析的結果77

表 4-3-14 數字卡題總分事後分析77

表 4-3-15 95年幾何方塊題題組得分情形分配表78

表 4-3-16 幾何方塊題題組各國答對率的比較78

表 4-3-17 幾何方塊題各題之變異數分析80

表 4-3-18 幾何方塊題各題之事後比較81

表 4-3-19 幾何方塊題總分變異數分析的結果83

表 4-3-20 幾何方塊題總分事後分析83

表 4-4-1 實作評量概化程度變異成分表84

表 4-4-2 G研究與各種D研究之變異成分分析與推論力係數87

表附錄 4-1-1 圖形題各國得分統計表125

表附錄 4-1-2 圖形題各國事後分析表126

表附錄 4-2-1 數字卡題各國得分統計表128

表附錄 4-2-2 數字卡題各國事後分析表130

表附錄 4-3-1 幾何方塊題各國得分統計表132

表附錄 4-3-2 幾何方塊題各國事後分析表134

X

圖目錄

圖 2-2-1 1995年到2003年4年級學生的數學趨勢31

圖 2-2-2 4年級學生在男女性別上的差異33

圖 2-2-3 1995 到2003年的男女生進退步情形34

圖 4-1-1 百分比圖表比較結果51

圖 4-1-2 百分比圖表比較結果54

圖 4-1-3 百分比圖表比較結果59

圖 4-3-1 圖形題題組答對率之比較圖67

圖 4-3-2 數字卡題題組答對率之比較圖73

圖 4-3-3 幾何方塊題題組答對率之比較圖79

1

第一章 緒論

本研究主題是利用 TIMSS 1999 跟 TIMSS 2003 的公開實作評量試題為測驗工

具比較探討台灣學生在這方面的進退步情形本章節將說明本研究的研究動機

與目的問題和研究中所用的特定名詞

第一節 研究動機 從民國八十二年民間團體發起了 410 教改大遊行迄今此波教育改革歷時 12

年最近因為中央研究院李遠哲院長在立法院接受立委質詢時對教育改革因為

沒有減少學生的壓力而公開道歉(中時電子報 2005)又引起了一陣教改失敗

的言論其實改革是多面向的學生的壓力固然是改革的重點但學生的程度更

是我們所關心的畢竟學生的程度關係著下一代的競爭力所以在國民中小學九

年一貫課程綱要(教育部民 92)中特別提到迎接二十一世紀的來臨與世界各

國之教改脈動政府必須致力教育改革期以整體提升國民之素質及國家競爭

力所以改革是為了回應社會期待以及國家發展的需求基於此項認知由中

央研究院國科會和教育部共同規劃的「台灣地區教育長期追蹤資料庫」(Taiwan

Education Panel Survey簡稱 TEPS)預計用六個學年國中樣本從 2001 年 9

月開始高中樣本分成 2001 年下半年和 2003 年上半年進行兩個梯次的資料收

集主要研究團隊包括六位中研院全職研究人員投入大量的時間與精力以及多

位大學相關領域之研究者積極參與可見這項工程的浩大與重要所以本研究主

要為利用一份已發展成且具有信效度及良好試題特性的國小數學實作評量題目

來進行施測其結果除了跟民國 89 年研究者徐美英的結果相互比較學生程度差

別外並為後續研究者提供相互比較的基準

國際教育成就調查委員會 (The International Association for the

Evaluation of Educational Achievement簡稱 IEA) 主辦的「國際數學與科

學教育成就趨勢調查」(Trends in Mathematics and Science Study 2003簡

2

稱 TIMSS 2003)是自 1995 年以來第三次主辦連續週期性調查學生的數學和科學

成就主要目的在提供各國長期追蹤學生數學和科學趨勢成就以提升學生數學

和科學的學習成效由此可見學生程度一向是國際重視的課題世界各國尤其

是美國不斷的監測自己國家學生的程度不僅僅與國際上各國進行比較並將

資料建檔也進行縱貫比較另外除了本研究所提的 TIMSS 是針對數學與科學外

還有PIRLS針對語文科進行比較PIRLS目前有2001跟2006年兩年資料而TIMSS

則已經有 199519992003 三年的施測2007 年的施測目前已經開始進行籌劃

TIMSS 2003 以 13 歲群(即國二生)和 9 歲群(即小四生)為調查對象國科會和

教育部體認到未來我國國民在國際上競爭力的重要性希望持續了解我國學生的

學習成就與家庭背景學習環境教師等影響因素的關係以及我國學生的學習

特色與優缺點並與其他國家進行比較提供改進我國中小學數學及科學教育政

策及課程之參考並積極參與國際間科學教育的交流與合作因此補助國立台灣

師範大學科學教育中心進行 TIMSS 2003 調查研究TIMSS 2003 從 2000 年九月

開始發展研究調查相關工作總計有 49 個國家參加其中 48 個國家參加 13 歲

群調查26 個國家參加 9歲群調查我國自 2001 年元月開始加入 TIMSS 2003 國

際調查工作包括提供命題架構意見數學和科學試題命題試測(field test)

資料收集參加專家問卷會議實測(main survey)資料收集參加公佈 TIMSS

2003 結果記者會國際成果指標會議國際資料分析會議等各項工作國內學者

引用 TIMSS 相關資料進行相關研究的有

(1)徐美英TIMSS 數學實作評量在台灣之試用探討(民國 89 年)

(2)洪瑞鎂從「第三次國際數學與科學教育成就研究後續調查」探究台灣國

二學生的數學基本能力(民國 90 年)

(3)洪佳慧由教科書內容與性別面向分析我國國二學生在第三次國際數學與

科學教育成就研究後續調查(TIMSS-R)的學習表現-生命科學以及環境與資源議

題部分(民國 91 年)

(4) 劉佳容我國國二學生在 TIMSS-1999 中之理化學習成就分析(民國 91 年)

3

(5)侯怡如由考試文化的角度分析我國學生在 TIMSS 1999 的答題表現----生

命科學部分(民國 92 年)

(6) 鄭心怡教育指標與經濟指標對學業成就影響之國際比較以 TIMSS 為例

(民國 93 年)

(7)羅珮華從「第三次國際科學與數學教育成就研究後續調查(TIMSS 1999)」

結果探討國中學生學習成就與學生特質的關係七個國家之比較(民國 93 年)

(8)顏秀玫我國小學四年級學生在「2003 年國際數學與科學教育成就趨勢調

查(民國 93 年)

(9)張謝玲宜蘭區某國中國二學生 科學成效影響因子之探討-引用國際調查

報告 TIMSS-R 之研究方法(民國 93 年)

綜觀上述國內學者研究的內容可以發現均重視該年段橫向的比較而缺乏

進行縱貫的研究值此世界各國進行教育大改革之際台灣也難免追隨這波改革

浪潮在課程內容與制度大變動之際學生是否保持原有的程度或甚至更好是

值得我們更加關注在國民中小學九年一貫課程綱要(教育部民 92)中針對

數學科明確提出下列四個原則一 參考施行有年且有穩定基礎的傳統教材

二 採用國際間數學課程必備的核心題材三 考慮數學作為科學工具性的特

質四 現有學生能夠有效學習數學的一般能力具體而言九年一貫數學學

習領域的教學總體目標為

(1) 培養學生的演算能力抽象能力推論能力及溝通能力

(2) 學習應用問題的解題方法

(3) 奠定下一階段的數學基礎

(4) 培養欣賞數學的態度及能力

其中國民小學階段的目標為

(5) 在第一階段(一至三年級)能掌握數量形的概念

(6) 在第二階段(四至五年級)能熟練非負整數的四則與混合計算培養流暢

的數字感

4

(7) 在小學畢業前能熟練小數與分數的四則計算能利用常用數量關係解

決日常生活的問題能認識簡單幾何形體的幾何性質並理解其面積與體積公

式能報讀簡單統計圖形並理解其概念

由以上的課程目標中可以清楚的看出數學課程的改革內容除了參考以往課

程內容之外也參考國際的課程內容進行改革並因為數學具有工具性的性質

具體的指出各階段需要具備的基本能力研究者希望透過已具有信效度及良好試

題特性的國小數學實作評量題目的施測一方面跟國際資料庫進行學生程度的比

較另一方面也跟徐美英TIMSS 數學實作評量在台灣之試用探討(民國 89 年)

在台灣施測的資料進行縱向比較以了解學生在這幾年的教育改革中在國小四

年級這個範圍內透過實作評量的方式評斷出來的能力是否有所差異

徐美英論文中指出其自編試題(猜一猜)學生能夠完整的敘述解釋百分比

僅達 549所以表示台灣學生在以數學語言的溝通上尚待加強而該試題與

TIMSS 試題有一定程度相關的是擲骰子繞過彎道和魔術師所以本研究研究者

打算選取其中 3 題(猜一猜擲骰子魔術師)找跟原論文相似的環境(住宅

跟工業混合區的學校)進行施測將兩項資料進行比較以探討在這樣的環境背

景中的學生經過這 5年的教育改革後對這個範圍內經由實作評量所測出來的

能力是否有所不同另外再從 TIMSS 2003 已公佈的實作評量題目中找出 3

題(幾何方塊數字卡圖形題)進行施測其結果跟國際資料庫進行比較進

一步探討這樣環境下的學生跟原始台灣施測資料中的學生是否有程度上的差

異跟國際上整體表現較好的國家學生的表現比較是否有程度上的差異

本研究測驗題目將從徐美英論文中選取 3 題從 TIMSS 2003 公佈的實作評

量試題中選取 3題並以 TIMSS 對實作評量採取的維京評分系統(又稱建構反應

評分系統Constructed Response簡稱 CR)為評分工具資料用 SPSS 進行分

析比較並以推論力理論推算本次施測的信度係數研究者希望能從施測中獲得

教育改革的成果從實作評量的角度是否是進步的並期待施測的資料能提供

未來需要再做類似研究者的比較基準

5

第二節 待答問題 壹探討特定環境背景的台灣國小四年級學生在民國 89 年與民國 95 年對

TIMSS 1999 實作評量的成績有何差異

貳探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 實作評量的

成績在性別及班級間是否有差異

叁探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 實作評量的

成績與台灣原始施測資料中的學生實作評量成績是否有程度上的差

肆探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 的實作評量

成績與國際上整體表現較好國家的學生實作評量成績是否有程度上

的差異

第三節 名詞釋義

壹實作評量

在教室情境中學生有幾類學習行為及其成就表現是無法用客觀式紙筆測

驗來正確評量出來的這些學習行為表現包括

(1)溝通技能(如說話口語表達演講朗讀寫作等)

(2)心理動作技能(如實驗室內的儀器操作書法打字繪畫工藝烹

飪樂器演奏戲劇表演等)

(3)運動技能(如跑跳直球游泳舞蹈等運動技能)

(4)概念應用(如應用所學的概念和知識解決日常生活所遇到的實際問題)

(5)情意特質(如團隊合作遵守規定自我反省等)

這些都是強調實際的表現行為(actual performance)都需要教師根據學生的

表現過程之有效性或最後完成作品的成果品質分別或合併地進行評分才能決

定學生在這方面學習的成就高低這種強調實際表現行為的評量方式稱為「實

6

作評量」(performance assessment)(余民寧民 93)所謂實作評量就是在自

然或已建構好的環境中要求學生執行或處理(process)一件指定的工作並

由教師觀察或評鑑學生的建構性反應的過程與結果看他們是否適當精確和完

美的達成教學目標(歐滄和民 91)

貳TIMSS

國際數學與科學學習成就調查研究係由國際教育學習成就調查委員會主

持主要目的在於了解各國數學與科學學習成就與各國文化背景教育環境影響

因子之相關性並進一步做國際間之比較研究分析第一次國際數學與科學教育

成就調查於 1970 年舉行共有 19 個國家參與經十年後1980 年進行第二次國

際數學與科學教育成就調查(SIMSS)有 24 個國家參與我國曾於 1987 年 5 月

經 IEA 總部同意引用第二次國際數學與科學教育成就調查工具在我國進行測

驗(但不是正式參加)由國立台灣師範大學科學教育中心負責執行以了解我國

國小國中及高中學生數學及科學成就在國際上所佔的地位IEA 自 1990 年開始

推動進行「第三次國際數學與科學教育成就研究(Third International

Mathematics and Science Study TIMSS)」本計畫有四十餘國參加第三次國

際數學與科學教育成就研究後續調查(稱為 TIMSS REPEATTIMSS-R)於 1999 年

舉辦調查對象為國二學生(13 歲群)共有 38 個國家參加鑒於世界各國對國

際數學與科學教育成就研究的熱烈反應IEA 計劃往後每四年辦理國際數學與科

學教育成就研究一次並改名為國際數學與科學教育成就趨勢調查(Trends in

International Mathematics and Science Study 簡稱 TIMSS )TIMSS 2003

的調查對象包括國小四年級及國中二年級學生TIMSS 的測驗內容包括數學跟科

學並從學生教師和校長們的回答中廣泛地蒐集有關數學跟科學教學與學習資

料另外還經由課程指引教科書和其他教學媒體的分析探討參與國家的數學

7

和科學課程並將結果發表成一系列的國際報告讓參與國家的教育政策制定者

和實務工作者得到有關在數學與科學教學上跟學生學習成就上的珍貴訊息

第四節 研究限制

本研究對於整個計畫的擬定與進行過程中由於在時間上與人力上尚有所不

足的影響以至於對本研究的進行有所限制茲分別就研究工具與分析研究樣

本與應用範圍兩方面說明之

壹研究工具與分析

在 TIMSS 2003 試題部分由於是翻譯試題照理應該經專家學者進行反譯

程序以確保試題的原意未被扭曲但因資源限制所以只經國小專任資深英文

教師與研究者討論而定案

貳研究樣本與應用範圍

因人力與時間的限制只能選擇一間學校來實驗因樣本受限於某一學校

所以本研究的結果與建議限制受限於相同類型的學校

8

第二章 文獻探討

本研究的文獻探討將分成三節第一節為探討實作評量的意涵和特色以及

國內相關實作評量的研究第二節為 TIMSS 的簡介及國外相關的研究第三節為

TIMSS 試題與國內數學課程的分析

第一節 實作評量

壹實作評量的緣起

長久以來多數人將評量窄化為紙筆測驗的考試用考試的成績來論斷一個

人的高下使得評量的目的偏狹方式單調內容枯躁意義盡失再加上過度

倚賴標準化測驗常導致課程窄化且易流於基本技能與片面瑣碎事實的學習忽

視複雜思考和問題解決能力(江文慈民 87詹志禹民 85)簡言之考試第

一分數至上的迷思等於將評量窄化了也扭曲了評量的目的更簡化了評量

的結果事實上考試只是評量的方法之一評量的目的是要提供學生有益的回

饋評量的改革意味著教學與課程發展的改進因此在教育改革中教師要採

用新的評量方式以符合教學的新趨勢評量的意義在於了解學生學習與教師教

學之用其主要的目的是在教育的過程能隨時掌握學生的學習讓教師明白教

學情況藉以發揮教育的效率與效能實作評量受到歡迎的主要原因之一是一

般人對於選擇式的測驗題感到不滿意例如選擇式的測驗題只能測量學生「知

道」什麼但無法測量學生「能做」什麼此外認為以選擇題為主的標準化測

驗對於教師的教學和學生的學習造成一些偏差的影響標準化測驗經常是一般家

長用來評估學校教學績效的方式在績效的壓力之下造成部分教師教學側重於

測驗的內容而扭曲了教學的面貌和窄化學生的學習結果在教育改革的推動

上教育界期望藉著評量的革新來提升教師教學的品質和學生學習的成就此

外一些入學考試和證照考試也在原有的選擇題之外增加建構反應題或實作測

9

驗部分實作評量在教育界和測驗界已是一個非常顯明的趨勢Silver(1993)

認為假如我們沒有將看過或聽過的數學留住那它將永遠不會變成我們的知識

所以實作評量吸引人的地方正在於它讓教師更能洞悉學生的思考並將所得的訊

息直接應用在教育計畫中

實作評量的提倡者主張實際工作的評量模式比紙筆測驗更能充分深入的了

解學生的知識和理解程度(Haertel amp Linn1996)以下將各學者對實作評量

的定義整理概述如下

一以觀察和專業判斷來評量學生學習成就的評量方式都可以稱為實作評量其

型式非常的多元化例如建構反應題書面報告作文演說操作實驗

資料蒐集作品展示等都是實作評量的例子( Stiggins 1987 )

二案卷評量也是實作評量的一種型式實作評量具有下列幾點特徵

(一)要求學生執行或製作一些需要高層思考或問題解決技能的事或物

(二)評量的作業( tasks )是具有意義性挑戰性且與教學活動相結合

(三)評量的作業能與真實生活產生關聯

(四)歷程( process )和作品( product )通常是評量的重點

(五)表現的規準( criteria )和標準( standards)-也就是評量的重

要層面與給分標準要事先確定實作評量有時也被稱為真實性評量

(authentic assessment )( Herman Aschbacher amp Winters 1990 )

三實作評量可視為『以超越傳統評量方式為了解學生熟練度而蒐集資料的一

種評量方式』(DnubarKoretz amp Hoover1991)

四實作評量不僅反應出學生解答的正確性同時也顯現出其得到答案的過程

(Ruiz-primoBaxter amp Shavelson1993)

五實作評量是應用各種評量方式評量各種能力及技巧要求學生展示知識的

應用而非僅展示知識的本身(Long amp Stansbury1994)

六實作評量乃是模擬一些標準情境(亦即是在自然情境下的實作)之測驗其

10

模擬的程度高於一般紙筆測驗所代表者(陳英豪吳裕益民 85)

七實作評量係指根據學生實際完成一項特定任務或工作表現所作的評量這些

任務或工作可能是實際操作口頭報告科學實驗數學解題寫作hellip等

因此其所使用的方式係透過直接的觀察學生表現或間接的從學生作品去

評量(吳清山林天祐民 85)

八凡是以學生在評量過程中的表現或成果作為評量的依據再根據教師的判

斷用事先指定的標準來評定等級的評量方式都可稱之為實作評量(夏

淑琴民 88)

貳實作評量的特色

綜合國內外學者觀點實作評量具有以下特色

一銜接教學與評量教學與評量的密切配合可以對學生的學習情形提供較全面

性的完整的深入的訊息此訊息可以幫助老師更了解學生的學習優勢及

問題掌握學生真正的能力及進步情形使老師能在教學上做適當的調整來

幫助學生解決問題提升其學習水準而惟有重視過程的評量學生才有機

會去反思自己學習上的問題省察如何在學習上求進步而這些也才是真正

的學習

二使學習更有意義更深入強調教學與評量的內容應為重要的完整的概念

而非瑣碎知識的累積應重視思考與問題解決能力的培養而非低層次的記

憶與歸納它的目的在幫助學生獲得完整有意義的概念增進表達技巧及

運用策略的能力並激發學生從事較複雜的深層思考所以實作評量著重脈

絡下有意義的學習在教學與評量的過程中它鼓勵學生主動探索深入思

考並表達學習此種評量方式有助於提升學生的思考及問題解決能力使

學生的學習更有意義更為深入

11

三強調學生知道什麼能做什麼實作評量的重心不在於偵測學生哪裡做錯了

而在於強調學生知道什麼能做什麼及如何再進一步知道得更多做得更

好簡言之其精神是「你會做很多事你還可以學會更多事」對於學生

嘗試去做好某一件事的努力(縱然尚未達到預期的目標)也給予正面的回

饋以學習理論而言較符合學習理論中的公平性或正當性亦即努力是有

收穫的

四強調與實際生活的結合實作評量可以讓教師瞭解學生對問題瞭解程度投

入程度解決的技能和表達自我的能力能夠較完整的反映出學生的學習結

果因為實作評量與真實生活較為相近其支持者認為實作評量能夠增進學

生學習的動機提高學生參與和投入的程度

五幫助學生建構有意義的學習情境發展問題解決能力批判性思考和表達自

我的能力

六有時候實作評量也可以做為一種教學策略提高學生的學習興趣和學習結

果評量和學生的學習以及老師的教學應該是密不可分並且互相支援的評

量的目的是幫助學生學習跟老師教學所以評量應該是自然的融入出現在

課堂而不是強制性的加進課堂上實作評量與實際教學過程有相當密切的

關係往往可以成為實際教學的一部份實作評量本身就是一種有效的教學

活動

七鼓勵合作學習許多文獻顯示合作學習可以提高學生的學習成就增強學

生的理解能力藉由溝通與辯論的過程學生可以重述自己的概念架構和知

識體系以促成有效的概念改變並達到有意義的學習在一個小組合作評

量的情境下藉由同儕的誘導和鼓勵彼此意見的分享並相互進行共同評

量是提高學生成就表現的重要機制

八直接評量排除語文能力的干擾實作評量比較不需要用到語文能力這對

於閱讀或文字表達能力較差的學生而言是比較公平的

12

叁實作評量的目的

Webb(1992)認為一個好的評量應具備四個目的第一個目的是成為教師蒐

集資料的工具透過評量的回饋教師可以知道學生學會多少和能做什麼第二

個目的是要表達學生在學習過程中所做所學的哪些東西是有價值第三個目的

是提供教育決策者一些教學績效之訊息最後的目的評量應該對整個教育體系

提供積極之建議(張敏雪民 86)雖然評量方式會因不同的評量目的而有所

不同然而現行的紙筆測驗過於強調排等第忽略了評量原先之目的教師只

教要考的學生只讀要考的成了所謂「考試領導教學」然而二十一世紀的

國民不是只會在試卷作答的人而是要有「分析預測及適應能力的人」簡而

言之就是能為生活而思考的人(曾慧敏民 87)實作評量重視教育過程本身

的價值和學生主動建構的能力因此重視學生學習過程和結果讓學生有意義

的學習使學生能靈活應用所學不僅評量認知層次也評量技能及情感層次

較傳統的紙筆測驗更能蒐集到學生較豐富的學習訊息

實作評量的目的如下(桂怡芬民 85曾慧敏民 87 Linn 2000)

一檢視學生學習成果是否能達到教學期望的結果

二從評量的結果能清楚交代學生的學習成就

實作評量能直接觀察學生到達結果的過程不只是評量答案之正確性能完

整的呈現學生在複雜能力及歷程上的表現並能依表現推論其構念表現

三藉由此評量可展現學生的技能和能力

實作評量除了能直接的測出學生問題解決的歷程與結果也能展現出高層次

認知情意與技能及後設認知等能力

四使得教學與評量能充分配合

實作評量注重與教學的互動其主要的目的為幫助學生的學習與改進教師的

教學

13

五為課程改革的重要指標

因實作評量標榜著可提升學童高階思考與問題解決的能力因此在教育改革

時備受重視

肆實作評量步驟

實作評量強調在和生活相關的情境下能讓學童展現所知所學的能力來解

決問題然而若是活動或作業設計不夠完整評分規準不夠明確等都可能導

致實作評量無法達到預期的目的(鄒慧英民 87)因此應如何設計出一份好

的實作評量試卷呢(Stiggins 1994)以下提出幾個注意要點

一確立設計評量的原因與目的

評量之所以實施一定有其原因包括確定評量結果所要作的決定例如

分組個別鑑定等第評定與優缺點的診斷等接著考量評量結果是否用於「排

名」或用於決定學生否達到精熟水準

二設計實作評量的內容

(一)選擇作業的形式

可以蒐集教室中自然而然發生的事件也可以設計結構化作業引發

學生表現的機會測出學生真實能力的實作評量

(二)決定評量的實施情境

因為怕受試者的動機與考試的焦慮可能影響學生的真實能力之表

現施測者可考慮事先告知學生相關評量的性質與評分標準因此在一

般的測驗情境下應先觀察受試者的焦慮情形再決定是否事先告訴受試

者評量事宜或採取不事先告知以測出學童最大的表現能力本研究採取

後者

(三)確定所要編製的實作試題數

14

決定實作題目數量應考慮評量的作業是否具代表性蒐集到的證據數

量是否可以提供較精確的學生能力思考層次

三確定實作評量成績計分標準

(一)決定分數的型式

如果評量的目的是做為分組或選擇的依據則可採整體性評分若是

診斷或檢定學童的基本能力可採取分析性細部評分本研究為診斷學童

分數的學習能力採用開放式的結構題型由學生自行建構答案因此

根據不同的答案給予不同層次的分數

(二)選擇評分者

評分者可為教師專家同學或受試者本身但基本上所有的評分

者得先接受專業的評分者訓練使每個人對評分歸準有所共識本研究請

已有五年以上之教學經驗的教師擔任評分者

(三)紀錄評分結果的方法

可採用檢核表評定量表軼事紀錄表等評定量表同時呈現了觀察

項目及分數評比常用於歷程與結果之評量適用於各學科之實作評量

本研究採用評定量表來紀錄評量結果總之發展實作評量時首先需

澄清「教學目標」與「評量的目的」是必要的其次「評量內容」或「評

量對象」取樣的代表性更是影響評量效度的重大因素最後清楚的「評

分規準」與完整的「評分者訓練」及詳細的「評分程度」則是影響評量的

信度唯有如此才能獲致高品質的實作評量(鄒慧英民 86)

伍實作評量的限制

一實施上非常耗費人力時間跟金錢

真正在實施實作評量時通常會受到器材跟場地的限制或是因為擔心產生相

15

互干擾因素而一次只能有限個學生同時進行施測這點跟團體施測的紙筆測驗

相比是非常耗費人力跟時間另外實作評量常需要有器材設備以及消耗性材料這

點跟團體施測的紙筆測驗相比是非常耗費金錢

二測驗情境控制困難

由於不是同時全體施測所以先後受測的學生容易相互干擾而且未受測

的學生跟已受測的學生的交談或傳授經驗也影響到考試的公平性加上前後施

測使得後面的同學很難有一致的施測條件例如場地未乾淨儀器未復原或被

損壞等

三計分不容易客觀

實施實作評量的目的不外乎想根據評量結果來為學生做決策因此獲

得一個正確而又可靠的評量結果(即高信度跟高效度值)便成為一件很重要的

事然而很不幸的實作評量如論文評分一樣由於是使用觀察跟判斷等兩類比

較主觀的評分方式來進行所以其結果難免具有很高的評分者誤差存在一般而

言評分者誤差有三種來源偏見月暈效應跟評量次數過少

四對容易焦慮的學生不利

實作評量的正式性與控制性會使得缺乏自信心或很在意他人評價的學生

產生過度焦慮進而影響其表現

陸實作評量的信效度

實作評量的信效度仍有待探討實作評量的信度通常是以概化程度

(generalizability)來描述(BaxterShavelsonGoldmanPine1992Dunbar

et al1991LinnBakerDunbar1991Linn1993Moss1994Ruiz-Primo

et al1993ShavelsonBaxterGao1993)概化程度包括評分者之間一致

的程度以及學生在不同工作項目(task)表現的一致程度(Shavelson et

16

al1993)根據 Shavelson 等人的研究結果發現實作評量在評量工作項目方面

的概化性較低顯示學生在不同工作項目上的表現有較大的差異在效度方面

實作評量所顯露出的問題有以下三個

一客觀性及公平性實作評量通常僅以一個評分者評定學生的表現所以

評量的結果可能過於主觀或有潛在的偏見(bias)問題(Airasian1991

Frechtling1991Linn et al1991Linn1993)

二評量內容的涵蓋性由於實作評量實施方式及時間的限制通常所評量

的學生行為表現較傳統測驗為少即評量內容的涵蓋範圍較小不易獲得學生行

為的適當樣本(Airasian1991Linn et al1991Linn1993)

三成本及效率問題這部份即時間與經濟的考量Linn 等人(1991)Linn

(1993)及 Messick(19941995)將這一點併入實作評量的效度標準

Baxter 等人(1992)Ruiz-Primo 等人(1993)及 Shavelson 等人

(199119921993)均從概化理論(generalizability theory)的觀點出發

採用取樣架構(sampling framework)來分析實作評量的信度(概化性)探討

評分者間評量項目間評量時間等的取樣變異以及其他潛在的誤差來源他們

針對神秘的電路盒(electric mysteries)毛細現象(paper towels)及小蟲

的習性(bugs)等評量項目採專家觀察(expert observation)實驗筆記

(notebook)電腦模擬測驗(computer simulation test)及紙筆測驗等方式

記錄學生的表現研究結果發現與評分者有關的取樣變異不大評量時間的取

樣變異極小而評分者與受試者間的交互作用(ratertimesperson interaction)和

評分者與評量項目的交互作用(ratertimestask interaction)這兩個部份的變異也

幾乎為 0故他們認為只要一個經過良好訓練的評分者(one well-trained

rater)即可用以評定學生在實作評量上的表現但他們發現在實作評量中評

量項目與受試者及該兩者與時間的交互作用是兩個最大的變異來源研究結果顯

示學生的表現因為工作項目的不同而有極大的差異而這樣的變異在不同時機上

17

更是明顯因此欲提高實作評量結果的一致性必須增加評量的工作項目使得以

學生在實作評量上的行為表現做其能力的推論時能夠降低與學生實際能力無關

的變異

Baxter 等人(1992)及 Shavelson 等人(19921993)主要是從評量對學生

能力的鑑別程度不同評量方式間的輻合效度不同特質及方法間的區辨效度等

三方面探討實作評量的效度他們的研究結果顯示不同的測量方法所得到的結果

並不一致Shavelson 等人(1993)發現在同一個工作項目之下不同的測量方

法中實驗操作與實驗記錄的相關最高實驗記錄與紙筆填充測驗及電腦模擬測

驗與紙筆填充測驗之間的相關最低這是因為實驗操作與實驗記錄為同一思考流

程所以相關較高此外他們也發現受試者與工作項目及測量方法間的交互作

用及誤差是變異的最大來源表示不同的測量方法可能是在測量科學成就的不同

面向(Shavelson et al1993p227-229)最後在不同工作項目之下採用

相同或不同測量方法所得到的相關的確較低顯示實作評量具有區辨效度

柒實作評量與其他評量的比較

大體上實作評量具有下列各項功能(Airasian 1994)茲列表如下

表 2-1-1 實作評量與紙筆測驗的比較

實作評量 紙筆測驗

學生把知識轉化成可觀察的表現行

為或成品的能力 主要涉及學生的知識及資訊的獲得

設計及施測費時但評量表可針對

同一或新的學生重複施測

設計費時但可同時施測許多學生

同組學生僅能使用一次

學生表現不佳可予診斷及補救

可監控學生進步實況

除論文式及開放式數學題之外甚少

提供方向指示如何改進表現

教學首重表現及過程 教學重內容知識

資料來源Airasian (1994) P236

18

表 2-1-2 各種評量類型的比較

客觀式測驗 論文式測驗 口頭發問 實作評量

目的

以最大的效率

及信度測驗

代表性的知

評估思考的技

巧及知識結構

的瞭解程度

教學時評估

知識

評估知識及瞭

解化為行動的

能力

學生的

反應

閱讀評量

選擇 組織寫作 口頭回答

計劃建構

及表達原始的

反應

主要優

效率在測驗

時間內可測驗

到許多項目

可測量複雜的

認知結果

使評估與教學

結合

提供充分的表

現技巧

對學習

的影響

過度強調回

憶鼓勵背誦

記憶如能適

當出題可促進

思考技巧

鼓勵思考及寫

作技巧的發

刺激學生參與

學習提供教

師立即回饋了

解教學是否有

強調運用知

識技巧於實

際的問題情

資料來源Airasian (1994) P229 et ls

捌實作評量相關研究

國內有許多探討實作評量設計的可行性研究以下將就國內學者所做的研

究整理說明

一陳文典陳義勳李虎雄簡茂發(民 84)美國馬里蘭州學校實作評

量國際共同研究計畫

將 MSPAP(the Maryland School Performance Assessment Program)的

19

試題轉譯成中文在國內進行小規模的施測藉以了解這種測驗的功能

使用上的時機及應用上的困難在其對我國五年級學生施以數學理化

和生物等實作評量題目後發現此種測驗模式能遍及各項科學能力我

國學生在回答問題時顯示其傳達與獨立作業能力均不足其評分客觀

的標準化可經由評分者講習的培訓達到目標實作評量可適用於平時作

業學生的科學能力競賽或教育行政單位的各校科學教育教學成效評鑑

等時機

二徐美英(民 89)TIMSS 數學實作評量在台灣之試用探討

(一)TIMSS 試題在台灣之施測具有信效度

(二)台灣四年級學生在 TIMSS 實作評量的表現顯著優於美國和香港地

區的學生

(三)TIMSS 試題在台灣之施測在男女生之間和班級間在總得分並

沒有顯著差異

(四)自編之試題猜一猜與 TIMSS 試題擲骰子繞過彎道

和魔術師有一定程度的相關

三洪之昀(民89)數學科實作評量對國小高年級學童學習策略影響之研究

(一)學生認為實作評量能增加對數學內容的了解提升學習興趣發

現數學的有趣擴大學習範圍並兼具情意評量的功能但也有學生認

為實作評量在實施上太麻煩且費時

(二)學生批判思考數學溝通數學表達的能力有待加強

(三)學生具有多方面的潛能亟待以實作評量的方式加以開發

四詹元智(民 91)國小數學科實作評量之效度探討

採準實驗研究設計的方式進行以屏東師範學院附屬小學六年級兩個班

的學生為研究對象一班為實驗組接受為期二個半月的數學實作評量

另一班為對照組接受傳統數學紙筆測驗的評量研究者於實驗前與實

20

驗後對兩組學生施以「傳統數學紙筆測驗」「數學實作評量」及「數學

學習解題態度」等三種測驗的前後測並對部份學生進行「數學實作

評量前後測的放聲思考訪談」概化性研究的分析結果顯示在一位評分

者及一題作業項目上之評分者間的變異相當小(319)不過分數的變

異有相當大的比例(約 50)是來自作業項目間及作業項目與受試者交

互作用的變異而在二位評分者及五題作業項目之概化性係數可達 08

以上顯示該研究之數學實作評量的結果能有效地推論至學生在其他評

分者及實作評量作業上數學問題解決的表現

五李長柏(民91)國小數學簡單機率解題實作評量與後設認知之相關研究

(一)數學解題實作評量具有良好的信效度

(二)本研究結果顯示具有良好的評分者信度

(三)數學解題能力和後設認知能力具有相關性

(四)性別在數學解題能力和後設認知能力上沒有差異

六王秀琲(民 92)實作評量在國小數學科之應用-以五年級學童分數為例

(一)實作評量能實際測出學童的分數概念在分割活動上連續量比

離散量好在表徵轉換上具體操作轉換符號模式為佳圖形轉換符號

模式較不理想分割策略會因情境的不同而使用較為簡便的方式來

解題

(二)從實作評量中學童能展現自行所建構的解題策略所獲得的訊

息比紙筆測驗多

(三)以 SS 分析法來分析實作評量之試題所呈現的試題關聯結構圖

中可以了解等分和連續量的分割活動是學童最易理解的概念而離散

量分割等值及單位量則是學童最難理解的概念

七張永杰(民 92)實作評量取向的幾何思考研究

(一)年級之幾何水準層次分佈情形有統計上的顯著差異存在年級

21

越高屬於高層次水準的學生越多

(二)當受試學生通過某一水準層次n的考驗但卻未能通過之前的任

一水準層次的考驗則稱為逆序現象有 697學生之幾何層次分佈呈

現逆序的情形

(三)學生不同 van Hiele 水準層次在後設認知能力上表現出顯著差異

(四)順序組學生能力值越高集聚的情形越明顯結構越完整逆序

組學生的概念結構比較少集聚呈現零散不完整的結構

(五)順序組能力低的學生所形成的關連結構比較零散而且概念間

的關聯程度不高能力越高的學生其關連結構概念問題結構化比較明

顯而且上下位觀念比較顯著逆序組學生的關連結構不但呈現零散不

完整的結構且關連結構圖中上下位觀念的情形比較不規律顯現其

概念結構比較雜亂

八林敬修(民 92)影響國小數學科實作評量信度相關因素之類推性理論

分析

(一)影響數學科實作評量分數一致性的主要變異來源為受試者與作業

項目交互作用(ptimest)變異其次為受試者(p)變異再其次為作業項目(t)

變異

(二)在評分者數學知能背景及評分者訓練對數學科實作評量分數一致

性的影響方面評分者的給分一致性因評分者數學知能背景及評分者訓

練而不同

(三)在題目結構度對數學科實作評量分數一致性的影響方面跨不同

結構度之作業項目對分數一致性的影響遠大過於跨相同結構度之作業項

目對分數一致性的影響此外不同數學知能背景及評分者訓練的評分

者在不同結構度的試題給分一致性上也有差異

(四)整體而言各評分組別的評分者一致性因評分向度之不同而有差

22

異其中以在「溝通表達」此一評分向度上的評分者一致性最低

九呂政隆(民 93)國小學童在數學實作評量解題整合認知與課程之相

關研究

運用實作評量的方式分別在九十學年度九十三學年度對五年級學生

施測以探討學生的數學解題與整合認知能力之相關性進而探討性別

課程在數學解題與整合認知能力上是否有顯著差異研究結果顯示實施

九年一貫課程後之九十三學年度整合認知中能力組在本研究之四份實作

評量之數學解題能力明顯低於九十學年度實施八十二年版國民小學課程

標準之數學解題與整合認知能力組

十石千奇(民 93)國小六學童在數學實作評量中的小組解題歷程分析

解題歷程模式受同儕討論的影響小組解題是四個人四條思考路線互相

牽引的結果解題歷程模式受操作實物的影響操作實物會影響解題階

段進行的走向小組成員並非全程參與解題歷程會因為題目的難易

互動過程階段性質等因素的影響而未能全程參與小組解題的階段變

化各行其道在各個解題階段的參與變化沒有一致性的發展操作實物

對各個解題階段皆有影響各產生不同的作用小組成員喜歡在實作評

量中以小組解題的模式解題覺得這樣的評量方式可以幫助解題

因此建議數學教師多採用以四人為一個小組在形成性評量中以小組

解題的方式進行實作評量

十一曲慧娟(民 94)實作評量在國中學術性向優異班招生鑑定之效度研

究~以臺灣北區為例

(一)錄取組和未錄取學生在入學後成就表現的差異分析顯示英文組

達顯著水準 (t=6159plt05)數理組未達顯著水準

(二)實作評量錄取學生在入學後之特殊表現的訪談結果發現各組學

生在發表能力競賽檢定檔案成果上的參與興趣濃厚也比較有所發

23

(三)受訪教師學生及參加座談會的教師們對實作評量的看法和意

見主要有下列重點

1命題是最大的困難各校命題均請專家學者指導師生都反應覺

得題目的品質不錯題型也很有創意和其它測驗不一樣但自然

科實驗器材的準備耗時費工是很大的負擔因此很多學校選擇用資

料分析的題目類型避免實驗操作器材準備的困擾

2實施程序上時間說明器材提供均適宜但場地的考量較多

如實驗位置的區隔語文施測時需安靜的場所等監考過程也是爭

議較多的如學生覺得監考老師應多幾位老師的尺度不同等

3受訪學生指出實作評量的應答方式和以往參加過的測驗有很大

的不同但都持肯定態度同時覺得語文表達能力會影響到實作評

量的成績

4各校評分都採集中閱卷的方式評分標準爭議性得分大都透過

閱卷老師討論後取得共識再給分

5目前各校在鑑定學生時決策的標準不一因此反應意見差異頗

大但從訪談資料發現受訪學生及教師都較支持運用初試複試

成績加權計算作為選擇學生的標準

6受訪教師表示學生入學後的表現和以往相較起來沒有明顯的

差異但在科展競賽檢定發表上的熱誠度較高

7學生的訪談結果發現大多數學生覺得實作評量可以測出他們在

學術性向上的能力或天份

8實作評量的保密情形比其它測驗要好很多但坊間仍有業者猜

題補習受訪學生及老師也表示有模擬實作或補習經驗者對

實作表現或多或少有影響惟一沒有保密困擾的是國文組

24

十二陳怡玉(民 94)降低國小數學科實作評量人和作業交互作用變異方

法的探討---以類推性理論分析

(一)由於分層變項選取不易導致「作業分層」無法有效降低人和作

業交互作用的變異

(二)「以圖表組織圖為鷹架」可以降低人和作業交互作用的變異

(三)「以圖表組織圖為鷹架」比「作業分層」更能讓人和作業交互作用

的變異降低

(四)進行「作業分層」的比較時實作評量的類推性係數和可靠性指

標以同一階層的作業採 ptimesTtimesR 設計最高但屬分層之 ptimes(TS)timesR 設計

卻低於作業未分層時的分析(即採作業 1234 的 ptimesTtimesR 設計來分

析)

(五)「以圖表組織圖為鷹架」能提高實作評量的類推性係數和可靠性指

十三蔡正濱(民 95)國小數學科實作評量評分者ㄧ致性相關因素探討

(一)影響數學科實作評量分數一致性的主要變異來源為受試者與作業

項目交互作用(ptimest)變異其次為受試者(p)變異再其次為受試者

作業與評分者三者之交互作用及誤差(ptimesttimesre)的部分

(二)在使用不同類型及等級數的計分規準對評分者間一致性的影響方

面在 ptimesttimesr 類推設計下不分計分規準種類與評分者有關的變異量

(含 rptimesr及 ttimesr 三者的總和)均相當小幾乎接近 0而在 ptimesr 設

計的整體類推性相關係數及給分差異比例方面分析式計分規準優於

整體式計分規準在不同等級數方面ptimesttimesr 類推設計中與評分者有

關的變異量及整體類推性七等級計分規準略佳但差異性不大在 ptimesr

設計的整體類推性相關係數及給分差異比例方面七等級計分規準優

於四等級計分規準其中又以使用整體式計分規準及評定高複雜度試題

25

時較為明顯

(三)在不同複雜度作業對評分者間一致性的影響方面低複雜度試題

的一致性高於高複雜度試題顯示評分者面對受試者在高複雜度試題的

作答反應時出現給分較不一致的情形最後受試者是否具備實作評

量計分規準之經驗對評分者間一致性的影響方面在低複雜度試題兩

組受試者之評分者一致性的差異性不大在高複雜度試題 A 組評分者

一致性大致高於僅具實作評量經驗之組別 B組而 AB兩組受試者的評

分者一致性差異程度在分析式計分規準上低於其在整體式計分規準之

差異程度

第二節 第三次國際數學與科學教育成就研究

由國際教育成就調查委員會(The International Association for the

Evaluation of Educational Achievement簡稱 IEA)主辦的「國際數學與科學

教育成就趨勢調查」(Trends in Mathematics and Science Study 2003 簡稱

TIMSS 2003)」是目前有關國際間對學生成就的調查研究中規模最大的一項調查

該測驗採取全世界合作模式主要單位有

一國家研究協調中心(National Research Coordinators)國家研究協

調中心負責選擇學校樣品 收集資料 計分標準和資料輸入 和準備研究結

果的一個國際報告

二TIMSS amp PIRLS 國際研究中心(在波士頓學院)(TIMSS amp PIRLS

International Study Center at Boston College)國際研究中心(ISC) 負責

TIMSS 的整體設計發展和實施這包括建立規程監督工具發展舉辦訓練

ISC 進行分析並且在國際報告和用戶資料庫中發布研究結果

三IEA 秘書處(IEA Secretariat)總部設在荷蘭的阿姆斯特丹IEA 秘

書處負責提供整體支持監督籌款和協助參與國家協調參與 TIMSS 的國家取得

26

測驗工具的翻譯證明

四IEA 資料處理中心(IEA Data Processing Center)IEA 有它自己的

資料處理中心位於德國的漢堡資料處理中心(DPC)負責處理和核對從所有參與

國家得到的資料和建立國際資料庫

五統計(Statistics Canada)在加拿大的渥太華負責 TIMSS 的所有採

樣活動包括開發取樣步驟和文獻和協助參加者能符合 TIMSS 的採樣設計

六教育測試的服務(ETS)(Educational Testing Service (ETS))ETS 為

TIMSS 成就測驗資料提供軟體和心理測量的支持 ETS 總部設在新澤西州的普

林斯頓

TIMSS 2003 是 IEA 自 1995 年以來第三次主辦連續週期性調查學生的數學和

科學成就主要目的在提供各國長期追蹤學生數學和科學趨勢成就以提升學生

數學和科學的學習成效TIMSS 2003 以 13 歲群(即國二生)和 9 歲群(即小四生)

為調查對象從 2000 年九月開始發展研究調查相關工作總計有 49 個國家參

加其中 48 個國家參加 13 歲群調查26 個國家參加 9歲群調查測驗的內容

包括數學和科學並從學生教師和學校的問卷回答中廣泛的搜集有關數學和科

學的教學和學習資訊並經由課程指引教科書和其他教學媒體的分析探討參

與國家的數學和科學課程以提供參與國家的政策制定者和實務工作者有關教學

和學生學習成就方面的珍貴訊息而技術報告和完整的國際資料庫也一併出版公

TIMSS 試題的編製流程是先製訂課程架構在根據課程架構編製成就測驗

而此課程架構是由一群來自 TIMSS 國家研究協調中心(TIMSS National Research

Coordinator)的數學和科學教育專家所發展出來的在 TIMSS 2003 的課程架構

中共分為兩個向度內容領域跟認知領域詳細內容如表 2-2-1 所示

27

表 2-2-1 TIMSS 2003 課程架構

數學 科學

內容領域 內容領域

數 生命科學

代數 化學

測量 物理學

幾何學 地球科學

8

級 資料

8

級環境科學

數目 生命科學

模式等式和關係 自然科學

測量 地球科學

4

級 幾何學數據

4

認知領域 認知領域

知道事實和程式 事實的知識

使用概念 概念的理解

解決日常問題 推理和分析

推理

第4年級代數內容領域被叫為模式等式和關係

其中在實作評量方面設計的原則是依照實用的可負擔的和容易翻譯成

多國語言和文化原則所設計的透過預試時取得評分指南包括正確的答覆跟不

正確答覆的描述及給分標準其評分系統採用維京評分系統以表格說明如下

28

表 2-2-2 維京評分系統

第一個碼

  2 類型的 CR 項目(分數碼)

(1) 2 分(外延反應評分)

2 分完整無誤

1 分部分對

(2) 1 分(問答)

(3) 0 分7-9

2 分

1 分

第二個碼

  診斷訊息碼

0-5表出現之頻次類次配合參數碼標之

如 20-2510-1570-75

9 為其他無特殊類別

  如 291979

78=自個兒ldquo診斷碼(國家碼 可自選)

  99 為空白

  79(Erases)

另外在問卷調查部份分為

一課程

(一)公式化課程

(二)課程的範圍和內容

(三)課程的組織

(四)監測和評估被實施的課程

(五)課程材料和支持

二學校

29

(一)學校組織

(二)學校目標

(三)校長的角色

(四)支持數學與科學的資源

(五)父母親介入

(六)學校環境

三老師和他們的準備

(一)學術準備和證明

(二)老師補充

(三)老師任務

(四)老師歸納

(五)老師經驗

(六)教的樣式

(七)專業發展

四教室活動和特徵

(一)課程題目

(二)時間

(三)家庭作業

(四)評量

(五)教室氣氛

(六)資訊技術

(七)計算器用途

(八)強調的研究重點

(九)班級大小

30

五學生

(一)家庭背景

(二)經驗

(三)態度

當 TIMSS 施測後許多國家對於施測結果所蘊藏的意義做了許多的解釋他

們認為施測結果不止顯示了學術成就還包括了學生所接受的課程和教育

(SchmidtJordeCoganBarrierGonzaloMoserShimizuSawadaValverde

PrawatMcknightRaizenBrittonWileyWolfe1996)國際比較主要的目的

在於評估不同國家的學生程度而另一個同樣重要的目的在於嘗試去了解及解釋

造成差異的原因Jaekyung Lee 在 1999 年時提出當我們進行國際比較時有三

點要注意的事項一應該要同時著重正規教育和學校教育以外的學習經驗

二重視區域性的差異

三注意學校的改革政策因為它會影響教育的實施與成果所以成績好不應沾

沾自喜而表現不好也應深究原因去注意其他表現好的國家真正做了什麼並

加以學習而非歸罪於整個制度

根據 TIMSS 2003 國際數學和科學報告(TIMSS 2003 International Reports

in Mathematics and Science)其中提到幾個圖表是跟本文有關並值得分析注

意的

31

圖2-2-1 1995年到2003年4年級學生的數學趨勢

32

上圖是從該報告第一章表格13擷取出來的該圖表顯示出從1995年到2003

年的4年級學生的數學趨勢其中香港拉脫維亞英國賽普勒斯紐西蘭

斯洛伐尼亞加拿大安大略省等七個國家或地區是呈現進步的情況而荷蘭挪

威加拿大魁北克省是退步的趨勢其他在圖表中的國家是沒有顯著差異的另

外在其文字說明部份也提到以色列和菲律賓從1999到2003也顯示出顯著的改

進像上述這些國家數學成就方面趨勢的變化可能跟社會或教育的改變有關

例如東方的政治變化跟歐洲十幾年前的教育改革已經實際改變這些國家的教育

成就例如立陶宛跟拉脫維亞這兩個國家的成就趨勢反映他們在改革過程中的

努力已經獲得某些驚人的成就

33

圖 2-2-2 4 年級學生在男女性別上的差異

上圖是從該報告第一章表格14擷取出來的該圖表顯示大部分國家或地區4

年級學生在男女性別上並無顯著差異但在幾個國家例外新加坡菲律賓亞

美尼亞跟Moldova共和國的女生有較高的數學平均成就荷蘭美國義大利

蘇格蘭賽普勒斯和兩個加拿大省份則是男生有較高的數學平均成就

34

圖2-2-3 1995到2003年的男女生進退步情形

上圖是從該報告第一章表格15擷取出來的該圖表表示從1995到2003年的

男女生進退步情形從圖表中得知男女生同時進步的國家或地區有賽普勒斯英

國香港拉脫維亞紐西蘭斯洛伐尼亞和安大略省而同時退步的國家有挪

威和魁北克省僅有男生退步但女生沒有的國家是荷蘭

第三節 TIMSS 試題與國內數學課程關係之分析

在魔術師的題組中研究者希望學生透過摺紙的方式不管對摺幾次最後

限制只能用剪刀剪一次的情況下要求學生剪出下列 3個圖型

35

每個學生剪每個圖型都有 3次機會這個題組的目的不止希望學生可以運用

全等的直覺利用幾何操作如平移旋轉翻轉等方式印證平時的經驗並將

全等的概念更加清晰還希望學生透過摺紙的方式了解認識垂直和對稱而剪紙

又可以增進學童分解圖形與建構圖形的能力所以本題組主要在測量學生對於全

等的直覺跟幾何操作垂直跟對稱和空間關係的瞭解以及解決非慣例題目的能

在圖形題中前 2個小題分別要求學生在一個長方形中劃一條直線將該長

方形分成 2個三角形或 2個長方形第 3小題要求學生在一個長方形中劃兩條直

線將該長方形分成 2 個三角形跟 1 個長方形第 4 小題則給等腰梯形並連接 2

條對角線在內部形成的 4個三角形中要求學生找出形狀相同但大小不同的兩

個三角形本題組在了解學生能否透過操作直尺或三角板在二維空間上剪裁出

指定的基本圖型並利用直觀的方式指出形狀相同但大小不同的三角形

上述兩個題目在評量學生的幾何能力根據我國國民中小學九年一貫課程綱

要數學學習領域中指出小學教師在從事幾何教學時最要避免的是來自本身歐

氏公設幾何訓練的干擾處處受制於定義的認定與邏輯順序由歷史來看人類

是先由應用操作實踐中認識各種幾何要素與性質彼此之間並沒有一定的

先後關係歐氏幾何的價值首先是對這些先民知識的歸類與整理其次才是作

36

為知識典範的演繹系統所以將幾何課程概分成四階段而學生在四年級時所應

該要學習到的幾何知識就如下列所示

一階段一(一年級到三年級)較強調幾何形體的認識探索與操作學生對

幾何形體中的幾何要素也許能指認但尚不清楚其結構意義

二階段二(四年級到五年級)由於數與量的發展逐漸成熟學生開始結合「數」

與「形」兩大主題學習運用幾何形體的構成要素(如角邊面)及其數量性

質(如角度邊長面積)

更詳細的相關能力指標詳列如下

1-S-04能依給定圖示將簡單形體作平面舖設與立體堆疊給定的圖示

可為圖卡或實物透過拼圖與堆積木等活動讓學童進行平移翻轉重疊

比對hellip等全等操作的練習

3-S-06能透過操作將簡單圖形切割重組成另一已知簡單圖形

4-S-02能透過操作認識基本三角形與四邊形的簡單性質

4-S-03能認識平面圖形全等的意義

4-S-16能理解平面上直角垂直與平行的意義

4-S-07能由直角垂直與平行的概念認識簡單平面圖形

4-S-08能利用三角板畫出直角與兩平行線段並用來描繪平面圖形

例學童會使用直尺或三角板畫出直角及兩平行線段進而用來繪製直角三角

形正方形長方形平行四邊形與梯形

因此學生在回答這兩個問題時應已具備足夠的能力

在幾何方塊的題組中給學生 3 塊白色方塊4 塊黑白相間的方塊和 3 塊黑

色方塊要求學生完成

一利用 2 張黑白相間方塊拼出一個較大的黑色三角形

二利用 4 張黑白相間方塊拼出一個黑色的正方形並求出佔幾分之幾

三不准使用黑白相間方塊將 4 張方塊拼出一個正方形使得黑色的部分佔 12

37

四請用 8 張方塊拼出一個如下圖的長方形使得黑色部分佔 58

這是一種包含幾何跟數與量的題目其中幾何的部份是要求學生建立一個二維圖

形並滿足題目的要求(數與量)幾何部分已經如上所述現在分析相關的數

與量

根據我國國民中小學九年一貫課程綱要數學學習領域中指出有理數是小學

的核心課程之一也是小學數學教育中最有挑戰性的教學主題因為學生較缺

乏有理數的前置經驗日常生活中的有理數情境也比整數少分數的形式是學生

首次碰到兩整數並置的約定至於什麼是穩當的有理數教學並無定論但是基

本的共識是學生需要較長的時間來學習掌握有理數的概念不論是先形式程

序或者先概念理解兩者都必須不斷互相支持在有理數教學中必須將材料

作適當的安排先從較容易的平分或測量入手而將其它的應用課題作為錘鍊

有理數數感的課題

在相關的能力指標詳列如下

3-n-09能在具體情境中初步認識分數並解決同分母分數的比較與加

減問題學童從具體情境或活動中掌握分數的概念能學會分數的記號並理

解運用分數記號來記錄同分母分數的比較與加減的方式例如以平分為基礎的

活動(離散量)問下列深色區域是全部圖形的幾分之幾

4-n-07能認識真分數假分數與帶分數熟練假分數與帶分數的互換

並進行同分母分數的比較加減與非帶分數的整數倍的計算

4-n-08能理解等值分數進行簡單異分母分數的比較並用來做簡單分

數與小數的互換在具體情境中說明分數等值的理由可先由分母的倍數差 2

4倍的分數先出發(因為切半的操作最簡單)

在施測學校所使用的教科書中第七冊第十單元分數中其教學目標也有

38

透過單位分數的合成和累加活動以真分數來描述單位分數的幾份可見此題對

施測學校的學生來說應有能力解決

另外兩題有關數與量的題目是數字卡跟猜一猜在數字卡部份題目分為兩

部份第一部份為抽出三張 0-9 的數字卡任意排列後找出最接近總和為 20 的

方法第二部份為抽出三張 0-9 的數字卡任意排列後分別找出和差跟積最大

的方法這在我國國民中小學九年一貫課程綱要數學學習領域中分類在數與量

中的整數部分根據附錄說明中指出整數計算是一切數學學習的基礎在教學

中學童經由活動情境掌握計算的意義藉著各種例子體驗計算的規則與策略

流暢的計算能力有如語文學習中基本的文字駕馭能力不僅可以內化學童的

數字感並且是日後(國高中)學習抽象運算及形式推導的基礎這樣的能力

固然是學習科學所必須也是能夠有效處理日常生活的基本能力之一所以國小

整數教學的課程目標在於

一從計數開始學習位值的約定與換算並在演算中逐步熟悉最後能掌握

大數

二在二年級下學期理解算術的樞紐九九乘法作為日後所有計算的基礎

三到四年級時能夠不拘泥於位數熟練加減乘除的直式計算

有關數與量的題目另一題是猜一猜題目是在 9個碗中前 4個碗中豆子

的數量分別是 29313128 個請猜一猜罐子中大約有幾個豆子並解釋你

的想法這在我國國民中小學九年一貫課程綱要數學學習領域中分類在數與

量中的估算部分估算在國民教育中可粗分為離散量的估算(自然數四則運算的

估算)與連續量的估算前者的教學應在學生已經能掌握確算後再進行而後

者的教學應透過測量時量不盡的正常情境與小數的教學共同開展認識小數

之細分與精確度的要求乃是一體的兩面估算的教學可以先在計算與驗算中強

調讓學生能對不合理的答案透過估算剔除然後是能判斷應用問題對答案

精確度的要求並藉由過去的解題經驗發展正確的估算策略或者是能針對

39

問題與解答發展估算策略驗算解答的合理性要注意的是估算屬於較高層

次的數學能力學生必須先對所使用的概念程序與問題情境有相當的理解才能

恰當地估算進而能正確判斷估算的時機與精確度的要求國小的估算教學要

特別注意評量的問題切忌因為強求估算禁止學生使用正常計算教師應在評

量的問題上下功夫讓問題本身暗示估算的好處

最後一題是擲骰子題目是用一個規則來改變骰子擲出來的數字要求學

生發現改變後的數字有什麼特性另外要求學生丟 30 次將結果記錄並統計在

表格中這是屬於統計與機率的部份我國課程在這部份強調統計和機率的知識

背景應來自生活環境因此以學生的生活經驗為主從學生感興趣的主題出發

使其學會敘述統計所呈現出的數字和圖表的意義強調圖表的表達和溝通並了

解抽樣機率的初步概念且能正確地運用各項統計資料於實際的生活中並要

求在三年級之前 先藉由簡易表格的製作協助學生建立資料的整理與分組的

概念進而練習報讀與說明資料並建立個別資料出現頻率概念的認識再藉著

直接和交叉對應表格的介紹並配合「數與量」的教學希望學生能掌握對表格

的認識並能加以運用

40

第三章 方法與步驟

本章節乃根據前兩章所提的研究目的與文獻探討進行研究設計以下將分別

就研究架構研究工具發展研究的信效度與實作評量的試題架構三節加以說明

第一節 研究架構

壹研究方法本研究是使用實作評量的方法進行實際施測使用 SPSS

與 EXCEL 軟體分析回收的施測數據

貳研究樣本本研究之研究對象是針對國小四年級學生以台中縣神岡鄉

某國小四年級學生為受試者共四班 127 人學校環境是住

宅與工業混合區

叁研究工具本研究的研究工具分為兩部份民國 89 年徐美英研究論文

中的題目跟 TIMSS 2003 公開的實作評量試題各三題TIMSS

2003 公開的實作評量試題是由 TIMSS 網站下載試題後再進

行翻譯每一個題組的施測時間是 30 分鐘

第二節 研究工具發展

本研究的研究工具分為兩部份民國 89 年徐美英研究論文中的題目跟 TIMSS

2003 公開的實作評量試題各三題以下將分別就試題的編製過程評分標準施

測人員和評分者四點加以說明

壹試題編製過程

一研究分析相關公開試題並與學校教材相互對照後進行選題

二選定題目後進行翻譯

三將翻譯好後的題目跟原始原文題目交給學校英語科任老師進行確認

41

四確定翻譯工作後與現任資深國小四年級的教師們共同討論題目的適切

性修改試題敘述的語句使文句的敘述能符合四年級學生的認知

五將修改後的題目請上述老師再做一次確認

六提供評分標準給上述老師討論全對部份給分不給分的情況

七題目定案

以數字卡這題為例題目如下

【題目數字卡】

在這部分你將會拿到一張印有 0到 9的數字卡如下圖請將這些數字卡

取下來

總和為ldquo20的數字遊戲

小杰與小明這兩個小孩正在玩一個ldquo總和為 20的遊戲其規則如下

總和為ldquo20的規則

一抽數字卡每一個人抽出三張數字卡

二加數字卡每一個人利用這三張數字卡做出一個加法問題使得算出的

總和最接近 20 例如假如抽出的數字卡 將數字任

意組合後下面是其中四種可能的方法

0 1 2 3 4

5 6 7 8 9

1 4 5

42

+ + + +

5 5 4 6 1 9 +

15 1 0

這時玩家應該選擇 + 4 因為它的總和 19最接近 20

19

小杰和小明開始玩遊戲了小杰抽出了 三張數字卡小明抽出

了 三張數字卡

一小杰要如何安排三張數字卡做出一個加法問題才能讓它的總和為最接

近 20記得要寫總和

二小明要如何安排三張數字卡做出一個加法問題才能讓它的總和最接近

20記得要寫總和

三小明說假如我抽到 我可以用兩種方法做出總和 20

請告訴我們小明用哪兩種方法可以使 做出總和 20

第一種方法

第二種方法

1

4

5 1

4

5

1

4 51

4

5

972

6 3 1

1 4 6

1 4 6

43

找出最大的數

小杰和小明利用數字卡玩另一個新的遊戲就是利用三張數字卡做出最

大的數

甲將 三張數字卡填入下列的格子內讓相加的結果為最大

乙將 三個數字填入下列的格子內讓相減的結果為最大

丙將 三個數字填入下列的格子內讓相乘的結果為最大

貳施測人員

由四位該班導師擔任在正式施測前由研究者針對施測應注意事項對施

測人員說明並在每一份題目上附上給老師的話說明施測時應注意的事項

及給分說明部分實作評量試題需要用到一些材料由研究者事先準備妥

當於考前交給施測人員至於材料的發放跟試題說明的時間並不包括在 30

分鐘的測驗時間之內

叁評分標準

一 89 年徐美英研究論文中的題目直接使用其附錄中的評分標準以擲

times

9 5 1

+

2 3 7

1 4 5

44

骰子這題為例其評分標準如下

第一題 1 正確的計算出(042648)

2 給分範圍2分

第二題 1 描述的類型與資料一致

2 形式可以是一個或多個以下的情形例如所有的數字

都是偶數數字的範圍從 0~84 出現 2次數字排列有

規則如+4-2+4-2

3 給分範圍2分

第三題 1 至少完成 25 次擲骰子的紀錄

2 正確的計算

3 給分範圍2分

第四題 1 統計的次數與第三題的資料一致

2 給分範圍2分

第 5a 題1 答案與資料一致

2 給分範圍1分

第 5b 題1 對觀察的數字提供合理的解釋

2 給分範圍1分

二 TIMSS 2003 公開的實作評量試題部分參照其公佈的評分標準翻譯

成中文以提供給資深四年級老師參考以數字卡這題為例

(一)第一部分總和為 20 的數字遊戲

1 第甲題

(1) 給分範圍 1分

1 寫出 2+7+9=18

2 沒有任何算式但有答案是 18 者

(2) 給分範圍0分

45

1 有寫出算式 2+7+9 但沒有答案 18 出現

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

或偏離主題的回答)

3 完全空白

2 第乙題

(1) 給分範圍1分

1 13+6=19 或 16+3=19

2 沒有任何算式但有答案是 19 者

(2) 給分範圍0分

1 有寫出算式 13+6 或 16+3 但沒有答案 19 出現

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

3 完全空白

3 第丙題

(1) 給分範圍2分

兩種方法都正確(16+4 和 14+6)

(2) 給分範圍1分

只有寫出其中一種方法(16+4 或 14+6)

(3) 給分範圍0分

1 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

2 完全空白

(二)第二部份找出最大的數

1 第甲題

(1) 給分範圍1分

46

91+5 或 95+1

(2) 給分範圍0分

1 將 159擺在任何其他不正確的位置

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

3 完全空白

2 第乙題

(1) 給分範圍1分

73-2

(2) 給分範圍0分

1 72-3

2 將 237擺在任何其他不正確的位置

3 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

4 完全空白

3 第丙題

(1) 給分範圍1分

41times5

(2) 給分範圍0分

1 51times4

2 將 145擺在任何其他不正確的位置

3 其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的

或偏離主題的回答)

4 完全空白

47

第三節 研究的信效度與實作評量的試題架構

壹信效度

由於此次的實作評量採用多元化記分的方式故信度計算採用 Cronbach α

係數算出信度值為 079而且每一題均有詳細說明細節行為的項目給定參考

答案圖形的作品量表各題除經著名國際測驗機構審核施測過外並由研究者另

請學校資深四年級教師共同研究討論題目與答案對於施測過程研究者也與四

位監考老師討論後訂出共同標準所以在效度方面具有專家效度跟內容效度

貳試題架構

此次實作評量的試題共六題分別是屬於數與量幾何統計與機率等三大

主題依據九年一貫課程綱要數學學習領域裡對這幾個大主題在國小四年級前的

學習說明研究者編制下表的試題架構

48

表 3-3-1 試題架構

題目 學習主題 主題層次 評量內涵說明

擲骰子 數與量

統計與機率

(1)整數

(2)簡易表格的製作

(1)可以對整數的變化

提出一套模式或發現

(2)簡易表格的製作結

果統計與發現

猜一猜 數與量 估算 使用估算的技巧協助計算

與解題

魔術師 幾何 對稱的實際操作 透過摺紙的對稱觀念理解

平面圖形的線對稱關係

圖形題 幾何

(1)幾何形體的認識與

切割

(2)幾何形體『形』的

直觀認識

(1)透過操作將簡單圖

形切割成另一簡單圖

(2)直觀指出平面圖形的

相似

數字卡 數與量 運用加減乘法求最大值

透過位值概念將給定的數

字編排在不同的位值進行

加減乘法得到接近題

目要求的答案或所有可能

的最大值

幾何方塊 幾何

數與量

(1)幾何形體的拼合

(2)有理數(部分全體

的意涵)

(1)利用黑白相間方塊

拼出指定的簡單平面

圖形

(2)在具體情境中認識

分數

49

第四章 結果與討論

本章主要是呈現資料分析的結果並加以討論共分為四節第一節是利用

TIMSS 1999 實作評量試題比較民國 89 年跟民國 95 年的成績差異第二節是利

用 TIMSS 2003 實作評量試題檢視施測學校在性別及班級間是否存在差異第

三節是利用 TIMSS 2003 實作評量試題比較施測學校與原始施測資料的成績差

異第四節是實作評量試題的類推性

第一節 利用 TIMSS 1999 實作評量試題比較民國

89 年跟民國 95 年的成績差異

研究者本小節要探討的是 TIMSS 1999 的施測結果與民國 89 年徐美英所進行

的研究之比較主要的比較項目為平均數標準差及得分情形分配百分比基於

此研究者採用百分比圖表及各小題反推出得分人數之後用獨立樣本 t檢定的

方式比較平均數另外依百分比反推出人數時有時會因四捨五入產生總人數多

1人的情況此時會對進位數最小的數採取無條件捨去法以符合總人數一致另

因研究者分三天進行六題施測每題實際受測人數也有不同研究者使用的資料

來源有兩個分別是 TIMSS 2003 實作評量題目及 TIMSS 1999 實作評量題目為

了呈現方便研究者將取自 TIMSS 2003 實作評量題目所作的施測結果用『95 年』

表示另外 TIMSS 1999 實作評量題目為研究者從民國 89 年徐美英的論文中擷取

出來的當年的施測結果以『89 年』表示

50

壹魔術師

表4-1-1 95年魔術師題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

魔術師ㄧ 16 16 68 5 127

魔術師二 101 151 748 5 127

魔術師三 202 235 563 5 127

由表 4-1-1 得知研究者此次此題型的施測結果各題得分均以得 2分者居

多得 1分居次利用表 4-1-1研究者也從民國 89 年徐美英的論文中找到類

似資料列在表 4-1-2表 4-1-2 是從論文的本文中摘錄下來的研究者反覆研

究該論文時發現在 P73 也有附錄一份有關魔術師各題的資料統整不過兩者的

個數有所差異下表總人數 156 人遺漏值 5人附錄中個數是 155 人下表反推

出人數後的平均數也與附錄稍有出入研究者以本文的表格為準

表4-1-2 89年魔術師題組得分情形分配表

題目 得 0分人數() 得 1分人數()得 2分人數() 遺漏值 總人數

魔術師ㄧ 419 258 323 5 156

魔術師二 194 194 613 5 156

魔術師三 258 258 484 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

51

0

10

20

30

40

50

60

70

80

魔術師ㄧ 魔術師二 魔術師三

95年答對率

89年答對率

圖 4-1-1 百分比圖表比較結果

由上圖可知95 年答對的答對率在 3題中均優於 89 年的結果其中以魔術

師ㄧ的資料差距最大但此兩年的資料也有一個共同的趨勢就是該年度的答對

率有魔術師二的答對率>魔術師ㄧ的答對率>魔術師三的答對率研究者進一步

反推 89 年的得分人數後將兩年的資料進行獨立樣本 t檢定結果列於表 4-1-3

表 4-1-4表 4-1-5

表 4-1-3 魔術師ㄧ獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異數

相等 4323 0039 6098 272000 0000 0410 0800

1

不假設變異

數相等 6173 270036 0000 0410 0800

52

表 4-1-3 可以看出變異數 Leven 檢定結果P值lt005所以達到顯著差異

可見變異數是不能視為相等的後面 t檢定值 6173P 值lt005所以有達到顯

著差異可見平均數是不能視為相等故這一小題明顯的是 95 年的學生成績較

表 4-1-4 魔術師二獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異數

相等 17130 0000 2550 270000 0011 0050 0410

2

不假設變異

數相等 2605 270000 0010 0060 0400

表4-1-4可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是不能視為相等的後面t檢定值2605P值lt005所以有達到顯著

差異可見平均數是不能視為相等故這一小題明顯的也是95年的學生成績較佳

表 4-1-5 魔術師三獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 0443 0506 1332 272000 0184 -0100 0330

3

不假設變

異數相等 1338 265000 0182 -0100 0330

53

表4-1-5可以看出變異數Leven檢定結果P值gt005所以沒有達到顯著差

異可見變異數是要視為相等的後面t檢定值1332P值gt005所以沒有達到

顯著差異可見平均數是也可以視為相等故這一小題兩年的學生成績沒有差別

接著研究者對整個題組總得分進行比較由於 89 年論文中只有平均數與標

準差兩項資料研究者只能稍做比較95 年施測的平均數為 424標準差為 208

而 89 年的平均數是 375標準差是 207由於兩者標準差的差距很小可見兩

項資料的集中平均數的趨勢是差不多的而平均數則是 95 年多 049 分

二擲骰子

表4-1-6 95年擲骰子題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

擲骰子一 101 202 697 8 127

擲骰子二 597 395 08 8 127

擲骰子三 25 319 655 8 127

擲骰子四 345 378 277 8 127

擲骰子五 a 462 538 8 127

擲骰子五 b 950 50 8 127

由表 4-1-6 得知研究者此次擲骰子題組中各題得分擲骰子一以得 2分

居多佔 697擲骰子二以得 0分居多佔 597擲骰子三以得 2分居多

佔 655擲骰子四以得 1分居多佔 378擲骰子五 a以得 1分居多佔 538

擲骰子五 b以得 0分居多佔 95擲骰子二與擲骰子五 b是要求學生說明理由

或描述規則可見學校教學應該可以再加強學生在解釋資料上的能力

54

表4-1-7 89年擲骰子題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

擲骰子一 32 65 903 5 156

擲骰子二 548 387 65 5 156

擲骰子三 00 65 935 5 156

擲骰子四 65 129 806 5 156

擲骰子五 a 97 903 5 156

擲骰子五 b 839 161 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

0

20

40

60

80

100

擲骰

子一

擲骰

子二

擲骰

子三

擲骰

子四

擲骰

子五

a

擲骰

子五

b

95年答對率

89年答對率

圖 4-1-2 百分比圖表比較結果

由上圖可知89 年答對的答對率在 5題中均優於 95 年的結果其中擲骰子

二與擲骰子五 b兩年的答對率都很低可見對位於城鄉交界處的台灣學生而言

這種類型的題目屬於偏難的題型研究者進一步反推 89 年的得分人數後將兩

年的資料進行獨立樣本 t檢定結果列於表 4-1-8表 4-1-9表 4-1-10表

55

4-1-11表 4-1-12表 4-1-13

表 4-1-8 擲骰子一獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 56450 0000 -4100 270000 0000 -0400 -0140

1

不假設變

異數相等 -3900 195000 0000 -0400 -0130

表4-1-8可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是要假設不相等的後面t檢定值-3906P值lt005所以也達到顯

著差異可見平均數是不能視為相等故這一小題是89年的學生表現較優秀

表 4-1-9 擲骰子二獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 9470 0002 -1500 270000 0141 -0200 0035

2

不假設變

異數相等 -1500 270000 0133 -0200 0032

表4-1-9可以看出變異數Leven檢定結果P值lt005所以有達到顯著差異

可見變異數是要視為不相等的後面t檢定值-1506P值gt005所以沒有達到

顯著差異可見平均數是可以視為相等故這一小題兩年的學生成績沒有差別

56

表 4-1-10 擲骰子三獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 186200 0000 -6200 270000 0000 -0400 -0210

3

不假設變

異數相等 -5800 162000 0000 -0400 -0200

表4-1-10可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是要視為不相等的後面t檢定值-5806P值lt005所以達到顯著

差異可見平均數是有顯著差異的故這一小題89年的學生成績表現較好

表 4-1-11 擲骰子四獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 19580 0000 -9900 270000 0000 -1000 -0650

4

不假設變

異數相等 -9600 212000 0000 -1000 -0650

表4-1-11可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-9565P值lt005有達到顯著差異

可見平均數是有顯著差異的故這一小題89年的學生成績比較好

57

表4-1-12 擲骰子五a獨立樣本t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 207800 0000 -7400 270000 0000 -0500 -0270

五 a

不假設變

異數相等 -7000 187000 0000 -0500 -0260

表4-1-12可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-7036P值lt005有達到顯著差異

可見平均數是有顯著差異故這一小題89年的學生成績比較好

表 4-1-13 擲骰子五 b獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 38760 0000 -2900 270000 0004 -0200 -0035

五b

不假設變

異數相等 -3100 251000 0003 -0200 -0039

表4-1-13可以看出變異數Leven檢定結果P值lt005達到顯著差異可見

變異數是要視為不相等的後面t檢定值-3052P值lt005達到顯著差異可

見平均數是有顯著差異故這一小題89年的學生成績比較好

接著研究者對整個題組總得分進行比較由於 89 年論文中只有平均數與標

58

準差兩項資料研究者只能稍做比較95 年施測的平均數為 48346標準差為

24455而 89 年的平均數是 68258標準差是 16947可見 89 年的資料顯示

集中平均數的趨勢較高而 95 年的資料則較為分散而且平均數又是 89 年多

19912 分多出將近 12 倍

三猜一猜

表4-1-14 95年猜一猜題組得分情形分配表

題目 得0分人

數()

得1分人

數()

得2分人

數()

得3分人

數()

得4分人

數()

得5分人

數() 遺漏值 總人數

猜一猜 3858 2441 1102 630 787 1181 0 127

由表 4-1-14 得知研究者此次擲骰子題組中得分以得 0分者居多顯示

學生的概算能力非常不足其次是得 1分的較多這顯示學生曉得題目要掌握哪

些資訊只是不懂得利用這些資訊0分與 1分的人數竟佔超過 50結果頗令

人訝異

表 4-1-15 89 年擲骰子題組得分情形分配表

題目 得0分人

數()

得1分人

數()

得2分人

數()

得3分人

數()

得4分人

數()

得5分人

數() 遺漏值 總人數

猜一猜 2580 650 100 1190 3230 2260 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

59

猜一猜

0

10

20

30

40

50

60

95年答對率 89年答對率

圖4-1-3 百分比圖表比較結果

本題研究者將得 4分與得 5分者列為答對人數由上圖可知89 年答對的答

對率優於 95 年的結果研究者進一步反推 89 年的得分人數後將兩年的資料進

行獨立樣本 t檢定結果列於表 4-1-16表 4-1-17

表4-1-16 猜一猜資料統計

年度 個數 平均數 標準差平均數的

標準誤

95 127 156 175 016 得分

89 151 286 196 016

表4-1-17 猜一猜獨立樣本t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 5639 0018 -5800 276000 0000 -1700 -0860猜

猜 不假設變

異數相等 -5900 275000 0000 -1700 -0864

60

表4-1-17可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-5856P值lt005有達到顯著差異

可見平均數是有顯著差異故這一小題89年的學生成績比較好

第二節 利用 TIMSS 2003 實作評量試題檢視施測

學校在性別及班級間是否存在差異

在各題型得分的相關情形方面將之整理成表格 4-2-1由表中得知除了

圖形題與猜一猜的相關係數達到005的顯著水準之外其他相關各題均達到001

的顯著水準也就是說圖形題與數字卡幾何方塊魔術師猜一猜擲骰子

等題有相當程度的關係其他各題相互之間也是類似的關係這說明了此次的考

題不只是幾何能力之間有相關的情況幾何能力與統計概念數的運算能力

概算能力之間也有相當程度的關係

61

表 4-2-1 各題型之相關係數

圖形題 數字卡 幾何方塊 魔術師 猜一猜 擲骰子

Pearson 相關 1 0617 0419 0487 0174 044

顯著性 (雙尾) 0 0 0 005 0 圖形

個數 127 127 127 127 127 127

Pearson 相關 0617 1 0517 0562 0272 0587

顯著性 (雙尾) 0 0 0 0002 0 數字

個數 127 127 127 127 127 127

Pearson 相關 0419 0517 1 0397 0308 0389

顯著性 (雙尾) 0 0 0 0 0 幾何

方塊

個數 127 127 127 127 127 127

Pearson 相關 0487 0562 0397 1 0248 0509

顯著性 (雙尾) 0 0 0 0005 0 魔術

個數 127 127 127 127 127 127

Pearson 相關 0174 0272 0308 0248 1 0317

顯著性 (雙尾) 005 0002 0 0005 0 猜一

個數 127 127 127 127 127 127

Pearson 相關 044 0587 0389 0509 0317 1

顯著性 (雙尾) 0 0 0 0 0 擲骰

個數 127 127 127 127 127 127

在顯著水準為001時 (雙尾)顯著相關

在顯著水準為005時 (雙尾)顯著相關

62

表4-2-2 班級對總分之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

班級 390132 3000 130044 2046 0111

誤差 7806910 123000 63471

總和 8197040 126000

以單因子變異數分析班級對總分的結果如表4-2-2在α=005之下F檢定值為

2049相對應的P值是0111因為P值>005所以未達顯著差異也就是各班

級間的實作評量總分並沒有因班級的不同而顯現出差異

表4-2-3 性別對總分之組別統計量與t檢定表

性別 個數 平均數 標準差 平均數的標準誤

男生 65 21892 7567 0939 總分

女生 62 23355 8595 1092

獨立樣本檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 0320 0573 -0998 125000 0320 -4263 1404

分 不假設變

異數相等 -0996 121524 0322 -4272 1413

從表4-2-3來看雖然女生平均成績是2331分高於男生的2188分但根

據獨立樣本t檢定的檢定結果變異數的Levene檢定F值為0320P值為0573

顯示出男生與女生的變異數沒有顯著差異而平均數的t檢定值為-0998P值為

63

032也顯示出男女生的平均數是沒有顯著差異的研究者進一步分析性別與各

題的t檢定結果顯示於表4-2-4

表4-2-4 性別對各題之組別統計量與t檢定表

性別 個數 平均數 標準差 平均數的標準誤

男生 65 326 112 014 圖形題

女生 62 340 098 012

男生 65 418 215 027 數字卡

女生 62 474 212 027

男生 65 417 160 020 幾何方塊

女生 62 413 167 021

男生 65 417 204 025 魔術師

女生 62 432 213 027

男生 65 135 163 020 猜一猜

女生 62 177 185 023

男生 65 474 237 029 擲骰子

女生 62 494 253 032

64

獨立樣本檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 1522 0220 -0756 125000 0451 -0510 0230圖

題 不假設變

異數相等 -0758 124117 0450 -0510 0230

假設變異

數相等 0431 0513 -1471 125000 0144 -1310 0190數

卡 不假設變

異數相等 -1471 124863 0144 -1310 0190

假設變異

數相等 0067 0797 0139 125000 0890 -0530 0610

不假設變

異數相等 0138 123883 0890 -0530 0620

假設變異

數相等 0031 0860 -0414 125000 0680 -0890 0580魔

師 不假設變

異數相等 -0413 123981 0680 -0890 0580

假設變異

數相等 2029 0157 -1359 125000 0177 -1030 0190猜

猜 不假設變

異數相等 -1355 121450 0178 -1030 0190

假設變異

數相等 0391 0533 -0452 125000 0652 -1060 0660擲

子 不假設變

異數相等 -0452 123426 0652 -1060 0670

65

結果顯示各小題的平均數女生分別是34474413432177

494男生分別是326418417417135474除了幾何方塊之外

幾乎都是女生高於男生而各小題的Levene變異數檢定結果其P值分別是

0220513079708601570533均大於005顯示沒有顯著差異

而平均數的檢驗結果各題的P值分別是0451014408906801770652

也都大於005也呈現沒有達到顯著差異可見這6題的考題成績結果與刻板

印象「男生數理比較厲害」有不同的結果

第三節 利用 TIMSS 2003 實作評量試題比較施測

學校與原始施測資料的成績差異

本節研究重點是 TIMSS 2003 的題目與國際受測國家中總體表現較好的國家

資料及台灣原始資料進行比較TIMSS 網站上提供各個受測國家的資料檔研究

者下載了新加坡香港日本台灣比利時與美國的資料之所以下載這幾個

國家的資料是因為四年級測驗總分結果前五名剛好是新加坡香港日本台

灣比利時而且從總分的分析結果顯示台灣與新加坡香港有顯著差異與日

本沒有顯著差異而比利時與台灣也有顯著差異所以比較這五個國家而美國

是因為研究者想了解美國學生是否真的比較會活用故列入此次的比較探討在

實作評量上是否達到顯這差異研究方法採用變異數分析與事後比較事後比較

採用雪費(Scheffe)檢定法由於 TIMSS 施測時採用 12 本測驗題本所以參與

實作評量的各題人數並不一致會出現同一個國家在不同題目上有不同人數的情

況另外因研究者分三天進行六題施測每題實際受測人數也有不同

一圖形題

66

表4-3-1 95年圖形題題組得分情形分配表

題目 得 0分人數 得 1分人數 缺失值 總人數

圖形題甲 66 934 6 127

圖形題乙 41 959 6 127

圖形題丙 174 826 6 127

圖形題丁 223 777 6 127

由表 4-3-1 可知在圖形題題組中各小題得分均以得 1分的人數分別是

934959826777各題百分比是否達到顯著不同研究者用百分比

同質性檢定結果列於表 4-3-2

表 4-3-2 圖形題百分比同質性檢定

得分題目 交叉表

題目

1 2 3 4 總和

得分 0 8 5 21 27 61

得分 1 113 116 100 94 423

總和 121 121 121 121 484

卡方檢定

數值 自由度 p-value

Pearson 卡方 24666a 3000 0000

概似比 25936 3000 0000

線性對線性的關連 19950 1000 0000

有效觀察值的個數 484000

a 0 格(0)的預期個數少於 5最小的預期個數為 1525

67

結果顯示 Pearson 的卡方值 24666df=3p=0000達到顯著水準所以

各題的答對率百分比是不同的

表4-3-3 圖形題題組各國答對率的比較

題目 新加坡答

對率

香港答對

日本答對

台灣答對

比利時答

對率

美國答對

施測學校

答對率

圖形題甲 830 958 917 936 833 727 934

圖形題乙 937 988 902 950 911 877 959

圖形題丙 702 859 744 847 504 328 826

圖形題丁 616 490 634 656 504 553 777

00

400

800

新加坡

香港

日本

台灣

比利時

美國

施測學

圖形

題甲

圖形

題乙

圖形

題丙

圖形

題丁

圖4-3-1 圖形題題組答對率之比較圖

由表 4-3-3 與圖 4-3-1 可知在圖形題題組中甲題的答對率以香港最高

台灣與施測學校居次美國最低乙題的答對率以香港最高台灣與施測學校還

是居次美國最低丙題的答對率以香港最高台灣居次美國最低而且低到

328丁題的答對率以施測學校最高台灣居次香港最低低到 490香港

68

在此小題的表現與上述三小題的結果明顯有很大差距

接著進行變異數分析與事後比較的結果

表4-3-4 圖形題各題之資料統整

圖形題甲

有效的個數 平均數 標準差

新加坡甲 1103 0830462 0375396

香港甲 757 0957728 0201342

日本甲 767 0916558 0276730

台灣甲 776 0935567 0245681

比利時甲 779 0833119 0373109

美國甲 1636 0726773 0445753

施測甲 121 0933884 0249517

圖形題乙

有效的個數 平均數 標準差

新加坡乙 1103 0937443 0242274

香港乙 757 0988111 0108458

日本乙 767 0902216 0297216

台灣乙 776 0949742 0218617

比利時乙 779 0911425 0284312

美國乙 1636 0877139 0328378

施測乙 121 0958678 0199862

題形題丙

有效的個數 平均數 標準差

新加坡丙 1103 0701723 0457709

香港丙 757 0858653 0348610

日本丙 767 0744459 0436450

台灣丙 776 0846649 0360557

比利時丙 779 0504493 0500301

美國丙 1636 0327628 0469492

施測丙 121 0826446 0380300

69

圖形題丁

有效的個數 平均數 標準差

新加坡丁 1103 0615594 0486675

香港丁 757 0490092 0500232

日本丁 767 0633638 0482125

台灣丁 776 0655928 0475371

比利時丁 779 0504493 0500301

美國丁 1636 0552567 0497381

施測丁 121 0776860 0418083

由表 4-3-4 得知參與此題的人數以美國的 1636 人最多香港日本台

灣比利時的人數差不多經變異數分析後如表 4-3-5 所示

表 4-3-5 圖形題各題之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

圖形題甲 組間 44078 6 7346 59531 0000

組內 732026 5932 0123

總和 776103 5938

圖形題乙 組間 8009 6 1335 18752 0000

組內 422269 5932 0071

總和 430278 5938

圖形題丙 組間 257623 6 42937 223054 0000

組內 1141889 5932 0192

總和 1399511 5938

圖形題丁 組間 24546 6 4091 17047 0000

組內 1423561 5932 0240

總和 1448107 5938

70

表4-3-5顯示在α=005之下圖形題4小題的P值均<005均達顯著

水準可見這4題的平均得分有顯著不同所以研究者進一步做事後分析如表

4-3-6所示配合研究者的研究目的本文中只摘錄與研究目的相關的資料其

他比較結果請參閱附錄表格

表 4-3-6 圖形題各題之事後比較

Scheffe 法

題目 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0100 0034 0150

香港 -0024 0034 0998

日本 0017 0034 1000

台灣 -0002 0034 1000

比利時 0100 0034 0196

圖形題

美國 0210 0033 0000

施測 新加坡 0021 0026 0995

香港 -0029 0026 0973

日本 0057 0026 0585

台灣 0009 0026 1000

比利時 0047 0026 0772

圖形題

美國 0082 0025 0105

施測 新加坡 0120 0042 0185

香港 -0032 0043 0997

日本 0082 0043 0724

台灣 -0020 0043 1000

比利時 0320 0043 0000

圖形題

美國 0500 0041 0000

施測 新加坡 0160 0047 0066

香港 0290 0048 0000

日本 0140 0048 0178

台灣 0120 0048 0382

比利時 0270 0048 0000

圖形題

美國 0220 0046 0001

71

由表4-3-6所顯示的結果得知在圖形題這四小題中施測學校與台灣在2003

年所作的調查結果的資料並沒有達到顯著差異可見施測學校的圖形題各小題的

平均得分與2003年的台灣資料的圖形題各小題的平均得分是視為相等的施測學

校在圖形題乙的部分與國際上2003年表現較好的國家的施測資料也都沒有達到

顯著差異可見在這一小題上施測學校與國際上表現較好的國家的平均得分也

是可以視為相等的但是在圖形題甲中施測學校與美國有達到顯著差異在圖

形題丙中施測學校與比利時美國有達到顯著差異在圖形題丁中施測學校

與香港比利時美國有達到顯著差異可見在圖形題甲中施測學校的平均得

分優於美國在圖形題丙中施測學校的平均得分優於比利時與美國在圖形題

丁中施測學校的平均得分優於香港比利時與美國

接下來以整個圖形題的題組來看由表 4-3-7 所示變異數分析的結果

表4-3-7 圖形題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 725457 6 120910 107817 0000

組內 6652328 5932 1121

總和 7377785 5938

在α=005的情況下F檢定值為107817plt005達到顯著差異所以

可以得知這七個國家的平均得分有顯著差異所以要進行事後比較如表4-3-8

所示

72

表4-3-8 圖形題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0410 0101 0012

香港 0200 0104 0708

日本 0300 0104 0215

台灣 0110 0104 0982

比利時 0740 0103 0000

美國 1010 0100 0000

由表 4-3-8 得知整個題組的事後分析顯示在α=005 的情況下施測學

校的總分平均得分與與台彎沒有達到顯著差異所以平均總得分是可以視為相等

的而施測學校總平均得分與新加坡比利時美國有達到顯著差異所以施測

學校的總平均得分是優於新加坡比利時與美國

二數字卡題組

表4-3-9 95年數字卡題題組得分情形分配表

得 0分人數 得 1分人數 得 2分人數 遺漏值 總人數

數字卡 1 317 683 7 127

數字卡 2 242 758 7 127

數字卡 3 117 92 792 7 127

數字卡 4 300 700 7 127

數字卡 5 317 683 7 127

數字卡 6 783 217 7 127

由表 4-3-9 可知在數字卡題題組中各小題得分分別以數字卡 1得 1分者

73

佔 683以數字卡 2得 1分者佔 758以數字卡 3得 2分者佔 792以數字

卡 4得 1分者佔 70以數字卡 5得 1分者佔 683以數字卡 6得 0分者佔 783

居多數字卡 6得分偏低此小題是要求學生將已知的三個數字拼成兩個數後所

得乘積最大結果顯示學生答對率偏低但學生在加法與減法上則無此現象(數

字卡 4與數字卡 5)此題各國答對率的比較結果列於表 4-3-10

表4-3-10 數字卡題題組各國答對率的比較

題目 新加坡 香港 日本 台灣 比利時 美國 施測學校

數字卡 1 494 624 646 698 475 416 683

數字卡 2 567 538 619 657 556 458 758

數字卡 3 645 595 594 657 553 563 792

數字卡 4 713 710 754 647 556 534 700

數字卡 5 693 689 738 629 546 497 683

數字卡 6 264 243 362 225 185 135 217

0

20

40

60

80

100

數字卡1

數字卡2

數字卡3

數字卡4

數字卡5

數字卡6

圖 4-3-2 數字卡題題組答對率之比較圖

74

由表 4-3-10 與圖 4-3-2 可知在圖形題題組中第 1題的答對率以台灣最

高施測學校居次美國最低第 2題的答對率以施測學校最高台灣居次美

國最低第 3題的答對率以施測學校最高台灣居次比利時最低第 4題的答

對率以日本最高新加坡和香港居次美國最低第 5題的答對率以日本最高

新加坡居次美國最低第 6題的答對率還是以日本最高新加坡居次美國最

低接著進行變異數分析結果列於表 4-3-11

表 4-3-11 數字卡題各題之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

組間 34477 6 5746 2418 0000

組內 717422 3019 0238 第一題

總和 751899 3025

組間 18413 6 3069 12727 0000

組內 727966 3019 0241 第二題

總和 746379 3025

組間 36829 6 6138 7166 0000

組內 2585878 3019 0857 第三題

總和 2622707 3025

組間 22038 6 3673 16419 0000

組內 675332 3019 0224 第四題

總和 697369 3025

組間 24878 6 4146 18142 0000

組內 689975 3019 0229 第五題

總和 714853 3025

組間 14939 6 2490 14850 0000

組內 506156 3019 0168 第六題

總和 521095 3025

75

表4-3-11顯示在α=005之下數字卡題6小題均達顯著水準可見這6小題

的平均得分有顯著不同所以研究者進一步做事後分析如表4-3-12所示配合

研究者的研究目的本文中只摘錄與研究目的相關的資料其他比較結果請參

閱附錄表格

表4-3-12 數字卡題之事後比較

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0190 0049 0021

香港 0059 0051 0969

日本 0037 0051 0998

台灣 -0015 0051 1000

比利時 0209 0051 0010

第一題

美國 0267 0048 0000

施測 新加坡 0192 0049 0020

香港 0221 0051 0005

日本 0140 0052 0296

台灣 0101 0051 0692

比利時 0203 0051 0016

第二題

美國 0301 0048 0000

施測 新加坡 0335 0093 0045

香港 0451 0097 0001

日本 0404 0098 0009

台灣 0302 0097 0136

比利時 0500 0097 0000

第三題

美國 0490 0091 0000

施測 新加坡 -0013 0048 1000

香港 -0010 0050 1000

日本 -0054 0050 0978

台灣 0053 0049 0979

比利時 0144 0049 0201

第四題

美國 0166 0046 0045

76

表 4-3-12(續) 數字卡題之事後比較

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 -0010 0048 1000

香港 -0006 0050 1000

日本 -0054 0050 0979

台灣 0054 0050 0978

比利時 0138 0050 0267

第五題

美國 0186 0047 0014

施測 新加坡 -0047 0041 0971

香港 -0026 428E-02 0999

日本 -0145 0043 0079

台灣 -0008 0043 1000

比利時 0031 0043 0997

第六題

美國 0082 0040 0654

由表4-3-12所顯示的結果得知在數字卡題這六小題中施測學校與台

灣在2003年所作的調查結果資料並沒有達到顯著差異可見施測學校的數字卡題

各小題的平均得分與2003年的台灣資料的數字卡題各小題的平均得分是視為相

等的施測學校在數字卡題第六題的部分與國際上2003年表現較好的國家的施測

資料也都沒有達到顯著差異可見在這一小題上施測學校與國際上表現較好的

國家的平均得分也是可以視為相等的但是在數字卡題第一題中施測學校與新

加坡比利時美國有達到顯著差異顯示在這一小題中施測學校的成績是優

於這三個國家的在數字卡題第二題中施測學校與新加坡香港比利時美

國有達到顯著差異顯示在這一小題中施測學校的成績是優於這四個國家的

在數字卡題第三題中施測學校與新加坡香港日本比利時美國有達到顯

著差異顯示在這一小題中施測學校的成績是優於這五個國家的在數字卡題

第四題中施測學校與美國有達到顯著差異顯示在這一小題中施測學校的成

績是優於美國的在數字卡題第五題中施測學校與美國有達到顯著差異顯示

77

在這一小題中施測學校的成績是優於美國的

接下來以整個數字卡題的題組來看由表 4-3-13 所示變異數分析的結果

表4-3-13 數字卡題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 660902 6 110150 23261 0000

組內 14295950 3019 4735

總和 14956850 3025

在α=005的情況下F檢定值為23261plt005達到顯著差異所

以可見這七個國家總分的平均得分有顯著差異所以進行事後比較如表4-3-14

所示

表 4-3-14 數字卡題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0645 0219 0192

香港 0688 0228 0167

日本 0327 0229 0916

台灣 0486 0227 0598

比利時 1224 0227 0000

美國 1492 0213 0000

由表4-3-14得知整個題組的事後分析顯示在α=005的情況下施測學校

的總分平均得分與台彎沒有達到顯著差異所以平均總得分是可以視為相等的

而施測學校總平均得分與比利時美國有達到顯著差異所以施測學校的總平均

得分是優於比利時與美國

78

三幾何方塊題組

表4-3-15 95年幾何方塊題題組得分情形分配表

得 0分人數 得 1分人數 得 2分人數 遺漏值 總人數

幾何方塊 1 50 950 8 127

幾何方塊 2 109 891 8 127

幾何方塊 3 252 748 8 127

幾何方塊 4 193 807 8 127

幾何方塊 5 244 479 277 8 127

由表 4-3-15 可知在幾何方塊題題組中各小題得分分別以幾何方塊 1得 1

分者佔 95以幾何方塊 2得 1 分者佔 891以幾何方塊 3 得 1 分者佔 748

以幾何方塊 4得 1分者佔 807以幾何方塊 5得 1分者佔 479居多各題各

國答對率的比較結果列於表 4-3-16

表 4-3-16 幾何方塊題題組各國答對率的比較

題目 新加坡 香港 日本 台灣 比利時 美國 施測學校

幾何方塊 1 432 602 785 580 517 399 950

幾何方塊 2 447 470 717 546 548 405 891

幾何方塊 3 720 702 557 613 432 461 748

幾何方塊 4 557 436 447 323 516 446 807

幾何方塊 5 115 66 135 82 123 76 277

79

0

20

40

60

80

100

幾何

方塊1

幾何

方塊2

幾何方塊3

幾何

方塊4

幾何

方塊5

圖4-3-3 幾何方塊題題組答對率之比較圖

由表 4-3-16 與圖 4-3-3 可知在幾何方塊題組中第 1題的答對率以施測

學校最高日本居次美國最低第 2題的答對率以施測學校最高日本居次

美國最低第 3題的答對率以施測學校最高新加坡居次比利時最低第 4題

的答對率以施測學校最高新加坡居次台灣最低第 5題的答對率以施測學校

最高日本居次香港最低接著進行變異數分析結果列於表 4-3-17

80

表 4-3-17 幾何方塊題各題之變異數分析

得分 平方和 自由度 平均平方和 F 檢定 p-value

組間 115732 6 19289 83927 0000

組內 1363788 5934 0230 第一題

總和 1479520 5940

組間 75877 6 12646 53259 0000

組內 1409236 5935 0237 第二題

總和 1485112 5941

組間 77699 6 12950 55905 0000

組內 1374774 5935 0232 第三題

總和 1452473 5941

組間 42205 6 7034 29061 0000

組內 1436564 5935 0242 第四題

總和 1478768 5941

組間 51860 6 8643 20902 0000

組內 2454259 5935 0414 第五題

總和 2506120 5941

表4-3-17顯示幾何方塊題5小題均達顯著水準可見這5題的平均得分

有顯著不同所以研究者進一步做事後分析如表4-3-18所示配合研究者的研

究目的本文中只摘錄與研究目的相關的資料其他比較結果請參閱附錄表格

81

表4-3-18 幾何方塊題各題之事後比較

Scheffe 法

題號 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0520 0046 0000

香港 0350 0047 0000

日本 0160 0047 0060

台灣 0370 0047 0000

比利時 0430 0047 0000

第一題

美國 0550 0046 0000

施測 新加坡 0440 0047 0000

香港 0420 0048 0000

日本 0170 0048 0040

台灣 0340 0048 0000

比利時 0340 0048 0000

第二題

美國 0490 0046 0000

施測 新加坡 0028 0046 0999

香港 0046 0047 0988

日本 0190 0047 0012

台灣 0140 0047 0230

比利時 0320 0047 0000

第三題

美國 0290 0046 0000

施測 新加坡 0250 0047 0000

香港 0370 0049 0000

日本 0360 0049 0000

台灣 0480 0049 0000

比利時 0290 0049 0000

第四題

美國 0360 0047 0000

82

表 4-3-18(續) 幾何方塊題各題之事後比較

題號 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0260 0062 0006

香港 0430 0063 0000

日本 0280 0063 0004

台灣 0480 0063 0000

比利時 0350 0063 0000

第五題

美國 0420 0061 0000

由表4-3-18所顯示的結果得知在幾何方塊題這五小題中只有第三小

題施測學校與台灣在2003年所作的調查結果資料並沒有達到顯著差異其他四小

題的結果都是與台灣達到顯著差異的可見施測學校的平均得分在這四小題中是

優於台灣在2003年所作的調查結果資料在幾何方塊題第一題中施測學校與新

加坡香港比利時美國有達到顯著差異顯示在這一小題中施測學校的成

績是優於這四個國家的在幾何方塊題第二題中施測學校與新加坡香港日

本比利時美國有達到顯著差異顯示在這一小題中施測學校的成績是優於

這五個國家的在幾何方塊題第三題中施測學校與日本比利時美國有達到

顯著差異顯示在這一小題中施測學校的成績是優於這三個國家的在幾何方

塊題第四題中施測學校與新加坡香港日本比利時美國有達到顯著差異

顯示在這一小題中施測學校的成績是優於這五個國家的在幾何方塊題第五題

中施測學校與新加坡香港日本比利時美國有達到顯著差異顯示在這

一小題中施測學校的成績是優於這五個國家的

接下來以整個幾何方塊題的題組來看由表 4-3-19 所示變異數分析的結果

83

表4-3-19 幾何方塊題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 885084 6 147514 50368 0000

組內 17379220 5934 2929

總和 18264300 5940

在α=005的情況下F檢定值為50368plt005達到顯著差異所

以可見這七個國家總分的平均得分有顯著差異所以進行事後比較如表4-3-20

所示

表4-3-20 幾何方塊題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 1499 0165 0000

香港 1615 0169 0000

日本 1166 0169 0000

台灣 1814 0169 0000

比利時 1727 0169 0000

美國 2101 0162 0000

由表4-3-20得知整個題組的事後分析顯示在α=005的情況下施測學

校的總分平均得分與台彎有達到顯著差異所以平均總得分是施測學校優於台灣

在2003年所作的調查結果資料的而施測學校總平均得分與新加坡香港日本

比利時美國有達到顯著差異所以施測學校的總平均得分是優於新加坡香港

日本比利時美國

84

第四節 實作評量試題的類推性

本研究試題的評分者有兩位所以採用的是評分者與工作項目的兩面向交叉

設計(the two-facet crossed persontimesratertimestask design)研究者原先想

利用 SPSS 套裝軟體進行多變量變異數分析將評分的結果做概化程度的分析

計算出各個變異來源之變異成份的大小及其佔總變異的百分比但因檔案太

大SPSS 套裝軟體無法進行多變量變異數分析所以研究者改用 EXCEL 軟體進行

試算其結果列於表 4-4-1

表4-4-1 實作評量概化程度變異成分表

變異來源 估計變異成份 佔總變異之百分比

受試者 0887981185 1944983082

評分者 96E-16 211E-14

工作項目 1697518073 3718146275

受試者評分者 0 0

受試者工作項目 1872595983 410162689

評分者工作項目 0033245844 0728197914

受試者評分者工作項目及誤差 0074154589 1624239615

G 係數 0736144063

註 1在受試者與評分者的交互作用項中其估計變異成份的大小為-106396E-15Shavelson

Webb(1991)指出當某變異成份實際的值接近或等於 0 時取樣的誤差可能導致該變異成份

的估計值成為負數此時可將負值的變異成份大小設定為 0

從以上的表 4-4-1研究者有以下的發現

一實作評量最大的三個變異來源是受試者和工作項目的交互作用工作項

目之間的變異與受試者之間的變異

實作評量最大的變異來源是受試者和工作項目的交互作用佔總變異量的

85

41016表示在研究者的實作評量裡學生的成績會因著工作項目的不同而有

高低起伏如此一來便會降低以某位受試者的觀察分數概化至其真實分數的可

靠程度所以研究者無法以學生在少量的實作評量評量項目上的表現來做為他

們在數學科能力的推論

此外在研究者的實作評量中第二大的變異來源為工作項目之間的變異

其值為 170佔總變異的 37181這只是反應了學生在評量項目上能力表

現的差異並非影響 G係數大小的主要因素關於這一點研究者從計算 G係數

的公式可以了解G係數的計算公式是這樣的

G=σ2p(σ2

p+σ2ptnt+σ2

rpnr+σ2rptenrtimesnt)

G 係數的意義是受試者間的變異量在與受試者有關的變異量之總和中所佔的

比例大小因此若受試者間的變異量愈大而相對於受試者與其他實驗設計面

向的變異量及誤差愈小則 G係數便會愈大也就是根據測驗成績來作推論的可

靠性愈高

二兩位評分者之間的變異極小

評分者之間的變異為傳統的評分者信度從表 4-4-1 可以看到兩位評分結果

之間的變異值為 96E-16僅佔總變異的 211E-14顯示研究者的評分標準非

常一致也就是說研究者兩位當中並沒有誰評分時較為嚴格(stringent)或

較為寬大(liberal)

三受試者與評分者之間沒有交互作用

表 4-4-1 顯示受試者與評分者之間的交互作用為 0表示研究者兩位評分者

並沒有受到月暈效應的影響而對某些學生給予較高的成績對其他學生則給予較

低的成績這一點也可做為評量是否具有公平性的證據之一

四評分者與工作項目間的交互作用非常小

評分者與評量項目間的交互作用很小表示兩位評分者在評定各個評量項目

的評量標準相當一致這原因是由於評分標準訂定的相當明確而且具體讓評分

86

者之間沒有認知的差異存在

從評量工作項目的內容來看本次測驗所測量的雖然同樣是數學能力

測驗但各題所涵蓋的領域包含了統計的資料處理分析能力(擲骰子)幾

何對稱概念(魔術師)概算能力(猜一猜)幾何圖型的直觀概念(圖形

題)數與量中的整數加減乘的運算分析能力(數字卡)結合數與形兩大

主題的幾何形體構成要素及其數量性質(幾何方塊)題目本身的差異性很

大而且每位學生所擅長的方面有所不同在工作項目的表現自然就有所

不同在加上每題的配分並不盡相同所以由這些評量項目概化至其他數

學科能力的程度就降低了這也就是本研究的 G 係數僅達 0313表示如果

使用少量的實作評量工作項目將無法達到所需要的信度

另外主要效果是受試者的變異數值是 0888佔總變異的 19450代

表學生之間的程度差異也很大

根據概化程度研究的結果研究者可以進一步做決策研究(decision

study)決策研究是用來指出若要達到足夠小的誤差變異或足夠大的概化

係數時每一個學生需要多少工作項目以及每一個工作項目需要多少評分

者下面研究者分別分析在幾個評分者的情況下實作評量工作項目為幾

個時G 係數才能達到 08

87

表 4-4-2 G 研究與各種 D 研究之變異成分分析與推論力係數

變異源 G 研究變異成

分之估計值D研究變異成分之估計值

nr= 1 2 3 5 2 2 2

ni= 1 6 6 6 7 8 9

受試者 0888 0888 0888 0888 0888 0888 0888

評分者 0000 0000 0000 0000 0000 0000 0000

工作項目 1698 0283 0283 0283 0243 0212 0189

受試者評分者 0000 0000 0000 0000 0000 0000 0000

受試者工作項目 1873 0312 0312 0312 0268 0234 0208

評分者工作項目 0033 0100 0066 0040 0116 0133 0150

受試者評分者工

作項目及誤差 0074 0006 0004 0002 0005 0005 0004

σRel 1947 0318 0316 0315 0273 0239 0212

G 係數 0313 0736 0737 0738 0765 0788 0807

由表 4-4-2 可知原設計研究 2位研究者與 6道題目的方式推出 G係數只有

0736當評分者增加一位而題目維持六題時G係數只增加 001 達到 0737

如果將評分者增加到五位而題目仍維持六題時G係數只增加 002 達到 0738

可見增加評分者的影響有限如果評分者維持兩位而題目增加為七題G係數會

增加 0029達到 0765如果評分者維持兩位而題目增加為八題G係數會增加

0052達到 0788可見增加題目的效果比增加評分者更為有效當評分者為兩

位題目為九題時G係數可達 0807顯示評分者為兩位題目為九題時內

部一致性較佳

88

第五章 結論

本研究以 TIMSS 數學實作評量的題目為工具進行特定環境背景不同年度的

縱貫研究及與其他國際上表現較佳的國家進行橫貫研究以下為本研究進行所得

的經驗以及資料分析所得之結果分別以結論以及建議等兩節進行說明

第一節 結論

壹實作評量的信效度

TIMSS 試題在台灣之施測是具有一定信效度在信度方面經實際施測後計

算的結果為 0799所以 TIMSS 數學實作評量試題在台灣之施測是具有信度的

但根據實作評量試題的類推性分析結果發現G研究中的 G係數只有 0313深

入探討其原因可能是試題難易程度的差別較大與各題配分比例不同所造成的

所以在 D研究中要補救其信度低的措施就是增加評分者為兩位題目為九題時

其 G係數就可以達到 0807在效度方面每一題均有詳細說明細節行為的項目

給定參考答案圖形的作品量表各題除經著名國際測驗機構審核施測過外並由

研究者另請學校資深四年級教師共同研究討論題目與答案對於施測過程研究

者也與四位監考老師討論後訂出共同標準所以在效度方面具有專家效度跟內

容效度

貳評量結果與比較

一在進行縱貫研究方面在魔術師題型上民國 95 年的結果較佳在擲

骰子題型上是民國 89 年的結果較佳在猜一猜題型上民國 89 年的結

果較佳此結果顯示在幾何概念的對稱觀念上民國 95 年的學生有較

佳的表現但在統計觀念及概數觀念上民國 89 年的學生表現較佳

在實際施測過程中研究者發現在魔術師題型的第一題上許多民國

95 年的學生是先將題目要求的圖形剪出來後再進行對摺當然如果學生

是交出這樣的答案紙條評分者是不給分的因為當評分者在沿著摺線

89

還原時就會發現不是一刀剪出來的可是因為有三個機會所以許多學

生得到這樣的經驗後就會在第二次或第三次時剪出題目要求的結果

而且第一題的成功經驗會連帶的影響第二題的作答因為摺的方式是

一樣的只是剪的地方是不同的所以不管民國 95 年或是民國 89 年的

作答結果都會發現第二題的答對率均比第一題高而第三題的作答方

式因為要多摺一次而且較難複製前面成功的經驗所以第三小題的答

對率比前兩題均比較低所以研究者認為在這一題型上民國 95 年的

學生會表現得比較好的原因可能在於有比較好的作答技巧

二TIMSS 實作評量在性別及班級之間沒有顯著差異

三在圖形題題型上施測學校與台灣西元 2003 年施測結果沒有達到顯著

差異在數字卡題型上施測學校與台灣西元 2003 年施測結果沒有達

到顯著差異在幾何方塊題型上施測學校與台灣西元 2003 年施測結

果達到顯著差異之所以在幾何方塊題型上會達到顯著差異研究者認

為可能是時間點的問題因為研究者施測的時間是利用學期末期末考

後而剛好這次期末考有分數的單元所以學生對這個範圍比較熟悉

才可能造成施測學校的成績特別突出

四在圖形題題型上施測學校優於新加坡比利時及美國在數字卡題型

上我國優於比利時美國在幾何方塊題型上施測學校優於新加坡

香港日本比利時美國研究者特別注意到香港與美國這兩個國家

在 89 年徐美英論文中香港在該年的施測結果都比徐美英施測結果落

後但在 95 年的施測結果卻只有幾何方塊題型是明顯落後施測學校這

表示不是台灣學生在這幾年程度變低了就是這幾年香港程度變高了

在跟縱貫研究做交叉比較後研究者認為台灣學生這幾年程度變低的可

能性較大而美國不管是在 89 年與徐美英論文的施測結果比較或是與

95 年施測結果比較均在這兩次比較中明顯落後

90

第二節 建議

壹TIMSS 實作評量的後續研究

由於數學科實作評量在實際施測時常有人力與物力上的考量以至於在實

際教育現場上並不常用但是實作評量所測出的學生能力與紙筆測驗所測出的

學生能力是不同面向的經過此次實際施測的經驗研究者認為運用 TIMSS 實

作評量的試題來了解學生的學習成就可以在經濟負擔的考慮範圍內達到可

信賴的研究成果因此建議後續研究者可朝向此方向繼續研究以期能更深入

了解學生學習成就的變化情形

貳學生學習成就的長期追蹤

建立台灣的長期教育資料庫是必要的這是從事教育基礎研究的中外學者

的共識研究者此次研究以 TIMSS 實作評量的試題為工具來了解民國 89

年跟民國 95 年特定環境背景的國小四年級學生學習成就的比較即以此理念

為出發點目前在中央研究院教育部和國科會共同推動下『台灣教育長期

追蹤資料庫』的建置工作也已在 2001 年 10 月份起正式展開目的是為了從教

育基礎研究的角度出發研究哪些因素會影響到學生解決問題的能力如學

生努力程度學習機會和學習能力等等當然資料的品質是累積而來的不做

沒有開始就不可能有改進也就不可能有較豐富的資料內容美國國家教育

長期研究(National Education Longitudinal Study NELS)其資料的品質

和豐富素為各國教育研究學者所稱道就是因為它累積了二十多年的經驗

且經過多次的增刪修改研究者也希望能有後續研究者投入後續的相關研究

並累積相關的資料以利決策者能創造出適合台灣學生的最佳學習環境

叁開放性問題的評量研究

在此次研究中發現學生對於開放性問題的解題能力非常不足對於設計

好的題目較難提出歸納模式或者合理的推測這或許歸因於教學現場中的標

91

準化測驗在整個學習過程中教學活動跟教學評量是交互不斷進行而常常

受限於時間跟經濟因素教師只能被迫選擇標準化測驗以診斷學生學習困難

處但是標準化測驗容易讓學生誤以為答案是唯一的而且數學知識是可以切

割成不相關的小部分的因此在國民中小學九年一貫課程綱要中提出「教師

應透過各種評量方式以檢驗教學效果」的觀念研究者建議後續研究者能進一

步探討這方面的相關研究

肆國際比較的重要性

許多國家多年以前即開始參與大型國際研究以了解自己國家學生與其他

不同國家或區域的學生學習成就的差異特別的是此類國際研究對於結果的分

析是深入且多面向的包括學生家庭背景班級學校等民國 95 年中國時

報特別以專欄方式提出芬蘭的教育成功經驗以供國內教育改革的參考為什

麼要特別提出芬蘭呢因為芬蘭在重要的國際比較研究中常常名列前矛所

以參與大型的國際研究可以找出成功的經驗減少自己摸索的時間

92

參考文獻

壹中文部份

王秀琲 (民 92)實作評量在國小數學科之應用-以五年級學童分數為例國立

臺中師範學院教育測驗統計研究所碩士論文

方泰山(民 91)第四次 TIMSS 2003 NRC 自由反應評分系統研討會會議報告

httpichochemntnuedutwpub4thnrcreporthtm

石千奇(民 93)國小六學童在數學實作評量中的小組解題歷程分析國立中山

大學教育研究所碩士論文

江文慈(民 87)一個新評量理念的探討多元智力取向的評量教育資料與研

究20 期6-12

曲慧娟 (民 94)實作評量在國中學術性向優異班招生鑑定之效度研究~以臺灣

北區為例國立臺灣師範大學特殊教育研究所碩士論文

李坤崇(民 88)多元化教學評量台北心理

余民寧(民 93)教育測驗與評量-成就測驗與教學評量第二版台北心理

吳毓瑩(民 85)評量的蛻變與突破-從哲學思潮與效度理論參考起教育資料

與研究13 期2-15

李虎雄張敏雪(民 87)由學力評量觀點談實作評量之特性測驗與輔導

3104-3108

吳明隆(民 87)教室做為評量環境的內涵與其評量新趨勢研習資訊15 卷

4期62-77

93

吳清山林天佑(民 85)教育名詞 mdash分流教育教育資料與研究885

李長柏(民 91)國小數學簡單機率解題實作評量與後設認知之相關研究國立

臺中師範學院教育測驗統計研究所碩士論文

呂政隆(民 93)國小學童在數學實作評量解題整合認知與課程之相關研究

國立臺中師範學院教育測驗統計研究所碩士論文

呂金燮(民 88)實作評量-理論載於王文中呂金燮吳毓瑩張郁雯張淑

慧(合著)教育測驗與評量教室學習觀點(頁 173-207)台北五

李茂能(民 85)信度考驗的另一途徑推論力理論國民教育學報227-48

林清山(民 81)心理與教育統計學台北東華

林敬修(民 92)影響國小數學科實作評量信度相關因素之類推性理論分析國

立屏東師範學院教育心理與輔導學系研究所碩士論文

洪之昀(民 89)數學科實作評量對國小高年級學童學習策略影響之研究國立

臺中師範學院教育測驗統計研究所碩士論文

桂怡芬吳毓瑩(民 87)自然科實作評量的效度探討測驗年刊45(2)19-36

桂怡芬(民 85)自然科實作評量的效度探討國立台北師範學院國民教育研究

所碩士論文

桂怡芬(民 85)紙筆與實作的互補我的實作評量經驗教育資料與研究13

期36-40

徐美英(民 89)TIMSS 數學實作評量在台灣之試用探討國立臺中師範學院教

育測驗統計研究所碩士論文

94

夏淑琴(民 88)教學評量革新-多元評量載於高強華主編(民 88)學校變遷與

學校革新台北師大

教育部(民 92)國民中小學九年一貫課程綱要數學學習領域台北教育部

張紹勳張紹評林秀娟(民 92a)SPSS For Windows 統計分析初等統計與高

等統計(上冊)(第四版)台北文魁資訊股份有限公司

張紹勳張紹評林秀娟(民 92b)SPSS For Windows 統計分析初等統計與高

等統計(下冊)(第四版)台北文魁資訊股份有限公司

張敏雪(民 86)實作評量的本質及國民中小學數理科教師對實作評量的態度探

討國立臺灣師範大學數學研究所碩士論文

張敏雪(民 87)教室內的實作評量教育資料與研究20 期24-27

張敏雪(民 86)實作評量的本質及國民中小學數理科教師對實作評量的態度探

討國立師範大學數學研究所碩士論文

張英傑等著(民 94)數學科教師手冊台南南一書局

張永杰 (民 92)實作評量取向的幾何思考研究國立臺灣大學國際企業學研究

所碩士論文

張麗麗(民 91a)從分數的意義談實作評量效度的建立教育研究月刊9837-51

張麗麗(民 91b)評量改革的應許之地虛幻或真實-談實作評量之作業與表

現規準教育研究月刊9376-86

郭生玉(民 84)心理與教育研究法台北精華

陳英豪吳裕益(民 85)測驗與評量高雄復文

95

陳文典陳義勳李虎雄簡茂發(民 84)由馬里蘭州的學習成就評量與其在

台灣的施測結果看-實作評量的功能與應用科學教育月刊185 期

2-10

陳昭地(民 88)「第三次國際數學與科學教育成就研究」後續調查

httpreporticentnutwnscreportTIMSS-R(1999)實測後

期中報告--交國科會htm

陳怡玉(民 94)降低國小數學科實作評量人和作業交互作用變異方法的探討---

以類推性理論分析國立臺南大學測驗統計研究所碩士論文

莊明貞(民 84)變通性評量的發展與實施研習簡訊261

莊明貞(民 85)實作評量理論與實際教育資料與研究9期44-48

曾惠敏(民 87)國小分數概念實作評量之發展及其相關研究國立台南師範學

院國民教育研究所碩士論文

游麗卿(民 87)從實作表現診斷學生乘除法的錯誤概念觀念測驗與輔導雙月

刊149 期3094-3099

鄒慧英譯(民 92)測驗與評量(原作者 Robert L linn and Norman E

Gronlund)台北洪葉文化

鄒慧英(民 86)實作型評量的品管議題兼談檔案評量的應用載於八十七年度

教育測驗新近發展趨勢學術研討會

詹志禹(民 85)評量改革為什麼要進行-回應吳毓瑩<評量的蛻變與突破>

教育資料與研究13 期45-47

96

詹元智(民 91)國小數學科實作評量之效度探討國立屏東師範學院教育心理

與輔導研究所碩士論文

蔡正濱(民 95)國小數學科實作評量評分者ㄧ致性相關因素探討國立屏東教

育大學教育心理與輔導學系研究所碩士論文

鄭麗玉(民 88)教學評量的改革教師之友40 卷1期23-33

歐滄和(民 91)教育測驗與評量台北心理

盧雪梅(民 87)實作評量的應許難題和挑戰教育資料與研究20 期1-5

簡茂發(民 80)命題方法與試題分析國教輔導31(1)2-13

蘇義翔(民 86)實作評量的理論與啟示測驗與輔導3099-3102

貳英文部分

Airasian PW (1991) Classroom assessment New York McGraw-Hill

Airasian PW (1994) Classroom assessment(2nd ed)NewYork

McGraw-Hill

Baron J B (1991) Strategies for the development of effective

performance exercise Applied Measurement in Education 4(4)

305-318

Baxter G P Shavelson R J Goldman S R amp Pine J

(1992) Evaluation of a procedure-based scoring for hands-on

science assessment Journal of Educational Measurement 29(1)

1-17

97

Baxter G P Shavelson R J Herman S J Brown K A amp Valadez

J R(1993) Mathematics performance as sessment technical

quality and diverse student impact Journal for Research in

Mathematics Education 24(3) 1990-216

Dunbar S B Koretz DM amp Hoover HD(1991) Quality control control

in the development and use performance assessmentApplied

Measurement in Educational 4(4) 289-303

Frechtling J A (1991) Performance assessment Moonstruck or the real

thing Educational Measurement Issues and Practice 10(4)

23-25

Haertel EH and Linn RL (1996) ldquoComparability in GW Philips

(Ed) Technical Issues in Large-Scale Performance Assessment

Washington DC National Center for Education Statistics

Harmon M amp KellyTA(1996) Development and Design of the TIMSS

performance Assessment In MartinMO and Kelly

DL(eds)Third International Mathematics and Science Study

(TIMSS) Technical Report Volume I Design andd Development

Chestnut Hill MABoston College

Herman JL Aschbacher PR amp Winters L(1990 November) Issues in

developing alternative assessments Paper presented at the

annual meeting of the California Educational Research

Association Chicago

98

Mullis IVS Martin MO Gonzalez EJ Chrostowski SJ(2005)

TIMSS 2003 International Mathematics Report

httptimssbcedutimss2003imathDhtml p31-p47

Linn RL(1993) Educational assessment Expanded expectations and

challenges Educational Evaluation and Policy Analysis 15(1)

1-16

Linn RL Bader EL amp Dunbar SB(1991) Complex Performemce-based

assessmentexpectations and validation criteria Educational

Researcher 20(8) 1521

Linn RL (2000) Assessments and accountability Educational Researcher

29(2) 4-16

Long C amp Stansbury K (1994) Performance assessment for beginning

teachers Phi Delta Kappan76318-322

Messick S (1994) The interplay of evidence and consequences in the

validation of performance assessments Educational Researcher

23(2) 13-23

Messick S (1995) Standards of validity and the validity of standards

in performance assessment Educational Measurement Issues and

Practice 14(4) 5-8

Martin MOMullis IVSChrostowski SJ(2005)TIMSS 2003 Technical

Report httptimssbcedutimss2003itechnicalDhtml

Martin MO(2005) TIMSS 2003 User Guide for the International Database

99

httptimssbcedutimss2003itechnicalDhtml

Miller M D amp Linn R L (2000) Validity of performance-based

assessments Applied Psychological Measurement 24(4) 367-378

Moss P (1994) Can there be validity without reliability Educational

Researcher 23 (2) 5-12

Mullis IVS Martin MO amp Foy P (2005) IEAs TIMSS 2003

International Report on Achievement in the Mathematics Cognitive

Domains httptimssbcedutimss2003imcgdmhtmlp15-p36

Roid G H amp Haladyna T M (1982) A technology for test-item writing

Orlando FL Academic Press

Ruiz-Primo M A Baxter G P amp Shavelson R J(1993) On the stability

of performance assessments Journal of Educational Measurement

30(1) 41-53

Shavelson R J Baxter G P amp Gao X (1993) Sampling variability of

performance assessments Journal of Educational Measurement 30

3215-32

Shavelson R J amp Webb N W (1991) Generalizability theory A primer

Newbury Park CASage

Shepard L A Flexer R J Hiebert E H Marion S F Mayfield

V amp Weston TJ (1996) Effects of introducing classroom

performance assessments on student learning Educational

Measurement Issues and Practice 15(3) 7-18

100

Schmidt W H Jorde D Cogan L Barrier E Gonzalo I Moser U

Shimizu K Sawada T Valverde G Prawat R Mcknight C

Raizen S Britton E Wiley D amp Wolfe R (1996)

Characterizing pedagogical flow An investigation of

mathematics and science teaching in six countries Hinglham

MAKluwer

Silver E A (1993) On mathematical problem posing In N Nohda amp F L

Lin (Eds) Proceedings of the Seventeenth Annual Meeting of the

International Group for the Psychology of Mathematics Education

Vol 1 (pp 66-85) Tsukuba Japan Author

Stiggins R J (1994) Stundent-centered classroom assessment New York

MerrillMacmillan

Stiggins R J (1987) Design and development of performance assessment

Educational Measurement Issues and Practice 6(3)33-42

Telese J A amp Kulm G (1995) Performance-based assessment of at-risk

students in mathematics The effects of context and setting

Paper presented at Annual Meeting of the American Educational

Research Association (ERIC Document Reproduction Service No

ED 382 685)

TIMSS (1997) Performance Assessment in IEAs Third International

Mathematics And Science Study Chestnut Hill MABoston

College

Webb G (1992) On pretexts for higher education development activities

101

Higher Education 24 (3) pp351-61

Wiggins G(1998) Educative assessment Designing assessments to inform

and improve student performance San Francisco California

Jossey-Bass

102

附錄

附錄一TIMSS 2003 參與的國家

Argentina

Armenia

Australia

Bahrain

Belgium (Flemish)

Botswana

Bulgaria

Chile

Chinese Taipei

Cyprus

Egypt

England

Estonia

Ghana

Hong Kong SAR

Hungary

Indonesia

Iran Islamic Republic of Israel

Italy

Japan

Jordan

Korea Republic of Latvia

Lebanon

Lithuania

Macedonia Republic of Malaysia

Moldova

Morocco

Netherlands

New Zealand

Norway

Palestinian National Authority

Philippines

Romania

Russian Federation

Saudi Arabia

Scotland

Serbia

Singapore

Slovak Republic

Slovenia

South Africa

Sweden

Syrian Arab Republic

Tunisia

United States

Yemen Republic of

103

附錄二題目

一猜一猜

媽媽有一個裝滿豆子的密封罐有一天媽媽將豆子分別倒在 9個碗中前 4個

碗中豆子的數量分別是 29313128 個

1 請你猜一猜罐子中大約有幾個豆子

2把你的想法寫出來

二魔術師

一 材料9張紙剪刀一個信封

二你的工作

1 將紙對摺一次或一次以上並剪掉部分的紙使紙的形狀符合題目所給的

形狀

2 每張紙摺疊的次數和形狀隨你喜歡但只能剪一次

【第一題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後

做出如圖一的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

【第二題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後做出如

圖二的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

(在每張你使用過的紙寫上 1和名字)

104

(圖二)

【第三題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後做出如圖三

的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

(圖三)

三擲骰子

一材料一個骰子搖杯

二你的工作

當我們用一個規則來改變骰子擲出來的數字你發現了什麼

改變數字的規則是

當骰子擲出的數字是奇數時減 1並記下結果

當骰子擲出的數字是偶數時加 2並記下結果

1 在下列表中已經示範了兩個例子給你看使用這個規則並找其他

改變後的數字完成這個表格

(在每張你使用過的紙寫上 2和名字)

(在每張你使用過的紙寫上 3和名字)

105

骰子的數字 改變後的數字

2

6

2 看看你所紀錄的「改變後的數字」你發現了什麼

3 擲骰子 30 次並使用規則去改變每次所擲的數字將它紀錄下來

寫在下列的表格中

106

骰子的數字 改變後的數字 骰子的數字 改變後的數字

4將表 3中各個改變後數字出現的次數記在下表中

改變後的數字 次數

0

1

2

3

4

5

6

7

8

5a哪一個數字是你紀錄次數最多的

107

5b為什麼會這樣請寫出你的看法

四幾何方塊

在這一大題你會拿到一張紙板紙板上有10 張小卡片(如下圖)請將這些

正方形卡片分開若你沒有拿到紙卡請舉手

甲利用2 張黑白相間方塊拼出一個較大的黑色三角形並將您的拼法塗在下面

指定的區域

在這裡用斜線塗出

您拼出的黑色三角形

3 個白色方塊

4 張黑白相間方塊

3 個黑色方塊

108

乙利用4 張黑白相間方塊拼出一個黑色的正方形並將您的拼法塗在下面指定

的區域

在這裡用斜線塗出

您拼出的黑色正方形

丙在第乙題中塗黑色的部分佔了全部的幾分之幾

作出分數

甲不准使用黑白相間方塊將4 張方塊拼出一個正方形使得黑色的部分佔

21

並將您的拼法塗在下面指定的區域

在這裡用斜線塗出

您拼出的黑色部分

109

乙請用8 張方塊拼出一個如下圖的長方形使得黑色部分佔

85

並將您的拼法塗在下面指定的區域

在這裡用斜線塗出

您拼出的黑色部分

五圖形題

甲請畫一條直線將這個長方形分成2 個三角形

110

乙請畫一條直線將這個長方形分成2 個長方形

丙請畫兩條直線將這個長方形分成1 個長方形和2 個三角形

丁在下圖的四個三角形中有兩個是形狀相同但大小不同請把這兩個三角形

塗上顏色(線甲乙跟線丙丁平行)

六數字卡

在這部分你將會拿到一張印有 0到 9的數字卡如下圖請將這些數字卡

取下來

甲 乙

1 2

3

4

111

總和為ldquo20的數字遊戲

小杰與小明這兩個小孩正在玩一個ldquo總和為 20的遊戲其規則如下

總和為ldquo20的規則

(1)抽數字卡每一個人抽出三張數字卡

(2)加數字卡每一個人利用這三張數字卡做出一個加法問題使得算出

的總和最接近 20 例如假如抽出的數字卡 將數字任意組

合後下面是其中四種可能的方法

+ + + +

5 5 4 6 1 9 +

1 0

15

這時玩家應該選擇 + 4 因為它的總和 19最接近 20

19

小杰和小明開始玩遊戲了小杰抽出了 三張數字卡小明抽

出了 三張數字卡

(1)小杰要如何安排三張數字卡做出一個加法問題才能讓它的總和為最

接近 20記得要寫總和

0 1 2 3 4

5 6 7 8 9

1 4 5

1

4

5 1

4

5

1

4 51

4

5

972

6 3 1

112

(2)小明要如何安排三張數字卡做出一個加法問題才能讓它的總和最接

近 20記得要寫總和

(3)小明說假如我抽到 我可以用兩種方法做出總和 20

請告訴我們小明用哪兩種方法可以使 做出總和 20

第一種方法

第二種方法

找出最大的數

小杰和小明利用數字卡玩另一個新的遊戲就是利用三張數字卡做出最

大的數

甲將 三張數字卡填入下列的格子內讓相加的結果為最大

乙將 三張數字填入下列的格子內讓相減的結果為最大

丙將 三張數字卡填入下列的格子內讓相乘的結果為最大

times

1 4 6

1 4 6

9 5 1

+

-

2 3 7

1 4 5

113

附錄三給老師的話

題目猜一猜

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說

明如下

題目預測的能力

測量學生在生活情境中了解概數意義的能力

實施時間

20 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意讓同學清楚的知道這份試卷要他們

做的是什麼

評量結束後收回試紙

注意要點

請老師先做一次示範給學生看完之後再讓學生作答

請老師提醒學生計算完後要記得將他們為什麼要這樣做的原因寫清楚

評分標準

等級 5 算出前 4碗豆子的總和再乘以 2再加上一個合理的近似值或使用估

計或平均值找出每一碗豆子的近似值再乘以 9

等級 4 合理的估計其他各碗的豆子數量並算出總和

等級 3 推測出大部分合理少部分不合理的估計值並算出總和

等級 2 推論出一個杯子約有 30 個但未算出總和

等級 1 將已知碗的數量變成一組模式將此模式推論至其他碗不一定剛好總

114

和為 10 個碗

等級 0 未作答或不知所云

題目幾何方塊

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說

明如下

題目預測的能力

這是一種包含幾何跟數與量的題目其中幾何的部份是要求學生建立一個二

維圖形並滿足題目的要求(數與量)

實施時間

30 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意讓同學清楚的知道這份試卷要他們

做的是什麼

評量結束後收回試紙

注意要點

請老師提醒學生答案是用鉛筆塗在指定的區域並且不可以超過格線並不是將

紙卡貼在題目上要注意

請老師提醒學生撕紙卡要小心務必要使用剪刀或直尺沿著線撕

評分標準

115

給分範圍1分

給分範圍0分

(1)雖然使用 2塊黑白相間方塊組合但卻變成 2個小三角形而不是組合成 1

個大三角形

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

給分範圍1分

給分範圍0分

(1)雖然使用 4塊黑白相間方塊組合但卻不是組合成 1個大的黑色正方形

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

116

給分範圍1分

(1) 21

或是它的等值分數

(2)乙题雖然畫錯但此題答案正確

給分範圍0分

(1) 41

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

做出分數

給分範圍1分

由 2塊白色跟 2塊黑色組合成請看下面的例子

給分範圍0分

(1)雖然得出 21但是使用黑白相間的方塊

(2)畫出黑色的部份佔 41

117

(3)畫出黑色的部份佔 43

(4)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(5)完全空白

給分範圍2分

任何使用 3塊黑色的方塊1塊白色的方塊和 4塊黑白相間的方塊的組合圖形

給分範圍1分

塗出 85的答案但不是使用正確的方塊組合

給分範圍0分

(1)塗出 21

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

題目魔術師

118

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生對稱的觀念空間關係及解決非例行問題的能力

施測時間

30 分鐘

實施步驟

1 發試紙和所需材料

2 題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的

知道這份試卷要他們做的是什麼

3 評量結束試紙及材料

注意要點

1請老師提醒學生每張紙只能直直的剪一次不可改變方向且要記得在紙上寫

編號和名字

評分標準

第一題1在紙上只剪一次

2有兩條正確的摺線

給分範圍2

第二題1在紙上只剪一次

2 有兩條正確的摺線

給分範圍2

第三題同上兩題

119

題目圖形題

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生二維空間的分割的觀念了解學生能否透過操作直尺或三角板在二維

空間上剪裁出指定的基本圖型並利用直觀的方式指出形狀相同但大小不同的三

角形

施測時間

30 分鐘

實施步驟

1 發試紙

2 題目解說實施評量前請老師加以說明題意讓學生清楚的知道這份試卷要他

們做的是什麼

3 評量結束收回試紙

評分標準

甲給分範圍1分

正確的畫一條對角線將長方形分成 2個三角形

給分範圍0分

(1)有畫出一條橫線或垂直線但不是畫出精確的對角線

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的

回答)

(3)完全空白

乙給分範圍1分

120

正確的畫一條橫線或垂直線將長方形分成 2個長方形

給分範圍0分

(1)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回

答)

(2)完全空白

丙給分範圍1分

正確的畫兩條線將長方形分成 1個較小的長方形跟兩個三角形

給分範圍0分

(1)有畫出兩條線但沒有將長方形分割成兩個較小的長方形或有分割成

兩個較小的長方形卻沒有在其中之ㄧ上畫出精確的對角線

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(3)完全空白

丁給分範圍1分

在三角形 3跟三角形 4上塗上顏色

給分範圍0分

(1)在三角形 1跟三角形 2上塗上顏色

(2)在三角形 2跟三角形 4上塗上顏色在三角形 1跟三角形 3上塗上顏色

在三角形 1跟三角形 4上塗上顏色在三角形 2跟三角形 3上塗上顏色

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

121

題目數字卡

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生計算的規則與策略及對數字的觀念並能運用所學過的概念於計算策

略上

施測時間

30 分鐘

實施步驟

1 發試紙和所需材料

2 題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的

知道這份試卷要他們做的是什麼

3 評量結束試紙及材料

評分標準

總和為 20 的數字遊戲

甲給分範圍1分

(1)寫出 2+7+9=18

(2)沒有任何算式但有答案是 18 者

給分範圍0分

(1)有寫出算式 2+7+9 但沒有答案 18 出現

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的

回答)

(3)完全空白

122

乙給分範圍1分

(1)13+6=19 或 16+3=19

(2)沒有任何算式但有答案是 19 者

給分範圍0分

(1)有寫出算式 13+6 或 16+3 但沒有答案 19 出現

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回

答)

(3)完全空白

丙給分範圍2分

兩種方法都正確(16+4 和 14+6)

給分範圍1分

只有寫出其中一種方法(16+4 或 14+6)

給分範圍0分

(1)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(2)完全空白

找出最大的數

甲給分範圍1分

91+5 或 95+1

給分範圍0分

(1)將 159擺在任何其他不正確的位置

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(3)完全空白

123

乙給分範圍1分

73-2

給分範圍0分

(1)72-3

(2)將 237擺在任何其他不正確的位置

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

丙給分範圍1分

41times5

給分範圍0分

(1)51times4

(2)將 145擺在任何其他不正確的位置

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

題目擲骰子

親愛的老師

您好感謝您參與此次數學科學實作評量的研究關於此次施測的注意事項說明

如下

題目欲測的能力

測量學生對於任意數字計算紀錄和分析的能力以及辨識並解釋記錄資料

的結果

施測時間

124

30 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的知

道這份試卷要他們做的是什麼

評量結束後收回試紙及材料

評分標準

第一題正確的計算出(042648)

給分範圍2

第二題1描述的類型與資料一致

2形式可以是一個或多個以下的情形所有的數字都是偶數數字

的範圍從 0~84 出現 2次數字排列有規則如+4-2+4-2

給分範圍1

第三題1至少完成 25 次擲骰子的紀錄

2正確的計算

給分範圍2

第四題統計的次數與第三題的資料一致

給分範圍2

第 5a 題答案與資料一致

給分範圍1

第 5b 題對觀察的數字提供合理的解釋

給分範圍1

125

附錄四分析資料補充

附錄四表格中以數字 1代表新加坡數字 2代表香港數字 3代表日本數字

4代表台灣 2003 年原始資料數字 5代表比利時數字 6代表美國數字 7代表

施測學校

一圖形題補充

表附錄 4-1-1 圖形題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 187 0 32 0 64 0 50 新加

坡甲 1 916

香港

甲 1 725

日本

甲 1 703

台灣

甲 1 726

得分 次數 得分 次數 得分 次數 得分 次數

0 69 0 9 0 75 0 39 新加

坡乙 1 1034

香港

乙 1 748

日本

乙 1 692

台灣

乙 1 737

得分 次數 得分 次數 得分 次數 得分 次數

0 329 0 107 0 196 0 119新加

坡丙 1 774

香港

丙 1 650

日本

丙 1 571

台灣

丙 1 657

得分 次數 得分 次數 得分 次數 得分 次數

0 424 0 386 0 281 0 267新加

坡丁 1 679

香港

丁 1 371

日本

丁 1 486

台灣

丁 1 509

得分 次數 得分 次數 得分 次數

0 130 0 447 0 8 比利

時甲 1 649

美國

甲 1 1189

施測

甲 1 113

得分 次數 得分 次數 得分 次數

0 69 0 201 0 5 比利

時乙 1 710

美國

乙 1 1435

施測

乙 1 116

得分 次數 得分 次數 得分 次數

0 386 0 1100 0 21 比利

時丙 1 393

美國

丙 1 536

施測

丙 1 100

得分 次數 得分 次數 得分 次數

0 386 0 732 0 27 比利

時丁 1 393

美國

丁 1 904

施測

丁 1 94

126

表附錄 4-1-1(續) 圖形題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 44 0 6 0 31 0 17

1 75 1 17 1 44 1 20

2 137 2 64 2 64 2 45

3 334 3 331 3 232 3 257

新加

坡總

4 513

香港

總分

4 339

日本

總分

4 396

台灣

總分

4 437

得分 次數 得分 次數 得分 次數

0 36 0 114 0 0

1 72 1 243 1 5

2 176 2 389 2 5

3 259 3 517 3 36

比利

總分

4 236

美國

總分

4 373

施測

總分

4 75

表附錄 4-1-2 圖形題各國事後分析表

圖形題甲 圖形題乙

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0130 0000 1 2 -0051 0013

3 -0086 0000 3 0035 0247

4 -0110 0000 4 -0012 0987

5 -0003 1000 5 0026 0631

6 0100 0000 6 0060 0000

2 3 0041 0514 2 3 0086 0000

2 4 0022 0958 4 0038 0244

5 0120 0000 5 0077 0000

6 0230 0000 6 0110 0000

3 4 -0019 0980 3 4 -0048 0057

5 0083 0001 5 -0009 0998

6 0190 0000 6 0025 0594

4 5 0100 0000 4 5 0038 0237

6 0210 0000 6 0073 0000

5 6 0110 0000 5 6 0034 0190

127

表附錄 4-1-2(續) 圖形題各國事後分析表

圖形題丙 圖形題丁

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0160 0000 1 2 0130 0000

3 -0043 0637 3 -0018 0996

4 -0140 0000 4 -0040 0798

5 0200 0000 5 0110 0001

6 0370 0000 6 0063 0092

2 3 0110 0000 2 3 -0140 0000

2 4 0012 1000 4 -0170 0000

5 0350 0000 5 -0014 0999

6 0530 0000 6 -0063 0209

3 4 -0100 0002 3 4 -0022 0992

5 0240 0000 5 0130 0000

6 0420 0000 6 0081 0027

4 5 0340 0000 4 5 0150 0000

6 0520 0000 6 0100 0001

5 6 0180 0000 5 6 -0048 0533

圖形題總分

(I) (J) 平均差異 (I-J) p-value

1 2 -0210 0008

3 -0110 0540

4 -0300 0000

5 0330 0000

6 0600 0000

2 3 0098 0778

4 -0093 0812

5 0540 0000

6 0810 0000

3 4 -0190 0051

5 0440 0000

6 0710 0000

4 5 0630 0000

6 0900 0000

5 6 0270 0000

128

二數字卡題型

表附錄 4-2-1 數字卡題各國得分統計表

分數 次數 分數 次數 分數 次數 分數 次數

0 284 0 144 0 128 0 118新加

坡 1 1 277

香港

1 1 239

日本

1 1 234

台灣

1 1 273

分數 次數 分數 次數 分數 次數 分數 次數

0 243 0 177 0 138 0 134新加

坡 2 1 318

香港

2 1 206

日本

2 1 224

台灣

2 1 257

分數 次數 分數 次數 分數 次數 分數 次數

0 171 0 142 0 117 0 111

1 28 1 13 1 30 1 23

新加

坡 3

2 362

香港

3

2 228

日本

3

2 215

台灣

3

2 257

分數 次數 分數 次數 分數 次數 分數 次數

0 161 0 111 0 89 0 138新加

坡 4 1 400

香港

4 1 272

日本

4 1 273

台灣

4 1 253

分數 次數 分數 次數 分數 次數 分數 次數

0 172 0 119 0 95 0 145新加

坡 5 1 389

香港

5 1 264

日本

5 1 267

台灣

5 1 246

分數 次數 分數 次數 分數 次數 分數 次數

0 413 0 290 0 231 0 303新加

坡 6 1 148

香港

6 1 93

日本

6 1 131

台灣

6 1 88

分數 次數 分數 次數 分數 次數

0 207 0 476 0 38 比利

時 1 1 187

美國

1 1 339

施測

1 1 82

分數 次數 分數 次數 分數 次數

0 175 0 442 0 29 比利

時 2 1 219

美國

2 1 373

施測

2 1 91

分數 次數 分數 次數 分數 次數

0 149 0 308 0 14

1 27 1 48 1 11

比利

時 3

2 218

美國

3

2 459

施測

3

2 95

129

表附錄 4-2-1(續) 數字卡題各國得分統計表

分數 次數 分數 次數 分數 次數

0 175 0 380 0 36 比利

時 4 1 219

美國

4 1 435

施測

4 1 84

分數 次數 分數 次數 分數 次數

0 179 0 410 0 38 比利

時 5 1 215

美國

5 1 405

施測

5 1 82

分數 次數 分數 次數 分數 次數

0 321 0 705 0 94 比利

時 6 1 73

美國

6 1 110

施測

6 1 26

分數 次數 分數 次數 分數 次數 分數 次數

0 64 0 38 0 21 0 37

1 39 1 25 1 23 1 33

2 62 2 36 2 35 2 21

3 40 3 50 3 44 3 44

4 60 4 49 4 34 4 41

5 87 5 51 5 59 5 60

6 137 6 93 6 89 6 102

新加

坡總

7 72

香港

總分

7 41

日本

總分

7 57

台灣

總分

7 53

分數 次數 分數 次數 分數 次數

0 31 0 135 0 5

1 48 1 94 1 5

2 49 2 98 2 9

3 67 3 101 3 9

4 61 4 114 4 16

5 63 5 101 5 20

6 55 6 130 6 40

比利

時總

7 20

美國

總分

7 42

施測

總分

7 16

130

表附錄 4-2-2 數字卡題各國事後分析表

第一題 第二題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0130 0013 1 2 0029 0992

3 -0153 0001 3 -0052 0873

4 -0204 0000 4 -0090 0252

5 0019 0999 5 0011 1000

6 0078 0206 6 0109 0012

2 3 -0022 0999 2 3 -0081 0537

4 -0074 0612 4 -0119 0076

5 0149 0006 5 -0018 1000

6 0208 0000 6 0080 0326

3 4 -0052 0908 3 4 -0039 0979

5 0172 0001 5 0063 0796

6 0231 0000 6 0161 0000

4 5 0224 0000 4 5 0102 0212

6 0282 0000 6 0200 0000

5 6 0059 0697 5 6 0098 0101

第三題 第四題

1 2 0116 0734 1 2 0003 1000

3 0070 0974 3 -0041 0948

4 -0033 1000 4 0066 0612

5 0165 0287 5 0157 0000

6 0155 0156 6 0179 0000

2 3 -0046 0998 2 3 -0044 0952

4 -0149 0543 4 0063 0751

5 0049 0997 5 0154 0002

6 0039 0998 6 0176 0000

3 4 -0103 0889 3 4 0107 0141

5 0096 0918 5 0198 0000

6 0085 0907 6 0220 0000

4 5 0198 0174 4 5 0091 0294

6 0188 0091 6 0113 0019

5 6 -0010 1000 5 6 0022 0997

131

表附錄 4-2-2(續) 數字卡題各國事後分析表

第五題 第六題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0004 1000 1 2 0021 0996

3 -0044 0931 3 -0098 0050

4 0064 0655 4 0039 0914

5 0148 0001 5 0079 0203

6 0197 0000 6 0129 0000

2 3 -0048 0929 2 3 -0119 0015

4 0060 0801 4 0018 0999

5 0144 0008 5 0058 0699

6 0192 0000 6 0108 0006

3 4 0108 0140 3 4 0137 0002

5 0192 0000 5 0177 0000

6 0241 0000 6 0227 0000

4 5 0083 0425 4 5 0040 0933

6 0132 0003 6 0090 0047

5 6 0049 0838 5 6 0050 0675

數字卡總分

1 2 0043 1000

3 -0318 0582

4 -0159 0975

5 0579 0012

6 0847 4850

2 3 -0361 0529

4 -0201 0948

5 0536 0067

6 0804 0000

3 4 0159 0985

5 0897 0000

6 1165 0000

4 5 0738 0001

6 1006 0000

5 6 0268 0673

132

三幾何方塊題型

表附錄 4-3-1 幾何方塊題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 633 0 303 0 165 0 322新加

坡甲 1 482

香港

甲 1 458

日本

甲 1 604

台灣

甲 1 445

得分 次數 得分 次數 得分 次數 得分 次數

0 617 0 403 0 218 0 348新加

坡乙 1 499

香港

乙 1 358

日本

乙 1 551

台灣

乙 1 419

得分 次數 得分 次數 得分 次數 得分 次數

0 312 0 227 0 341 0 297新加

坡丙 1 804

香港

丙 1 534

日本

丙 1 428

台灣

丙 1 470

得分 次數 得分 次數 得分 次數 得分 次數

0 494 0 429 0 425 0 519新加

坡丁 1 622

香港

丁 1 332

日本

丁 1 344

台灣

丁 1 248

得分 次數 得分 次數 得分 次數 得分 次數

0 385 0 352 0 291 0 407

1 603 1 359 1 374 1 297

新加

坡戊

2 128

香港

2 50

日本

2 104

台灣

2 63

得分 次數 得分 次數 得分 次數

0 372 0 985 0 6 比利

時甲 1 398

美國

甲 1 655

施測

甲 1 113

得分 次數 得分 次數 得分 次數

0 348 0 976 0 13 比利

時乙 1 422

美國

乙 1 664

施測

乙 1 106

得分 次數 得分 次數 得分 次數

0 437 0 884 0 30 比利

時丙 1 333

美國

丙 1 756

施測

丙 1 89

得分 次數 得分 次數 得分 次數

0 373 0 908 0 23 比利

時丁 1 397

美國

丁 1 732

施測

丁 1 96

133

表附錄 4-3-1(續) 幾何方塊題各國得分統計表

得分 次數 得分 次數 得分 次數

0 335 0 754 0 29

1 340 1 762 1 57

比利

時戊

2 95

美國

2 124

施測

2 33

得分 次數 得分 次數 得分 次數 得分 次數

0 141 0 86 0 52 0 115

1 126 1 83 1 78 1 111

2 167 2 128 2 122 2 121

3 257 3 205 3 157 3 183

4 178 4 143 4 153 4 123

5 153 5 81 5 138 5 73

新加

坡總

6 93

香港

總分

6 35

日本

總分

6 69

台灣

總分

6 41

得分 次數 得分 次數 得分 次數

0 100 0 331 0 1

1 101 1 250 1 1

2 154 2 317 2 5

3 164 3 300 3 22

4 127 4 246 4 26

5 73 5 127 5 38

比利

時總

6 51

美國

總分

6 69

施測

總分

6 26

134

表附錄 4-3-2 幾何方塊題各國事後分析表

第一題 第二題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0170 0000 1 2 -0023 0984

3 -0350 0000 3 -0270 0000

4 -0150 0000 4 -0099 0005

5 -0085 0028 5 -0100 0003

6 0033 0793 6 0042 0545

2 3 -0180 0000 2 3 -0250 0000

4 0022 0993 4 -0076 0160

5 0085 0062 5 -0078 0138

6 0200 0000 6 0066 0152

3 4 0210 0000 3 4 0170 0000

5 0270 0000 5 0170 0000

6 0390 0000 6 0310 0000

4 5 0063 0350 4 5 -0002 1000

6 0180 0000 6 0140 0000

5 6 0120 0000 5 6 0140 0000

第三題 第四題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0019 0995 1 2 0120 0000

3 0160 0000 3 0110 0001

4 0110 0001 4 0230 0000

5 0290 0000 5 0042 0773

6 0260 0000 6 0110 0000

2 3 0150 0000 2 3 -0011 1000

4 0089 0043 4 0110 0003

5 0270 0000 5 -0079 0127

6 0240 0000 6 -0010 1000

3 4 -0056 0514 3 4 0120 0000

5 0120 0000 5 -0068 0285

6 0096 0002 6 0001 1000

4 5 0180 0000 4 5 -0190 0000

6 0150 0000 6 -0120 0000

5 6 -0029 0934 5 6 0069 0110

135

表附錄 4-3-2(續) 幾何方塊題各國事後分析表

第五題 總分

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0170 0000 1 2 0120 0913

3 0013 1000 3 -0330 0008

4 0220 0000 4 0320 0017

5 0081 0294 5 0230 0233

6 0150 0000 6 0600 0000

2 3 -0150 0001 2 3 -0450 0000

4 0052 0872 4 0200 0521

5 -0085 0348 5 0110 0949

6 -0013 1000 6 0490 0000

3 4 0210 0000 3 4 0650 0000

5 0069 0627 5 0560 0000

6 0140 0000 6 0940 0000

4 5 -0140 0008 4 5 -0087 0986

6 -0064 0514 6 0290 0023

5 6 0073 0354 5 6 0370 0000

Page 11: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較

IX

表 4-3-12 數字卡題之事後比較75

表 4-3-13 數字卡題總分變異數分析的結果77

表 4-3-14 數字卡題總分事後分析77

表 4-3-15 95年幾何方塊題題組得分情形分配表78

表 4-3-16 幾何方塊題題組各國答對率的比較78

表 4-3-17 幾何方塊題各題之變異數分析80

表 4-3-18 幾何方塊題各題之事後比較81

表 4-3-19 幾何方塊題總分變異數分析的結果83

表 4-3-20 幾何方塊題總分事後分析83

表 4-4-1 實作評量概化程度變異成分表84

表 4-4-2 G研究與各種D研究之變異成分分析與推論力係數87

表附錄 4-1-1 圖形題各國得分統計表125

表附錄 4-1-2 圖形題各國事後分析表126

表附錄 4-2-1 數字卡題各國得分統計表128

表附錄 4-2-2 數字卡題各國事後分析表130

表附錄 4-3-1 幾何方塊題各國得分統計表132

表附錄 4-3-2 幾何方塊題各國事後分析表134

X

圖目錄

圖 2-2-1 1995年到2003年4年級學生的數學趨勢31

圖 2-2-2 4年級學生在男女性別上的差異33

圖 2-2-3 1995 到2003年的男女生進退步情形34

圖 4-1-1 百分比圖表比較結果51

圖 4-1-2 百分比圖表比較結果54

圖 4-1-3 百分比圖表比較結果59

圖 4-3-1 圖形題題組答對率之比較圖67

圖 4-3-2 數字卡題題組答對率之比較圖73

圖 4-3-3 幾何方塊題題組答對率之比較圖79

1

第一章 緒論

本研究主題是利用 TIMSS 1999 跟 TIMSS 2003 的公開實作評量試題為測驗工

具比較探討台灣學生在這方面的進退步情形本章節將說明本研究的研究動機

與目的問題和研究中所用的特定名詞

第一節 研究動機 從民國八十二年民間團體發起了 410 教改大遊行迄今此波教育改革歷時 12

年最近因為中央研究院李遠哲院長在立法院接受立委質詢時對教育改革因為

沒有減少學生的壓力而公開道歉(中時電子報 2005)又引起了一陣教改失敗

的言論其實改革是多面向的學生的壓力固然是改革的重點但學生的程度更

是我們所關心的畢竟學生的程度關係著下一代的競爭力所以在國民中小學九

年一貫課程綱要(教育部民 92)中特別提到迎接二十一世紀的來臨與世界各

國之教改脈動政府必須致力教育改革期以整體提升國民之素質及國家競爭

力所以改革是為了回應社會期待以及國家發展的需求基於此項認知由中

央研究院國科會和教育部共同規劃的「台灣地區教育長期追蹤資料庫」(Taiwan

Education Panel Survey簡稱 TEPS)預計用六個學年國中樣本從 2001 年 9

月開始高中樣本分成 2001 年下半年和 2003 年上半年進行兩個梯次的資料收

集主要研究團隊包括六位中研院全職研究人員投入大量的時間與精力以及多

位大學相關領域之研究者積極參與可見這項工程的浩大與重要所以本研究主

要為利用一份已發展成且具有信效度及良好試題特性的國小數學實作評量題目

來進行施測其結果除了跟民國 89 年研究者徐美英的結果相互比較學生程度差

別外並為後續研究者提供相互比較的基準

國際教育成就調查委員會 (The International Association for the

Evaluation of Educational Achievement簡稱 IEA) 主辦的「國際數學與科

學教育成就趨勢調查」(Trends in Mathematics and Science Study 2003簡

2

稱 TIMSS 2003)是自 1995 年以來第三次主辦連續週期性調查學生的數學和科學

成就主要目的在提供各國長期追蹤學生數學和科學趨勢成就以提升學生數學

和科學的學習成效由此可見學生程度一向是國際重視的課題世界各國尤其

是美國不斷的監測自己國家學生的程度不僅僅與國際上各國進行比較並將

資料建檔也進行縱貫比較另外除了本研究所提的 TIMSS 是針對數學與科學外

還有PIRLS針對語文科進行比較PIRLS目前有2001跟2006年兩年資料而TIMSS

則已經有 199519992003 三年的施測2007 年的施測目前已經開始進行籌劃

TIMSS 2003 以 13 歲群(即國二生)和 9 歲群(即小四生)為調查對象國科會和

教育部體認到未來我國國民在國際上競爭力的重要性希望持續了解我國學生的

學習成就與家庭背景學習環境教師等影響因素的關係以及我國學生的學習

特色與優缺點並與其他國家進行比較提供改進我國中小學數學及科學教育政

策及課程之參考並積極參與國際間科學教育的交流與合作因此補助國立台灣

師範大學科學教育中心進行 TIMSS 2003 調查研究TIMSS 2003 從 2000 年九月

開始發展研究調查相關工作總計有 49 個國家參加其中 48 個國家參加 13 歲

群調查26 個國家參加 9歲群調查我國自 2001 年元月開始加入 TIMSS 2003 國

際調查工作包括提供命題架構意見數學和科學試題命題試測(field test)

資料收集參加專家問卷會議實測(main survey)資料收集參加公佈 TIMSS

2003 結果記者會國際成果指標會議國際資料分析會議等各項工作國內學者

引用 TIMSS 相關資料進行相關研究的有

(1)徐美英TIMSS 數學實作評量在台灣之試用探討(民國 89 年)

(2)洪瑞鎂從「第三次國際數學與科學教育成就研究後續調查」探究台灣國

二學生的數學基本能力(民國 90 年)

(3)洪佳慧由教科書內容與性別面向分析我國國二學生在第三次國際數學與

科學教育成就研究後續調查(TIMSS-R)的學習表現-生命科學以及環境與資源議

題部分(民國 91 年)

(4) 劉佳容我國國二學生在 TIMSS-1999 中之理化學習成就分析(民國 91 年)

3

(5)侯怡如由考試文化的角度分析我國學生在 TIMSS 1999 的答題表現----生

命科學部分(民國 92 年)

(6) 鄭心怡教育指標與經濟指標對學業成就影響之國際比較以 TIMSS 為例

(民國 93 年)

(7)羅珮華從「第三次國際科學與數學教育成就研究後續調查(TIMSS 1999)」

結果探討國中學生學習成就與學生特質的關係七個國家之比較(民國 93 年)

(8)顏秀玫我國小學四年級學生在「2003 年國際數學與科學教育成就趨勢調

查(民國 93 年)

(9)張謝玲宜蘭區某國中國二學生 科學成效影響因子之探討-引用國際調查

報告 TIMSS-R 之研究方法(民國 93 年)

綜觀上述國內學者研究的內容可以發現均重視該年段橫向的比較而缺乏

進行縱貫的研究值此世界各國進行教育大改革之際台灣也難免追隨這波改革

浪潮在課程內容與制度大變動之際學生是否保持原有的程度或甚至更好是

值得我們更加關注在國民中小學九年一貫課程綱要(教育部民 92)中針對

數學科明確提出下列四個原則一 參考施行有年且有穩定基礎的傳統教材

二 採用國際間數學課程必備的核心題材三 考慮數學作為科學工具性的特

質四 現有學生能夠有效學習數學的一般能力具體而言九年一貫數學學

習領域的教學總體目標為

(1) 培養學生的演算能力抽象能力推論能力及溝通能力

(2) 學習應用問題的解題方法

(3) 奠定下一階段的數學基礎

(4) 培養欣賞數學的態度及能力

其中國民小學階段的目標為

(5) 在第一階段(一至三年級)能掌握數量形的概念

(6) 在第二階段(四至五年級)能熟練非負整數的四則與混合計算培養流暢

的數字感

4

(7) 在小學畢業前能熟練小數與分數的四則計算能利用常用數量關係解

決日常生活的問題能認識簡單幾何形體的幾何性質並理解其面積與體積公

式能報讀簡單統計圖形並理解其概念

由以上的課程目標中可以清楚的看出數學課程的改革內容除了參考以往課

程內容之外也參考國際的課程內容進行改革並因為數學具有工具性的性質

具體的指出各階段需要具備的基本能力研究者希望透過已具有信效度及良好試

題特性的國小數學實作評量題目的施測一方面跟國際資料庫進行學生程度的比

較另一方面也跟徐美英TIMSS 數學實作評量在台灣之試用探討(民國 89 年)

在台灣施測的資料進行縱向比較以了解學生在這幾年的教育改革中在國小四

年級這個範圍內透過實作評量的方式評斷出來的能力是否有所差異

徐美英論文中指出其自編試題(猜一猜)學生能夠完整的敘述解釋百分比

僅達 549所以表示台灣學生在以數學語言的溝通上尚待加強而該試題與

TIMSS 試題有一定程度相關的是擲骰子繞過彎道和魔術師所以本研究研究者

打算選取其中 3 題(猜一猜擲骰子魔術師)找跟原論文相似的環境(住宅

跟工業混合區的學校)進行施測將兩項資料進行比較以探討在這樣的環境背

景中的學生經過這 5年的教育改革後對這個範圍內經由實作評量所測出來的

能力是否有所不同另外再從 TIMSS 2003 已公佈的實作評量題目中找出 3

題(幾何方塊數字卡圖形題)進行施測其結果跟國際資料庫進行比較進

一步探討這樣環境下的學生跟原始台灣施測資料中的學生是否有程度上的差

異跟國際上整體表現較好的國家學生的表現比較是否有程度上的差異

本研究測驗題目將從徐美英論文中選取 3 題從 TIMSS 2003 公佈的實作評

量試題中選取 3題並以 TIMSS 對實作評量採取的維京評分系統(又稱建構反應

評分系統Constructed Response簡稱 CR)為評分工具資料用 SPSS 進行分

析比較並以推論力理論推算本次施測的信度係數研究者希望能從施測中獲得

教育改革的成果從實作評量的角度是否是進步的並期待施測的資料能提供

未來需要再做類似研究者的比較基準

5

第二節 待答問題 壹探討特定環境背景的台灣國小四年級學生在民國 89 年與民國 95 年對

TIMSS 1999 實作評量的成績有何差異

貳探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 實作評量的

成績在性別及班級間是否有差異

叁探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 實作評量的

成績與台灣原始施測資料中的學生實作評量成績是否有程度上的差

肆探討特定環境背景的台灣國小四年級學生對 TIMSS 2003 的實作評量

成績與國際上整體表現較好國家的學生實作評量成績是否有程度上

的差異

第三節 名詞釋義

壹實作評量

在教室情境中學生有幾類學習行為及其成就表現是無法用客觀式紙筆測

驗來正確評量出來的這些學習行為表現包括

(1)溝通技能(如說話口語表達演講朗讀寫作等)

(2)心理動作技能(如實驗室內的儀器操作書法打字繪畫工藝烹

飪樂器演奏戲劇表演等)

(3)運動技能(如跑跳直球游泳舞蹈等運動技能)

(4)概念應用(如應用所學的概念和知識解決日常生活所遇到的實際問題)

(5)情意特質(如團隊合作遵守規定自我反省等)

這些都是強調實際的表現行為(actual performance)都需要教師根據學生的

表現過程之有效性或最後完成作品的成果品質分別或合併地進行評分才能決

定學生在這方面學習的成就高低這種強調實際表現行為的評量方式稱為「實

6

作評量」(performance assessment)(余民寧民 93)所謂實作評量就是在自

然或已建構好的環境中要求學生執行或處理(process)一件指定的工作並

由教師觀察或評鑑學生的建構性反應的過程與結果看他們是否適當精確和完

美的達成教學目標(歐滄和民 91)

貳TIMSS

國際數學與科學學習成就調查研究係由國際教育學習成就調查委員會主

持主要目的在於了解各國數學與科學學習成就與各國文化背景教育環境影響

因子之相關性並進一步做國際間之比較研究分析第一次國際數學與科學教育

成就調查於 1970 年舉行共有 19 個國家參與經十年後1980 年進行第二次國

際數學與科學教育成就調查(SIMSS)有 24 個國家參與我國曾於 1987 年 5 月

經 IEA 總部同意引用第二次國際數學與科學教育成就調查工具在我國進行測

驗(但不是正式參加)由國立台灣師範大學科學教育中心負責執行以了解我國

國小國中及高中學生數學及科學成就在國際上所佔的地位IEA 自 1990 年開始

推動進行「第三次國際數學與科學教育成就研究(Third International

Mathematics and Science Study TIMSS)」本計畫有四十餘國參加第三次國

際數學與科學教育成就研究後續調查(稱為 TIMSS REPEATTIMSS-R)於 1999 年

舉辦調查對象為國二學生(13 歲群)共有 38 個國家參加鑒於世界各國對國

際數學與科學教育成就研究的熱烈反應IEA 計劃往後每四年辦理國際數學與科

學教育成就研究一次並改名為國際數學與科學教育成就趨勢調查(Trends in

International Mathematics and Science Study 簡稱 TIMSS )TIMSS 2003

的調查對象包括國小四年級及國中二年級學生TIMSS 的測驗內容包括數學跟科

學並從學生教師和校長們的回答中廣泛地蒐集有關數學跟科學教學與學習資

料另外還經由課程指引教科書和其他教學媒體的分析探討參與國家的數學

7

和科學課程並將結果發表成一系列的國際報告讓參與國家的教育政策制定者

和實務工作者得到有關在數學與科學教學上跟學生學習成就上的珍貴訊息

第四節 研究限制

本研究對於整個計畫的擬定與進行過程中由於在時間上與人力上尚有所不

足的影響以至於對本研究的進行有所限制茲分別就研究工具與分析研究樣

本與應用範圍兩方面說明之

壹研究工具與分析

在 TIMSS 2003 試題部分由於是翻譯試題照理應該經專家學者進行反譯

程序以確保試題的原意未被扭曲但因資源限制所以只經國小專任資深英文

教師與研究者討論而定案

貳研究樣本與應用範圍

因人力與時間的限制只能選擇一間學校來實驗因樣本受限於某一學校

所以本研究的結果與建議限制受限於相同類型的學校

8

第二章 文獻探討

本研究的文獻探討將分成三節第一節為探討實作評量的意涵和特色以及

國內相關實作評量的研究第二節為 TIMSS 的簡介及國外相關的研究第三節為

TIMSS 試題與國內數學課程的分析

第一節 實作評量

壹實作評量的緣起

長久以來多數人將評量窄化為紙筆測驗的考試用考試的成績來論斷一個

人的高下使得評量的目的偏狹方式單調內容枯躁意義盡失再加上過度

倚賴標準化測驗常導致課程窄化且易流於基本技能與片面瑣碎事實的學習忽

視複雜思考和問題解決能力(江文慈民 87詹志禹民 85)簡言之考試第

一分數至上的迷思等於將評量窄化了也扭曲了評量的目的更簡化了評量

的結果事實上考試只是評量的方法之一評量的目的是要提供學生有益的回

饋評量的改革意味著教學與課程發展的改進因此在教育改革中教師要採

用新的評量方式以符合教學的新趨勢評量的意義在於了解學生學習與教師教

學之用其主要的目的是在教育的過程能隨時掌握學生的學習讓教師明白教

學情況藉以發揮教育的效率與效能實作評量受到歡迎的主要原因之一是一

般人對於選擇式的測驗題感到不滿意例如選擇式的測驗題只能測量學生「知

道」什麼但無法測量學生「能做」什麼此外認為以選擇題為主的標準化測

驗對於教師的教學和學生的學習造成一些偏差的影響標準化測驗經常是一般家

長用來評估學校教學績效的方式在績效的壓力之下造成部分教師教學側重於

測驗的內容而扭曲了教學的面貌和窄化學生的學習結果在教育改革的推動

上教育界期望藉著評量的革新來提升教師教學的品質和學生學習的成就此

外一些入學考試和證照考試也在原有的選擇題之外增加建構反應題或實作測

9

驗部分實作評量在教育界和測驗界已是一個非常顯明的趨勢Silver(1993)

認為假如我們沒有將看過或聽過的數學留住那它將永遠不會變成我們的知識

所以實作評量吸引人的地方正在於它讓教師更能洞悉學生的思考並將所得的訊

息直接應用在教育計畫中

實作評量的提倡者主張實際工作的評量模式比紙筆測驗更能充分深入的了

解學生的知識和理解程度(Haertel amp Linn1996)以下將各學者對實作評量

的定義整理概述如下

一以觀察和專業判斷來評量學生學習成就的評量方式都可以稱為實作評量其

型式非常的多元化例如建構反應題書面報告作文演說操作實驗

資料蒐集作品展示等都是實作評量的例子( Stiggins 1987 )

二案卷評量也是實作評量的一種型式實作評量具有下列幾點特徵

(一)要求學生執行或製作一些需要高層思考或問題解決技能的事或物

(二)評量的作業( tasks )是具有意義性挑戰性且與教學活動相結合

(三)評量的作業能與真實生活產生關聯

(四)歷程( process )和作品( product )通常是評量的重點

(五)表現的規準( criteria )和標準( standards)-也就是評量的重

要層面與給分標準要事先確定實作評量有時也被稱為真實性評量

(authentic assessment )( Herman Aschbacher amp Winters 1990 )

三實作評量可視為『以超越傳統評量方式為了解學生熟練度而蒐集資料的一

種評量方式』(DnubarKoretz amp Hoover1991)

四實作評量不僅反應出學生解答的正確性同時也顯現出其得到答案的過程

(Ruiz-primoBaxter amp Shavelson1993)

五實作評量是應用各種評量方式評量各種能力及技巧要求學生展示知識的

應用而非僅展示知識的本身(Long amp Stansbury1994)

六實作評量乃是模擬一些標準情境(亦即是在自然情境下的實作)之測驗其

10

模擬的程度高於一般紙筆測驗所代表者(陳英豪吳裕益民 85)

七實作評量係指根據學生實際完成一項特定任務或工作表現所作的評量這些

任務或工作可能是實際操作口頭報告科學實驗數學解題寫作hellip等

因此其所使用的方式係透過直接的觀察學生表現或間接的從學生作品去

評量(吳清山林天祐民 85)

八凡是以學生在評量過程中的表現或成果作為評量的依據再根據教師的判

斷用事先指定的標準來評定等級的評量方式都可稱之為實作評量(夏

淑琴民 88)

貳實作評量的特色

綜合國內外學者觀點實作評量具有以下特色

一銜接教學與評量教學與評量的密切配合可以對學生的學習情形提供較全面

性的完整的深入的訊息此訊息可以幫助老師更了解學生的學習優勢及

問題掌握學生真正的能力及進步情形使老師能在教學上做適當的調整來

幫助學生解決問題提升其學習水準而惟有重視過程的評量學生才有機

會去反思自己學習上的問題省察如何在學習上求進步而這些也才是真正

的學習

二使學習更有意義更深入強調教學與評量的內容應為重要的完整的概念

而非瑣碎知識的累積應重視思考與問題解決能力的培養而非低層次的記

憶與歸納它的目的在幫助學生獲得完整有意義的概念增進表達技巧及

運用策略的能力並激發學生從事較複雜的深層思考所以實作評量著重脈

絡下有意義的學習在教學與評量的過程中它鼓勵學生主動探索深入思

考並表達學習此種評量方式有助於提升學生的思考及問題解決能力使

學生的學習更有意義更為深入

11

三強調學生知道什麼能做什麼實作評量的重心不在於偵測學生哪裡做錯了

而在於強調學生知道什麼能做什麼及如何再進一步知道得更多做得更

好簡言之其精神是「你會做很多事你還可以學會更多事」對於學生

嘗試去做好某一件事的努力(縱然尚未達到預期的目標)也給予正面的回

饋以學習理論而言較符合學習理論中的公平性或正當性亦即努力是有

收穫的

四強調與實際生活的結合實作評量可以讓教師瞭解學生對問題瞭解程度投

入程度解決的技能和表達自我的能力能夠較完整的反映出學生的學習結

果因為實作評量與真實生活較為相近其支持者認為實作評量能夠增進學

生學習的動機提高學生參與和投入的程度

五幫助學生建構有意義的學習情境發展問題解決能力批判性思考和表達自

我的能力

六有時候實作評量也可以做為一種教學策略提高學生的學習興趣和學習結

果評量和學生的學習以及老師的教學應該是密不可分並且互相支援的評

量的目的是幫助學生學習跟老師教學所以評量應該是自然的融入出現在

課堂而不是強制性的加進課堂上實作評量與實際教學過程有相當密切的

關係往往可以成為實際教學的一部份實作評量本身就是一種有效的教學

活動

七鼓勵合作學習許多文獻顯示合作學習可以提高學生的學習成就增強學

生的理解能力藉由溝通與辯論的過程學生可以重述自己的概念架構和知

識體系以促成有效的概念改變並達到有意義的學習在一個小組合作評

量的情境下藉由同儕的誘導和鼓勵彼此意見的分享並相互進行共同評

量是提高學生成就表現的重要機制

八直接評量排除語文能力的干擾實作評量比較不需要用到語文能力這對

於閱讀或文字表達能力較差的學生而言是比較公平的

12

叁實作評量的目的

Webb(1992)認為一個好的評量應具備四個目的第一個目的是成為教師蒐

集資料的工具透過評量的回饋教師可以知道學生學會多少和能做什麼第二

個目的是要表達學生在學習過程中所做所學的哪些東西是有價值第三個目的

是提供教育決策者一些教學績效之訊息最後的目的評量應該對整個教育體系

提供積極之建議(張敏雪民 86)雖然評量方式會因不同的評量目的而有所

不同然而現行的紙筆測驗過於強調排等第忽略了評量原先之目的教師只

教要考的學生只讀要考的成了所謂「考試領導教學」然而二十一世紀的

國民不是只會在試卷作答的人而是要有「分析預測及適應能力的人」簡而

言之就是能為生活而思考的人(曾慧敏民 87)實作評量重視教育過程本身

的價值和學生主動建構的能力因此重視學生學習過程和結果讓學生有意義

的學習使學生能靈活應用所學不僅評量認知層次也評量技能及情感層次

較傳統的紙筆測驗更能蒐集到學生較豐富的學習訊息

實作評量的目的如下(桂怡芬民 85曾慧敏民 87 Linn 2000)

一檢視學生學習成果是否能達到教學期望的結果

二從評量的結果能清楚交代學生的學習成就

實作評量能直接觀察學生到達結果的過程不只是評量答案之正確性能完

整的呈現學生在複雜能力及歷程上的表現並能依表現推論其構念表現

三藉由此評量可展現學生的技能和能力

實作評量除了能直接的測出學生問題解決的歷程與結果也能展現出高層次

認知情意與技能及後設認知等能力

四使得教學與評量能充分配合

實作評量注重與教學的互動其主要的目的為幫助學生的學習與改進教師的

教學

13

五為課程改革的重要指標

因實作評量標榜著可提升學童高階思考與問題解決的能力因此在教育改革

時備受重視

肆實作評量步驟

實作評量強調在和生活相關的情境下能讓學童展現所知所學的能力來解

決問題然而若是活動或作業設計不夠完整評分規準不夠明確等都可能導

致實作評量無法達到預期的目的(鄒慧英民 87)因此應如何設計出一份好

的實作評量試卷呢(Stiggins 1994)以下提出幾個注意要點

一確立設計評量的原因與目的

評量之所以實施一定有其原因包括確定評量結果所要作的決定例如

分組個別鑑定等第評定與優缺點的診斷等接著考量評量結果是否用於「排

名」或用於決定學生否達到精熟水準

二設計實作評量的內容

(一)選擇作業的形式

可以蒐集教室中自然而然發生的事件也可以設計結構化作業引發

學生表現的機會測出學生真實能力的實作評量

(二)決定評量的實施情境

因為怕受試者的動機與考試的焦慮可能影響學生的真實能力之表

現施測者可考慮事先告知學生相關評量的性質與評分標準因此在一

般的測驗情境下應先觀察受試者的焦慮情形再決定是否事先告訴受試

者評量事宜或採取不事先告知以測出學童最大的表現能力本研究採取

後者

(三)確定所要編製的實作試題數

14

決定實作題目數量應考慮評量的作業是否具代表性蒐集到的證據數

量是否可以提供較精確的學生能力思考層次

三確定實作評量成績計分標準

(一)決定分數的型式

如果評量的目的是做為分組或選擇的依據則可採整體性評分若是

診斷或檢定學童的基本能力可採取分析性細部評分本研究為診斷學童

分數的學習能力採用開放式的結構題型由學生自行建構答案因此

根據不同的答案給予不同層次的分數

(二)選擇評分者

評分者可為教師專家同學或受試者本身但基本上所有的評分

者得先接受專業的評分者訓練使每個人對評分歸準有所共識本研究請

已有五年以上之教學經驗的教師擔任評分者

(三)紀錄評分結果的方法

可採用檢核表評定量表軼事紀錄表等評定量表同時呈現了觀察

項目及分數評比常用於歷程與結果之評量適用於各學科之實作評量

本研究採用評定量表來紀錄評量結果總之發展實作評量時首先需

澄清「教學目標」與「評量的目的」是必要的其次「評量內容」或「評

量對象」取樣的代表性更是影響評量效度的重大因素最後清楚的「評

分規準」與完整的「評分者訓練」及詳細的「評分程度」則是影響評量的

信度唯有如此才能獲致高品質的實作評量(鄒慧英民 86)

伍實作評量的限制

一實施上非常耗費人力時間跟金錢

真正在實施實作評量時通常會受到器材跟場地的限制或是因為擔心產生相

15

互干擾因素而一次只能有限個學生同時進行施測這點跟團體施測的紙筆測驗

相比是非常耗費人力跟時間另外實作評量常需要有器材設備以及消耗性材料這

點跟團體施測的紙筆測驗相比是非常耗費金錢

二測驗情境控制困難

由於不是同時全體施測所以先後受測的學生容易相互干擾而且未受測

的學生跟已受測的學生的交談或傳授經驗也影響到考試的公平性加上前後施

測使得後面的同學很難有一致的施測條件例如場地未乾淨儀器未復原或被

損壞等

三計分不容易客觀

實施實作評量的目的不外乎想根據評量結果來為學生做決策因此獲

得一個正確而又可靠的評量結果(即高信度跟高效度值)便成為一件很重要的

事然而很不幸的實作評量如論文評分一樣由於是使用觀察跟判斷等兩類比

較主觀的評分方式來進行所以其結果難免具有很高的評分者誤差存在一般而

言評分者誤差有三種來源偏見月暈效應跟評量次數過少

四對容易焦慮的學生不利

實作評量的正式性與控制性會使得缺乏自信心或很在意他人評價的學生

產生過度焦慮進而影響其表現

陸實作評量的信效度

實作評量的信效度仍有待探討實作評量的信度通常是以概化程度

(generalizability)來描述(BaxterShavelsonGoldmanPine1992Dunbar

et al1991LinnBakerDunbar1991Linn1993Moss1994Ruiz-Primo

et al1993ShavelsonBaxterGao1993)概化程度包括評分者之間一致

的程度以及學生在不同工作項目(task)表現的一致程度(Shavelson et

16

al1993)根據 Shavelson 等人的研究結果發現實作評量在評量工作項目方面

的概化性較低顯示學生在不同工作項目上的表現有較大的差異在效度方面

實作評量所顯露出的問題有以下三個

一客觀性及公平性實作評量通常僅以一個評分者評定學生的表現所以

評量的結果可能過於主觀或有潛在的偏見(bias)問題(Airasian1991

Frechtling1991Linn et al1991Linn1993)

二評量內容的涵蓋性由於實作評量實施方式及時間的限制通常所評量

的學生行為表現較傳統測驗為少即評量內容的涵蓋範圍較小不易獲得學生行

為的適當樣本(Airasian1991Linn et al1991Linn1993)

三成本及效率問題這部份即時間與經濟的考量Linn 等人(1991)Linn

(1993)及 Messick(19941995)將這一點併入實作評量的效度標準

Baxter 等人(1992)Ruiz-Primo 等人(1993)及 Shavelson 等人

(199119921993)均從概化理論(generalizability theory)的觀點出發

採用取樣架構(sampling framework)來分析實作評量的信度(概化性)探討

評分者間評量項目間評量時間等的取樣變異以及其他潛在的誤差來源他們

針對神秘的電路盒(electric mysteries)毛細現象(paper towels)及小蟲

的習性(bugs)等評量項目採專家觀察(expert observation)實驗筆記

(notebook)電腦模擬測驗(computer simulation test)及紙筆測驗等方式

記錄學生的表現研究結果發現與評分者有關的取樣變異不大評量時間的取

樣變異極小而評分者與受試者間的交互作用(ratertimesperson interaction)和

評分者與評量項目的交互作用(ratertimestask interaction)這兩個部份的變異也

幾乎為 0故他們認為只要一個經過良好訓練的評分者(one well-trained

rater)即可用以評定學生在實作評量上的表現但他們發現在實作評量中評

量項目與受試者及該兩者與時間的交互作用是兩個最大的變異來源研究結果顯

示學生的表現因為工作項目的不同而有極大的差異而這樣的變異在不同時機上

17

更是明顯因此欲提高實作評量結果的一致性必須增加評量的工作項目使得以

學生在實作評量上的行為表現做其能力的推論時能夠降低與學生實際能力無關

的變異

Baxter 等人(1992)及 Shavelson 等人(19921993)主要是從評量對學生

能力的鑑別程度不同評量方式間的輻合效度不同特質及方法間的區辨效度等

三方面探討實作評量的效度他們的研究結果顯示不同的測量方法所得到的結果

並不一致Shavelson 等人(1993)發現在同一個工作項目之下不同的測量方

法中實驗操作與實驗記錄的相關最高實驗記錄與紙筆填充測驗及電腦模擬測

驗與紙筆填充測驗之間的相關最低這是因為實驗操作與實驗記錄為同一思考流

程所以相關較高此外他們也發現受試者與工作項目及測量方法間的交互作

用及誤差是變異的最大來源表示不同的測量方法可能是在測量科學成就的不同

面向(Shavelson et al1993p227-229)最後在不同工作項目之下採用

相同或不同測量方法所得到的相關的確較低顯示實作評量具有區辨效度

柒實作評量與其他評量的比較

大體上實作評量具有下列各項功能(Airasian 1994)茲列表如下

表 2-1-1 實作評量與紙筆測驗的比較

實作評量 紙筆測驗

學生把知識轉化成可觀察的表現行

為或成品的能力 主要涉及學生的知識及資訊的獲得

設計及施測費時但評量表可針對

同一或新的學生重複施測

設計費時但可同時施測許多學生

同組學生僅能使用一次

學生表現不佳可予診斷及補救

可監控學生進步實況

除論文式及開放式數學題之外甚少

提供方向指示如何改進表現

教學首重表現及過程 教學重內容知識

資料來源Airasian (1994) P236

18

表 2-1-2 各種評量類型的比較

客觀式測驗 論文式測驗 口頭發問 實作評量

目的

以最大的效率

及信度測驗

代表性的知

評估思考的技

巧及知識結構

的瞭解程度

教學時評估

知識

評估知識及瞭

解化為行動的

能力

學生的

反應

閱讀評量

選擇 組織寫作 口頭回答

計劃建構

及表達原始的

反應

主要優

效率在測驗

時間內可測驗

到許多項目

可測量複雜的

認知結果

使評估與教學

結合

提供充分的表

現技巧

對學習

的影響

過度強調回

憶鼓勵背誦

記憶如能適

當出題可促進

思考技巧

鼓勵思考及寫

作技巧的發

刺激學生參與

學習提供教

師立即回饋了

解教學是否有

強調運用知

識技巧於實

際的問題情

資料來源Airasian (1994) P229 et ls

捌實作評量相關研究

國內有許多探討實作評量設計的可行性研究以下將就國內學者所做的研

究整理說明

一陳文典陳義勳李虎雄簡茂發(民 84)美國馬里蘭州學校實作評

量國際共同研究計畫

將 MSPAP(the Maryland School Performance Assessment Program)的

19

試題轉譯成中文在國內進行小規模的施測藉以了解這種測驗的功能

使用上的時機及應用上的困難在其對我國五年級學生施以數學理化

和生物等實作評量題目後發現此種測驗模式能遍及各項科學能力我

國學生在回答問題時顯示其傳達與獨立作業能力均不足其評分客觀

的標準化可經由評分者講習的培訓達到目標實作評量可適用於平時作

業學生的科學能力競賽或教育行政單位的各校科學教育教學成效評鑑

等時機

二徐美英(民 89)TIMSS 數學實作評量在台灣之試用探討

(一)TIMSS 試題在台灣之施測具有信效度

(二)台灣四年級學生在 TIMSS 實作評量的表現顯著優於美國和香港地

區的學生

(三)TIMSS 試題在台灣之施測在男女生之間和班級間在總得分並

沒有顯著差異

(四)自編之試題猜一猜與 TIMSS 試題擲骰子繞過彎道

和魔術師有一定程度的相關

三洪之昀(民89)數學科實作評量對國小高年級學童學習策略影響之研究

(一)學生認為實作評量能增加對數學內容的了解提升學習興趣發

現數學的有趣擴大學習範圍並兼具情意評量的功能但也有學生認

為實作評量在實施上太麻煩且費時

(二)學生批判思考數學溝通數學表達的能力有待加強

(三)學生具有多方面的潛能亟待以實作評量的方式加以開發

四詹元智(民 91)國小數學科實作評量之效度探討

採準實驗研究設計的方式進行以屏東師範學院附屬小學六年級兩個班

的學生為研究對象一班為實驗組接受為期二個半月的數學實作評量

另一班為對照組接受傳統數學紙筆測驗的評量研究者於實驗前與實

20

驗後對兩組學生施以「傳統數學紙筆測驗」「數學實作評量」及「數學

學習解題態度」等三種測驗的前後測並對部份學生進行「數學實作

評量前後測的放聲思考訪談」概化性研究的分析結果顯示在一位評分

者及一題作業項目上之評分者間的變異相當小(319)不過分數的變

異有相當大的比例(約 50)是來自作業項目間及作業項目與受試者交

互作用的變異而在二位評分者及五題作業項目之概化性係數可達 08

以上顯示該研究之數學實作評量的結果能有效地推論至學生在其他評

分者及實作評量作業上數學問題解決的表現

五李長柏(民91)國小數學簡單機率解題實作評量與後設認知之相關研究

(一)數學解題實作評量具有良好的信效度

(二)本研究結果顯示具有良好的評分者信度

(三)數學解題能力和後設認知能力具有相關性

(四)性別在數學解題能力和後設認知能力上沒有差異

六王秀琲(民 92)實作評量在國小數學科之應用-以五年級學童分數為例

(一)實作評量能實際測出學童的分數概念在分割活動上連續量比

離散量好在表徵轉換上具體操作轉換符號模式為佳圖形轉換符號

模式較不理想分割策略會因情境的不同而使用較為簡便的方式來

解題

(二)從實作評量中學童能展現自行所建構的解題策略所獲得的訊

息比紙筆測驗多

(三)以 SS 分析法來分析實作評量之試題所呈現的試題關聯結構圖

中可以了解等分和連續量的分割活動是學童最易理解的概念而離散

量分割等值及單位量則是學童最難理解的概念

七張永杰(民 92)實作評量取向的幾何思考研究

(一)年級之幾何水準層次分佈情形有統計上的顯著差異存在年級

21

越高屬於高層次水準的學生越多

(二)當受試學生通過某一水準層次n的考驗但卻未能通過之前的任

一水準層次的考驗則稱為逆序現象有 697學生之幾何層次分佈呈

現逆序的情形

(三)學生不同 van Hiele 水準層次在後設認知能力上表現出顯著差異

(四)順序組學生能力值越高集聚的情形越明顯結構越完整逆序

組學生的概念結構比較少集聚呈現零散不完整的結構

(五)順序組能力低的學生所形成的關連結構比較零散而且概念間

的關聯程度不高能力越高的學生其關連結構概念問題結構化比較明

顯而且上下位觀念比較顯著逆序組學生的關連結構不但呈現零散不

完整的結構且關連結構圖中上下位觀念的情形比較不規律顯現其

概念結構比較雜亂

八林敬修(民 92)影響國小數學科實作評量信度相關因素之類推性理論

分析

(一)影響數學科實作評量分數一致性的主要變異來源為受試者與作業

項目交互作用(ptimest)變異其次為受試者(p)變異再其次為作業項目(t)

變異

(二)在評分者數學知能背景及評分者訓練對數學科實作評量分數一致

性的影響方面評分者的給分一致性因評分者數學知能背景及評分者訓

練而不同

(三)在題目結構度對數學科實作評量分數一致性的影響方面跨不同

結構度之作業項目對分數一致性的影響遠大過於跨相同結構度之作業項

目對分數一致性的影響此外不同數學知能背景及評分者訓練的評分

者在不同結構度的試題給分一致性上也有差異

(四)整體而言各評分組別的評分者一致性因評分向度之不同而有差

22

異其中以在「溝通表達」此一評分向度上的評分者一致性最低

九呂政隆(民 93)國小學童在數學實作評量解題整合認知與課程之相

關研究

運用實作評量的方式分別在九十學年度九十三學年度對五年級學生

施測以探討學生的數學解題與整合認知能力之相關性進而探討性別

課程在數學解題與整合認知能力上是否有顯著差異研究結果顯示實施

九年一貫課程後之九十三學年度整合認知中能力組在本研究之四份實作

評量之數學解題能力明顯低於九十學年度實施八十二年版國民小學課程

標準之數學解題與整合認知能力組

十石千奇(民 93)國小六學童在數學實作評量中的小組解題歷程分析

解題歷程模式受同儕討論的影響小組解題是四個人四條思考路線互相

牽引的結果解題歷程模式受操作實物的影響操作實物會影響解題階

段進行的走向小組成員並非全程參與解題歷程會因為題目的難易

互動過程階段性質等因素的影響而未能全程參與小組解題的階段變

化各行其道在各個解題階段的參與變化沒有一致性的發展操作實物

對各個解題階段皆有影響各產生不同的作用小組成員喜歡在實作評

量中以小組解題的模式解題覺得這樣的評量方式可以幫助解題

因此建議數學教師多採用以四人為一個小組在形成性評量中以小組

解題的方式進行實作評量

十一曲慧娟(民 94)實作評量在國中學術性向優異班招生鑑定之效度研

究~以臺灣北區為例

(一)錄取組和未錄取學生在入學後成就表現的差異分析顯示英文組

達顯著水準 (t=6159plt05)數理組未達顯著水準

(二)實作評量錄取學生在入學後之特殊表現的訪談結果發現各組學

生在發表能力競賽檢定檔案成果上的參與興趣濃厚也比較有所發

23

(三)受訪教師學生及參加座談會的教師們對實作評量的看法和意

見主要有下列重點

1命題是最大的困難各校命題均請專家學者指導師生都反應覺

得題目的品質不錯題型也很有創意和其它測驗不一樣但自然

科實驗器材的準備耗時費工是很大的負擔因此很多學校選擇用資

料分析的題目類型避免實驗操作器材準備的困擾

2實施程序上時間說明器材提供均適宜但場地的考量較多

如實驗位置的區隔語文施測時需安靜的場所等監考過程也是爭

議較多的如學生覺得監考老師應多幾位老師的尺度不同等

3受訪學生指出實作評量的應答方式和以往參加過的測驗有很大

的不同但都持肯定態度同時覺得語文表達能力會影響到實作評

量的成績

4各校評分都採集中閱卷的方式評分標準爭議性得分大都透過

閱卷老師討論後取得共識再給分

5目前各校在鑑定學生時決策的標準不一因此反應意見差異頗

大但從訪談資料發現受訪學生及教師都較支持運用初試複試

成績加權計算作為選擇學生的標準

6受訪教師表示學生入學後的表現和以往相較起來沒有明顯的

差異但在科展競賽檢定發表上的熱誠度較高

7學生的訪談結果發現大多數學生覺得實作評量可以測出他們在

學術性向上的能力或天份

8實作評量的保密情形比其它測驗要好很多但坊間仍有業者猜

題補習受訪學生及老師也表示有模擬實作或補習經驗者對

實作表現或多或少有影響惟一沒有保密困擾的是國文組

24

十二陳怡玉(民 94)降低國小數學科實作評量人和作業交互作用變異方

法的探討---以類推性理論分析

(一)由於分層變項選取不易導致「作業分層」無法有效降低人和作

業交互作用的變異

(二)「以圖表組織圖為鷹架」可以降低人和作業交互作用的變異

(三)「以圖表組織圖為鷹架」比「作業分層」更能讓人和作業交互作用

的變異降低

(四)進行「作業分層」的比較時實作評量的類推性係數和可靠性指

標以同一階層的作業採 ptimesTtimesR 設計最高但屬分層之 ptimes(TS)timesR 設計

卻低於作業未分層時的分析(即採作業 1234 的 ptimesTtimesR 設計來分

析)

(五)「以圖表組織圖為鷹架」能提高實作評量的類推性係數和可靠性指

十三蔡正濱(民 95)國小數學科實作評量評分者ㄧ致性相關因素探討

(一)影響數學科實作評量分數一致性的主要變異來源為受試者與作業

項目交互作用(ptimest)變異其次為受試者(p)變異再其次為受試者

作業與評分者三者之交互作用及誤差(ptimesttimesre)的部分

(二)在使用不同類型及等級數的計分規準對評分者間一致性的影響方

面在 ptimesttimesr 類推設計下不分計分規準種類與評分者有關的變異量

(含 rptimesr及 ttimesr 三者的總和)均相當小幾乎接近 0而在 ptimesr 設

計的整體類推性相關係數及給分差異比例方面分析式計分規準優於

整體式計分規準在不同等級數方面ptimesttimesr 類推設計中與評分者有

關的變異量及整體類推性七等級計分規準略佳但差異性不大在 ptimesr

設計的整體類推性相關係數及給分差異比例方面七等級計分規準優

於四等級計分規準其中又以使用整體式計分規準及評定高複雜度試題

25

時較為明顯

(三)在不同複雜度作業對評分者間一致性的影響方面低複雜度試題

的一致性高於高複雜度試題顯示評分者面對受試者在高複雜度試題的

作答反應時出現給分較不一致的情形最後受試者是否具備實作評

量計分規準之經驗對評分者間一致性的影響方面在低複雜度試題兩

組受試者之評分者一致性的差異性不大在高複雜度試題 A 組評分者

一致性大致高於僅具實作評量經驗之組別 B組而 AB兩組受試者的評

分者一致性差異程度在分析式計分規準上低於其在整體式計分規準之

差異程度

第二節 第三次國際數學與科學教育成就研究

由國際教育成就調查委員會(The International Association for the

Evaluation of Educational Achievement簡稱 IEA)主辦的「國際數學與科學

教育成就趨勢調查」(Trends in Mathematics and Science Study 2003 簡稱

TIMSS 2003)」是目前有關國際間對學生成就的調查研究中規模最大的一項調查

該測驗採取全世界合作模式主要單位有

一國家研究協調中心(National Research Coordinators)國家研究協

調中心負責選擇學校樣品 收集資料 計分標準和資料輸入 和準備研究結

果的一個國際報告

二TIMSS amp PIRLS 國際研究中心(在波士頓學院)(TIMSS amp PIRLS

International Study Center at Boston College)國際研究中心(ISC) 負責

TIMSS 的整體設計發展和實施這包括建立規程監督工具發展舉辦訓練

ISC 進行分析並且在國際報告和用戶資料庫中發布研究結果

三IEA 秘書處(IEA Secretariat)總部設在荷蘭的阿姆斯特丹IEA 秘

書處負責提供整體支持監督籌款和協助參與國家協調參與 TIMSS 的國家取得

26

測驗工具的翻譯證明

四IEA 資料處理中心(IEA Data Processing Center)IEA 有它自己的

資料處理中心位於德國的漢堡資料處理中心(DPC)負責處理和核對從所有參與

國家得到的資料和建立國際資料庫

五統計(Statistics Canada)在加拿大的渥太華負責 TIMSS 的所有採

樣活動包括開發取樣步驟和文獻和協助參加者能符合 TIMSS 的採樣設計

六教育測試的服務(ETS)(Educational Testing Service (ETS))ETS 為

TIMSS 成就測驗資料提供軟體和心理測量的支持 ETS 總部設在新澤西州的普

林斯頓

TIMSS 2003 是 IEA 自 1995 年以來第三次主辦連續週期性調查學生的數學和

科學成就主要目的在提供各國長期追蹤學生數學和科學趨勢成就以提升學生

數學和科學的學習成效TIMSS 2003 以 13 歲群(即國二生)和 9 歲群(即小四生)

為調查對象從 2000 年九月開始發展研究調查相關工作總計有 49 個國家參

加其中 48 個國家參加 13 歲群調查26 個國家參加 9歲群調查測驗的內容

包括數學和科學並從學生教師和學校的問卷回答中廣泛的搜集有關數學和科

學的教學和學習資訊並經由課程指引教科書和其他教學媒體的分析探討參

與國家的數學和科學課程以提供參與國家的政策制定者和實務工作者有關教學

和學生學習成就方面的珍貴訊息而技術報告和完整的國際資料庫也一併出版公

TIMSS 試題的編製流程是先製訂課程架構在根據課程架構編製成就測驗

而此課程架構是由一群來自 TIMSS 國家研究協調中心(TIMSS National Research

Coordinator)的數學和科學教育專家所發展出來的在 TIMSS 2003 的課程架構

中共分為兩個向度內容領域跟認知領域詳細內容如表 2-2-1 所示

27

表 2-2-1 TIMSS 2003 課程架構

數學 科學

內容領域 內容領域

數 生命科學

代數 化學

測量 物理學

幾何學 地球科學

8

級 資料

8

級環境科學

數目 生命科學

模式等式和關係 自然科學

測量 地球科學

4

級 幾何學數據

4

認知領域 認知領域

知道事實和程式 事實的知識

使用概念 概念的理解

解決日常問題 推理和分析

推理

第4年級代數內容領域被叫為模式等式和關係

其中在實作評量方面設計的原則是依照實用的可負擔的和容易翻譯成

多國語言和文化原則所設計的透過預試時取得評分指南包括正確的答覆跟不

正確答覆的描述及給分標準其評分系統採用維京評分系統以表格說明如下

28

表 2-2-2 維京評分系統

第一個碼

  2 類型的 CR 項目(分數碼)

(1) 2 分(外延反應評分)

2 分完整無誤

1 分部分對

(2) 1 分(問答)

(3) 0 分7-9

2 分

1 分

第二個碼

  診斷訊息碼

0-5表出現之頻次類次配合參數碼標之

如 20-2510-1570-75

9 為其他無特殊類別

  如 291979

78=自個兒ldquo診斷碼(國家碼 可自選)

  99 為空白

  79(Erases)

另外在問卷調查部份分為

一課程

(一)公式化課程

(二)課程的範圍和內容

(三)課程的組織

(四)監測和評估被實施的課程

(五)課程材料和支持

二學校

29

(一)學校組織

(二)學校目標

(三)校長的角色

(四)支持數學與科學的資源

(五)父母親介入

(六)學校環境

三老師和他們的準備

(一)學術準備和證明

(二)老師補充

(三)老師任務

(四)老師歸納

(五)老師經驗

(六)教的樣式

(七)專業發展

四教室活動和特徵

(一)課程題目

(二)時間

(三)家庭作業

(四)評量

(五)教室氣氛

(六)資訊技術

(七)計算器用途

(八)強調的研究重點

(九)班級大小

30

五學生

(一)家庭背景

(二)經驗

(三)態度

當 TIMSS 施測後許多國家對於施測結果所蘊藏的意義做了許多的解釋他

們認為施測結果不止顯示了學術成就還包括了學生所接受的課程和教育

(SchmidtJordeCoganBarrierGonzaloMoserShimizuSawadaValverde

PrawatMcknightRaizenBrittonWileyWolfe1996)國際比較主要的目的

在於評估不同國家的學生程度而另一個同樣重要的目的在於嘗試去了解及解釋

造成差異的原因Jaekyung Lee 在 1999 年時提出當我們進行國際比較時有三

點要注意的事項一應該要同時著重正規教育和學校教育以外的學習經驗

二重視區域性的差異

三注意學校的改革政策因為它會影響教育的實施與成果所以成績好不應沾

沾自喜而表現不好也應深究原因去注意其他表現好的國家真正做了什麼並

加以學習而非歸罪於整個制度

根據 TIMSS 2003 國際數學和科學報告(TIMSS 2003 International Reports

in Mathematics and Science)其中提到幾個圖表是跟本文有關並值得分析注

意的

31

圖2-2-1 1995年到2003年4年級學生的數學趨勢

32

上圖是從該報告第一章表格13擷取出來的該圖表顯示出從1995年到2003

年的4年級學生的數學趨勢其中香港拉脫維亞英國賽普勒斯紐西蘭

斯洛伐尼亞加拿大安大略省等七個國家或地區是呈現進步的情況而荷蘭挪

威加拿大魁北克省是退步的趨勢其他在圖表中的國家是沒有顯著差異的另

外在其文字說明部份也提到以色列和菲律賓從1999到2003也顯示出顯著的改

進像上述這些國家數學成就方面趨勢的變化可能跟社會或教育的改變有關

例如東方的政治變化跟歐洲十幾年前的教育改革已經實際改變這些國家的教育

成就例如立陶宛跟拉脫維亞這兩個國家的成就趨勢反映他們在改革過程中的

努力已經獲得某些驚人的成就

33

圖 2-2-2 4 年級學生在男女性別上的差異

上圖是從該報告第一章表格14擷取出來的該圖表顯示大部分國家或地區4

年級學生在男女性別上並無顯著差異但在幾個國家例外新加坡菲律賓亞

美尼亞跟Moldova共和國的女生有較高的數學平均成就荷蘭美國義大利

蘇格蘭賽普勒斯和兩個加拿大省份則是男生有較高的數學平均成就

34

圖2-2-3 1995到2003年的男女生進退步情形

上圖是從該報告第一章表格15擷取出來的該圖表表示從1995到2003年的

男女生進退步情形從圖表中得知男女生同時進步的國家或地區有賽普勒斯英

國香港拉脫維亞紐西蘭斯洛伐尼亞和安大略省而同時退步的國家有挪

威和魁北克省僅有男生退步但女生沒有的國家是荷蘭

第三節 TIMSS 試題與國內數學課程關係之分析

在魔術師的題組中研究者希望學生透過摺紙的方式不管對摺幾次最後

限制只能用剪刀剪一次的情況下要求學生剪出下列 3個圖型

35

每個學生剪每個圖型都有 3次機會這個題組的目的不止希望學生可以運用

全等的直覺利用幾何操作如平移旋轉翻轉等方式印證平時的經驗並將

全等的概念更加清晰還希望學生透過摺紙的方式了解認識垂直和對稱而剪紙

又可以增進學童分解圖形與建構圖形的能力所以本題組主要在測量學生對於全

等的直覺跟幾何操作垂直跟對稱和空間關係的瞭解以及解決非慣例題目的能

在圖形題中前 2個小題分別要求學生在一個長方形中劃一條直線將該長

方形分成 2個三角形或 2個長方形第 3小題要求學生在一個長方形中劃兩條直

線將該長方形分成 2 個三角形跟 1 個長方形第 4 小題則給等腰梯形並連接 2

條對角線在內部形成的 4個三角形中要求學生找出形狀相同但大小不同的兩

個三角形本題組在了解學生能否透過操作直尺或三角板在二維空間上剪裁出

指定的基本圖型並利用直觀的方式指出形狀相同但大小不同的三角形

上述兩個題目在評量學生的幾何能力根據我國國民中小學九年一貫課程綱

要數學學習領域中指出小學教師在從事幾何教學時最要避免的是來自本身歐

氏公設幾何訓練的干擾處處受制於定義的認定與邏輯順序由歷史來看人類

是先由應用操作實踐中認識各種幾何要素與性質彼此之間並沒有一定的

先後關係歐氏幾何的價值首先是對這些先民知識的歸類與整理其次才是作

36

為知識典範的演繹系統所以將幾何課程概分成四階段而學生在四年級時所應

該要學習到的幾何知識就如下列所示

一階段一(一年級到三年級)較強調幾何形體的認識探索與操作學生對

幾何形體中的幾何要素也許能指認但尚不清楚其結構意義

二階段二(四年級到五年級)由於數與量的發展逐漸成熟學生開始結合「數」

與「形」兩大主題學習運用幾何形體的構成要素(如角邊面)及其數量性

質(如角度邊長面積)

更詳細的相關能力指標詳列如下

1-S-04能依給定圖示將簡單形體作平面舖設與立體堆疊給定的圖示

可為圖卡或實物透過拼圖與堆積木等活動讓學童進行平移翻轉重疊

比對hellip等全等操作的練習

3-S-06能透過操作將簡單圖形切割重組成另一已知簡單圖形

4-S-02能透過操作認識基本三角形與四邊形的簡單性質

4-S-03能認識平面圖形全等的意義

4-S-16能理解平面上直角垂直與平行的意義

4-S-07能由直角垂直與平行的概念認識簡單平面圖形

4-S-08能利用三角板畫出直角與兩平行線段並用來描繪平面圖形

例學童會使用直尺或三角板畫出直角及兩平行線段進而用來繪製直角三角

形正方形長方形平行四邊形與梯形

因此學生在回答這兩個問題時應已具備足夠的能力

在幾何方塊的題組中給學生 3 塊白色方塊4 塊黑白相間的方塊和 3 塊黑

色方塊要求學生完成

一利用 2 張黑白相間方塊拼出一個較大的黑色三角形

二利用 4 張黑白相間方塊拼出一個黑色的正方形並求出佔幾分之幾

三不准使用黑白相間方塊將 4 張方塊拼出一個正方形使得黑色的部分佔 12

37

四請用 8 張方塊拼出一個如下圖的長方形使得黑色部分佔 58

這是一種包含幾何跟數與量的題目其中幾何的部份是要求學生建立一個二維圖

形並滿足題目的要求(數與量)幾何部分已經如上所述現在分析相關的數

與量

根據我國國民中小學九年一貫課程綱要數學學習領域中指出有理數是小學

的核心課程之一也是小學數學教育中最有挑戰性的教學主題因為學生較缺

乏有理數的前置經驗日常生活中的有理數情境也比整數少分數的形式是學生

首次碰到兩整數並置的約定至於什麼是穩當的有理數教學並無定論但是基

本的共識是學生需要較長的時間來學習掌握有理數的概念不論是先形式程

序或者先概念理解兩者都必須不斷互相支持在有理數教學中必須將材料

作適當的安排先從較容易的平分或測量入手而將其它的應用課題作為錘鍊

有理數數感的課題

在相關的能力指標詳列如下

3-n-09能在具體情境中初步認識分數並解決同分母分數的比較與加

減問題學童從具體情境或活動中掌握分數的概念能學會分數的記號並理

解運用分數記號來記錄同分母分數的比較與加減的方式例如以平分為基礎的

活動(離散量)問下列深色區域是全部圖形的幾分之幾

4-n-07能認識真分數假分數與帶分數熟練假分數與帶分數的互換

並進行同分母分數的比較加減與非帶分數的整數倍的計算

4-n-08能理解等值分數進行簡單異分母分數的比較並用來做簡單分

數與小數的互換在具體情境中說明分數等值的理由可先由分母的倍數差 2

4倍的分數先出發(因為切半的操作最簡單)

在施測學校所使用的教科書中第七冊第十單元分數中其教學目標也有

38

透過單位分數的合成和累加活動以真分數來描述單位分數的幾份可見此題對

施測學校的學生來說應有能力解決

另外兩題有關數與量的題目是數字卡跟猜一猜在數字卡部份題目分為兩

部份第一部份為抽出三張 0-9 的數字卡任意排列後找出最接近總和為 20 的

方法第二部份為抽出三張 0-9 的數字卡任意排列後分別找出和差跟積最大

的方法這在我國國民中小學九年一貫課程綱要數學學習領域中分類在數與量

中的整數部分根據附錄說明中指出整數計算是一切數學學習的基礎在教學

中學童經由活動情境掌握計算的意義藉著各種例子體驗計算的規則與策略

流暢的計算能力有如語文學習中基本的文字駕馭能力不僅可以內化學童的

數字感並且是日後(國高中)學習抽象運算及形式推導的基礎這樣的能力

固然是學習科學所必須也是能夠有效處理日常生活的基本能力之一所以國小

整數教學的課程目標在於

一從計數開始學習位值的約定與換算並在演算中逐步熟悉最後能掌握

大數

二在二年級下學期理解算術的樞紐九九乘法作為日後所有計算的基礎

三到四年級時能夠不拘泥於位數熟練加減乘除的直式計算

有關數與量的題目另一題是猜一猜題目是在 9個碗中前 4個碗中豆子

的數量分別是 29313128 個請猜一猜罐子中大約有幾個豆子並解釋你

的想法這在我國國民中小學九年一貫課程綱要數學學習領域中分類在數與

量中的估算部分估算在國民教育中可粗分為離散量的估算(自然數四則運算的

估算)與連續量的估算前者的教學應在學生已經能掌握確算後再進行而後

者的教學應透過測量時量不盡的正常情境與小數的教學共同開展認識小數

之細分與精確度的要求乃是一體的兩面估算的教學可以先在計算與驗算中強

調讓學生能對不合理的答案透過估算剔除然後是能判斷應用問題對答案

精確度的要求並藉由過去的解題經驗發展正確的估算策略或者是能針對

39

問題與解答發展估算策略驗算解答的合理性要注意的是估算屬於較高層

次的數學能力學生必須先對所使用的概念程序與問題情境有相當的理解才能

恰當地估算進而能正確判斷估算的時機與精確度的要求國小的估算教學要

特別注意評量的問題切忌因為強求估算禁止學生使用正常計算教師應在評

量的問題上下功夫讓問題本身暗示估算的好處

最後一題是擲骰子題目是用一個規則來改變骰子擲出來的數字要求學

生發現改變後的數字有什麼特性另外要求學生丟 30 次將結果記錄並統計在

表格中這是屬於統計與機率的部份我國課程在這部份強調統計和機率的知識

背景應來自生活環境因此以學生的生活經驗為主從學生感興趣的主題出發

使其學會敘述統計所呈現出的數字和圖表的意義強調圖表的表達和溝通並了

解抽樣機率的初步概念且能正確地運用各項統計資料於實際的生活中並要

求在三年級之前 先藉由簡易表格的製作協助學生建立資料的整理與分組的

概念進而練習報讀與說明資料並建立個別資料出現頻率概念的認識再藉著

直接和交叉對應表格的介紹並配合「數與量」的教學希望學生能掌握對表格

的認識並能加以運用

40

第三章 方法與步驟

本章節乃根據前兩章所提的研究目的與文獻探討進行研究設計以下將分別

就研究架構研究工具發展研究的信效度與實作評量的試題架構三節加以說明

第一節 研究架構

壹研究方法本研究是使用實作評量的方法進行實際施測使用 SPSS

與 EXCEL 軟體分析回收的施測數據

貳研究樣本本研究之研究對象是針對國小四年級學生以台中縣神岡鄉

某國小四年級學生為受試者共四班 127 人學校環境是住

宅與工業混合區

叁研究工具本研究的研究工具分為兩部份民國 89 年徐美英研究論文

中的題目跟 TIMSS 2003 公開的實作評量試題各三題TIMSS

2003 公開的實作評量試題是由 TIMSS 網站下載試題後再進

行翻譯每一個題組的施測時間是 30 分鐘

第二節 研究工具發展

本研究的研究工具分為兩部份民國 89 年徐美英研究論文中的題目跟 TIMSS

2003 公開的實作評量試題各三題以下將分別就試題的編製過程評分標準施

測人員和評分者四點加以說明

壹試題編製過程

一研究分析相關公開試題並與學校教材相互對照後進行選題

二選定題目後進行翻譯

三將翻譯好後的題目跟原始原文題目交給學校英語科任老師進行確認

41

四確定翻譯工作後與現任資深國小四年級的教師們共同討論題目的適切

性修改試題敘述的語句使文句的敘述能符合四年級學生的認知

五將修改後的題目請上述老師再做一次確認

六提供評分標準給上述老師討論全對部份給分不給分的情況

七題目定案

以數字卡這題為例題目如下

【題目數字卡】

在這部分你將會拿到一張印有 0到 9的數字卡如下圖請將這些數字卡

取下來

總和為ldquo20的數字遊戲

小杰與小明這兩個小孩正在玩一個ldquo總和為 20的遊戲其規則如下

總和為ldquo20的規則

一抽數字卡每一個人抽出三張數字卡

二加數字卡每一個人利用這三張數字卡做出一個加法問題使得算出的

總和最接近 20 例如假如抽出的數字卡 將數字任

意組合後下面是其中四種可能的方法

0 1 2 3 4

5 6 7 8 9

1 4 5

42

+ + + +

5 5 4 6 1 9 +

15 1 0

這時玩家應該選擇 + 4 因為它的總和 19最接近 20

19

小杰和小明開始玩遊戲了小杰抽出了 三張數字卡小明抽出

了 三張數字卡

一小杰要如何安排三張數字卡做出一個加法問題才能讓它的總和為最接

近 20記得要寫總和

二小明要如何安排三張數字卡做出一個加法問題才能讓它的總和最接近

20記得要寫總和

三小明說假如我抽到 我可以用兩種方法做出總和 20

請告訴我們小明用哪兩種方法可以使 做出總和 20

第一種方法

第二種方法

1

4

5 1

4

5

1

4 51

4

5

972

6 3 1

1 4 6

1 4 6

43

找出最大的數

小杰和小明利用數字卡玩另一個新的遊戲就是利用三張數字卡做出最

大的數

甲將 三張數字卡填入下列的格子內讓相加的結果為最大

乙將 三個數字填入下列的格子內讓相減的結果為最大

丙將 三個數字填入下列的格子內讓相乘的結果為最大

貳施測人員

由四位該班導師擔任在正式施測前由研究者針對施測應注意事項對施

測人員說明並在每一份題目上附上給老師的話說明施測時應注意的事項

及給分說明部分實作評量試題需要用到一些材料由研究者事先準備妥

當於考前交給施測人員至於材料的發放跟試題說明的時間並不包括在 30

分鐘的測驗時間之內

叁評分標準

一 89 年徐美英研究論文中的題目直接使用其附錄中的評分標準以擲

times

9 5 1

+

2 3 7

1 4 5

44

骰子這題為例其評分標準如下

第一題 1 正確的計算出(042648)

2 給分範圍2分

第二題 1 描述的類型與資料一致

2 形式可以是一個或多個以下的情形例如所有的數字

都是偶數數字的範圍從 0~84 出現 2次數字排列有

規則如+4-2+4-2

3 給分範圍2分

第三題 1 至少完成 25 次擲骰子的紀錄

2 正確的計算

3 給分範圍2分

第四題 1 統計的次數與第三題的資料一致

2 給分範圍2分

第 5a 題1 答案與資料一致

2 給分範圍1分

第 5b 題1 對觀察的數字提供合理的解釋

2 給分範圍1分

二 TIMSS 2003 公開的實作評量試題部分參照其公佈的評分標準翻譯

成中文以提供給資深四年級老師參考以數字卡這題為例

(一)第一部分總和為 20 的數字遊戲

1 第甲題

(1) 給分範圍 1分

1 寫出 2+7+9=18

2 沒有任何算式但有答案是 18 者

(2) 給分範圍0分

45

1 有寫出算式 2+7+9 但沒有答案 18 出現

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

或偏離主題的回答)

3 完全空白

2 第乙題

(1) 給分範圍1分

1 13+6=19 或 16+3=19

2 沒有任何算式但有答案是 19 者

(2) 給分範圍0分

1 有寫出算式 13+6 或 16+3 但沒有答案 19 出現

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

3 完全空白

3 第丙題

(1) 給分範圍2分

兩種方法都正確(16+4 和 14+6)

(2) 給分範圍1分

只有寫出其中一種方法(16+4 或 14+6)

(3) 給分範圍0分

1 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

2 完全空白

(二)第二部份找出最大的數

1 第甲題

(1) 給分範圍1分

46

91+5 或 95+1

(2) 給分範圍0分

1 將 159擺在任何其他不正確的位置

2 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

3 完全空白

2 第乙題

(1) 給分範圍1分

73-2

(2) 給分範圍0分

1 72-3

2 將 237擺在任何其他不正確的位置

3 其他不正確回答(包括刪掉畫掉擦掉或難以辨認

的或偏離主題的回答)

4 完全空白

3 第丙題

(1) 給分範圍1分

41times5

(2) 給分範圍0分

1 51times4

2 將 145擺在任何其他不正確的位置

3 其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的

或偏離主題的回答)

4 完全空白

47

第三節 研究的信效度與實作評量的試題架構

壹信效度

由於此次的實作評量採用多元化記分的方式故信度計算採用 Cronbach α

係數算出信度值為 079而且每一題均有詳細說明細節行為的項目給定參考

答案圖形的作品量表各題除經著名國際測驗機構審核施測過外並由研究者另

請學校資深四年級教師共同研究討論題目與答案對於施測過程研究者也與四

位監考老師討論後訂出共同標準所以在效度方面具有專家效度跟內容效度

貳試題架構

此次實作評量的試題共六題分別是屬於數與量幾何統計與機率等三大

主題依據九年一貫課程綱要數學學習領域裡對這幾個大主題在國小四年級前的

學習說明研究者編制下表的試題架構

48

表 3-3-1 試題架構

題目 學習主題 主題層次 評量內涵說明

擲骰子 數與量

統計與機率

(1)整數

(2)簡易表格的製作

(1)可以對整數的變化

提出一套模式或發現

(2)簡易表格的製作結

果統計與發現

猜一猜 數與量 估算 使用估算的技巧協助計算

與解題

魔術師 幾何 對稱的實際操作 透過摺紙的對稱觀念理解

平面圖形的線對稱關係

圖形題 幾何

(1)幾何形體的認識與

切割

(2)幾何形體『形』的

直觀認識

(1)透過操作將簡單圖

形切割成另一簡單圖

(2)直觀指出平面圖形的

相似

數字卡 數與量 運用加減乘法求最大值

透過位值概念將給定的數

字編排在不同的位值進行

加減乘法得到接近題

目要求的答案或所有可能

的最大值

幾何方塊 幾何

數與量

(1)幾何形體的拼合

(2)有理數(部分全體

的意涵)

(1)利用黑白相間方塊

拼出指定的簡單平面

圖形

(2)在具體情境中認識

分數

49

第四章 結果與討論

本章主要是呈現資料分析的結果並加以討論共分為四節第一節是利用

TIMSS 1999 實作評量試題比較民國 89 年跟民國 95 年的成績差異第二節是利

用 TIMSS 2003 實作評量試題檢視施測學校在性別及班級間是否存在差異第

三節是利用 TIMSS 2003 實作評量試題比較施測學校與原始施測資料的成績差

異第四節是實作評量試題的類推性

第一節 利用 TIMSS 1999 實作評量試題比較民國

89 年跟民國 95 年的成績差異

研究者本小節要探討的是 TIMSS 1999 的施測結果與民國 89 年徐美英所進行

的研究之比較主要的比較項目為平均數標準差及得分情形分配百分比基於

此研究者採用百分比圖表及各小題反推出得分人數之後用獨立樣本 t檢定的

方式比較平均數另外依百分比反推出人數時有時會因四捨五入產生總人數多

1人的情況此時會對進位數最小的數採取無條件捨去法以符合總人數一致另

因研究者分三天進行六題施測每題實際受測人數也有不同研究者使用的資料

來源有兩個分別是 TIMSS 2003 實作評量題目及 TIMSS 1999 實作評量題目為

了呈現方便研究者將取自 TIMSS 2003 實作評量題目所作的施測結果用『95 年』

表示另外 TIMSS 1999 實作評量題目為研究者從民國 89 年徐美英的論文中擷取

出來的當年的施測結果以『89 年』表示

50

壹魔術師

表4-1-1 95年魔術師題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

魔術師ㄧ 16 16 68 5 127

魔術師二 101 151 748 5 127

魔術師三 202 235 563 5 127

由表 4-1-1 得知研究者此次此題型的施測結果各題得分均以得 2分者居

多得 1分居次利用表 4-1-1研究者也從民國 89 年徐美英的論文中找到類

似資料列在表 4-1-2表 4-1-2 是從論文的本文中摘錄下來的研究者反覆研

究該論文時發現在 P73 也有附錄一份有關魔術師各題的資料統整不過兩者的

個數有所差異下表總人數 156 人遺漏值 5人附錄中個數是 155 人下表反推

出人數後的平均數也與附錄稍有出入研究者以本文的表格為準

表4-1-2 89年魔術師題組得分情形分配表

題目 得 0分人數() 得 1分人數()得 2分人數() 遺漏值 總人數

魔術師ㄧ 419 258 323 5 156

魔術師二 194 194 613 5 156

魔術師三 258 258 484 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

51

0

10

20

30

40

50

60

70

80

魔術師ㄧ 魔術師二 魔術師三

95年答對率

89年答對率

圖 4-1-1 百分比圖表比較結果

由上圖可知95 年答對的答對率在 3題中均優於 89 年的結果其中以魔術

師ㄧ的資料差距最大但此兩年的資料也有一個共同的趨勢就是該年度的答對

率有魔術師二的答對率>魔術師ㄧ的答對率>魔術師三的答對率研究者進一步

反推 89 年的得分人數後將兩年的資料進行獨立樣本 t檢定結果列於表 4-1-3

表 4-1-4表 4-1-5

表 4-1-3 魔術師ㄧ獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異數

相等 4323 0039 6098 272000 0000 0410 0800

1

不假設變異

數相等 6173 270036 0000 0410 0800

52

表 4-1-3 可以看出變異數 Leven 檢定結果P值lt005所以達到顯著差異

可見變異數是不能視為相等的後面 t檢定值 6173P 值lt005所以有達到顯

著差異可見平均數是不能視為相等故這一小題明顯的是 95 年的學生成績較

表 4-1-4 魔術師二獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異數

相等 17130 0000 2550 270000 0011 0050 0410

2

不假設變異

數相等 2605 270000 0010 0060 0400

表4-1-4可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是不能視為相等的後面t檢定值2605P值lt005所以有達到顯著

差異可見平均數是不能視為相等故這一小題明顯的也是95年的學生成績較佳

表 4-1-5 魔術師三獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 0443 0506 1332 272000 0184 -0100 0330

3

不假設變

異數相等 1338 265000 0182 -0100 0330

53

表4-1-5可以看出變異數Leven檢定結果P值gt005所以沒有達到顯著差

異可見變異數是要視為相等的後面t檢定值1332P值gt005所以沒有達到

顯著差異可見平均數是也可以視為相等故這一小題兩年的學生成績沒有差別

接著研究者對整個題組總得分進行比較由於 89 年論文中只有平均數與標

準差兩項資料研究者只能稍做比較95 年施測的平均數為 424標準差為 208

而 89 年的平均數是 375標準差是 207由於兩者標準差的差距很小可見兩

項資料的集中平均數的趨勢是差不多的而平均數則是 95 年多 049 分

二擲骰子

表4-1-6 95年擲骰子題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

擲骰子一 101 202 697 8 127

擲骰子二 597 395 08 8 127

擲骰子三 25 319 655 8 127

擲骰子四 345 378 277 8 127

擲骰子五 a 462 538 8 127

擲骰子五 b 950 50 8 127

由表 4-1-6 得知研究者此次擲骰子題組中各題得分擲骰子一以得 2分

居多佔 697擲骰子二以得 0分居多佔 597擲骰子三以得 2分居多

佔 655擲骰子四以得 1分居多佔 378擲骰子五 a以得 1分居多佔 538

擲骰子五 b以得 0分居多佔 95擲骰子二與擲骰子五 b是要求學生說明理由

或描述規則可見學校教學應該可以再加強學生在解釋資料上的能力

54

表4-1-7 89年擲骰子題組得分情形分配表

題目 得 0分人數()得 1分人數()得 2分人數() 遺漏值 總人數

擲骰子一 32 65 903 5 156

擲骰子二 548 387 65 5 156

擲骰子三 00 65 935 5 156

擲骰子四 65 129 806 5 156

擲骰子五 a 97 903 5 156

擲骰子五 b 839 161 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

0

20

40

60

80

100

擲骰

子一

擲骰

子二

擲骰

子三

擲骰

子四

擲骰

子五

a

擲骰

子五

b

95年答對率

89年答對率

圖 4-1-2 百分比圖表比較結果

由上圖可知89 年答對的答對率在 5題中均優於 95 年的結果其中擲骰子

二與擲骰子五 b兩年的答對率都很低可見對位於城鄉交界處的台灣學生而言

這種類型的題目屬於偏難的題型研究者進一步反推 89 年的得分人數後將兩

年的資料進行獨立樣本 t檢定結果列於表 4-1-8表 4-1-9表 4-1-10表

55

4-1-11表 4-1-12表 4-1-13

表 4-1-8 擲骰子一獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 56450 0000 -4100 270000 0000 -0400 -0140

1

不假設變

異數相等 -3900 195000 0000 -0400 -0130

表4-1-8可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是要假設不相等的後面t檢定值-3906P值lt005所以也達到顯

著差異可見平均數是不能視為相等故這一小題是89年的學生表現較優秀

表 4-1-9 擲骰子二獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 9470 0002 -1500 270000 0141 -0200 0035

2

不假設變

異數相等 -1500 270000 0133 -0200 0032

表4-1-9可以看出變異數Leven檢定結果P值lt005所以有達到顯著差異

可見變異數是要視為不相等的後面t檢定值-1506P值gt005所以沒有達到

顯著差異可見平均數是可以視為相等故這一小題兩年的學生成績沒有差別

56

表 4-1-10 擲骰子三獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 186200 0000 -6200 270000 0000 -0400 -0210

3

不假設變

異數相等 -5800 162000 0000 -0400 -0200

表4-1-10可以看出變異數Leven檢定結果P值lt005所以達到顯著差異

可見變異數是要視為不相等的後面t檢定值-5806P值lt005所以達到顯著

差異可見平均數是有顯著差異的故這一小題89年的學生成績表現較好

表 4-1-11 擲骰子四獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 19580 0000 -9900 270000 0000 -1000 -0650

4

不假設變

異數相等 -9600 212000 0000 -1000 -0650

表4-1-11可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-9565P值lt005有達到顯著差異

可見平均數是有顯著差異的故這一小題89年的學生成績比較好

57

表4-1-12 擲骰子五a獨立樣本t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 207800 0000 -7400 270000 0000 -0500 -0270

五 a

不假設變

異數相等 -7000 187000 0000 -0500 -0260

表4-1-12可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-7036P值lt005有達到顯著差異

可見平均數是有顯著差異故這一小題89年的學生成績比較好

表 4-1-13 擲骰子五 b獨立樣本 t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 38760 0000 -2900 270000 0004 -0200 -0035

五b

不假設變

異數相等 -3100 251000 0003 -0200 -0039

表4-1-13可以看出變異數Leven檢定結果P值lt005達到顯著差異可見

變異數是要視為不相等的後面t檢定值-3052P值lt005達到顯著差異可

見平均數是有顯著差異故這一小題89年的學生成績比較好

接著研究者對整個題組總得分進行比較由於 89 年論文中只有平均數與標

58

準差兩項資料研究者只能稍做比較95 年施測的平均數為 48346標準差為

24455而 89 年的平均數是 68258標準差是 16947可見 89 年的資料顯示

集中平均數的趨勢較高而 95 年的資料則較為分散而且平均數又是 89 年多

19912 分多出將近 12 倍

三猜一猜

表4-1-14 95年猜一猜題組得分情形分配表

題目 得0分人

數()

得1分人

數()

得2分人

數()

得3分人

數()

得4分人

數()

得5分人

數() 遺漏值 總人數

猜一猜 3858 2441 1102 630 787 1181 0 127

由表 4-1-14 得知研究者此次擲骰子題組中得分以得 0分者居多顯示

學生的概算能力非常不足其次是得 1分的較多這顯示學生曉得題目要掌握哪

些資訊只是不懂得利用這些資訊0分與 1分的人數竟佔超過 50結果頗令

人訝異

表 4-1-15 89 年擲骰子題組得分情形分配表

題目 得0分人

數()

得1分人

數()

得2分人

數()

得3分人

數()

得4分人

數()

得5分人

數() 遺漏值 總人數

猜一猜 2580 650 100 1190 3230 2260 5 156

研究者根據以上兩個表格進行百分比圖表比較如下圖

59

猜一猜

0

10

20

30

40

50

60

95年答對率 89年答對率

圖4-1-3 百分比圖表比較結果

本題研究者將得 4分與得 5分者列為答對人數由上圖可知89 年答對的答

對率優於 95 年的結果研究者進一步反推 89 年的得分人數後將兩年的資料進

行獨立樣本 t檢定結果列於表 4-1-16表 4-1-17

表4-1-16 猜一猜資料統計

年度 個數 平均數 標準差平均數的

標準誤

95 127 156 175 016 得分

89 151 286 196 016

表4-1-17 猜一猜獨立樣本t檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 5639 0018 -5800 276000 0000 -1700 -0860猜

猜 不假設變

異數相等 -5900 275000 0000 -1700 -0864

60

表4-1-17可以看出變異數Leven檢定結果P值lt005達到顯著差異可

見變異數是要視為不相等的後面t檢定值-5856P值lt005有達到顯著差異

可見平均數是有顯著差異故這一小題89年的學生成績比較好

第二節 利用 TIMSS 2003 實作評量試題檢視施測

學校在性別及班級間是否存在差異

在各題型得分的相關情形方面將之整理成表格 4-2-1由表中得知除了

圖形題與猜一猜的相關係數達到005的顯著水準之外其他相關各題均達到001

的顯著水準也就是說圖形題與數字卡幾何方塊魔術師猜一猜擲骰子

等題有相當程度的關係其他各題相互之間也是類似的關係這說明了此次的考

題不只是幾何能力之間有相關的情況幾何能力與統計概念數的運算能力

概算能力之間也有相當程度的關係

61

表 4-2-1 各題型之相關係數

圖形題 數字卡 幾何方塊 魔術師 猜一猜 擲骰子

Pearson 相關 1 0617 0419 0487 0174 044

顯著性 (雙尾) 0 0 0 005 0 圖形

個數 127 127 127 127 127 127

Pearson 相關 0617 1 0517 0562 0272 0587

顯著性 (雙尾) 0 0 0 0002 0 數字

個數 127 127 127 127 127 127

Pearson 相關 0419 0517 1 0397 0308 0389

顯著性 (雙尾) 0 0 0 0 0 幾何

方塊

個數 127 127 127 127 127 127

Pearson 相關 0487 0562 0397 1 0248 0509

顯著性 (雙尾) 0 0 0 0005 0 魔術

個數 127 127 127 127 127 127

Pearson 相關 0174 0272 0308 0248 1 0317

顯著性 (雙尾) 005 0002 0 0005 0 猜一

個數 127 127 127 127 127 127

Pearson 相關 044 0587 0389 0509 0317 1

顯著性 (雙尾) 0 0 0 0 0 擲骰

個數 127 127 127 127 127 127

在顯著水準為001時 (雙尾)顯著相關

在顯著水準為005時 (雙尾)顯著相關

62

表4-2-2 班級對總分之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

班級 390132 3000 130044 2046 0111

誤差 7806910 123000 63471

總和 8197040 126000

以單因子變異數分析班級對總分的結果如表4-2-2在α=005之下F檢定值為

2049相對應的P值是0111因為P值>005所以未達顯著差異也就是各班

級間的實作評量總分並沒有因班級的不同而顯現出差異

表4-2-3 性別對總分之組別統計量與t檢定表

性別 個數 平均數 標準差 平均數的標準誤

男生 65 21892 7567 0939 總分

女生 62 23355 8595 1092

獨立樣本檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 0320 0573 -0998 125000 0320 -4263 1404

分 不假設變

異數相等 -0996 121524 0322 -4272 1413

從表4-2-3來看雖然女生平均成績是2331分高於男生的2188分但根

據獨立樣本t檢定的檢定結果變異數的Levene檢定F值為0320P值為0573

顯示出男生與女生的變異數沒有顯著差異而平均數的t檢定值為-0998P值為

63

032也顯示出男女生的平均數是沒有顯著差異的研究者進一步分析性別與各

題的t檢定結果顯示於表4-2-4

表4-2-4 性別對各題之組別統計量與t檢定表

性別 個數 平均數 標準差 平均數的標準誤

男生 65 326 112 014 圖形題

女生 62 340 098 012

男生 65 418 215 027 數字卡

女生 62 474 212 027

男生 65 417 160 020 幾何方塊

女生 62 413 167 021

男生 65 417 204 025 魔術師

女生 62 432 213 027

男生 65 135 163 020 猜一猜

女生 62 177 185 023

男生 65 474 237 029 擲骰子

女生 62 494 253 032

64

獨立樣本檢定

變異數相等的

Levene 檢定 平均數相等的 t 檢定

95 信賴區間

F 檢定 p-value t 自由度 p-value 下界 上界

假設變異

數相等 1522 0220 -0756 125000 0451 -0510 0230圖

題 不假設變

異數相等 -0758 124117 0450 -0510 0230

假設變異

數相等 0431 0513 -1471 125000 0144 -1310 0190數

卡 不假設變

異數相等 -1471 124863 0144 -1310 0190

假設變異

數相等 0067 0797 0139 125000 0890 -0530 0610

不假設變

異數相等 0138 123883 0890 -0530 0620

假設變異

數相等 0031 0860 -0414 125000 0680 -0890 0580魔

師 不假設變

異數相等 -0413 123981 0680 -0890 0580

假設變異

數相等 2029 0157 -1359 125000 0177 -1030 0190猜

猜 不假設變

異數相等 -1355 121450 0178 -1030 0190

假設變異

數相等 0391 0533 -0452 125000 0652 -1060 0660擲

子 不假設變

異數相等 -0452 123426 0652 -1060 0670

65

結果顯示各小題的平均數女生分別是34474413432177

494男生分別是326418417417135474除了幾何方塊之外

幾乎都是女生高於男生而各小題的Levene變異數檢定結果其P值分別是

0220513079708601570533均大於005顯示沒有顯著差異

而平均數的檢驗結果各題的P值分別是0451014408906801770652

也都大於005也呈現沒有達到顯著差異可見這6題的考題成績結果與刻板

印象「男生數理比較厲害」有不同的結果

第三節 利用 TIMSS 2003 實作評量試題比較施測

學校與原始施測資料的成績差異

本節研究重點是 TIMSS 2003 的題目與國際受測國家中總體表現較好的國家

資料及台灣原始資料進行比較TIMSS 網站上提供各個受測國家的資料檔研究

者下載了新加坡香港日本台灣比利時與美國的資料之所以下載這幾個

國家的資料是因為四年級測驗總分結果前五名剛好是新加坡香港日本台

灣比利時而且從總分的分析結果顯示台灣與新加坡香港有顯著差異與日

本沒有顯著差異而比利時與台灣也有顯著差異所以比較這五個國家而美國

是因為研究者想了解美國學生是否真的比較會活用故列入此次的比較探討在

實作評量上是否達到顯這差異研究方法採用變異數分析與事後比較事後比較

採用雪費(Scheffe)檢定法由於 TIMSS 施測時採用 12 本測驗題本所以參與

實作評量的各題人數並不一致會出現同一個國家在不同題目上有不同人數的情

況另外因研究者分三天進行六題施測每題實際受測人數也有不同

一圖形題

66

表4-3-1 95年圖形題題組得分情形分配表

題目 得 0分人數 得 1分人數 缺失值 總人數

圖形題甲 66 934 6 127

圖形題乙 41 959 6 127

圖形題丙 174 826 6 127

圖形題丁 223 777 6 127

由表 4-3-1 可知在圖形題題組中各小題得分均以得 1分的人數分別是

934959826777各題百分比是否達到顯著不同研究者用百分比

同質性檢定結果列於表 4-3-2

表 4-3-2 圖形題百分比同質性檢定

得分題目 交叉表

題目

1 2 3 4 總和

得分 0 8 5 21 27 61

得分 1 113 116 100 94 423

總和 121 121 121 121 484

卡方檢定

數值 自由度 p-value

Pearson 卡方 24666a 3000 0000

概似比 25936 3000 0000

線性對線性的關連 19950 1000 0000

有效觀察值的個數 484000

a 0 格(0)的預期個數少於 5最小的預期個數為 1525

67

結果顯示 Pearson 的卡方值 24666df=3p=0000達到顯著水準所以

各題的答對率百分比是不同的

表4-3-3 圖形題題組各國答對率的比較

題目 新加坡答

對率

香港答對

日本答對

台灣答對

比利時答

對率

美國答對

施測學校

答對率

圖形題甲 830 958 917 936 833 727 934

圖形題乙 937 988 902 950 911 877 959

圖形題丙 702 859 744 847 504 328 826

圖形題丁 616 490 634 656 504 553 777

00

400

800

新加坡

香港

日本

台灣

比利時

美國

施測學

圖形

題甲

圖形

題乙

圖形

題丙

圖形

題丁

圖4-3-1 圖形題題組答對率之比較圖

由表 4-3-3 與圖 4-3-1 可知在圖形題題組中甲題的答對率以香港最高

台灣與施測學校居次美國最低乙題的答對率以香港最高台灣與施測學校還

是居次美國最低丙題的答對率以香港最高台灣居次美國最低而且低到

328丁題的答對率以施測學校最高台灣居次香港最低低到 490香港

68

在此小題的表現與上述三小題的結果明顯有很大差距

接著進行變異數分析與事後比較的結果

表4-3-4 圖形題各題之資料統整

圖形題甲

有效的個數 平均數 標準差

新加坡甲 1103 0830462 0375396

香港甲 757 0957728 0201342

日本甲 767 0916558 0276730

台灣甲 776 0935567 0245681

比利時甲 779 0833119 0373109

美國甲 1636 0726773 0445753

施測甲 121 0933884 0249517

圖形題乙

有效的個數 平均數 標準差

新加坡乙 1103 0937443 0242274

香港乙 757 0988111 0108458

日本乙 767 0902216 0297216

台灣乙 776 0949742 0218617

比利時乙 779 0911425 0284312

美國乙 1636 0877139 0328378

施測乙 121 0958678 0199862

題形題丙

有效的個數 平均數 標準差

新加坡丙 1103 0701723 0457709

香港丙 757 0858653 0348610

日本丙 767 0744459 0436450

台灣丙 776 0846649 0360557

比利時丙 779 0504493 0500301

美國丙 1636 0327628 0469492

施測丙 121 0826446 0380300

69

圖形題丁

有效的個數 平均數 標準差

新加坡丁 1103 0615594 0486675

香港丁 757 0490092 0500232

日本丁 767 0633638 0482125

台灣丁 776 0655928 0475371

比利時丁 779 0504493 0500301

美國丁 1636 0552567 0497381

施測丁 121 0776860 0418083

由表 4-3-4 得知參與此題的人數以美國的 1636 人最多香港日本台

灣比利時的人數差不多經變異數分析後如表 4-3-5 所示

表 4-3-5 圖形題各題之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

圖形題甲 組間 44078 6 7346 59531 0000

組內 732026 5932 0123

總和 776103 5938

圖形題乙 組間 8009 6 1335 18752 0000

組內 422269 5932 0071

總和 430278 5938

圖形題丙 組間 257623 6 42937 223054 0000

組內 1141889 5932 0192

總和 1399511 5938

圖形題丁 組間 24546 6 4091 17047 0000

組內 1423561 5932 0240

總和 1448107 5938

70

表4-3-5顯示在α=005之下圖形題4小題的P值均<005均達顯著

水準可見這4題的平均得分有顯著不同所以研究者進一步做事後分析如表

4-3-6所示配合研究者的研究目的本文中只摘錄與研究目的相關的資料其

他比較結果請參閱附錄表格

表 4-3-6 圖形題各題之事後比較

Scheffe 法

題目 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0100 0034 0150

香港 -0024 0034 0998

日本 0017 0034 1000

台灣 -0002 0034 1000

比利時 0100 0034 0196

圖形題

美國 0210 0033 0000

施測 新加坡 0021 0026 0995

香港 -0029 0026 0973

日本 0057 0026 0585

台灣 0009 0026 1000

比利時 0047 0026 0772

圖形題

美國 0082 0025 0105

施測 新加坡 0120 0042 0185

香港 -0032 0043 0997

日本 0082 0043 0724

台灣 -0020 0043 1000

比利時 0320 0043 0000

圖形題

美國 0500 0041 0000

施測 新加坡 0160 0047 0066

香港 0290 0048 0000

日本 0140 0048 0178

台灣 0120 0048 0382

比利時 0270 0048 0000

圖形題

美國 0220 0046 0001

71

由表4-3-6所顯示的結果得知在圖形題這四小題中施測學校與台灣在2003

年所作的調查結果的資料並沒有達到顯著差異可見施測學校的圖形題各小題的

平均得分與2003年的台灣資料的圖形題各小題的平均得分是視為相等的施測學

校在圖形題乙的部分與國際上2003年表現較好的國家的施測資料也都沒有達到

顯著差異可見在這一小題上施測學校與國際上表現較好的國家的平均得分也

是可以視為相等的但是在圖形題甲中施測學校與美國有達到顯著差異在圖

形題丙中施測學校與比利時美國有達到顯著差異在圖形題丁中施測學校

與香港比利時美國有達到顯著差異可見在圖形題甲中施測學校的平均得

分優於美國在圖形題丙中施測學校的平均得分優於比利時與美國在圖形題

丁中施測學校的平均得分優於香港比利時與美國

接下來以整個圖形題的題組來看由表 4-3-7 所示變異數分析的結果

表4-3-7 圖形題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 725457 6 120910 107817 0000

組內 6652328 5932 1121

總和 7377785 5938

在α=005的情況下F檢定值為107817plt005達到顯著差異所以

可以得知這七個國家的平均得分有顯著差異所以要進行事後比較如表4-3-8

所示

72

表4-3-8 圖形題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0410 0101 0012

香港 0200 0104 0708

日本 0300 0104 0215

台灣 0110 0104 0982

比利時 0740 0103 0000

美國 1010 0100 0000

由表 4-3-8 得知整個題組的事後分析顯示在α=005 的情況下施測學

校的總分平均得分與與台彎沒有達到顯著差異所以平均總得分是可以視為相等

的而施測學校總平均得分與新加坡比利時美國有達到顯著差異所以施測

學校的總平均得分是優於新加坡比利時與美國

二數字卡題組

表4-3-9 95年數字卡題題組得分情形分配表

得 0分人數 得 1分人數 得 2分人數 遺漏值 總人數

數字卡 1 317 683 7 127

數字卡 2 242 758 7 127

數字卡 3 117 92 792 7 127

數字卡 4 300 700 7 127

數字卡 5 317 683 7 127

數字卡 6 783 217 7 127

由表 4-3-9 可知在數字卡題題組中各小題得分分別以數字卡 1得 1分者

73

佔 683以數字卡 2得 1分者佔 758以數字卡 3得 2分者佔 792以數字

卡 4得 1分者佔 70以數字卡 5得 1分者佔 683以數字卡 6得 0分者佔 783

居多數字卡 6得分偏低此小題是要求學生將已知的三個數字拼成兩個數後所

得乘積最大結果顯示學生答對率偏低但學生在加法與減法上則無此現象(數

字卡 4與數字卡 5)此題各國答對率的比較結果列於表 4-3-10

表4-3-10 數字卡題題組各國答對率的比較

題目 新加坡 香港 日本 台灣 比利時 美國 施測學校

數字卡 1 494 624 646 698 475 416 683

數字卡 2 567 538 619 657 556 458 758

數字卡 3 645 595 594 657 553 563 792

數字卡 4 713 710 754 647 556 534 700

數字卡 5 693 689 738 629 546 497 683

數字卡 6 264 243 362 225 185 135 217

0

20

40

60

80

100

數字卡1

數字卡2

數字卡3

數字卡4

數字卡5

數字卡6

圖 4-3-2 數字卡題題組答對率之比較圖

74

由表 4-3-10 與圖 4-3-2 可知在圖形題題組中第 1題的答對率以台灣最

高施測學校居次美國最低第 2題的答對率以施測學校最高台灣居次美

國最低第 3題的答對率以施測學校最高台灣居次比利時最低第 4題的答

對率以日本最高新加坡和香港居次美國最低第 5題的答對率以日本最高

新加坡居次美國最低第 6題的答對率還是以日本最高新加坡居次美國最

低接著進行變異數分析結果列於表 4-3-11

表 4-3-11 數字卡題各題之變異數分析

平方和 自由度 平均平方和 F 檢定 p-value

組間 34477 6 5746 2418 0000

組內 717422 3019 0238 第一題

總和 751899 3025

組間 18413 6 3069 12727 0000

組內 727966 3019 0241 第二題

總和 746379 3025

組間 36829 6 6138 7166 0000

組內 2585878 3019 0857 第三題

總和 2622707 3025

組間 22038 6 3673 16419 0000

組內 675332 3019 0224 第四題

總和 697369 3025

組間 24878 6 4146 18142 0000

組內 689975 3019 0229 第五題

總和 714853 3025

組間 14939 6 2490 14850 0000

組內 506156 3019 0168 第六題

總和 521095 3025

75

表4-3-11顯示在α=005之下數字卡題6小題均達顯著水準可見這6小題

的平均得分有顯著不同所以研究者進一步做事後分析如表4-3-12所示配合

研究者的研究目的本文中只摘錄與研究目的相關的資料其他比較結果請參

閱附錄表格

表4-3-12 數字卡題之事後比較

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0190 0049 0021

香港 0059 0051 0969

日本 0037 0051 0998

台灣 -0015 0051 1000

比利時 0209 0051 0010

第一題

美國 0267 0048 0000

施測 新加坡 0192 0049 0020

香港 0221 0051 0005

日本 0140 0052 0296

台灣 0101 0051 0692

比利時 0203 0051 0016

第二題

美國 0301 0048 0000

施測 新加坡 0335 0093 0045

香港 0451 0097 0001

日本 0404 0098 0009

台灣 0302 0097 0136

比利時 0500 0097 0000

第三題

美國 0490 0091 0000

施測 新加坡 -0013 0048 1000

香港 -0010 0050 1000

日本 -0054 0050 0978

台灣 0053 0049 0979

比利時 0144 0049 0201

第四題

美國 0166 0046 0045

76

表 4-3-12(續) 數字卡題之事後比較

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 -0010 0048 1000

香港 -0006 0050 1000

日本 -0054 0050 0979

台灣 0054 0050 0978

比利時 0138 0050 0267

第五題

美國 0186 0047 0014

施測 新加坡 -0047 0041 0971

香港 -0026 428E-02 0999

日本 -0145 0043 0079

台灣 -0008 0043 1000

比利時 0031 0043 0997

第六題

美國 0082 0040 0654

由表4-3-12所顯示的結果得知在數字卡題這六小題中施測學校與台

灣在2003年所作的調查結果資料並沒有達到顯著差異可見施測學校的數字卡題

各小題的平均得分與2003年的台灣資料的數字卡題各小題的平均得分是視為相

等的施測學校在數字卡題第六題的部分與國際上2003年表現較好的國家的施測

資料也都沒有達到顯著差異可見在這一小題上施測學校與國際上表現較好的

國家的平均得分也是可以視為相等的但是在數字卡題第一題中施測學校與新

加坡比利時美國有達到顯著差異顯示在這一小題中施測學校的成績是優

於這三個國家的在數字卡題第二題中施測學校與新加坡香港比利時美

國有達到顯著差異顯示在這一小題中施測學校的成績是優於這四個國家的

在數字卡題第三題中施測學校與新加坡香港日本比利時美國有達到顯

著差異顯示在這一小題中施測學校的成績是優於這五個國家的在數字卡題

第四題中施測學校與美國有達到顯著差異顯示在這一小題中施測學校的成

績是優於美國的在數字卡題第五題中施測學校與美國有達到顯著差異顯示

77

在這一小題中施測學校的成績是優於美國的

接下來以整個數字卡題的題組來看由表 4-3-13 所示變異數分析的結果

表4-3-13 數字卡題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 660902 6 110150 23261 0000

組內 14295950 3019 4735

總和 14956850 3025

在α=005的情況下F檢定值為23261plt005達到顯著差異所

以可見這七個國家總分的平均得分有顯著差異所以進行事後比較如表4-3-14

所示

表 4-3-14 數字卡題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0645 0219 0192

香港 0688 0228 0167

日本 0327 0229 0916

台灣 0486 0227 0598

比利時 1224 0227 0000

美國 1492 0213 0000

由表4-3-14得知整個題組的事後分析顯示在α=005的情況下施測學校

的總分平均得分與台彎沒有達到顯著差異所以平均總得分是可以視為相等的

而施測學校總平均得分與比利時美國有達到顯著差異所以施測學校的總平均

得分是優於比利時與美國

78

三幾何方塊題組

表4-3-15 95年幾何方塊題題組得分情形分配表

得 0分人數 得 1分人數 得 2分人數 遺漏值 總人數

幾何方塊 1 50 950 8 127

幾何方塊 2 109 891 8 127

幾何方塊 3 252 748 8 127

幾何方塊 4 193 807 8 127

幾何方塊 5 244 479 277 8 127

由表 4-3-15 可知在幾何方塊題題組中各小題得分分別以幾何方塊 1得 1

分者佔 95以幾何方塊 2得 1 分者佔 891以幾何方塊 3 得 1 分者佔 748

以幾何方塊 4得 1分者佔 807以幾何方塊 5得 1分者佔 479居多各題各

國答對率的比較結果列於表 4-3-16

表 4-3-16 幾何方塊題題組各國答對率的比較

題目 新加坡 香港 日本 台灣 比利時 美國 施測學校

幾何方塊 1 432 602 785 580 517 399 950

幾何方塊 2 447 470 717 546 548 405 891

幾何方塊 3 720 702 557 613 432 461 748

幾何方塊 4 557 436 447 323 516 446 807

幾何方塊 5 115 66 135 82 123 76 277

79

0

20

40

60

80

100

幾何

方塊1

幾何

方塊2

幾何方塊3

幾何

方塊4

幾何

方塊5

圖4-3-3 幾何方塊題題組答對率之比較圖

由表 4-3-16 與圖 4-3-3 可知在幾何方塊題組中第 1題的答對率以施測

學校最高日本居次美國最低第 2題的答對率以施測學校最高日本居次

美國最低第 3題的答對率以施測學校最高新加坡居次比利時最低第 4題

的答對率以施測學校最高新加坡居次台灣最低第 5題的答對率以施測學校

最高日本居次香港最低接著進行變異數分析結果列於表 4-3-17

80

表 4-3-17 幾何方塊題各題之變異數分析

得分 平方和 自由度 平均平方和 F 檢定 p-value

組間 115732 6 19289 83927 0000

組內 1363788 5934 0230 第一題

總和 1479520 5940

組間 75877 6 12646 53259 0000

組內 1409236 5935 0237 第二題

總和 1485112 5941

組間 77699 6 12950 55905 0000

組內 1374774 5935 0232 第三題

總和 1452473 5941

組間 42205 6 7034 29061 0000

組內 1436564 5935 0242 第四題

總和 1478768 5941

組間 51860 6 8643 20902 0000

組內 2454259 5935 0414 第五題

總和 2506120 5941

表4-3-17顯示幾何方塊題5小題均達顯著水準可見這5題的平均得分

有顯著不同所以研究者進一步做事後分析如表4-3-18所示配合研究者的研

究目的本文中只摘錄與研究目的相關的資料其他比較結果請參閱附錄表格

81

表4-3-18 幾何方塊題各題之事後比較

Scheffe 法

題號 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0520 0046 0000

香港 0350 0047 0000

日本 0160 0047 0060

台灣 0370 0047 0000

比利時 0430 0047 0000

第一題

美國 0550 0046 0000

施測 新加坡 0440 0047 0000

香港 0420 0048 0000

日本 0170 0048 0040

台灣 0340 0048 0000

比利時 0340 0048 0000

第二題

美國 0490 0046 0000

施測 新加坡 0028 0046 0999

香港 0046 0047 0988

日本 0190 0047 0012

台灣 0140 0047 0230

比利時 0320 0047 0000

第三題

美國 0290 0046 0000

施測 新加坡 0250 0047 0000

香港 0370 0049 0000

日本 0360 0049 0000

台灣 0480 0049 0000

比利時 0290 0049 0000

第四題

美國 0360 0047 0000

82

表 4-3-18(續) 幾何方塊題各題之事後比較

題號 (I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 0260 0062 0006

香港 0430 0063 0000

日本 0280 0063 0004

台灣 0480 0063 0000

比利時 0350 0063 0000

第五題

美國 0420 0061 0000

由表4-3-18所顯示的結果得知在幾何方塊題這五小題中只有第三小

題施測學校與台灣在2003年所作的調查結果資料並沒有達到顯著差異其他四小

題的結果都是與台灣達到顯著差異的可見施測學校的平均得分在這四小題中是

優於台灣在2003年所作的調查結果資料在幾何方塊題第一題中施測學校與新

加坡香港比利時美國有達到顯著差異顯示在這一小題中施測學校的成

績是優於這四個國家的在幾何方塊題第二題中施測學校與新加坡香港日

本比利時美國有達到顯著差異顯示在這一小題中施測學校的成績是優於

這五個國家的在幾何方塊題第三題中施測學校與日本比利時美國有達到

顯著差異顯示在這一小題中施測學校的成績是優於這三個國家的在幾何方

塊題第四題中施測學校與新加坡香港日本比利時美國有達到顯著差異

顯示在這一小題中施測學校的成績是優於這五個國家的在幾何方塊題第五題

中施測學校與新加坡香港日本比利時美國有達到顯著差異顯示在這

一小題中施測學校的成績是優於這五個國家的

接下來以整個幾何方塊題的題組來看由表 4-3-19 所示變異數分析的結果

83

表4-3-19 幾何方塊題總分變異數分析的結果

平方和 自由度 平均平方和 F 檢定 p-value

組間 885084 6 147514 50368 0000

組內 17379220 5934 2929

總和 18264300 5940

在α=005的情況下F檢定值為50368plt005達到顯著差異所

以可見這七個國家總分的平均得分有顯著差異所以進行事後比較如表4-3-20

所示

表4-3-20 幾何方塊題總分事後分析

Scheffe 法

(I) 國家 (J) 國家 平均差異 (I-J) 標準誤 p-value

施測 新加坡 1499 0165 0000

香港 1615 0169 0000

日本 1166 0169 0000

台灣 1814 0169 0000

比利時 1727 0169 0000

美國 2101 0162 0000

由表4-3-20得知整個題組的事後分析顯示在α=005的情況下施測學

校的總分平均得分與台彎有達到顯著差異所以平均總得分是施測學校優於台灣

在2003年所作的調查結果資料的而施測學校總平均得分與新加坡香港日本

比利時美國有達到顯著差異所以施測學校的總平均得分是優於新加坡香港

日本比利時美國

84

第四節 實作評量試題的類推性

本研究試題的評分者有兩位所以採用的是評分者與工作項目的兩面向交叉

設計(the two-facet crossed persontimesratertimestask design)研究者原先想

利用 SPSS 套裝軟體進行多變量變異數分析將評分的結果做概化程度的分析

計算出各個變異來源之變異成份的大小及其佔總變異的百分比但因檔案太

大SPSS 套裝軟體無法進行多變量變異數分析所以研究者改用 EXCEL 軟體進行

試算其結果列於表 4-4-1

表4-4-1 實作評量概化程度變異成分表

變異來源 估計變異成份 佔總變異之百分比

受試者 0887981185 1944983082

評分者 96E-16 211E-14

工作項目 1697518073 3718146275

受試者評分者 0 0

受試者工作項目 1872595983 410162689

評分者工作項目 0033245844 0728197914

受試者評分者工作項目及誤差 0074154589 1624239615

G 係數 0736144063

註 1在受試者與評分者的交互作用項中其估計變異成份的大小為-106396E-15Shavelson

Webb(1991)指出當某變異成份實際的值接近或等於 0 時取樣的誤差可能導致該變異成份

的估計值成為負數此時可將負值的變異成份大小設定為 0

從以上的表 4-4-1研究者有以下的發現

一實作評量最大的三個變異來源是受試者和工作項目的交互作用工作項

目之間的變異與受試者之間的變異

實作評量最大的變異來源是受試者和工作項目的交互作用佔總變異量的

85

41016表示在研究者的實作評量裡學生的成績會因著工作項目的不同而有

高低起伏如此一來便會降低以某位受試者的觀察分數概化至其真實分數的可

靠程度所以研究者無法以學生在少量的實作評量評量項目上的表現來做為他

們在數學科能力的推論

此外在研究者的實作評量中第二大的變異來源為工作項目之間的變異

其值為 170佔總變異的 37181這只是反應了學生在評量項目上能力表

現的差異並非影響 G係數大小的主要因素關於這一點研究者從計算 G係數

的公式可以了解G係數的計算公式是這樣的

G=σ2p(σ2

p+σ2ptnt+σ2

rpnr+σ2rptenrtimesnt)

G 係數的意義是受試者間的變異量在與受試者有關的變異量之總和中所佔的

比例大小因此若受試者間的變異量愈大而相對於受試者與其他實驗設計面

向的變異量及誤差愈小則 G係數便會愈大也就是根據測驗成績來作推論的可

靠性愈高

二兩位評分者之間的變異極小

評分者之間的變異為傳統的評分者信度從表 4-4-1 可以看到兩位評分結果

之間的變異值為 96E-16僅佔總變異的 211E-14顯示研究者的評分標準非

常一致也就是說研究者兩位當中並沒有誰評分時較為嚴格(stringent)或

較為寬大(liberal)

三受試者與評分者之間沒有交互作用

表 4-4-1 顯示受試者與評分者之間的交互作用為 0表示研究者兩位評分者

並沒有受到月暈效應的影響而對某些學生給予較高的成績對其他學生則給予較

低的成績這一點也可做為評量是否具有公平性的證據之一

四評分者與工作項目間的交互作用非常小

評分者與評量項目間的交互作用很小表示兩位評分者在評定各個評量項目

的評量標準相當一致這原因是由於評分標準訂定的相當明確而且具體讓評分

86

者之間沒有認知的差異存在

從評量工作項目的內容來看本次測驗所測量的雖然同樣是數學能力

測驗但各題所涵蓋的領域包含了統計的資料處理分析能力(擲骰子)幾

何對稱概念(魔術師)概算能力(猜一猜)幾何圖型的直觀概念(圖形

題)數與量中的整數加減乘的運算分析能力(數字卡)結合數與形兩大

主題的幾何形體構成要素及其數量性質(幾何方塊)題目本身的差異性很

大而且每位學生所擅長的方面有所不同在工作項目的表現自然就有所

不同在加上每題的配分並不盡相同所以由這些評量項目概化至其他數

學科能力的程度就降低了這也就是本研究的 G 係數僅達 0313表示如果

使用少量的實作評量工作項目將無法達到所需要的信度

另外主要效果是受試者的變異數值是 0888佔總變異的 19450代

表學生之間的程度差異也很大

根據概化程度研究的結果研究者可以進一步做決策研究(decision

study)決策研究是用來指出若要達到足夠小的誤差變異或足夠大的概化

係數時每一個學生需要多少工作項目以及每一個工作項目需要多少評分

者下面研究者分別分析在幾個評分者的情況下實作評量工作項目為幾

個時G 係數才能達到 08

87

表 4-4-2 G 研究與各種 D 研究之變異成分分析與推論力係數

變異源 G 研究變異成

分之估計值D研究變異成分之估計值

nr= 1 2 3 5 2 2 2

ni= 1 6 6 6 7 8 9

受試者 0888 0888 0888 0888 0888 0888 0888

評分者 0000 0000 0000 0000 0000 0000 0000

工作項目 1698 0283 0283 0283 0243 0212 0189

受試者評分者 0000 0000 0000 0000 0000 0000 0000

受試者工作項目 1873 0312 0312 0312 0268 0234 0208

評分者工作項目 0033 0100 0066 0040 0116 0133 0150

受試者評分者工

作項目及誤差 0074 0006 0004 0002 0005 0005 0004

σRel 1947 0318 0316 0315 0273 0239 0212

G 係數 0313 0736 0737 0738 0765 0788 0807

由表 4-4-2 可知原設計研究 2位研究者與 6道題目的方式推出 G係數只有

0736當評分者增加一位而題目維持六題時G係數只增加 001 達到 0737

如果將評分者增加到五位而題目仍維持六題時G係數只增加 002 達到 0738

可見增加評分者的影響有限如果評分者維持兩位而題目增加為七題G係數會

增加 0029達到 0765如果評分者維持兩位而題目增加為八題G係數會增加

0052達到 0788可見增加題目的效果比增加評分者更為有效當評分者為兩

位題目為九題時G係數可達 0807顯示評分者為兩位題目為九題時內

部一致性較佳

88

第五章 結論

本研究以 TIMSS 數學實作評量的題目為工具進行特定環境背景不同年度的

縱貫研究及與其他國際上表現較佳的國家進行橫貫研究以下為本研究進行所得

的經驗以及資料分析所得之結果分別以結論以及建議等兩節進行說明

第一節 結論

壹實作評量的信效度

TIMSS 試題在台灣之施測是具有一定信效度在信度方面經實際施測後計

算的結果為 0799所以 TIMSS 數學實作評量試題在台灣之施測是具有信度的

但根據實作評量試題的類推性分析結果發現G研究中的 G係數只有 0313深

入探討其原因可能是試題難易程度的差別較大與各題配分比例不同所造成的

所以在 D研究中要補救其信度低的措施就是增加評分者為兩位題目為九題時

其 G係數就可以達到 0807在效度方面每一題均有詳細說明細節行為的項目

給定參考答案圖形的作品量表各題除經著名國際測驗機構審核施測過外並由

研究者另請學校資深四年級教師共同研究討論題目與答案對於施測過程研究

者也與四位監考老師討論後訂出共同標準所以在效度方面具有專家效度跟內

容效度

貳評量結果與比較

一在進行縱貫研究方面在魔術師題型上民國 95 年的結果較佳在擲

骰子題型上是民國 89 年的結果較佳在猜一猜題型上民國 89 年的結

果較佳此結果顯示在幾何概念的對稱觀念上民國 95 年的學生有較

佳的表現但在統計觀念及概數觀念上民國 89 年的學生表現較佳

在實際施測過程中研究者發現在魔術師題型的第一題上許多民國

95 年的學生是先將題目要求的圖形剪出來後再進行對摺當然如果學生

是交出這樣的答案紙條評分者是不給分的因為當評分者在沿著摺線

89

還原時就會發現不是一刀剪出來的可是因為有三個機會所以許多學

生得到這樣的經驗後就會在第二次或第三次時剪出題目要求的結果

而且第一題的成功經驗會連帶的影響第二題的作答因為摺的方式是

一樣的只是剪的地方是不同的所以不管民國 95 年或是民國 89 年的

作答結果都會發現第二題的答對率均比第一題高而第三題的作答方

式因為要多摺一次而且較難複製前面成功的經驗所以第三小題的答

對率比前兩題均比較低所以研究者認為在這一題型上民國 95 年的

學生會表現得比較好的原因可能在於有比較好的作答技巧

二TIMSS 實作評量在性別及班級之間沒有顯著差異

三在圖形題題型上施測學校與台灣西元 2003 年施測結果沒有達到顯著

差異在數字卡題型上施測學校與台灣西元 2003 年施測結果沒有達

到顯著差異在幾何方塊題型上施測學校與台灣西元 2003 年施測結

果達到顯著差異之所以在幾何方塊題型上會達到顯著差異研究者認

為可能是時間點的問題因為研究者施測的時間是利用學期末期末考

後而剛好這次期末考有分數的單元所以學生對這個範圍比較熟悉

才可能造成施測學校的成績特別突出

四在圖形題題型上施測學校優於新加坡比利時及美國在數字卡題型

上我國優於比利時美國在幾何方塊題型上施測學校優於新加坡

香港日本比利時美國研究者特別注意到香港與美國這兩個國家

在 89 年徐美英論文中香港在該年的施測結果都比徐美英施測結果落

後但在 95 年的施測結果卻只有幾何方塊題型是明顯落後施測學校這

表示不是台灣學生在這幾年程度變低了就是這幾年香港程度變高了

在跟縱貫研究做交叉比較後研究者認為台灣學生這幾年程度變低的可

能性較大而美國不管是在 89 年與徐美英論文的施測結果比較或是與

95 年施測結果比較均在這兩次比較中明顯落後

90

第二節 建議

壹TIMSS 實作評量的後續研究

由於數學科實作評量在實際施測時常有人力與物力上的考量以至於在實

際教育現場上並不常用但是實作評量所測出的學生能力與紙筆測驗所測出的

學生能力是不同面向的經過此次實際施測的經驗研究者認為運用 TIMSS 實

作評量的試題來了解學生的學習成就可以在經濟負擔的考慮範圍內達到可

信賴的研究成果因此建議後續研究者可朝向此方向繼續研究以期能更深入

了解學生學習成就的變化情形

貳學生學習成就的長期追蹤

建立台灣的長期教育資料庫是必要的這是從事教育基礎研究的中外學者

的共識研究者此次研究以 TIMSS 實作評量的試題為工具來了解民國 89

年跟民國 95 年特定環境背景的國小四年級學生學習成就的比較即以此理念

為出發點目前在中央研究院教育部和國科會共同推動下『台灣教育長期

追蹤資料庫』的建置工作也已在 2001 年 10 月份起正式展開目的是為了從教

育基礎研究的角度出發研究哪些因素會影響到學生解決問題的能力如學

生努力程度學習機會和學習能力等等當然資料的品質是累積而來的不做

沒有開始就不可能有改進也就不可能有較豐富的資料內容美國國家教育

長期研究(National Education Longitudinal Study NELS)其資料的品質

和豐富素為各國教育研究學者所稱道就是因為它累積了二十多年的經驗

且經過多次的增刪修改研究者也希望能有後續研究者投入後續的相關研究

並累積相關的資料以利決策者能創造出適合台灣學生的最佳學習環境

叁開放性問題的評量研究

在此次研究中發現學生對於開放性問題的解題能力非常不足對於設計

好的題目較難提出歸納模式或者合理的推測這或許歸因於教學現場中的標

91

準化測驗在整個學習過程中教學活動跟教學評量是交互不斷進行而常常

受限於時間跟經濟因素教師只能被迫選擇標準化測驗以診斷學生學習困難

處但是標準化測驗容易讓學生誤以為答案是唯一的而且數學知識是可以切

割成不相關的小部分的因此在國民中小學九年一貫課程綱要中提出「教師

應透過各種評量方式以檢驗教學效果」的觀念研究者建議後續研究者能進一

步探討這方面的相關研究

肆國際比較的重要性

許多國家多年以前即開始參與大型國際研究以了解自己國家學生與其他

不同國家或區域的學生學習成就的差異特別的是此類國際研究對於結果的分

析是深入且多面向的包括學生家庭背景班級學校等民國 95 年中國時

報特別以專欄方式提出芬蘭的教育成功經驗以供國內教育改革的參考為什

麼要特別提出芬蘭呢因為芬蘭在重要的國際比較研究中常常名列前矛所

以參與大型的國際研究可以找出成功的經驗減少自己摸索的時間

92

參考文獻

壹中文部份

王秀琲 (民 92)實作評量在國小數學科之應用-以五年級學童分數為例國立

臺中師範學院教育測驗統計研究所碩士論文

方泰山(民 91)第四次 TIMSS 2003 NRC 自由反應評分系統研討會會議報告

httpichochemntnuedutwpub4thnrcreporthtm

石千奇(民 93)國小六學童在數學實作評量中的小組解題歷程分析國立中山

大學教育研究所碩士論文

江文慈(民 87)一個新評量理念的探討多元智力取向的評量教育資料與研

究20 期6-12

曲慧娟 (民 94)實作評量在國中學術性向優異班招生鑑定之效度研究~以臺灣

北區為例國立臺灣師範大學特殊教育研究所碩士論文

李坤崇(民 88)多元化教學評量台北心理

余民寧(民 93)教育測驗與評量-成就測驗與教學評量第二版台北心理

吳毓瑩(民 85)評量的蛻變與突破-從哲學思潮與效度理論參考起教育資料

與研究13 期2-15

李虎雄張敏雪(民 87)由學力評量觀點談實作評量之特性測驗與輔導

3104-3108

吳明隆(民 87)教室做為評量環境的內涵與其評量新趨勢研習資訊15 卷

4期62-77

93

吳清山林天佑(民 85)教育名詞 mdash分流教育教育資料與研究885

李長柏(民 91)國小數學簡單機率解題實作評量與後設認知之相關研究國立

臺中師範學院教育測驗統計研究所碩士論文

呂政隆(民 93)國小學童在數學實作評量解題整合認知與課程之相關研究

國立臺中師範學院教育測驗統計研究所碩士論文

呂金燮(民 88)實作評量-理論載於王文中呂金燮吳毓瑩張郁雯張淑

慧(合著)教育測驗與評量教室學習觀點(頁 173-207)台北五

李茂能(民 85)信度考驗的另一途徑推論力理論國民教育學報227-48

林清山(民 81)心理與教育統計學台北東華

林敬修(民 92)影響國小數學科實作評量信度相關因素之類推性理論分析國

立屏東師範學院教育心理與輔導學系研究所碩士論文

洪之昀(民 89)數學科實作評量對國小高年級學童學習策略影響之研究國立

臺中師範學院教育測驗統計研究所碩士論文

桂怡芬吳毓瑩(民 87)自然科實作評量的效度探討測驗年刊45(2)19-36

桂怡芬(民 85)自然科實作評量的效度探討國立台北師範學院國民教育研究

所碩士論文

桂怡芬(民 85)紙筆與實作的互補我的實作評量經驗教育資料與研究13

期36-40

徐美英(民 89)TIMSS 數學實作評量在台灣之試用探討國立臺中師範學院教

育測驗統計研究所碩士論文

94

夏淑琴(民 88)教學評量革新-多元評量載於高強華主編(民 88)學校變遷與

學校革新台北師大

教育部(民 92)國民中小學九年一貫課程綱要數學學習領域台北教育部

張紹勳張紹評林秀娟(民 92a)SPSS For Windows 統計分析初等統計與高

等統計(上冊)(第四版)台北文魁資訊股份有限公司

張紹勳張紹評林秀娟(民 92b)SPSS For Windows 統計分析初等統計與高

等統計(下冊)(第四版)台北文魁資訊股份有限公司

張敏雪(民 86)實作評量的本質及國民中小學數理科教師對實作評量的態度探

討國立臺灣師範大學數學研究所碩士論文

張敏雪(民 87)教室內的實作評量教育資料與研究20 期24-27

張敏雪(民 86)實作評量的本質及國民中小學數理科教師對實作評量的態度探

討國立師範大學數學研究所碩士論文

張英傑等著(民 94)數學科教師手冊台南南一書局

張永杰 (民 92)實作評量取向的幾何思考研究國立臺灣大學國際企業學研究

所碩士論文

張麗麗(民 91a)從分數的意義談實作評量效度的建立教育研究月刊9837-51

張麗麗(民 91b)評量改革的應許之地虛幻或真實-談實作評量之作業與表

現規準教育研究月刊9376-86

郭生玉(民 84)心理與教育研究法台北精華

陳英豪吳裕益(民 85)測驗與評量高雄復文

95

陳文典陳義勳李虎雄簡茂發(民 84)由馬里蘭州的學習成就評量與其在

台灣的施測結果看-實作評量的功能與應用科學教育月刊185 期

2-10

陳昭地(民 88)「第三次國際數學與科學教育成就研究」後續調查

httpreporticentnutwnscreportTIMSS-R(1999)實測後

期中報告--交國科會htm

陳怡玉(民 94)降低國小數學科實作評量人和作業交互作用變異方法的探討---

以類推性理論分析國立臺南大學測驗統計研究所碩士論文

莊明貞(民 84)變通性評量的發展與實施研習簡訊261

莊明貞(民 85)實作評量理論與實際教育資料與研究9期44-48

曾惠敏(民 87)國小分數概念實作評量之發展及其相關研究國立台南師範學

院國民教育研究所碩士論文

游麗卿(民 87)從實作表現診斷學生乘除法的錯誤概念觀念測驗與輔導雙月

刊149 期3094-3099

鄒慧英譯(民 92)測驗與評量(原作者 Robert L linn and Norman E

Gronlund)台北洪葉文化

鄒慧英(民 86)實作型評量的品管議題兼談檔案評量的應用載於八十七年度

教育測驗新近發展趨勢學術研討會

詹志禹(民 85)評量改革為什麼要進行-回應吳毓瑩<評量的蛻變與突破>

教育資料與研究13 期45-47

96

詹元智(民 91)國小數學科實作評量之效度探討國立屏東師範學院教育心理

與輔導研究所碩士論文

蔡正濱(民 95)國小數學科實作評量評分者ㄧ致性相關因素探討國立屏東教

育大學教育心理與輔導學系研究所碩士論文

鄭麗玉(民 88)教學評量的改革教師之友40 卷1期23-33

歐滄和(民 91)教育測驗與評量台北心理

盧雪梅(民 87)實作評量的應許難題和挑戰教育資料與研究20 期1-5

簡茂發(民 80)命題方法與試題分析國教輔導31(1)2-13

蘇義翔(民 86)實作評量的理論與啟示測驗與輔導3099-3102

貳英文部分

Airasian PW (1991) Classroom assessment New York McGraw-Hill

Airasian PW (1994) Classroom assessment(2nd ed)NewYork

McGraw-Hill

Baron J B (1991) Strategies for the development of effective

performance exercise Applied Measurement in Education 4(4)

305-318

Baxter G P Shavelson R J Goldman S R amp Pine J

(1992) Evaluation of a procedure-based scoring for hands-on

science assessment Journal of Educational Measurement 29(1)

1-17

97

Baxter G P Shavelson R J Herman S J Brown K A amp Valadez

J R(1993) Mathematics performance as sessment technical

quality and diverse student impact Journal for Research in

Mathematics Education 24(3) 1990-216

Dunbar S B Koretz DM amp Hoover HD(1991) Quality control control

in the development and use performance assessmentApplied

Measurement in Educational 4(4) 289-303

Frechtling J A (1991) Performance assessment Moonstruck or the real

thing Educational Measurement Issues and Practice 10(4)

23-25

Haertel EH and Linn RL (1996) ldquoComparability in GW Philips

(Ed) Technical Issues in Large-Scale Performance Assessment

Washington DC National Center for Education Statistics

Harmon M amp KellyTA(1996) Development and Design of the TIMSS

performance Assessment In MartinMO and Kelly

DL(eds)Third International Mathematics and Science Study

(TIMSS) Technical Report Volume I Design andd Development

Chestnut Hill MABoston College

Herman JL Aschbacher PR amp Winters L(1990 November) Issues in

developing alternative assessments Paper presented at the

annual meeting of the California Educational Research

Association Chicago

98

Mullis IVS Martin MO Gonzalez EJ Chrostowski SJ(2005)

TIMSS 2003 International Mathematics Report

httptimssbcedutimss2003imathDhtml p31-p47

Linn RL(1993) Educational assessment Expanded expectations and

challenges Educational Evaluation and Policy Analysis 15(1)

1-16

Linn RL Bader EL amp Dunbar SB(1991) Complex Performemce-based

assessmentexpectations and validation criteria Educational

Researcher 20(8) 1521

Linn RL (2000) Assessments and accountability Educational Researcher

29(2) 4-16

Long C amp Stansbury K (1994) Performance assessment for beginning

teachers Phi Delta Kappan76318-322

Messick S (1994) The interplay of evidence and consequences in the

validation of performance assessments Educational Researcher

23(2) 13-23

Messick S (1995) Standards of validity and the validity of standards

in performance assessment Educational Measurement Issues and

Practice 14(4) 5-8

Martin MOMullis IVSChrostowski SJ(2005)TIMSS 2003 Technical

Report httptimssbcedutimss2003itechnicalDhtml

Martin MO(2005) TIMSS 2003 User Guide for the International Database

99

httptimssbcedutimss2003itechnicalDhtml

Miller M D amp Linn R L (2000) Validity of performance-based

assessments Applied Psychological Measurement 24(4) 367-378

Moss P (1994) Can there be validity without reliability Educational

Researcher 23 (2) 5-12

Mullis IVS Martin MO amp Foy P (2005) IEAs TIMSS 2003

International Report on Achievement in the Mathematics Cognitive

Domains httptimssbcedutimss2003imcgdmhtmlp15-p36

Roid G H amp Haladyna T M (1982) A technology for test-item writing

Orlando FL Academic Press

Ruiz-Primo M A Baxter G P amp Shavelson R J(1993) On the stability

of performance assessments Journal of Educational Measurement

30(1) 41-53

Shavelson R J Baxter G P amp Gao X (1993) Sampling variability of

performance assessments Journal of Educational Measurement 30

3215-32

Shavelson R J amp Webb N W (1991) Generalizability theory A primer

Newbury Park CASage

Shepard L A Flexer R J Hiebert E H Marion S F Mayfield

V amp Weston TJ (1996) Effects of introducing classroom

performance assessments on student learning Educational

Measurement Issues and Practice 15(3) 7-18

100

Schmidt W H Jorde D Cogan L Barrier E Gonzalo I Moser U

Shimizu K Sawada T Valverde G Prawat R Mcknight C

Raizen S Britton E Wiley D amp Wolfe R (1996)

Characterizing pedagogical flow An investigation of

mathematics and science teaching in six countries Hinglham

MAKluwer

Silver E A (1993) On mathematical problem posing In N Nohda amp F L

Lin (Eds) Proceedings of the Seventeenth Annual Meeting of the

International Group for the Psychology of Mathematics Education

Vol 1 (pp 66-85) Tsukuba Japan Author

Stiggins R J (1994) Stundent-centered classroom assessment New York

MerrillMacmillan

Stiggins R J (1987) Design and development of performance assessment

Educational Measurement Issues and Practice 6(3)33-42

Telese J A amp Kulm G (1995) Performance-based assessment of at-risk

students in mathematics The effects of context and setting

Paper presented at Annual Meeting of the American Educational

Research Association (ERIC Document Reproduction Service No

ED 382 685)

TIMSS (1997) Performance Assessment in IEAs Third International

Mathematics And Science Study Chestnut Hill MABoston

College

Webb G (1992) On pretexts for higher education development activities

101

Higher Education 24 (3) pp351-61

Wiggins G(1998) Educative assessment Designing assessments to inform

and improve student performance San Francisco California

Jossey-Bass

102

附錄

附錄一TIMSS 2003 參與的國家

Argentina

Armenia

Australia

Bahrain

Belgium (Flemish)

Botswana

Bulgaria

Chile

Chinese Taipei

Cyprus

Egypt

England

Estonia

Ghana

Hong Kong SAR

Hungary

Indonesia

Iran Islamic Republic of Israel

Italy

Japan

Jordan

Korea Republic of Latvia

Lebanon

Lithuania

Macedonia Republic of Malaysia

Moldova

Morocco

Netherlands

New Zealand

Norway

Palestinian National Authority

Philippines

Romania

Russian Federation

Saudi Arabia

Scotland

Serbia

Singapore

Slovak Republic

Slovenia

South Africa

Sweden

Syrian Arab Republic

Tunisia

United States

Yemen Republic of

103

附錄二題目

一猜一猜

媽媽有一個裝滿豆子的密封罐有一天媽媽將豆子分別倒在 9個碗中前 4個

碗中豆子的數量分別是 29313128 個

1 請你猜一猜罐子中大約有幾個豆子

2把你的想法寫出來

二魔術師

一 材料9張紙剪刀一個信封

二你的工作

1 將紙對摺一次或一次以上並剪掉部分的紙使紙的形狀符合題目所給的

形狀

2 每張紙摺疊的次數和形狀隨你喜歡但只能剪一次

【第一題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後

做出如圖一的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

【第二題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後做出如

圖二的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

(在每張你使用過的紙寫上 1和名字)

104

(圖二)

【第三題】

要摺幾次視需要而定只能直直的剪一次不能轉彎將紙張開後做出如圖三

的圖形如果剪失敗你可以再試另一張紙你總共有三次機會

(圖三)

三擲骰子

一材料一個骰子搖杯

二你的工作

當我們用一個規則來改變骰子擲出來的數字你發現了什麼

改變數字的規則是

當骰子擲出的數字是奇數時減 1並記下結果

當骰子擲出的數字是偶數時加 2並記下結果

1 在下列表中已經示範了兩個例子給你看使用這個規則並找其他

改變後的數字完成這個表格

(在每張你使用過的紙寫上 2和名字)

(在每張你使用過的紙寫上 3和名字)

105

骰子的數字 改變後的數字

2

6

2 看看你所紀錄的「改變後的數字」你發現了什麼

3 擲骰子 30 次並使用規則去改變每次所擲的數字將它紀錄下來

寫在下列的表格中

106

骰子的數字 改變後的數字 骰子的數字 改變後的數字

4將表 3中各個改變後數字出現的次數記在下表中

改變後的數字 次數

0

1

2

3

4

5

6

7

8

5a哪一個數字是你紀錄次數最多的

107

5b為什麼會這樣請寫出你的看法

四幾何方塊

在這一大題你會拿到一張紙板紙板上有10 張小卡片(如下圖)請將這些

正方形卡片分開若你沒有拿到紙卡請舉手

甲利用2 張黑白相間方塊拼出一個較大的黑色三角形並將您的拼法塗在下面

指定的區域

在這裡用斜線塗出

您拼出的黑色三角形

3 個白色方塊

4 張黑白相間方塊

3 個黑色方塊

108

乙利用4 張黑白相間方塊拼出一個黑色的正方形並將您的拼法塗在下面指定

的區域

在這裡用斜線塗出

您拼出的黑色正方形

丙在第乙題中塗黑色的部分佔了全部的幾分之幾

作出分數

甲不准使用黑白相間方塊將4 張方塊拼出一個正方形使得黑色的部分佔

21

並將您的拼法塗在下面指定的區域

在這裡用斜線塗出

您拼出的黑色部分

109

乙請用8 張方塊拼出一個如下圖的長方形使得黑色部分佔

85

並將您的拼法塗在下面指定的區域

在這裡用斜線塗出

您拼出的黑色部分

五圖形題

甲請畫一條直線將這個長方形分成2 個三角形

110

乙請畫一條直線將這個長方形分成2 個長方形

丙請畫兩條直線將這個長方形分成1 個長方形和2 個三角形

丁在下圖的四個三角形中有兩個是形狀相同但大小不同請把這兩個三角形

塗上顏色(線甲乙跟線丙丁平行)

六數字卡

在這部分你將會拿到一張印有 0到 9的數字卡如下圖請將這些數字卡

取下來

甲 乙

1 2

3

4

111

總和為ldquo20的數字遊戲

小杰與小明這兩個小孩正在玩一個ldquo總和為 20的遊戲其規則如下

總和為ldquo20的規則

(1)抽數字卡每一個人抽出三張數字卡

(2)加數字卡每一個人利用這三張數字卡做出一個加法問題使得算出

的總和最接近 20 例如假如抽出的數字卡 將數字任意組

合後下面是其中四種可能的方法

+ + + +

5 5 4 6 1 9 +

1 0

15

這時玩家應該選擇 + 4 因為它的總和 19最接近 20

19

小杰和小明開始玩遊戲了小杰抽出了 三張數字卡小明抽

出了 三張數字卡

(1)小杰要如何安排三張數字卡做出一個加法問題才能讓它的總和為最

接近 20記得要寫總和

0 1 2 3 4

5 6 7 8 9

1 4 5

1

4

5 1

4

5

1

4 51

4

5

972

6 3 1

112

(2)小明要如何安排三張數字卡做出一個加法問題才能讓它的總和最接

近 20記得要寫總和

(3)小明說假如我抽到 我可以用兩種方法做出總和 20

請告訴我們小明用哪兩種方法可以使 做出總和 20

第一種方法

第二種方法

找出最大的數

小杰和小明利用數字卡玩另一個新的遊戲就是利用三張數字卡做出最

大的數

甲將 三張數字卡填入下列的格子內讓相加的結果為最大

乙將 三張數字填入下列的格子內讓相減的結果為最大

丙將 三張數字卡填入下列的格子內讓相乘的結果為最大

times

1 4 6

1 4 6

9 5 1

+

-

2 3 7

1 4 5

113

附錄三給老師的話

題目猜一猜

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說

明如下

題目預測的能力

測量學生在生活情境中了解概數意義的能力

實施時間

20 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意讓同學清楚的知道這份試卷要他們

做的是什麼

評量結束後收回試紙

注意要點

請老師先做一次示範給學生看完之後再讓學生作答

請老師提醒學生計算完後要記得將他們為什麼要這樣做的原因寫清楚

評分標準

等級 5 算出前 4碗豆子的總和再乘以 2再加上一個合理的近似值或使用估

計或平均值找出每一碗豆子的近似值再乘以 9

等級 4 合理的估計其他各碗的豆子數量並算出總和

等級 3 推測出大部分合理少部分不合理的估計值並算出總和

等級 2 推論出一個杯子約有 30 個但未算出總和

等級 1 將已知碗的數量變成一組模式將此模式推論至其他碗不一定剛好總

114

和為 10 個碗

等級 0 未作答或不知所云

題目幾何方塊

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說

明如下

題目預測的能力

這是一種包含幾何跟數與量的題目其中幾何的部份是要求學生建立一個二

維圖形並滿足題目的要求(數與量)

實施時間

30 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意讓同學清楚的知道這份試卷要他們

做的是什麼

評量結束後收回試紙

注意要點

請老師提醒學生答案是用鉛筆塗在指定的區域並且不可以超過格線並不是將

紙卡貼在題目上要注意

請老師提醒學生撕紙卡要小心務必要使用剪刀或直尺沿著線撕

評分標準

115

給分範圍1分

給分範圍0分

(1)雖然使用 2塊黑白相間方塊組合但卻變成 2個小三角形而不是組合成 1

個大三角形

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

給分範圍1分

給分範圍0分

(1)雖然使用 4塊黑白相間方塊組合但卻不是組合成 1個大的黑色正方形

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

116

給分範圍1分

(1) 21

或是它的等值分數

(2)乙题雖然畫錯但此題答案正確

給分範圍0分

(1) 41

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

做出分數

給分範圍1分

由 2塊白色跟 2塊黑色組合成請看下面的例子

給分範圍0分

(1)雖然得出 21但是使用黑白相間的方塊

(2)畫出黑色的部份佔 41

117

(3)畫出黑色的部份佔 43

(4)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(5)完全空白

給分範圍2分

任何使用 3塊黑色的方塊1塊白色的方塊和 4塊黑白相間的方塊的組合圖形

給分範圍1分

塗出 85的答案但不是使用正確的方塊組合

給分範圍0分

(1)塗出 21

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的回答)

(3)完全空白

題目魔術師

118

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生對稱的觀念空間關係及解決非例行問題的能力

施測時間

30 分鐘

實施步驟

1 發試紙和所需材料

2 題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的

知道這份試卷要他們做的是什麼

3 評量結束試紙及材料

注意要點

1請老師提醒學生每張紙只能直直的剪一次不可改變方向且要記得在紙上寫

編號和名字

評分標準

第一題1在紙上只剪一次

2有兩條正確的摺線

給分範圍2

第二題1在紙上只剪一次

2 有兩條正確的摺線

給分範圍2

第三題同上兩題

119

題目圖形題

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生二維空間的分割的觀念了解學生能否透過操作直尺或三角板在二維

空間上剪裁出指定的基本圖型並利用直觀的方式指出形狀相同但大小不同的三

角形

施測時間

30 分鐘

實施步驟

1 發試紙

2 題目解說實施評量前請老師加以說明題意讓學生清楚的知道這份試卷要他

們做的是什麼

3 評量結束收回試紙

評分標準

甲給分範圍1分

正確的畫一條對角線將長方形分成 2個三角形

給分範圍0分

(1)有畫出一條橫線或垂直線但不是畫出精確的對角線

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的

回答)

(3)完全空白

乙給分範圍1分

120

正確的畫一條橫線或垂直線將長方形分成 2個長方形

給分範圍0分

(1)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回

答)

(2)完全空白

丙給分範圍1分

正確的畫兩條線將長方形分成 1個較小的長方形跟兩個三角形

給分範圍0分

(1)有畫出兩條線但沒有將長方形分割成兩個較小的長方形或有分割成

兩個較小的長方形卻沒有在其中之ㄧ上畫出精確的對角線

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(3)完全空白

丁給分範圍1分

在三角形 3跟三角形 4上塗上顏色

給分範圍0分

(1)在三角形 1跟三角形 2上塗上顏色

(2)在三角形 2跟三角形 4上塗上顏色在三角形 1跟三角形 3上塗上顏色

在三角形 1跟三角形 4上塗上顏色在三角形 2跟三角形 3上塗上顏色

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

121

題目數字卡

親愛的老師

您好感謝您參與此次數學科實作評量的研究關於此次施測的注意事項說明如

題目欲測的能力

測量學生計算的規則與策略及對數字的觀念並能運用所學過的概念於計算策

略上

施測時間

30 分鐘

實施步驟

1 發試紙和所需材料

2 題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的

知道這份試卷要他們做的是什麼

3 評量結束試紙及材料

評分標準

總和為 20 的數字遊戲

甲給分範圍1分

(1)寫出 2+7+9=18

(2)沒有任何算式但有答案是 18 者

給分範圍0分

(1)有寫出算式 2+7+9 但沒有答案 18 出現

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以 辨認或偏離主題的

回答)

(3)完全空白

122

乙給分範圍1分

(1)13+6=19 或 16+3=19

(2)沒有任何算式但有答案是 19 者

給分範圍0分

(1)有寫出算式 13+6 或 16+3 但沒有答案 19 出現

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回

答)

(3)完全空白

丙給分範圍2分

兩種方法都正確(16+4 和 14+6)

給分範圍1分

只有寫出其中一種方法(16+4 或 14+6)

給分範圍0分

(1)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(2)完全空白

找出最大的數

甲給分範圍1分

91+5 或 95+1

給分範圍0分

(1)將 159擺在任何其他不正確的位置

(2)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(3)完全空白

123

乙給分範圍1分

73-2

給分範圍0分

(1)72-3

(2)將 237擺在任何其他不正確的位置

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

丙給分範圍1分

41times5

給分範圍0分

(1)51times4

(2)將 145擺在任何其他不正確的位置

(3)其他不正確回答(包括刪掉 畫掉 擦掉或難以辨認的或偏離主題的回答)

(4)完全空白

題目擲骰子

親愛的老師

您好感謝您參與此次數學科學實作評量的研究關於此次施測的注意事項說明

如下

題目欲測的能力

測量學生對於任意數字計算紀錄和分析的能力以及辨識並解釋記錄資料

的結果

施測時間

124

30 分鐘

實施步驟

發試紙和所需材料

題目解說實施評量前請老師加以說明題意及材料的使用方法讓學生清楚的知

道這份試卷要他們做的是什麼

評量結束後收回試紙及材料

評分標準

第一題正確的計算出(042648)

給分範圍2

第二題1描述的類型與資料一致

2形式可以是一個或多個以下的情形所有的數字都是偶數數字

的範圍從 0~84 出現 2次數字排列有規則如+4-2+4-2

給分範圍1

第三題1至少完成 25 次擲骰子的紀錄

2正確的計算

給分範圍2

第四題統計的次數與第三題的資料一致

給分範圍2

第 5a 題答案與資料一致

給分範圍1

第 5b 題對觀察的數字提供合理的解釋

給分範圍1

125

附錄四分析資料補充

附錄四表格中以數字 1代表新加坡數字 2代表香港數字 3代表日本數字

4代表台灣 2003 年原始資料數字 5代表比利時數字 6代表美國數字 7代表

施測學校

一圖形題補充

表附錄 4-1-1 圖形題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 187 0 32 0 64 0 50 新加

坡甲 1 916

香港

甲 1 725

日本

甲 1 703

台灣

甲 1 726

得分 次數 得分 次數 得分 次數 得分 次數

0 69 0 9 0 75 0 39 新加

坡乙 1 1034

香港

乙 1 748

日本

乙 1 692

台灣

乙 1 737

得分 次數 得分 次數 得分 次數 得分 次數

0 329 0 107 0 196 0 119新加

坡丙 1 774

香港

丙 1 650

日本

丙 1 571

台灣

丙 1 657

得分 次數 得分 次數 得分 次數 得分 次數

0 424 0 386 0 281 0 267新加

坡丁 1 679

香港

丁 1 371

日本

丁 1 486

台灣

丁 1 509

得分 次數 得分 次數 得分 次數

0 130 0 447 0 8 比利

時甲 1 649

美國

甲 1 1189

施測

甲 1 113

得分 次數 得分 次數 得分 次數

0 69 0 201 0 5 比利

時乙 1 710

美國

乙 1 1435

施測

乙 1 116

得分 次數 得分 次數 得分 次數

0 386 0 1100 0 21 比利

時丙 1 393

美國

丙 1 536

施測

丙 1 100

得分 次數 得分 次數 得分 次數

0 386 0 732 0 27 比利

時丁 1 393

美國

丁 1 904

施測

丁 1 94

126

表附錄 4-1-1(續) 圖形題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 44 0 6 0 31 0 17

1 75 1 17 1 44 1 20

2 137 2 64 2 64 2 45

3 334 3 331 3 232 3 257

新加

坡總

4 513

香港

總分

4 339

日本

總分

4 396

台灣

總分

4 437

得分 次數 得分 次數 得分 次數

0 36 0 114 0 0

1 72 1 243 1 5

2 176 2 389 2 5

3 259 3 517 3 36

比利

總分

4 236

美國

總分

4 373

施測

總分

4 75

表附錄 4-1-2 圖形題各國事後分析表

圖形題甲 圖形題乙

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0130 0000 1 2 -0051 0013

3 -0086 0000 3 0035 0247

4 -0110 0000 4 -0012 0987

5 -0003 1000 5 0026 0631

6 0100 0000 6 0060 0000

2 3 0041 0514 2 3 0086 0000

2 4 0022 0958 4 0038 0244

5 0120 0000 5 0077 0000

6 0230 0000 6 0110 0000

3 4 -0019 0980 3 4 -0048 0057

5 0083 0001 5 -0009 0998

6 0190 0000 6 0025 0594

4 5 0100 0000 4 5 0038 0237

6 0210 0000 6 0073 0000

5 6 0110 0000 5 6 0034 0190

127

表附錄 4-1-2(續) 圖形題各國事後分析表

圖形題丙 圖形題丁

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0160 0000 1 2 0130 0000

3 -0043 0637 3 -0018 0996

4 -0140 0000 4 -0040 0798

5 0200 0000 5 0110 0001

6 0370 0000 6 0063 0092

2 3 0110 0000 2 3 -0140 0000

2 4 0012 1000 4 -0170 0000

5 0350 0000 5 -0014 0999

6 0530 0000 6 -0063 0209

3 4 -0100 0002 3 4 -0022 0992

5 0240 0000 5 0130 0000

6 0420 0000 6 0081 0027

4 5 0340 0000 4 5 0150 0000

6 0520 0000 6 0100 0001

5 6 0180 0000 5 6 -0048 0533

圖形題總分

(I) (J) 平均差異 (I-J) p-value

1 2 -0210 0008

3 -0110 0540

4 -0300 0000

5 0330 0000

6 0600 0000

2 3 0098 0778

4 -0093 0812

5 0540 0000

6 0810 0000

3 4 -0190 0051

5 0440 0000

6 0710 0000

4 5 0630 0000

6 0900 0000

5 6 0270 0000

128

二數字卡題型

表附錄 4-2-1 數字卡題各國得分統計表

分數 次數 分數 次數 分數 次數 分數 次數

0 284 0 144 0 128 0 118新加

坡 1 1 277

香港

1 1 239

日本

1 1 234

台灣

1 1 273

分數 次數 分數 次數 分數 次數 分數 次數

0 243 0 177 0 138 0 134新加

坡 2 1 318

香港

2 1 206

日本

2 1 224

台灣

2 1 257

分數 次數 分數 次數 分數 次數 分數 次數

0 171 0 142 0 117 0 111

1 28 1 13 1 30 1 23

新加

坡 3

2 362

香港

3

2 228

日本

3

2 215

台灣

3

2 257

分數 次數 分數 次數 分數 次數 分數 次數

0 161 0 111 0 89 0 138新加

坡 4 1 400

香港

4 1 272

日本

4 1 273

台灣

4 1 253

分數 次數 分數 次數 分數 次數 分數 次數

0 172 0 119 0 95 0 145新加

坡 5 1 389

香港

5 1 264

日本

5 1 267

台灣

5 1 246

分數 次數 分數 次數 分數 次數 分數 次數

0 413 0 290 0 231 0 303新加

坡 6 1 148

香港

6 1 93

日本

6 1 131

台灣

6 1 88

分數 次數 分數 次數 分數 次數

0 207 0 476 0 38 比利

時 1 1 187

美國

1 1 339

施測

1 1 82

分數 次數 分數 次數 分數 次數

0 175 0 442 0 29 比利

時 2 1 219

美國

2 1 373

施測

2 1 91

分數 次數 分數 次數 分數 次數

0 149 0 308 0 14

1 27 1 48 1 11

比利

時 3

2 218

美國

3

2 459

施測

3

2 95

129

表附錄 4-2-1(續) 數字卡題各國得分統計表

分數 次數 分數 次數 分數 次數

0 175 0 380 0 36 比利

時 4 1 219

美國

4 1 435

施測

4 1 84

分數 次數 分數 次數 分數 次數

0 179 0 410 0 38 比利

時 5 1 215

美國

5 1 405

施測

5 1 82

分數 次數 分數 次數 分數 次數

0 321 0 705 0 94 比利

時 6 1 73

美國

6 1 110

施測

6 1 26

分數 次數 分數 次數 分數 次數 分數 次數

0 64 0 38 0 21 0 37

1 39 1 25 1 23 1 33

2 62 2 36 2 35 2 21

3 40 3 50 3 44 3 44

4 60 4 49 4 34 4 41

5 87 5 51 5 59 5 60

6 137 6 93 6 89 6 102

新加

坡總

7 72

香港

總分

7 41

日本

總分

7 57

台灣

總分

7 53

分數 次數 分數 次數 分數 次數

0 31 0 135 0 5

1 48 1 94 1 5

2 49 2 98 2 9

3 67 3 101 3 9

4 61 4 114 4 16

5 63 5 101 5 20

6 55 6 130 6 40

比利

時總

7 20

美國

總分

7 42

施測

總分

7 16

130

表附錄 4-2-2 數字卡題各國事後分析表

第一題 第二題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0130 0013 1 2 0029 0992

3 -0153 0001 3 -0052 0873

4 -0204 0000 4 -0090 0252

5 0019 0999 5 0011 1000

6 0078 0206 6 0109 0012

2 3 -0022 0999 2 3 -0081 0537

4 -0074 0612 4 -0119 0076

5 0149 0006 5 -0018 1000

6 0208 0000 6 0080 0326

3 4 -0052 0908 3 4 -0039 0979

5 0172 0001 5 0063 0796

6 0231 0000 6 0161 0000

4 5 0224 0000 4 5 0102 0212

6 0282 0000 6 0200 0000

5 6 0059 0697 5 6 0098 0101

第三題 第四題

1 2 0116 0734 1 2 0003 1000

3 0070 0974 3 -0041 0948

4 -0033 1000 4 0066 0612

5 0165 0287 5 0157 0000

6 0155 0156 6 0179 0000

2 3 -0046 0998 2 3 -0044 0952

4 -0149 0543 4 0063 0751

5 0049 0997 5 0154 0002

6 0039 0998 6 0176 0000

3 4 -0103 0889 3 4 0107 0141

5 0096 0918 5 0198 0000

6 0085 0907 6 0220 0000

4 5 0198 0174 4 5 0091 0294

6 0188 0091 6 0113 0019

5 6 -0010 1000 5 6 0022 0997

131

表附錄 4-2-2(續) 數字卡題各國事後分析表

第五題 第六題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0004 1000 1 2 0021 0996

3 -0044 0931 3 -0098 0050

4 0064 0655 4 0039 0914

5 0148 0001 5 0079 0203

6 0197 0000 6 0129 0000

2 3 -0048 0929 2 3 -0119 0015

4 0060 0801 4 0018 0999

5 0144 0008 5 0058 0699

6 0192 0000 6 0108 0006

3 4 0108 0140 3 4 0137 0002

5 0192 0000 5 0177 0000

6 0241 0000 6 0227 0000

4 5 0083 0425 4 5 0040 0933

6 0132 0003 6 0090 0047

5 6 0049 0838 5 6 0050 0675

數字卡總分

1 2 0043 1000

3 -0318 0582

4 -0159 0975

5 0579 0012

6 0847 4850

2 3 -0361 0529

4 -0201 0948

5 0536 0067

6 0804 0000

3 4 0159 0985

5 0897 0000

6 1165 0000

4 5 0738 0001

6 1006 0000

5 6 0268 0673

132

三幾何方塊題型

表附錄 4-3-1 幾何方塊題各國得分統計表

得分 次數 得分 次數 得分 次數 得分 次數

0 633 0 303 0 165 0 322新加

坡甲 1 482

香港

甲 1 458

日本

甲 1 604

台灣

甲 1 445

得分 次數 得分 次數 得分 次數 得分 次數

0 617 0 403 0 218 0 348新加

坡乙 1 499

香港

乙 1 358

日本

乙 1 551

台灣

乙 1 419

得分 次數 得分 次數 得分 次數 得分 次數

0 312 0 227 0 341 0 297新加

坡丙 1 804

香港

丙 1 534

日本

丙 1 428

台灣

丙 1 470

得分 次數 得分 次數 得分 次數 得分 次數

0 494 0 429 0 425 0 519新加

坡丁 1 622

香港

丁 1 332

日本

丁 1 344

台灣

丁 1 248

得分 次數 得分 次數 得分 次數 得分 次數

0 385 0 352 0 291 0 407

1 603 1 359 1 374 1 297

新加

坡戊

2 128

香港

2 50

日本

2 104

台灣

2 63

得分 次數 得分 次數 得分 次數

0 372 0 985 0 6 比利

時甲 1 398

美國

甲 1 655

施測

甲 1 113

得分 次數 得分 次數 得分 次數

0 348 0 976 0 13 比利

時乙 1 422

美國

乙 1 664

施測

乙 1 106

得分 次數 得分 次數 得分 次數

0 437 0 884 0 30 比利

時丙 1 333

美國

丙 1 756

施測

丙 1 89

得分 次數 得分 次數 得分 次數

0 373 0 908 0 23 比利

時丁 1 397

美國

丁 1 732

施測

丁 1 96

133

表附錄 4-3-1(續) 幾何方塊題各國得分統計表

得分 次數 得分 次數 得分 次數

0 335 0 754 0 29

1 340 1 762 1 57

比利

時戊

2 95

美國

2 124

施測

2 33

得分 次數 得分 次數 得分 次數 得分 次數

0 141 0 86 0 52 0 115

1 126 1 83 1 78 1 111

2 167 2 128 2 122 2 121

3 257 3 205 3 157 3 183

4 178 4 143 4 153 4 123

5 153 5 81 5 138 5 73

新加

坡總

6 93

香港

總分

6 35

日本

總分

6 69

台灣

總分

6 41

得分 次數 得分 次數 得分 次數

0 100 0 331 0 1

1 101 1 250 1 1

2 154 2 317 2 5

3 164 3 300 3 22

4 127 4 246 4 26

5 73 5 127 5 38

比利

時總

6 51

美國

總分

6 69

施測

總分

6 26

134

表附錄 4-3-2 幾何方塊題各國事後分析表

第一題 第二題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 -0170 0000 1 2 -0023 0984

3 -0350 0000 3 -0270 0000

4 -0150 0000 4 -0099 0005

5 -0085 0028 5 -0100 0003

6 0033 0793 6 0042 0545

2 3 -0180 0000 2 3 -0250 0000

4 0022 0993 4 -0076 0160

5 0085 0062 5 -0078 0138

6 0200 0000 6 0066 0152

3 4 0210 0000 3 4 0170 0000

5 0270 0000 5 0170 0000

6 0390 0000 6 0310 0000

4 5 0063 0350 4 5 -0002 1000

6 0180 0000 6 0140 0000

5 6 0120 0000 5 6 0140 0000

第三題 第四題

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0019 0995 1 2 0120 0000

3 0160 0000 3 0110 0001

4 0110 0001 4 0230 0000

5 0290 0000 5 0042 0773

6 0260 0000 6 0110 0000

2 3 0150 0000 2 3 -0011 1000

4 0089 0043 4 0110 0003

5 0270 0000 5 -0079 0127

6 0240 0000 6 -0010 1000

3 4 -0056 0514 3 4 0120 0000

5 0120 0000 5 -0068 0285

6 0096 0002 6 0001 1000

4 5 0180 0000 4 5 -0190 0000

6 0150 0000 6 -0120 0000

5 6 -0029 0934 5 6 0069 0110

135

表附錄 4-3-2(續) 幾何方塊題各國事後分析表

第五題 總分

(I) (J) 平均差異 (I-J) p-value (I) (J) 平均差異 (I-J) p-value

1 2 0170 0000 1 2 0120 0913

3 0013 1000 3 -0330 0008

4 0220 0000 4 0320 0017

5 0081 0294 5 0230 0233

6 0150 0000 6 0600 0000

2 3 -0150 0001 2 3 -0450 0000

4 0052 0872 4 0200 0521

5 -0085 0348 5 0110 0949

6 -0013 1000 6 0490 0000

3 4 0210 0000 3 4 0650 0000

5 0069 0627 5 0560 0000

6 0140 0000 6 0940 0000

4 5 -0140 0008 4 5 -0087 0986

6 -0064 0514 6 0290 0023

5 6 0073 0354 5 6 0370 0000

Page 12: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 13: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 14: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 15: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 16: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 17: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 18: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 19: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 20: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 21: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 22: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 23: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 24: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 25: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 26: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 27: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 28: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 29: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 30: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 31: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 32: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 33: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 34: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 35: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 36: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 37: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 38: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 39: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 40: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 41: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 42: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 43: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 44: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 45: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 46: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 47: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 48: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 49: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 50: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 51: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 52: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 53: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 54: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 55: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 56: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 57: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 58: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 59: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 60: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 61: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 62: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 63: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 64: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 65: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 66: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 67: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 68: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 69: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 70: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 71: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 72: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 73: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 74: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 75: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 76: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 77: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 78: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 79: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 80: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 81: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 82: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 83: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 84: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 85: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 86: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 87: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 88: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 89: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 90: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 91: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 92: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 93: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 94: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 95: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 96: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 97: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 98: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 99: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 100: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 101: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 102: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 103: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 104: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 105: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 106: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 107: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 108: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 109: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 110: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 111: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 112: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 113: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 114: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 115: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 116: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 117: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 118: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 119: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 120: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 121: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 122: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 123: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 124: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 125: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 126: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 127: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 128: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 129: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 130: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 131: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 132: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 133: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 134: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 135: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 136: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 137: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 138: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 139: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 140: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 141: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 142: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 143: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 144: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 145: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 146: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較
Page 147: TIMSS數學實作評量試題在台灣試行 施測結果之分析比較