課程名稱︰心理測驗
課程性質︰必修
課程教師︰翁儷禎 姚開屏 合授
開課學院:理學院
開課系所︰心理學系
考試日期(年月日)︰109.11.23
考試時限(分鐘):120 分鐘
試題 :
1. 姚老師設計了一個修習統計態度量表,裡面有八個題目 (I1~I8),所有題目都設計為
正向陳述句,量尺採用:「非常不同意=1,不同意=2,沒意見=3,同意=4,非常同意
=5」。她想檢驗這個量表題目的心理計量特質,看是否可以刪除不好的題目,因此將
此些題目施測在12名心理系修統計的學生身上 (S1~S12),得到下面的結果:
https://imgur.com/a/0MgQ3Gk
(1) 光從以上的資料,你會怎麼篩選題目,請說明理由(使用的篩選標準)?
(2) 說明如何看題目的困難度 (difficulty) 及鑑別度 (discrimination)?(不用計
算)
(3) 計算各題目的信度 (item reliability)?
(4) 使用這樣的題目數與學生數有沒有什麼問題?請說明。
(5) 假如要刪減兩題(剩下六題),你會刪減哪兩題?為什麼(說明理由)?
2. 如果上面的度量資料轉換成「非常不同意=0,不同意=0,沒意見=0,同意=1,非常同
意=1」:
(1) 與第一大題比較(採 Likert scale),請問這樣的度量方法可能有什麼問題?請
說明。
(2) 請計算每個題目的平均數與變異數?以及 total test score mean?
(3) 利用這樣的資料(0與1),你會怎麼篩選題目,請說明理由(使用的篩選標準)?
(4) 計算各題目的困難度及鑑別度?(取高低分組時,可將所有樣本總分平分成三部
分)根據計算的結果,判定有沒有不好的題目。
(5) 畫出 I2 題的 item characteristic curve (ICC)。
3. 比較古典測驗理論 (CTT) 以及現代測驗理論(如:項目反應理論、IRT)的優缺點。
4. 設計一個用到 multistage sampling 的研究,其中能包含使用多個random sampling
方法在裡面。說明你的研究問題、母群、樣本、隨機抽樣方法等。
5. 談一談 Likert-typed rating scale 的假設。
6. 設計一個測量工具在考慮所使用的量尺度量時,請談一談該怎麼考慮要用幾點量尺?
談一談是使用奇數點還是偶數點好?
7. 回答下面的問題:
(1) Sampling frame 與 population 有什麼不同?
(2) 什麼是 DIF (differential item functioning)? DIF 與 biased item 的差別?
加分題:
1. 續第一大題,若這八題的總內部一致性系數 (Cronbach's alpha) 為 0.69,你覺得應
該要刪除哪些題目比較好,為什麼(說明理由)?
2. 支持 1-p 及 2-p/3-p IRT 模式的研究者意見不同,他們到底在吵什麼?(他們有哪
些不同的觀點)