研究被试拟合检验,有助于提高认知诊断评估结果的有效性
随着认知心理学和心理测量技术的进一步发展,人们不满足于只关注被试宏观能力的评价,还希望能量化被试微观的认知结构或心理加工过程。
因此,心理测量学和认知心理学家做了很多具有创造性的尝试和努力。
认知诊断理论应运而生,成为新一代测量理论的核心,受到越来越多心理测量学领域研究者的关注。
众多心理测量理论中以经典测验理论应用最广,随后在20世纪诞生了项目反应理论
以及认知诊断理论。
经典测验理论和项目反应理论用真分数T或能力值评价被试的宏观能力,通常关注于对被试个体进行排序和整体能力的评价。
认知诊断理论更注重对个体内部微观心理加工过程的测量和评价。认识到测量误差的存在及其作为随机变量的特性是测量理论早期的重要进展。
经典测验理论围绕真分数的概念。
在随机抽样理论基础上建立了一套较完善的心理与教育测量理论架构,其核心思想是测量结果的观察分数,等于真分数加上随机误差分数。
其中真分数是期望得到的被试心理特质的真实水平值。我们假设误差是一个均值为零的正态分布的随机变量,是由于随机因素导致,在施测过程中要加以控制的。
因此,如果对同一被试进行多次平行测验施测或同一测验重复测量,其观察分数的平均值会趋近或等同于被试的真分数。
经典测验理论下的测验数据分析在计算上较为简单,即用测验总分作为被试能力的评价指标,测验总分为被试在所有题目上的观察分数的总和,其应用具有广泛性。
项目反应理论将被试的能力与测验试题的难度建立在同一个测量量尺上,克服了经典测验理论中被试得分与测验试题参数不在同一度量单位的问题。
其优点是用项目特征函数来描述被试作答反应结果与被试能力、题目参数之间的关系,被试的能力评估取决于一个单维连续潜在变量,而不是测验总分。
有效解决了经典测验理论中被试能力代表的测验总分随测验特性改变而不同的局限性,被试能力的评价不再依赖于其所参加的测验。
同样,项目参数的估计也不会随被试样本的变化而变化。
传统心理测量理论,如经典测验理论和项目反应理论仅仅提供考试分数或被试宏观能力值,只将被试进行排序。
然而,得分或能力值相同的被试很可能存在不同的知识状态和认知结构。
例如,同样得分为80分的两个学生的知识掌握情况、学习发展路径可能并不相同,与之对应的教学方式和教学重点也应该不同。
根据美国的一项调查显示,教育学家对试图获得关于学生知识、技能、能力的优势和劣势的更详细的诊断信息有很大的兴趣。
调查结果清楚地表明,教师希望在长期教学视角下获得更有差异化的诊断信息,以便于对学生因材施教。
与传统心理测量理论相比,认知诊断理论将认知心理学与心理测量学诊断评估方法相结合,通过分析被试的作答反应模式来评价被试回答试题时使用的认知技能。
从而提供被试的形成性反馈信息。
认知诊断评估不仅可以评估被试的整体能力,同时还可以将被试的认知结构模式化,获得被试在测试中可观察到的作答反应模式。
并借助合适的测量模型对不同的认知结构模式进行诊断,从而定量地考查被试的认知结构和个体差异。
以此推断被试不可观察的知识状态(认知属性的掌握情况),确定被试已经掌握了哪些知识技能,哪些还没有掌握,需要补救。
认知诊断评估的主要优势在于评价被试个体能力水平的同时。
还提供了被试个体在测验中是否掌握特定技能或属性的信息,从而指导教师进行针对性的补救教学和因材施教。
认知诊断评估根据认知模型构建所需测量属性的关系,并选择相应拟合良好的认知诊断模型,再基于被试的作答数据。
估计被试的知识掌握状态,进而提供对被试属性掌握情况的认知诊断信息。
认知诊断模型在认知诊断评估过程中起到统计工具的作用,它被用来推断被试所掌握的属性。
认知诊断模型是否与测验数据相拟合,决定了诊断评估结果的准确性。因此,认知诊断评估需进行模型-资料拟合检验。
被试拟合是用来检验被试个人作答反应与认知诊断模型的拟合程度,一个合适的认知诊断模型应该准确反映被试在项目反应过程中的心理加工特征。
从而有效推断被试对属性的掌握程度。
被试作答反应能够拟合所选择的认知诊断模型,称为被试拟合;反之如果被试出现“异常”作答反应,与选定的认知诊断模型不匹配,称为被试不拟合。
如果出现被试不拟合,一方面,根据失拟被试的作答反应数据对其属性掌握模式进行推断的结果可能是难以解释或无效的。
另一方面,失拟被试的数据可能会影响整个测验的信效度,因此被试拟合检验对于诊断测验尤为重要。
研究结论
从认知诊断评估中获得的诊断信息的有效性在很大程度上依赖于被估计的属性掌握模式的适当性。
因此,有必要确保被试考试成绩的准确测量,以避免错误或无效的补救措施。
通过被试拟合分析可以把测验中被试的异常作答数据检测出来,实现对考试成绩更准确的测量。
已有的被试拟合指标分析方法有各自的优点和缺点,研究新提出认知诊断评估中的被试拟合指标R指标,并将其与指标和RCI指标进行比较,得出以下结论。
(1)研究中,R指标能够较好地控制一类错误率,能有效鉴别出异常反应被试类型,可用于认知诊断评估中对异常反应被试进行侦察。
(2)项目区分度高更有利于指标对异常反应被试的侦察,R指标在项目质量为低区分度时表现最稳定。
(3)题目数量增加使R指标和RCI指标侦察效果更好。
(4)R指标对创造性作答、随机作答和随机作弊的异常被试类型均有较好的统计检验力。
讨论
首先,模拟研究结果表明,随着题目数量增加和题目区分度提高,R指标检测率越高,这与预期一致。
但研究中,指标一类错误率出现略微膨胀以及指标在疲劳和睡眠两种异常被试类型下,随着题目数量的增加,统计检验力出现下降的现象。
与Cui等人研究结果不一致,可能是所选模型不同导致,有待进一步研究加以探讨。
其次,在实证研究中,由于采用的是其他研究的实证数据,没有考生的能力真实值,故无法对侦察出的异常被试做进一步分析以及补救措施。
而且被试出现异常作答反应的原因不能仅仅只根据被试拟合指标来确定,因为被试拟合指标不能直接指出异常反应行为的实际原因或测试表现下的异常行为。
因此,进一步分析被试考试行为的辅助信息,如被试的口头报告、座位安排、考试时间等是十分必要的。
这些信息将补充被试拟合统计的结果,帮助我们更好的地理解分析被试的考试行为。
另外,建议同时使用多个被试拟合指标进行检验,仔细检查由多个被试拟合指标标记的异常模式,以确定是什么导致了这种情况的产生。
此外,研究旨在探讨三种被试拟合统计量对不同类型异常反应行为的检测效果。
然而,异常反应模式可能是由于Q矩阵的不规范造成的。研究没有涉及对Q矩阵错误设定对于被试拟合的影响。
这是因为研究假设模型与数据相符,Q矩阵在进行被试拟合分析之前,已经被正确指定或至少被验证。
最后,由于二级计分方式的模型只能评价被试是否掌握某一知识或技能,而对被试在不同知识或技能的掌握水平或程度不能进行有效地评价。
在实际情况中,教育测试和心理测试中的题型多种多样,如数学测试中的计算题、语文测试中的作文题、简答题、证明题、心理量表中的李克特量表等。
这些题型的数据基本都是多级评分数据,未来可将被试拟合检验扩展到多级计分的认知诊断。
举报/反馈
最近更新成人教育
- 职业教育产教融合赋能提升
- 腾讯健康:联手迈瑞医疗助推行业高质量普惠发展
- 儿童友好|“红色传承”——金华市站前小学五年级秋季研学活动
- 考生、家长速看!云南省2024年高考11月5日起报名
- 巢湖市城乡公交线路优化调整 10月20日起实施
- 自贡自流井区:密切家校合作 家校共育连心桥
- 防拐骗、防暴力、防意外……武昌水果湖二小这样教学生自护自救
- 七险二金!云南省属国有企业招人啦
- 烟台市区七个口袋公园年底全部交付
- 24日至25日,北京南部、天津、河北中部局地可达重度霾
- 自考学位证申请的条件是什么?
- 投资160亿元!德欧中心四川
- 贵州税务:加计扣除优惠政策对支持我省企业投入研发、鼓励科技创新起到重要作用
- 高通骁龙 8cx Gen 4 处理器跑分曝光,多核成绩逼近苹果 M2
- 法律职业资格考试主观题考试益阳考区首次开考
- 初级会计证考试都是选择题吗?
- 大国粮仓装满优质粮
- 把课间还给学生,“圈养”并非长久之计
- 江门鹤山:“全链条”保障好“舌尖上的安全”
- 第十届晋江市中小学生“泉州南少林五祖拳健身操”会操比赛圆满落下帷幕
- 北京市开展2023年度公开遴选和公开选调公务员工作
- 防范电信网络诈骗共建平安和谐校园
- 台庆74周年,广东广播电视台开展中医药文化进社区公益活动
- 原创CBA前三轮排名!郭士强压制老东家,新疆上升8位,北控连败露底牌
- 50%职场人群多受腱鞘炎困扰 使用人体工学键鼠有助于预防腱鞘