本书聚焦人工智能在教育测试中的应用,系统探讨了计算机自适应测试(CAT)这一新型测试模式。CAT通过实时分析学生作答表现,动态调整试题难度,实现因材施测,显著提升了能力评估精准性与效率。随着个性化学习和在线教育的发展,传统固定试卷的方式面临公平性与有效性不足的问题,而人工智能的引入为测试系统带来了前所未有的智能化,正在成为推动教育评价变革的重要力量。本书围绕人工智能驱动下的CAT核心机制展开分析,涵盖认知建模、智能选题、高质量题库构建与测试流程控制,全面梳理了其发展历程、关键技术与典型应用,深入剖析了人工智能在教育测试中的融合方法与应用价值,提出了面向未来的智能测试系统架构。
样章试读
目录
- 目录
序
前言
第1章 绪论 1
1.1 自适应测试的发展历程 2
1.2 自适应测试的应用 4
1.3 人工智能背景下的教育测试 7
参考文献 8
第2章 测试系统架构 11
2.1 组成部件与目标 11
2.2 任务形式化描述 12
2.3 评估方法 14
参考文献 15
第3章 测量模型 16
3.1 心理测量学与经典测量理论 16
3.2 项目反应理论 17
3.2.1 项目反应理论发展历史 18
3.2.2 项目反应理论基本模型 18
3.2.3 多维项目反应理论 21
3.2.4 多级评分模型 21
3.2.5 项目反应理论优良特性 23
3.2.6 项目反应理论基本假设 23
3.3 认知诊断模型 25
3.3.1 DINA模型架构 25
3.3.2 DINA模型扩展 27
3.4 深度测量模型 28
3.4.1 基于深度学习的测量模型架构 30
3.4.2 多源信息的集成 33
3.4.3 实际测试中的其他问题 34
参考文献 36
第4章 选题策略 39
4.1 传统统计方法 39
4.1.1 通用框架 40
4.1.2 传统基于信息量的选题策略 40
4.1.3 改进的信息量选题策略 44
4.1.4 CD-CAT选择算法 45
4.2 主动学习方法 47
4.2.1 机器学习中的主动学习方法 48
4.2.2 模型无关的CAT方法 49
4.3 强化学习方法 52
4.3.1 马尔可夫决策方法 53
4.3.2 随机最短路问题建模 57
4.3.3 部分可观测马尔可夫决策过程 59
4.4 元学习方法 61
4.4.1 基于双层优化自适应测试框架 61
4.4.2 多场景自适应测试的统一建模方法 63
4.4.3 元学习与强化学习的转化 64
4.5 子集选择方法 65
4.5.1 具备能力估计误差上界的选题策略 67
4.5.2 排序一致的选题策略 69
参考文献 71
第5章 题库构建 74
5.1 试题特征分析 75
5.1.1 基于专家经验的标注方法 75
5.1.2 基于统计学习的标注方法 76
5.1.3 基于深度学习的标注方法 79
5.2 题库开发 84
5.2.1 题库蓝图设计 84
5.2.2 题库组装 86
5.2.3 题库轮换 88
参考文献 90
第6章 测试控制 93
6.1 曝光率控制技术 93
6.1.1 条件概率方法及其改进方法 94
6.1.2 a分层方法及其改进方法 96
6.2 试题多样性控制 98
6.2.1 基于试题的知识点覆盖考量多样性的选题策略 98
6.2.2 基于试题文本考量多样性的选题策略 99
6.3 公平性 100
6.3.1 测量模型中的不公平因素 100
6.3.2 题库中的不公平因素 103
6.3.3 选题策略中的不公平因素 105
6.4 鲁棒性 107
6.4.1 测试中的噪声来源 107
6.4.2 鲁棒性因子的引入 108
6.4.3 机器学习中的鲁棒性增强方法 109
6.5 测试效率 112
6.5.1 基于树索引的方法 112
6.5.2 基于哈希的方法 113
6.5.3 基于空间划分的方法 114
参考文献 116
第7章 测试系统评估方法 121
7.1 学生能力评估方法 121
7.2 数据集介绍 122
7.3 方法对比实验结果 123
参考文献 126
第8章 测试系统原型介绍与实践 128
8.1 测试系统原型设计与搭建 128
8.1.1 系统架构概述 128
8.1.2 技术选型 130
8.1.3 性能优化 133
8.1.4 用户界面设计 134
8.2 测试系统实践案例分析 136
8.2.1 GRE与多邻国考试 136
8.2.2 LUNA自适应测试小程序 139
8.2.3 Codia基于大模型的自适应测试 141
8.2.4 反向赋能:自适应测试辅助AI模型的能力评估 146
参考文献 151