本书系统介绍了因果推断的方法及其应用,共八章。第1章重点阐述了潜在结果框架与结构因果模型,为全书内容奠定基础。第2章介绍了多种经典因果推断的基本方法,包括倾向得分法、匹配法、回归法、双稳健估计法、工具变量法以及阴性对照法等。在此基础上,本书进一步深人探讨多个因果推断的前沿主题。第3章讨论了基于多模型整合的稳健估计方法,以应对模型不确定性带来的挑战。第4章聚焦于融合数据的因果推断,介绍如何整合来自多个数据源的信息以提升推断效率与准确性。第5章至第8章依次介绍了含死亡截断数据的因果推断、含缺失数据的因果中介分析、归因分析以及基于工具变量法的因果关系发现本书不仅注重因雜断施的讲解,还结合实际案例进行分析。
样章试读
目录
- 目录
“统计与数据科学丛书”序
前言
第1章 因果推断框架及相关概念 1
1.1 从辛普森悖论谈起 1
1.2 因果推断的基本框架 3
1.2.1 潜在结果框架 3
1.2.2 结构因果模型 5
1.2.3 两种框架关系的讨论 7
1.3 研究挑战 7
第2章 因果推断的基本方法 10
2.1 倾向得分法 10
2.1.1 倾向得分模型 11
2.1.2 逆概率加权估计 12
2.2 匹配法 13
2.2.1 度量 14
2.2.2 匹配 15
2.2.3 评估 15
2.2.4 分析 16
2.3 回归法 17
2.3.1 结果回归法 17
2.3.2 Pearl后门准则 18
2.4 双稳健估计法 19
2.5 工具变量法 21
2.5.1 工具变量简介 22
2.5.2 线性模型的工具变量估计 24
2.5.3 非参可加模型的工具变量估计 25
2.5.4 单调性假设下的工具变量估计 26
2.6 阴性对照法 27
2.6.1 阴性对照变量简介 27
2.6.2 平均处理效应的识别与估计 29
2.7 应用实例 31
2.7.1 就业培训对收入的影响 31
2.7.2 教育对收入的影响 33
2.7.3 右心导管插入术对重症患者死亡率的影响 34
2.8 本章小结 35
第3章 基于多模型的稳健估计 37
3.1 基于多模型的估计方法简介 37
3.2 整合多模型的因果效应估计 38
3.2.1 倾向得分的模型混合估计 39
3.2.2 结果回归的模型混合估计 40
3.2.3 基于模型混合的双稳健估计量 40
3.2.4 数值模拟 42
3.3 整合多模型的数据融合分析 44
3.3.1 模型假设与识别性 45
3.3.2 基于模型校准的加权估计量 46
3.3.3 数值模拟 50
3.4 应用实例 51
3.5 本章小结 53
第4章 基于融合数据的因果推断 54
4.1 融合随机化试验的因果迁移学习 54
4.1.1 参数定义及识别性 55
4.1.2 估计方法 56
4.2 数据融合中的混杂变量调整 57
4.2.1 关心的因果参数和识别性 58
4.2.2 三稳健估计量 60
4.2.3 数值模拟 62
4.3 数据融合中的工具变量法 63
4.3.1因果参数的定义和识别 64
4.3.2 多稳健估计 66
4.3.3 其他半参数估计量 69
4.4 应用实例 70
4.4.1 身体活动对医疗保健支出的影响 70
4.4.2 吸烟对身体功能状态的影响 71
4.5 本章小结 73
第5章 含死亡截断数据的因果推断 74
5.1 因果主分层简介 74
5.2 多臂试验中含死亡截断结果的因果推断 77
5.2.1 感兴趣的因果参数及识别性 78
5.2.2 估计方法 81
5.2.3 数值模拟 82
5.3 观察性研究中含死亡截断结果的因果推断 83
5.3.1 阴性对照变量与排除性假设 84
5.3.2存活组因果效应的识别(二值情况) 85
5.3.3 存活组因果效应的识别(一般情况) 87
5.3.4 估计方法 88
5.4 应用实例 89
5.4.1 幼鼠发育毒理学试验 89
5.4.2 白血病干细胞移植 91
5.5 本章小结 92
第6章 含缺失数据的因果中介分析 94
6.1 因果中介分析简介 95
6.1.1 因果中介作用的定义和识别 95
6.1.2 因果中介效应的估计和推断方法 97
6.2 结果变量数据缺失的中介分析 98
6.2.1 离散结果变量的识别 100
6.2.2 连续结果变量的识别 101
6.2.3 估计和推断方法 102
6.3 协变量数据缺失的中介分析 103
6.3.1 协变量非随机缺失时的非参数估计方法 105
6.3.2 大样本性质和推断 107
6.4 应用实例 109
6.4.1 阿尔茨海默病干预效果的临床抗精神病试验研究 109
6.4.2 工作满意度和抑郁症的关系 110
6.5 本章小结 112
第7章 归因分析 113
7.1 单个原因和单个结果的归因分析 114
7.1.1 原因的概率:定义 114
7.1.2 原因的概率:识别与应用 117
7.2 多个原因和单个结果的归因分析 120
7.2.1 后验因果效应:定义 120
7.2.2 后验因果效应:识别 123
7.3 多个原因和多个结果的归因分析 126
7.3.1 多元后验因果效应:定义 126
7.3.2 多元后验因果效应:识别 130
7.4 应用实例 134
7.4.1 高血压患者发病原因分析 134
7.4.2 儿童急性淋巴细胞白血病发病原因分析 136
7.4.3 感冒还是心绞痛? 139
7.4.4 呼吸道病症诊断与归因 141
7.5本章小结 143
第8章 基于工具变量法的因果关系发现 144
8.1 因果关系发现简介 145
8.2 基于工具变量的双向因果关系推断 147
8.2.1 含未知混杂的双向因果关系模型 148
8.2.2 因果作用和因果方向的识别 149
8.2.3 估计及理论保证 154
8.3 基于工具变量的因果结构学习 156
8.3.1 含工具变量的因果网络模型 157
8.3.2 因果图和因果效应的识别 158
8.3.3 估计及理论保证 163
8.4 应用实例 166
8.4.1 BMI与血压的关系研究 166
8.4.2 阿尔茨海默病基因调控网络研究 167
8.5 本章小结 169
参考文献 170
“统计与数据科学丛书”已出版书目 183