随着大数据时代的到来,高维数据已广泛遍布于生态学、气象学、经济学、金融学、生物医学、心理学及社会科学等诸多领域,其统计推断面临“变量维数远大于样本量”(即“小n大p”问题)、变量高度相关、数据严重缺失以及类别分布不均衡等多重挑战。高维数据的统计建模、推断与变量选择已成为统计学和数据科学领域备受关注的核心课题。
本书系统阐述高维数据分析的典型方法,内容涵盖高维缺失数据处理、分类与聚类分析、变量选择与特征筛选、统计预测等重要方向。本书注重理论与实践相结合,既深入剖析主要统计方法的数学原理与统计性质,又通过贴近现实生活的模拟实验和实证分析,帮助读者在掌握理论框架的基础上提升应用能力。书中所采用的数据实例均来自公开数据库或实际研究项目,兼具代表性和实用价值。
样章试读
目录
- 目录
“统计与数据科学丛书”序
前言
第1章 高维缺失数据 1
1.1 缺失数据及其处理方法 1
1.1.1 缺失数据 1
1.1.2 缺失数据机制 3
1.1.3 缺失数据处理方法 4
1.2 高维数据 14
第2章 高维数据分类 16
2.1 引言 16
2.2 高维数据分类方法 17
2.2.1 贝叶斯法 17
2.2.2 判别分析 21
2.2.3 支持向量机 30
2.2.4 Logistic回归 36
2.3 分类效果评价 38
2.4 实例分析 44
第3章 高维数据聚类 52
3.1 引言 52
3.2 基于K-均值的高维数据聚类 56
3.3 高维数据的稀疏聚类 61
3.3.1 GMM聚类 61
3.3.2 含结构 (S1)型GMM的极大似然估计 63
3.3.3 含结构 (S2)型GMM的正则化极大似然估计 65
3.3.4 含结构 (S3)型GMM的基于AHEM算法的极大似然估计 67
3.3.5 GMM的基于AHEM算法的渐近性质 74
3.3.6 簇类数 K 的选择 78
3.4 模拟研究 79
3.5 与基于BIC正则法选取调节参数的比较 86
3.6 实例分析 87
3.7 定理证明 88
第4章 高维缺失数据的变量选择 105
4.1 引言 105
4.2 基于EM算法的缺失数据的变量选择 107
4.3 超高维缺失数据的变量选择 117
4.4 模拟研究 123
4.5 实例分析 135
4.6 定理证明 138
第5章 非平衡超高维分类数据的基于秩融合的特征筛选 146
5.1 引言 146
5.2 二分类非平衡超高维数据的基于秩融合的特征筛选 147
5.3 多分类非平衡超高维数据的基于秩融合的特征筛选 152
5.4 模拟研究 154
5.5 实例分析 162
5.6 定理证明 163
第6章 超高维异质分类数据的自适应分类特征筛选 168
6.1 引言 168
6.2 前瞻性样本数据的自适应分类特征筛选 169
6.3 有偏抽样下超高维异质分类数据的自适应分类特征筛选 173
6.4 模拟研究 176
6.5 实例分析 185
6.6 定理证明 189
第7章 超高维分位数回归的模型平均 196
7.1 引言 196
7.2 分位数回归的模型平均 198
7.3 超高维分位数回归的基于单协变量的模型平均 200
7.4 超高维分位数回归的序贯模型平均 201
7.5 模拟研究 204
7.6 实例分析 207
7.7 定理证明 208
参考文献 218
索引 230
“统计与数据科学丛书”已出版书目 233