机器学习具有从数据和经验中获取知识的学习能力,能够从海量的生物数据中提取知识,在解决生物信息学的相关问题中,起着越来越重要的作用,并取得了丰硕的成果。但庞大的计算量、复杂的噪声模式、海量的时变数据给传统的机器学习分析带来了巨大的困难。本书围绕着海量的生物数据,分别从癌症的诊断分型、基因调控网络的重构和蛋白质相互作用网络的分析3个角度来阐述机器学习理论、方法及其应用,共3部分13章。第一部分为面向癌症诊断分型的机器学习方法.第二部分围绕基因调控网络的分析与重构进行阐述。第三部分则是围绕蛋白质相互作用网络进行研究。为便于应用本书阐述的算法,书后附有部分机器学习算法源程序。
样章试读
目录
前言 0 绪论 1
0.1生物信息学的概念 1
0.2生物信息学的研究内容 1
0.3微阵列分析技术 2
0.4基因调控网络 9
0.5蛋白质相互作用网络 11
0.6机器学习方法及应用 12
0.7本书主要内容和安排 15 参考文献 15
第Ⅰ篇 微阵列数据的分析和处理
第 1章 基于核方法的多病类 DNA微阵列数据集成分类器 21
1.1核机器学习 22
1.2基分类器的选择 24
1.3 DNA微阵列数据集成分类器结构框图 29
1.4实例研究 30
1.5本章小结 34 参考文献 34 第 2章 基于选择性独立成分分析的 DNA微阵列数据集成分类器 36
2.1基于重构样本误差的选择性独立成分分析 37
2.2实例研究 38
2.3本章小结 45 参考文献 45 第 3章 基于相关性分析的癌症诊断 47
3.1 K均值聚类 48
3.2基于特征选取的相关系数分析癌症诊断模型 48
3.3实验结果和分析 51
3.4本章小结 53
参考文献 53 第 4章 基于线性回归的 DNA微阵列数据稀疏特征基因选择 55
4.1特征选择 56
4.2回归分析 56
4.3仿真研究 61
4.4本章小结 64 参考文献 65 第 5章 基于贝叶斯理论的 DNA甲基化水平数据分型 66
5.1贝叶斯理论概述 67
5.2基于贝叶斯理论的 DNA甲基化水平数据分型 70
5.3聚类性能评估 74
5.4仿真研究 75
5.5本章小结 81 参考文献 81
第Ⅱ篇 基因调控网络的分析和构建
第 6章 基因表达数据缺失值处理 85
6.1三种基因表达数据缺失值估计方法 86
6.2内部规律与外部联系结合的基因表达数据缺失值估计方法 88
6.3仿真研究 91
6.4本章小结 98 参考文献 98 第 7章 基于角度离散化的基因调控网络定性分析 100
7.1三种基因调控网络定性分析方法 101
7.2基于角度离散化的基因调控网络方法 104
7.3仿真研究 107
7.4本章小结 109 参考文献 110 第 8章 基于模糊标签传递的多时延基因调控网络分析 111
8.1基于模糊标签传递的多时延基因调控网络 112
8.2仿真研究 115
8.3本章小结 118 参考文献 118 第 9章 含有色噪声的基因调控网络构建 120
9.1含有色噪声的基因调控网络模型构建 120
9.2本章小结 127 参考文献 128 第 10章 基于复杂网络的时延基因调控网络构建 129
10.1基因表达时延的估计 129
10.2基因调控网络的社团划分 130
10.3实验结果与分析 132
10.4本章小结 137 参考文献 137
第Ⅲ篇 蛋白质相互作用网络的分析
第 11章 蛋白质相互作用网络中的重叠模块挖掘 141
11.1重叠模块挖掘 142
11.2算法步骤和复杂度分析 145
11.3实验验证 146
11.4本章小结 151 参考文献 152 第 12章 简洁局部全局一致性学习 154
12.1局部全局一致性学习算法性能分析 154
12.2简洁局部全局一致性学习 158
12.3收敛性证明 159
12.4实验研究 160
12.5本章小结 164 参考文献 164 第 13章 基于主动半监督学习的蛋白质功能预测 166
13.1基于主动半监督学习的蛋白质功能预测 167
13.2算法步骤 169
13.3实验结果和分析 170
13.4本章小结 173 参考文献 173 附录 175]]>