本书是一本系统介绍大数据计算技术及其应用的教材,旨在为读者提供一个全面了解大数据计算领域基本概念、关键技术、系统框架、实际应用等的全景图。全书共9章,主要包括绪论、大数据存储、大数据分析与可视化、大数据计算框架及软件架构、先进大数据计算系统框架、大数据计算系统架构模拟仿真、先进大数据计算系统实现技术、先进大数据计算系统应用实践、大数据计算的生态体系和发展趋势等内容。本书对当前常规和先进的大数据计算系统进行了深入剖析,阐述了各种加速芯片和晶圆级异质集成计算系统的实现技术,并介绍了大数据计算技术在医疗、安全、遥感等领域的具体应用案例。
样章试读
目录
- 目录
第1章 绪论 1
1.1 大数据技术概述 1
1.1.1 数据的基本概念 1
1.1.2 大数据概念及技术体系 5
1.2 大数据计算概述 17
1.2.1 计算与算力 17
1.2.2 大数据计算技术 18
1.3 本书的组织结构 21
1.4 本章小结 21
第2章 大数据存储 23
2.1 大数据存储概述 23
2.1.1 大数据存储发展 23
2.1.2 当前数据存储与计算发展的特点 24
2.1.3 大数据计算与存储的本质关系 25
2.1.4 计算需求驱动的存储架构设计 26
2.2 分布式文件系统 27
2.2.1 分布式文件系统的概念 27
2.2.2 分布式文件系统的结构 28
2.3 分布式数据库 28
2.3.1 HBase 简介 28
2.3.2 HBase 与传统关系数据库的对比分析 29
2.3.3 访问接口 29
2.4 NoSQL 数据库 30
2.4.1 键值数据库 30
2.4.2 列值数据库 31
2.4.3 文档数据库 31
2.4.4 图数据库 32
2.4.5 时序数据库 33
2.4.6 空间数据库 35
2.4.7 向量数据库 37
2.5 本章小结 40
第3章 大数据分析与可视化 41
3.1 大数据分析概述 41
3.1.1 第四范式—数据密集型科学发现 41
3.1.2 大数据分析类型 42
3.1.3 大数据分析的应用领域 43
3.2 大数据分析常用算法 45
3.2.1 分类 45
3.2.2 聚类 48
3.2.3 集成学习 49
3.2.4 关联规则挖掘 51
3.2.5 回归 52
3.3 大数据可视化概述 54
3.4 文本大数据可视化 55
3.4.1 基本流程 56
3.4.2 文本生成视频 57
3.4.3 应用场景 57
3.5 图大数据可视化 57
3.5.1 图大数据可视化挑战 58
3.5.2 应用实例 59
3.6 大数据可视化常用工具 59
3.6.1 Tableau 59
3.6.2 Qlik View 60
3.6.3 Cosmograph 61
3.6.4 基于大语言模型的可视化 61
3.7 本章小结 62
第4章 大数据计算框架及软件架构 63
4.1 大数据计算的方式 63
4.1.1 大数据计算的特点 63
4.1.2 大数据计算的目标 64
4.1.3 数据处理方式 65
4.2 大数据计算的方法 67
4.2.1 批处理计算 67
4.2.2 流式计算 68
4.2.3 其他计算 71
4.3 传统大数据软件架构 72
4.3.1 Hadoop 架构 72
4.3.2 Spark 架构 73
4.3.3 流处理框架 73
4.4 本章小结 74
第5章 先进大数据计算系统框架 75
5.1 领域专用软硬件协同计算概述 76
5.1.1 计算机体系结构基础 76
5.1.2 计算机系统形态发展趋势 83
5.1.3 领域专用架构介绍 86
5.2 领域专用软硬件协同计算关键技术 89
5.2.1 领域专用共性元素抽象方法 89
5.2.2 领域专用软件工具链设计技术 93
5.2.3 领域专用语言 103
5.3 本章小结 105
第6章 大数据计算系统架构模拟仿真 106
6.1 计算机模拟仿真技术简介 106
6.1.1 模拟器分类 107
6.1.2 现有模拟器概述 110
6.2 计算机体系结构模拟仿真的关键问题及解决技术 112
6.2.1 模拟精度低 112
6.2.2 模拟速度慢 113
6.2.3 可用性问题 117
6.2.4 易用性问题 119
6.3 多节点网络的系统级设计和仿真 120
6.3.1 计算机体系结构模拟仿真的未来发展趋势 121
6.3.2 离散事件模拟与并行化技术 124
6.3.3 大规模计算系统仿真器 125
6.4 本章小结 133
第7章 先进大数据计算系统实现技术 134
7.1 典型大数据计算系统加速芯片 134
7.1.1 GPU 134
7.1.2 FPGA 136
7.1.3 TPU 138
7.1.4 DPU 140
7.2 晶圆级计算系统实现技术 142
7.2.1 晶圆级计算系统简介142
7.2.2 软件定义晶上系统的关键技术 145
7.2.3 软件定义晶上系统的前景 146
7.3 本章小结 148
第8章 先进大数据计算系统应用实践 149
8.1 大数据试验场 149
8.1.1 大数据试验场总体架构 149
8.1.2 数据资源池建设 150
8.1.3 试验场基础设施建设151
8.1.4 试验场服务平台建设156
8.2 医保大数据稽核 157
8.2.1 医保稽核面临的困难158
8.2.2 医保大数据稽核技术能力 158
8.2.3 医保大数据监管稽核体系 161
8.3 遥感大数据计算 164
8.3.1 旋转目标识别背景介绍 164
8.3.2 常用数据集与评价标准 166
8.3.3 遥感图像目标检测识别算法加速技术 168
8.4 本章小结 177
第9章 大数据计算的生态体系和发展趋势 178
9.1 大数据计算生态体系 178
9.1.1 大数据计算与知识工程 178
9.1.2 大数据计算与智能算法 179
9.1.3 大数据计算与算力基础设施 181
9.1.4 大数据计算与网络安全 181
9.2 大数据计算未来发展趋势 182
9.2.1 数据应用密集化 182
9.2.2 算力异构加速化 182
9.2.3 全局高阶互联化 183
9.2.4 数据安全资产化 183
9.2.5 全栈自主可控化 183
9.2.6 软硬系统节能化 184
9.3 本章小结 184
后记 185
参考文献 186