本书介绍关系Top-N查询处理和优化的相关理论和技术,共7章,主要包括:绪论,基于学习的Top-N查询处理,基于区域聚类的多Top-N查询优化,基于知识库的Top-N查询流处理,基于语义距离的Top-N查询处理,基于索引技术的中文关键词Top-N查询处理,以及n维赋范空间中的Top-N查询处理.
样章试读
目录
- 目 录
序
前言
第1章 绪论 1
1.1 数学概念和术语 1
1.1.1 集合及其运算 2
1.1.2 度量空间 4
1.2 关系数据库 8
1.2.1 关系模式 8
1.2.2 关系代数 10
1.2.3 规范化理论 13
1.2.4 关系模式的分解 17
1.3 Top-N查询模式 19
1.3.1 距离空间KNN查询 19
1.3.2 单调排序函数的Top-K查询 20
1.3.3 数值属性的关系Top-N查询 22
参考文献 26
第2章 基于学习的Top-N查询处理 28
2.1 关系Top-N查询处理 28
2.1.1 基于直方图的方法 30
2.1.2 基于抽样的方法 31
2.1.3 数据维数对查询处理的影响 32
2.2 基于学习的Top-N查询处理方法 33
2.2.1 查询信息的存储 33
2.2.2 新提交查询的处理 34
2.2.3 知识库P的维护 38
2.2.4 知识库P的稳定性 40
2.3 实验与数据分析 43
2.3.1 数据集和准备 43
2.3.2 性能比较 46
2.3.3 LB方法的其他实验 48
2.3.4 重复查询的效果 52
2.3.5 知识库的稳定性 53
2.4 本章小结 58
参考文献 59
第3章 基于区域聚类的多Top-N查询优化 61
3.1 问题分析 61
3.2 区域聚类 64
3.2.1 算法和术语 65
3.2.2 区域聚类模型 71
3.3 多个Top-N查询搜索区域的聚类 73
3.4 Top-N元组检索 76
3.4.1 搜索Top-N元组 76
3.4.2 确保获得Top-N元组 77
3.5 实验与数据分析 78
3.5.1 数据集和准备 78
3.5.2 通过训练确定聚类模型和阈值 80
3.5.3 性能比较 82
3.6 本章小结和相关研究 87
参考文献 88
第4章 基于知识库的Top-N查询流处理 89
4.1 问题分析 89
4.2 Top-N查询流的处理 92
4.2.1 术语和结构 93
4.2.2 LRC方法与LB和RCM的对比 94
4.2.3 知识库的创建 95
4.2.4 处理新提交的Top-N查询 98
4.2.5 确保得到所有Top-N元组 100
4.3 知识库的维护 101
4.3.1 简档集合的维护 101
4.3.2 *和t-List的维护 101
4.4 性能分析 101
4.4.1 空间开销 101
4.4.2 时间开销 102
4.5 实验与数据分析 103
4.5.1 数据集和准备 104
4.5.2 耗用时间 105
4.5.3 I/O请求次数 109
4.5.4 检索元组的数目 110
4.5.5 知识库的空间开销 113
4.5.6 查询结果不同N值的影响 114
4.5.7 实验小结 116
4.6 本章小结 116
参考文献 117
第5章 基于语义距离的Top-N查询处理 118
5.1 亲缘词和语义距离 120
5.1.1 亲缘词 120
5.1.2 语义距离和Top-N查询 121
5.1.3 排序方式比较 124
5.2 查询的语义搜索 125
5.2.1 索引创建过程 126
5.2.2 w-索引的结构和创建 129
5.2.3 w-索引的维护 131
5.2.4 查询处理 131
5.3 实验与数据分析 135
5.3.1 数据集和准备 135
5.3.2 实验结果 138
5.4 本章小结 144
参考文献 144
第6章 基于索引技术的中文关键词Top-N查询处理 146
6.1 引言 146
6.2 相关工作 149
6.3 索引和索引表 150
6.3.1 索引表的创建 152
6.3.2 索引表的维护 155
6.4 中文关键词Top-N查询处理 156
6.4.1 候选元组查找和排序结构 157
6.4.2 候选元组生成 157
6.4.3 相似度 159
6.4.4 获得查询结果 160
6.4.5 相似度的短语修正 160
6.4.6 时间和空间开销 162
6.5 实验与数据分析 163
6.5.1 单表数据库 163
6.5.2 多表数据库 165
6.6 本章小结 169
参考文献 170
第7章 N维赋范空间中的Top-N查询处理 172
7.1 查询模式和理论分析 172
7.2 Top-N查询处理算法 175
7.2.1 关于一般范数的算法 176
7.2.2 关于x-单调范数的算法 183
7.3 缓冲区大小和最优性 187
7.3.1 G-算法和m-算法缓冲区的大小 187
7.3.2 m-算法的伪实例最优性 187
7.3.3 NNS 优化算法和TA-类算法的比较 191
7.4 实验与数据分析 192
7.4.1 数据集和准备 193
7.4.2 处理查询耗用的时间 193
7.4.3 顺序访问次数 195
7.4.4 不同结果大小N的影响 196
7.4.5 算法性能比较 197
7.5 本章小结 199
参考文献 200