统计语言建模与中文文本自动校对技术_科学商城—

热门关键词： 颠覆性技术创新研究现代数学基础丛书

0去购物车结算: 购物车中还没有商品，赶紧选购吧！

全部商品分类

网上书店按需印刷电子书

当前位置: > 统计语言建模与中文文本自动校对技术

相同语种的商品

SAS软件实用教程（第二版）
售价：￥37.92元

基因组学方法
售价：￥30.40元

线性代数
售价：￥30.02元

蛋白质纯化指南（原书第二版）
售价：￥122.40元

精编蛋白质科学实验指南
售价：￥195.92元

企业管理信息系统
售价：￥29.23元

生态学考研精解
售价：￥27.65元

真空镀膜原理与技术
售价：￥43.45元

大学文科数学
售价：￥38.71元

对现代规范伦理学的颠破
售价：￥46.61元

销售排行榜

人文社科项目申报300问黄忠廉
￥44.80元

院士谈力学
￥78.40元

迭代浑沌分形
￥12.00元

院士谈力学
￥98.00元

科学第一课
￥69.52元

人文社科论文修改发表例话
￥47.60元

人文社科论文修改发表例话
￥73.00元

十大文献综述：妙理与实例
￥47.60元

河西走廊水利史文献类编.疏勒河卷：全二册
￥709.42元

凝练科学问题案例
￥75.84元

浏览历史

联系编辑

标题：

内容：

联系方式：

统计语言建模与中文文本自动校对技术

书号：9787030518552

作者：张仰森
外文书名：
装帧：平装

开本：B5
页数：268

字数：300

语种：zh-Hans
出版社：科学出版社

出版时间：2017-03-30
所属分类：
定价： ￥45.00元

售价： ￥35.55元

图书介质:

纸质书

购买数量： 件可供
商品总价：

内容介绍

样章试读

用户评论

全部咨询

本书是作者多年来在自然语言处理领域开展对统计语言建模以及中文文本校对技术研究的总结。主要内容包括统计语言建模和中文文本自动校对技术两部分内容，共12 章。第一部分介绍统计语言模型构建的基本原理与方法，并对模型训练及评价方法进行研究，提出统计语言模型建模时训练语料规模的定量化度量方法。第二部分概述中文文本中常见的各种错误，并针对这些错误类型提出字词级、句法级和语义级错误的自动侦测方法与模型，开创了汉语文本语义错误自动侦测的新思路，提出中文文本错误的纠错建议生成与排序模型。最后基于所提出的模型与算法开发“正文通”中文文本校对系统。

样章试读

暂时还没有任何用户评论

总计 0 个记录，共 1 页。第一页上一页下一页最末页

全部咨询(共0条问答)

暂时还没有任何用户咨询内容

总计 0 个记录，共 1 页。第一页上一页下一页最末页

用户名：匿名用户

E-mail：

咨询内容：

目录
第一章绪论 1
1.1 撰写本书的背景和意义 1
1.2 本书的主要内容与组织结构 3
1.3 本书重点关注的问题 4
第二章统计语言模型 7
2.1 语言模型概述 7
2.2 现有主要统计语言模型 7
2.2.1 上下文无关模型 7
2.2.2 n-gram 模型 8
2.2.3 隐Markov 模型 11
2.2.4 决策树模型 18
2.2.5 Cache-based 模型 18
2.3 统计语言模型的建模技术 19
2.3.1 基于最大似然法的语言建模 19
2.3.2 基于组合思想的语言建模 21
2.3.3 基于信息论最大熵方法的语言建模 23
2.4 统计语言建模的相关问题 24
2.4.1 语言模型的架构 24
2.4.2 语言模型参数的确定 24
2.4.3 数据稀疏问题与模型平滑 25
2.4.4 语言模型的评价 26
2.5 本章小结 26
第三章汉语统计语言模型的构建 27
3.1 汉语统计语言模型构建概述 27
3.2 汉语文本分词及其相关问题 27
3.2.1 机读词典的建立 27
3.2.2 汉语文本分词算法 28
3.2.3 分词中的中国人名识别 31
3.2.4 实验结果与分析 37
3.3 汉语建模原理与文本统计系统的建立 39
3.3.1 汉语n-gram 模型的构建原理 39
3.3.2 文本统计系统的组成及实现 39
3.3.3 字词统计算法与程序 40
3.4 几种汉语语言模型与实验结果 41
3.5 本章小结 42
第四章汉语统计语言模型的训练与评价 43
4.1 语言模型训练样本的选取 43
4.2 汉语语言模型训练样本的规模 43
4.2.1 语言模型阶数与训练样本规模 43
4.2.2 汉语语言模型的训练语料规模 45
4.2.3 样本规模与词的使用频率和统计相对误差关系 48
4.3 统计语言模型的评价 50
4.3.1 基于信息熵的复杂度度量 50
4.3.2 基于困惑度的复杂度度量 54
4.4 汉语信息熵的估算方法 55
4.4.1 语言信息熵的估算 55
4.4.2 对几种汉语语言模型的比较与评价 55
4.5 本章小结 56
第五章文本校对技术的现状分析 57
5.1 英文文本自动校对技术 57
5.1.1 英文文本中的错误种类 57
5.1.2 单词错误的发现与校对技术 57
5.1.3 上下文相关的错误校对技术 59
5.2 中文文本自动校对技术 61
5.2.1 中文与英文的差别 61
5.2.2 中文自动查错的研究现状 61
5.2.3 中文自动纠错的研究现状 64
5.3 中文文本中常见错误的类型与分析 64
5.3.1 中文文本中的常见错误类型 64
5.3.2 中文文本中常见错误统计分析 66
5.3.3 中文文本自动校对的难点分析 67
5.4 本章小结 68
第六章中文文本字词错误自动侦测的模型与算法 69
6.1 中文文本字词级错误的表现形式 69
6.2 基于n-gram 模型的中文文本查错方法 70
6.2.1 n-gram 模型与接续关系 70
6.2.2 基于接续关系的查错思想 71
6.2.3 字字接续判断模型 71
6.2.4 词接续判断模型 73
6.2.5 接续关系知识获取与知识库构建 74
6.3 基于字词二元接续关系的自动查错算法 75
6.3.1 基于字词二元接续的自动查错算法 75
6.3.2 实验结果及查错实例 76
6.4 规则与统计相结合的文本自动查错模型 79
6.4.1 中文文本中的“非多字词错误”与“真多字词错误” 79
6.4.2 规则与统计相结合的中文文本自动查错模型 80
6.5 散串集中策略 84
6.5.1 双向拼音知识库的构建 84
6.5.2 散串集中策略 84
6.5.3 错误信息存储方法 85
6.5.4 散串集中算法 86
6.5.5 实验结果与分析 86
6.6 一种英文单词拼写自动侦错与纠错的方法—骨架键法 88
6.6.1 英文拼写自动侦错和纠错的一般方法 88
6.6.2 骨架键法在英文侦错与纠错中的可行性分析 88
6.6.3 骨架键法的算法描述和算法分析 89
6.6.4 实验结果评价 90
6.7 本章小结 90
第七章中文文本中语法错误的自动侦测模型与算法 92
7.1 中文文本语法级错误概述 92
7.2 关联词知识库构建及查错算法 93
7.2.1 关联词搭配错误推理规则知识库的构建 93
7.2.2 关联词搭配查错算法 94
7.3 量名搭配知识库的构建及查错算法设计 95
7.3.1 基于《语法词典》的量名搭配 95
7.3.2 基于语料库的量名搭配 96
7.3.3 量名搭配类库的构建 97
7.3.4 量名搭配查错算法 98
7.4 标点符号错误的自动侦测 99
7.4.1 标点符号搭配错误的研究 99
7.4.2 标点符号错误搭配规则及算法设计 100
vi 统计语言建模与中文文本自动校对技术
7.5 基于规则的语法错误推理规则的构建 101
7.5.1 语法错误推理正规则库构建 101
7.5.2 语法错误推理负规则库制定 104
7.5.3 基于语法错误推理规则的语法级错误查错算法 105
7.6 本章小结 106
第八章中文文本中语义错误自动侦测的模型与算法 107
8.1 语义学相关理论 107
8.1.1 现代语义学流派及其主要理论 107
8.1.2 语义知识的表示方法 111
8.1.3 语义知识资源 113
8.2 基于语义搭配知识库的语义侦测算法 117
8.2.1 语义搭配知识库体系结构的设计 117
8.2.2 词语搭配自动抽取算法的设计与实现 119
8.2.3 语义搭配知识库构建算法的设计及实现 124
8.2.4 基于语义搭配知识库的语义侦测算法的设计及实现 127
8.3 基于语义依存搭配知识库的语义查错方法 128
8.3.1 依存树库的构建及搭配关系的提取 128
8.3.2 基于语义依存搭配知识库的语义级查错方法 132
8.4 本章小结 134
第九章面向专业领域的中文文本错误的自动侦测方法 135
9.1 面向特定领域的专业词汇抽取方法概述 135
9.1.1 国外研究现状分析 135
9.1.2 国内研究现状分析 136
9.2 专业领域词汇及搭配关系的相关概念和理论知识 138
9.2.1 专业词汇的定义 139
9.2.2 专业词汇的分类 139
9.2.3 专业词汇的特性 140
9.2.4 专业词语搭配关系的定义 141
9.2.5 通用的统计方法 141
9.3 基于统计与规则相结合的专业词汇抽取算法 145
9.3.1 专业词汇抽取算法的流程 145
9.3.2 基于左右信息熵扩展的候选专业词汇抽取 148
9.3.3 基于成词度的专业词汇筛选 151
9.3.4 基于TF-IDF 领域度的专业词汇筛选 154
9.3.5 基于通用词库的筛选 156
9.4 基于特定领域的词语搭配挖掘算法 156
9.4.1 基于统计的常用词语搭配关系挖掘 157
9.4.2 基于依存句法分析和《同义词词林》的动宾搭配关系挖掘 161
9.4.3 基于依存分析结果的动宾搭配关系挖掘 169
9.5 专业词汇与搭配关系分析挖掘系统的设计与实现 174
9.5.1 系统的框架设计 174
9.5.2 系统的主要用途和技术特点 175
9.5.3 系统各功能模块简介 175
9.5.4 实验结果与分析 181
9.6 专业词汇与搭配关系在中文文本自动校对中的应用 187
9.6.1 专业词汇在中文文本自动校对中的应用 187
9.6.2 词语搭配关系在中文文本自动校对中的应用 189
9.7 本章小结 192
第十章面向政治新闻领域的中文文本校对方法 194
10.1 面向政治新闻领域的中文文本校对方法概述 194
10.2 新闻领域文本政治性错误类型 194
10.3 面向政治新闻校对的相关知识库构建 195
10.3.1 涉及主权、领土完整及港澳台问题的“引号词”QTLIB 库的构建 196
10.3.2 领导人顺序和姓名-职务知识库的构建 197
10.4 面向政治新闻领域的差错侦测算法与实现 198
10.4.1 政治性差错侦测规则库构建 198
10.4.2 面向政治新闻领域的文本分词优化 199
10.4.3 政治性差错侦测模型 200
10.4.4 面向政治领域的文本校对方法的具体实现 201
10.5 实验结果分析 202
10.5.1 测试集的构建 202
10.5.2 结果分析 203
第十一章中文文本错误纠错建议的自动生成及其排序方法 204
11.1 中文文本字词级错误纠错建议自动生成及其排序的模型与算法 204
11.1.1 中文文本字词级错误纠错建议自动生成及其排序概述 204
11.1.2 自动纠错的语言模型 204
11.1.3 纠错知识库的构造 205
11.1.4 纠错建议的生成算法 213
11.1.5 语境关联度模型 215
11.1.6 基于语境关联度模型的纠错建议排序 218
11.1.7 实验结果与实例 219
11.2 基于最大熵方法的语言建模与纠错排歧 221
11.2.1 问题的引入 221
11.2.2 最大熵原理 222
11.2.3 基于最大熵原理的自然语言建模 223
11.2.4 基于频次与平均互信息相结合的特征选择 228
11.2.5 基于最大熵方法的纠错排歧 231
11.3 本章小结 235
第十二章面向中文文本的自动校对实验系统设计与实现 236
12.1 系统目标 236
12.2 系统结构设计 236
12.3 系统的实现 238
12.3.1 开发环境 238
12.3.2 知识获取模块的实现 239
12.3.3 分词模块的实现 239
12.3.4 查错模块的实现 240
12.3.5 纠错模块的实现 241
12.4 系统评测 243
12.4.1 评测目的和评测性能指标 243
12.4.2 标准评测库的建立和评测方法 244
12.5 本章小结 245
附录：汉语语料加工词性标记体系 246
参考文献 247

用户名：	匿名用户
E-mail：
咨询内容：

相同语种的商品

销售排行榜

浏览历史

相同系列 全选

内容介绍 样章试读 用户评论 全部咨询

内容介绍

样章试读

用户评论

全部咨询

全部咨询(共0条问答)

目录

相同系列

全选

内容介绍

样章试读

用户评论

全部咨询