本书面向语言工程,对现有汉语词类体系和词性标注工作展开调查,梳理总结汉语词类体系和词性标注中存在的主要问题,并以英汉语对比为基础,揭示汉语词类体系与词性标注的主要特点,为汉语本体研究和语料库加工提供参考。本书还开展了词性自动标注模型研究,在隐马尔科夫模型的基础上,建立了多观察和多状态搭接的COV模型,并将该模型运用到词性标注任务中,获得了较好的标注效果。
样章试读
目录
- 目录
第1章 绪论 1
1.1 研究背景 1
1.2 研究目标与内容 4
1.3 本书结构 5
第2章 词类研究概述 6
2.1 国际上词类研究概述 6
2.2 汉语词类研究概述 11
2.3 面向语言信息处理的汉语词类研究 13
第3章 词性标注研究概述 16
3.1 词性标注与语料库加工 16
3.2 主要的英语语料库介绍 19
3.3 主要的汉语语料库介绍 20
3.4 有关汉语词性标注的评测活动 22
3.5 语言工程中的自动标注方法研究 23
第4章 词类属性调查 28
4.1 调查目的及方法 28
4.2 词类及其兼类的总体分布 30
4.3 主要词类属性调查 39
4.4 另类词分布统计 45
第5章 词性标注调查 47
5.1 相关术语及定义 47
5.2 语料标注调查的必要性 50
5.3 词性标注的调查原则 52
5.4 调查目的及方法 58
5.5 标注语料的总体情况 61
5.6实词兼类调查 62
5.7 虚词兼类调查 97
5.8语料标注调查结果分析 107
第6章 汉语词类与词性标注问题分析 115
6.1汉语词类体系的分析 115
6.2 汉语词性标注分析 143
6.3 汉语词类问题的总结及相关对策 154
第7章 英汉语词类问题的比较 159
7.1 句法约束与词类之间的关系比较 159
7.2 词类属性与句法实现之间的比较 162
7.3 词性标注过程的比较 163
7.4 英汉语词类特点的总结 166
第8章 COV模型与词性标注 167
8.1 标注模型概述 168
8.2 COV模型的形式化描述及与HMM模型的对比分析 170
8.3 参数估计及稀疏数据处理 173
8.4 算法描述 175
8.5 评价方法 177
8.6 实验设计及结果分析 177
8.7 COV模型在英文词性标注中的应用 189
8.8 COV模型讨论 191
第9章 汉语词性标注体系与自动标注错误的关系分析 195
9.1 自动标注错误原因 195
9.2 兼类词词性调查分类 196
9.3 主要评价指标 197
9.4 实验结果及分析 198
9.5 主要结论和启示 205
第10章 总结与展望 207
10.1 主要工作 207
10.2 未来展望 208
参考文献 210
附录词性标注调查词(词频)表 216