出版社:清华大学出版社
年代:2015
定价:39.0
本书是一本全面系统地介绍中文文本信息处理的教材,内容丰富,由浅入深地讲述了中文文本理解的原理与应用。本书从基于规则和基于统计两个角度介绍自然语言分析方法,要包括四大部分:词法分析、语法分析、语义分析和应用与技术,其中词法分析介绍中文特有的分词问题,语法和语义分析部分从表示入手并给出形式化分析的算法,最后一部分讲述自然语言处理在文本分类、信息检索、问答系统和自动文摘等领域的应用。
第1部分 预备知识
第1章 概论
1.1 自然语言处理与中文信息处理
1.1.1 自然语言处理
1.1.2 中文信息处理
1.2 研究内容
1.3 应用领域
第2章 预备知识
2.1 数学基础
2.1.1 概率论
2.1.2 随机过程
2.1.3 信息论
2.1.4 形式语言与自动机
2.2 语言学基础
2.2.1 计算语言学概述
2.2.2 语素和词
2.2.3 句法与篇章语法
2.2.4 词义与句义
第2部分 词法分析
第3章 自动分词概述
3.1 自动分词
3.1.1 分词规范
3.1.2 自动分词的研究内容及意义
3.1.3 自动分词方法
3.2 分词歧义问题
3.3 未登录词问题
3.4 自动分词评测
第4章 基于词典的分词方法
4.1 分词词典
4.1.1 关于分词词典的构造
4.1.2 基于词属性的分词词典
4.1.3 基于逐字二分的分词词典
4.2 机械分词方法
4.2.1 正向最大匹配算法
4.2.2 逆向最大匹配算法
4.2.3 邻近匹配算法
4.2.4 最短路径匹配算法
4.3 基于规则的分词方法
4.3.1 分词预处理中的规则
4.3.2 分词规则
4.4 中文姓名切分
4.4.1 切分姓名中的当用资源
4.4.2 同源对表、互斥对表及其操作
4.4.3 姓名左右边界的确定
4.4.4 屏蔽与恢复
4.4.5 同源对表和互斥对表的校正规则
4.4.6 概率再筛选
4.4.7 中文姓名切分系统
第5章 基于语料库的分词方法
5.1 语料库
5.1.1 语料库概述
5.1.2 语料库加工规范
5.1.3 现代汉语语料库构建实例
5.2 基于统计的分词方法
5.2.1 统计分词概述
5.2.2 统计分词消歧
5.2.3 统计未登录词获取
5.2.4 统计分词模型
5.3 基于机器学习的分词方法
5.3.1 最大熵分词
5.3.2 条件随机场分词
第2部分习题
第3部分 语法分析
第6章 自动词性标注
6.1 词性标注概述
6.1.1 词性标注
6.1.2 词性标记规范
6.1.3 词性消歧
6.1.4 词性标注评测
6.2 基于统计的词性标注方法
6.2.1 统计模型的训练
6.2.2 马尔可夫模型标注方法
6.2.3 隐马尔可夫模型标注方法
6.3 基于规则的词性标注方法
6.3.1 按兼类词搭配关系构造的规则
6.3.2 按词语结构获取的规则
6.4 其他标注方法
6.4.1 基于规则和统计相结合的标注方法
6.4.2 基于条件随机场的词性标注方法
6.4.3 词性标注中的未登录词处理方法
第7章 语法表示方法
7.1 语法表示概述
7.2 形式语法描述
7.2.1 重写规则
7.2.2 转移网络
7.3 短语结构语法
7.4 依存语法
第8章 句法分析方法
8.1 句法分析概述
8.1.1 句法分析
8.1.2 结构歧义
8.1.3 句法分析评测
8.2 基于规则的句法分析方法
8.2.1 自顶向下句法分析
8.2.2 自底向上句法分析
8.2.3 线图句法分析
8.2.4 转移网络句法分析
8.3 基于统计的句法分析方法
8.3.1 概率上下文无关文法分析
8.3.2 依存句法分析
第3部分习题
第4部分 语义分析
第9章 概念标注
9.1 概念标注概述
9.2 语言知识库
9.3 概念标注方法
第10章 语义表示
10.1 语义表示概述
10.2 语义逻辑表示法
10.2.1 一阶谓词演算
10.2.2 基本逻辑形式语言
10.2.3 逻辑形式中的歧义表示
10.2.4 论旨角色
10.3 语义网络表示法
10.4 语义框架表示法
第11章 语义分析
11.1 语义分析概述
11.2 基于语义特征的语义分析
11.2.1 组合理论
11.2.2 λ表达式与语义解释
11.2.3 带语义解释的简单语法和词典
11.2.4 语义角色
11.2.5 特征合一的语义解释
11.3 基于语法关系的语义分析
11.4 基于模板匹配的语义分析
11.5 语义消歧
11.5.1 语义消歧概述
11.5.2 基于规则的语义消歧
11.5.3 基于统计的语义消歧
第4部分习题
第5部分 应用与技术
第12章 文本分类
12.1 文本分类概述
12.1.1 自动文本分类定义
12.1.2 文本分类任务的特点
12.1.3 文本分类基本实现途径
12.1.4 文本分类的组成
12.1.5 文本分类的应用领域
12.1.6 国内外研究现状
12.2 文本分类方法
12.2.1 文本表示与文本特征选择
12.2.2 分类器设计
12.2.3 分类器的阈值选择
12.3 文本分类评测
12.3.1 单类赋值
12.3.2 多类排序
第13章 信息检索
13.1 信息检索概述
13.1.1 信息检索的对象和任务
13.1.2 信息检索的评测
13.1.3 信息检索模型
13.1.4 中文信息检索的特点
13.2 基于统计的信息检索模型
13.2.1 布尔模型及其扩展
13.2.2 向量空间模型
13.2.3 概率模型
13.3 基于语义的信息检索
13.3.1 基于NLP的方法
13.3.2 潜在语义索引
13.3.3 基于神经网络的信息检索
13.4 信息检索技术评测
13.4.1 文本检索会议
13.4.2 亚洲语言信息检索评测会议
13.4.3 863信息检索评测项目
13.5 Web信息检索
13.5.1 Web信息检索的特点
13.5.2 搜索引擎
第14章 问答系统
14.1 问答系统概述
14.1.1 问答系统的发展
14.1.2 问答系统的定义
14.1.3 问答系统的研究趋势
14.2 关键技术
14.2.1 关键词抽取
14.2.2 关键词扩展
14.3 问答系统评测
14.4 Watson问答系统
第15章 自动文摘
15.1 自动文摘概述
15.1.1 文摘的定义
15.1.2 文摘的分类
15.1.3 自动文摘的意义
15.2 自动文摘的方法
15.2.1 基于统计的自动文摘
15.2.2 基于理解的自动文摘
15.2.3 基于信息抽取的自动文摘方法
15.2.4 基于结构的自动文摘
15.3 自动文摘系统评测
15.3.1 内部评价
15.3.2 外部评价
15.4 自动文摘系统273
第5部分习题
附录A 北京大学计算语言学研究所汉语词性标注标记集
附录B 哈尔滨工业大学CDT依存句法标注体系
参考文献
本书全面系统地介绍了中文文本信息处理技术,由浅入深地讲述了中文文本理解的原理与应用。全书共5个部分: 预备知识、词法分析、语法分析、语义分析和应用与技术。预备知识部分介绍了本书所需的数学、语言学和形式语言与自动机方面的理论知识。词法分析、语法分析和语义分析是自然语言处理的基础。词法分析部分针对中文信息处理中特有的分词问题,介绍了若干分词算法以及分词歧义消除和未登录词识别算法。语法分析和语义分析两部分从语法(语义)的表示入手,介绍自然语言的结构化和形式化,给出语法分析和语义分析的常用算法,并针对该过程中的歧义问题给出可行的解决思路。应用与技术部分讲述中文信息处理的应用,尤其是在文本分类、信息检索、问答系统和自动文摘等领域的应用技术。本书涉及内容广泛,能满足不同层次读者群的需求,可以作为高等学校计算机、信息类高年级本科生的教材,也可作为自然语言处理方向研究生的教材,同时非常适合供自然语言处理应用领域的研究人员和技术人员参考。
书籍详细信息 | |||
书名 | 中文信息处理原理及应用站内查询相似图书 | ||
9787302389507 如需购买下载《中文信息处理原理及应用》pdf扫描版电子书或查询更多相关信息,请直接复制isbn,搜索即可全网搜索该ISBN | |||
出版地 | 北京 | 出版单位 | 清华大学出版社 |
版次 | 2版 | 印次 | 1 |
定价(元) | 39.0 | 语种 | 简体中文 |
尺寸 | 26 × 19 | 装帧 | 平装 |
页数 | 印数 | 2000 |
中文信息处理原理及应用是清华大学出版社于2015.出版的中图分类号为 TP391.12 的主题关于 汉字信息处理-高等学校-教材 的书籍。