面向非结构化文本的知识发现

面向非结构化文本的知识发现

王东波, 著

出版社:中国社会科学出版社

年代:2013

定价:38.0

书籍简介:

本书基于英汉双语平行语料库、宾州英汉双语树库和清华汉语树库,首次揭示和验证了英汉双语词汇句法功能分布复杂度呈现洛特卡现象的规律。在揭示该规律的过程中,不仅得到了英汉两种语言中词汇的句法功能分布,而且获取了英汉两种词汇在句法上的歧义分布状态,并结合齐夫定律给出了英汉两种词汇在句法上的平均歧义值。以英汉双语树库中已标注英汉双语介宾短语结构为数据资源,构建了英汉双语介宾短语结构知识抽取的模型并完成了基于英汉双语平行语料库的介宾短语结构知识抽取。在构建模型的过程中,统计了英汉双语介宾短语结构的内部和外部特征,并对比了条件随机场的复杂特征模板和添加特征模板的性能,根据具体实验确定了所构建模型的的特征模板。在已有聚类算法的基础上,结合英汉双语人文社会科学专门平行语料,从中进行了类别知识挖掘的实验。通过对汉语、英语和英汉双语的词汇级知识的聚类,确定了英汉双语词汇特征的性能优于单语,同时通过对比词汇和词汇与词性组合的聚类性能,根据具体的实验数据和结合相应的分析,确定了词汇与词性的组合是本研究挖掘类别知识的基本组合模式,并进一步确定了其中的“名词+形容词+动词”为类别知识挖掘的特征组合。

书籍目录:

第一章 引言

一 课题提出

二 研究意义

三 研究方法

四 研究技术路线

五 研究创新点

六 本书结构和所用资源

第二章 相关研究综述

一 面向网络获取相关英汉双语平行语料的概述

二 词汇句法功能分布的相关研究概况

三 短语结构知识抽取的相关研究综述

四 类别知识挖掘的相关研究

第三章 面向网络的英汉双语平行语料库自动构建

一 确定获取语料网站和制定抓取词汇底表

二 网页的抓取和英汉双语平行语料的抽取

第四章 词汇句法功能分布复杂度呈现规律的知识挖掘

一 词汇句法功能分布复杂度统计数据源简介和句法结构调整

二 词汇句法功能分布复杂度的获取

三 词汇句法功能分布复杂度的洛特卡现象揭示

第五章 基于英汉双语平行语料库的短语结构知识抽取――以介宾短语结构为例

一 英汉双语介宾短语结构句法特征统计分析

二 有关介宾短语结构知识抽取模型构建的相关介绍和预处理

三 介宾短语结构知识抽取模型的确定和英汉双语介宾短语结构知识的抽取

第六章 基于英汉双语平行语料库的复杂短语级类别知识挖掘

一 面向英汉双语专门复杂短语平行语料的聚类和词干或词形算法确定

二 语料的预处理和相关统计

三 面向英汉双语复杂短语平行语料的词性选择

四 基于英汉双语复杂短语平行语料的类别知识挖掘

结语

参考文献

附录1 宾州大学英语树库的词性标记

附录2 宾州大学汉语树库的词性标记

附录3 清华大学树库词性标记

附录4 汉语自身特征模板

附录5 英语自身特征模板

附录6 汉语添加特征模板

附录7 英语添加特征模板

附录8 中国科学院和北京大学核心词性标注集

附录9 BNC统计语料样例

后记

内容摘要:

《面向非结构化文本的知识发现:基于英汉双语平行语料库的句法级知识挖掘和抽取研究》从句法这一层面入手,基于面向网络获取的英汉双语平行语料这一非结构化数据,结合自然语言处理和文本挖掘的相应技术,在情报学、语言学方法和知识的基础上,针对词汇、简单短语、复杂短语这三个句法层级上的知识挖掘和抽取问题进行了探究,揭示了词汇句法组合的呈现规律,构建了简单短语结构抽取的模型,挖掘了面向复杂短语的类别知识。

书籍规格:

书籍详细信息
书名面向非结构化文本的知识发现站内查询相似图书
9787516126035
如需购买下载《面向非结构化文本的知识发现》pdf扫描版电子书或查询更多相关信息,请直接复制isbn,搜索即可全网搜索该ISBN
出版地北京出版单位中国社会科学出版社
版次1版印次1
定价(元)38.0语种简体中文
尺寸21 × 15装帧平装
页数印数

书籍信息归属:

面向非结构化文本的知识发现是中国社会科学出版社于2013.5出版的中图分类号为 TP182 的主题关于 知识工程-数据收集-研究 的书籍。