现代汉语基本词汇自动识别方法研究

现代汉语基本词汇自动识别方法研究

赵小兵, 张普, 著

出版社:中央民族大学出版社

年代:2012

定价:50.0

书籍简介:

由于汉语词汇量化标准受限于计算机语言学发展程度,本书首先对动态流通资料库上的基本汉语词汇、通用词汇进行研究并进行概念界定,在此基础上对现代汉语词汇的自动化识别方法进行了系统研究。

书籍目录:

第一章 绪论1.1 基本词汇的来源及争论1.2 基于动态流通语料库的现代汉语基本词汇概念的界定1.3 基本词汇的研究意义1.4 基本词汇研究及相关文献综述1.5 研究目标和研究内容1.6 本书内容结构第二章 CBVE及其自动提取方法相关理论探讨2.1 现代汉语词汇的层级关系2.2 动态流通语料库与词汇的稳态研究2.3 从“相对时间观”看基本词汇的稳固性特征2.4 关于模式识别的概念及其方法理论2.5 小结第三章 CBVE自动识别与提取的研究方法论3.1 CBVE自动识别与提取研究的技术路线3.2 研究语料的选择3.3 CBVE自动提取的基本词汇先验集研究3.4 词汇统计的预处理3.5 小结第四章 CCWE的自动识别与提取方法研究4.1 CCWE通用度的定量分析方法探讨4.2 词汇通用度的计算4.3 CCWE的提取步骤4.4 CCWE自动提取实验结果分析4.5 小结第五章 狭义的CBVE自动识别与提取方法研究5.1 CBVE的特征向量描述5.2 CBVE特征向量的选取5.3 CBVE的自动识别与提取模型构造5.4 基本词汇先验集聚类5.5 标注CBVE的初始训练集5.6 遗传算法训练狭义CBVE的自动提取模型5.7 小结第六章 广义CBVE自动识别与提取方法研究6.1 广义CBVE的特征向量描述6.2 广义CBVE特征向量的选取6.3 构造广义CBVE自动识别与提取模型6.4 训练CBVE遗传算法的自动提取模型6.5 小结第七章 CCWE与CBVE词汇专项考察与分析7.1 CBVE与CCWE特性统计分析7.2 CCWE语素分析7.3 CBVE的释义能力分析7.4 报纸媒体用词特征分析7.5 领域类用词特征分析7.6 小结第八章 结语8.1 存在的问题8.2 今后的研究设想参考文献附录附录1 现代汉语基本词汇先验集收录情况附录2 2002-2006年度的语言工程汉语通用词(词语带词性,共13484,前1100词)附录3.1 CBVE备选集词语语素过滤的“不成词语素”表……

内容摘要:

  《现代汉语基本词汇自动识别方法研究》以2002-2006年大陆地区发行的六种主流报纸(《人民日报》、《北京青年报》、《北京晚报》、《法制日报》、《环球时报》、《羊城晚报》)的动态流通语料库作为考察对象,动态跟踪和考察词汇在大众媒体中的使用情况,提出了词语通用度的计算公式,进而考察语言学家例证所获得的基本词汇先验集所具有的统计特征类型,确立基本词汇的特征描述向量,采用遗传算法构造基于动态流通语料库的“语言工程现代汉语基本词汇”CBVE①自动识别及提取模型,实现CBVE的自动提取,为现代汉语基本词汇研究提供了一种量化考察途径。  《现代汉语基本词汇自动识别方法研究》的主要贡献体现在:第一,在大规模的动态流通语料库中.考察了大众媒体报纸的词汇真实使用情况。处理考察的语料规模庞大,覆盖文本数632255个,词次总数247257749,不同词种数8750105。第二,首次提出了在动态流通语料库中定量分析和考察CBVE基本词汇特征的一种方法,为今后基本词汇从定性研究过渡到定量研究提供了一种途径。第三,提出了一种词汇通用程度的计算方法,为词汇统计特征考察提供了一种新的计量指标。第四,借鉴了模式识别领域的研究方法,依据遗传算法搜寻特征向量空间范围广、收敛速度快、鲁棒性强等特点,将其应用到对CBVE自动识别及提取模型的参数训练上,获得了令人满意的结果。

书籍规格:

书籍详细信息
书名现代汉语基本词汇自动识别方法研究站内查询相似图书
9787566002525
如需购买下载《现代汉语基本词汇自动识别方法研究》pdf扫描版电子书或查询更多相关信息,请直接复制isbn,搜索即可全网搜索该ISBN
出版地北京出版单位中央民族大学出版社
版次1版印次1
定价(元)50.0语种简体中文
尺寸21 × 15装帧平装
页数印数

书籍信息归属:

现代汉语基本词汇自动识别方法研究是中央民族大学出版社于2012.8出版的中图分类号为 TP391.43 的主题关于 现代汉语-词汇-自动识别-研究 的书籍。