统计语言学
统计语言学封面图

统计语言学

刘颖, 编著

出版社:清华大学出版社

年代:2014

定价:56.0

书籍简介:

语言与统计是一门涉及语言学、计算机科学和数学等多门学科的交叉学科。本书侧重阐述语料库、语言的基本统计、假设检验、方差、文本聚类、文本分类、各种软件介绍、R语言、运用统计进行语言的词汇、句法和语义研究以及风格语言学。

书籍目录:

第1章概论

1.1统计语言学

1.2统计语言学与其他学科

1.2.1计量语言学

1.2.2计算语言学

1.2.3语料库语言学

1.2.4与三个学科的联系与区别

1.3使用统计方法研究的语言特征

1.4统计语言学基本研究方法

1.5统计语言学研究的步骤

1.6统计的语言学应用

第2章语料库

2.1语料库的定义

2.2语料库的类型

2.2.1口语语料库与书面语语料库

2.2.2单语语料库、双语语料库与多语语料库

2.2.3通用语料库与专用语料库

2.2.4共时语料库与历时语料库

2.2.5动态语料库与静态语料库

2.2.6同质语料库与异质语料库

2.2.7生语料库与标注语料库

2.3国内外主要语料库

2.3.1国外的语料库

2.3.2国内的语料库

2.4本章小结

第3章统计在语言研究中的基本应用

3.1统计学的基本概念

3.1.1总体、个体、样本

3.1.2参数与统计量

3.1.3常量、变量

3.1.4实际值与观测值

3.2平均数

3.2.1简单算术平均数

3.2.2加权算术平均数

3.3方差与标准差

3.3.1未分组数据的方差与标准差

3.3.2分组数据的方差与标准差

3.4频度、频率、概率、条件概率、贝叶斯定理

3.4.1概率论中的常用概念

3.4.2概率

3.4.3独立性

3.4.4贝叶斯定理

3.4.5频度与频率

3.5互信息

3.6 Z评分

3.7Dice系数

3.8Phi平方系数(Φ2)

3.9对数似然比

3.10N元模型

3.10.1N元语法

3.10.2N元语法模型

3.11语言学三大统计规律

3.11.1Zipf法则

3.11.2MenzerathAltmann定律

3.11.3PiotrowskiAltmann定律

3.12熵

3.12.1静态平均信息熵

3.12.2极限熵

3.13Yule 图

3.14Fuchs公式

3.15使用度与通用度

3.15.1使用度

3.15.2通用度

3.16本章小结

第4章假设检验

4.1假设检验的相关概念

4.1.1假设检验的基本原理

4.1.2假设的分类

4.1.3检验统计量与临界值

4.1.4双尾检验与单尾检验

4.1.5假设检验的一般步骤

4.1.6假设检验中的两类错误

4.2参数假设检验

4.2.1正态分布

4.2.2U检验

4.2.3t检验

4.2.4χ2检验

4.2.5F检验

4.2.6参数假设检验比较

4.3非参数假设检验

4.3.1χ2检验

4.3.2秩和检验

4.3.3非参数假设检验比较

4.4本章小结

第5章方差分析

5.1方差分析的定义及基本思想

5.1.1方差分析的定义

5.1.2方差分析的基本思想

5.2方差分析的基本概念和使用条件

5.2.1方差分析中的基本概念

5.2.2使用方差分析的条件

5.3方差分析的类型和一般步骤

5.3.1方差分析的类型

5.3.2方差分析的一般步骤

5.4单因素方差分析

5.4.1各个因素水平间的样本容量相同

5.4.2各个因素水平间的样本容量不完全相同

5.4.3方差分析中的多重比较

5.5双因素方差分析

5.5.1无重复双因素方差分析

5.5.2可重复双因素方差分析

5.6本章小结

第6章文本聚类

6.1文本聚类概述

6.1.1文本聚类定义

6.1.2文本聚类的流程

6.2文本聚类中的数据

6.2.1聚类分析中使用的数据结构

6.2.2数据归一化处理

6.3相似度计算

6.3.1文本相似度的计算

6.3.2特征相似度的计算

6.4聚类算法

6.4.1层次聚类

6.4.2划分聚类

6.4.3划分聚类与层次聚类的联系和区别

6.5文本聚类性能评价

6.5.1纯度

6.5.2归一化互信息

6.5.3精确度

6.5.4F值

6.6本章小结

第7章文本分类

7.1文本分类的定义

7.2分类方法

7.2.1基于知识工程的方法

7.2.2基于机器学习的方法

7.3分类步骤与流程

7.4文本表示与特征选择

7.4.1特征项选择

7.4.2词袋模型

7.4.3向量空间模型

7.4.4特征筛选与权重

7.5向量相似度测量

7.6分类模型

7.6.1朴素贝叶斯(Nave Bayes)

7.6.2k最近邻(kNearest Neighbor)

7.6.3支持向量机(Support Vector Machines)

7.7文本分类的评价

7.7.1准确率、召回率

7.7.2正确率、错误率

7.7.3F值

7.7.4微平均和宏平均

7.8本章小结

第8章R语言简介

8.1R语言的帮助文件

8.1.1R的基本知识在线帮助

8.1.2R程序中的关键字符及函数的在线帮助

8.2R程序包

8.2.1程序包的安装

8.2.2程序包的载入

8.3R语言的数据结构及基本函数

8.3.1R语言的对象类型

8.3.2R语言的对象的建立

8.3.3数值型向量的常用统计函数

8.4数据的读取和存储

8.4.1数据的读取

8.4.2数据的存储

8.5R的基本绘图

8.5.1饼图(Pie Plot)

8.5.2条形图(Barplot)

8.5.3直方图(Hist)

8.5.4折线图(Matplot)

8.5.5箱线图(Boxplot)

8.5.6散点图(Scatter Diagram)

8.5.7散点图矩阵(Scatterplot Matrices)

8.6假设检验

8.6.1参数假设检验

8.6.2非参数假设检验

8.7方差分析

8.7.1方差齐性检验

8.7.2单因素方差分析

8.7.3双因素方差分析

8.8本章小结

第9章计算风格学研究

9.1计算风格学研究使用的语言特征

9.1.1字符方面

9.1.2词汇方面

9.1.3句子方面

9.1.4词类方面

9.1.5短语和语法结构方面

9.1.6段落方面

9.2计算风格学研究中常使用的方法

9.3莫言与余华小说计算风格学研究

9.3.1基于频率的风格分析

9.3.2假设检验的文本风格分析

9.3.3基于文本聚类的风格分析

9.3.4基于文本分类的风格分析

9.3.5小结

9.4本章小结

附录常用的统计数表

附表1标准正态分布函数数值表

附表2正态性检验统计量W的系数ai(n)的值

附表3正态性检验统计量W的 α分位数Wα表

附表4正态性检验统计量Y的α 分位数Yα表

附表5t检验临界值表

附表6χ2检验临界值表

附表7F检验临界值表

附表8Wilcoxon秩和检验临界值表

附表9统计量H的分位数H1-α(r,f)表

附表10多重比较q1-α(r,f)表

参考文献

......

内容摘要:

统计语言学是一门涉及语言学、计算机科学和数学等多门学科的交叉学科,覆盖面广。本书详细阐述语言统计知识、语言统计的R语言实现、统计结果的直观展示和统计结果的语言分析。主要介绍语言学的基本统计、参数假设检验、非参数假设检验、方差分析、文本聚类、文本分类和综合运用这些统计知识的计量风格学研究。本书结构完整,层次分明,条理清楚。既便于教学,又便于自学。可作为中文、外语、计算机等专业高年级本科生和研究生教材,也可供从事语言统计和计量分析的研究者参考。

书籍规格:

书籍详细信息
书名统计语言学站内查询相似图书
9787302378150
如需购买下载《统计语言学》pdf扫描版电子书或查询更多相关信息,请直接复制isbn,搜索即可全网搜索该ISBN
出版地北京出版单位清华大学出版社
版次1版印次1
定价(元)56.0语种简体中文
尺寸26 × 19装帧平装
页数印数

书籍信息归属:

统计语言学是清华大学出版社于2014.出版的中图分类号为 H087 的主题关于 统计语言学 的书籍。