基于半监督与集成学习的文本分类方法
基于半监督与集成学习的文本分类方法封面图

基于半监督与集成学习的文本分类方法

唐焕玲, 著

出版社:电子工业出版社

年代:2013

定价:49.0

书籍简介:

本书重点探讨了利用信息论中的评估函数量化特征权值的方法;基于权值调整改进Co-training的算法;利用互信息或CHI统计量构造特征独立模型,进行特征子集划分的方法;基于投票熵维护样本权重的BoostVE分类模型;融合半监督学习和集成学习的SemiBoost-CR分类模型。其中特征选择和权值调整方法、基于特征独立模型划分特征子集的方法适用于文本分类,其他算法不仅适用于文本分类,对机器学习和数据挖掘的其他研究也有较大的参考价值和借鉴作用。

书籍目录:

第1章绪论1

1.1研究背景及意义1

1.1.1数据挖掘和文本挖掘1

1.1.2文本分类及其面临的问题3

1.2国内外相关研究7

1.2.1半监督学习7

1.2.2集成学习10

1.3本书内容组织14

第2章文本分类技术概述17

2.1文本分类预处理17

2.2文本的表示19

2.3特征选择21

2.3.1初始特征选择22

2.3.2特征选择算法22

2.4文本分类算法24

2.4.1质心向量分类算法24

2.4.2K近邻分类算法26

2.4.3贝叶斯分类算法27

2.4.4关联规则分类算法33

2.4.5支持向量机33

2.4.6其他分类算法37

2.5实验数据集38

2.6分类模型的评估方法39

2.7本章小结41

第3章TEF—WA权值调整技术42

3.1特征选择存在的问题42

3.2TEF—WA权值调整技术43

3.2.1TEF—WA权值调整的基本思想43

3.2.2各种评估函数的TEF—WA权值调整45

3.3实验结果与分析48

3.3.1TEF—WA权值调整的有效性48

3.3.2不同评估函数的权值调整52

3.3.3评估比较62

3.4本章小结68

第4章结合TEF—WA技术的Co—training改进算法69

4.1Co—training算法及其存在的问题69

4.2基于TEF—WA的特征多视图70

4.2.1TEF—WA技术70

4.2.2基于TEF—WA的特征多视图71

4.3基分类器间的差异性评估72

4.4TV—SC算法与TV—DC算法74

4.5实验结果及其分析76

4.6本章小结80

第5章基于特征独立模型的Co—training改进算法81

5.1特征独立模型82

5.1.1基于条件互信息的相互独立性82

5.1.2基于条件2统计量的相互独立性83

5.1.3特征独立模型84

5.2特征子集划分算法PMID85

5.3基于MID—Model的改进算法SC—PMID88

5.4实验结果及其分析89

5.4.1PMID—MI与PART—Rnd的实验比较90

5.4.2PMID—CHI与PART—Rnd的实验比较93

5.4.3PMID—MI、PMID—CHI和PART—Rnd的实验比较95

5.4.4SC—PMID—MI、SC—PMID—CHI和SC—PART—Rnd的

实验比较96

5.5本章小结98

第6章基于投票信息熵和多视图的AdaBoost改进算法99

6.1AdaBoost算法100

6.1.1AdaBoost算法描述100

6.1.2AdaBoost提升NB文本分类器的问题101

6.2利用特征评估函数构造多视图102

6.3基于投票信息熵的样本权重维护新策略103

6.3.1投票信息熵104

6.3.2基于投票信息熵的样本权重维护新策略105

6.3.3样本权重对NB文本分类器的扰动106

6.4BoostVE算法108

6.4.1BoostVE算法描述108

6.4.2BoostVE算法的最小训练错误上界109

6.5实验结果及其分析113

6.5.1参数对BoostVE算法性能的影响115

6.5.2BoostVE算法与AdaBoost—MV算法、

AdaBoost算法的实验比较118

6.5.3BoostVE算法提升NB文本分类器的有效性124

6.6本章小结126

第7章结合半监督学习的SemiBoost—CR分类模型128

7.1SemiBoost—CR模型的目标函数129

7.2未标注样本的置信度131

7.2.1基于K近邻的置信度131

7.2.2基于最大差距的置信度132

7.3基于置信度的重取样策略133

7.4样本权重维护策略135

7.5SemiBoost—CR分类算法136

7.6实验结果及其分析137

7.6.1未标注近邻样本对置信度conf1的影响139

7.6.2两种置信度方法conf1和conf2的实验比较140

7.6.3topN和bottomN对SemiBoost—CR模型的影响144

7.7本章小结154

第8章文本自动分类系统SECTCS155

8.1系统简介155

8.2系统总体结构156

8.3系统的用户界面157

8.4实验数据集163

8.5本章小结165

结束语166

参考文献169

内容摘要:

《基于半监督与集成学习的文本分类方法》适合研究方向为文本挖掘、机器学习的硕士、博士研究生及相关专业技术人员学习和参考。文本分类技术广泛应用于新闻媒体、网络期刊文献、数字图书馆、互联网等领域,是人类处理海量文本信息的重要手段。 本书重点探讨了利用信息论中的评估函数量化特征权值的方法;基于权值调整改进Co-training的算法;利用互信息或CHI统计量构造特征独立模型,进行特征子集划分的方法;基于投票熵维护样本权重的BoostVE分类模型;融合半监督学习和集成学习的SemiBoost-CR分类模型。其中特征选择和权值调整方法、基于特征独立模型划分特征子集的方法适用于文本分类,其他算法不仅适用于文本分类,对机器学习和数据挖掘的其他研究也有较大的参考价值和借鉴作用。【作者简介】山东工商学院计算机科学与技术学院

书籍规格:

书籍详细信息
书名基于半监督与集成学习的文本分类方法站内查询相似图书
9787121212567
如需购买下载《基于半监督与集成学习的文本分类方法》pdf扫描版电子书或查询更多相关信息,请直接复制isbn,搜索即可全网搜索该ISBN
出版地北京出版单位电子工业出版社
版次1版印次1
定价(元)49.0语种简体中文
尺寸22 × 16装帧平装
页数印数

书籍信息归属:

基于半监督与集成学习的文本分类方法是电子工业出版社于2013.8出版的中图分类号为 TP391.1 的主题关于 文字处理-研究 的书籍。