出版社:清华大学出版社
年代:2015
定价:50.0
本专著以数据流分类问题研究为主题,介绍数据挖掘及数据流的研究、应用背景,以及当前的主要研究进展与存在的问题;介绍分类挖掘任务中常用模型和技术,为后续数据流分类方法提供技术基础;重点介绍面向数据流概念漂移环境或类标签缺失环境下的数据流分类算法与模型,包括数据流集成分类模型、面向不同漂移特征的概念漂移检测与数据流分类方法以及不完全标记数据流环境下的概念漂移检测与分类方法。
引言篇
第1章数据挖掘
1.1KDD定义和过程
1.2数据挖掘的概念和任务
1.3数据挖掘中的十大算法
1.3.1C4.5算法
1.3.2k—Means算法
1.3.3SVM算法
1.3.4Apriori算法
1.3.5EM算法
1.3.6PageRank算法
1.3.7AdaBoost算法
1.3.8kNN算法
1.3.9NaiveBayes算法
1.3.10CART算法
1.4数据挖掘中的应用热点
1.5小结
参考文献
第2章数据流挖掘
2.1背景
2.2数据流的应用领域及定义
2.3数据流处理的理论基础与挖掘技术
2.3.1基于数据的方法
2.3.2基于任务的方法
2.4数据流挖掘的挑战与任务
2.4.1传统数据挖掘面临的挑战
2.4.2数据流挖掘的挑战
2.4.3数据流的挖掘任务
2.5小结
参考文献
第3章数据流分类的关键研究问题
3.1引言
3.2概念描述模型与大纲数据提取问题
3.2.1概念描述模型
3.2.2数据流大纲的提取方法与策略
3.3数据流的概念漂移检测问题
3.3.1概念漂移的基础知识
3.3.2概念漂移的处理方法
3.3.3研究进展
3.3.4技术方案
3.4噪音数据流问题
3.4.1问题描述
3.4.2研究进展与技术方案
3.5数据分布不平衡问题
3.5.1问题描述
3.5.2不平衡数据分布的处理方法
3.5.3研究进展
3.5.4技术方案
3.6不完全标记数据流分类问题
3.6.1问题描述
3.6.2不完全标记数据的处理方法
3.6.3研究进展
3.6.4技术方案
3.7数据流的特征高维稀疏问题
3.7.1问题描述
3.7.2研究进展与技术方案
3.8数据流分类的评价体系
3.8.1问题描述
3.8.2概念漂移检测方法的评估指标
3.8.3数据流分类评估方法
3.8.4设计方案
3.9本章小结
参考文献
基础篇
第4章分类模型与方法
4.1分类的基本知识
4.2分类模型的评估方法
4.3决策树模型
4.3.1传统的决策树模型
4.3.2随机决策树模型
4.4Bayes模型
4.4.1贝叶斯分类的一般原理
4.4.2常见的贝叶斯分类模型
4.5其他分类模型
4.5.1神经网络
4.5.2概念格
4.5.3粗糙集合
4.6集成方法
4.6.1集成分类的基本知识
4.6.2经典的集成分类方法
参考文献
第5章特征选择
5.1研究背景及意义
5.2特征选择概述
5.2.1特征选择的相关概念
5.2.2特征选择的过程
5.2.3特征选择的分类
5.3经典特征选择方法概述
5.3.1Relief方法
5.3.2信息熵方法
5.3.3粗糙集合方法
5.3.4遗传算法
5.3.5One—R方法
5.3.6LARS算法
5.4特征选择面临的挑战
参考文献
专题篇
第6章数据流的集成分类方法研究
6.1引言
6.2数据流分类的集成策略
6.2.1WE集成方法
6.2.2AP集成方法
6.2.3WE与AP混合集成方法
6.2.4基于WE的混合集成方法
6.3基于决策树模型的集成分类方法
6.3.1基于UFFT的集成分类方法
6.3.2基于随机决策树的集成分类方法
6.4本章小结
参考文献
第7章数据流中概念漂移检测与分类问题研究
7.1引言
7.2基于增量式决策树的数据流概念漂移检测与分类方法
7.2.1CVFDT系列数据流概念漂移检测与分类方法
7.2.2RDT系列数据流概念漂移检测与分类方法
7.3面向不同漂移特征的概念漂移数据流分类算法
7.3.1基于C4.5和NaiveBayes混合模型的概念漂移数据流分类算法
7.3.2基于变体RDT模型的概念漂移数据流检测与分类方法
7.3.3CDRDT算法:一种快速的数据流概念漂移检测与分类算法
7.3.4基于双层窗口的概念漂移数据流分类算法
7.4本章小结
参考文献
第8章不完全标记数据流分类问题研究
8.1引言
8.2不完全标记数据流的处理技术
8.2.1基于k—Means与增量式决策树的模型
8.2.2基于k—Modes与增量式决策树的模型
8.3不完全标记数据流中的概念漂移检测
8.3.1研究现状
8.3.2基于聚类概念簇差异的概念漂移检测机制
8.3.3实验结果与分析
8.4不完全标记数据流中的重现概念漂移检测
8.4.1研究现状
8.4.2基于聚类概念簇差异的重复再现概念检测机制
8.4.3实验结果与分析
8.5算法框架与实验分析
8.5.1SUN算法框架
8.5.2SUN算法的实验结果与分析
8.5.3REDLLA算法框架
8.5.4REDLLA算法的实验结果与分析
8.6不完全标记数据流分类任务中的开放性问题
8.7本章小结
参考文献
第9章面向应用数据的特征降维方法研究
9.1引言
9.2文本分类中的特征降维
9.2.1经典文本特征降维算法
9.2.2基于语义信息的特征降维方法
9.3基于本体的特征降维算法
9.3.1相关定义
9.3.2算法框架
9.3.3算法技术细节
9.3.4实验结果与分析
9.4基于迭代Lasso的肿瘤分类信息基因选择方法
9.4.1引言
9.4.2方法GSIL系统框架
9.4.3实验结果与分析
9.4.4小结
9.5流环境下实时的特征降维方法
9.5.1引言
9.5.2IV指标定义
9.5.3基于IV指标的特征选择方法FS—IV
9.5.4FS—IV的实验结果及分析
9.5.5FS—IV在入侵检测数据流中的应用
9.5.6FS—IV在网络交易数据流中的应用
9.6本章小结
参考文献
……
实验资源篇
本书阐述了数据流分类问题的基础理论、技术方法以及应用实践,为面向实际数据流开展分类数据挖掘任务提供了理论与实践基础。全书共分四篇12章。第一篇是引言篇,本篇首先简介数据挖掘的相关概念,然后介绍数据流挖掘的相关定义、应用背景及理论基础与技术,最后重点总结数据流分类挖掘的主要研究进展并归纳了存在的关键问题;第二篇是基础篇,本篇主要阐述了分类挖掘任务中常用的模型与技术,为后续数据流分类方法提供技术基础;第三篇是专题篇:本篇首先总结分析适宜于数据流环境的几种集成模型,并通过两个示例讲解了基于加权集成模型的数据流分类算法的应用。然后详细介绍若干数据流的概念漂移检测与分类方法、不完全标记数据流分类方法以及面向实际应用数据的特征选择方法,并通过在模拟与实际数据上的大量实验考察了这些方法的分类性能;第四篇是实验资源篇,本篇首先介绍数据流分类算法实验工具ETDSv1.0 的功能与用户使用说明,然后归纳总结目前流行的面向数据流环境的实验平台以及在数据流分类任务中常用的数据集。本书在数据流中概念漂移检测问题、不完全标记问题、特征选择等方面有许多独到见解,总结归纳了近年来在数据流分类任务上的研究成果,并归纳提炼了数据流分类研究任务中存在的重要开放性问题。本书可作为计算机软件与理论、计算机应用类的研究生教材,也可供对数据流挖掘等领域感兴趣的相关教师、本科生、研究生以及科技工作者参考。另外,本书介绍的相关实验软件平台已开源,可为从事数据流挖掘等方向的科研工作者提供实践与二次开发平台。
书籍详细信息 | |||
书名 | 数据流分类站内查询相似图书 | ||
9787302405993 如需购买下载《数据流分类》pdf扫描版电子书或查询更多相关信息,请直接复制isbn,搜索即可全网搜索该ISBN | |||
出版地 | 北京 | 出版单位 | 清华大学出版社 |
版次 | 1版 | 印次 | 1 |
定价(元) | 50.0 | 语种 | 简体中文 |
尺寸 | 26 × 19 | 装帧 | 平装 |
页数 | 印数 | 1000 |