出版社:清华大学出版社
年代:2011
定价:22.0
本书内容覆盖了媒体内容分析与理解相关的理论和应用技术。
第1章 绪论
1.1 引言
1.2 媒体/视频语义预处理
1.3 现有媒体内容分析与理解现状
1.3.1 机器学习/模式分类方法
1.3.2 统计学习方法
1.3.3 基于规则推理的方法
1.3.4 结合特定领域特点的方法
1.3.5 结合语义语境和语义关系进行内容理解的方法
1.3.6 结合语义知识理解媒体内容的方法
1.3.7 其他方法
1.3.8 体育媒体标注
1.4 视频检索评测
1.5 LSCOM与MediaMill
1.6 本章小结
第2章 媒体计算理论及模型
2.1 隐马尔可夫模型
2.1.1 赌场真假骰子例子
2.1.2 模型描述
2.1.3 三个基本问题的解决方法
2.1.4 Baum-Welch重估公式的理论基础
2.1.5 HMM在语音识别领域的应用
2.2 支持向量机
2.2.1 二维平面中的分类实例
2.2.2 VC维
2.2.3 结构风险最小化
2.2.4 线性分类
2.2.5 核函数与支撑向量机
2.2.6 相关推导与讲解
2.3 本体论与知识表示
2.3.1 本体基本理论
2.3.2 Ontology的描述语言
2.3.3 本体构建
2.3.4 本体映射
2.3.5 已有的Ontology及其分类
2.3.6 WordNet
2.3.7 WordNet名词组织形式
2.4 媒体内容分析中的脑认知理论
2.4.1 显著图
2.4.2 显著图自动定位
2.4.3 视觉显著生理机制
2.4.4 显著性计算的简单框架
2.4.5 神经中枢与动作关联
2.5 信息理论相似性定义
2.6 本章小结
第3章 视频内容分析
3.1 引言
3.2 镜头检测分割
3.2.1 基于统计分布的渐变镜头检测与分割
3.2.2 特征提取和测量准则的建立
3.2.3 渐变镜头边界检测
3.2.4 实验与分析
3.3 运动视频对象分割
3.3.1 全局运动计算与补偿
3.3.2 对象分割
3.3.3 实例实验
3.4 低层特征提取
3.4.1 静态可视特征
3.4.2 运动特征
3.4.3 音频特征
3.4.4 实验与分析结果
3.5 本章小结
第4章 视觉语义分析与理解
4.1 引言
4.2 基于时空注意力模型的视觉语义分析
4.2.1 注意力机制选择显著区域
4.2.2 可视基本对象识别
4.2.3 可视基本对象分类识别的特征选择
4.2.4 实验分析
4.3 具有多峰正态分布属性的基本可视对象识别
4.3.1 贝叶斯相关理论及解决思路
4.3.2 定步长组合划分方法
4.3.3 实验及计算复杂度分析
4.3.4 实验结论
4.4 高层视觉语义分析
4.4.1 高层视觉语义模型构建
4.4.2 关键帧策略与时间线语义语境约束线索
4.4.3 模型描述
4.4.4 时间语义的可观察符号
4.4.5 实验结果与分析
4.5 本章小结
第5章 音频语义分析与理解
5.1 引言
5.2 基本声音语义分析
5.2.1 模型选择与描述
5.2.2 基本声音语义识别系统解决方案
5.2.3 谱特征提取
5.2.4 基本声音语义模型训练
5.2.5 基本声音语义识别
5.2.6 实验与分析
5.3 音频高层语义分析
5.3.1 音频高层语义建模
5.3.2 音频高层语义提取
5.3.3 实验与分析
5.4 本章小结
第6章 视频语义分析两级多模式信息融合
6.1 引言
6.2 模式划分与融合原理
6.3 融合模型与算法
6.4 实验分析
6.5 本章小结
第7章 强依赖关联关系提取
7.1 引言
7.2 强依赖关联语义关系提取
7.2.1 语义概念间关联关系形式化描述
7.2.2 视频语义强依赖关联关系提取算法
7.3 实验与分析
7.3.1 视频镜头强关联依赖关系提取实验
7.3.2 LSCOM数据集中强依赖关系提取实验
7.4 本章小结
第8章 多标记语义标注
8.1 引言
8.2 多标记学习研究现状
8.3 多标记学习
8.4 多标记标注方法
8.5 评价指标
8.6 实验与分析
8.7 本章小结
第9章 媒体场景显著计算
9.1 引言
9.2 基于场景的显著计算方法
9.3 静态显著计算
9.3.1 建立多尺度特征空间
9.3.2 提取早期视觉特征图
9.3.3 显著图正规化处理
9.4 运动对象分割
9.5 动态显著图
9.6 脉冲耦合神经网络
9.6.1 脉冲耦合神经网络结构
9.6.2 PCNN参数确定
9.6.3 PCNN动静显著融合
9.7 实验与分析
9.7.1 场景动静态显著计算实验
9.7.2 显著计算对比实验
9.8 本章小结
第10章 媒体语义相似性计算
10.1 引言
10.2 媒体语义概念间语义相似性计算
10.2.1 相似度相关概念
10.2.2 现有语义相似性计算方法
10.2.3 媒体语义相似性计算原理
10.2.4 媒体语义概念相似性度量
10.3 媒体场景语义相似性计算
10.4 实验与分析
10.4.1 视觉特征直接计算语义相似性实验
10.4.2 媒体语义相似性计算实验
10.5 本章小结
第11章 媒体显著对象语义本体标注方法
11.1 引言
11.2 媒体显著对象本体语义标注
11.3 语义场景分割
11.4 静态显著对象分割
11.4.1 种子区域生长
11.4.2 注意力种子选择
11.5 层次本体语义标注
11.6 实验与分析
11.6.1 层次语义标签标注实验
11.6.2 媒体显著本体语义标注实验
11.7 本章小结
附录A 图清单
附录B 表清单
附录C 缩略词及中英文词汇对照
参考文献
后记
媒体计算是指对视频、音频、图像、图形、文字等各类媒体信息进行内容分析的计算理论、算法和应用技术,包括各类媒体信息的表示、内容分析与识别算法等内容。本书内容覆盖了媒体内容分析与理解相关的理论和应用技术,共分为11章。第1章介绍现有媒体内容分析与理解现状;第2章主要介绍媒体计算理论及模型;第3章介绍了视频内容分析的内容(视频内容分析的前处理);第4~6章主要介绍基于统计学理论的视音频内容分析,包括视觉语义分析与理解、音频语义分析与理解以及视频语义分析两级多模式信息融合;第7~11章介绍基于认知机理,从场景整体语义的角度来理解、标注和分析媒体内容和语义概念,包括强依赖关联关系提取、多标记语义标注、媒体场景显著计算、媒体语义相似性计算、媒体显著对象语义本体标注方法等内容。本书集原理、技术应用为一体,同时有实验分析和原型系统构建,是作者多年来从事图形图像处理与内容分析与理解的相关科研和承担研究生相关课程教学工作的积累。本书主要读者对象为从事图形图像处理的研究人员、大专院校计算机专业及相关专业师生、从事媒体信息处理研究与开发的科研人员和工程技术人员。