出版社:科学出版社
年代:2011
定价:30.0
本书围绕大规模分布式内容检索技术展开,通过结合对等网络的概念、结构、资源描述和组织、资源定位和路由选择、结果融合及排序方法等,从结构化对等网络、无结构对等网络、和混合式对等网络各自的特点出发,全面系统的阐述了各种环境下进行分布式大规模内容检索的策略。包括:基于结构化DHT的分布式全局倒排索引和文本检索策略;联邦式对等搜索策略;混合对等搜索策略。在每一类方法的讨论中作者结合自己的研究实践对已有工作的来龙去脉进行了详细深入地分析。
序前言第1章 绪论1.1 对等网络概述1.2 基于对等模式的大规模分布式文本内容检索1.3 大规模分布式文本内容检索研究面临的挑战1.4 大规模分布式文本内容检索技术分类1.4.1 基于结构化分布式哈希表的分布式全局倒排索引1.4.2 基于非结构化对等网络的联邦式搜索网络1.4.3 混合对等网络搜索引擎1.5 本书内容参考文献第2章 分布式哈希表及单关键字全局索引2.1 分布式哈希表2.1.1 Chord:基于二分查找的环状对等结构2.1.2 CAN:基于多维空间划分的对等结构2.1.3 Pastry:基于多分查找的前缀匹配对等结构2.1.4 Tapestry:基于多分查找的对等结构2.2 现有分布式哈希表算法的比较2.3 利用分布式哈希表构建单关键字全局索引2.3.1 eSearch:基于分布式哈希表的水平索引2.3.2 Minerva:在查询中挖掘关联关键字2.3.3 局限性参考文献第3章 布隆滤波3.1 哈希编码的时间/空间权衡3.1.1 一种经典的哈希编码方法3.1.2 两种存在误判率的哈希编码方法3.1.3 计算因子3.1.4 三种哈希编码方法的数学分析3.1.5 时空性能比较3.2 布隆滤波的基本理论3.2.1 布隆滤波概念3.2.2 位向量长度的下界3.2.3 布隆滤波与集合运算3.3 布隆滤波的扩展形式3.3.1 计数布隆滤波3.3.2 压缩布隆滤波3.3.3 动态布隆滤波3.4 布隆滤波的应用3.4.1 早期应用3.4.2 分布式缓存3.4.3 P2P网络3.4.4 资源路由3.4.5 数据包路由3.4.6 基础设施测量参考文献第4章 基于分布式哈希表单关键字索引的搜索4.1 结构化对等网多关键字检索面临的挑战4.2 Top-k查询策略4.2.1 倒排索引4.2.2 Top-k裁剪算法4.2.3 性能评估4.3 PWEB系统4.3.1 PWEB网络结构4.3.2 多关键字搜索通信开销优化策略4.3.3 扩展性算法4.3.4 分布式交集运算执行顺序优化策略4.3.5 搜集关键字全局统计信息4.3.6 模拟仿真方法4.3.7 性能评估4.4 小结参考文献第5章 多关键字全局索引及搜索5.1 分布式关键字集索引面临的挑战5.2 文本检索中的关键字权重方法5.2.1 关键字权重模型TF×IDF5.2.2 理解逆文档频率5.2.3 用逆向总关键字频率替换逆文档频率的尝试5.2.4 词频在相关权重模型中的探索5.3 HDK:基于高区分关键字集的索引技术5.3.1 关键字集倒排索引5.3.2 高区分关键字集索引5.3.3 基于高区分关键字集索引的搜索5.3.4 扩展性分析5.3.5 性能评估5.4 TSS:基于关键字集索引的P2P搜索系统5.4.1 TSS系统结构5.4.2 分布式关键字集索引5.4.3 模拟测试方法5.4.4 性能评估参考文献第6章 基于复制的联邦式对等搜索策略6.1 理论分析6.1.1 模型建立6.1.2 均匀复制策略和比例复制策略6.1.3 平方根复制策略6.1.4 混合复制策略6.1.5 分布式复制算法的实现6.2 基于随机游走的随机复制策略6.2.1 生日悖论和理论下界6.2.2 随机游走复制策略和搜索协议6.2.3 性能评估6.3 BubbleStorm:基于随机多图的概率穷尽搜索策略6.3.1 副本数量的确定6.3.2 网络大小的测量6.3.3 随机多图与随机采样6.3.4 洪泛和随机游走的完美结合6.3.5 系统分析6.3.6 性能评估6.4 BloomCast:基于轻量级分布式哈希表的随机采样6.4.1 BloomCast网络结构6.4.2 网络结点数量估计6.4.3 随机结点采样6.4.4 基于布隆滤波的复制算法6.4.5 多关键字搜索6.4.6 性能评估6.5 PlanetP:基于全局摘要索引的复制策略6.5.1 全局目录索引复制6.5.2 结点排序模型6.5.3 查询处理算法6.5.4 性能评估参考文献第7章 基于内容路由的联邦式搜索策略7.1 基于语言模型的路由选择7.1.1 联邦式搜索引擎的两层结构7.1.2 语言模型7.1.3 相对熵7.1.4 搜索算法7.1.5 性能评估7.2 基于语义小世界模型的联邦式对等搜索7.2.1 语义空间和向量7.2.2 构造语义小世界7.2.3 降低语义小世界的维度7.2.4 基于语义小世界的搜索7.2.5 性能评估7.3 基于兴趣局部性的路由7.3.1 兴趣局部性7.3.2 基于兴趣局部性的拓扑和路由7.3.3 性能评估7.4 SemreX系统7.4.1 SemreX系统模型7.4.2 语义覆盖网7.4.3 基于语义覆盖网的查询搜索算法7.4.4 性能评估参考文献第8章 混合式对等搜索策略8.1 混合对等搜索面临的挑战8.2 基于预先探测的混合策略8.2.1 Boon Thau Loo的Gnutella实验8.2.2 SimplelHbrid混合P2P搜索策略8.2.3 性能评估8.3 基于Gossip的混合搜索选择8.3.1 收集全局统计信息8.3.2 使用全局信息进行搜索选择8.3.3 洪泛阈值的调节8.3.4 性能评估8.4 难度感知的混合式搜索策略8.4.1 很多复本≠很多结点8.4.2 QRank设计8.4.3 用QRank进行混合查询8.4.4 自适应混合查询8.4.5 QRank仿真器设计8.4.6 性能评估参考文献第9章 大规模在线社会网络搜索9.1 大规模在线社会网络搜索面临的挑战9.2 在线社会网络系统研究现状9.3 流行在线社会网络的数据划分与定位9.4 大规模在线社会网络内容搜索关键技术9.4.1 流式文本摘要技术9.4.2 基于摘要索引的排序算法9.4.3 多跳邻居摘要聚合技术9.4.4 基于社区局部性降低摘要索引开销参考文献
陈汉华,金海的这本《大规模分布式内容检索技术》围绕大规模分布式内容检索技术展开,通过结合对等网络的概念、结构、资源描述和组织、资源定位和路由选择、结果融合及排序方法等,从结构化对等网络、无结构对等网络、和混合式对等网络各自的特点出发,全面系统的阐述了各种环境下进行分布式大规模内容检索的策略。包括:基于结构化DHT的分布式全局倒排索引和文本检索策略;联邦式对等搜索策略;混合对等搜索策略。在每一类方法的讨论中作者结合自己的研究实践对已有工作的来龙去脉进行了详细深入地分析。 大规模分布式内容检索是近年来分布式系统方向的一个热点研究领域。陈汉华,金海的这本《大规模分布式内容检索技术》全面地阐述了各种体系结构的分布式大规模内容检索系统的关键技术和核心理论,并对各项技术和理论的来龙去脉进行了详细深入的分析。 本书通过丰富的文献资料和研究成果,从研究者的视角对大规模分布式内容检索技术进行了深入剖析,是分布式处理系统领域的学术专著。《大规模分布式内容检索技术》可供高等院校计算机科学与技术相关专业的高年级本科生、研究生、教师、研究人员及工程技术人员阅读参考,也可作为相关专业的研究生教材。