搜索引擎效果评测

搜索引擎效果评测

何靖, 李晓明, 编著

出版社:高等教育出版社

年代:2012

定价:49.0

书籍简介:

本书介绍评估搜索引擎质量的方法与技术。评估搜索引擎质量的技术通常可分为三类:基于Cranfield范式的评测方法,基于用户研究的评价方法和基于用户隐反馈的评价方法。其中,基于隐反馈的评价方法因其自动性和准确性,得到越来越多学术界和工业界研究者的关注。在用户隐反馈中,最容易获取,使用最广泛的,是用户的点击行为。它们可以被搜索引擎自动收集起来,进而被深入分析。本书着重介绍基于用户点击日志分析的搜索引擎评价方法。

作者介绍:

何靖,2011年毕业于北京大学计算机科学技术系,获博士学位,曾在美国伊利诺伊大学香槟分校计算机系进行为期一年的学术访问,现在加拿大蒙特利尔大学计算机系从事博士后研究。从2004年开始从事搜索引擎相关领域的工作,主要研究方向是搜索引擎的评价方法和搜索引擎日志挖掘技术。曾参加核高基项目和多个国家自然科学基金项目的研究工作,并在SIGIR,CIKM,AIRS等搜索引擎相关的学术会议上交流多篇学术论文。 李晓明,北京大学计算机科学技术系教授,网络与信息系统研究所所长。从1999年开始从事与搜索引擎有关的研究与教学工作,主持开发了互联网信息搜索引擎--“天网搜索”,出版了《搜索引擎:原理、技术与系统》(科学出版社,2005)。2001年,提出了收集存储并系统研究中国网页历史信息的理念,发起并主持建设了“中国网络信息博物馆”。出版《计算机网络与互联网》(机械工业出版社,2009)和《计算机系统平台》(清华大学出版社,2009)教材,译著《万维网的定律》(北京大学出版社,2009)和《网络、群体与市场》(清华大学出版社,2011年)。

书籍目录:

第1章 搜索引擎评价技术

1.1 目标、角度和方法

1.2 符号定义

1.3 Cranfield范式评价方法

1.4 评测指标

1.4.1 二值相关性指标

1.4.2 多值相关性指标

1.4.3 偏好性指标

1.4.4 分数综合方法

1.4.5 系统比较

1.4.6 指标分析

1.5 评测集

1.6 不完整的评测集

1.6.1 文档池方法

1.6.2 抽样方法

1.6.3 最小标注集方法

1.7 相关性之外的考虑

1.7.1 多样性和新颖性

1.7.2 评测方法

1.7.3 多样性指标

1.7.4 新颖性指标

1.7.5 归一化因子:一个NP难问题

1.8 Cranfield评测方法遇到的困难

1.9 用户研究

1.9.1 用户研究的指标

1.9.2 用户研究的顺序性

1.9.3 用户研究和Cranfield范式:比较和关联

1.10 搜索引擎的效率

1.10.1 在线指标和离线指标

1.10.2 吞吐率和响应时间

1.11 搜索引擎的界面评价

1.12 可检索性评价

1.13 小结

第2章 搜索引擎用户隐反馈建模

2.1 用户隐反馈的分类

2.2 用户点击行为

2.2.1 位置偏差

2.2.2 环境质量偏差

2.2.3 展示信息偏差

2.3 从点击行为中提取偏好关系

2.3.1 单用户点击行为中蕴涵的偏好关系

2.3.2 多次查询点击的融合

2.4 相关性标注

2.4.1 从偏好关系到相关性标注

2.4.2 监督学习获得相关性标注

2.5 用户行为建模:统计点击模型

2.5.1 用户搜索行为流程

2.5.2 用户点击行为

2.5.3 用户查看行为

2.5.4 用户点击模型

2.6 浏览时间

2.6.1 浏览时间和文档相关性

2.6.2 浏览时间模型

2.7 用户会话识别

2.7.1 超时会话切分

2.7.2 会话切换分类

2.7.3 全局的会话识别方法

2.8 其他用户隐反馈:眼动和鼠标移动

2.9 小结

第3章 搜索引擎结果归并—比较方法

3.1 问题的提出

3.2 现有的归并—比较方法

3.2.1 平衡归并法

3.2.2 参赛队归并法

3.2.3 上述两种归并—比较方法的缺陷

3.3 归并—比较方法评测体系

3.3.1 评测归并—比较方法的指标

3.3.2 测试用例的产生

3.4 实验设置和评测结果

3.4.1 实验设计

3.4.2 结果

3.4.3 两种方法的缺点分析

3.5 基于位置信息的归并—比较方法

3.6 小结

第4章 基于用户点击模型的搜索引擎评价方法

4.1 文档重排序框架

4.2 重排序函数

4.2.1 两种评价方式

4.2.2 影响重排序的因素

4.3 用户研究实验

4.3.1 实验设计

4.3.2 评测标准和指标

4.3.3 结果

4.4 TREC数据模拟实验和结果

4.4.1 基本的模拟评测

4.4.2 多情境分析

4.4.3 指标的影响

4.4.4 点击模型的影响

4.5 小结

第5章 有效时间比:一种新的搜索引擎评价指标

5.1 有效时间比的定义

5.1.1 精度:有效时间比的一种实现形式

5.1.2 包含文档展示信息的搜索引擎评价指标:有效时间比

5.2 有效时间比的性质

5.3 实验设置

5.4 实验结果和讨论

5.4.1 测试指标

5.4.2 基本结果

5.4.3 开放类问题和封闭类问题

5.5 小结

附录 一个基于归并比较的元搜索系统

参考文献

后记

内容摘要:

《搜索引擎效果评测:基于用户点击日志分析的方法与技术》主要介绍评估搜索引擎质量的方法与技术。评估搜索引擎质量的技术通常可分为三类:基于Cranfield范式的评测方法、基于用户研究的评价方法和基于用户隐反馈的评价方法。其中,基于隐反馈的评价方法因其自动性和准确性,得到学术界和工业界越来越多研究者的关注。在用户隐反馈中,最容易获取、使用最广泛的是用户的点击行为,它们可以被搜索引擎自动收集起来,进而被深入分析。《搜索引擎效果评测:基于用户点击日志分析的方法与技术》着重介绍基于用户点击日志分析的搜索引擎评价方法。
《搜索引擎效果评测:基于用户点击日志分析的方法与技术》虽然为学术专著,但文风流畅,语句通俗易懂,在一些难点上一般都给予了必要的铺垫,因而不仅适合已在搜索引擎领域从事研究和开发的技术人员参阅,还适合作为希望进入该领域研究生的入门教材,也可以作为现代信息检索技术课程的教学参考书。

书籍规格:

书籍详细信息
书名搜索引擎效果评测站内查询相似图书
9787040344707
如需购买下载《搜索引擎效果评测》pdf扫描版电子书或查询更多相关信息,请直接复制isbn,搜索即可全网搜索该ISBN
出版地北京出版单位高等教育出版社
版次1版印次1
定价(元)49.0语种简体中文
尺寸24 × 17装帧平装
页数印数 2000

书籍信息归属:

搜索引擎效果评测是高等教育出版社于2012.5出版的中图分类号为 G354.4 的主题关于 互联网络-情报检索 的书籍。