实验:搜索引擎性能评价小组成员:黄婷苏壳肖方定LLI一、实验目的:依据 MAP, P@10, MRR 等评价指标对各个搜索引擎( 白度、搜狗、必应 ) 的查询性能进行评测,对搜索引擎满足不同信息需求的情况加以比较
二、实验方案:1
构建查询样例集合:(1)构建查询样例集合规模: 100 个查询 热门程度:冷门 / 热门类型:导航类 / 信息类 / 事务类 ( 2: 5: 3)(2)根据个人经验,撰写每个查询样例的信息需求内容2
构建 Pooling : (1)抓取各个搜索引擎对步骤一查询词的查询结果抓取的搜索引擎:五个中文搜索引擎( 白度、搜狗、必应 ) 抓取范兩:查询结果的前30 位结果注: pooling method 的大概意思是查询结果去重3
构造标准答案集合:(1)根据步骤 1 中撰写好的信息需求,对Pool ing 里的结果进行标注,标注为“答案”和“非答案”两类即可4
查询性能评价:I (1)根据标注结果,依据MAP, P@10, MRR 等评价指标对各个搜索引擎的查询性能进行评价(2)对搜索引擎满足不同信息需求的情况加以比较5
扩展内容 : (1)可以尝试对搜索引擎处引擎处理非中文查询、有错别字查询等情况的不同策略进行分析 ' 比较三、实验结果及分析:根据实验结果及□的,详细分析实验结果
实验结果:口度:百度MAPP@10MRR导航类(平均)信息类(平均))事务类(平均)综合(平均)搜狗: 搜狗1
MAPP@10MRR导航类(平均)信息类(平均)事务类(平均)1■综合(平均)Bing 国内版 : $ 导航类(平均)1信息类(平均)(事务类(平均)>综合(平均)综合比较 : 搜索引擎MAPP@10MRR百度 Baidu搜狗 Sougou(必应 Bing2
结果分析:(1)导航类搜索词对于导航类搜索矢键词,RR 一般用作评价导航类的查