引言信息检索的目标是“所得即所需”(WhatyouGetIsWhatYouWant)
一个具体的体现就是:不同的用户在使用同样查询的时候可能获得不同的结果;更进一步,同一个用户在不同时间或者不同地点发出同样的查询可能获得不同的结果
例如,同一个用户对“java”信息的需求:在工作时间希望得到有关编程语言java的相关文档,在休息时间希望得到有关java岛的旅游信息
为了达到这样的目的,检索系统需要充分地理解并掌握检索活动的主体(用户)和客体(资源)
面对这样的挑战,人们一方面在信息资源端做工作,提出了语义网(SemanticWeb,也称为语义Web)的概念,使得检索系统能够更好地理解内容,从而使检索结果更符合检索的条件;另一方面是在用户端做工作,通过各种手段获得用户的特征信息并进行用户建模,使用用户个性化信息来修正查询条件,从而改善检索结果
这两个方面的研究对达到“所得即所需”的目标起到了很大的推动作用
尽管语义网和用户建模技术极大地提高了检索系统的智能化、个性化水平,但是,人们也已经意识到,将资源和用户分开来考虑,难以达到“所得即所需”的目标
必须用系统的观点来看待信息检索活动,也就是说,用户检索的结果应该是特定“环境”下的结果,这个环境就是检索过程的上下文(context)
考虑了上下文的检索称为上下文信息检(ContextualInformationRetrieval,CIR)
1上下文信息检索的概念WordNet是Princeton大学的心理学家、语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典
在WordNet2
1中,上下文(context)被定义如下:1)语言学上下文,即在一个语言单位附近的片断,用以帮助解释该语言单位
2)环境,即一种情形或事件发生于其中的环境和背景
信息检索领域中,上下文最初是指“自然语言处理中的文档片段”,专门用于自然语言学中