14专题第9卷第3期2013年3月龚亮1,2刘译璟1郭志金11北京百分点信息科技有限公司2电子科技大学场景引擎:下一代推荐系统的核心模块大数据现在是全球互联网最热门的前沿概念,大数据时代不可避免地会增加用户获取有价值信息的难度。随着移动互联网的发展,人们获取和处理信息的方式与方法碎片化严重,而人脑的处理能力并没有明显提升,这使得有针对性的信息甄别手段成为解决此矛盾的有效方法。这种手段,被称为个性化技术。实现个性化技术最有效的方法是推荐系统,它的目标是将最有价值的信息推送给用户,使用户获取信息的渠道效率最大化。传统的推荐系统是通过作为“人”的用户大量与“物”之间、与其他“人”之间交互的行为,并通过进行协同分析(也可称为群体智慧分析)来解决为用户提供个性化服务的问题。这种分析方法存在一个缺点:它仅仅抓住了用户在过去一段时间内的行为偏好,并没有对用户意图(当前行为所表现出来的短期偏好)进行捕获或考虑,而这些意图关键词:推荐系统场景引擎用户意图恰恰是最能反映用户当前需求的一些信息。因此,传统的推荐系统并没有合理地解决个性化技术问题,对信息甄别的技术手段亟待提高。基于传统的推荐系统存在的缺陷,本文以国内领先的推荐引擎提供商(百分点科技公司)为实例,展示下一代推荐系统应当如何考虑用户的当前行为,并根据这些行为表现出来的用户意图做个性化服务。而“场景引擎”则是下一代推荐系统的核心模块。什么是场景用户在线活动时,在不同的时间可能具有不同的目的。用户在浏览服装时表明用户可能对服装感兴趣,用户在浏览手机时表明用户可能对手机感兴趣。用户在不同的行为阶段所表现出来的目的也有意愿强弱之分。例如,浏览行为表明用户只是逛逛或者正在挑选,加入到购物车的行为表明这是用户喜好的商品,下单行为表明这是用户想要购买的商品。所以,用户在同一时刻可能具有多个目的,而每个目的也有意愿强弱之分。在“百分点场景引擎”中,我们用“意图”这一概念来反映用户的行为目的,它包括用户所处的行为阶段和需求点。用户在同一时间可能具有多种意图,而多种可能意图的组合称为场景,场景描述了用户在具体业务下的特征。假设L是用户状态集合,表征了用户所处的每个阶段。T⊆V是类目和标签空间上的实向量集合,表征了用户的需求点,我们定义:意图是用户状态和需求目标的二元组,用S=L×T表示。对于(l,t)∈S,l代表了用户所处的状态,t描述了用户的需求目标。场景是一组意图的组合,我们用场景来表征一个用户在具体业务下的需求,即定义U⊆15第9卷第3期2013年3月S×(0,1]。对于(s,p)∈u,表示用户含有意图s的概率为p。我们以零售业为例说明百分点科技公司是如何设定用户的场景的。根据上述场景的定义,零售业的场景包括一个或多个用户意图,用户意图包括用户状态和需求目标两个属性的值。其中用户状态包括一个字段:行为阶段,该字段包含无需求浏览、有需求浏览、挑选、购物中、购物后五种状态值;需求目标包括5个字段:意图类目、意图标签、支付意愿、品牌偏好和颜色偏好,每个字段包括多个零值或多个非零值。对于5种用户状态值,其定义方法如下:无需求浏览用户在线的行为中没有明显的汇聚,也没有任何意图,可能属于随机浏览。有需求浏览用户在线的行为不是随机的,而是带有一定的目的性,用户浏览行为有明显的汇聚。挑选用户在线的行为带有目的性,并且用户的浏览行为集中在几款高度相似的商品中。购物中用户在线的行为带有很强的目的性,且用户有将商品加入购物车的行为。购物后用户有下订单的行为。同样,对于5种需求目标值,其定义方法如下:意图类目用户在特定行为状态下对该类目的物品感兴趣,感兴趣程度由行为状态决定。意图标签用户在特定行为状态下对带有该标签的物品感兴趣,感兴趣程度由行为状态决定。支付意愿在购买物品时,用户的支付欲望程度。品牌偏好用户可能感兴趣的品牌。颜色偏好用户可能感兴趣的颜色。在零售业的场景中,用户状态字段共包括5种值,这5种状态转变方式见图1。随着用户状态的变化,用户的在线购物场景也随之变化,具体的变化方式可以描述为:●用户从进入目标网站那一刻起,...