机器学习在搜索排序中的应用一淘及搜索事业部-搜索技术仁重agenda•背景•LTR方法•评估•并行化与多目标LTR在淘宝搜索应用的背景第一部分背景背景用户输入Query引擎召回商品商品计算featureRank项目背景-特征相关性购买转化率(GDBT)点击转化率(LR)二跳率(LR)反作弊商业业务逻辑预估模型规则个性化(LR、GDBT)图片质量(SVM)f(X)=w1*x1+w2*x2+w3*x3+w4*x4+w5*x5+w6*x6+…=•通过线性模型来组合非线性的特征•计算效率高•可解释性好背景问题•如何确定各个特征的权重W•能否不同的类目给出不同的权重W•如何为新加入的特征设置权重W•如何在不同的系统中快速的迁移特征之前用ABTest,现在使用LTR•LearningToRank,使用机器学习的方法来进行排序优化
LTR应用的方法第三部分方法转化为pairwise问题•把整体的排序问题转换为商品对好坏问题•两个商品哪个更好–Ctr–Cvr–价格VS优化目标与样本•样本选择–人工标注(工作量巨大)–商品Ctr–商品转化率–详情页浏览时间论文中使用的样本选择•样本选择–单次pv点击位置•Click>SkipAbove•LastClick>SkipAbove•Click>EarlierClick•LastClick>SkipPrevious•Click>No-ClickNext•fA>fB>fC>fD>fEfA=w*xAfB=w*xBfC=w*xCfD=w*xDfE=w*xE整体统计ctr样本选择ACtr:1CCtr:0
1BCtr:0
5DCtr:0
1ECtr:0
6A>E>B>C=DA>EA>BA>CA>DE>BE>CE>DB>CB>D相同Query统计商品ctr来生成pairctr差值需要有一定置信度没有位置信息相同queryctr单次PV样本选择B整体Ctr:0