召回算法实践总结

2020-05-11

近两年来，在移动腾讯网落地了许多召回算法，绝大多数对业务指标带来了不小的提升，趁着假期闲宅无事，泡壶好茶，倚窗听雨，顺便做点总结。一方面希望得到大神们的指点，另一方面也希望帮助到刚好有需要的同学，如果能起到抛砖引玉的作用更是荣幸之至。

由于我个人主要是做召回算法的，首先免不了自吹自擂一番。以移动腾讯网（ http:// xw.qq.com ）新闻推荐系统为例，在整个推荐系统中召回具有奠基性，桥接性，决定性。

召回系统，本质上是个信息漏斗，负责快速从海量信息中筛选出有价值的信息，缩小排序算法的搜素范围（解决了信息过载的问题）；也负责将多路召回的数据，进行融合（相当于一个信息融合器，解决了单路召回特征单一，信息量小，多样性差的问题），得到一个精简的候选集。

如果用一副通俗易懂的图来解释召回算法做了哪些事情的话，就是下面这幅图。

召回算法的衡量虽然有一些通用的衡量指标，比如准确度，覆盖度 F1等，但是在实际应用中，一般会和自己的应用场景和业务指标挂钩，通过一些更贴合实际的指标去衡量，这里暂以移动腾讯网为例。

我们的应用场景主要是图文推荐（详情页相关推荐和列表页个性化推荐，目前也在做视频推荐和图文视频混推），

由于是新闻推荐，而且是从零到一实现整个推荐系统，因此我们的推荐和NLP 一开始就密切的联系在了一起，并且一直伴随着我们的持续优化过程。从开始到现在，按照时间顺序，依次实现了如下算法：

一路有效的召回算法从想法的产生，到最后上线并起作用大致要历经一下各态

召回算法，为移动腾讯网业务指标的持续提升发挥了重要作用，以下为分阶段的提升效果（在实际应用时各个阶段并非完全串行的，也存在一些并行和交叉的情况，为了更加清晰的表达，做了一下并不完全合理的划分）

由于我们是图文类型的新闻推荐，NLP和召回算法相伴而生，在做召回的过程中也完成了一些基本的NLP基础建设，具体如下：

在做召回算法的过程中，个人也总结了一些经验：个人认为贴合业务场景的可落地的创新想法，比盲目追求paper 上的模型更有效，自己能够全流程控制的可解释的模型比盲目使用一些黑盒模型要好，再就是如果能跨行业融汇贯通，把生物学，进化论，自动控制，哲学上的一些理论，活学活用到推荐领域也会起到意想不到的作用。

如果用一副通俗易懂的图来解释召回算法做了哪些事情的话，就是下面这幅图。

我们的应用场景主要是图文推荐（详情页相关推荐和列表页个性化推荐，目前也在做视频推荐和图文视频混推），

一路有效的召回算法从想法的产生，到最后上线并起作用大致要历经一下各态

由于我们是图文类型的新闻推荐，NLP和召回算法相伴而生，在做召回的过程中也完成了一些基本的NLP基础建设，具体如下：

作者：minwxwang，腾讯 PCG 应用研究员