论文的主要成果基于百度知道问题推荐系统,现在它每天都在为百度知道的两亿用户提供问题推荐服务。同时,这些技术后续还将作为通用基础技术,应用到推荐与个性化部门其它产品中,比如百度新首页导航、百度贴吧个性化帖子、百度视频个性化视频等产品。
信息爆炸曾给如饥似渴的网民带来甘露,但海量信息泛滥也让网民焦头烂额。如今,多家互联网公司开始尝试通过编辑精选、智能推荐等手段为网民呈现真正“对胃口”的信息。正如《长尾理论》的作者克里斯·安德森所说,We are leaving the age of information and entering the age of recommendation.(我们正在远离信息,而进入推荐时代。)
9月中旬,被誉为推荐系统领域的顶级国际会议——ACM RecSys 2012在爱尔兰都柏林举行,在此之前, RecSys大会已在明尼阿波利斯、洛桑、纽约、巴塞罗那、芝加哥先后成功举办五届。
RecSys 2012吸引到了来自世界高校的顶级学者以及互联网领域的知名公司研发人员的参与,比如LinkedIn, Yahoo!, Microsoft, Facebook等,议题涵盖推荐算法、社会化推荐、用户建模、机器学习和人机交互等前沿领域。在这样的顶级国际会议上,也出现了中国互联网公司的身影,来自中国内地的百度是唯一参加这个会议的国内公司,也是第一家以论文作者的身份参加会议的国内公司。
在会议上,百度发布了论文:Enlister: Baidu's Recommender System For The Biggest Chinese Q&A Website(中国最大问答平台上的百度推荐系统服务)。这份论文受到了国外同行的一致认可,并最终被大会录用。据悉,RecSys 2012此次共接收长论文24篇,录取率20.2%;接收短论文21篇,录取率31.8%。
百度这一课题实际上是百度产品研发的一个附带成果,全部由百度一线工程师完成,主要来自推荐与个性化部和百度知道产品研发部门。论文的主要成果基于百度知道问题推荐系统,现在它每天都在为百度知道的两亿用户提供问题推荐服务。同时,这些技术后续还将作为通用基础技术,应用到推荐与个性化部门其它产品中,比如百度新首页导航、百度贴吧个性化帖子、百度视频个性化视频等产品。
在研发过程中,面对世界性推荐技术难题,两部门人员在研发开始时即达成共识,准备使用一系列创新的策略来解决问题。首先,他们将用户的使用行为,经过隐私处理后,进行了多个层次的兴趣、状态和行为分析,为每一个用户建立用户模型,从而给出属于个人的推荐结果,达到“一人一世界”的用户体验,以此完善用户模型。
其次,他们创新地将推荐中的排序的任务转化为点击率预估的问题,使用机器学习框架来解决这个业界公认的难题,以此构建机器学习排序模型。
此外,他们还使用了流式计算框架,将一个问题从提出到准确推荐给对这个问题有兴趣的用户的时间缩短为10分钟,保证合适的问题能够快速的展现给合适的用户来快速解决。
事实证明,他们采用的通用用户模型、机器学习排序和流式计算在项目中取得了非常好的效果。项目上线后,百度知道回答量从8.4万提升到10.2万,提升了21.4%;转化率从0.148%提升到0.179%,提升21.0%。
他们的这一成果一是证明了机器学习策略应用在推荐排序中的重要性,后续会持续优化并推广到更多产品中;二是流式计算架构能给用户带来的良好体验,使得它会作为后续推荐产品中的核心架构并推广;三是证明百度推荐技术的研发处在推荐业界的领先水平,对百度后续的发展规划具有一定的指导意义。
研发并非一帆风顺。据百度工程师介绍,研发过程中,他们在机器学习排序问题的样本和特征选择上就曾遇到困难。