某机构高级首席科学家Lihong Li因其2010年发表的论文《一种用于个性化新闻文章推荐的上下文赌博机方法》获得了2023年首尔时间检验奖。该论文提出了一种创新性的个性化推荐引擎构建方法。该论文认为推荐是一个强化学习问题这在当时并非主流观点。论文作者团队在2010年供职于某实验室时提出了一种构建个性化推荐引擎的新思路旨在直接最大化衡量用户满意度的效用函数。当时的推荐系统依赖用户历史活动来提供个性化推荐。然而在许多基于网页的场景中内容更新频繁其受欢迎程度也随时间变化。同时网站还会有许多没有历史消费记录的新访客。这些问题使得传统推荐系统方法难以适用。因此从用户交互中学习用户兴趣与内容之间的匹配度变得不可或缺。上下文赌博机方法论文提出了一种基于上下文赌博机的方法来驱动新闻内容的个性化推荐。在这种方法中学习算法根据用户和文章的上下文信息顺序选择向用户展示的文章同时根据用户点击反馈来调整其文章选择策略以最大化用户的总点击量。内容一天之内每时每刻都在变化因此需要一种能够快速适应变化的内容并推荐最佳内容的解决方案。在这样做的过程中解决方案必须平衡两个相互竞争的目标最大化用户满意度和收集关于用户兴趣与内容之间“匹配度”的信息。上下文赌博机是一类特殊的强化学习问题非常适合这种场景。该论文开发了实用的上下文赌博机算法这些算法可以优化用户参与度指标如点击率、下游收入或其他业务影响。Lihong Li后来将其方法扩展到以长期用户参与度来衡量效用的场景。在现实中决策会改变用户的行为进而改变他们未来与网站互动的方式和未来的效用。因此系统应该能够考虑这些长期影响并做出决策以最大化长期效用而不是短期效用。论文影响与获奖论文作者报告称他们的计算效率高的上下文赌博机算法不仅提高了点击率而且解决了扩展挑战因为它可以使用先前记录的随机流量进行可靠的离线评估。这种评估技术本身也在其他基于网络的情景中得到了应用。Lihong Li在2020年10月加入某机构担任高级首席科学家。他表示吸引他加入的是该机构“痴迷于客户”的文化即使用坚实的科学技术和解决方案来解决深层次的客户问题。上下文赌博机以及更广泛的强化学习技术可以帮助某机构在购物、娱乐等领域满足客户需求并在改进大型语言模型方面发挥关键作用。时间检验奖每年颁发给曾在万维网会议上发表的论文的作者该论文经受住了时间的考验。Lihong Li表示获得该奖项令人激动且完全出乎意料。科学家的创新往往发表在论文中如果发明只停留在纸上而没有应用到现实世界总觉得故事不够完整。这个奖项是对这项发明长期影响力的认可不仅是对他们研究的那个问题也是对整个领域和行业其他部分的认可。FINISHED更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享