以下文章来源于微信AI ,作者rysanwang
微信团队人工智能技术分享与交流
文章作者:rysanwang
内容来源:微信AI
导语
什么是强化学习
(1)基本概念
(2)与监督学习,非监督学习的区别
(3)Multi-armed bandit 多臂赌博机
(4)强化学习的算法和AlphaGo
(5)强化学习实践
为什么用强化学习
(1)看一看混排
(2)统一的点击率预估排序
(3)强化学习的引入 - 优化长期收益
(4)强化学习的优势
混排三路召回,mp,video,news合并
Case
mp,video,video(0,1,1)
video,mp,mp(1,0,0)
video,video,video(1,0,0)
监督学习预测最优解是第三种,
选择点击率最大的。
强化学习预测最优解是第一种,
选择总收益最大的。
强化学习在看一看混排中的应用
(1)Session wise recommendation
(2)Personal DQN
(3)离线评估 AUC?
(4)线上效果
(5)模型优化
Session based recommendation
(6)模型优化
Bloom embedding & Dueling DQN
(7)模型优化Double DQN &
Dueling Double DQN (aka DDDQN)
(8)负反馈 Reward & Focal loss
一些思考
AC 和 GAN
我也不是RL的专家,但我认为GAN是使用RL来解决生成建模问题的一种方式。GAN的不同之处在于,奖励函数对行为是完全已知和可微分的,奖励是非固定的,以及奖励是agent的策略的一个函数。但我认为GAN基本上可以说就是RL。
Ian Goodfellow(生成对抗网络之父)
DataFunTalk 专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100场线下沙龙、论坛及峰会,已邀请近600位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章300+,百万+阅读,8万+精准粉丝。