铁哥的强化学习特训课
报告大家一个好消息, 铁哥拟开设一个为期两日(12小时)的强化学习特训班。
首先, 我们已经有了机器学习, 深度学习的课程, 为什么要开设一个强化学习特训课? 因为深度学习已经火了至少5年了吧, 你的小伙伴们已经早已使用pytorch, tensorflow在cifar数据上玩的溜了飞起。 而你要想再度的装逼, 不, 说准确了是拥抱未来, 就要有一点新的东西啦。
那为什么是强化学习? 请看下图的技术泡沫爆裂图。 机器学习和深度学习在2017处于关注热度的顶峰, 大家看处在上升期的人工智能技术, 第一当属深度强化学习, 据这张非常表格非常粗糙的估计, 深度强化学习的技术成熟期在未来5-10年, 此时此刻, 正类似于深度学习在2010的状况。
作为80,90就已经开始起飞的强化学习技术, 事实上在一开始就被认为是在给机器赋予大脑,作为强人工智能的希望所在, 但无奈在2,30年里碰到了先天的技术瓶颈。 也仅在这三年, 强化学习遇到了2012崛起的深度学习, 碰撞出的这个深度强化学习,才开始了强化学习真正的异军突起, 这里面的标志事件也就是两阿的崛起, 所谓阿尔法狗先战胜人类, 然后弟弟阿尔法元又战胜了它, 这无疑是深度强化学习进军其他领域的序章。
深度强化学习给机器以灵魂, 将会影响机器人, 工业4.0, 智能交通, 智能电网,自然语言处理的所有领域, 而这些, 其实比目前深度学习革命所带来的工业影响力要深远广泛的多。 一些公司比如滴滴的智能调动和阿里的推荐系统,已经在它们的生产线上悄悄布置了深度强化学习的系统。 因此我们率先了解是赢在起跑线上, 而这一点, 也是我此次的课程意义之所以, 通过一步步的循循善诱和铺垫, 一窥深度强化学习的殿堂。
为什么是叫一窥, 因为我们的两日显然只能看一眼, 而登堂入室更多的事实上是靠大家自己。 我们希望给只有浅显机器学习基础的同学, 能够对强化学习建立起一个思维导图。
那么我们这个课程会涵盖什么内容呢?
1, 强化学习基础, 从马尔科夫决策理解强化学习的目标和实现手段
2, 基于动态规划的优化算法让小鼠走迷宫
3, 探索与收益的平衡, 多臂赌博机问题
4, 机器学习思想的渗入 - Q函数学习
5, 策略梯度算法求解非全局信息问题
6, Actor - Crtic 强化学习两大流派的汇集点
7, 从Atari 到阿法元, 基于CNN的深度强化学习
8, 从doom到空间导航问题, 基于RNN的深度强化学习
9, 有模型强化学习(关联深度强化学习)
10 更仿生的探索算法 - 引入好奇心
11,提高泛化能力 : 元强化学习。
12, 结束语: 再看强化学习与其它学习的联系, 强化学习产业化之机遇与挑战。
这12个小主题, 事实上是把强化学习的主线结晶出来, 然后按照逻辑顺序穿成的一个最小框架图。