当RNN碰上强化学习-为空间建立通用模型(4)
一篇发表在《Nature》上的论文就把这个东西更加推进了一部。同样是监督学习,但是它在基础学习基础上诱导RNN(lstm)在原基础上形成新的结构,这个东西竟然惊人的和小鼠脑中的栅格细胞相近。这个栅格细胞实际是把空间当作一个很多六边形组成的蜂巢网络来表达,每个细胞对六边形网络的端点位置是敏感的,而不同的细胞对不同空间周期(网格边长)的网格敏感。
这个方法的本质是建立空间的通用模型。 显然你的大脑不会给北京,上海,或者天津建立完全不同和分离的神经表达,必然的有一种空间语言来支撑所有的空间概念,而从一个地方到另一个地方,最底层的这个表达是不变的。这个东西可以看作模型之上之模型,这个东西正是这个栅格细胞。栅格细胞的每个细胞相当于一个不同空间周期的六边形网,通过组合这些六边形网,我们可以很容易的得到对空间相对位置的表达(很像傅里叶变化,每个栅格细胞是傅里叶变换的成分,被下游的位置细胞组合读取)。
有了这个细胞的网络会有更强的在空间当中运行的能力,一个标志性的表现在于可以在复杂的空间当中抄近路。如果路径发生变化(比如一个门堵死了),就会找次优的目标,也就是说有一种动态规划的能力,即具有空间行走的智能。在RNN的基础上加入适当的监督学习,从而产生与生物细胞类似的结构,具有了空间表达能力。
最终我们可以这样总结RNN在强化学习的潜力: RNN,作为一个动力学系统, 本身表达了过去,现在和将来的联系, 这可以看作是部分的, 或者全部的世界模型。 而强化学习, 作为一个对未来收益的优化, 可以看作一个序列决策问题, 你对系统的过去现在和将来了解的越透彻,这个决策能力就越强, 因此RNN天生和强化学习有某种契合。 RNN的这个动力系统, 可以说部分的,或者全部的表达了世界模型,因此, 它非但是解决局部马尔科夫问题的利器,更在免模型和有模型的强化学习当中构建了一个桥梁。
相关阅读
更深入了解,请阅读的文章如下:
Bakker B. Reinforcement learning with long short-term memory[C]//Advances in neural information processing systems. 2002
最早在强化学习里引入RNN的尝试, 主要是强调RNN可以解POMDP
Hausknecht, Matthew, and Peter Stone. "Deep recurrent q-learning for partially observable mdps."CoRR, abs/1507.06527 7.1 (2015).
这一篇接着2002的文章, 主要是承接了2015 deepmind 在DQN的突破,强调那些信息并不全面的Atari Game, 可以通过RNN(LSTM)得到性能突破
Mirowski, Piotr, et al. "Learning to navigate in complex environments."arXiv preprint arXiv:1611.03673(2016)
导航领域的牛文, 介绍了在RNN(LSTM)下的深度强化学习里如何进一步加入监督学习, 获得性能突破
Wang J X, Kurth-Nelson Z, Tirumala D, et al. Learning to reinforcement learn[J]. arXiv preprint arXiv:1611.05763, 2016.
小众的神文, wang xiao jing 大神介绍了一种基于RNN的强化元学习能力, 一种举一反三的能力。
Banino, Andrea, et al. "Vector-based navigation using grid-like representations in artificial agents."Nature557.7705 (2018): 429.
最新的Nature文章, 介绍了通过监督学习引导RNN(LSTM)产生空间栅格细胞的能力