AlphaZero登上Science封面-听铁哥浅析阿尔法元(4)
Nature图: 策略更新的方法
最终当游戏结束的时候,神经网络的权重开始更新,这个更新的过程里,我们把整个游戏的过程分成很多小段, 比较神经网络预测的概率和蒙特卡洛树算出来的(策略向量之间的差异),以及预测结果与最终结果的差距进行梯度下降(梯度由如下公式得到,此处混合之前的策略和估值网络)。
这样周而复始,我们可以推断,最终神经网络的预测将越来越靠谱,和蒙特卡洛树给出的分析越来越一致。 而围棋的套路也会被一一发明出来,所谓无师自通。
Nature图: 看看右下的图,是不是很像人类选手常用的招!
为什么说阿尔法元敢叫元? 如果从技术角度看,这一次的阿尔法元没有那么多新的东西,而是在之前基础上让强化学习进行的更彻底了,然而它所展示的深度强化学习的应用未来,却是十分诱人的。
图: 强化学习的胜利(蓝)对比监督学习(紫)和监督+强化学习(虚线)
首先,我们看到, 并不是每一件机器学习的事情, 都需要和数据,尤其是需要大量人力的标注数据死磕, 而是可以通过恰当的设立模拟器(比如此处用到的蒙卡树) 来弥补。阿尔法元不是不需要数据,而是数据都是自己模拟产生的。 模拟+深度强化学习, 在简单的游戏规则下,一些复杂的行为范式可以进化出来,而且可以比人类设计的还好, 这, 你就可以大开脑洞了。
这件事在很多设计性的工作里实在是太诱人了。 无论是设计新材料,建筑,还是衣服,这些可变维度很高的事物,你都可以想象设立一个模拟仿真环境,再设立一个相应的神经网络去做各种尝试,最终设计出的结果有一个奖惩函数反馈,来让这个网络来学习。这就打破了深度学习创业只和手里有大量数据的垄断者相关的梦魇。
这里的深度强化技术, 也才只展示了冰山一角, 在一类被称为SLAM的技术上, 深度强化学习被证明了强大的控制能力, 它能够驱动机器人在非常复杂的空间里进行探索无需GPS,对于这一类深度学习任务, 有别于alphago的任务,因为围棋属于完全信息的博弈, 而真正的空间探索,是通过感知系统探测到的不完全信息, 通过记忆在时间尺度上的综合,这一点,只有搬出大名鼎鼎的LSTM来对付了。