AlphaZero登上Science封面-听铁哥浅析阿尔法元(2)
然而当时立下首要功勋的深度卷积网络,却需要学习三千万组人类数据进行训练, 而整个训练过程需要的能量据说要耗费几吨煤炭。
人们说,你秒杀人类智商的阿法狗无非是比人类看棋谱的速度快,难道还真的懂围棋吗? 你所作的顶多是模仿,里面的强化学习到底有多少作用, 真的不知道。
然而今天,阿法元却能够在不用那3000万数据的时候来个完胜阿法狗。从人工智能的技术角度看, 这是强化学习的胜利, 在不进行监督学习的情况下, 就可以达到一个高于人类的境地。
为什么强化学习如此重要? 让我们先比较一下监督学习和强化学习的基本思想。 监督学习, 强化学习和无监督学习是机器学习的三大框架。 某一个意义说,监督学习是给定输入和输出,机器来学习输入和输出的关系,一个好的监督学习算法犹如一个预言家, 它能够根据自己之前见过的输入输出关系来预测未知的输入。
强化学习呢? 强化学习的三元素是状态,行为和环境奖励。 强化学习条件下, 学习者每一步看到的是它决策的行为结果, 然后导致下一步行动,为了最终游戏的胜利。 一句话说:强化学习强在决策。 监督学习是预言家,强化学习是决策家。
我们一比就明白, 强化学习更像是一个日常决策中的人。我们看到一个老虎,监督学习帮你识别出来它是老虎,那么你可能刚说出来就被它吃了。 而强化学习告诉你赶紧跑,,你可能活下来。 监督学习让你成为复读机,而强化学习让你称之为生物。
再深一点想,其实学习是为了生存,是赢得game of life(想想那些不太读书就能过得很好生活的真是深谙强化学习的道理)。 强化学习赋予机器以灵魂。监督学习的那些任务反而是在这个宗旨之下产生的。
回到围棋, 我们看看强化学习如何决策: 我们在好好理解一些一下“强化” 二字, 强化的意味是: 强化优势经历,反过来,就是弱化劣势经历。当你走了一部棋导致不好结果,之后被选入这一步棋的概率就降低, 而导致胜利的选择被不停的强化,直到你每次都延着最佳路径前进。这听起来很像进化, 而与进化的区别是,进化是严酷的客观环境对随机变化的生物的选择,而强化学习里的单元可以通过梯度下降主动调整策略。
既然强化学习那么牛, 为什么阿法狗还用监督学习这个拐棍呢?一句话说,强化学习太难了!
强化学习有两大难题:
1, 奖励时间的不确定性: 今天的努力,可能明天回报, 可能十年后才有回报, 今天带来奖励的事情,明天可能就导致悲剧(比如吸毒很爽未来地狱) 对于游戏里的每一次决策, 你都无法获得立即的反馈,相比监督学习时时可以得到对和错的答案,这个信息实在太弱了, 用来指导学习,那是慢慢的(如何利用这个或有或无的信息,强化学习的一系列方法围绕而来,比如Q-learn)。
2, 探索与收益的平衡难以掌握: 有的人一辈子抱残守缺,7岁玩泥巴未来就永远玩泥巴。 有的人一辈子都在探索不同的方向,但是换来换去最终庸庸碌碌。而只有恰当把握探索收益平衡的,比如说27岁前读书去不同国家,27岁开始认准一个方向成为大佬,30岁前各种风流倜傥,30岁选个知书达理另一半从一而终。 强化学习始终面临是探索更多空间,还是开始用现在经验收益的矛盾。
这两点放到围棋这个搜索空间犹如宇宙星辰的游戏里,估计学习时间也要用生物进化的尺度算, 然而阿尔法元所用的强化学习算法,号称解决了这个问题。
仔细看它和它哥哥阿尔法狗的差别没那么大, 只不过这一次的神经网络完全由强化学习训练, 和蒙特卡罗树得融合可以算是完美。
之前的阿尔法狗有策略和估值网络(都是深度卷积网络),策略负责把棋盘现在的状态转化为可能的行为概率, 这个东西被称为策略(policy,是由每个可能的行为概率构成的向量,简称策略向量) ,估值则是输入目前的棋盘状态得到最终结果的概率。 这两个网络在这一次被合成一个巨大的深度残差网络(卷积网络的一种)。