AlphaZero登上Science封面-听铁哥浅析阿尔法元
从1997年“深蓝”击败国际象棋冠军卡斯帕罗夫,到2017年AlphaGo击败围棋冠军柯洁,AI 在与人类对抗训练中不断提高,而脱胎于 AlphaGo 的 AlphaZero 则完全脱离了人类棋谱的束缚,通过自我博弈,成为多种棋类游戏的王者。在最新一期 Science 中,首次全方位揭示了 AlphaZero 背后的原理。
阿尔法元超越自己的大哥-阿尔法狗。 这一代算法被deepmind命名为Alphago Zero, 中文阿尔法元,“元” 含有起点,创世之意。 总之,就是从零开始 ,其实这个元字用意很深, 一方面说, 这个算法是不需要人类数据指导,也不需要它哥哥(阿法狗)指导,就自己演化出来。 另一方面也可以理解为它可以开启新纪元。
当然, 同时谷歌也宣传了它的TPU, 只需要4台TPU运行几天的功夫就可以了。 那么, 这次的大新闻是不是一个谷歌精心策划的商业广告,还是真的隐藏天机。铁哥就来给大家解读一下阿法元和其背后的深度强化学习,看看这次的大新闻算不算得从零到一。
如果大家了解计算机学下棋的事情,就会了解到几十年前,我们就已经用穷举法来解决棋类问题了,在国际象棋这类游戏里, 计算机会以比人脑快的多的速度推演两军对峙的未来,在运用零和游戏里固有的减少风险策略, 在1996年就可以让人类棋手甘拜下风。
穷举法不适用围棋,因为跟其灿若宇宙星辰的可能性搜索空间(每一步19*19可能,若干步骤后就是天文数字,这种由于可能性爆炸导致的悲剧也称为维度灾难),被称为人工智能界的mission impossible。 而在2015年, 梦幻被粉碎,原因在于深度卷积网络的幽灵终于潜入到了棋类游戏领域。 深度学习最擅长把高维度的问题自动的降维,从而解决了刚说过的维度灾难,如宇宙星辰般的搜索空间瞬间被压榨到很小,在此时的机器算法面前, 围棋无非是一个当年的国际象棋。