Py学习  »  机器学习算法

机器学习可以教会我们任何东西吗?

悦智网 • 4 年前 • 408 次点击  

━━━━

抓人眼球的头条新闻吸引了我的注意力:“人工智能大突破——计算机有了人类直觉!”(或者类似的字眼)。我很好奇,不过也心存疑惑。继续读下去,我才了解到,原来是伦敦DeepMind的一个团队开发出了一款名为阿尔法元(AlphaZero)的程序,它打败了其他国际象棋程序以及人类玩家,一举夺冠。这本身并不是什么奇闻轶事,因为机器人在比赛中获胜已经司空见惯了。吸引我的是,这样的程序是怎样构建的。阿尔法元并没有受到专业玩家的调教,它一开始只知道国际象棋的游戏规则,然后通过和自己下棋,开始学习怎样落子,怎样获胜。很快,它就能够战无不胜了。

不过我想,通过和自己下棋来不断学习,我们人类几个世纪以来不就是这样吗?这些年来,有没有什么是计算机学得很快,但是人类没有做到的?如果有,是什么?可惜,人类的神经网络并没有给出答案。似乎机器采取弃子战术的频率要比人类选手多。不管怎样,我还是很好奇,同时也带着疑问继续阅读了有关软件表现出人类直觉的内容。直觉是指“没有经过分析推理的直接直观的理解和认识。”阿尔法元是唤起了自己的直觉,还是具备了超人类的直觉?又或者,根本不应该称之为直觉?

与此类似的还有加拿大阿尔伯塔大学一个团队开发的新的德州扑克程序,名为DeepStack。它在德州扑克比赛中狠狠地击败了人类对手。研究人员写道:“它依靠‘直觉’打牌,通过深度学习来重新评估每次做决定时的策略。”我本人几乎没有打过扑克,所以我曾天真地以为,在打扑克中获胜靠的是分析对手的心理,而这一事例所揭示的事实恰恰与之相反:扑克实际上是一种策略游戏。比起人类来,计算机学到了更好的策略。

几年前,位于匹兹堡的卡耐基•梅隆大学开发的德州扑克程序Libratus也击败了人类冠军玩家。Libratus采用了一种技术,称为蒙特卡洛虚拟遗憾最小化算法(Monte Carlo Counterfactual Regret Minimization),它可以以一种聪明的方式精简决策树,然后在许多可能的路径中进行选择。这种技术导致了一种纳什均衡策略,即双方选手如果都不改变策略(假定对方策略固定),那么谁都不会获胜。也就是说,如果玩家的水平相当,那么最终就会打成平局。

我对这种策略很感兴趣,也心存疑惑。在我看来,计算机的目标是不输掉牌局,而人类选手则是想要赢得牌局,却最终失败了。这好像有点违反直觉了。我想起来每次我支持的运动队领先时,我要是对着电视大喊大叫,本来不会输的队就会输。可能这些运动队的“不输掉比赛”策略并不像扑克程序那样是最优策略。

对这些了解得越深入,我感到越困惑。不过,我还是有点嫉妒这些工程师,他们的工作都是有关玩游戏的程序,多好的特权啊!我也知道不是所有的工作内容都是乐趣和游戏,还需要大量的细致工作和创造性思维。尽管如此,我还是为之深深着迷,这确实是一件很棒的事!

作者:Robert W. Lucky


IEEE Spectrum

《科技纵览》

官方微信公众平台



往期推荐

机器学习预测房价

机器学习和量子计算将成为“密友”

当贝叶斯,奥卡姆和香农一起来定义机器学习

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/33774
 
408 次点击