<<返回上一页

好奇的AI通过探索游戏世界和犯错来学习

发布时间:2018-01-02 18:10:38来源:未知点击:

Nintendo By Matt Reynolds我想知道如果按下这个按钮会发生什么带有好奇心的算法正在教导自己发现和解决以前从未遇到过的问题面对超级马里奥兄弟的第一级,一个好奇心驱动的人工智能学习如何探索,避免坑,躲闪和杀死敌人这可能听起来并不令人印象深刻 - 算法几年来一直在电子游戏中捣乱人类 - 但这种人工智能的技能都得益于内在的欲望,以发现更多关于游戏世界通过正强化来教授传统的AI算法他们因实现某种外部目标而获得奖励,比如将视频游戏中的分数提高一分这鼓励他们采取行动来提高他们的分数 - 例如在马里奥的情况下踩踏敌人 - 并且阻止他们执行不会增加分数的行动,比如陷入坑中这种类型的方法,称为强化学习,被用于创建AlphaGo,这是来自Google DeepMind的Go-playing计算机,去年击败了韩国大师Lee Sedol四场比赛在成千上万的真实和模拟游戏中,AlphaGo算法学会了追求最终奖励的策略:获胜但加州大学伯克利分校的负责人迪帕克帕查克说,现实世界并没有充满回报 “相反,人类有天生的好奇心,这有助于他们学习,”他说,这可能就是为什么我们擅长掌握广泛的技能而不必去学习它们因此,Pathak开始给自己的强化学习算法一种好奇心,看看是否足以让它学习一系列技能当Pathak的算法增加了对环境的理解,特别是直接影响它的部分时,它会获得奖励因此,该算法不是在游戏世界中寻找奖励,而是因为探索和掌握技能而获得奖励,从而使其更多地了解世界 Google的AI公司DeepMind的Max Jaderberg表示,这种方法可以加快学习时间并提高算法效率该公司去年使用类似的技术教AI探索虚拟迷宫它的算法比传统的强化学习方法学得更快他说:“我们的代理人要快得多,并且需要从世界各地获得更少的培训经验,从而提高数据效率”充满了好奇心,Pathak自己的AI学会了踩踏敌人,跳过马里奥的坑,还学会了探索遥远的房间,走在另一个类似于Doom的游戏的走廊里它也能够将其新获得的技能应用到更高级别的马里奥,尽管从未见过它们但好奇心只能在马里奥到目前为止采用这种算法平均而言,它只探索了第一级的30%,因为它无法找到超越一系列坑的方法,这些坑只能通过一系列超过15次的按钮来克服人工智能不是跳到它的死亡,而是学会了回到自身并在达到这一点时停止帕塔克说,人工智能可能已经陷入困境,因为它不知道在坑外探索的水平更高它也没有学会在游戏中始终采用有用的捷径,因为它们导致它发现较少的水平,因此没有满足其探索的冲动派克现在正在研究机器人手臂是否可以通过好奇心来掌握新物体 “而不是随机行动,你可以用它来帮助它有意义地移动,”他说他还计划看看类似的算法是否可以用于类似于Roomba吸尘器的家用机器人但是Jaderberg并不确定这种算法是否已经准备就绪 “现在谈论现实世界的应用还为时过早,”他说期刊参考:https://arxiv.org/abs/1705.05363阅读更多:AI学习使用简明英语的说明来玩视频游戏更多关于这些主题: