当前位置:首页 > 动态 > 综合精选 > 正文

AI花了7000小时打败了PokemonRed的第一个道馆但50000小时后仍然找不到第二个道馆

发布时间:2024-03-26 16:59:10 编辑:浦珍素 来源:

导读 一名程序员对AI模型进行了50,000小时的训练,教其如何玩PokemonRed,从而产生了一种算法,能够探索游戏并组建一支团队来击败第一个道馆领袖...

一名程序员对AI模型进行了50,000小时的训练,教其如何玩PokemonRed,从而产生了一种算法,能够探索游戏并组建一支团队来击败第一个道馆领袖,但无法找到通过Mt的方法。Moon还是更懂得继续买鲤鱼王。最重要的是,这个练习是了解机器学习实际工作原理的一种有趣方式。

正如PeterWhidden在一段视频中所概述的那样,人工智能能够通过模拟器上的常用控制输入与游戏进行交互。它按下按钮并查看屏幕以查看发生了什么,就像人类玩家一样。Whidden将学习课程设置为每次两个小时的游戏时间,尽管通过加速仿真,这些课程可以在大约六分钟的实时时间内完成-并且通过同时运行40个测试课程进一步加快了该过程。

由于机器算法本质上并不关心如何击败视频游戏,因此惠登为人工智能设定了特定的奖励目标。为了鼓励好奇的探索,每当人工智能看到新的东西时就会获得奖励点,这是通过屏幕上出现的明显不同的像素来衡量的。这会产生一些意想不到的后果——例如,人工智能只会着迷地盯着水的轻微动画——但它广泛地起到了激励计算机从托盘镇穿过常青森林到达白镴城的作用,在那里,与布洛克的第一场道馆大战开始了。

人工智能也需要进一步的奖励和惩罚。由于奖励都与看到新事物有关,人工智能只想继续前进,这意味着它不关心战斗或捕捉神奇宝贝,所以它最初只是逃避每次遭遇。因此,惠登添加了一个系统,人工智能根据其活跃口袋妖怪队伍的总等级获得奖励。

这有助于让AI争夺XP并捕捉Pokemon,但它也产生了意想不到的后果。当人工智能到达神奇宝贝中心时,它会与那里的电脑进行交互并存放一些神奇宝贝。这使得队伍的整体等级大幅下降,大量的奖励积分一下子就被剥夺了。这大致相当于人工智能的一次创伤经历,导致它完全避开神奇宝贝中心——从而拒绝治愈队伍,直到惠登再次调整奖励系统。

由于人工智能本质上一直在随机做事,直到它设法找出一些可以获得奖励积分的东西,所以与布洛克的战斗被证明是一个特殊的问题,因为你需要利用他的岩石型神奇宝贝的元素弱点来做到这一点对他们造成的任何实际损害。只是凭借一次特定的迭代,AI的杰尼龟碰巧除了Bubblebeam之外的每一个动作都超出了PP,算法才成功地学会了如何打败健身房。

然而,虽然人工智能不擅长弄清楚人类玩家可能很自然的事情,但它很快就能学会其他更深奥的事情。惠登在某个时刻意识到,算法总是会绘制一条非常具体的、看似荒谬的路径,从托盘镇到第一次遇到野生神奇宝贝。这看起来很奇怪,直到我们清楚地意识到,这一系列精确的输入保证了只需扔出一个精灵球就可以捕获野生精灵。是的,AI自发地学会了速通玩家花费数年时间开发的RNG操作艺术。


免责声明:本文由用户上传,如有侵权请联系删除!

上一篇:魁刚金在前传的前传中开启了星球大战图画小说的新系列

下一篇:最后一页