AI花了7000小时打败了PokemonRed的第一个道馆但50000小时后仍然找不到第二个道馆
发布时间:2024-03-26 16:59:10 编辑:浦珍素 来源:
一名程序员对AI模型进行了50,000小时的训练,教其如何玩PokemonRed,从而产生了一种算法,能够探索游戏并组建一支团队来击败第一个道馆领袖,但无法找到通过Mt的方法。Moon还是更懂得继续买鲤鱼王。最重要的是,这个练习是了解机器学习实际工作原理的一种有趣方式。
正如PeterWhidden在一段视频中所概述的那样,人工智能能够通过模拟器上的常用控制输入与游戏进行交互。它按下按钮并查看屏幕以查看发生了什么,就像人类玩家一样。Whidden将学习课程设置为每次两个小时的游戏时间,尽管通过加速仿真,这些课程可以在大约六分钟的实时时间内完成-并且通过同时运行40个测试课程进一步加快了该过程。
由于机器算法本质上并不关心如何击败视频游戏,因此惠登为人工智能设定了特定的奖励目标。为了鼓励好奇的探索,每当人工智能看到新的东西时就会获得奖励点,这是通过屏幕上出现的明显不同的像素来衡量的。这会产生一些意想不到的后果——例如,人工智能只会着迷地盯着水的轻微动画——但它广泛地起到了激励计算机从托盘镇穿过常青森林到达白镴城的作用,在那里,与布洛克的第一场道馆大战开始了。
人工智能也需要进一步的奖励和惩罚。由于奖励都与看到新事物有关,人工智能只想继续前进,这意味着它不关心战斗或捕捉神奇宝贝,所以它最初只是逃避每次遭遇。因此,惠登添加了一个系统,人工智能根据其活跃口袋妖怪队伍的总等级获得奖励。
这有助于让AI争夺XP并捕捉Pokemon,但它也产生了意想不到的后果。当人工智能到达神奇宝贝中心时,它会与那里的电脑进行交互并存放一些神奇宝贝。这使得队伍的整体等级大幅下降,大量的奖励积分一下子就被剥夺了。这大致相当于人工智能的一次创伤经历,导致它完全避开神奇宝贝中心——从而拒绝治愈队伍,直到惠登再次调整奖励系统。
由于人工智能本质上一直在随机做事,直到它设法找出一些可以获得奖励积分的东西,所以与布洛克的战斗被证明是一个特殊的问题,因为你需要利用他的岩石型神奇宝贝的元素弱点来做到这一点对他们造成的任何实际损害。只是凭借一次特定的迭代,AI的杰尼龟碰巧除了Bubblebeam之外的每一个动作都超出了PP,算法才成功地学会了如何打败健身房。
然而,虽然人工智能不擅长弄清楚人类玩家可能很自然的事情,但它很快就能学会其他更深奥的事情。惠登在某个时刻意识到,算法总是会绘制一条非常具体的、看似荒谬的路径,从托盘镇到第一次遇到野生神奇宝贝。这看起来很奇怪,直到我们清楚地意识到,这一系列精确的输入保证了只需扔出一个精灵球就可以捕获野生精灵。是的,AI自发地学会了速通玩家花费数年时间开发的RNG操作艺术。
下一篇:最后一页
- 宜家刚刚让所有快速充电器看起来价格过高
- 竞争对手D&DRPG探路者 辐射和战锤最高优惠357美元
- Galaxy A73 获得 2024 年 3 月安全更新
- 更便宜的 Galaxy Z Fold 6 可能会稍后推出 抢走 iPhone 16 的风头
- 宽敞的斯堪的纳维亚旅馆是现代乡村风格的华丽演绎
- BuckstopTruckware的单后轮改装F450在Mint400上大放异彩
- 1963年CorvetteStingRayFuelie拥有附加到原始V8的超昂贵功能
- M1MacBookAir不仅仍然存在而且比以往更便宜
- 创新的化学策略针对蚊子幼虫肠道以对抗致命疾病的传播
- 没有手机(2a)电池测试正在进行中它会持续使用但不会让您惊叹
- 三星可能会自费为GalaxyS25提供急需的升级
- StellarBladeEve的NSFW皮肤套装不仅仅是一件化妆品
- 在微软标记利用新的零日漏洞的勒索软件活动后SysAid要求客户立即修补
- 现代汽车将推出坚固耐用的 Ioniq 5 EV 变体击败 Rivian R3X
- 5名利物浦年轻球员尤尔根克洛普应该对阵布拉格斯巴达