AI系统通过多样性取得突破

摘要: 通过奖励将不同方法结合在一起解决国际象棋难题的计算机,Google创建了一个增强的AI,可以击败其现有的冠军Alphazero。

图片

AI系统通过多样性取得突破

研究人员构建了新版本的AlphaZero,包括多个独立训练的AI系统,这些系统在各种情况下进行训练。总体系统的算法充当一种虚拟媒人,用于确定在何时进行移动时,哪个代理有最大成功机会。团队还编码了“多样性奖励”,即每当系统从大量选择中提取策略时都会获得奖励。

新系统被释放进行自我游戏时,团队观察到了很多变化。多样化的AI玩家尝试了新的、有效的开局和关于特定策略的新颖但合理的决策,例如何时何地进行王车易位。在大多数比赛中,它击败了原始的AlphaZero。团队还发现,多样化版本可以解决两倍于原始版本的挑战难题,并且可以解决Penrose难题目录中超过一半的难题。

“这个想法是,与其寻找一个能击败任何玩家的解决方案或单一策略,不如使用创造性多样性的思想,”Cully说。

多样化方法可以帮助任何AI系统,不仅限于基于强化学习的系统。研究人员一直在使用多样性来训练物理系统,包括一个六足机器人,该机器人被允许探索各种运动方式,然后故意“受伤”,以便继续使用之前开发的一些技术进行移动。最近,他还与研究人员合作,利用多样性来发现有前途的新药候选物和开发有效的股票交易策略。

多样性AI系统不太可能完全解决机器学习中的广义问题,但这是朝着正确方向迈出的一步。

更重要的是,Zahavy的结果与最近的努力产生共鸣,表明合作可以提高人类在艰难任务上的表现。例如,Billboard 100榜单上的大多数热门歌曲都是由团队的词曲作者创作的,而不是个人。目前,多样化方法在计算上是昂贵的,因为它必须考虑比典型系统更多的可能性。Zahavy甚至不确定多样化的AlphaZero是否涵盖了所有可能性。

“我仍然认为还有找到不同解决方案的空间,”他说。“对我来说,世界上所有的数据中,每个问题都只有一个答案并不清楚。”

原文转载自Quanta Magazine,一个旨在通过报道数学、物理和生命科学的研究进展和趋势来增进公众对科学的理解的编辑独立出版物。

© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容