GPT-4在模拟游戏「Spyfall」中的表现：类人属性与决策能力的进步

【新智元导读】最近，韩国一团队为了测试 GPT-3.5 和 GPT-4 的类人属性，竟然让它们玩儿这款游戏！生成式 AI 研究再整新活！韩国团队尝试让 GPT 玩儿游戏，还是个黑帮题材的游戏 ——「Spyfall」。不熟悉这个游戏的朋友先来了解一下，下图就是「Spyfall」的画风。实际上这是个桌游，属于老少咸宜，很适合朋友聚会的那种热场游戏。游戏的主要进行方式就是「说话」。玩家中会有一位扮演「间谍」，所有玩家抽取一张牌，其中有一张间谍牌，剩余玩家抽到的都是相同的地点牌。间谍的目标，就是通过交谈找出剩下玩家所在的地点，而其余玩家就是要判断谁是间谍。游戏总共进行 8 分钟，玩家之间可以相互提问。8 分钟一到，所有玩家要一同投票。是不是很像平时我们聚会玩儿的谁是卧底？唯一不同在于，谁是卧底的词汇可能来自各个领域，而这款游戏只有地点类名词，比如球场、剧院、教室等等。好了，游戏规则搞明白，下一步就是要让 GPT 来玩玩看了。

研究结果研究团队表示，在实验过程中，将会特别关注 GPT 在角色扮演中的表现，本研究旨在展示 GPT 在具体游戏场景中的理解、决策和互动的能力以及潜力。从结果粗看，GPT-4 与 GPT-3.5-turbo 的对比分析表明，GPT-4 增强了对游戏环境的适应性，在提出相关问题和形成类似人类的反应方面有显著改进。然而，也并非全是优点。比如说，GPT-4 在虚张声势（Bluff）和预测对手行动方面存在一定的局限性，尤其是没扮演间谍的时候。

研究结果表明，虽然 GPT-4 与之前的版本相比取得了不错的进步，但还是有进一步发展的潜力，特别是在向 AI 灌输更多「类人」属性的方面。不过，实验还是成功表明，生成式 AI 在模拟类人互动方面大有可为。从 GPT-2 到 GPT-4，模型的决策能力、可解释性和解决问题的能力都有了长足的进步。未来的努力方向，就是上面提到的「类人」属性，使 GPT 更具通用性和广泛性。

研究方法

我们知道，GPT 模型最大的优势就在于，用户可以通过自然语言和其进行直观的交互，无论用户本人是否对技术的内核熟悉。当然，几乎所有的模型交互都是通过自然语言进行的，用户可以用自己最熟悉的方式表达自己的想法和意图，并得到模型的回应。LLM 拥有广阔的知识谱系，GPT-4 的数据库也能使模型提供关于众多主题的深入的知识。同时，GPT 和其它 LLM 所不同之处在于其可扩展性非常强，用户可以在很多领域应用 GPT，就比如说今天介绍的实验。

在这次实验中，研究人员一共安排了 5 名玩家，包括 GPT。研究人员总共进行了 2 项实验。实验一：测试 GPT-4 和 GPT-3.5-turbo 的性能差异。实验二：仅使用 GPT-4 进行游戏。研究人员一共进行了 8 局游戏，记录了每场游戏的日志，并对结果进行了讨论。当然，对于给出生成式 AI 的潜力一个确切的结论来说，实验次数并不足够。但是按照这个思路进行更多组重复实验以及更加广泛的测试，就可以提供更多实质性的证据。

我们先来看实验一。为了评估 GPT-4 与 GPT-3.5-turbo 相比的差异，尤其是在格式方面出现错误的机率、对游戏规则和进程等游戏背景相关内容的理解，以及类人反应方面的不同。研究人员从第一轮交谈的第一个问题开始进行实验。有了这一最清晰、变数最小的游戏部分，他们就可以精确地分析每个模型的能力，最大限度地减少外部因素的影响。研究人员比较了 GPT-3.5-turbo 和 GPT-4 对规则脚本中，所描述的 30 个地点中每个地点的 30 个首轮问题的回答。向两种模型提问的行动请求脚本是相同的，只是更改了地点的关键字而已。规则与基本策略都和上述脚本相同，如下图所示，实验人员通过将三个脚本合并为一个请求，来获得模型的响应。为了进行更准确的比较分析还采用了其它一些技术手段以保证研究的科学性和准确性。

未经允许不得转载：免责声明：本文由用户上传，如有侵权请联系删除！