LLM Playing StarCraft II

背景与动机：
- 随着LLMs在推理、规划和决策方面的进步，对于实时战略决策制定的基准测试变得至关重要。
- 《星际争霸II》因其复杂和动态的特性，成为评估这些技能的理想环境。
TextStarCraft II环境：
- 为了指导 LLM 做出有效的实时战略决策，该团队设计了一个复杂的提示系统，由四个主要部分组成：游戏状态总结、状态分析、策略建议和最终决策。
- 作者开发了一个名为TextStarCraft II的专门环境，用于在《星际争霸II》中评估LLMs的实时战略场景。
- 该环境将游戏的复杂动态转化为基于文本的交互格式，允许LLM代理通过语言命令执行宏观战略行动。
链式总结（Chain of Summarization, CoS）方法：
- 为了解决传统链式思考（Chain of Thought, CoT）方法的局限性，作者引入了CoS方法，增强了LLMs在快速有效决策制定中的能力。
- CoS方法通过单帧和多帧总结模块，帮助理解当前游戏状态和处理策略制定与决策的顺序数据。
实验与评估：
- 作者对10个LLMs进行了评估，大多数模型都能击败游戏内建的LV5 AI，展示了有效的战略技能。
- 通过与人类专家的比较，评估了四个商业模型对《星际争霸II》知识的掌握，GPT-4被大师级专家评为最高。
- 实验结果表明，经过微调的LLMs在实时比赛中与黄金级玩家表现相当，显示出可比的战略能力。

Chain of Summarization

摘要

随着大型语言模型（LLMs）代理在推理、规划和决策方面能力的持续进步，基准测试已成为评估这些技能的关键。然而，在实时战略决策制定的基准测试中存在明显的缺口。《星际争霸II》（SC2）以其复杂和动态的特性，成为此类评估的理想环境。为此，我们开发了TextStarCraft II，一个专门用于评估LLMs在SC2中实时战略场景的专门环境。为了解决传统思维链（Chain of Thought，CoT）方法的局限性，我们引入了思维链总结（Chain of Summarization，CoS）方法，增强了LLMs在快速有效决策制定中的能力。我们的关键实验包括：1. LLM评估：在TextStarCraft II中测试了10个LLMs，它们中的大多数击败了LV5内置AI，展示了有效的战略技能。2. 商业模型知识：评估了四个商业模型对SC2知识的掌握；GPT-4被大师级专家评为最高。3. 人机对战：实验结果表明，经过微调的LLMs在实时比赛中与黄金级玩家表现相当，展示了可比的战略能力。

1.引言

实时战略决策制定和长期规划是人工智能面临的重大挑战，它们需要快速的战术决策和随时间的战略适应性。作为世界上最受欢迎和最具挑战性的电子竞技游戏之一，《星际争霸II》（SC2）通过其动态的游戏玩法体现了这些需求。玩家必须管理资源、建造基地和指挥军队，同时做出快速决策并适应不断变化的战场条件。游戏的层次玩法涵盖了经济管理、军事战略和战术执行，使SC2成为人工智能研究的宝贵模型，特别是在强化学习（RL）领域。SC2的复杂性、实时性和被认为是世界上最难的游戏之一，对AI系统提出了重大挑战，要求它们同时掌握游戏的各个方面。更多关于《星际争霸II》的详细信息可以在附录A中找到。DeepMind的AlphaStar等先驱努力展示了在这一领域的重大进展，展示了AI在战略游戏玩法中日益增长的熟练程度。随着LLMs在推理、规划和决策等领域的发展，这些模型开始显示出在传统由RL方法主导的任务中的潜力。AGENTBENCH等基准测试在评估多轮、开放式环境中的这些能力方面发挥了重要作用。然而，尽管取得了这些进展，但评估LLMs在实时战略决策制定和长期规划方面的能力，特别是在《星际争霸II》等环境中，仍然明显缺乏一个特定的基准测试。

因此，我们选择SC2作为评估LLMs实时战略决策制定和长期规划能力的基准测试。鉴于现有SC2环境中缺乏语言支持，我们开发了TextStarCraft II。利用python-sc2框架，TextStarCraft II将SC2的复杂游戏动态转化为交互式文本格式。python-sc2接口被用来将游戏数据转换为文本，使LLM代理能够通过语言命令执行宏观战略行动。对于微观战略行动，我们实施了类似于OpenAI Five使用的基于规则的方法，采用预定义的Python脚本。这允许LLM代理通过执行这些脚本化的行动与游戏的内置AI、其他LLM代理和人类玩家进行竞争。为了解决SC2中复杂决策过程所提出的挑战，我们提出了思维链总结（CoS）方法。这种方法通过整合单帧和多帧总结模块，增强了LLM代理处理复杂信息和制定战略决策的能力，每个模块都有助于理解即时游戏状态和处理顺序数据以制定战略和决策。

在这项研究中，我们通过TextStarCraft II环境对LLMs的应用和有效性进行了深入探索。我们的实验框架包括评估CoS方法、评估专有和微调开源LLMs在TextStarCraft II中的表现、测试实时人机交互，以及使用由人类专家评估的《星际争霸II》主题问答任务。我们还分析了不同提示对LLMs的影响、它们的战略偏好以及它们的决策过程的可解释性。

2.相关工作

《星际争霸II》完整游戏AI：最初集中在《星际争霸I》上的AI研究发展了多智能体协调的发展，如BiCNet [19]，随着《星际争霸II》时代的到来，这一研究领域取得了显著进展。DeepMind发布的PySC2 [23]以及暴雪的游戏回放推动了这一研究领域的发展。一个关键的突破是AlphaStar [24]，它达到了宗师级别并击败了顶级玩家，展示了RL在复杂环境中的潜力。

随后的研究在这些基础上进行了扩展。Mini-AlphaStar [13]简化了输入变量，而不影响学习效果。TG [12]和HierNet-SC2 [14]探索了高效的RL策略，后者绕过了监督预训练。AlphaStar Unplugged [16]代表了离线RL的一个飞跃，使用人类回放。TStarBotsX [7]和SCC [26]进一步推动了联邦学习方法，对抗大师和宗师级玩家取得了显著的成功。

最近的进步包括DI-star 3，它可以在家中的计算机上部署，以及ROA-Star [9]，它通过目标条件化的利用者和精细的对手建模技术增强了AlphaStar的训练框架。ROA-Star在与职业玩家的实际测试中表现出色，标志着实时战略AI取得了重大进展。

LLM代理和基准测试：GPT3.5 [17]的引入显著推动了LLM代理研究的进展。React [29]和AutoGPT 4等项目为更复杂的实现奠定了基础。在MineDojo环境 [5]中，GITM [33]、Voyager [25]等项目强调了LLM代理适应各种任务和广阔开放世界场景的能力。此外，TextWorld [4]和ALFWorld [20]等环境通过在模拟和视觉环境中整合基于文本的策略和行动执行，丰富了代理训练，促进了高级泛化和适应性学习。此外，如强化学习中的人类反馈（RLHF）[31]等优化方法也提高了大型语言模型的性能。

在多智能体协调和虚拟社会动态方面取得了进一步的进步，通过MetaGPT [8]、Camel [11]和Generative Agents [18]实现。基准平台如AGENTBENCH在评估这些发展中发挥了关键作用，AGENTBENCH检查了在全面、开放式环境中的决策制定。

在《星际争霸II》中，尽管开发了先进的AI代理，但在评估LLMs方面，特别是在实时战略和长期规划方面，仍然存在差距。这导致了TextStarCraft II的创建，这是一个为测试LLMs在这些特定方面量身定制的环境，填补了AI研究中自然语言交互能力的迫切需求。

3.TextStarCraft II

TextStarCraft II在《星际争霸II》环境中为LLMs提供了一个基于文本的接口，利用python-sc2框架将复杂的游戏玩法转化为文本。关键组件包括观察到文本的适配器和文本到行动的适配器。TextStarCraft II因其更加复杂和动态的游戏玩法而与其他基于文本的环境如TextWorld和ALFWorld有所不同。它要求代理实时管理多个方面，如资源分配、基地建设和军事战略，挑战它们的适应性和决策能力。此外，该环境要求高级语言理解能力，以解释和执行更开放式和多样化的命令，增强了对复杂自然语言处理能力的需求。我们将在下面介绍TextStarCraft II的主要组件。

观察空间

TextStarCraft II的观察空间旨在为LLM代理提供关键的游戏洞察，有效地导航《星际争霸II》中的战争迷雾。观察包括六个关键类别：

资源：关键的游戏资源和供应水平。
单位：玩家单位的类型和数量。
建筑：玩家建筑的信息。
进行中的活动：正在进行的建设和生产数据。
敌人状态：可见的敌人单位和建筑。
研究进展：玩家技术进步的更新。

这种结构化的方法在观察空间中使LLM代理能够高效地处理和利用关键的游戏数据，以在TextStarCraft II中进行战略决策。

行动

主要有两种类型的行动：宏观行动和微观行动。

宏观行动：涵盖广泛的战略决策，如训练单位、建造结构、研究技术和其他战略操作。
微观行动：由脚本管理，用于精确的放置和目标选择，不由代理直接控制。

奖励

奖励函数R对于使代理行为与游戏目标一致至关重要，根据输掉、平局或赢得比赛分配{-1, 0, 1}的值。

游戏模式

TextStarCraft II提供了多样化的模式来丰富战略游戏：首先，内置AI模式，提供10个难度级别和6个战略风格，以提供多样化的挑战。其次，代理AI模式，使玩家能够与基于规则的AI和其他LLM代理竞争。第三，人类模式，促进与现实世界玩家的互动，增强游戏的真实性。

图1：在TextStarCraft II中使用增强的链式总结（CoS）方法与LLM交互。这个流线型的LLM驱动的游戏玩法从初始化开始，将初始游戏数据转换为文本以供处理。接下来，单帧和多帧总结通过先进的LLM推理提炼和总结观察结果，形成可操作的洞察。在指令制定和行动调度中，这些洞察被细分为具体行动并排队等待执行。过程以行动检索和执行结束，行动在游戏中得到实施。这个循环不断地将新数据转换为文本，增强LLM在TextStarCraft II中的表现。

4.链式总结（Chain of Summarization, CoS）

链式总结（CoS）方法是TextStarCraft II框架的核心，其灵感来自计算机硬件的缓存机制和强化学习中的帧跳跃技术。作为对传统思维链（Chain of Thought, CoT）的增强，以及作为一个标准的插件，CoS通过以下方式改进了在《星际争霸II》中的战略决策制定：

信息压缩：它关注关键数据，减少信息过载，提高战略清晰度。
推理加速：这种方法通过提供更全面的游戏状态视图，加快决策制定。
全局理解：CoS使LLMs能够更深入地掌握游戏策略，从而做出专家级别的决策。

作为TextStarCraft II框架中的多功能工具，CoS既可以作为独立的插件增强环境的实用性，也可以作为用户与TextStarCraft II直接交互的接口。这种双重功能不仅展示了CoS作为与我们环境互动的典范模型，还邀请社区进行进一步的开发和定制，扩大了游戏战略AI研究的范围。CoS包括单帧总结、多帧总结和行动队列的行动提取。

Single-Frame Summarization

为了使TextStarCraft II的原始观察数据对LLMs更加易于理解，单帧总结压缩和提取关键信息。这个过程，称为SSF(·)，将密集的TextStarCraft II观察o转换为简化形式ˆo，描述为： $$ \hat{o} = SSF(o) $$

压缩有两种方法：一种是使用少量学习的语言模型方法，以更好地与游戏规则对齐；另一种是基于规则的方法，用于快速提取和过滤。在我们的实验中，主要使用基于规则的方法以实现更快的交互。

Multi-Frame Summarization

传统方法在每个时间步骤查询LLMs进行决策制定，但由于像《星际争霸II》这样的长期游戏的计算成本高和LLM推理速度慢，这种方法效率低下。我们的多帧总结方法，受到计算机硬件缓存和强化学习中帧跳跃的启发，解决了这些问题。它同步了游戏的快节奏与LLM处理，确保实时决策制定的效率，并在复杂场景中提高了理解能力。我们

不是不断地查询LLM，而是将K步的简化观察信息ˆo聚合成一个周期性的总结σ，描述为： $$ \sigma = SMF(\hat{o}_1, \hat{o}_2, \ldots, \hat{o}_K) $$

这种方法使通过一系列步骤进行全面分析和战略规划成为可能，包括情况概述、分析、战略规划、对手战略分析、建议制定和决策制定。这个过程被形式化为υ，即CoT推理对总结σ的输出，给出为： $$ \upsilon = CoT(\sigma) $$

Action Extraction for Action Queue

行动队列在多帧总结结果υ和TextStarCraft II环境之间形成了一个关键的联系，促进了LLM与游戏之间的通信。在υ中，关键组件包括分析、建议和决策。为了将这些转换为可执行的步骤，我们在我们的行动提取器中使用了正则表达式匹配和相似性搜索，表示为Ex(·)。这个过程用准备好在TextStarCraft II中执行的行动填充了行动队列。从CoT推理的输出υ中，我们使用行动提取器提取K个行动，形式化为： $$ (a_1, a_2, \ldots, a_K) = Ex(\upsilon) $$

CoS方法通过一个四阶段的流程优化了在TextStarCraft II中的决策制定：首先，它设置了初始参数，并将第一帧游戏转换为文本以供后续分析。接下来，它提炼关键的游戏观察，提供当前情况的简洁快照。然后，该方法将这些总结转化为战略行动计划。最后，它在游戏中实施计划的行动，从而完成了决策周期。这个过程在图1中被描绘。这种方法每几帧更新一次行动，有效地管理了《星际争霸II》快节奏的动态，因此对于实时战略游戏至关重要。伪代码如算法1所示。

5.实验

在我们的实验中，我们详细说明了设置和关键指标（评估指标详见附录B.2），以评估在《星际争霸II》中的宏观战略决策。我们评估了链式总结（Chain of Summarization）对LLM游戏玩法的影响，比较了各种LLM的性能，并评估了它们对《星际争霸II》战略的理解。我们的实验还包括人机交互测试。

5.1 各种LLM的性能评估

在本节中，我们评估了闭源LLMs、Llama2 70B以及像ChatGLM3 6B和Qwen 1.8B这样的微调开源LLMs在TextStarCraft II环境中对抗等级5内置AI的表现。实验结果如表1所示，评估指标详见附录B.2。我们测试了闭源LLMs和未微调的Llama2 70B使用标准CoS方法。闭源模型表现良好，而Llama2 70B无法理解任务要求，无法根据给定的提示生成命令。

此外，我们使用GPT3.5-turbo-16k与TextStarCraft II的完整交互日志数据集对开源模型进行了微调。由于计算资源限制，我们去除了CoT组件，仅保留了输入和输出。结果表明，所有评估的闭源LLMs都能够击败等级5的内置AI。尽管战略多样性有所下降，微调的开源模型仍然设法击败了等级5的AI，主要采用大规模生产Stalkers的策略。

最后，我们使用平均人口利用率（APU）指标（详见附录B.2）来分析数据质量的影响。结果（表2）表明，使用前25% APU游戏的微调数据集获得了最高的胜率（54/100），而使用完整数据集的结果胜率较低（28/100）。这表明训练数据的质量，特别是包含高性能游戏的数据，对微调模型在TextStarCraft II中的表现有显著影响。

表1：在TextStarCraft II中使用完整CoS或不使用CoT的CoS的LLMs的性能比较。评估指标在附录B.2中有详细说明。

表2：在TextStarCraft II中使用不同数据集微调的模型的性能，显示胜率。数据集根据是否包含所有游戏或仅胜利进行区分，对于胜利的子集，根据APU性能百分位数进行区分。

5.2 评估LLMs对《星际争霸II》概念的掌握

我们评估了像GPT3.5和GPT-4这样的LLMs对《星际争霸II》的理解，重点关注它们对建筑顺序和游戏机制的知识，这些知识来源于著名的《星际争霸II》论坛。尽管这些模型对基本游戏动态有合理的掌握，但它们在更复杂的元素，如科技树和供应限制方面面临挑战。

评估方法：为了衡量LLMs对《星际争霸II》知识的深度，我们测试了包括ChatGPT（GPT3.5）、GPT-4、Claude2和Bard在内的模型，涵盖五个领域：基础知识、种族机制、典型策略、标准建筑顺序以及经典策略和反击（详见附录G）。我们使用了双盲评估，既有大师级人类专家也有GPT-4评估响应，以确保无偏见的评分。

评估结果：人类专家和GPT-4对LLMs的评估，如图2和表6所示，得出以下见解：在对一组复杂问题的评估中，GPT-4和ChatGPT表现最佳，GPT-4在自我评估和人类专家评估中都获得了高分。Claude2的结果参差不齐，GPT-4对其的评价高于人类专家。Bard在复杂问题上挣扎，尤其是在问题3、4和5上得分最低。总体而言，LLMs的排名如下：GPT-4、ChatGPT、Claude2和Bard。值得注意的是，GPT-4的自我评估与人类专家提供的更平衡的评估相比，显示出更多的变异性。

表3：比赛结果：微调的Qwen1.8B与人类的比赛。人类玩家排名 MMR 结果玩家A 职业玩家 5918 0/10 玩家B 宗师 5001 0/10 玩家C 黄金 2556 5/10 玩家D 新手 / 10/10

5.3 人机交互

根据5.1节的见解，我们评估了微调的Qwen1.8B模型与不同技能水平的人类玩家在家用PC上的实时交互，仅需要4GB的GPU内存。这个模型面对来自亚洲服务器的人类玩家，包括宗师、黄金级玩家和新手，都以Zerg对抗Protoss配置的LLM代理。结果如表3所示，LLM代理展现出与黄金级玩家相当的竞技表现。这突出了LLM在战略游戏的适应性，并标志着将AI集成到可访问的家庭计算设置中的竞技游戏环境中迈出了重要一步。

6.分析

6.1不同提示的影响

在评估TextStarCraft II中使用GPT3.5-turbo-16k模型的链式总结（CoS）方法时，我们分析了两种不同类型的提示对LLM代理作为Protoss对抗Zerg时的表现的影响。结果如表4所示，使用更复杂的提示时性能有显著提升。

表4：LLM代理在不同难度级别下与TextStarCraft II AI对战的胜率（%）。

简单思维链：

简单思维链：使用基本提示（见提示1），LLM代理能够执行基本操作，如工人生产、基地建立和基础战斗单位生产。然而，这种方法在发展高级策略，如研究升级或全面游戏分析方面有限，表明使用更简单提示时战略深度较窄。

复杂思维链：

复杂思维链：更复杂的提示（见提示2）引导LLM代理经历一系列关键阶段，包括情况概述、分析、战略规划和决策制定。这种全面的方法使代理能够参与高级策略，如研究升级、科技树探索和复杂的军事行动。它在对抗更高难度级别（例如“更难”LV5）时特别有效，展示了增强的战略能力。

我们的分析强调了复制经验丰富的《星际争霸II》玩家思维过程的复杂提示的重要性。这些高级提示对于LLMs充分理解和战略性地参与游戏的复杂方面至关重要。

6.2 策略可解释性

我们的分析揭示了AlphaStar和我们的LLM代理在决策制定之间的鲜明对比。虽然AlphaStar展示了卓越的微观管理技能，但它偶尔在战略选择上缺乏合理性。相反，LLM代理始终展现出逻辑决策，这一点从其主动预测威胁和战略规划中可以看出，详见附录E和附录F。

预测威胁：

图3展示了AlphaStar和LLM代理在预测和应对潜在威胁能力上的鲜明对比。在图3.a中，AlphaStar忽视了敌方Oracles构成的迫在眉睫的危险，未能认识到需要足够的防御结构来防止Oracle的侵扰，这使得AlphaStar的基地容易受到毁灭性攻击，凸显了它在主动评估和减轻潜在风险方面的无能。相反，在图3.b中，LLM代理展示了显著的远见，通过分析敌人的策略并推荐适当的防御措施。代理在游戏时间05:00的日志数据显示，它能够根据关键结构（如roach Warren和Spawning Pool）的存在推断出敌人以Roach为中心的策略。凭借这些洞察，LLM代理提供了一个结构化的决策框架来解决识别出的威胁：

敌人策略：敌人已经建立了Hatchery、Roach Warren、Extractor和Spawning Pool。这表明一个以Roach生产和早期侵略为中心的潜在策略。
鉴于敌人可能以Roach为中心进行早期侵略，我们应该优先考虑防御结构，如Photon Cannons和Shield Batteries。此外，考虑侦查敌人基地以获取更多关于他们策略的信息。
决策：0：<BUILD PHOTONCANNON> 1：<BUILD SHIELDBATTERY>

灵活的单位组合：

AlphaStar经常坚持固定的单位组合，导致在动态场景中策略无效（见图13.a-d）。相反，LLM代理在单位选择上表现出适应性，有效地应对了各种敌人战术（见图13.e-h）。例如，在图13.f中，Zerg（内置AI）采用了Hydra-Roach组合。作为Protoss的LLM代理在09:00时，认识到需要根据敌人的地面军队调整策略。代理的日志显示了其分析情况并做出明智决策的能力：

敌人策略：敌人似乎专注于地面军队组合，包括Roaches、Swarm hosts和Hydralisks。
关键信息：目前最重要的方面是我们需要扩展我们的单位组合和技术树，以有效对抗敌人的策略。我们应该优先解锁高级单位和升级，以获得优势。考虑在Templar Archives研究psionic storm技术，以有效应对敌人的地面单位。
决策：4：<RESEARCH PSISTORMTECH>

LLM代理在威胁预测和单位组合适应性方面的卓越表现源于其结构化、透明的决策过程。通过分析情况、识别关键信息，并根据不断演变的游戏状态做出明智的决策，LLM代理展示了人类知识和逻辑推理的结合。这种方法增强了代理的游戏玩法的可解释性，促进了在复杂场景中更好的合作和战略适应，最终与AlphaStar的不透明策略相比，取得了更成功的结果。

7.讨论

TextStarCraft II增强了LLMs在《星际争霸II》中进行战略决策的能力，展现了它们在适应性策略和危机管理方面的能力。然而，框架依赖于基于规则的脚本来处理微观策略，限制了非视觉数据的使用，并且只涵盖了游戏中的一部分种族，这可能限制了AI策略的多样性和适用性。此外，资源限制也限制了我们系统的性能能力。尽管存在这些挑战，TextStarCraft II在实时战略（RTS）游戏中建立了一个新的基准，推动了更深入的AI与人类协作的研究。未来的改进将集中在集成视觉输入、扩展种族支持和优化资源使用上，以增强战略复杂性和对抗现有AI模型的性能。

附录

A.Introduction to StarCraft II

A.1 游戏玩法概览

玩家从三个不同的种族中选择：人类（Terrans）、科技先进的外星人（Protoss）和快速进化的生命体（Zerg）。每个种族提供独特的单位和策略，要求玩家在资源管理、基地建设和战术战斗方面采取多样化的方法。关键游戏元素：

资源管理：玩家收集两种主要资源，矿物和瓦斯气体，用于建造结构和单位。
基地建设：高效地建造和扩展基地对成功至关重要。这包括创建资源收集结构、单位生产设施和防御工事。
军队组成和控制：玩家必须构建平衡的单位组合，并在小规模冲突和战斗中战略性地控制它们以击败对手。
战略规划：游戏需要有远见和适应对手行动的能力。

A.2 电子竞技和竞技游戏

自2010年推出以来，《星际争霸II》一直是电子竞技社区的基石。游戏以其要求高的操作机制和深层战略复杂性而闻名，这使得它成为竞技玩家和观众的最爱。像《星际争霸II》世界锦标赛系列（WCS）和英特尔极限大师赛（IEM）等重大赛事都设有这个游戏，吸引了来自全球的竞争对手和观众。职业场景：职业《星际争霸II》场景以其高水平的游戏和国际参与而闻名。来自韩国的玩家，被广泛认为是《星际争霸》竞技游戏的中心，传统上在国际比赛中占据主导地位，尽管来自欧洲、北美和亚洲其他地区的强有力竞争者也产生了重大影响。社区和遗产：《星际争霸II》的遗产得到了一个充满活力的玩家、粉丝和内容创作者社区的支持。游戏的战略深度也激发了无数的讨论、教程和战略指南，使其不仅仅是一个游戏，而是一个持续的研究和分析的主题。

B 实验设置和指标解释

B.1 实验设置

代理和对手选择：

为确保一致和受控的实验环境，LLM代理被配置为Protoss对抗Zerg AI对手。这种设置允许系统评估战略能力在一系列难度级别上的表现。难度级别定义如下，以涵盖全面的挑战范围：

地图选择：在我们的实验中，我们选择了2023年《星际争霸II》电子竞技1v1梯子的Altitude LE和Ancient Cistern LE地图。这些地图提供了各种战略挑战，代表了当前竞技游戏的特点。关于这些地图的更多细节可以在它们的Liquipedia页面上找到：https://liquipedia.net/starcraft2/Altitude_LE 和 https://liquipedia.net/starcraft2/Ancient_Cistern_LE。

参数设置：将温度参数固定在0.1，以专注于策略驱动的行动而非随机性。游戏版本：我们的实验在三个不同的游戏版本上进行，以确保结果的稳健性和适用性。测试的版本包括Patch 5.0.11、Patch 5.0.12和Patch 5.0.13。

B.2 评估指标：

基于《星际争霸II》已建立的玩家绩效分析，我们的TextStarCraft II评估框架将这些见解与自定义适应相结合，全面评估LLM代理的游戏策略。

胜率：最关键的指标，直接反映了代理在环境中的能力和表现。它被计算为代理赢得的总游戏百分比。

人口封锁比率（PBR）：PBR是衡量代理宏观管理有效性的指标，特别是在资源分配和人口增长方面。它被定义为： [ PBR = \frac{\text{达到人口上限的时间} }{\text{游戏持续时间} } ] 在这里，该指标计算了代理首次达到最大供应（200/200）之前，花费在人口上限的时间与总游戏时间的比率。较高的PBR表示宏观战略决策和规划效果较差。

资源利用比率（RUR）：RUR评估代理在整个游戏中资源管理的效率。它被计算为： [ RUR = \frac{\text{总矿物 + 总气体使用量} }{\text{游戏持续时间} } ] 该指标评估了代理首次达到最大供应之前，总资源使用量与游戏持续时间的对比。较高的RUR表示资源利用不足，反映了较弱的宏观战略能力。

平均人口利用率（APU）：APU衡量代理利用可用人口容量的效率。它被计算为： [ APU = \frac{1}{N} \sum_{i=1}^{N} \frac{\text{第i步使用的人口} }{\text{第i步的人口上限} } ] 该指标平均了代理首次达到最大供应之前，已使用人口与人口上限的比率。较高的APU表明更好的人口利用和管理。

技术率（TR）：TR评估代理探索和利用技术树的程度。它被定义为： [ TR = \frac{\text{完成的技术数量} }{\text{可用总技术数量} } ] 该指标从游戏开始到结束计算完成的技术和建筑与总可用数量的比例。TR表明了代理对技术进步的倾向，并不一定表示更好或更差的表现。

数据收集和分析：由于sc2reader库在AI生成的回放中的技术限制，我们使用了游戏日志数据进行了深入分析。这种方法确保了基于我们定制的指标进行全面和精确的评估。

B.3 计算资源

训练阶段：为了微调开源的大型语言模型，我们使用了两个NVIDIA A100 40GB GPU，提供了广泛的模型训练所需的计算能力。整个实验大约需要70小时。

测试阶段：这些微调模型的开发和测试是使用两个NVIDIA A100 40GB GPU进行的。对于运行《星际争霸II》环境，我们使用了配备NVIDIA GeForce RTX 3060 GPU和2.50 GHz的13代Intel(R) Core(TM) i5-13400F处理器，确保游戏模拟的顺利执行。

B.4 人类专家

在我们的研究过程中，我们邀请了30名《星际争霸II》的大师和宗师级玩家，包括职业和半职业玩家，参与我们的实验。为了保护他们的隐私，我们选择不在本文中披露他们的个人信息。每位参与的玩家都获得了15美元的参与研究补偿。

D 提示和数据示例

D.1 提示和数据示例

图8、9、10、11和12展示了链式总结方法与TextStarCraft II环境之间交互过程的样本数据。

原始文本观察

游戏时间 game_time: 15:27
资源信息 worker_supply: 47 mineral: 3005 gas: 4872 supply_left: 29 supply_cap: 131 supply_used: 102 base_count: 6 planning_base_count: 1
军事信息 army_supply: 45 enemy_units_count: 33 enemy_UnitTypeId.INFESTOR: 2 enemy_UnitTypeId.ROACH: 16 enemy_UnitTypeId.HYDRALISK: 5 dark_shrine_count: 0 robotics_bay_count: 0 fleet_beacon_count: 0 planning_pylon_count: 0 planning_gas_buildings_count: 0 planning_gateway_count: 0 planning_forge_count: 0 planning_photon_cannon_count: 0 planning_shield_battery_count: 0 planning_warp_gate_count: 0 planning_cybernetics_core_count: 0 planning_twilight_council_count: 0 planning_robotics_facility_count: 0 planning_statgate_count: 1 planning_templar_archives_count: 0 planning_dark_shrine_count: 0 planning_robotics_bay_count: 0 planning_fleet_beacon_count: 0 enemy_UnitTypeId.OVERSEER: 2 enemy_UnitTypeId.OVERLORDTRANSPORT: 3 enemy_UnitTypeId.ZERGLING: 3 enemy_UnitTypeId.QUEEN: 1 enemy_UnitTypeId.HYDRALISKBURROWED: 1
建筑信息 pylon_count: 7 gas_buildings_count: 10 gateway_count: 0 forge_count: 0 photon_cannon_count: 0 shield_battery_count: 4 warp_gate_count: 5 cybernetics_core_count: 1 twilight_council_count: 1 robotics_facility_count: 1 statgate_count: 4 templar_archives_count: 0
单位信息 Zealot_count: 0 stalker_count: 0 sentry_count: 0 adept_count: 0 high_templar_count: 0 dark_templar_count: 0 immortal_count: 0 colossus_count: 0 disruptor_count: 0 archon_count: 0 observer_count: 1 warp_prism_count: 0 phoenix_count: 0 voidray_count: 8 Oracle_count: 0 Carrier_count: 0 tempest_count: 0 mothership_count: 0
研究信息 warpgate_research_status: 1 protoss_air_armor_level_1_research_status: 1 protoss_air_armor_level_2_research_status: 0 protoss_air_armor_level_3_research_status: 0 protoss_ground_armor_level_1_research_status: 0 protoss_ground_armor_level_2_research_status: 0 protoss_ground_armor_level_3_research_status: 0 protoss_ground_weapon_level_1_research_status: 0 protoss_ground_weapon_level_2_research_status: 0 protoss_ground_weapon_level_3_research_status: 0 protoss_shield_level_1_research_status: 0 protoss_shield_level_2_research_status: 0 protoss_shield_level_3_research_status: 0
敌人建筑信息 enemy_UnitTypeId.HATCHERY: 2 enemy_UnitTypeId.EXTRACTOR: 1 enemy_UnitTypeId.SPAWNINGPOOL: 1 planning_worker_count: 0 planning_Zealot_count: 0 planning_stalker_count: 0 planning_sentry_count: 0 planning_adept_count: 0 planning_high_templar_count: 0 planning_dark_templar_count: 0 planning_immortal_count: 0 planning_colossus_count: 0 planning_disruptor_count: 0 planning_archon_count: 0 planning_observer_count: 0 planning_warp_prism_count: 0 planning_phoenix_count: 0 planning_voidray_count: 3 planning_Oracle_count: 0 planning_Carrier_count: 0 planning_tempest_count: 0 planning_mothership_count: 0
敌人单位信息 enemy_UnitTypeId.INFESTOR: 2 enemy_UnitTypeId.ROACH: 16 enemy_UnitTypeId.HYDRALISK: 5 enemy_UnitTypeId.OVERSEER: 2 enemy_UnitTypeId.OVERLORDTRANSPORT: 3 enemy_UnitTypeId.ZERGLING: 3 enemy_UnitTypeId.QUEEN: 1 enemy_UnitTypeId.HYDRALISKBURROWED: 1

图8：TextStarCraft II的原始文本观察示例。

6.1节中有两种类型的系统提示。

提示1：你是经过训练，能够分析和总结《星际争霸II》游戏的AI。你理解种族的细微差别和策略。基于多轮游戏的总结，我们希望你以结构化的方式分析游戏进程。你的分析应包括以下方面：
- (a) 信息概览：根据所有轮次提供当前情况的简要概述。
- (b) 当前游戏阶段：根据所有轮次的信息确定游戏的阶段。它是早期游戏、中期游戏还是后期游戏？
- (c) 我们当前的策略：从所有轮次的信息中推断我们可能的策略。
提示2：你是经过训练，能够分析和总结《星际争霸II》游戏的AI。你理解protoss（或zerg）种族的细微差别和策略。基于多轮游戏的总结，我们希望你以结构化的方式分析游戏进程。你的分析应包括以下方面：
- (a) 游戏概览：根据所有轮次提供当前情况的简要概述。
- (b) 当前游戏：根据所有轮次的信息确定游戏的阶段。它是早期游戏、中期游戏还是后期游戏？
- (c) 我们的情况：用以下方面描述我们当前的状态：
  - (i) 单位和建筑：分析我们的单位和建筑的状态。
  - (ii) 经济：评估我们的经济状况，包括资源收集和使用。
  - (iii) 技术：描述我们技术研究的状态，以及我们迄今为止解锁的技术。分析我们的技术树，指出可用和潜在的升级或单位。
- (d) 我们当前的策略：从所有轮次的信息中推断我们可能的策略。
- (e) 敌人的策略：根据可用信息推断敌人可能的策略。
- (f) 关键信息：突出所有轮次中显著影响游戏的最重要方面。
- 种族特定提示
  - i. 虫族（Zerg）：对于虫族来说，要注意是否有足够的幼虫。如果没有，我们应该考虑将注入幼虫（INJECTLARVA）命令添加到队列中。
  - ii. 星灵（Protoss）：对于星灵来说，要关注Nexus的能量，以便对重要建筑使用时间加速（Chrono Boost）
- 根据双方使用的游戏情况和策略，为以下领域提供具体建议：
  - i. 我们的战略：对我们当前的战略提出调整，以反击敌人的行动并利用我们的优势。
  - ii. 单位和建筑：提供增强我们的单位组成和改善我们的建筑布局的方法，适合当前游戏阶段。
  - iii. 经济：推荐更好的资源收集和使用实践，与我们的战略需求一致。
  - iv. 技术：建议专注的研究路径以获得技术优势，考虑我们当前的研究状态和技术树。
- 最后，考虑当前情况和提供的建议，从行动字典中做出K个可操作和具体的决策。这个字典包括四个类别的行动：单位生产、建筑建设、技术研究和其他行动。记住要将这些决策与当前游戏阶段对齐，并避免提出当前不可行的行动。

F 策略可解释性示例

在第6.3节中，我们介绍了LLM代理中的策略可解释性概念。现在我们提供四个示例来演示LLM代理如何在TextStarCraft II中生成合理的策略和决策。每个示例包括三个部分：

• L1结果图：显示多帧总结方法的输入。

• LLM输出：多帧总结方法的输出，包括LLM的分析、建议和决策。

• 决策图：在《星际争霸II》游戏引擎中的实际实施。

实例1

LLM输出：

游戏概览：在00:46游戏时间，我们目前的情况如下。我们有15个工人和105矿物。我们的供应上限是23，剩余供应7，军队供应16。我们有一个基地，一个能量塔和两个气体建筑。没有已知的敌人单位。
当前游戏阶段：根据有限的资源和小军队规模，我们仍然处于游戏的早期阶段。
我们的情况：
3.1 单位和建筑：我们有少量的工人力量和有限的基础设施。我们有一个基地，一个能量塔和两个气体建筑。除了工人外，没有单位存在。
3.2 经济：我们的经济刚开始，工人数量少，资源有限。
3.3 技术：没有证据表明任何技术发展或研究在这个阶段。 • 4. 我们的策略：在这个阶段，我们的策略应该集中在扩大经济，建立更多的基地，增加工人数量。我们还应该考虑侦察以收集关于敌人策略的信息。 • 5. 敌人的策略：由于没有关于敌人单位的信息，很难确定他们的策略。然而，保持警惕并准备任何潜在的攻击是很重要的。 • 6. 关键信息：目前最重要的方面是迅速扩大我们的经济并增加我们的工人数量。这将为我们提供更强的经济基础，并允许我们生产更多的单位和建筑。

建议：

我们的策略：优先扩大我们的经济，通过建立额外的基地和增加工人数量。考虑侦察以收集关于敌人策略的信息。
单位和建筑：专注于建立额外的能量塔以增加我们的供应上限，并支持未来的单位生产。考虑建造额外的结构，如门户或机器人设施，开始生产单位。
经济：分配工人高效地收集矿物和气体。目标是饱和我们当前的基地，并尽快扩展到新的资源位置。
技术：在这个阶段，没有必要专注于技术研究。然而，考虑建造一个赛博核心以解锁更多高级单位和升级在未来。

决策：

0: <建造Nexus>
1: <建造Pylon>
2: <建造Gateway>
3: <训练Probe>
4: <侦察Probe>

实例2

LLM输出：

游戏概览：在03:44游戏时间，我们的情况相对早期。我们有24个工人，305矿物和310气体。我们的供应上限是54，剩余供应23，军队供应6。我们目前有两个基地。
当前游戏阶段：根据资源水平和军队规模，我们仍然处于早期游戏阶段。
我们的情况：
- 3.1 单位和建筑：我们单位数量有限，只有1个狂热者在我们的军队中。我们的建筑数量包括3个能量塔，4个气体建筑，2个传送门和1个赛博核心。此外，我们计划建造1个传送门和2个狂热者。
- 3.2 经济：我们的经济适中，工人供应和资源池较小。迫切需要增加工人数量和资源收集率。
- 3.3 技术：我们已经开始了传送门技术的研究，这是一个积极的步骤。然而，我们缺乏高级单位表明我们的技术树并没有取得显著进展。
我们的策略：我们目前的策略似乎是通过传送门研究来关注技术发展。
敌人的策略：敌人似乎正在扩展他们的虫族基础设施，建立了一个孵化场、一个萃取器和一个产卵池。他们可能正在准备生产虫族单位。
关键信息：早期游戏是一个关键阶段，我们有限的单位数量和资源表明我们应该优先发展经济和军队。正在进行的传送门研究表明将转向更高级的单位生产。

建议：

我们的策略：继续传送门研究，这将显著提高我们的单位生产能力。考虑使用赛博核心的时空加速来加快这项研究。
单位和建筑：优先建造更多的狂热者以增强你的军队。此外，扩大你的能量塔网络以增加你的供应上限，并确保你不会供应受阻。
经济：专注于工人生产。考虑建造更多的探矿者以饱和你的矿物和气体收集，这将支
持军队和技术发展。
技术：完成传送门研究后，根据敌人的策略评估你的单位组成，并决定追求哪种技术路径。考虑建造额外的技术建筑，如暮光议会或机器人设施。

决策：

0: <研究WARPGATERESEARCH>
1: <建造狂热者>
2: <建造探矿者>
3: <建造能量塔>
4: <时空加速赛博核心>

Protoss的赛博核心目前正在进行时空加速。

LLM Playing StarCraft II ​

摘要 ​

1.引言 ​

2.相关工作 ​

3.TextStarCraft II ​

观察空间 ​

行动 ​

奖励 ​

游戏模式 ​

4.链式总结（Chain of Summarization, CoS） ​

Single-Frame Summarization ​

Multi-Frame Summarization ​

5.实验 ​

5.1 各种LLM的性能评估 ​

5.2 评估LLMs对《星际争霸II》概念的掌握 ​

5.3 人机交互 ​

6.分析 ​

6.1不同提示的影响 ​

简单思维链： ​

复杂思维链： ​

6.2 策略可解释性 ​

预测威胁： ​

灵活的单位组合： ​

7.讨论 ​

附录 ​

A.Introduction to StarCraft II ​

A.1 游戏玩法概览 ​

A.2 电子竞技和竞技游戏 ​

B 实验设置和指标解释 ​

B.1 实验设置 ​

B.2 评估指标： ​

B.3 计算资源 ​

B.4 人类专家 ​

D 提示和数据示例 ​

D.1 提示和数据示例 ​

F 策略可解释性示例 ​

实例1 ​

实例2 ​