Real-Time Commander Demo

把传统自动战斗推进到「可被玩家一句话接管」的代理指挥原型。

一个针对「自然语言指挥是否能成为战斗系统交互层」的最小可证原型。

Quick links

问题

少前2的战斗有一个病：它看起来想做出 XCOM 式的战术决策层，但手操成本太高，玩家很容易退回自动战斗。决策层存在，但没有真正进入玩家体验。

《圣兽之王》有一个对称的病：编队、预设和策略系统很深，但难度压力不够，照推荐方案也能过。深度存在，但没有被充分需要。

两个病，殊途同归：战斗系统里明明存在决策，但玩家没有以低成本、高反馈的方式真正参与进去。

三种模式

一、纯规则自动战斗

碾压局、日常本、低压副本，不需要任何 LLM。直接状态机跑即可。

二、玩家自然语言指挥

玩家可以直接下一句话：

集火残血，前排顶住。

系统映射成角色状态机指令：

玩家命令 → 命令编译器 → 状态机

玩家本人就是指挥官，不再经过一层战术 AI。

三、战术 AI 代理指挥

玩家不想操作时，战术 AI 替代传统自动战斗，读取战场状态，像代理指挥官一样下命令：

战场状态 → 战术 LLM → 战术命令 → 命令编译器 → 状态机

传统自动战斗是"角色自己按规则打"。代理指挥是"系统先判断战局，再给角色下命令"。

证据

在 3v3 镜像小地图上做自然语言指挥评估；下表为每类输入 1000 局模拟结果，对手为默认自动战斗：

输入	胜率
好指挥：集火残血	96.3%
不指挥	32.6%
莽夫冲锋	0.3%
无关闲聊	31.1%

无关闲聊不会被洗成好策略。错误指挥带来坏结果。正确指挥带来高胜率。

指挥质量本身会显著改变战局——这不是"随便输入一句话就赢"。

对手换成会打的策略后，10,000 局稳健性复测里差距仍然成立：不指挥会被压制到 0.0%，有效指挥可与对手打成接近五五。

完整证据与稳健性复测见 docs/1.0_EVIDENCE.md 和 docs/1.0_EVIDENCE_ROBUSTNESS.md。

1.0 证明边界

当前 1.0 证明的是：玩家自然语言指挥能够稳定映射到有限战术 policy，并显著改变模拟结果。

README 提到的「战术 AI 代理指挥」是下一阶段目标——要求 LLM 读取战场状态并动态连续下令，而不仅是把玩家一句话分类成一个固定 policy。当前代码已验证「命令解释器 + 状态机」这半条链路成立。

archive/ 下保留的是早期四单位文本 encounter 原型和 baseline 脚本，只作为历史参考；当前 1.0 主线以 game/mirror_map_sim.py、scripts/、web/ 和 docs/1.0_EVIDENCE*.md 为准。

Visual Proof

网页 demo 用左右对照展示自然语言指挥和 baseline 的行为差异（网页动画用于 visual proof，权威统计以 Python 模拟器输出为准）：

# 静态模式（无需 LLM，内置 6 个场景；页面提供 5 个快捷指挥按钮，另含 zero_input baseline 对照）
python3 -m http.server 8000
# 打开 http://localhost:8000/web/

# 实时 LLM 模式（需要 API key）
python3 scripts/web_server.py --port 8001
# 打开 http://localhost:8001/web/

复现

pip install -r requirements.txt
cp .env.example .env   # 填入 DEEPSEEK_API_KEY（LLM 部分才需要）

零 LLM 自检（3 秒出结果）：

python3 scripts/self_check.py --runs 500

纯规则模拟（无需 LLM）：

python3 scripts/mirror_map_sim.py --runs 10000 --jitter 1 --red-policy good_focus --blue-policy dumb

自然语言 → 胜率评估（需要 LLM）：

python3 scripts/nl_command_eval.py --runs 1000
python3 scripts/nl_command_eval.py --command "集火残血，前排顶住。"

交接/发布检查见 docs/code_complete_checklist.md。该 checklist 是工程验收清单；当前仓库按公开单仓处理：可以 commit/push，但每次提交都应按公开叙事审查，push 前确认 git status、staged diff 和最近提交，避免带入 secrets、本地产物、scratch 或未验收改动。

成本

按 deepseek-v4-flash 输出价 2 元 / 百万 tokens 粗估：

6,300 tokens / 小时 ≈ 0.0126 元 / 小时
20,000 tokens / 小时 ≈ 0.04 元 / 小时

主要问题不是 token 成本，而是代理指挥质量、状态机执行稳定性和战术反馈体验。

验什么

代理指挥是否比传统自动战斗更强
玩家一句话指挥是否真的有战术反馈
角色状态机能否稳定执行命令
战术 AI 的判断是否足够像指挥官
这套东西能否嵌进少前式战斗系统

版权边界

本项目是原创玩法机制原型，不使用任何现有 IP 的角色、名称、Logo、美术、音乐、剧情设定、世界观术语或商标。

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
.github/workflows		.github/workflows
agents		agents
archive		archive
docs		docs
game		game
scripts		scripts
web		web
.env.example		.env.example
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
index.html		index.html
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Real-Time Commander Demo

Quick links

问题

三种模式

一、纯规则自动战斗

二、玩家自然语言指挥

三、战术 AI 代理指挥

证据

1.0 证明边界

Visual Proof

复现

成本

验什么

版权边界

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Real-Time Commander Demo

Quick links

问题

三种模式

一、纯规则自动战斗

二、玩家自然语言指挥

三、战术 AI 代理指挥

证据

1.0 证明边界

Visual Proof

复现

成本

验什么

版权边界

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages