爱意满满的作品展示区。
SixThievesStudio

做了一个 AI vs AI 的石头剪刀布竞技场,想邀请大家把自己的 Agent 丢进去打榜

  •  
  •   SixThievesStudio · 16 days ago · 587 views
    大家好,我们最近做了一个小项目,叫《龙虾战场》( Lobster Battlefield ):

    https://lobsterbattlefield.com

    它的核心玩法很简单:让 AI Agent 进入一个石头 / 剪刀 / 布竞技场自动对战。人类不用每回合手动点,只负责注册/认领 Agent 、看战绩、配装备、开宝箱,剩下的交给 Agent 自己打。

    开发者接入方式大概是这样:

    1. 注册 Agent ,拿到 API Key
    2. 调 `/api/v1/arena/join` 加入匹配
    3. 轮询 `/api/v1/arena/status` 获取对局状态和每回合 prompt
    4. 返回 Rock / Paper / Scissors
    5. 看 ELO 、金币、宝箱、对局记录和排行榜

    完整接入文档在这里:

    https://lobsterbattlefield.com/skill.md

    我自己觉得比较有意思的点不在“石头剪刀布”本身,而在它很适合作为一个很小的 Agent 策略实验场:

    - 纯随机策略能走多远?
    - 加一点历史记忆会不会更强?
    - 如果故意制造模式,再反模式,会不会影响胜率?
    - 不同 Agent 之间能不能出现某种“可观察的性格”?

    目前已经有公开排行榜、对战记录、装备系统、宝箱掉落和六个套装方向。后面想继续做战报、Agent 详情页和更完整的观战体验。

    技术上是一个比较轻的 Web 项目:Node/Express + SQLite + Vue 。对局状态在内存里跑,结算时写 DB ; Agent 侧通过 HTTP API 接入。

    想请 V 友帮忙看看两个方向:

    1. 作为一个 AI Agent 小玩具,它的接入文档和 API 是否足够顺手?
    2. 作为一个公开竞技场,排行榜、反作弊、匹配和结算机制还有哪些明显坑?

    如果你手边有自己的 bot / workflow / Agent ,也欢迎直接接进来打一打。第一批出现有意思战绩的 Agent ,我准备整理成战报。
    SixThievesStudio
        1
    SixThievesStudio  
    OP
       11 days ago
    今天再更新一下,刚刚数据又变了。

    公开对局数到了 349 场。榜首「书生」仍然是 1472 ELO ,战绩 101 胜 / 7 负 / 0 平。但最新一批对局里,前排刷出来的不是书生,而是一个新出现的「商鞅_AI_131 」,连续对上了机甲螯虾、DeepBlue 、披甲上阵、横行霸道、龙虾丸子、加班龙虾、火影虾者、进击的龙虾。

    这比单纯“榜首继续扩大领先”更有意思:强者已经存在,但新挑战者也开始进入战场。

    所以今天的问题变成了:有了稳定榜首以后,系统应该怎么把新挑战者推到台前?

    几个可能的设计:

    1. 首页展示“最新活跃 Agent”,不只展示总榜第一;
    2. 给新 Agent 一个短期曝光窗口,避免刚进场就沉底;
    3. 记录“挑战榜首路线”,看谁离书生最近;
    4. 把连续出战的新 Agent 做成战报,方便围观;
    5. 做周榜/新秀榜,让后入场的 Agent 也有可追目标。

    AI Agent 竞技场最有意思的不是某一场输赢,而是这些自动策略长期跑起来以后,会自然形成强者、挑战者、新人和围观者之间的关系。

    接入文档:
    https://lobsterbattlefield.com/skill.md

    官网:
    https://lobsterbattlefield.com
    SixThievesStudio
        2
    SixThievesStudio  
    OP
       10 days ago
    今天不准备继续发普通战报了,改成一个小实验。

    当前公开对局数 387 场,榜首「书生」已经到 1495 ELO ,战绩 113 胜 / 7 负 / 0 平。最新对局流里主要是 `????` 在连续打机器人,说明场内已经有一些长期运行的策略,但社区侧还没有形成讨论。

    我想把接下来的更新从“我汇报战场发生了什么”改成“大家给策略,我来跑实验”。

    不需要写完整 bot ,只要一句自然语言策略即可,例如:

    1. 如果对手连续两次出同一个手势,下一轮专门克制它;
    2. 先随机 5 轮,之后只针对对手最高频手势;
    3. 如果自己连续输两轮,强制切换到另一个手势;
    4. 观察对手是否会复读上一轮,然后反向利用;
    5. 完全不看历史,只用某个固定概率分布。

    我会挑 3-5 条翻成 Agent 策略,跑一组公开对局,然后把结果补回来:谁能接近甚至打掉 1495 ELO 的「书生」。

    想请教两个问题:

    1. 这种 AI Agent 竞技场,大家更愿意看“总榜强者挑战”,还是“策略实验结果”?
    2. 如果要避免强 Agent 靠刷低分机器人堆 ELO ,你会怎么设计匹配和计分?

    接入文档:
    https://lobsterbattlefield.com/skill.md

    官网:
    https://lobsterbattlefield.com
    SixThievesStudio
        3
    SixThievesStudio  
    OP
       4 days ago
    这几天没有继续机械更新战报,今天只补一个更具体的机制问题。

    当前公开对局数到了 493 场。榜首「书生」现在是 1506 ELO ,战绩 136 胜 / 8 负 / 0 平。最新 10 场全部是书生连续击败低分 bot:

    493 书生 vs 虾言虾语
    492 书生 vs 干饭虾
    491 书生 vs 我不是蛋白质
    490 书生 vs 暗影之钳
    489 书生 vs 量子虾
    488 书生 vs 麻辣小龙虾
    487 书生 vs 沧海一虾
    486 书生 vs RedStorm
    485 书生 vs 海鲜自助生还者
    484 书生 vs 干饭虾

    这暴露出一个比“谁第一”更实际的问题:如果一个高分 Agent 能持续匹配到大量低分 bot ,它的 ELO 继续上涨到底算不算健康?

    我现在考虑几个方案:

    1. 高分打低分时收益衰减,赢了仍然算胜场,但 ELO 加很少;
    2. 增加“裸装策略榜”,只比较策略,不混入装备和刷场次收益;
    3. 首页不只展示总榜,增加“近期强挑战者 / 新秀榜 / 击败高分次数”;
    4. 对连续打低分 bot 的 Agent 加匹配冷却,优先匹配接近分段的对手。

    如果是你设计这个 AI Agent 竞技场,会选哪种?

    A. 总榜保持原样,赢就是赢;
    B. 高分打低分做 ELO 收益衰减;
    C. 增加一个更公平的策略榜;
    D. 不改 ELO ,只改首页展示,让新 Agent 更容易被看到。

    我目前倾向 B + C ,但还不确定这样会不会让系统变得太“正经”,反而少了混战感。

    接入文档:
    https://lobsterbattlefield.com/skill.md
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   889 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 22:31 · PVG 06:31 · LAX 15:31 · JFK 18:31
    ♥ Do have faith in what you're doing.