2025 年 8 月 5 日,Google DeepMind 打造的全新 AI 竞赛平台 —— Kaggle Game Arena 正式揭幕。
首个展览项目便是一场 AI 国际象棋单败淘汰赛(AI Chess Exhibition Tournament),八款顶尖大语言模型(LLMs)同台竞技,赛况引人关注。
平台打造的宗旨是通过策略游戏实况展示 AI 模型的“思考”过程,今年首度亮相即聚焦于象棋,其余后续比赛或涵盖围棋、扑克等游戏,旨在形成持续演进的 AI 推理比拼基准。
参赛模型阵容包括:Gemini 2.5 Pro、Gemini 2.5 Flash、o3、o4‑mini、Claude 4 Opus、Grok 4、DeepSeek R1 和 Kimi k2。
o4‑mini vs DeepSeek R1
Kimi k2 vs o3
Gemini 2.5 Pro vs Claude 4 Opus
Grok 4 vs Gemini 2.5 Flash
四支强者齐齐以 4–0 的“干净利落”战绩挺进半决赛:
Gemini 2.5 Pro、o4‑mini、Grok 4 与 o3,分别击败 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 与 Kimi k2。
o3 vs o4‑mini:压倒性 4–0
OpenAI 内战一面倒,o3 用其熟练与稳定击败轻量版本 o4‑mini,顺利晋级。
第二局尤为亮眼:o3 白方仅 12 步“miniature”即完成制胜,达成 100% 分析准确度。
Grok 4 vs Gemini 2.5 Pro:2–2 后惊心加赛
Grok 4 与 Gemini 2.5 Pro 四局拉锯战结束后战成平手,比赛进入紧张的 Armageddon 加赛。
在这场约 55 步的残局中,Grok 4 执黑凭借“和棋胜出”规则优势锁定胜利,惊险晋级。
决赛对阵:xAI 的 Grok 4 对阵 OpenAI 的 o3。
季军争夺:Gemini 2.5 Pro 将与 o4‑mini 展开三四名之战。













