Gemini 2.5 Pro：深夜上线引爆榜单，究竟有何魔力？

今晚，AI 圈也地震了！谷歌深夜搞突袭，正式上线「最强推理大模型」Gemini 2.5 Pro！没错，就是我昨天发的文章谷歌大型推理模型曝光！击败 Claude-3.7-Thinking，泄漏的大模型，代号是「Nebula」，之前就被爆料这个新模型效果据说特别好，打败 o1、o3-mini、Claude 3.7 Thinking 等一众模型。没想到，新模型兑现的这么迅速，24 号才被爆料，25 号谷歌就官宣上线！

Gemini 2.5 Pro 在大模型榜单 LMSYS Arena 上排名第一，而且是断层第一！分数比 Grok-3、GPT-4.5 整整高出了 40 分！要知道此前 LMSYS 上的顶流模型们的分数咬的特别紧，只差几分。Grok 前脚宣布突破 1400 分数大关，这次 Gemini 2.5 Pro 直接干到了 1443 分，创下最大 jump up 记录。

首先 Gemini 2.5 Pro（模型版本是 gemini-2.5-pro-exp-03-25）是一个推理模型，谷歌称这是迄今为止最强大的模型。不止是全面领先，而且是无短板。在所有评测类别（综合能力、编码、数学、创意写作等）中均排名第 1，尤其在带风格控制的复杂提示（Hard Prompts w/ Style Control）和多轮对话（Multi-Turn）表现突出。

Gemini 2.5 Pro 不止是谷歌目前最大的推理模型，而且还具备多模态能力，在 Vision Arena 视觉排行榜上也是第一。在网页开发榜单 WebDev Arena 上排名第二，仅次于 Claude-3.7，Claude 的编程地位依旧难以撼动。

下面看下在各个 benchmark 上的具体得分 ——Gemini 2.5 Pro 综合表现拿下最佳。尤其在科学（Science）、代码生成、视觉推理（MMMU）和长文本理解（MRCR）上均领先。在号称最难的测试「人类最后一次考试」中，Gemini 2.5 Pro 遥遥领先 OpenAI o3-mini。在号称最难的 AI 测试 “人类最后一次考试” 中，Gemini 2.5 Pro 遥遥领先其他模型。