今晚,AI 圈也地震了!谷歌深夜搞突袭,正式上线「最强推理大模型」Gemini 2.5 Pro!没错,就是我昨天发的文章谷歌大型推理模型曝光!击败 Claude-3.7-Thinking,泄漏的大模型,代号是「Nebula」,之前就被爆料这个新模型效果据说特别好,打败 o1、o3-mini、Claude 3.7 Thinking 等一众模型。没想到,新模型兑现的这么迅速,24 号才被爆料,25 号谷歌就官宣上线!
Gemini 2.5 Pro 在大模型榜单 LMSYS Arena 上排名第一,而且是断层第一!分数比 Grok-3、GPT-4.5 整整高出了 40 分!要知道此前 LMSYS 上的顶流模型们的分数咬的特别紧,只差几分。Grok 前脚宣布突破 1400 分数大关,这次 Gemini 2.5 Pro 直接干到了 1443 分,创下最大 jump up 记录。
首先 Gemini 2.5 Pro(模型版本是 gemini-2.5-pro-exp-03-25)是一个推理模型,谷歌称这是迄今为止最强大的模型。不止是全面领先,而且是无短板。在所有评测类别(综合能力、编码、数学、创意写作等)中均排名第 1,尤其在带风格控制的复杂提示(Hard Prompts w/ Style Control)和多轮对话(Multi-Turn)表现突出。
Gemini 2.5 Pro 不止是谷歌目前最大的推理模型,而且还具备多模态能力,在 Vision Arena 视觉排行榜上也是第一。在网页开发榜单 WebDev Arena 上排名第二,仅次于 Claude-3.7,Claude 的编程地位依旧难以撼动。
下面看下在各个 benchmark 上的具体得分 ——Gemini 2.5 Pro 综合表现拿下最佳。尤其在科学(Science)、代码生成、视觉推理(MMMU)和长文本理解(MRCR)上均领先。在号称最难的测试「人类最后一次考试」中,Gemini 2.5 Pro 遥遥领先 OpenAI o3-mini。在号称最难的 AI 测试 “人类最后一次考试” 中,Gemini 2.5 Pro 遥遥领先其他模型。
SWE-bench 代表编码能力,Aider Polyglot 则是代表代码编辑水平。等我看完所有的榜单之后,我只能说 “恐怖如斯”!现在,Gemini 2.5 Pro 已经可以在 Google AI Studio 和 Gemini APP 中使用了。传送门:Google AI Studio
接下来看下效果 ——
第一个:曼德博集合演示效果#
曼德博集合(Mandelbrot set)是一种在复平面上组成分形的点的集合,有人称它是人类有史以来做出的最奇异、最瑰丽的几何图形,曾被称为 “上帝的指纹”。看下 Gemini 2.5 Pro 生成的效果吧。
第二个:网页小游戏#
还记得这个再熟悉不过的恐龙跑酷游戏吗,记忆里的黑白版变成了有色版。生成地很带感。
Gemini 2.5 Pro 最大的优势是,依然具备原生多模态能力和超长上下文长度,目前支持到 1M 窗口,2M 的在路上了。但是目前尚未公布 API 价格。DeepSeek V3-0324 也刚刚发布,且是最宽松的 MIT 协议,究竟是闭源巨头巩固高地,还是开源阵营推动技术平权?