banner
andrewji8

Being towards death

Heed not to the tree-rustling and leaf-lashing rain, Why not stroll along, whistle and sing under its rein. Lighter and better suited than horses are straw sandals and a bamboo staff, Who's afraid? A palm-leaf plaited cape provides enough to misty weather in life sustain. A thorny spring breeze sobers up the spirit, I feel a slight chill, The setting sun over the mountain offers greetings still. Looking back over the bleak passage survived, The return in time Shall not be affected by windswept rain or shine.
telegram
twitter
github

Gemini 2.5 Pro:深夜上線引爆榜單,究竟有何魔力?

今晚,AI 圈也地震了!谷歌深夜搞突袭,正式上线「最強推理大模型」Gemini 2.5 Pro!沒錯,就是我昨天發的文章谷歌大型推理模型曝光!擊敗 Claude-3.7-Thinking,泄漏的大模型,代號是「Nebula」,之前就被爆料這個新模型效果據說特別好,打敗 o1、o3-mini、Claude 3.7 Thinking 等一眾模型。沒想到,新模型兌現的這麼迅速,24 號才被爆料,25 號谷歌就官宣上線!

Gemini 2.5 Pro 在大模型榜單 LMSYS Arena 上排名第一,而且是斷層第一!分數比 Grok-3、GPT-4.5 整整高出了 40 分!要知道此前 LMSYS 上的頂流模型們的分數咬的特別緊,只差幾分。Grok 前腳宣布突破 1400 分數大關,這次 Gemini 2.5 Pro 直接幹到了 1443 分,創下最大 jump up 記錄。

首先 Gemini 2.5 Pro(模型版本是 gemini-2.5-pro-exp-03-25)是一個推理模型,谷歌稱這是迄今為止最強大的模型。不止是全面領先,而且是無短板。在所有評測類別(綜合能力、編碼、數學、創意寫作等)中均排名第 1,尤其在帶風格控制的複雜提示(Hard Prompts w/ Style Control)和多輪對話(Multi-Turn)表現突出。

Gemini 2.5 Pro 不止是谷歌目前最大的推理模型,而且還具備多模態能力,在 Vision Arena 視覺排行榜上也是第一。在網頁開發榜單 WebDev Arena 上排名第二,僅次於 Claude-3.7,Claude 的編程地位依舊難以撼動。

下面看下在各個 benchmark 上的具體得分 ——Gemini 2.5 Pro 綜合表現拿下最佳。尤其在科學(Science)、代碼生成、視覺推理(MMMU)和長文本理解(MRCR)上均領先。在號稱最難的測試「人類最後一次考試」中,Gemini 2.5 Pro 遙遙領先 OpenAI o3-mini。在號稱最難的 AI 測試 “人類最後一次考試” 中,Gemini 2.5 Pro 遙遙領先其他模型。

image

SWE-bench 代表編碼能力,Aider Polyglot 則是代表代碼編輯水平。等我看完所有的榜單之後,我只能說 “恐怖如斯”!現在,Gemini 2.5 Pro 已經可以在 Google AI Studio 和 Gemini APP 中使用了。傳送門:Google AI Studio

image

接下來看下效果 ——

第一个:曼德博集合演示效果#

曼德博集合(Mandelbrot set)是一種在複平面上組成分形的點的集合,有人稱它是人類有史以來做出的最奇異、最瑰麗的幾何圖形,曾被稱為 “上帝的指紋”。看下 Gemini 2.5 Pro 生成的效果吧。

image

image

第二个:網頁小遊戲#

還記得這個再熟悉不過的恐龍跑酷遊戲嗎,記憶裡的黑白版變成了有色版。生成地很帶感。

image

image

Gemini 2.5 Pro 最大的優勢是,依然具備原生多模態能力和超長上下文長度,目前支持到 1M 窗口,2M 的在路上了。但是目前尚未公布 API 價格。DeepSeek V3-0324 也剛剛發布,且是最寬鬆的 MIT 協議,究竟是閉源巨頭鞏固高地,還是開源陣營推動技術平權?

載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。