今夜、AI 界も地震が起きました!Google が深夜に突撃し、「最強推理大モデル」Gemini 2.5 Pro を正式に発表しました!そうです、昨日私が投稿した記事で Google の大型推理モデルが明らかになったのです!Claude-3.7-Thinking を打ち負かし、漏洩した大型モデルのコードネームは「Nebula」です。以前からこの新モデルの効果が特に良いと噂されており、o1、o3-mini、Claude 3.7 Thinking などの多くのモデルを打ち負かしました。まさか、新モデルがこんなに迅速に実現するとは、24 日に噂され、25 日に Google が公式発表を行ったのです!
Gemini 2.5 Pro は、大モデルランキング LMSYS Arena で 1 位にランクインし、圧倒的な 1 位です!スコアは Grok-3、GPT-4.5 よりも 40 点も高いのです!これまで LMSYS 上のトップモデルたちのスコアは非常に接近しており、数点の差でした。Grok が 1400 点の壁を突破したばかりなのに、Gemini 2.5 Pro は直接 1443 点に達し、最大のジャンプアップ記録を樹立しました。
まず、Gemini 2.5 Pro(モデルバージョンは gemini-2.5-pro-exp-03-25)は推理モデルで、Google はこれをこれまでで最も強力なモデルだと称しています。全面的にリードしているだけでなく、短所がありません。すべての評価カテゴリ(総合能力、コーディング、数学、創造的な執筆など)で 1 位にランクインしており、特にスタイル制御を伴う複雑なプロンプト(Hard Prompts w/ Style Control)や多段階対話(Multi-Turn)でのパフォーマンスが際立っています。
Gemini 2.5 Pro は、Google の現在最大の推理モデルであるだけでなく、マルチモーダル能力も備えており、Vision Arena 視覚ランキングでも 1 位です。ウェブ開発ランキング WebDev Arena では 2 位にランクインし、Claude-3.7 に次いでいます。Claude のプログラミング地位は依然として揺るぎません。
次に、各ベンチマークでの具体的なスコアを見てみましょう ——Gemini 2.5 Pro は総合的なパフォーマンスで最高の評価を得ました。特に科学(Science)、コード生成、視覚推理(MMMU)、長文理解(MRCR)でリードしています。「人類最後の試験」と呼ばれる最も難しいテストでは、Gemini 2.5 Pro は OpenAI の o3-mini を遥かにリードしています。最も難しい AI テスト「人類最後の試験」でも、Gemini 2.5 Pro は他のモデルを遥かにリードしています。
SWE-bench はコーディング能力を表し、Aider Polyglot はコード編集レベルを表しています。すべてのランキングを見終わった後、私は「恐ろしい」としか言えません!現在、Gemini 2.5 Pro は Google AI Studio と Gemini APP で使用可能です。リンク:Google AI Studio
次に、効果を見てみましょう ——
第 1:マンデルブロ集合のデモ効果#
マンデルブロ集合(Mandelbrot set)は、複素平面上に分形を構成する点の集合であり、人類がこれまでに作り出した最も奇妙で美しい幾何学的図形の一つとされています。「神の指紋」とも呼ばれています。Gemini 2.5 Pro が生成した効果を見てみましょう。
第 2:ウェブゲーム#
この非常に馴染みのある恐竜のランニングゲームを覚えていますか?記憶の中の白黒版がカラーバージョンになりました。生成されたものはとても魅力的です。
Gemini 2.5 Pro の最大の利点は、依然としてネイティブなマルチモーダル能力と超長いコンテキスト長を持っていることです。現在は 1M ウィンドウまでサポートされており、2M も準備中です。しかし、現在のところ API の価格は発表されていません。DeepSeek V3-0324 も最近発表され、最も緩やかな MIT ライセンスが適用されています。果たして、閉源の巨頭が高地を固めるのか、それともオープンソース陣営が技術平等を推進するのか?