Google DeepMind の最新バージョン Gemini Exp 1114 は、Chatbot Arena で重要な成果を上げ、6000 以上のコミュニティ投票を得て総合ランキング 1 位に躍り出ました。また、複数の分野で優れたパフォーマンスを示しています:
まず、LLM Arena とは何かを理解する必要があります。LLM Arena(またはチャットボットアリーナ)は、LLM を評価するためのプラットフォームで、主な目的はコミュニティ主導の LLM 性能評価を促進することです。これは最も権威ある評価プラットフォームの一つです。
総合ランキングを見ると、Google の新しいモデル Gemini(Exp 1114)はスコアが 40 以上上昇し、得点は 1344 で、ChatGPT 4.0 の最新バージョンの得点は 1340 です。Google のモデルがこのような成果を上げるのは初めてのようです。
Gemini-Exp-1114 は数学アリーナで並んで 1 位となり、o1 と同等の性能を示しています:
現在、Gemini-Exp-1114 は Google AI Studio で対話体験が可能です。
ターミネーターがやってくる