banner
andrewji8

Being towards death

Heed not to the tree-rustling and leaf-lashing rain, Why not stroll along, whistle and sing under its rein. Lighter and better suited than horses are straw sandals and a bamboo staff, Who's afraid? A palm-leaf plaited cape provides enough to misty weather in life sustain. A thorny spring breeze sobers up the spirit, I feel a slight chill, The setting sun over the mountain offers greetings still. Looking back over the bleak passage survived, The return in time Shall not be affected by windswept rain or shine.
telegram
twitter
github

DeepSeek Prover-V2:数学オリンピックを簡単にする秘密の武器!

数日前、DeepSeek-R2 のリリースに関する噂が広まっていましたが、DeepSeek には新しい動きがありました。しかし、皆が待っていた R2 ではなく、DeepSeek-Prover-V2 が登場しました。もちろん、こちらもオープンソースです。

Prover-V2 は定理証明の分野で業界最高のパフォーマンスを実現し、MiniF2F テストでは 88.9% の合格率を達成し、AIME 24、25 でも良いスコアを記録しました。4 月 30 日の夜、機械学習協力プラットフォーム HuggingFace では、DeepSeek-Prover-V2 のいくつかの技術的詳細が更新されました。

今回、DeepSeek チームは DeepSeek-Prover-V2 モデルの 2 つのバージョンをリリースしました。パラメータの規模はそれぞれ 7B と 671B です。その中で、DeepSeek-Prover-V2-671B は DeepSeek-V3-Base を基にトレーニングされ、DeepSeek-Prover-V2-7B は DeepSeek-Prover-V1.5-Base を基に構築され、最大 32K トークンのコンテキスト長の拡張をサポートしています。

image

DeepSeek-Prover-V2 を一言でまとめると?それは「数学 AI プログラミング言語」Lean 4 のために特別に設計されたオープンソースの大規模言語モデルで、形式的な定理証明に特化しています。

その初期データは、DeepSeek-V3 によって駆動される再帰的な定理証明プロセスを通じて収集されました。コールドスタートのトレーニング段階では、まず DeepSeek-V3 が複雑な問題を一連の解決可能なサブゴールに分解します。各サブゴールを解決するたびに、これらの証明が「思考の連鎖」として統合されます。そして、DeepSeek-V3 の逐次的な推論の軌跡を融合させ、強化学習のための初期トレーニングデータを共同で構築します。

この戦略の巧妙さは、非形式的および形式的な数学的推論を統一されたモデルに融合できることです。これにより、モデルは人間のように柔軟に考え、機械のように厳密に証明することができ、数学的推論の統合的な融合を実現しました。

技術概要#

再帰的証明検索によるコールドスタート推論データの生成#

コールドスタートデータセットを構築するために、DeepSeek チームはシンプルで効率的な再帰的定理証明プロセスを設計し、DeepSeek-V3 を統一ツールとして使用し、サブゴールの分解と推論ステップの形式的表現の両方を担当します。具体的なプロセスは、DeepSeek-V3 が定理を高レベルの証明スケッチに分解するように促すことで進行し、その過程でこれらの推論ステップを Lean 4 言語で形式化し、最終的に構造が明確で論理的に厳密なサブゴールの一連を生成します。

DeepSeek-Prover-V2 はコールドスタートデータ収集プロセスの概要を使用します。計算コストを削減することは、DeepSeek チームの得意分野であり、今回も例外ではありません。彼らは、各サブゴールの証明検索を完了するために、より小さな 7B モデルを使用して計算負担を軽減します。複雑な問題が分解された各ステップが成功裏に解決されると、彼らは完全な形式的逐次証明を DeepSeek-V3 が生成した思考の連鎖に対応させ、コールドスタート推論データを組み合わせます。

image

合成コールドスタートデータに基づく強化学習#

DeepSeek チームは、挑戦的な定理問題の一部を選びました。7B 証明モデルはそれらをエンドツーエンドで解決することはできませんが、分解された一連のサブゴールを把握することができます。すべてのサブゴールの証明を統合することで、元の問題の完全な形式的証明を構築できます。その後、その正式な証明を DeepSeek-V3 が生成した思考の連鎖に追加し、この思考の連鎖は対応する補題の分解プロセスを示し、非形式的推論とその後の形式的プロセスを密接に融合させたトレーニングデータを形成します。

証明モデルに合成コールドスタートデータの微調整を行った後、研究チームはさらに強化学習段階を導入し、非形式的推論を形式的証明に変換するモデルの能力を向上させました。トレーニングプロセスでは、推論モデルの一般的な目標に従い、「正 / 誤」の二値フィードバックを主要な報酬信号として採用します。

最終的に得られたモデル DeepSeek-Prover-V2-671B は神経定理証明タスクで現在の最先端の性能を達成し、MiniF2F-test での合格率は 88.9% に達し、PutnamBench データセットの 658 問のうち 49 問を成功裏に解決しました。DeepSeek-Prover-V2 が miniF2F データセット上で生成したすべての証明は ZIP ファイルに整理されており、ダウンロード可能です。

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。