このテキストを音声に変換するモデルですが、より正確に言うと、主に風や雨の音、銀の針が地面に落ちる音、飛行機の離陸時の轟音などの擬音効果を生成するために使用されます。
技術的特徴#
-
高効率生成能力:
TangoFlux は、単一の A40 GPU 上でわずか 3.7 秒で最大 30 秒の 44.1kHz 音声を生成できます。他のモデルと比較して、生成速度において顕著な利点があり、より短い時間で高品質の音声出力を提供し、音声生成の効率を大幅に向上させます。 -
フローマッチングと直流量子化フロー:
このモデルはフローマッチングフレームワークを採用しており、特に直流量子化フロー(Rectified Flows)を使用しています。これはノイズから目標分布への直線的な経路であり、サンプリングステップを減らしながら音声品質を保持します。この技術により、モデルは生成プロセスにおいてより効率的かつ安定し、計算リソースの要求を減少させます。 -
Clap ランキング優先最適化(CRPO):
TangoFlux は CRPO 技術を導入し、CLAP モデルを代理報酬モデルとして利用し、反復生成と最適化された優先データを通じてモデルの整合性を強化します。CRPO は生成音声とテキスト記述の一致度を効果的に向上させ、音声コンテンツがユーザーの意図や期待により合致するようにします。 -
マルチモーダル拡散変換器アーキテクチャ:
モデルはマルチモーダル拡散変換器(MMDiT)と拡散変換器(DiT)に基づいて構築されており、テキストプロンプトと長さの埋め込みを組み合わせることで、異なる長さと豊富な詳細を持つ音声を生成できます。このアーキテクチャにより、モデルは複雑なテキスト記述を処理し、多様な音声コンテンツを生成する能力が向上します。