banner
andrewji8

Being towards death

Heed not to the tree-rustling and leaf-lashing rain, Why not stroll along, whistle and sing under its rein. Lighter and better suited than horses are straw sandals and a bamboo staff, Who's afraid? A palm-leaf plaited cape provides enough to misty weather in life sustain. A thorny spring breeze sobers up the spirit, I feel a slight chill, The setting sun over the mountain offers greetings still. Looking back over the bleak passage survived, The return in time Shall not be affected by windswept rain or shine.
telegram
twitter
github

NvidiaのオープンソースAIテキストから音声へのモデルは、わずか3.7秒で30秒の音声を生成できます。

このテキストを音声に変換するモデルですが、より正確に言うと、主に風や雨の音、銀の針が地面に落ちる音、飛行機の離陸時の轟音などの擬音効果を生成するために使用されます。

image

技術的特徴#

  1. 高効率生成能力
    TangoFlux は、単一の A40 GPU 上でわずか 3.7 秒で最大 30 秒の 44.1kHz 音声を生成できます。他のモデルと比較して、生成速度において顕著な利点があり、より短い時間で高品質の音声出力を提供し、音声生成の効率を大幅に向上させます。

  2. フローマッチングと直流量子化フロー
    このモデルはフローマッチングフレームワークを採用しており、特に直流量子化フロー(Rectified Flows)を使用しています。これはノイズから目標分布への直線的な経路であり、サンプリングステップを減らしながら音声品質を保持します。この技術により、モデルは生成プロセスにおいてより効率的かつ安定し、計算リソースの要求を減少させます。

  3. Clap ランキング優先最適化(CRPO)
    TangoFlux は CRPO 技術を導入し、CLAP モデルを代理報酬モデルとして利用し、反復生成と最適化された優先データを通じてモデルの整合性を強化します。CRPO は生成音声とテキスト記述の一致度を効果的に向上させ、音声コンテンツがユーザーの意図や期待により合致するようにします。

  4. マルチモーダル拡散変換器アーキテクチャ
    モデルはマルチモーダル拡散変換器(MMDiT)と拡散変換器(DiT)に基づいて構築されており、テキストプロンプトと長さの埋め込みを組み合わせることで、異なる長さと豊富な詳細を持つ音声を生成できます。このアーキテクチャにより、モデルは複雑なテキスト記述を処理し、多様な音声コンテンツを生成する能力が向上します。

プロジェクトリンク#

GitHub プロジェクトリンク

試用リンク#

Hugging Face 試用リンク

論文リンク#

論文リンク

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。