NvidiaのオープンソースAIテキストから音声へのモデルは、わずか3.7秒で30秒の音声を生成できます。

2025年1月13日#AI230

AI 翻訳

この記事はAIを通じて中国語から日本語に翻訳されました。原文を表示

AI が生成した要約

このテキストは音声生成モデル「TangoFlux」について説明しています。主に風や雨、飛行機の音などの擬音効果を生成するために使用されます。 **技術的特徴:** - **高効率生成能力:** TangoFluxは、単一のA40 GPUで3.7秒で30秒の44.1kHz音声を生成でき、生成速度が他のモデルに比べて優れています。 - **流マッチングと直流量化流:** このモデルは、音質を保ちながらサンプリングステップを減少させる直流量化流を採用し、効率的かつ安定した生成を実現しています。 - **CRPO:** CLAPモデルを利用したCRPO技術により、生成音声とテキストの一致度を向上させ、ユーザーの意図に合った音声を生成します。 - **多モーダル拡散変換器アーキテクチャ:** テキスト提示と時間埋め込みを組み合わせたアーキテクチャにより、複雑なテキストから多様な音声を生成する能力があります。 **リンク:** - GitHub プロジェクトリンク - Hugging Face 試用リンク - 論文リンク

このテキストを音声に変換するモデルですが、より正確に言うと、主に風や雨の音、銀の針が地面に落ちる音、飛行機の離陸時の轟音などの擬音効果を生成するために使用されます。

技術的特徴#

高効率生成能力：
TangoFlux は、単一の A40 GPU 上でわずか 3.7 秒で最大 30 秒の 44.1kHz 音声を生成できます。他のモデルと比較して、生成速度において顕著な利点があり、より短い時間で高品質の音声出力を提供し、音声生成の効率を大幅に向上させます。
フローマッチングと直流量子化フロー：
このモデルはフローマッチングフレームワークを採用しており、特に直流量子化フロー（Rectified Flows）を使用しています。これはノイズから目標分布への直線的な経路であり、サンプリングステップを減らしながら音声品質を保持します。この技術により、モデルは生成プロセスにおいてより効率的かつ安定し、計算リソースの要求を減少させます。
Clap ランキング優先最適化（CRPO）：
TangoFlux は CRPO 技術を導入し、CLAP モデルを代理報酬モデルとして利用し、反復生成と最適化された優先データを通じてモデルの整合性を強化します。CRPO は生成音声とテキスト記述の一致度を効果的に向上させ、音声コンテンツがユーザーの意図や期待により合致するようにします。
マルチモーダル拡散変換器アーキテクチャ：
モデルはマルチモーダル拡散変換器（MMDiT）と拡散変換器（DiT）に基づいて構築されており、テキストプロンプトと長さの埋め込みを組み合わせることで、異なる長さと豊富な詳細を持つ音声を生成できます。このアーキテクチャにより、モデルは複雑なテキスト記述を処理し、多様な音声コンテンツを生成する能力が向上します。

プロジェクトリンク#

GitHub プロジェクトリンク

試用リンク#

Hugging Face 試用リンク

論文リンク#

論文リンク