Nvidia開源AI文本轉音效模型，只要3.7秒就能生成30秒的音效

2025年1月13日#AI230

AI 翻譯

這篇文章透過AI由簡體中文翻譯成繁體中文。查看原文

AI 生成的摘要

這個文本轉音頻模型TangoFlux主要用於生成擬音效果，如風聲、雨聲和飛機起飛聲。其技術特點包括： - **高效生成能力**：在單個A40 GPU上，僅需3.7秒即可生成長達30秒的44.1kHz音頻，顯著提高生成速度和音質。 - **流匹配與直流量化流**：採用流匹配框架，減少采樣步驟的同時保持音質，提高生成效率和穩定性。 - **Clap排名偏好優化（CRPO）**：利用CLAP模型增強生成音頻與文本描述的匹配度，提升用戶意圖的符合性。 - **多模態擴散變換器架構**：結合文本提示和時長嵌入，能生成不同長度和細節豐富的音頻，增強處理複雜文本描述的能力。此外，提供了GitHub項目鏈接、Hugging Face試用鏈接和論文鏈接。

這個文本轉音頻的模型，但更精確點來說，主要是用來生成一些擬音效果，比如刮風下雨、銀針落地的聲音、飛機起飛的轟鳴聲。

技術特點#

高效生成能力：
TangoFlux 能夠在單個 A40 GPU 上僅用 3.7 秒生成長達 30 秒的 44.1kHz 音頻。相比其他模型，它在生成速度上具有顯著優勢，能夠在更短的時間內提供高質量的音頻輸出，極大地提高了音頻生成的效率。
流匹配與直流量化流：
該模型採用流匹配框架，特別是直流量化流（Rectified Flows），這是一種從噪聲到目標分佈的直線路徑，能夠在減少採樣步驟的同時保持音頻質量。這種技術使得模型在生成過程中更加高效和穩定，減少了對計算資源的需求。
Clap 排名偏好優化（CRPO）：
TangoFlux 引入了 CRPO 技術，利用 CLAP 模型作為代理獎勵模型，通過迭代生成和優化偏好數據來增強模型的對齊能力。CRPO 能夠有效地提升生成音頻與文本描述的匹配度，使音頻內容更加符合用戶的意圖和期望。
多模態擴散變換器架構：
模型基於多模態擴散變換器（MMDiT）和擴散變換器（DiT）構建，結合了文本提示和時長嵌入，能夠生成具有不同長度和豐富細節的音頻。這種架構使得模型在處理複雜的文本描述和生成多樣化的音頻內容方面具有更強的能力。

項目鏈接#

GitHub 項目鏈接

試用鏈接#

Hugging Face 試用鏈接

論文鏈接#

論文鏈接