這個文本轉音頻的模型,但更精確點來說,主要是用來生成一些擬音效果,比如刮風下雨、銀針落地的聲音、飛機起飛的轟鳴聲。
技術特點#
-
高效生成能力:
TangoFlux 能夠在單個 A40 GPU 上僅用 3.7 秒生成長達 30 秒的 44.1kHz 音頻。相比其他模型,它在生成速度上具有顯著優勢,能夠在更短的時間內提供高質量的音頻輸出,極大地提高了音頻生成的效率。 -
流匹配與直流量化流:
該模型採用流匹配框架,特別是直流量化流(Rectified Flows),這是一種從噪聲到目標分佈的直線路徑,能夠在減少採樣步驟的同時保持音頻質量。這種技術使得模型在生成過程中更加高效和穩定,減少了對計算資源的需求。 -
Clap 排名偏好優化(CRPO):
TangoFlux 引入了 CRPO 技術,利用 CLAP 模型作為代理獎勵模型,通過迭代生成和優化偏好數據來增強模型的對齊能力。CRPO 能夠有效地提升生成音頻與文本描述的匹配度,使音頻內容更加符合用戶的意圖和期望。 -
多模態擴散變換器架構:
模型基於多模態擴散變換器(MMDiT)和擴散變換器(DiT)構建,結合了文本提示和時長嵌入,能夠生成具有不同長度和豐富細節的音頻。這種架構使得模型在處理複雜的文本描述和生成多樣化的音頻內容方面具有更強的能力。