banner
andrewji8

Being towards death

Heed not to the tree-rustling and leaf-lashing rain, Why not stroll along, whistle and sing under its rein. Lighter and better suited than horses are straw sandals and a bamboo staff, Who's afraid? A palm-leaf plaited cape provides enough to misty weather in life sustain. A thorny spring breeze sobers up the spirit, I feel a slight chill, The setting sun over the mountain offers greetings still. Looking back over the bleak passage survived, The return in time Shall not be affected by windswept rain or shine.
telegram
twitter
github

Nvidia開源AI文本轉音效模型,只要3.7秒就能生成30秒的音效

這個文本轉音頻的模型,但更精確點來說,主要是用來生成一些擬音效果,比如刮風下雨、銀針落地的聲音、飛機起飛的轟鳴聲。

image

技術特點#

  1. 高效生成能力
    TangoFlux 能夠在單個 A40 GPU 上僅用 3.7 秒生成長達 30 秒的 44.1kHz 音頻。相比其他模型,它在生成速度上具有顯著優勢,能夠在更短的時間內提供高質量的音頻輸出,極大地提高了音頻生成的效率。

  2. 流匹配與直流量化流
    該模型採用流匹配框架,特別是直流量化流(Rectified Flows),這是一種從噪聲到目標分佈的直線路徑,能夠在減少採樣步驟的同時保持音頻質量。這種技術使得模型在生成過程中更加高效和穩定,減少了對計算資源的需求。

  3. Clap 排名偏好優化(CRPO)
    TangoFlux 引入了 CRPO 技術,利用 CLAP 模型作為代理獎勵模型,通過迭代生成和優化偏好數據來增強模型的對齊能力。CRPO 能夠有效地提升生成音頻與文本描述的匹配度,使音頻內容更加符合用戶的意圖和期望。

  4. 多模態擴散變換器架構
    模型基於多模態擴散變換器(MMDiT)和擴散變換器(DiT)構建,結合了文本提示和時長嵌入,能夠生成具有不同長度和豐富細節的音頻。這種架構使得模型在處理複雜的文本描述和生成多樣化的音頻內容方面具有更強的能力。

項目鏈接#

GitHub 項目鏈接

試用鏈接#

Hugging Face 試用鏈接

論文鏈接#

論文鏈接

載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。