banner
andrewji8

Being towards death

Heed not to the tree-rustling and leaf-lashing rain, Why not stroll along, whistle and sing under its rein. Lighter and better suited than horses are straw sandals and a bamboo staff, Who's afraid? A palm-leaf plaited cape provides enough to misty weather in life sustain. A thorny spring breeze sobers up the spirit, I feel a slight chill, The setting sun over the mountain offers greetings still. Looking back over the bleak passage survived, The return in time Shall not be affected by windswept rain or shine.
telegram
twitter
github

Nvidia开源AI文本转音效模型,只要3.7秒就能生成30秒的音效

这个文本转音频的模型,但更精确点来说,主要是用来生成一些拟音效果,比如刮风下雨、银针落地的声音、飞机起飞的轰鸣声。

image

技术特点#

  1. 高效生成能力
    TangoFlux 能够在单个 A40 GPU 上仅用 3.7 秒生成长达 30 秒的 44.1kHz 音频。相比其他模型,它在生成速度上具有显著优势,能够在更短的时间内提供高质量的音频输出,极大地提高了音频生成的效率。

  2. 流匹配与直流量化流
    该模型采用流匹配框架,特别是直流量化流(Rectified Flows),这是一种从噪声到目标分布的直线路径,能够在减少采样步骤的同时保持音频质量。这种技术使得模型在生成过程中更加高效和稳定,减少了对计算资源的需求。

  3. Clap 排名偏好优化(CRPO)
    TangoFlux 引入了 CRPO 技术,利用 CLAP 模型作为代理奖励模型,通过迭代生成和优化偏好数据来增强模型的对齐能力。CRPO 能够有效地提升生成音频与文本描述的匹配度,使音频内容更加符合用户的意图和期望。

  4. 多模态扩散变换器架构
    模型基于多模态扩散变换器(MMDiT)和扩散变换器(DiT)构建,结合了文本提示和时长嵌入,能够生成具有不同长度和丰富细节的音频。这种架构使得模型在处理复杂的文本描述和生成多样化的音频内容方面具有更强的能力。

项目链接#

GitHub 项目链接

试用链接#

Hugging Face 试用链接

论文链接#

论文链接

加载中...
此文章数据所有权由区块链加密技术和智能合约保障仅归创作者所有。