banner
andrewji8

Being towards death

Heed not to the tree-rustling and leaf-lashing rain, Why not stroll along, whistle and sing under its rein. Lighter and better suited than horses are straw sandals and a bamboo staff, Who's afraid? A palm-leaf plaited cape provides enough to misty weather in life sustain. A thorny spring breeze sobers up the spirit, I feel a slight chill, The setting sun over the mountain offers greetings still. Looking back over the bleak passage survived, The return in time Shall not be affected by windswept rain or shine.
telegram
twitter
github

碾圧SDXL!新しい世代の文生図モデルStable Cascadeがやってきました!

目前、huggingface には Stable Cascade のオンラインデモがあり、すぐに体験することができます:https://huggingface.co/spaces/multimodalart/stable-cascade
現在、Stable Cascade のモデルとコード(推論とトレーニングを含む)はオープンソース化されています:

モデル:https://huggingface.co/stabilityai/stable-cascade
コード:https://github.com/Stability-AI/StableCascade/tree/master
まず、Stable Cascade のモデルアーキテクチャを簡単に紹介します。Stable Cascade は以前の Wuerstchen アーキテクチャに基づいており、このモデルは 3 つのステージで構成されています。

image
まとめると、Stable Cascade は 2 つの潜在的な拡散モデルと小さな VQGAN モデルで構成されており、1 つの潜在的な拡散モデルが生成の役割を果たし、もう 1 つの潜在的な拡散モデルと VQGAN が再構築の役割を果たします。皆さんはおそらく思うかもしれませんが、なぜデコードに拡散モデルを使用する必要があるのか、SD のように小さなデコーダを直接使用しないのかと。これは、42 倍のダウンサンプリング率ではまだ損失が大きいため、より強力な生成能力を持つ拡散モデルがデコードに必要だからです(ここでは、192x192 サイズのプレビュー画像をデコードするために小さな畳み込みネットワークを公開していますhttps://github.com/Stability-AI/StableCascade/blob/master/modules/previewer.py)。実際、VAE も情報の損失がある圧縮ですので、DALLE-3 も拡散モデルに基づく潜在的なデコーダを作りました。さらに、Stable Cascade の 3 つのステージの推論順序は、Stage C -> Stage B -> Stage A です。では、なぜ 3 つのデコードモデルの番号が逆になっているのでしょうか、これはトレーニングの順序に従って番号が付けられていると推測されます。まず、Stage A をトレーニングし、次に Stage B をトレーニングする必要があります。Stage B のトレーニング時には、同時に Semantic Compressor もトレーニングする必要があります(EfficientNetV2-S の事前トレーニングモデルは ImageNet に基づいており、画像の意味を正確にエンコードすることはできません)。そして、Semantic Compressor を固定して Stage C をトレーニングします。

image

image

モデルの比較では、Stable Cascade はテキストの一貫性と画像の品質で Playground v2、SDXL、SDXL Turbo、Würstchen v2 よりも優れています。
参考
https://stability.ai/news/introducing-stable-cascade
https://huggingface.co/stabilityai/stable-cascade

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。