Stability AI、更に効率的で高品質な画像生成モデル「Stable Cascade」を発表

テキストから画像を生成するAIモデル「Stable Diffusion」を開発したStability AIは、更に強力な最新モデル「Stable Cascade」を公開した。この新しいモデルはGitHubで研究者向けに公開されているが、今のところリサーチプレビューでの提供となる。

Stable Cascadeのリサーチプレビューは、非商業的な使用に限定される。最終的なモデルがオープンソースとして提供されるかどうか、またどのような形で提供されるかは、今回の発表からは明らかではない。Stability AIはまた、商用利用のためにAPIを介してモデルを提供しているが、Stable Cascadeはまだその一部ではない。

Stable Cascadeは、画像バリエーション、画像間生成、インペイント・アウトペイント、Canny Edge生成、2倍超解像に対応している。テキスト生成も大幅に改善されたようだ。

ユーザーは、与えられた画像のバリエーションを生成したり、既存の画像に基づいて新しい画像を作成したり、画像のマスクされた部分を塗りつぶしたり、入力画像のエッジに沿った画像を生成したり、画像を高解像度に拡大縮小したりすることができる。

Stability AIによると、Stable Cascadeは、ほとんどのモデル比較において、プロンプトの追従性と美的品質の点で先行製品を上回っている。Stability AIの測定によると、2023年12月にリリースされた商用利用無料のオープンソースモデルであるPlayground v2は、美的品質でわずかに上回り、プロンプトの追従性でわずかに遅れをとっている。

Stability AI社のフラッグシップモデルであるStable Diffusionモデルとは異なり、Stable Cascadeは1つの大きな言語モデルではなく、2024年1月に導入された “Würstchen”アーキテクチャに基づいている。これは、拡散プロセス（ステージB）を駆動する、高度に圧縮された、しかし詳細な意味的「画像レシピ」（ステージC）を学習する、3段階の拡散ベースのテキスト画像合成だ。

最初のステージであるステージCは、テキストプロンプトをレイテント（またはコードの小さな断片）に圧縮し、それをステージAとBに渡してリクエストをデコードする。

リクエストをより小さなビットに分割することで、より少ないメモリで（そして見つけにくいGPUでトレーニングする時間を減らし）、より高速に実行できる。Stability AIは、Stable Cascadeは、現在のトップモデルであるStable Diffusion XLよりもパラメータが多いにもかかわらず、生成時間が大幅に速いと主張している。Stable Cascadeは30ステップで約10秒で完成画像を生成するが、SDXLは50ステップで22秒かかる。ちなみに、SDXL Turboはさらに速く、1ステップと0.5秒しかかからないが、その分、画質が犠牲になる。

また、Würstchenは、少ないトレーニングリソース（Stable Diffusion 2.1の200,000 GPU時間に対し、A100 GPU 24,602時間）と少ないトレーニングデータで済むとのことだ。

Source

Stability AI: Stable Cascade のご紹介

Stability AI、更に効率的で高品質な画像生成モデル「Stable Cascade」を発表

Samsung、日本のPreferred Networksから2nm世代のAIチップ製造を受注と報じられる

NVIDIA、最速のAIスーパーコンピューター「Eos」を公開

コメントを残すコメントをキャンセル

おすすめ記事

OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事

Stability AI、更に効率的で高品質な画像生成モデル「Stable Cascade」を発表

Samsung、日本のPreferred Networksから2nm世代のAIチップ製造を受注と報じられる

NVIDIA、最速のAIスーパーコンピューター「Eos」を公開

コメントを残す コメントをキャンセル

おすすめ記事

OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事

コメントを残すコメントをキャンセル