Stability AI、更に効率的で高品質な画像生成モデル「Stable Cascade」を発表

masapoco
投稿日
2024年2月16日 10:32

テキストから画像を生成するAIモデル「Stable Diffusion」を開発したStability AIは、更に強力な最新モデル「Stable Cascade」を公開した。この新しいモデルはGitHubで研究者向けに公開されているが、今のところリサーチプレビューでの提供となる。

Stable Cascadeのリサーチプレビューは、非商業的な使用に限定される。最終的なモデルがオープンソースとして提供されるかどうか、またどのような形で提供されるかは、今回の発表からは明らかではない。Stability AIはまた、商用利用のためにAPIを介してモデルを提供しているが、Stable Cascadeはまだその一部ではない。

Stable Cascadeは、画像バリエーション、画像間生成、インペイント・アウトペイント、Canny Edge生成、2倍超解像に対応している。テキスト生成も大幅に改善されたようだ。

ユーザーは、与えられた画像のバリエーションを生成したり、既存の画像に基づいて新しい画像を作成したり、画像のマスクされた部分を塗りつぶしたり、入力画像のエッジに沿った画像を生成したり、画像を高解像度に拡大縮小したりすることができる。

Stability AIによると、Stable Cascadeは、ほとんどのモデル比較において、プロンプトの追従性と美的品質の点で先行製品を上回っている。Stability AIの測定によると、2023年12月にリリースされた商用利用無料のオープンソースモデルであるPlayground v2は、美的品質でわずかに上回り、プロンプトの追従性でわずかに遅れをとっている。

Stability AI社のフラッグシップモデルであるStable Diffusionモデルとは異なり、Stable Cascadeは1つの大きな言語モデルではなく、2024年1月に導入された “Würstchen”アーキテクチャに基づいている。これは、拡散プロセス(ステージB)を駆動する、高度に圧縮された、しかし詳細な意味的「画像レシピ」(ステージC)を学習する、3段階の拡散ベースのテキスト画像合成だ。

最初のステージであるステージCは、テキストプロンプトをレイテント(またはコードの小さな断片)に圧縮し、それをステージAとBに渡してリクエストをデコードする。

リクエストをより小さなビットに分割することで、より少ないメモリで(そして見つけにくいGPUでトレーニングする時間を減らし)、より高速に実行できる。Stability AIは、Stable Cascadeは、現在のトップモデルであるStable Diffusion XLよりもパラメータが多いにもかかわらず、生成時間が大幅に速いと主張している。Stable Cascadeは30ステップで約10秒で完成画像を生成するが、SDXLは50ステップで22秒かかる。ちなみに、SDXL Turboはさらに速く、1ステップと0.5秒しかかからないが、その分、画質が犠牲になる。

また、Würstchenは、少ないトレーニングリソース(Stable Diffusion 2.1の200,000 GPU時間に対し、A100 GPU 24,602時間)と少ないトレーニングデータで済むとのことだ。


Source



この記事が面白かったら是非シェアをお願いします!


  • Samsung HQ Image
    次の記事

    Samsung、日本のPreferred Networksから2nm世代のAIチップ製造を受注と報じられる

    2024年2月16日 11:05
  • 前の記事

    NVIDIA、最速のAIスーパーコンピューター「Eos」を公開

    2024年2月16日 9:50

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事