Stability AI、テキストや静止画から動画を生成する「Stable Video Diffusion」AIモデルを発表

masapoco
投稿日
2023年11月23日 6:41
stable video diffusion hero

テキストから画像を生成する「Stable Diffusion」で有名なStability AIは、ビデオ生成AIで先行するRunwayML等を凌駕すると主張する、「Stable Video Diffusion」をリリースした。

この新しいツールは、2つの画像から動画へ変換するモデルという形でリリースされており、それぞれ576×1024の解像度で3~30フレーム/秒の速度で14~25フレームの長さを生成することができる。1つのフレームからマルチビュー合成が可能で、マルチビューデータセットで微調整ができる。

Stable Video Diffusionモデルは、Stable Diffusion画像モデルをベースに、Stability AIによって、特別にキュレートされた高品質のビデオデータのデータセットでトレーニングされた。

とれーにんぐにあたっては、テキストから画像への事前トレーニング、低解像度ビデオの大規模なデータセットによるビデオの事前トレーニング、そして最後に高解像度ビデオのはるかに小規模なデータセットによるビデオの微調整が行われたと言う。

商用モデルを上回るパフォーマンス

Stability AIによると、リリース時点で、Stable Video Diffusionは、ユーザー嗜好調査において、RunwayMLやPika Labsなどの主要な商用モデルを上回ったという。Stability AIは、人間の評価者にウェブ・インターフェースで生成された動画を見せ、視覚的品質とプロンプトの追従性の観点から動画の品質を評価してもらった。結果は以下の通りだ。

ただし、最近Metaが発表した新しいビデオモデルであるEmu Videoもかなり優秀で、RunwayML等に大差をつけており、Stable Video Diffusionが現状最高のビデオ生成AIモデルというわけではなさそうだ。ただし、Emu Videoは研究論文と静的なウェブ・デモしかないため、ユーザーが実際に試してみる事ができる物としてはStable Video Diffusionが最も優秀と言える。

Stability AIの研究者たちは論文の中で、大量の動画データをキュレーションし、大量で乱雑な動画コレクションを生成動画モデルに適したデータセットに変換する手法も提案している。このアプローチは、動画生成のための堅牢な基礎モデルの学習を単純化するように設計されている。

まずはStable Video Diffusionは研究用バージョンが提供

Stable Video Diffusionはまた、マルチビューデータセットに微調整を加えた単一画像からのマルチビュー合成など、様々な下流タスクに容易に適応できるように設計されている。Stability AIは、Stable Diffusionで行ったのと同様に、この基盤の上に構築され拡張されるモデルのエコシステムを開発する予定だ。

現時点では、Stable Video Diffusionは研究目的でのみ利用可能であり、実世界や商用アプリケーションではない。潜在的なユーザーは、「テキストからビデオへのインターフェイスを特徴とする今後のウェブ体験」へのアクセス待ちリストに登録することができる、とStability AIは書いている。このツールは、広告、教育、エンターテインメントなどの分野での潜在的なアプリケーションを紹介する予定だ。


論文

参考文献

研究の要旨

高解像度で最先端のテキストから動画、画像から動画生成のための潜在動画拡散モデル、Stable Video Diffusionを紹介する。近年、2次元画像合成のために学習された潜在拡散モデルは、時間レイヤーを挿入し、小規模で高品質なビデオデータセット上で微調整することにより、生成的ビデオモデルへと変化している。しかし、文献に記載されている学習方法は様々であり、ビデオデータをキュレーションするための統一的な戦略について、この分野はまだ合意していない。本論文では、動画LDMの学習を成功させるための3つの異なる段階(テキストから画像への事前学習、動画の事前学習、高品質動画の微調整)を特定し、評価する。



この記事が面白かったら是非シェアをお願いします!


  • sony alpha
    次の記事

    Sony、ミラーレスカメラ「α」で撮影画像の真正性を担保する追加機能の検証を完了、来春からファームウェア提供へ

    2023年11月23日 7:16
  • 前の記事

    2022年のSSD出荷台数、消費者需要の低迷により10%減少

    2023年11月22日 18:02
    Samsung 990 Pro PCIe Gen 5 SSD 1 low res scale 4 00x 1480x888 1

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • openai sora balloon man

    OpenAI、動画生成AI「Sora」を使ったアーティストによるファーストインプレッションと短編動画を多数公開

  • openai sora sample

    OpenAIは動画生成AI「Sora」をハリウッドに売り込んでいる

  • videoframe 1543

    DeepMindの元研究員が設立した「Haiper」の登場が動画生成AI競争を盛り上げる

  • openai sora tokyo scene

    OpenAIの「Sora」による動画生成は軽食が摂れるほど時間がかかる

  • stable diffusion 3

    Stability AIが「Stable Diffusion 3」プレビューを公開、画像内の優れたテキスト生成機能やプロンプト理解を誇る

今読まれている記事