画像の次は動画! これから話題となる生成AI ⁈

画像生成AIのStable diffusionやMidjouney、その後、言語生成AIのCHATGPTなどが世間を騒がせてから1年が経ちました。

私は研究対象として身近に感じておりましたが、より多くの方にとって深層学習という技術に基づくAIを身近に感じていただくことが増えたのではないでしょうか？

そして、最近様々な機関から動画に関する発表がなされているので、いくつかまとめて紹介したいと思います。

今回紹介するのは以下の4つです。

Stable Video Diffusion (2023/11/21)
MagicAnimate (2023/11/27)
AnimateAnyone(2023/11/28)、anymate anything(2023/11/21)
AnimateDiff (2023/06/10)

一つ目の Stable Video Diffusion は、名前からも察せられるかと思いますが、画像生成AIで話題になった Stable Diffusion 、それを開発したStability AIが報告しているツールです。研究用途のみで商用利用はできませんが、静止画像から動画を生成することができます。ただし、動画の動きを指定することは現状できません。Stable Diffusionの印象を損なわないように注意を払っているのか、全体的に動画が綺麗な印象を受けます。

ja.stability.ai

二つ目は、TikTokの運営会社「ByteDance」が開発したMagicAnimateで、商用利用が可能です。これは、1枚の人物の静止画と動作動画を組み合わせることで、被写体を動かすことができるツールです。モナリザが走り出す様は笑えてしまいます。

github.com

vid2denseposeというツールを使うことで独自の動作動画が作れます。

github.com

三つ目は、中国を代表するテック企業アリババが開発した AnimateAnyone と anymate anything です。AnimateAnyone は、MagicAnimateと似たようなツールですが、コード等まだ公開されていない状況です。anymate anything は、Stable Video Diffusion と似たようなツールですが、商用利用が可能であり、 labelme というツールと組み合わせて動画化したい場所を指定可能で、言語で動きを指定することができます。生成される絵のクオリティや言語による指定は課題ありという感じですが改良されれば使い勝手は良さそうです。

github.com

四つ目は、上海のAI研究機関、中国、アメリカの大学によって報告されている商用利用可能な AnimateDiff です。時期は他のものと比べて早い時期に報告されており、既にバージョン3となっています。静止画と言語によって動画が生成されます。

github.com

私は、画像や動画などの分野に関しては、化合物、自然言語等の領域に比べると勉強が足りておりませんが、これを機に勉強しなければと思いました。

また、動画は何枚もの画像が組み合わされて作られているので生成時間も比較的かかり、よりよいアーキテクチャやGPUが今後も追及されていきそうです。

ありがとうございました。