Google、動画生成AIモデル「Veo」発表。テキスト入力だけで1080pの1分超ビデオを生成可能

Image:Google

Googleは年次開発者会議「Google I/O」にて、新たな動画生成AIモデル「Veo」を発表した。プロンプトの入力だけで1080p解像度の高品質ビデオを生成し、1分を超えることも可能だという。

Veoは自然言語を高度に理解しており、「タイムラプス」や「風景の空撮」といった映画の用語も正確に解釈できるとのこと。プロンプトとしてはテキストのほか画像の参照も指定でき、希望の出力を細かく指示できる。

その結果として得られる動画は「より一貫性と整合性がある」ものであり、全体を通じて人や動物、物体がリアルに描写されるとのこと。さらに基調講演では、出力結果は追加のプロンプトにより改良を加えられ、ストーリーボードや長いシーンを作成できる追加機能も検討していると述べていた。

当初Veoは実験ツールVideoFXの形で、今後数週間以内に「一部のクリエイター」のみに提供される。Googleは「クリエイターが発言権を持つ」ことを保証するために、協力関係を構築していくと説明している。

映画監督で脚本家・歌手としても活躍するドナルド・グローヴァー氏が、短編映画を制作する上でVeoをどのように活用したかを語る動画も公開されている。

今回の発表は、OpenAIがテキストからリアルな動画を作成できる生成AIモデル「Sora」を発表してから3か月後のこと。同社はSoraをすでにハリウッドにも売り込んでおり、Soraにオーディオを組み込むことも検討している。

さらにAdobeは、Soraを含む複数のAIモデルをAdobe Premiere Proに統合する計画を発表済みだ。今後、GoogleとOpenAIの競争は動画生成AIの分野でも熾烈となりそうである。