中国のSora報道が加熱、米中技術格差への不安や中国版登場への期待など議論沸騰

中国のSora報道が加熱している。資料写真。

米Open AIは2月15日、動画生成AI「Sora」を発表した。中国メディアは連日報道を続けていて、その分量は半端ではない。そこではどのような議論がなされているのだろうか。ネットメディアの議論は、まずSoraの素晴らしさに驚き、次に米中の技術格差拡大を不安視し、「中国版Sora」はいつ登場するのかという方向へ進んでいる。

汎用人工知能の実現が大幅短縮へ

Soraのコンテンツ生成時間は60秒で、既存のビデオツールの生成時間を大幅に上回る。自己編集や拡張、関連性のないコンテンツのつなぎ合わせ、背景の変換なども可能で、将来的には単なるビデオコンテンツ生成ツールではなく、シミュレーターとされるかもしれない。

中国ネットセキュリティー大手・奇虎360の周鴻祎会長兼最高経営責任者(CEO)は、「Soraの誕生により、AGI(汎用人工知能)の実現が10年から1~2年に短縮される可能性がある。ショートビデオ、映画、テレビ、広告、その他の業界に前向きな推進力をもたらす」と述べた。Soraは恐怖を含む興奮を呼び起こし、白熱の議論が続いている。少なからぬ「普通の人々」もビジネスチャンスを嗅ぎつけ、Solaのトレーニング教材が2万点以上売れたとも報じられた。

激震のショートビデオ界

生成時間60秒はショートビデオ界へのインパクトが大きい。ショートビデオ制作の敷居は大幅に下がり、抖音(中国版TikTok)や快手など有力プラットフォームへのコンテンツ供給は間違いなく充実する。AI生成コンテンツの増加はプラットフォームの生態系に影響を与えるだろう。これまでにもPikaやRunwayなど10秒程度の動画生成アプリはあったが、あるMCNによると、完成度が低く、ライブコマースでは使いものにならない。

Soraはユーザーが入力したテキスト要件を正確に認識できる上、一貫性にも優れる。主人公の行動プロセスが首尾一貫していて、複数の視点からの状況変化に何ら影響を受けない。主人公と背景の相互作用が論理的で、空間認識を人間のそれに近づけた。テキストの制限を超えた生き生きとしたリアルな動画が生成可能となった。

安定したAI生成コンテンツの増加は、クリエーターや抖音、快手などに革命的影響をもたらすに違いない。

中国の不安は演算能力不足

周氏は「Soraの技術がオープン化されれば、中国も追いつけるだろう。ただし、それには演算能力の敷居が高い。60秒以上の生成が難しい理由は演算能力とコストだ」と語る。

中国大手証券会社の国泰君安の関係者は、「SoraはChat GPT言語モデルの『元データ-変化-拡散-出現』という技術的ルートをなぞっている。そのためChat GPTと同じように『大規模データ+大規模パラメータ+大規模コンピューティングパワー』が必要となるが、Soraの動画学習に必要なデータ量はテキスト学習に比べて桁違いに大きい」と指摘する。

領悟時代デジタル研究院は、「Soraの技術には複雑なアルゴリズムと膨大なデータ処理が必要。ハードウェアの性能だけでなく、ソフトウェアの最適化、データ処理、クラウドなどのリソース統合が求められる」と指摘している。

また、別の業界関係者は「元の大規模言語モデル、Chat GPTと比較すると、Sora動画モデルの計算量は指数関数的に増大し、天文学的な数字になる。中国にはそのような演算能力の基盤がない」と語る。

ただし、悲観ばかりではない。中国の算力(ハッシュレート)産業規模は、過去5年間の平均成長率が30%以上となり、急速に成長している。「算力基礎設施高質量発展行動計画」により2025年までの開発目標を明確にした。

中国版Soraは誰が開発?

ネットメディア大手テンセント・ニュースは「スタートアップ12社、大手4社のパノラマ、中国版Soraとなるのは誰だ」という記事を掲載した。そのうち有名なIT巨頭4社の開発状況を見てみよう。

アリババは通義実験室がオープンソースの画像生成モデル「VGen」を開発した。高い柔軟性と制御を備え、高画質の画面から動画合成、テキストから動画への階層的時空デカップリング技術、動画拡散モデルの最適化などの高度な動画生成機能を備えている。また、アリババ智能計算研究所が「Animate Anyone」を発表した。これは人物写真からアニメーションビデオを生成するモデルだ。

百度(バイドゥ)は1月に動画生成モデル「UniVG」を発表した。自由度の高いタスクと低いタスクに異なる生成方法を使用してバランスを取ることを特徴とする。

テンセントは「Animate Zero」と「Video Crafter2」の二つの動画生成プロジェクトを開始した。「Animate Zero」の特徴は外観と動作のプロセスを分離して段階的に動画生成を行うことだという。「Video Crafter2」は視覚的な品質、ダイナミクス、構成の改善に特化した。

バイトダンス(抖音、TikTok運営)には複数の研究チームがある。そのうちの一つはシンガポールにあり、「Magic Animate」を発表した。時間的一貫性を強化し、アニメーションの忠実度を上げるよう設計された。2月には「Boximator」を発表した。動画内のキャラクターを、テキストを通じて制御できる。

演算能力不足にはGPUが関わってくる。米国の制裁により、エヌビディアの高性能GPUは調達できない。その制約の中でも何とか米国に対抗しようと、大手とスタートアップが競い合っている。中国版Soraの成否は分からないが、開発現場の活況だけは認めねばならないだろう。

■筆者プロフィール:高野悠介

1956年生まれ、早稲田大学教育学部卒。ユニー株(現パンパシフィック)青島事務所長、上海事務所長を歴任、中国貿易の経験は四半世紀以上。現在は中国人妻と愛知県駐在。最先端のOMO、共同購入、ライブEコマースなど、中国最新のB2Cビジネスと中国人家族について、ディ-プな情報を提供。

© 株式会社 Record China