サイバーエージェント、日本文化を理解する視覚言語モデル 75億パラメータ

by 太田亮三

サイバーエージェントは、生成AIとして75億パラメータの日本語VLM(Vision Language Model、大規模視覚言語モデル)を公開した。

近年、OpenAIが開発した「GPT-4o」を始め、画像も扱えるLLMが急速な進化を遂げ、世界中のあらゆる業界・ビジネスにおいて活用が進んでいる。サイバーエージェントではデジタル広告におけるクリエイティブ制作において、2023年5月に画像を考慮した「広告コピー自動生成機能」を実装するなど、画像とテキストの複合領域での研究開発や活用に取り組んでいる状況。

一方、現在公開されているVLMのほとんどは、英語を中心に学習されており、日本文化の理解や日本語での会話に強いVLMは少ない状況という。

こうしたことを背景に、同社は日本語VLMの開発に取り組んでおり、今回ベースモデルの一部がHugging Face Hubにて公開された形。同社独自の日本語LLM「CyberAgentLM2」に視覚を付与したものになるという。

公開されたモデル「llava-calm2-siglip」は、社内の高性能な日本語LLMで合成されたデータセットをメインに学習したもので、商用利用可能なApache-2.0ライセンスで提供される。「llava-calm2-siglip」をベースにチューニングすることで、画像を加味した対話AIなどの開発も可能になり、日本語の視覚言語モデルに関する最先端の研究開発に取り組めるとしている。また、研究用途に限定されているものの、より高性能なモデルのデモも公開されている。