サイバーエージェント、独自の日本語LLMに視覚を付与したVLMモデル 75億パラメータ

サイバーエージェントは6月13日、75億パラメータの日本語VLM(Vision Language Model、大規模視覚言語モデル)を公開した。

近年、OpenAI社が開発した「GPT-4o」を始めとする画像も扱えるLLMが急速な進化を遂げており、世界中のあらゆる業界・ビジネスにおいて活用が進んでいる。同社でもデジタル広告におけるクリエイティブ制作において、2023年5月に画像を考慮した「広告コピー自動生成機能」を実装するなど、画像とテキストの複合領域での研究開発および活用に取り組んでいるという。

一方、既存の公開されているVLMのほとんどは英語を中心に学習されているため、日本文化の理解や日本語での会話に強いVLMは少ない状況にあるという。こうした背景のもとで日本語VLMの開発に取り組み、今回ベースモデルの一部をHugging Face Hubにて公開した。

公開したモデルは、社内の高性能な日本語LLMで合成されたデータセットをメインに学習したもので、商用利用可能なApache-2.0ライセンスで提供される。

このモデルをベースとしてチューニングを行うことにより、画像を加味した対話AIなどの開発も可能。また公開したモデルに加え、研究用に開発しているさらに高性能なモデルを一部試すことができるよう、デモも公開している(※研究用途のみ)。

ニュースリリース モデルURL デモURL

© 朝日インタラクティブ株式会社