サイバーエージェント、独自の日本語LLMに視覚を付与したVLMモデル　75億パラメータ

サイバーエージェントは6月13日、75億パラメータの日本語VLM（Vision Language Model、大規模視覚言語モデル）を公開した。

近年、OpenAI社が開発した「GPT-4o」を始めとする画像も扱えるLLMが急速な進化を遂げており、世界中のあらゆる業界・ビジネスにおいて活用が進んでいる。同社でもデジタル広告におけるクリエイティブ制作において、2023年5月に画像を考慮した「広告コピー自動生成機能」を実装するなど、画像とテキストの複合領域での研究開発および活用に取り組んでいるという。

一方、既存の公開されているVLMのほとんどは英語を中心に学習されているため、日本文化の理解や日本語での会話に強いVLMは少ない状況にあるという。こうした背景のもとで日本語VLMの開発に取り組み、今回ベースモデルの一部をHugging Face Hubにて公開した。

公開したモデルは、社内の高性能な日本語LLMで合成されたデータセットをメインに学習したもので、商用利用可能なApache-2.0ライセンスで提供される。

このモデルをベースとしてチューニングを行うことにより、画像を加味した対話AIなどの開発も可能。また公開したモデルに加え、研究用に開発しているさらに高性能なモデルを一部試すことができるよう、デモも公開している（※研究用途のみ）。

ニュースリリースモデルURL デモURL

サイバーエージェント、独自の日本語LLMに視覚を付与したVLMモデル 75億パラメータ

関連記事

「iPadOS 18」発表、手書き対応の「計算機」アプリが登場

TOPPANデジタルとgumi、譲渡不可トークンのSBT活用で協業

iPhoneをMacで操作できる「macOS Sequoia」発表

「iOS 18」、アプリアイコンを自由に配置可能に

スマートホームアプリ「HomeLink」、オンライン診療サービス開始 薬の宅配にも対応

サイバーエージェント、独自の日本語LLMに視覚を付与したVLMモデル　75億パラメータ

スマートホームアプリ「HomeLink」、オンライン診療サービス開始　薬の宅配にも対応