個人でも使いやすい20億パラメータの「Stable Diffusion 3 Medium」。NVIDIA GPU向けの最適化も

by 関根慎一

Stability AI Japanは12日、画像生成AIモデル「Stable Diffusion 3 Medium」を発表した。

テキストから画像を生成する20億パラメータ規模のモデル。個人向けシステムや企業向けGPUでの動作に適するという。特徴としてはフォトリアリスティックな画像生成やテキスト生成の品質、プロンプト理解精度、ファインチューニングによるカスタマイズ性を挙げている。

このほか現行の「Stable Diffusion 3」など各モデル共通の更新として、「NVIDIA RTX」シリーズのGPUとTensorRTを利用した際のパフォーマンスを強化した。TensorRT利用時はパフォーマンスが50%向上したという。またStable Diffusion 3 MediumについてはAMD製GPUへの最適化も行なっている。

非商用ライセンスおよびクリエイターライセンス(月額20ドル)で利用可能。Hugging Faceからモデルを入手できる。