東京工業大学と産総研、日本語に強い大規模言語モデル「Swallow」を公開

東京工業大学の研究チームと産業技術総合研究所は、日本語能力に優れた生成AIの基盤である大規模言語モデル「Swallow」を公開した。日本語に対応した大規模言語モデルとしては最大規模であり、オープンで商用利用が可能だ。

近年、OpenAIのChatGPTやGPT-4、GoogleのPaLM 2やGeminiなど、大規模言語モデルの研究開発が急速に進展している。日本語に強い大規模言語モデルの開発も進んでいるが、オープンかつ高性能な大規模言語モデルは少なかった。

Meta AIが開発したLlama 2シリーズは英語で高い性能を示すが、日本語の読み書きは苦手だ。そこで、研究チームではLlama 2のいくつかのモデルをベースにした大規模言語モデル「Swallow」を構築。学習済みの大規模言語モデルに追加で事前学習を行う手法(継続事前学習)により日本語に関して高い性能が示された。

また、Llama 2は英語重視モデルのため、日本語の主要な単語や文字が語彙に含まれず、テキストが不自然な単位(トークン)に区切られ、テキストをより多くのトークンで表現してしまい、学習や生成の効率が低下し計算コストが増大する。日本語の文字や単語などの語彙(言語モデルが扱えるトークンの集合)を追加することで、日本語テキストのトークン長を56.2%に削減した。

さらに、研究チームでは非営利団体Common Crawlから配布されているアーカイブから日本語のテキストを独自に抽出・精錬し、約3,121億文字(約1.73億ページ)からなる日本語ウェブコーパスを構築。日本語の言語モデルの商用利用可能な学習コーパスの中で最大となった。

日本語に強くオープンな大規模言語モデルが登場したことで、日本での大規模言語モデルの研究開発・活用がさらに促進され、製品開発や技術革新が進むとしている。

参考:

【産業技術総合研究所】日本語に強い大規模言語モデル「Swallow」を公開-英語が得意な大規模言語モデルに日本語を教える-

© 大学ジャーナルオンライン