東京工業大学と産総研、日本語に強い大規模言語モデル「Swallow」を公開

東京工業大学の研究チームと産業技術総合研究所は、日本語能力に優れた生成AIの基盤である大規模言語モデル「Swallow」を公開した。日本語に対応した大規模言語モデルとしては最大規模であり、オープンで商用利用が可能だ。

近年、OpenAIのChatGPTやGPT-4、GoogleのPaLM 2やGeminiなど、大規模言語モデルの研究開発が急速に進展している。日本語に強い大規模言語モデルの開発も進んでいるが、オープンかつ高性能な大規模言語モデルは少なかった。

Meta AIが開発したLlama 2シリーズは英語で高い性能を示すが、日本語の読み書きは苦手だ。そこで、研究チームではLlama 2のいくつかのモデルをベースにした大規模言語モデル「Swallow」を構築。学習済みの大規模言語モデルに追加で事前学習を行う手法（継続事前学習）により日本語に関して高い性能が示された。

また、Llama 2は英語重視モデルのため、日本語の主要な単語や文字が語彙に含まれず、テキストが不自然な単位（トークン）に区切られ、テキストをより多くのトークンで表現してしまい、学習や生成の効率が低下し計算コストが増大する。日本語の文字や単語などの語彙（言語モデルが扱えるトークンの集合）を追加することで、日本語テキストのトークン長を56.2%に削減した。

さらに、研究チームでは非営利団体Common Crawlから配布されているアーカイブから日本語のテキストを独自に抽出・精錬し、約3,121億文字（約1.73億ページ）からなる日本語ウェブコーパスを構築。日本語の言語モデルの商用利用可能な学習コーパスの中で最大となった。

日本語に強くオープンな大規模言語モデルが登場したことで、日本での大規模言語モデルの研究開発・活用がさらに促進され、製品開発や技術革新が進むとしている。

参考：

【産業技術総合研究所】日本語に強い大規模言語モデル「Swallow」を公開－英語が得意な大規模言語モデルに日本語を教える－

東京工業大学と産総研、日本語に強い大規模言語モデル「Swallow」を公開

関連記事

NECと東北大学病院、医療現場での生成AI活用の有効性を実証

原子力人材の養成を通じて、未来のエネルギー政策に貢献したい ～東京都市大学 工学部 原子力安全工学科

テンプル大学ジャパンキャンパス主催「日本人教員のための英語研修プログラム」、146名が受講

国家公務員総合職試験 合格者数の大学別ランキングに異変あり

清泉女学院大学・短期大学が2025年4月から共学化 「清泉大学」へ名称変更

原子力人材の養成を通じて、未来のエネルギー政策に貢献したい　～東京都市大学工学部原子力安全工学科

国家公務員総合職試験合格者数の大学別ランキングに異変あり

清泉女学院大学・短期大学が2025年4月から共学化　「清泉大学」へ名称変更