NVIDIA、大規模言語モデルを活用するツールを提供。人間の言語の学習以外にも応用

AIアプリケーションは、記事を要約したり、ストーリーを作成したり、また、長めの対話にも対応するようになっている。そこでは重要な役割を担っているのが大規模言語モデルだという。

大規模言語モデル（LLM）は、膨大なデータセットから得た知識に基づいて、テキストやその他のコンテンツを認識、要約、翻訳、予測、生成できるディープラーニングアルゴリズムを指す。

大規模言語モデルは、Transformerモデルの最も成功した応用例の一つとなっている。それはAIに人間の言語を教えるためだけでなく、タンパク質の研究やソフトウェアコードの生成など、さまざまな場面で活用されているという。

翻訳、チャットボット、AIアシスタントといった自然言語処理アプリケーションの高速化に加え、大規模言語モデルは、ヘルスケア、ソフトウェア開発、またその他多くの分野で利用されている。

大規模言語モデルの用途

言語は、人間によるコミュニケーション以外にも使われている。コードはコンピューターの言語であり、またタンパク質や分子の配列は生物学の言語だ。大規模言語モデルは、このような意味での言語や、異なる種類のコミュニケーションが必要とされるシナリオにも応用可能だとしている。

これらのモデルは、産業や企業の枠を超えてAIの活用範囲を広げ、世界が抱える難題に対する複雑な解決策を導くのに貢献できるとして、研究や創造性、生産性に新たな波を起こすと期待されているという。

例えば、大規模言語モデルを使用するAIシステムは、分子やタンパク質の構造のデータベースから学習し、その知識を利用して、科学者が画期的なワクチンや治療法を開発するのに役立つ現実的な化学化合物を提示することができる。

大規模言語モデルは、新しい検索エンジン、個別指導用チャットボット、歌や詩、物語、マーケティング資料などの作成ツールなどにも役立っている。

大規模言語モデルの仕組み

大規模言語モデルは、膨大な量のデータから学習する。その名前が示すように、LLMには学習させるデータセットの大きさが重要だが、「大規模」の定義は、AIとともに拡大しているという。

現在では通常、大規模言語モデルは、長期間にわたってインターネット上に書き込まれたほぼすべてのものを含むほど大規模なデータセットを用いてトレーニングされる。

このような大量のテキストは、教師なし学習を使ってAIアルゴリズムに送り込まれる。教師なし学習とは、モデルに対して何をすべきかという明確な指示がないままデータセットが与えられることをいう。この方法により、大規模言語モデルは、単語だけでなく、単語間の関係やその背後にある概念も学習するのだという。例えば、「bark」という単語が持つ2種類の意味（樹皮、もしくは犬等の吠え声）を文脈から区別できるようになる。

ある言語を習得した人が、文や段落の中で次に何が出てくるかを推測できるように、または自ら新しい単語や概念さえも生み出すように、大規模言語モデルはその知識を応用して、コンテンツを予測し、生成できるという。

また、大規模言語モデルは、ファインチューニングやプロンプトチューニングといった手法により、特定のユースケースに合わせてカスタマイズすることも可能。これは、モデルに小さなデータを与えて集中的に学習させ、特定の用途に対応させるというプロセスになるという。

シーケンスを並列処理する際の計算効率の高さにより、Transformerモデルアーキテクチャは、最大規模かつ最も強力なLLMを支える基本的な要素だとしている。

大規模言語モデルの主な用途

大規模言語モデルは、検索エンジン、自然言語処理、ヘルスケア、ロボティクス、コード生成などの分野で新たな可能性を切り開いている。人気のAIチャットボット「ChatGPT」は、大規模言語モデルの一つの応用例で、無数の自然言語処理タスクに利用することができる。

LLMの用途はほぼ無限で、以下のような事例が示されている。

小売業者やその他のサービスプロバイダは、大規模言語モデルを利用することで、動的なチャットボットやAIアシスタントなどを通じて、より優れた顧客体験を提供できる
検索エンジンは、大規模言語モデルを使用して、より直接的で人間に近いレスポンスを提供できる
ライフサイエンス分野の研究者は、大規模言語モデルを学習させて、タンパク質、分子、DNA、RNAについての理解を深めることができる
開発者は、大規模言語モデルを用いてソフトウェアを開発したり、ロボットに物理的なタスクを教えたりすることができる
マーケティング担当者は、大規模言語モデルを学習させて、顧客のフィードバックや要望をクラスタに整理したり、製品説明をもとに製品をカテゴリ別に分類したりできる
ファイナンシャルアドバイザーは、大規模言語モデルを用いて、決算報告の要約や重要な会議の議事録を作成可能。また、クレジットカード会社は、消費者保護を目的とした異常検知や不正行為の分析に活用できる
法務チームは、大規模言語モデルを使用して、用語の法的な言い換えや法律文書作成が可能になる

これらの巨大なモデルを実際の運用環境で効率的に実行するには、リソースが多くかかったり、専門知識が求められるなどの課題があるため、多くの企業がNVIDIA TritonInference Serverを利用しているとしている。NVIDIA Triton Inference Serverは、モデルの展開を標準化し、高速で拡張性の高いAIを実運用環境で実現するソフトウェアだという。

大規模言語モデルの入手先

2020年6月、OpenAlは1,750億ものパラメータを用いたモデルを搭載し、短い文章の入力だけで、テキストやコードを生成できるGPT-3が、サービスとしてリリースされた。

2021年、NVIDIAとマイクロソフトは、読解と自然言語推論のための世界最大級のモデル「Megatron-Turing NLG 530B」を開発し、要約やコンテンツ生成などの作業を容易にした。

HuggingFaceは昨年、46種類の自然言語と十数種類のプログラミング言語でテキストを生成できるオープン大規模言語モデル、「BLOOM」を発表している。

また、同じくLLMであるCodexは、ソフトウェアエンジニアなどの開発者向けに、テキストをコードに変換するサービスを提供している。

NVIDIAは、大規模言語モデルの構築と展開を容易にする以下のようなツールを提供している。

NVIDIA NeMo LLMサービスは、NVIDIAのマネージドクラウドAPIやプライベートおよびパブリッククラウドを利用して、大規模言語モデルをカスタマイズし、大規模に展開するための迅速な手段を提供
NVIDIA AIプラットフォームの一部であるNVIDIA NeMo Megatronは、大規模言語モデルの学習と展開を簡単かつ効率的、またコスト効率の良いものにするためのフレームワーク。エンタープライズアプリケーションの開発用に設計されたNeMo Megatronは、自動分散データ処理、GPT-3やT5を含む大規模でカスタマイズされたモデルタイプの学習、およびこれらのモデルの大規模な展開を可能にするエンドツーエンドのワークフローを提供
NVIDIA BioNeMoは、低分子、DNA、RNAにおける大規模言語モデルのためのドメイン特化型マネージドサービスとフレームワーク。スーパーコンピューター規模で、大規模な生体分子Transformer Alモデルを学習し、展開するために、NVIDIA NeMo Megatron 上に構築されている

大規模言語モデルの課題

大規模言語モデルの拡張や保守には困難が伴い、コストもかかるとしている。基礎となる大規模言語モデルの構築には、数カ月におよぶ学習期間と数百万ドルの費用が必要になることも少なくないという。

また、LLMは膨大な量の学習データを必要とするが、開発者や企業にとって、十分な量のデータセットを入手することは困難だ。大規模言語モデルは、その規模ゆえに、展開にはディープラーニング、Transformerモデル、分散ソフトウェアやハードウェアへの深い理解など、技術的な専門知識が必要となる。

大規模言語モデルへのアクセスを広げ、消費者やあらゆる規模の企業がその恩恵を享受できるよう、技術分野の多くのリーダーが、開発の推進とリソースの構築に取り組んでいるという。

▶︎NVIDIA