ITリーダーによる生成AIニーズに対するLLM以外の模索

生成AIブームが本格化する中、一部のITリーダーたちは、生成AIの初期の人気モデルである大規模言語モデル（LLM）が、より有望な利用ケースに対応するには十分でないと感じ始めている。

LLMは、高度なテキスト理解・生成能力を持ち、生成AIの代名詞的存在となっている。コード生成のコパイロットやテキストから画像を生成するジェネレーターもLLMと拡散処理を組み合わせて活用しており、今日のビジネスにおける生成AIの実験の中心に位置している。

しかし、一部のITリーダーは、すべての問題がLLMで最適に解決できるわけではないと指摘し、次の波として、言語を超えた目的に応じた結果を提供するマルチモーダルモデルを導入している。例えば、スプレッドシートやベクターデータベースに格納された動的な表データ、動画や音声データの処理などである。

マルチモーダル基盤モデルは、テキスト、音声、画像、動画など複数のモードを組み合わせ、画像のキャプション生成や画像に関する質問に答える能力を持つ。IDCの「市場の概要: 生成基盤AIモデル」によれば、Google Gato、OpenAI GPT-4o、Microsoft LLaVA、Nvidia NeVA、Vicuna、BLIP2、Flamingoなどが例として挙げられている。

Northwestern Medicineの先進技術グループは、DellのAIイノベーションチームと協力して、胸部X線画像を解釈し、主要な所見を要約する専用のマルチモーダルLLMを構築した。このモデルにより、患者は以前よりも結果を約80%早く受け取ることができるようになった。次に、NorthwesternとDellは、CTスキャンやMRIのための強化マルチモーダルLLMや、電子医療記録全体に対する予測モデルを開発する予定である。

「このモデルは非常に興味深いです。現時点で多くの人がマルチモーダルを使用しているわけではありません」と、Northwesternの麻酔科医で先進技術ディレクターのMozziyar Etemadi博士は言う。Etemadi博士は、現在のモデルが放射線科医の時間を40%節約し、画像分析能力によりさらに多くの時間を節約していると指摘している。「モデルは通常、LLMと少しのテキストやExcelだけですが、今では画像やX線を処理できるようになりました。素晴らしいことです」

新しいモデルの活用

労働スケジューリングSaaSであるMakeShiftは、ヘルスケア、小売、製造業のクライアントのために複雑な予測スケジューリングを行うために、LLM以外の手法を模索している組織の一つである。

「チャットサポートにはLLMを使用していましたが、ベクターデータや数億行に及ぶ関連データの大規模なグラフィカル構造に入り込み、将来の予測モデルを最適化しようとすると、LLMではどうにもならない」と、MakeShiftのCTO、Danny マクギネスは言う。

代わりに、MakeShiftはMITのスタートアップ、Ikigai Labsが開発した新しい特許出願中の大規模グラフィカルモデル（LGM）を採用している。

「我々は複雑な構造化データと大規模グラフィカルモデルを活用し、それらの相互関係の因果関係と相関を確立しています」とマクギネスは言う。

MakeShiftは、Medico、HSBC、Spirit Halloween、Taager.com、Future Metals、WIOなどの企業とともに、Ikigai Labsのノーコードモデルを表形式および時系列データに展開している。Ikigai Labsは、MITのAIおよびデータサイエンス部門のディレクターであるDevavrat Shahと、Vinayak Rameshによって共同設立され、行と列に整理された表データに対するAIを提供している。同社は過去6か月で従業員数を倍増させ、昨年末には2500万ドルの投資を受けている。

ソフトウェアサービスでコンピュータビジョンとビデオに大きく依存するサービスのために、ビデオをサポートする他の種類のマルチモーダルモデルも出現しており、CIOにとっては特定のニーズに合ったAIモデルを活用するための新しいツールが増えている。

MakeShiftとそのクライアントにとって、スケジューリングは24時間365日の運用や労働組合の規則や集団交渉協定によってもたらされる微妙な要件によって複雑化されたビジネスプロセスである。MakeShiftのエンジニアは昨年からIkigai LabsのAPIやモデルを使用し始め、現在は本格的に生産に入っている。常に変化するデータセットや手順に対応する予測スケジューリングは、LGMベースのAIを使用することで大幅に容易になっているとマクギネスは言う。そして、MakeShiftのAI利用の利益は増え始めている。

「AIが学習することで進化が始まっており、他のデータタイプもこれらのモデルに組み込めることが分かり始めています」とマクギネスは言い、一部の顧客がスケジューリング機能を改善するために追加データを取り込もうとしていることを指摘している。「一つの小売顧客は天気データを取り込むことを検討し始めています。天気予報、大量輸送機関への近接性、店舗内の人の密度などの公開データを組み込むことができます」

Ikigaiのモデルを使用するもう一つの利点は、「相関関係や因果関係に関して考えもしなかったシナリオを表面化させ、データに対して他の質問を持ち上げることができることです」とマクギネスは言う。「最初のヘルスケア顧客の一つは、歴史的スケジューリングの他に、財務取引が関与する特定のプロセスやイベントなどの他のユースケースを検討しています」

もちろん、LLMもマークアップ言語を通じて表形式や他の形式のデータを処理することができると、昨年Mosaicを買収したDatabricksのAI担当副社長であるNaveen Raoは指摘している。

しかし、Ikigaiのような代替モデルの台頭と、より広範に適用可能なLLMで容易に達成できることのグレーゾーンは、現在CIOが直面している生成AI市場の未開拓の状況を浮き彫りにしている。

小型化の方向へ

GartnerのAIアナリストであるArun Chandrasekaranは、LLMがより強力なマルチモーダルモデルに進化することは予測されていたが、そのようなモデルはコストが非常に高いため、ビジネス利用の割合は小さくなると見ている。

「2023年には、テキストとコードを扱うモデルが主流でした」とChandrasekaranは言う。「その後、コンピュータビジョンを持つモデルや、多くの他のモダリティの兆候が見られるようになりました。しかし、基本的にこれらのモデルを構築するには、計算資源とデータ資源の観点から非常に高価です」

代わりに、Chandrasekaranは多くの企業がLLMから進化し、小型化に向かうと見ている。

「これらの非常に強力なモデルは、いくつかの企業利用ケースにおいて確かに役割を果たします」と彼は指摘している。「しかし、価格がモデルのサイズを優先するように定期的に調整されるでしょう。小型モデルはコストが低く、企業が展開しようとするタスクに十分であるからです」

DatabricksのNaveen Raoも同意しており、大規模なモデルを構築するには最大2億ドルのコストがかかると指摘している。そのコストの大部分は、計算力ではなく、モデルの性能を決定するデータラベリングやデータキュレーションにあるという。

Raoは、Mosaicを設立して、より手頃でアクセスしやすいモデルを企業向けに提供することを目指しており、専門化が今後の道だと信じている。

「専門化と一般化の問題です」とRaoは言う。「大規模モデルは、多くのトークンや一般的なテキストと能力で訓練される傾向があります。小規模モデルはその一部であり、一つのことに焦点を当てる傾向があります」

ここで、オープンソースはCIOに優位性を与えることができます、とRaoは言う。

「自分のデータで独自のモデルをゼロから構築するか、既存のオープンソースモデルを取得し、それを自分のデータで微調整し、カスタマイズすることができます」と彼は言う。

Baldor Specialty Foodsは、チーフ情報およびデジタルオフィサーが、バイアスやエラーなしにカスタムソリューションのために訓練できる小型モデルを展開することを目指している組織の一つである。

「小型モデルを使用します。LLMは時々幻覚を起こすからです」と、UPSで数十年にわたりトップのIT職に就いていたSatyan Parameswaranは言う。「モデルを設計するビジネスには入りたくありません。Hugging Faceから小型モデルを取得し、特定のタスクに合わせてカスタマイズできます」

生成AIの新しい方程式

今日、いくつかの企業向けAIベンダーがAIマーケットプレイスで小型モデルを提供しており、C3.ai、Anaplan、Dataiku、Hugging Faceが含まれる。

Ikigai Labsについては、同社の自己記述型LGMは、スプレッドシートのような表形式のタイムスタンプデータに対する確率的表現を提供していると、CEOのShahは言う。モデルが訓練されると、ランダム変数間の関係、欠損データの特定、二つのスプレッドシート間の類似行などを学習し、新しい洞察を促進する。

「これにより、実際にデータをつなぎ合わせることができます」とShahは言い、ユーザーはスプレッドシート内で新しい行を生成することができ、「予測を行う際に、変数が途中で変化した場合、変化点を検出し、異常を捉えることができます」と述べている。

これにより、ユーザーは複数の次元で複数のスプレッドシートからデータを生成し、「データだけで大規模グラフィカルモデルを使用してシミュレーションや合成期間を行い、データから良好で意味のある学習を得ることができます」とShahは言う。

もちろん、これらのモデルをカスタマイズする範囲を決定する上で、コストは主要な要素になる。現在、テキストのみのLLMは膨大な計算力を必要とする。大手チップメーカーやクラウドプロバイダーが、この計算力の供給を増やすことができる半導体を開発する競争をしている中、企業はさまざまな大規模および小規模モデルを実験し、生産に移行して新しい洞察を得て、ビジネスを効率化し革新を進める。

現在、多くの企業がLLMを実験的に活用し、効率が確認されると生産に移行している。LVMおよびLGMの使用はまだ初期段階にあるが、MakeShiftのマクギネスのような早期導入者は成果を見始めている。

「我々は顧客が適切なスキルを持った人を適切なタイミングでスケジューリングするのを支援しようとしています」と彼は言う。「そのためには、労働組合の合意や優先権を考慮に入れたり、場所間の移動や異なる労働組合の合意を考慮したりする必要があります。そのすべての規則を適用し、バーンアウト、残業コストなども考慮しなければなりません」

AIの助けなしでは、このタスクの複雑さと労力は相当なものだとマクギネスは言う。しかし、特定のタスクに焦点を当てた新しいマルチモーダルモデルや小型モデルのおかげで、それが容易になりつつある。