アングル:シンガポールが「東南アジア」AIモデル開発、格差是正狙う

Rina Chandran

[シンガポール 8日 トムソン・ロイター財団] - 「チャットGPT」などの生成AI(人工知能)が基盤とする「大規模言語モデル(LLM)」は、大半が英語を軸に作られており、東南アジアなどの言語ではうまく動作しないことが多い。生成AIの出現によって教育や仕事、統治のあり方が大きく変わる中、こうしたAI格差によって取り残されるのを避けようと、シンガポールなどで独自の生成AIの開発が始まっている。

シンガポール政府が主導して設立されたAI推進機関、AIシンガポールはこのほど、東南アジアの言語や文化的規範で訓練したAIモデル「SEA-LION(Southeast Asian Languages in One Network)」を開発した。

AIシンガポールのAI製品担当シニアディレクター、レスリー・テオ氏によると、SEA─LIONはベトナム語、タイ語、インドネシア語など11の東南アジア言語のデータで訓練されたオープンソースモデルで、同地域の企業、政府、学界にとってより低コストで効率的な選択肢となる。「大手のLLMと競おうとしているわけではない。大手の足りないところを補い、もっと私たちに合ったものにしようとしている」とテオ氏は語る。

世界には7000を超える言語がある。言語によるAI格差を埋めるための開発は、世界各地で進んでいる。

インドは現地言語のデータ群の作成に取り組み、アラブ首長国連邦(UAE)はアラビア語の生成AIツールを開発。中国、日本、ベトナムでも現地言語のAIモデルが開発されている。

オクラホマ州立大学コミュニケーション学部の準教授、ヌウリアンティ・ジャリ氏は「こうしたモデルは、大手ハイテク企業によって寡占されている世界のAI経済に、各地域の人々がより公平に参加するのに役立つ」と評価。地域言語によるLLMは各地域が技術面で自立するのに役立ち、欧米のLLMへの依存を減らすことは、こうした地域のプライバシーの向上に資する上、特定の国や地域の利益にも合致すると言う。

<検証と選別>

一度に複数の言語のテキストで訓練した多言語モデルは、より多くのデータがある「高リソース言語」とデータの少ない「低リソース言語」の間にある意味や文法のつながりを推測することが可能だと研究者は指摘する。こうしたモデルは顧客対応チャットボットにおける翻訳から、ソーシャルメディア上に低リソース言語で投稿されたヘイトスピーチ(憎悪表現)の監視まで、さまざまに応用できる。

テオ氏によると、SEA-LIONはデータに占める東南アジア言語の比率が約13%と、他の全ての主要LLMよりも高い。中国語の比率は9%強で英語は約63%だ。

多言語モデルは、翻訳テキストなど、間違っている可能性のある質の低いデータで訓練されている場合が多いため、AIシンガポールはSEA-LIONの訓練に使用するデータについて「慎重に」検証や選別を行っているという。

<データの偏り>

一方、現地言語でLLMを構築する国や地域が増えるにつれて、オンライン上で支配的な意見だけがモデル上で再生産されるのではないかと専門家は警戒している。権威主義的な政府や厳しいメディア検閲がある国、市民社会が整っていない国でこうした点は特に問題になり得る。

例えば中国のソーシャルメディア・プラットフォームは天安門事件や政府批判を検閲しており、東南アジアの一部の国は、人を惑わすと当局が判断したコンテンツを制限する法律を制定している。「こうしたデータに基づいてモデルを訓練することで、偏った、偏見に満ちた、不完全な、さらには誤解を招くストーリーを根付かせてしまう危険性がある」とジャリ氏は言う。

例えば、インドネシアのスハルト元大統領について質問したところ、米メタ・プラットフォームズのLLaMA(ラマ)2と米オープンAIのGPT―4はスハルト氏の人権問題についての記録に触れたが、SEA-LIONはその功績に焦点を当てた。

米国の非営利団体センター・フォー・デモクラシー・アンド・テクノロジーの政策アナリスト、アリヤ・バティア氏は「ある政府について好意的な記事だけで訓練した場合、そのモデルは政府が良い面ばかりだという世界観を採用し、反対意見を置き去りにしてしまう可能性が高い」と問題点を指摘した。

「現地言語のLLMは、その言語を話す人々の言語的・文化的ニュアンスをより良く反映するかもしれないが、世界全体についての情報は少ないかもしれない。政府が支援するモデルでは歴史修正主義的な見方が植え付けられ、民主主義的な価値観が損なわれる恐れがある」という。

これに対し、裕福でリベラルな欧米民主主義国家から「不釣り合いに大きな影響」を受けている欧米のLLMに全面的に依存すれば、文化的価値観、政治的信条、社会規範についてさまざまな偏見を永続させることになるとAIシンガポールは反論している。

テオ氏は「こうしたLLMには米西海岸特有のバイアスがあり、『意識高い系』に寄り過ぎている。われわれの文化を代表するものではない」とした上で、「私たちの視点が唯一だと言っているわけではない。バランスを取ろうとしているだけだ」と付け加えた。

© ロイター