OpenAIは5月13日(米国時間)、オンラインでSpring Updateイベントを開催。その中で、フラグシップとなる大規模言語モデル「GPT-4o」を発表しました。
アトラシアン、新AIサービス「Atlassian Rovo」発表。Googleドライブ、GitHub、Slack、Teamsなどを横断してAIが学習、ユーザーを支援
APIでの提供も行い、現行最新モデルのGPT-4 Turboと比べて2倍高速、価格は50%安価に、レートリミットは5倍に拡張されています。
GPT-4oはオーディオ、ビジョンを統合したマルチモーダルLLMで、強力なボイスモードを搭載。イベントで行ったライブデモでは音声で感情豊かに澱みなく回答。ユーザーからの割り込みにも柔軟に対応し、歌いながら答えたり、モバイルChatGPTアプリで英語とイタリア語が混在した会話の通訳をしたり、MacBookで動いているデスクトップ版ChatGPTアプリで画面内のコードやグラフを読み取って分析したりしてみせました。
▲iPhone版ChatGPTアプリでカメラに映した手書きの数式を見せながら音声でやりとり
特に印象的なのは音声での応答スピード。OpenAIによれば、応答時間は最小で232ミリ秒。平均でも320ミリ秒で、これは人間の平均的な会話における応答速度と同程度だとしています。
GPT-4oは世界人口の97%に対応する50カ国語に対応。有料ユーザーだけでなく無料ユーザーにも、今後数週間内に提供する予定です。
GPT-4oは、ChatGPT Plusの購読者はすでに利用できるようになっています。モバイルのChatGPTアプリでも利用可能です。
▲発表はミラ・ムラティCTOが行った
▲複数のボイスを使ってハーモニー
▲二人のGPT-4o同士で会話し、歌う
ジャック・ドーシー、Blueskyからの離脱は「Twitterと同じ過ちを繰り返しているから」とインタビューで述べる
Googleが“一歩先の未来を予知”できる時系列予測AI基盤モデル「TimeFM」公開、LSTMの進化形「xLSTM」など重要論文5本を解説(生成AIウィークリー)
AIの新星ニューラルネットワーク「KAN」とは? LLMが“カンニング”して評価を盛ってた? など重要論文5本を解説(生成AIウィークリー)