OpenAI、｢GPT-4o｣発表。まるで人間と話しているかのような自然な受け答えができる新しい生成AIモデル、無料ユーザーも利用できる

現地時間5月13日、米OpenAIは新しい大規模言語モデル｢GPT-4o｣を発表した。

｢GPT-4o｣はOpenAIが開発した、テキストや音声、画像・映像の入力に対応する、最新フラグシップモデルだ。名称に入っている｢o｣は｢omni｣の略で、｢GPT-4o｣のマルチモーダルな性質を表している。

知能レベルは、既存の大規模言語モデル｢GPT-4 Turbo｣と同等くらいであるものの、テキストや音声、画像・映像の入力に対する処理能力を向上したほか、高速化を行っているのが特徴となる。

大規模言語モデル｢GPT-4o｣発表。本日から順次リリース

OpenAIによると、APIの処理速度は現行最新である大規模言語モデル｢GPT-4 Turbo｣に比べて2倍高速になっているとのこと。音声入力の応答速度は最小で232ミリ秒、平均で320ミリ秒。これは人間の会話における応答と同程度の速度であるという。

デモンストレーションでは、音声での質問に対して流暢に回答しただけでなく、食い気味で入ってきた質問についてもしっかりと聞き取り、正確な返答をしてみせた。また、英語とイタリア語が混在した会話において通訳を務めたり、紙に書いた数式の問題をスマートフォンのカメラを通じて認識し、問題を解いてみせるなど、高い性能を示した。