当メディアはアフィリエイトプログラムによる収益を得ています

OpenAI、「GPT-4o」 発表。まるで人間と話しているかのような自然な受け答えができる新しい生成AIモデル、無料ユーザーも利用できる

▼ iPhone 15/15 Proの購入は公式オンラインショップから!

現地時間5月13日、米OpenAIは新しい大規模言語モデル 「GPT-4o」 を発表した。

「GPT-4o」 はOpenAIが開発した、テキストや音声、画像・映像の入力に対応する、最新フラグシップモデルだ。名称に入っている 「o」 は 「omni」 の略で、「GPT-4o」 のマルチモーダルな性質を表している。

知能レベルは、既存の大規模言語モデル 「GPT-4 Turbo」 と同等くらいであるものの、テキストや音声、画像・映像の入力に対する処理能力を向上したほか、高速化を行っているのが特徴となる。

大規模言語モデル 「GPT-4o」 発表。本日から順次リリース

OpenAIによると、APIの処理速度は現行最新である大規模言語モデル 「GPT-4 Turbo」 に比べて2倍高速になっているとのこと。音声入力の応答速度は最小で232ミリ秒、平均で320ミリ秒。これは人間の会話における応答と同程度の速度であるという。

デモンストレーションでは、音声での質問に対して流暢に回答しただけでなく、食い気味で入ってきた質問についてもしっかりと聞き取り、正確な返答をしてみせた。また、英語とイタリア語が混在した会話において通訳を務めたり、紙に書いた数式の問題をスマートフォンのカメラを通じて認識し、問題を解いてみせるなど、高い性能を示した。

「GPT-4o」 は本日より順次ChatGPTで利用できるようになるほか、開発者向けにはAPIの提供もはじめる。対応言語は50。

ChatGPTにおける 「GPT-4o」 は段階的にリリース予定で、まずは本日よりテキストおよび画像による入力と、テキスト出力機能がリリースされる。

無料ユーザーも利用可能だが、やり取りできるメッセージ数に上限が設けられる。Plusユーザーはメッセージ制限が無料ユーザーの最大5倍に緩和され、TeamやEnterpriseユーザーはさらに制限が緩和されるとのこと。制限に達した場合は、自動的にGPT-3.5に移行する。

GPT-4oのVoiceモードについては数週間以内にα版がリリースされ、Plusユーザー向けには早期アクセスが提供予定。

開発者向けのAPIについては、現時点でテキストと画像機能にアクセス可能。音声およびビデオ機能は、信頼できる一部パートナー向けに今後数週間のうちにサポートを開始する予定だ。

さらに、ChatGPTはこれまでブラウザおよびスマートフォン版アプリで提供されてきたが、新たにデスクトップ向けアプリケーションの提供を開始する。詳細はこちらの記事へ。

関連記事
ChatGPTのデスクトップアプリがWindowsとMacに登場へ。「GPT-4o」 も今後利用可能に

(画像:OpenAI)

▼ iPhone 15/15 Proの購入は公式オンラインショップから!

(当サイトで使用している画像は、いずれも正しい形での引用を行うか、各権利者に許諾を得て掲載しています。)

この記事が気に入ったら「いいね!」しよう
AuthorNANA

東北出身の東京都在住(性別年齢は非公開)。趣味はガジェットいじり、旅行や料理、映画、ゲーム。イモリやサンショウウオが好きなので、家でよく愛でています。

同メディアで取り扱う情報は主にインターネットテクノロジー関連、AppleやGoogleなどの新製品やサービス。その他、今最も興味があるのは「VR/AR」「スマートスピーカー」。