OpenAI、次世代大規模言語モデル｢GPT-4｣発表。テキスト・画像の入力に対応したマルチモーダルモデルに

現地時間3月14日、OpenAIは次世代大規模言語モデル｢GPT-4｣を発表した。

｢GPT-4｣は、イーロン・マスクなど、米国起業家・投資家が集まり、2015年に設立した非営利団体OpenAIが開発したAIチャットボット｢ChatGPT｣の次世代言語モデル。

｢ChatGPT｣は、これまで｢GPT-3.5｣という言語モデルアーキテクチャに基づき、主にテキストでの質問に対して、テキストでの出力(返答)が可能だったが、テキストだけではなく画像による入力も受け付け、出力(返答)はテキストで返すマルチモーダルモデルになったという。

また、人間よりも能力は劣るものの、さまざまな専門的・学術的ベンチマークでは人間レベルに近い性能を発揮するとのこと。例えば、模擬的な法律試験であれば、GPT-4はテスト受験者のトップ10％程度のスコアを叩き出すことができる。一方、GPT-3.5のスコアは下位10％程度だった。

OpenAIは、過去6ヶ月間にわたってGPT-4を反復的に調整し、過去のアドバーサリーテストプログラムやChatGPTからの教訓を活用して、事実性、操作性、保護枠外の排除などの面でm過去最高の結果を得ることができたとしている。ただし、完全に完璧というわけではなく、まだ改善の余地は残されているとも記している。

OpenAIは、過去2年間ディープラーニングスタック全体を再構築し、Azureと共同でワークロード用のスーパーコンピュータを一から設計した。そして1年前、システムの最初の動作試験としてGPT-3.5をトレーニング。その結果、いくつかのバグを発見・修正を行った結果、理論的な基礎を改善することに成功した。その結果、今回発表されたGPT-4は、GPT-3.5以上の安定感とパフォーマンスを持った言語モデルになっているという。より創造力に溢れ、細かい指示もできるようになったという。一般的な会話においては劇的な進化は少ないかもしれないが、より複雑な質問をしたときなどには違いが感じられるかもしれない。

GPT-4のテキスト入力機能は、ChatGPT PlusとAPIとしても利用が可能だ。画像入力機能については、まずは1社のパートナー企業と連携を図りながら普及に向けた準備を進めているとしている。

また、言語モデルの性能を自動評価するフレームワーク｢OpenAI Evals｣についてもオープンソース化することで、誰でもAIモデルの欠点を報告できるようにするなど、フィードバックを得られる体制も作るとしている。