Gemini 2.5シリーズが大幅進化。Deep Thinkや100万トークン対応など

Googleは現地時間5月20日に開催した年次開発者会議「Google I/O 2025」において、同社の次世代AIモデル「Gemini 2.5」シリーズの大規模なアップデートを発表した。

今回のアップデートでは、「Gemini 2.5 Pro」は高度な推論を可能にする「Deep Think」モードや100万トークンの長文対応、「2.5 Flash」には高速性を維持しつつ各種処理性能の向上とトークン使用量の削減などが加わり、両モデルともに音声出力や思考サマリーなどの新機能にも対応するなど、推論性能・ユーザー体験・開発者向け機能の全方位で強化が図られている。

スポンサーリンク

「Gemini 2.5 Pro」向けの強化推論モード「Deep Think」

今回の発表の中でも注目を集めたのが、「Gemini 2.5 Pro」向けに導入される実験的な強化推論モード「Deep Think」だ。これは、モデルが応答を生成する前に複数の仮説を検討し、より深い思考を経て結論を導くという新しい試みで、極めて複雑な数学問題や競技レベルのコーディングタスクに対応することを目的としている。

実際に、Deep Thinkは最も難しい数学のベンチマークの1つであるUSAMOや、LiveCodeBenchといった高度なベンチマークで優れたスコアを記録。マルチモーダル推論を測定するMMMUでも84.0%という高水準のスコアを達成しており、先進的なAI研究における新たな成果として大きな注目を浴びている。

また、2.5 Proはアカデミックベンチマークだけでなく、開発者向けの性能評価でも圧倒的な結果を残している。Webアプリ開発分野の評価指標「WebDev Arena」では、ELOスコア1420を記録して現在トップを独走。様々な次元における人間の好みを評価する「LMArena」でも全リーダーボードで首位を獲得するなど、総合的に見ても最高峰のモデルであることが証明された。

さらに、2.5 Proには最大100万トークンの長文コンテキスト処理能力があり、文章だけでなく動画を含むマルチモーダルな長文理解でも高精度な処理が可能となっている。

なお、Deep Thinkは最先端の技術を追求しているがゆえに、同様に最先端の安全性評価も実施されており、安全専門家からのさらなる意見を得るため、通常よりも時間をかけて慎重に進められている。その一環として、一般公開に先立ち、Gemini API を通じてテスター向けに提供し、フィードバックを募る計画だ。

スポンサーリンク

「2.5 Flash」は推論速度を維持しつつ、トークン使用量を20〜30%削減

速度と効率を重視した「2.5 Flash」も進化を遂げている。従来比で推論速度を維持しつつ、トークン使用量を20〜30%削減。主要なマルチモーダル・コード・長文ベンチマークでも性能が向上し、より実用的なモデルとして強化された。

2.5 Flashは、開発者向けには「Google AI Studio」、企業向けには「Vertex AI」、一般ユーザーには「Gemini」アプリからプレビュー版として提供を開始しており、6月上旬には本番環境向けの一般提供を開始するとしている。

Live APIの改善

新機能としては、音声対話に関する機能強化も大きなトピックのひとつだ。GeminiのLive APIには、ネイティブ音声出力による対話機能が追加され、ユーザーは話し方やアクセント、感情のトーンを指定して、より表現力豊かなAIとの会話体験を得ることが可能となった。

この音声機能は単なるTTS(テキスト読み上げ)にとどまらず、「Affective Dialogue(感情認識対話)」や「Proactive Audio(プロアクティブ音声)」、「Thinking in the Live API(ライブAPIでの思考)」といった実験的機能も搭載されている。背景雑音を無視して必要な応答のみを返したり、感情を読み取って適切に応答したりと、よりインタラクティブで人間らしい対話が可能になる。

なお、2.5 Proと2.5 Flashではテキスト読み上げの精度も向上し、ささやき声のような繊細なニュアンスの再現、24言語以上への対応、話者の切り替えなど、多言語・多声対応の高度な読み上げが可能になっている。このテキスト読み上げ機能は、Gemini APIで本日より順次公開を予定している。

開発者体験の強化

開発者向けの機能面でも多くの改善が見られる。モデルの思考プロセスを可視化する「思考サマリー」や、応答の精度とレイテンシのバランスを最適化する「思考バジェット」の導入がそれだ。思考バジェットでは、応答前に消費するトークン数を指定したり、場合によっては思考機能自体をオフにすることも可能で、処理速度とコスト管理の柔軟性が大きく向上している。

思考バジェット機能を搭載したGemini 2.5 Proは、一般提供モデルとともに、今後数週間以内に本番環境向けに一般提供が開始される予定だ。

関連リンク

(画像:Google)

Google
FOLLOW US
タイトルとURLをコピーしました