Google、新たな生成AIモデル｢Gemini｣発表。｢Pixel 8 Pro｣にも導入しスマホのAI機能も強化へ

現地時間12月6日、Googleは次世代の生成AIモデル｢Gemini｣を正式に発表した。

｢Gemini｣は、今年5月に開催された｢Google I/O 2023｣で発表されていた次世代のAI。当初は、開発中であることのみが明らかにされており、ローンチ時期についてはアナウンスされていなかった。

｢Gemini｣の特徴は、”マルチモーダルになるようネイティブに構築されており、これまでに比べて最も柔軟なモデル” になっているという。マルチモーダルな処理においては、GPT-4Vに比べてさまざまな点において高い性能を発揮できるとしている。

Googleデータセンターに並ぶCloud TPU v5p AIアクセラレータスーパーコンピューター

マルチモーダルとは、画像や動画、音声、テキストなど複数種類のデータを同時に処理すること。例えば我々人間が誰かと会話するときには、相手の表情を見たり、声のトーンを聞くことで、相手の感情を読み取ることができる。このとき人間は、相手の表情を｢見て｣得た情報と、相手の声のトーンを｢聞いて｣得た情報の2つを組み合わせて総合的に判断することで、相手が楽しそうに会話をしているのか、悲しそうに会話をしているのかを判断している。

これがいわゆるマルチモーダルな処理で、Geminiも人間と同じように見たものや聞いたもの、書かれたものなどの情報を組み合わせて思考することで、従来のAIよりも柔軟で的確な返答ができるのが特徴だ。

以下の動画では、Geminiとの会話テストの様子を見ることができる。

今回ローンチされる｢Gemini｣は、まずはファーストバージョン｢Gemini 1.0｣としてリリースされる。そして、モデルの規模にあわせて3つのモデル｢Gemini Ultra｣｢Gemini Pro｣｢Gemini Nano｣が用意される。

Gemini Ultra：非常に複雑なタスクに対応する、高性能かつ最大のモデル
Gemini Pro：幅広いタスクに対応する最良のモデル
Gemini Nano：デバイス上のタスクに最も効率的なモデル

そのうち｢Gemini Ultra｣は、とても複雑なタスクを処理できる高性能かつ最大のモデル。｢Gemini Pro｣は、幅広いタスクをこなせる中規模モデル、そして｢Gemini Nano｣はスマートフォンに搭載されているNPUを利用して動作する効率モデルだ。

｢Gemini Pro｣については、12月13日より開発者や企業がGoogle AI StudioまたはVertex AIのGemini APIを介してアクセスできるようになる。

また、GoogleのAIチャットサービス｢Bard｣ (英語版のみ) にも本日より実装され、Bardができることが大幅に向上するという。今後数ヶ月以内にはさまざまなマルチモーダルなデータに拡大する予定で、新しい場所や言語をサポートする計画だという。さらに今後数ヶ月をかけて、Google 検索や広告、Chrome、Duet AIなどのGoogleの主要製品やサービスでも利用できるようになるとのことだ。

｢Gemini Nano｣については、デベロッパーがAICoreを通じて利用することが可能。Googleの最新スマートフォン｢Pixel 8 Pro｣以降において、早期プレビューというかたちで利用できるようになる。

｢レコーダーアプリ｣に要約機能が実装されるほか、Gboardのスマートリプライにも導入される。後者はまずWhatsAppから展開され、来年にはさらに多くのメッセージングアプリに対応する予定だ。

｢Gemini Ultra｣は、広範な信頼性および安全性チェックを実施すると同時に、展開前のファインチューンと人間のフィードバックによる強化学習 (RLHF) によって、モデルのさらなる改良を行なっているところだという。2024年に開発者・企業向けに公開する前に、初期実験およびフィードバックの収集を目的に一部の顧客や開発者、パートナー、安全責任専門家に提供を開始する予定だ。

さらに来年には、｢Bard｣に｢Gemini Ultra｣を導入し、さらなる最先端機能にアクセスできる｢Bard Advanced｣もリリースする計画であるとのこと。

Google Japan Blog: 最大かつ高性能 AI モデル、Gemini を発表 – AI をすべての人にとってより役立つものに

Google Japan Blog: 初の AI 内蔵スマートフォン、Google Pixel 8 Pro にて Gemini の実行開始。Google Pixel ポートフォリオにさらなる AI アップデートを追加