現地時間12月6日、Googleは次世代の生成AIモデル 「Gemini」 を正式に発表した。
「Gemini」 は、今年5月に開催された 「Google I/O 2023」 で発表されていた次世代のAI。当初は、開発中であることのみが明らかにされており、ローンチ時期についてはアナウンスされていなかった。
「Gemini」 の特徴は、”マルチモーダルになるようネイティブに構築されており、これまでに比べて最も柔軟なモデル” になっているという。マルチモーダルな処理においては、GPT-4Vに比べてさまざまな点において高い性能を発揮できるとしている。
マルチモーダルとは、画像や動画、音声、テキストなど複数種類のデータを同時に処理すること。例えば我々人間が誰かと会話するときには、相手の表情を見たり、声のトーンを聞くことで、相手の感情を読み取ることができる。このとき人間は、相手の表情を 「見て」 得た情報と、相手の声のトーンを 「聞いて」 得た情報の2つを組み合わせて総合的に判断することで、相手が楽しそうに会話をしているのか、悲しそうに会話をしているのかを判断している。
これがいわゆるマルチモーダルな処理で、Geminiも人間と同じように見たものや聞いたもの、書かれたものなどの情報を組み合わせて思考することで、従来のAIよりも柔軟で的確な返答ができるのが特徴だ。
以下の動画では、Geminiとの会話テストの様子を見ることができる。
今回ローンチされる 「Gemini」 は、まずはファーストバージョン 「Gemini 1.0」 としてリリースされる。そして、モデルの規模にあわせて3つのモデル 「Gemini Ultra」 「Gemini Pro」 「Gemini Nano」 が用意される。
- Gemini Ultra:非常に複雑なタスクに対応する、高性能かつ最大のモデル
- Gemini Pro:幅広いタスクに対応する最良のモデル
- Gemini Nano:デバイス上のタスクに最も効率的なモデル
そのうち 「Gemini Ultra」 は、とても複雑なタスクを処理できる高性能かつ最大のモデル。「Gemini Pro」 は、幅広いタスクをこなせる中規模モデル、そして 「Gemini Nano」 はスマートフォンに搭載されているNPUを利用して動作する効率モデルだ。
「Gemini Pro」 については、12月13日より開発者や企業がGoogle AI StudioまたはVertex AIのGemini APIを介してアクセスできるようになる。
また、GoogleのAIチャットサービス 「Bard」 (英語版のみ) にも本日より実装され、Bardができることが大幅に向上するという。今後数ヶ月以内にはさまざまなマルチモーダルなデータに拡大する予定で、新しい場所や言語をサポートする計画だという。さらに今後数ヶ月をかけて、Google 検索や広告、Chrome、Duet AIなどのGoogleの主要製品やサービスでも利用できるようになるとのことだ。
「Gemini Nano」 については、デベロッパーがAICoreを通じて利用することが可能。Googleの最新スマートフォン 「Pixel 8 Pro」 以降において、早期プレビューというかたちで利用できるようになる。
「レコーダーアプリ」 に要約機能が実装されるほか、Gboardのスマートリプライにも導入される。後者はまずWhatsAppから展開され、来年にはさらに多くのメッセージングアプリに対応する予定だ。
「Gemini Ultra」 は、広範な信頼性および安全性チェックを実施すると同時に、展開前のファインチューンと人間のフィードバックによる強化学習 (RLHF) によって、モデルのさらなる改良を行なっているところだという。2024年に開発者・企業向けに公開する前に、初期実験およびフィードバックの収集を目的に一部の顧客や開発者、パートナー、安全責任専門家に提供を開始する予定だ。
さらに来年には、「Bard」 に 「Gemini Ultra」 を導入し、さらなる最先端機能にアクセスできる 「Bard Advanced」 もリリースする計画であるとのこと。
Google Japan Blog: 最大かつ高性能 AI モデル、Gemini を発表 – AI をすべての人にとってより役立つものに
(画像:Google)