当メディアはアフィリエイトプログラムによる収益を得ています

「かこって検索」 で数式を解けるように。Gemini Nanoのマルチモーダル対応などでAndroidが進化へ

現地時間5月14日、米Googleは年次開発者会議 「Google I/O 2024」 を開催。同イベントの基調講演のなかで、Geminiを利用したAndroid OSのAI機能に関する発表を行った。

「かこって検索」 で数学の問題が解けるようになる他、詐欺電話に対して警告画面を表示するなどの新機能を新たに追加する。

スポンサーリンク

「かこって検索」 で数学・物理の問題を解いてもらえるように

まずは 「かこって検索」 機能のアップデートについて。Googleの 「Pixel」 シリーズや、Samsungの 「Galaxy」 シリーズで利用できるAI検索機能 「かこって検索」 機能。調べたいものを指でくるっと囲むことで、囲んだものを検索できる機能だが、新たに数学や物理の問題を解いてもらうことが可能に。宿題や普段の勉強の際に役立ちそうだ。

この機能は、「かこって検索」 が宿題や日常的な学習の際に使用されることが多いことから開発に至ったとのこと。ただし、単に回答を示すのではなく、その問題の解法が表示されるため、学習に役立てることができるという。

また、2024年後半からは図やグラフにも対応し、より複雑な問題を解くこともできるようになる予定。

本機能は、同時に発表されたAIモデル 「Learn LM」 を利用し実現している。当初は、英語環境でのみ利用できるとのことだ。

スポンサーリンク

GeminiがAndroidに統合。より多くのアプリで便利に活用可能に

「Gemini」 アプリがAndroidに統合され、ユーザーが利用している他のアプリの上にオーバーレイ表示されるようになり、より便利に使えるようになる。

たとえば、Geminiに生成してもらった画像をGmailやメッセージアプリにドラッグ&ドロップしたり、「このビデオに尋ねる」 をタップしてYouTubeの動画の内容について検索したり。

Geminiの有料プラン 「Gemini Advanced」 ユーザーであれば、PDFの内容について質問することもできる。このアップデートは、今後数ヶ月で展開予定だ。

Gemini Nanoがマルチモーダルに対応

Googleの生成AI 「Gemini」 のなかでも、スマートフォンに搭載されているNPUを利用して動作する効率モデル 「Gemini Nano」 は、新たにマルチモーダルに対応する。これまではテキストを主に対応してきたが、マルチモーダル機能に対応することでテキスト以外にも音声や画像、動画なども処理することが可能になる。

マルチモーダルに対応することで、最も期待されるのがAndroidの 「TalkBack」 の利便性向上だ。

「TalkBack」 はAndroidの視覚障碍者向けの機能で、一例として、画面上のテキストを読み上げる機能が備わっている。しかし、ラベルのない画像に遭遇した際には、すべての内容を理解することができない。

それを解決するのがGemini。その画像に写っているものが何なのか説明してもらうことができる。家族や友人から送られてきた写真や、オンラインショッピング時の服のスタイルやカットなど、欠けている情報が補完されるようになる。

この機能は2024年後半から提供が開始される予定。オンデバイスで動作するため、ネットワークがない状態でも利用できる。

詐欺電話の内容をリアルタイムで 「警告」

詐欺電話に対する便利機能。通話中に、詐欺と思われる不審な会話を検知した際に、警告を表示してくれるというものだ。

たとえば、銀行の担当者が緊急で資金を振り込むように求めたり、ギフトカードでの支払いを求めたり。カードのPINやパスワードなど個人情報を要求する場合にもアラートが表示される。オレオレ詐欺の防止にも役立つかもしれない。

この機能は、「Gemini Nano」 による完全なるオンデバイス処理によって実現しているため、プライバシーに関する問題もクリアされる。本機能の詳細は2024年後半に明らかにされる予定だ。

(画像:Google)