Copilot Visionが提供開始。ユーザーが見ているコンテンツをAIが視覚的に認識して支援

Microsoftは「Copilot Vision on Windows」の米国での提供開始を発表した。これは、ブラウザやフォトビューア、Wordなど、ユーザーが現在見ているアプリやブラウザのコンテンツをAIが視覚的に認識し、リアルタイムで支援する新機能だ。Copilotとしては初めて、アプリケーションのUIと直接連動しながら、文脈に応じたナビゲーションや補助を提供する。

2画面共有とハイライトが可能にするコンテキスト重視のアシスト

これまでのCopilotは、主に入力されたテキストやドキュメントに基づく生成型AIだったが、Copilot Visionはそれを一歩進め、ユーザーが今見ている画面を素材にすることで、より直感的で文脈密度の高い支援が可能になる。

対象はブラウザ、写真ビューア、Word文書など多岐にわたり、作業アプリを選択することでそのウィンドウの内容をAIが読み取ってアシストする。

Copilot Visionでは、同時に2つのアプリケーションを共有できるため、ユーザーは複数のウィンドウを行き来しながら作業する場面でも、Copilotがその全体像を把握した上で適切なガイドを行ってくれる。たとえば、ブラウザで旅行先の情報を見ながら、別ウィンドウでパッキングリストを開いている場合、Copilotは気候やアクティビティに応じた持ち物の提案までしてくれる。

さらに、「この作業のやり方を教えて」とCopilotに尋ねることで、対象のアプリ内の該当ボタンや操作箇所を視覚的に示してくれる「ハイライト機能」も利用可能だ。ゲームプレイ中にヒントを提供したり、写真編集アプリでライティング調整をするなど、操作を視覚的に支援する使い方ができる。

Copilot Visionの起動はシンプルで、Windows上のCopilotアプリを開き、コンポーザーに表示されるメガネアイコンをクリックし、対象のアプリまたはウィンドウを選んで質問や依頼を投げかけるだけ。終了時は「Stop」または「X」をクリックすることで共有を停止できる。

Copilot VisionはWindows 10および11で利用できる。現在は米国のみの提供だが、まもなく欧州以外の他地域にも順次展開される予定だ。