Apple、次世代AI基盤「Apple Foundation Models」第3世代を発表。最大200億パラメータ規模のモデルをiPhone上でも動かせる

Appleは、生成AI基盤となる「Apple Foundation Models」の第3世代を発表した。オンデバイスとクラウドの両方に対応する5種類のモデルで構成されており、新しいSiriや各種アプリの知能機能を支える中核技術となる。

スポンサーリンク

オンデバイスとクラウドで分かれる5つのモデル群。なんと200億パラメーターがiPhoneでローカル動作できる時代に

今回の第3世代「Apple Foundation Models」は、用途に応じて5つのモデルが用意されている。オンデバイス向けが2種類、クラウド向けが3種類だ。

▼ オンデバイス向け

  • AFM 3 Core:3億パラメータ規模の高密度モデルの次世代版。品質を向上。
  • AFM 3 Core Advanced:オンデバイス向けの最も強力なモデル。ネイティブなマルチモーダル対応により、表現力のある音声や高精度なディクテーションを実現。最先端の研究に基づく200億パラメータ規模のスパースアーキテクチャを採用し、リクエストに応じて1〜40億パラメータのみを動的に使用。最も高性能なAppleシリコン搭載システム向けに最適化。

▼ クラウド向け

  • AFM 3 Cloud:サーバー側で動作する基幹モデル。速度・効率・性能のバランスに最適化。
  • ADM 3 Cloud(Image):画像生成・画像編集に特化したモデル。高度な写真編集機能や新しい「Image Playground」などを提供。
  • AFM 3 Cloud Pro:サーバー側で動作する最も高性能なモデル。エージェント的なツール利用や複雑な推論など、高度なユースケースに対応。

オンデバイス向けは「AFM 3 Core」と「AFM 3 Core Advanced」。AFM 3 Coreは約30億パラメータ規模のモデルで、前世代から品質が向上している。Core Advancedはより高性能なモデルで、最大200億パラメータ規模ながら一部のみを動的に使う仕組みを採用しており、音声の自然さや音声入力の精度向上などを実現している。

ただし、利用できるのはiPhone AirあるいはiPhone 17 Pro、M4チップ以降のSoCを搭載したiPad、M3チップ以降のSoCおよび12GB以上のメモリを搭載したMacに限られる。

クラウド側は3種類で構成される。処理速度と効率を重視した「AFM 3 Cloud」、画像生成や編集を担う「ADM 3 Cloud(Image)」、そして高度な推論や複雑な処理に対応する最上位モデル「AFM 3 Cloud Pro」だ。いずれもAppleの「Private Cloud Compute」上で動作し、ユーザーのデータが保存・共有されることはない設計になっている。

また、AFM 3 Cloud ProはGoogleやNVIDIAとも連携し、NVIDIA GPU上でも同様のプライバシー保護のもとで動作する仕組みが採用されている。

スポンサーリンク

設計思想と性能向上、評価結果

AFM 3 Core Advancedのアーキテクチャ

AFM 3では、オンデバイスとクラウドの両方で設計が見直されている。特にCore Advancedは、従来のようにすべてのパラメータをメモリに載せるのではなく、必要な部分だけを読み込んで使う仕組みを採用している。モデル本体はストレージに置かれ、処理に応じて一部だけをメモリ上で動かすことで、大規模モデルでも端末上で動作できるようになっている。

クラウド側ではParallel-Track Mixture-of-Experts(PT-MoE)を改良し、長文理解や文脈保持の安定性を向上させた。画像生成モデル「ADM 3 Cloud」は、解像度やアスペクト比に依存しない生成・編集を可能にし、Image Playgroundなどの機能にも活用される。

学習データは公開情報やライセンスデータ、合成データなどを組み合わせたもので構成され、ユーザーの個人データは使用しない方針を明確にしている。

性能面では、前世代と比べて大きな改善が見られる。オンデバイスの「AFM 3 Core」は従来モデルより45.6%高い評価を得ており、画像理解でも61%以上のケースで優位性が確認されている。クラウドの「AFM 3 Cloud」は最大64.7%の評価で優位となり、応答品質や指示理解の面で改善が進んだ。さらに上位の「Cloud Pro」では、テキストや画像理解の両方で追加の性能向上が見られる。

音声分野でも改善は顕著で、Core Advancedの音声合成は平均意見スコア(MOS)で4.15を記録し、従来の3.87から向上した。会話調の音声では差がさらに広がり、より自然な読み上げが可能になっている。音声認識(ディクテーション)でも全評価項目で従来システムを上回った。

AppleはこれらのモデルをApple Intelligenceの中核として、OS全体に統合していく方針だ。新しいSiriをはじめ、写真編集や画像生成など、さまざまな機能に順次展開される。

(画像:Apple)

WWDC
FOLLOW US
タイトルとURLをコピーしました