DeepL、リアルタイム音声翻訳「DeepL Voice」で会議時間の34％ロス解消へ

DeepLジャパンは4月2日、「DeepL Voice」に関する報道関係者向け説明会を開催した。

「DeepL Voice」は、オンライン会議と対面会話の双方に対応する音声翻訳サービス。発話内容をリアルタイムで翻訳することで、多言語環境におけるコミュニケーションの停滞解消を狙う。

「言語の壁」を企業課題として捉える音声翻訳基盤

DeepLは今回のサービスを、従来の「テキスト翻訳」の延長ではなく、「ビジネスコミュニケーション」全体を支える基盤として位置づけている。

同サービスの提供背景には、多国籍企業の会議における非効率の問題がある。調査では、発言の言い回しを考えたり、聞き返したりする時間などによって、会議時間の約34％が失われているという。また、会議内容の正確な理解度も約60％にとどまり、認識のズレが業務の停滞につながっているとされる。

こうした状況を踏まえ、語学力を個人の努力に委ねるのではなく、企業全体で解決すべき課題として捉えたことが開発の出発点となった。

製品は、用途別に2つのソリューションで構成される。Web会議向けの「DeepL Voice for Meetings」は、Microsoft TeamsやZoomと連携し、ブラウザ上でリアルタイム字幕を表示する仕組み。複数言語が飛び交う会議にも対応し、翻訳結果は文字起こしデータとしてダウンロードできる。出力される字幕は100以上の言語に対応する。

一方、対面向けの「DeepL Voice for Conversations」はスマートフォン上で動作し、端末1台を使って対面の相手と交互に話すだけで翻訳が行える。画面を上下に分割して互いに見やすくする「対面モード」や、翻訳文の音声読み上げ、再生速度の調整機能を備える。入力・出力ともに30以上の言語に対応し、海外出張や現場対応といった利用シーンを想定している。

翻訳精度について、専門家による評価では、他社の翻訳ツールと比べて重大な誤訳が約7割〜8割弱減少したという結果が出ている。背景には、汎用的な大規模言語モデルではなく、翻訳に特化した独自AIを採用している点がある。文脈からもっともらしい文章を生成するのではなく、正確な変換を重視する設計とすることで、ハルシネーションの抑制につなげている。

また、モデルは自社で管理する高品質なデータセットを用いて学習されており、人による評価プロセスも組み込まれている。日本語のように構造が複雑な言語にも対応できるよう最適化が行われており、リアルタイム字幕で発生しやすい表示の揺れも抑えられている。さらに、企業独自の専門用語を登録できる用語集機能により、誤訳のリスクを運用面からも抑えることができる。

運用面での注意点としては、会議に翻訳ボットを参加させる際、ライセンスを持つユーザーが同席している必要がある。また、イベント会場のように騒音が多い環境では精度が落ちる可能性があるが、ノイズキャンセリング機能付きのマイクやイヤホンを使うことで対策できるという。

年間194時間削減の「効果」と、音声翻訳の「次」

導入の効果について、実証実験で具体的な数値が示された。1人あたり年間194時間の業務時間削減が確認され、金額に換算すると約96万円相当の効果があったという。会議前後の準備や内容確認といった作業も26％削減され、議事録作成の負担軽減や手戻りの防止にもつながっている。

セキュリティ面では、翻訳データを即時削除し、AIの学習には利用しない方針を採っている。通信は暗号化されており、シングルサインオンなどの企業向け認証にも対応する。欧州の個人情報保護規則であるGDPRにも準拠しており、機密性の高い商談でも利用できる設計となっている。

DeepLは、今後の展開として音声から音声へ直接変換する「Voice to Voice翻訳」の開発も進めている。話者の声質やトーンを保ったまま別の言語の音声に変換する技術で、音声認識、翻訳、音声合成、低遅延処理を組み合わせて実現する。発話から再生までの遅延を極力抑えることを目標としており、2026年中の提供を予定している。なお、日本語への対応も見込まれているとのことだ。