PLAUD NOTE レビュー。ワンタッチで簡単録音、アプリで自動文字起こし＆要約できるAIボイスレコーダー

現在、応援購入サービスのMakuakeで、ChatGPT連携AIボイスレコーダー｢PLAUD NOTE｣のプロジェクトが実施中だ。

｢PLAUD NOTE｣は、ワンタッチで即座に録音を開始でき、録音後は専用アプリを使ってOpenAI Whisperによる文字起こしと、ChatGPTによる要約ができるボイスレコーダーだ。本体は薄くてスマートフォンの背面にマグネットで装着しておくことができ、持ち運びにも優れる。

今回、開発元のNicebuild LLCから｢PLAUD NOTE｣の実機を提供いただき、筆者がここ数週間で参加したいくつかの記者発表会で実際に使ってみて、実力をチェックしてみることができた。応援購入を検討中の方は、ぜひ参考にしていただきたい。

スマートフォン背面に取り付けて持ち運べるAIボイスレコーダー｢PLAUD NOTE｣

まずは｢PLAUD NOTE｣の本体デザインについて。昨今のボイスレコーダーには、スティック型やキーホルダー型など様々なデザインのものがあるが、本製品はスマートフォンの背面に取り付けて使うことを想定した製品ということもあり、薄型のカード型デザインが採用されている。

カラーはブラック／シルバー／スターライトの3色が用意されており、今回はシルバーモデルを提供いただいた。

具体的な本体サイズは8.56 × 5.41 × 0.29cm、重量は約30g。交通系ICカードやクレジットカードとほとんど同じサイズ感だ。

本製品にはMagSafe対応の専用ケースが付属しており、このケースにレコーダー本体を収納して磁力でスマートフォンの背面にくっつけて持ち運ぶ。

筆者はiPhone 15 ProにApple純正のMagSafe対応ファインウーブンケースを取り付けており、このファインウーブンケースの背面に｢PLAUD NOTE｣を収納した専用ケースを取り付けて使ってみた。磁力は強めでしっかりと装着されており、本体が落ちそうになることはほぼなかった。

もしMagSafeに対応していないiPhoneやAndroidスマートフォンで使いたい場合は、同梱されてくるMagSafeリングを使用する。MagSafeリングをスマートフォンケースの背面に装着し、その上から専用ケースを取り付けるようにすればOKだ。MagSafeリングは強力な接着剤によって接着するため、スマートフォン本体ではなくプラスチック製のスマートフォンケースの上から貼り付けることが推奨されている。

本体に搭載されているボタン類は本体上部にある丸型のレコードボタン (右側) と、モード切り替え用のスライドスイッチ (左側) の2つのみ。丸型ボタンを1秒長押しするだけで録音をすぐに開始でき、複雑な操作は一切必要ない。

録音モードは通常録音モードと通話録音モードの2種類が用意。スライドボタンが下になっているときが通常録音モードで、スライドスイッチを上にすると電話口の音声と自分の音声を録音する通話録音モードになる。

本体下部には充電端子が用意されている。この端子は専用ケースを取り付けている状態でもアクセスでき、同梱されてくるマグネット式充電ケーブルをピタッとくっつけることで本体を充電できる。また、ケーブルをPCにつなげば録音したデータを転送することも可能だ。専用端子になるので、ケーブルの紛失や故障には十分に気をつけていただきたい。

ノイズキャンセリングで高品質な録音を実現

｢PLAUD NOTE｣には2つのハイエンドマイクが搭載されているほか、ノイズキャンセリング機能も備えており、高音質で録音することができるという。実際にボイスレコーダーとしての性能はどれほどのものなのか、1時間ほどの記者発表会に参加した際に｢通常録音モード｣で音声を録音してみた。

まず録音を開始する前に、専用アプリ｢PLAUD｣と接続してセットアップを完了する必要がある。iPhoneで使う場合はApp Storeから、Androidスマートフォンで使う場合はGoogle Playからアプリをダウンロードしてこよう。

アプリを起動したら、画面に表示される手順に従ってアプリと｢PLAUD NOTE｣を紐付ける。スマートフォンと本体とはBluetoothで接続する仕様なので、スマートフォン側のBluetoothを忘れずにオンにして設定しよう。

設定が完了したら、レコードボタンを1秒長押しして録音開始だ。本体がブルブルっと震えて、ロゴの｢A｣の真ん中に配置されているLEDインジケーターが点灯したら、きちんと録音できている証拠だ。

今回参加した記者発表会の会場は、100名ほどが余裕で入るくらいの広めの会議室で、登壇者は全員マイクを使って発言していた。筆者は部屋の真ん中くらいの場所でこの発表会を聞いており、筆者の耳で聞いた感じは全体的に聞き取りやすい音量だったと感じている。

実際に録音したデータをアプリで聞いてみた。録音データはノイズキャンセリングのオン／オフを切り替えて聞くことができるのだが、オフの状態だと周囲の物音やキーボードの打鍵音が入ってしまっていたのに対し、オンにすると発言者の声だけが際立つように。たまにロボ声のようになってしまうタイミングもあったが、登壇者がどんな発言をしていたのかは概ねしっかりと聞き取ることができた。

発表会後の囲み取材でも録音を試してみた。すでに発表会は終わっており、周囲が多少ざわざわしている状況で録音したのだが、ノイズキャンセリングのおかげで発言者の声がハッキリし、当時自分の耳では聞き取れなかった部分もしっかりと録音されていた。これなら、雑音が入りやすい街頭インタビューなどでも便利に使うことができそうだ。

発表会や会議ではなく、電話でのやり取りを記録したいなら｢通話録音モード｣が便利。このモードはBluetoothで接続したスマートフォンの電話口の音も録音するため、相手と自分のやり取りの両方を録音できる。

以下の動画を見ると｢通話録音モード｣と｢通常録音モード｣の違いが分かりやすいはずだ。

実際に｢通話録音モード｣で電話の内容を録音してみたところ、上記の動画のようなクリアな音声で録音することができた。車通りのある大きめの道路で録音したものだったが、周囲の雑音に負けてしまうことなく、お互いのやり取りがしっかりと録音できていた。

｢PLAUD NOTE｣のストレージは64GBで、最大480時間分の録音データを保存できる。2時間の会議なら、240回分に相当する容量だ。これだけあれば、すぐ容量がパンパンになり、頻繁にPCにデータを移行しなくてはならない……というシチュエーションは回避できそう。筆者の使い方であれば、少なくとも3ヶ月分くらいはデータを整理しなくても大丈夫そうだ。

また、本体の連続録音時間は最大約30時間。バッテリー残量はアプリでチェックできるため、｢突然のバッテリー切れで大事な会議の録音ができなかった……｣とならないように、50%を下回ったあたりで充電するよう心がけたい。

肝心の文字起こし精度は？

録音が完了したら、次は文字起こしの精度をチェック。文字起こしは自動で実施されるのではなく、アプリ上で録音データをタップし、｢転写結果｣タブの中にある｢転写｣ボタンをタップすることで文字起こしを実施する。現時点では57ヶ国語に対応する。

文字起こしはOpenAI Whisperによって実施され、毎月600分まで利用できる。転写ボタンをタップすると今月の残り時間が表示されるため、現時点で何時間使っているのかを確認してから文字起こしを実施できる。

文字起こしは、筆者の環境では1時間程度の内容で30〜40分くらい時間がかかった。メーカーの公式見解としては、文字起こし時間は録音時間の10％程度としているため、通常6分程度で完了できることになるが、インターネット速度や録音内容の密度によって文字起こし時間が変化することがあるとのこと。

文字起こしをする際には、できるだけインターネット速度が早い場所で実施するよう心がけたい。また、文字起こしはアプリを開いていない状態でも進んでいるため、文字起こし内容をすぐに把握したいなら、基本的には録音終了後すぐに実施しておくようにしよう。

文字起こしが終わると、録音データが文章化される。会社名などの辞書に載っていない固有名詞の聞き取りは難しいこともあるが、一般的な単語はきちんと聞き取ることができており、音声を聞かなくても発表会の内容を一通り把握することはできた。

文字起こしの精度については、上記画像をご覧いただきたい。発言者が何を話したのかは概ね読みやすい文章になっていて、発表会に参加していない人でも｢Nextgearという新しいゲーミングパソコンブランドの新製品発表会の冒頭のあいさつ｣であることが分かると思う。

文字起こしで良いなと感じたのが、「えー」「あのー」などの不要な繋ぎ言葉 (フィラー) を認識し、自動で起こした文章から削除してくれること。繋ぎ言葉の量は発言者によって異なると思うが、不要な音が起こされないだけで文章の量がグッと減り、内容を把握しやすくなる。

先ほどとは別の録音データだが、後半になると文章がブツブツと切れてしまう。

ただしちょっぴり気になったのが、録音データの後半になるにつれて、上記のように文字起こしの文章がブツブツと切れてしまうこと。文字起こしの精度は落ちていないので内容は問題なく把握できるのだが、内容を確認するために画面を何度もスクロールしなければならないのが少し面倒だ。

たとえば、上記の録音データの最初の方では｢皆さまおはようございます。〇〇と申します。本日はお忙しい中、発表会にお越しいただきありがとうございます。｣までを1段落で表示するのだが、後半になっていくと｢データの利活用によるビルの運営の効率化や｣を｢データの利活用による｣と｢ビルの運営の効率化や｣に分けて表示してしまい、文章が細切れになって読みづらくなってしまっていた。

これに関しては、日本語の固有の問題である可能性がある。というのも、英語の発表会を録音したデータを聞かせてみたところ、上記の問題は発生しなかったからだ。日本語と英語の違いもあるとは思うが、今後のアップデートで改善されることを願いたい。

また、今回参加した発表会のなかで日本語と英語と中国語の3言語の話者が登壇したシーンがあったのだが、その際の録音データではメインとなる日本語しか文字起こしができておらず、英語と中国語は上記画像のように、ひとつ前の文章が何度も繰り返されてしまっていた。

メーカーによると、ランダムな音楽やノイズ、無音の空白部分が長く続くと、重複した言葉が繰り返し出力される現象を引き起こしやすくなっているという。今回の場合、英語や中国語が日本語に比べて登場する割合が少ないことから、ノイズとして認識され、このような結果になったものと思われる。

上記については、すでに技術チームが問題として認識しており、現在大規模な改善計画を練っている最中であるとのこと。デバッグが完了次第、来月にはアプリに反映され、改善される見込みだ。

ChatGPTを利用した要約は長時間の録音データに対応してはまだ精度が低いか

文字起こしが完了したら、｢結論｣タブに移動することで、ChatGPTが発表会の内容を要約した内容を読むことができる。文字起こしの内容をすべて見ることなく、発表会のおおまかな内容を把握できるという機能だ。

ただし、こちらに関しての精度はまだ低い印象。筆者が参加した発表会は1時間と比較的長く、発表内容が膨大なことに加えて、色々な製品やサービスの話が出ていたことから、簡単に要約するのは難しかったのかもしれない。

試しに、発表会終了間際のQ&Aコーナー (約10分) の要約を見てみたところ、おおよそ正しく要約できていたことから、現時点では短い内容のものだけの利用に留めた方が良さそうだ。こちらも今後のアップデートに期待したいところ。

まとめ：使い勝手良し、文字起こしや翻訳機能は今後のアプデに期待

今回、実際に｢PLAUD NOTE｣を使ってみて、スマートフォンの背面に取り付けて手軽に持ち歩けることや、ワンプッシュで録音を開始できることなどの使い勝手の良さに加えて、ノイズキャンセリングや電話口の音声も録音できる｢通話録音モード｣などの機能が用意されているのは便利だと感じた。

肝心の文字起こしに関しては、録音データ全体を通しての精度は比較的良く、不要な繋ぎ言葉も自動で削除してくれるため、音声を聞かなくても内容は十分に把握できる。これだけの精度があれば十分に実用的で、筆者としては今後の取材先やインタビューなどで本製品を活用していきたいと思った。

ただ、長時間の録音データになると、後半になるにつれて徐々に文章が細切れになって文字起こし結果が読みづらくなるのが個人的には若干気になるところ。ChatGPTによる要約もうまく機能しないことがあるため、これらの点に関しては今後改善が必要だと感じた。

また、現時点ではリアルタイムの翻訳機能は利用できないものの、今後のアップデートで追加を予定しているとのことだ。こちらも期待しておきたい。

Makuakeで実施中のプロジェクトでは、現在24,500円(税込)からの応援購入が可能。Makuakeで応援購入をしたユーザーには、限定特典として1年間のAIメンバーシップが付属し、毎月600分のOpenAI Whisper文字起こし機能とChatGPT連携要約機能無制限使い放題を含む全機能が1年間利用できる。

その後もAIメンバーシップを使い続けたい場合は、年額プラン (1年間6,000円で3,000分) または月額プラン (1ヶ月1,200円で600分) のどちらかを自由に選ぶことが可能だ。