Advertisement

ChatGPTの「Advanced Voice Mode」: 感情豊かな表現力で会話UXを引き出す

ChatGPT・Claude
この記事は約5分で読めます。
【PR】 本投稿にはアフィリエイト広告が含まれています

 本投稿は、執筆時点の情報に基づいています。

 対象の端末、アカウント、OS、機能、国、言語等に関する最新情報は、公式サイトをご確認ください。

TL;DR

– OpenAIの「Advanced Voice Mode」は、今年5月のSpring Updateで登場した音声AI

– 話者の抑揚や会話内容を聞き分け、表現力豊かに回答することができる

– 画像や音楽に関する機能は、今リリースには搭載されていない

OpenAIが最新の音声AIをリリース

 OpenAIは、「Advanced Voice Mode」を正式にリリースしました。ChatGPTモバイルアプリ(Android・iOS)からアクセスすることができます。

 サブスクリプション(ChatGPT Plus 及び Teams)ユーザーから随時展開がスタートしていますが、無料ユーザー向けの開放も徐々に進んでいるようです。

 

chatgptのadvancedvoicemode起動ボタン

「Advanced Voice Mode」の起動ボタン
Advertisement

シンプルなデザイン

 起動すると、青い球体が中央に映し出されます。

 スクリーンには、テキスト・表・リンクなどの視覚情報は表示されず、音声のみでAIと会話を進めます。

chatgptのadvancedvoicemode画面

Advanced Voice Modeのスクリーン

Standard Voice Modeとの違い

 Advanced Voice Modeは、以下のような特徴を備えています。

1. 人間並みの会話レスポンス

 回答に要する処理時間が短く、テンポ良く会話が進行していきます。

2. 会話を「被せる」ことができる

 Gemini LiveのInterruptモードと同様に、AIが回答中でも質問を「被せる」ことができます。

3. 感情豊かな音声表現ができる

 話者の抑揚や会話内容に合わせた音声表現が可能です。例えば、

  • 「今日はランニングで20km走った」 ⇨  驚きと賞賛
  • 「子供が風邪を引いているから病院に行く」 ⇨  心配と気遣い

 のように、内容や状況に合わせて回答することができます。

Advertisement

Daily Limitとプライバシー

 OpenAIの「Voice mode FAQ」には、Advanced Voice Modeの使用制限、及びプライバシーの取り扱いについて、詳細が記載されています。

Daily Limit

 Advanced Voice Modeには、1日毎に使用制限が設けられています。その日の使用制限まで残り15分になると、ユーザーに通知が届きます。

 制限値に達すると、Advanced Voice Modeは使用不可になりますが、Standard Voice Modeに切り替えて会話を継続することが可能です。

advancedvoicemodeのデイリーリミット画面

「残り15分」の通知
advancedvoicemodeのリミット到達画面

「リミット到達」の通知

プライバシーの取り扱い

 Advanced Voice Modeは、話者のAudio Clip(音声ファイル)を、会話毎に保存して使用しています。

advancedvoicemodeの音声ファイル録音サイン

会話毎にAudio Clipを録音する

 会話履歴からAdvanced Voice Modeのスレッドを削除すると、該当するAudio Clipも30日以内に削除されます(但し、セキュリティや法律上の目的、その他条件に当てはまる場合を除く)。

 なお、会話履歴をアーカイブしても、Audio Clipは削除されません。

 また、Settings ⇨ Data Controls にある「Improve the model for everyone」「Improve voice for everyone」がOnの場合、Audio Clipがモデルトレーニングに使用される可能性があります。

 自分のプライバシーポリシーを考え、事前の設定や操作を完了しておくことが重要です。

Advertisement

Spring Updateのデモを再現

 Spring Updateのデモ動画にあった以下の2つを、実際に試してみました。

リアルタイム翻訳

 「これから聞こえてくる日本語は英語に翻訳し、英語は日本語に翻訳してください」のように事前指定すると、即席のtranslatorが登場します。

 ChatGPTが仲介役となって、日本語 – 英語の会話がスムーズに進んでいきます。

カスタマーサービス

 Custom Instructionに必要な情報を事前入力して、”カスタマーサービス” としての振る舞いをテストすることができます。

 レスポンス速度や言葉遣いは、実際の電話でも十分に応対できるレベルかと思います。

未実装の機能

 以下の機能は、今リリースでは試すことが難しいようです。

  • Streamingデータの認識
  • 歌を歌う
  • Webアクセスによるリアルタイム情報の取得

まとめ

 OpenAIは、今年5月のSpring Updateで紹介した「Advanced Voice Mode」を、正式にリリースしました。

 人間並みのレスポンス速度と感情表現を備えた音声AIは、幅広いシーンでの活用が期待されています。

(端末・バージョン情報)

  • iPhone 15 / iOS 18.0 / 1.2024.268
  • Pixel 8 / Android 14 / 1.2024.268
Advertisement

関連記事はこちら //

Googleが「Gemini Live」をリリース!AIが回答中でも質問可能な「Interrupt」モードが魅力
Googleは、今年5月のGoogle I/Oで発表した「Gemini Live」を正式にリリースしました。10種類の音声、「Interrupt」モード、バックグラウンド使用などの機能が搭載されています。
YouTube視聴中にGeminiを起動すると?「Ask this video」で動画内容を簡単に調べる
Geminiモバイルアプリの「Ask this video」は、Youtube動画をGeminiと連携できる便利な機能です。YouTube視聴中にGeminiを起動し、表示されるショートカットボタンをタップして使用します。
Geminiを「Gems」でカスタマイズ!用途に合わせたオリジナルAIをデザインしよう
Geminiアプリの「Gems」は、オリジナルAIを数行の文章で作成する機能です。カスタム指示を自動生成する機能も搭載されているため、「家庭教師」や「キャリアアドバイザー」のようなAIを、初心者でも簡単に作成することができます。
タイトルとURLをコピーしました