Advertisement

ChatGPTの「Advanced Voice Mode」: 感情豊かな表現力で会話UXを引き出す

Device・App
この記事は約5分で読めます。
【PR】 本投稿にはアフィリエイト広告が含まれています

 本投稿は、執筆時点の情報に基づいています。

 対象の端末、アカウント、OS、機能、国、言語等に関する最新情報は、公式サイトをご確認ください。

TL;DR

– OpenAIの「Advanced Voice Mode」は、今年5月のSpring Updateで登場した音声AI

– 話者の抑揚や会話内容を聞き分け、表現力豊かに回答することができる

– 画像や音楽に関する機能は、今リリースには搭載されていない

OpenAIが最新の音声AIをリリース

 OpenAIは、「Advanced Voice Mode」を正式にリリースしました。

 サブスクリプション(ChatGPT Plus 及び Teams)ユーザーから随時展開がスタートしていますが、無料ユーザー向けの開放も徐々に進んでいるようです。

 ChatGPTモバイルアプリ(Android・iOS)からアクセス可能で、日本語でも使用することができます。

chatgptのadvancedvoicemode起動ボタン

「Advanced Voice Mode」の起動ボタン

シンプルなデザイン

 起動すると、青い球体が中央に映し出されます。

 スクリーンには、テキスト・表・リンクなどの視覚情報は表示されず、音声のみでAIと会話を進めます。

chatgptのadvancedvoicemode画面

Advanced Voice Modeのスクリーン
chatgptのstandardvoicemode画面

Standard Voice Mode
のスクリーン

Standard Voice Modeとの違い

 Advanced Voice Modeは、以下のような特徴を備えています。

1. 人間並みの会話レスポンス

 回答に要する処理時間が短く、テンポ良く会話が進行していきます。

2. 会話を「被せる」ことができる

 Gemini LiveのInterruptモードと同様に、AIが回答中でも質問を「被せる」ことができます。

3. 感情豊かな音声表現ができる

 話者の抑揚や会話内容に合わせた音声表現が可能です。例えば、

  • 「今日はランニングで20km走った」 ⇨  驚きと賞賛
  • 「子供が風邪を引いているから病院に行く」 ⇨  心配と気遣い

 のように、内容や状況に合わせて回答することができます。

Daily Limitとプライバシー

 OpenAIの「Voice mode FAQ」には、Advanced Voice Modeの使用制限、及びプライバシーの取り扱いについて、詳細が記載されています。

Daily Limit

 Advanced Voice Modeには、1日毎に使用制限が設けられています。その日の使用制限まで残り15分になると、ユーザーに通知が届きます。

 制限値に達すると、Advanced Voice Modeは使用不可になりますが、Standard Voice Modeに切り替えて会話を継続することが可能です。

advancedvoicemodeのデイリーリミット画面

「残り15分」の通知
advancedvoicemodeのリミット到達画面

「リミット到達」の通知

プライバシーの取り扱い

 Advanced Voice Modeは、話者のAudio Clip(音声ファイル)を、会話毎に保存して使用しています。

advancedvoicemodeの音声ファイル録音サイン

会話毎にAudio Clipを録音する

 会話履歴からAdvanced Voice Modeのスレッドを削除すると、該当するAudio Clipも30日以内に削除されます(但し、セキュリティや法律上の目的、その他条件に当てはまる場合を除く)。

 なお、会話履歴をアーカイブしても、Audio Clipは削除されません。

 また、Settings ⇨ Data Controls にある「Improve the model for everyone」「Improve voice for everyone」がOnの場合、Audio Clipがモデルトレーニングに使用される可能性があります。

 自分のプライバシーポリシーを考え、事前の設定や操作を完了しておくことが重要です。

Advertisement

Spring Updateのデモを再現

 Spring Updateのデモ動画にあった以下の2つを、実際に試してみました。

リアルタイム翻訳

 「これから聞こえてくる日本語は英語に翻訳し、英語は日本語に翻訳してください」のように事前指定すると、即席のtranslatorが登場します。

 ChatGPTが仲介役となって、日本語 – 英語の会話がスムーズに進んでいきます。

カスタマーサービス

 Custom Instructionに必要な情報を事前入力して、”カスタマーサービス” としての振る舞いをテストすることができます。

 レスポンス速度や言葉遣いは、実際の電話でも十分に応対できるレベルかと思います。

未実装の機能

 以下の機能は、今リリースでは試すことが難しいようです。

  • Streamingデータの認識
  • 歌を歌う
  • Webアクセスによるリアルタイム情報の取得

まとめ

 OpenAIは、今年5月のSpring Updateで紹介した「Advanced Voice Mode」を、正式にリリースしました。

 人間並みのレスポンス速度と感情表現を備えた音声AIは、幅広いシーンでの活用が期待されています。

(端末・バージョン情報)

  • iPhone 15 / iOS 18.0 / 1.2024.268
  • Pixel 8 / Android 14 / 1.2024.268

関連記事はこちら //

Googleが「Gemini Live」をリリース!AIが回答中でも質問可能な「Interrupt」モードが魅力
Googleは、今年5月のGoogle I/Oで発表した「Gemini Live」を正式にリリースしました。10種類の音声、「Interrupt」モード、バックグラウンド使用などの機能が搭載されています。
YouTube視聴中にGeminiを起動すると?「Ask this video」で動画内容を簡単に調べる
Geminiモバイルアプリの「Ask this video」は、YouTube視聴中にアプリを起動し、表示されるショートカットボタンをタップして使用します。再生動画をGeminiと簡単に連携できる便利な機能です。
Geminiを「Gems」でカスタマイズ!用途に合わせたオリジナルAIをデザインしよう
Geminiアプリの「Gems」は、オリジナルAIを数行の文章入力で作成する機能です。カスタム指示を自動生成する機能も搭載されているため、「家庭教師」や「キャリアアドバイザー」のようなAIを、初心者でも簡単に作成することができます。
タイトルとURLをコピーしました