ChatGPTの音声会話機能を使ってみよう!基本操作・事前設定・画期的な2つの特徴とは?
ChatGPT can hear, and speak
OpenAIは、ChatGPTモバイルアプリの全ユーザー向けに、音声認識と音声合成の機能を提供しています。
音声認識エンジンはOpenAIのWhisper、音声合成エンジンには複数のvoice actorと連携した独自モデルが採用されています。
音声は、5つ(Cove, Ember, Sky, Juniper, Breeze)のバリエーションから選択可能です。
事前設定
使用にはアプリの事前設定、及び言語設定が必要です。
アプリの事前設定
Data Controlsの「Chat History & Training」をOnにします(以下画面はAndroid)。
音声データやプライバシーの取り扱いについては、Voice chat FAQ(help.openai.com)に記載があります。
![chatgpt音声機能設定1](https://thkkvui.blog/wp-content/uploads/2023/11/20231109post41chatgptvoice6-1.jpeg)
![chatgpt音声機能設定2](https://thkkvui.blog/wp-content/uploads/2023/11/20231109post41chatgptvoice5-2-491x1024.jpeg)
言語設定は「Auto-Detect」も可能だが・・
言語設定(以下画面はAndroid)を「Auto-Detect」にしておくと、言語判別が自動化されます。
![chatgpt音声機能設定3](https://thkkvui.blog/wp-content/uploads/2023/11/20231110post41chatgptvoice12.jpeg)
ただ「Auto-Detect」で複数言語を使用すると、音声認識の精度が落ちて回答も不安定になる印象があります。
OpenAIが推奨している通り、予め使う言語は「Main Language」に設定した方が良いかと思います。
![chatgpt音声機能設定4](https://thkkvui.blog/wp-content/uploads/2024/03/20240329chatgpt-hear-speak1.jpg)
使用する言語を予め設定しておく
基本操作
音声セッションは、「聞き取り ⇨ 回答生成 ⇨ 回答 ⇨ 終了」の基本サイクルで構成されています。
1. 聞き取り
聞き取り中の場合、以下のバブルアイコン(画像はAndroid)が表示されます。
ユーザーは、プロンプトを音声入力することができます。
![chatgptの音声機能バブルアイコン聞き取り中](https://thkkvui.blog/wp-content/uploads/2024/03/20240307post41chatgptvoice2-690x1024.png)
「聞き取り中」
(コラム)最後まで聞いて!
聞き取り時に画面を長押しすると、自動送信を保留する(以下画像)ことができます。
ユーザーが「考え中」であることを、ChatGPTに認識させることが可能です。
- 英会話練習の時、単語やフレーズを思い出しながら話したい
- 買い物リストを作りたいが、項目が沢山あるから一度に入力できない
こんな時に重宝します。
入力が終了したら、画面から指を離して内容を送信します。
![chatgptの音声機能バブルアイコン送信を保留する](https://thkkvui.blog/wp-content/uploads/2024/04/20240402chatgpt-voice-use-case17.jpg)
画面をタッチしたままホールドする
2. 回答の生成
回答を生成中の場合、以下のバブルアイコンが表示されます。
「Tap to cancel」を押すと処理が中断され、再び聞き取り状態に戻ります。
![chatgptの音声機能バブルアイコン回答生成](https://thkkvui.blog/wp-content/uploads/2024/03/20240307post41chatgptvoice3PNG-707x1024.png)
「回答生成中」
3. 回答中
回答中の場合、以下のバブルアイコンが表示されます。
「Tap to interrupt」を押すと回答が中断され、再び聞き取り状態に戻ります。
![chatgptの音声機能バブルアイコン回答中](https://thkkvui.blog/wp-content/uploads/2024/03/20240307post41chatgptvoice4-769x1024.png)
「回答中」
4. 終了
音声セッションを終了したい場合は、終了ボタン(以下画像)をタップ、もしくはアプリ自体を閉じます。
![chatgptの音声機能を終了する](https://thkkvui.blog/wp-content/uploads/2024/04/20240402chatgpt-voice-use-case3.jpg)
「終了」
画期的な2つの特徴
この会話機能には、従来の音声アシスタントとは異なる2つの特徴があります。
1.「Listening」状態が継続する
音声セッションが一度スタートすると、ChatGPTの聞き取り状態は、ユーザーが無言であっても継続します。
終了ボタンをタップ、もしくはアプリを閉じるまで、音声セッションは継続することになります。
一般的な音声アシスタントは、意図しない音声の誤認識防止やプライバシー配慮の観点から、このListening状態を8秒前後で自動終了することが通例です。
それと比較すると、ChatGPTの仕様は(私が知る限り)前例がありません。
2. backgroundでも「Listening」状態が継続する
そしてもう1つの大きな特徴は、backgroundでも聞き取り状態が継続することです。
つまり、音声セッションを一度スタートすると、Home画面やLock画面でも会話が継続します。
一般的な音声アシスタントは、音楽再生時などにbackgroundでセッションを継続しますが、会話セッションは(私が知る限り)継続しません。
私が試した限り、ChatGPTの聞き取り状態は5分経過しても継続します(公式の仕様は不明)。
まとめ
ChatGPTの音声機能を使うと、画面Offの状態でも会話を継続することができます。
この画期的なUXとプライバシー方針が、新しいVUI標準として評価されていくことを期待しています。
関連記事はこちら //
![](https://thkkvui.blog/wp-content/uploads/2024/02/20240229voicetech-useサムネイル-160x90.png)
![](https://thkkvui.blog/wp-content/uploads/2024/02/20240229voicetech-useサムネイル-160x90.png)
![](https://thkkvui.blog/wp-content/uploads/2024/02/20240229voicetech-useサムネイル-160x90.png)