ChatGPTの音声会話機能を使ってみよう!基本操作・事前設定・画期的な2つの特徴とは?

音声テクノロジーのイメージ図 Mobile・App・Gadget
This image was created with DALL·E3
Mobile・App・Gadget
この記事は約5分で読めます。

TL;DR

– OpenAIは、モバイルアプリ版ChatGPTの全ユーザー向けに、Voice Conversationのサービスを提供している
– 使用中に表示されるバブルアイコンは、ChatGPTの状態(聞き取り中、回答中・・)を視覚的に伝える役割を担う
– 音声セッションの起動中は、画面Offの状態でもChatGPTと会話することができる

ChatGPTの音声会話機能を使ってみよう!基本操作・事前設定・画期的な2つの特徴とは?

ChatGPT can hear, and speak

 OpenAIは、ChatGPTモバイルアプリの全ユーザー向けに、音声認識と音声合成の機能を提供しています。

 音声認識エンジンはOpenAIのWhisper、音声合成エンジンには複数のvoice actorと連携した独自モデルが採用されています。

 音声は、5つ(Cove, Ember, Sky, Juniper, Breeze)のバリエーションから選択可能です。

事前設定

 使用にはアプリの事前設定、及び言語設定が必要です。

アプリの事前設定

 Data Controlsの「Chat History & Training」をOnにします(以下画面はAndroid)。

 音声データやプライバシーの取り扱いについては、Voice chat FAQ(help.openai.com)に記載があります。

chatgpt音声機能設定1
chatgpt音声機能設定2

言語設定は「Auto-Detect」も可能だが・・

 言語設定(以下画面はAndroid)を「Auto-Detect」にしておくと、言語判別が自動化されます。

chatgpt音声機能設定3

 ただ「Auto-Detect」で複数言語を使用すると、音声認識の精度が落ちて回答も不安定になる印象があります。

 OpenAIが推奨している通り、予め使う言語は「Main Language」に設定した方が良いかと思います。

chatgpt音声機能設定4

使用する言語を予め設定しておく

基本操作

 音声セッションは、「聞き取り ⇨ 回答生成 ⇨ 回答 ⇨ 終了」の基本サイクルで構成されています。

1. 聞き取り

  聞き取り中の場合、以下のバブルアイコン(画像はAndroid)が表示されます。

 ユーザーは、プロンプトを音声入力することができます。

chatgptの音声機能バブルアイコン聞き取り中

「聞き取り中」
CHECK!

(コラム)最後まで聞いて!

 聞き取り時に画面を長押しすると、自動送信を保留する(以下画像)ことができます。

 ユーザーが「考え中」であることを、ChatGPTに認識させることが可能です。

  • 英会話練習の時、単語やフレーズを思い出しながら話したい
  • 買い物リストを作りたいが、項目が沢山あるから一度に入力できない

 こんな時に重宝します。

 入力が終了したら、画面から指を離して内容を送信します。

chatgptの音声機能バブルアイコン送信を保留する

画面をタッチしたままホールドする

 

2. 回答の生成

 回答を生成中の場合、以下のバブルアイコンが表示されます。

 「Tap to cancel」を押すと処理が中断され、再び聞き取り状態に戻ります。

chatgptの音声機能バブルアイコン回答生成

「回答生成中」

3. 回答中

 回答中の場合、以下のバブルアイコンが表示されます。

 「Tap to interrupt」を押すと回答が中断され、再び聞き取り状態に戻ります。

chatgptの音声機能バブルアイコン回答中

「回答中」

4. 終了

 音声セッションを終了したい場合は、終了ボタン(以下画像)をタップ、もしくはアプリ自体を閉じます。

chatgptの音声機能を終了する

「終了」

画期的な2つの特徴

 この会話機能には、従来の音声アシスタントとは異なる2つの特徴があります。

1.「Listening」状態が継続する

 音声セッションが一度スタートすると、ChatGPTの聞き取り状態は、ユーザーが無言であっても継続します

 終了ボタンをタップ、もしくはアプリを閉じるまで、音声セッションは継続することになります。

 一般的な音声アシスタントは、意図しない音声の誤認識防止やプライバシー配慮の観点から、このListening状態を8秒前後で自動終了することが通例です。

 それと比較すると、ChatGPTの仕様は(私が知る限り)前例がありません。

2. backgroundでも「Listening」状態が継続する

 そしてもう1つの大きな特徴は、backgroundでも聞き取り状態が継続することです。

 つまり、音声セッションを一度スタートすると、Home画面やLock画面でも会話が継続します。

 一般的な音声アシスタントは、音楽再生時などにbackgroundでセッションを継続しますが、会話セッションは(私が知る限り)継続しません。

 私が試した限り、ChatGPTの聞き取り状態は5分経過しても継続します(公式の仕様は不明)。

まとめ

 ChatGPTの音声機能を使うと、画面Offの状態でも会話を継続することができます。

 この画期的なUXとプライバシー方針が、新しいVUI標準として評価されていくことを期待しています。

関連記事はこちら //

Pixel8の「音声消しゴムマジック」: 動画内の音楽を編集消去できるかテストした結果??
Pixel8の「音声消しゴムマジック」を使うと、AIが自動検出した音声(声、音楽、ノイズ・・)カテゴリ毎に、ボリュームを調整することができます。編集前・編集後の音声を聞くと、違いがはっきりと分かります。
音声でJournalアプリに簡単入力!iPhoneの書き起こし精度ならタイピング不要?
句読点の自動入力や絵文字にも対応したiPhoneの音声入力機能を使用すると、タイピングより速くJournalアプリで日記を作成することができます。音声入力を使用する場合、iPhoneの事前設定が必要になります。
PixelのRecorderアプリは文字起こし・音声検索・編集・Speaker検出まで対応!
Recorderアプリには、文字起こし・検索・編集・Speaker検出など、音声データ加工に必要な機能一式が搭載されています。バックアップ機能をOnにして、recorder.google.comと同期することも可能です。
タイトルとURLをコピーしました