ChatGPTの音声会話機能を使ってみよう！基本操作・事前設定・画期的な2つの特徴とは？

Mobile・App・Gadget

This image was created with DALL·E3

2024.03.29

Mobile・App・Gadget

この記事は約5分で読めます。

TL;DR

– OpenAIは、モバイルアプリ版ChatGPTの全ユーザー向けに、Voice Conversationのサービスを提供している
– 使用中に表示されるバブルアイコンは、ChatGPTの状態（聞き取り中、回答中・・）を視覚的に伝える役割を担う
– 音声セッションの起動中は、画面Offの状態でもChatGPTと会話することができる

ChatGPTの音声会話機能を使ってみよう！基本操作・事前設定・画期的な2つの特徴とは？

ChatGPT can hear, and speak

　OpenAIは、ChatGPTモバイルアプリの全ユーザー向けに、音声認識と音声合成の機能を提供しています。

ChatGPT with voice is now available to all free users. Download the app on your phone and tap the headphones icon to start a conversation.

Sound on 🔊 pic.twitter.com/c5sCFDAWU6
— OpenAI (@OpenAI) November 21, 2023

　音声認識エンジンはOpenAIのWhisper、音声合成エンジンには複数のvoice actorと連携した独自モデルが採用されています。

　音声は、5つ（Cove, Ember, Sky, Juniper, Breeze）のバリエーションから選択可能です。

事前設定

　使用にはアプリの事前設定、及び言語設定が必要です。

アプリの事前設定

　Data Controlsの「Chat History & Training」をOnにします（以下画面はAndroid）。

　音声データやプライバシーの取り扱いについては、Voice chat FAQ（help.openai.com）に記載があります。

chatgpt音声機能設定1

chatgpt音声機能設定2

言語設定は「Auto-Detect」も可能だが・・

　言語設定（以下画面はAndroid）を「Auto-Detect」にしておくと、言語判別が自動化されます。

chatgpt音声機能設定3

　ただ「Auto-Detect」で複数言語を使用すると、音声認識の精度が落ちて回答も不安定になる印象があります。

　OpenAIが推奨している通り、予め使う言語は「Main Language」に設定した方が良いかと思います。

chatgpt音声機能設定4 — 使用する言語を予め設定しておく

基本操作

　音声セッションは、「聞き取り ⇨ 回答生成 ⇨ 回答 ⇨ 終了」の基本サイクルで構成されています。

1. 聞き取り

　聞き取り中の場合、以下のバブルアイコン（画像はAndroid）が表示されます。

　ユーザーは、プロンプトを音声入力することができます。

chatgptの音声機能バブルアイコン聞き取り中 — 「聞き取り中」

CHECK！

（コラム）最後まで聞いて！

　聞き取り時に画面を長押しすると、自動送信を保留する（以下画像）ことができます。

　ユーザーが「考え中」であることを、ChatGPTに認識させることが可能です。

英会話練習の時、単語やフレーズを思い出しながら話したい
買い物リストを作りたいが、項目が沢山あるから一度に入力できない

　こんな時に重宝します。

　入力が終了したら、画面から指を離して内容を送信します。

chatgptの音声機能バブルアイコン送信を保留する — 画面をタッチしたままホールドする

　

2. 回答の生成

　回答を生成中の場合、以下のバブルアイコンが表示されます。

　「Tap to cancel」を押すと処理が中断され、再び聞き取り状態に戻ります。

chatgptの音声機能バブルアイコン回答生成 — 「回答生成中」

3. 回答中

　回答中の場合、以下のバブルアイコンが表示されます。

　「Tap to interrupt」を押すと回答が中断され、再び聞き取り状態に戻ります。

chatgptの音声機能バブルアイコン回答中 — 「回答中」

4. 終了

　音声セッションを終了したい場合は、終了ボタン（以下画像）をタップ、もしくはアプリ自体を閉じます。

chatgptの音声機能を終了する — 「終了」

画期的な2つの特徴

　この会話機能には、従来の音声アシスタントとは異なる2つの特徴があります。

1.「Listening」状態が継続する

　音声セッションが一度スタートすると、ChatGPTの聞き取り状態は、ユーザーが無言であっても継続します。

　終了ボタンをタップ、もしくはアプリを閉じるまで、音声セッションは継続することになります。

　一般的な音声アシスタントは、意図しない音声の誤認識防止やプライバシー配慮の観点から、このListening状態を8秒前後で自動終了することが通例です。

　それと比較すると、ChatGPTの仕様は（私が知る限り）前例がありません。

2. backgroundでも「Listening」状態が継続する

　そしてもう1つの大きな特徴は、backgroundでも聞き取り状態が継続することです。

　つまり、音声セッションを一度スタートすると、Home画面やLock画面でも会話が継続します。

　一般的な音声アシスタントは、音楽再生時などにbackgroundでセッションを継続しますが、会話セッションは（私が知る限り）継続しません。

　私が試した限り、ChatGPTの聞き取り状態は5分経過しても継続します（公式の仕様は不明）。

まとめ

　ChatGPTの音声機能を使うと、画面Offの状態でも会話を継続することができます。

　この画期的なUXとプライバシー方針が、新しいVUI標準として評価されていくことを期待しています。

関連記事はこちら //

Pixel8の「音声消しゴムマジック」: 動画内の音楽を編集消去できるかテストした結果？？

Pixel8の「音声消しゴムマジック」を使うと、AIが自動検出した音声（声、音楽、ノイズ・・）カテゴリ毎に、ボリュームを調整することができます。編集前・編集後の音声を聞くと、違いがはっきりと分かります。

音声でJournalアプリに簡単入力！iPhoneの書き起こし精度ならタイピング不要？

句読点の自動入力や絵文字にも対応したiPhoneの音声入力機能を使用すると、タイピングより速くJournalアプリで日記を作成することができます。音声入力を使用する場合、iPhoneの事前設定が必要になります。

PixelのRecorderアプリは文字起こし・音声検索・編集・Speaker検出まで対応！

Recorderアプリには、文字起こし・検索・編集・Speaker検出など、音声データ加工に必要な機能一式が搭載されています。バックアップ機能をOnにして、recorder.google.comと同期することも可能です。

タイトルとURLをコピーしました