OpenAIの「GPT-4o」は人間並みのレスポンスが可能な映像認識とVoice Modeを搭載!

音声ニュースのイメージ図 最新リリース・アナウンス
This image was created with DALL·E3
最新リリース・アナウンス
この記事は約5分で読めます。

TL;DR

– GPT-4oは、既存モデルよりも音声と映像の解析能力が大きく向上している
-「end-to-endモデル」を採用することで、入力・出力の時間差を大幅に改善
– サイト内のデモ動画では、同モデルの様々な活用シーン(歌う、教師になる、会議に参加する、翻訳する・・)が紹介されている

OpenAIの「GPT-4o」は人間並みのレスポンスが可能な映像認識とVoice Modeを搭載!

音声・テキスト・映像に特化したend-to-endモデル

 OpenAIは、最新モデル「GPT-4o」(o は「omni」の頭文字)をリリースしました。

 全ユーザー(ChatGPT Freeを含む)を対象に、モデル展開を既に開始していると伝えています。

 また、今回の目玉である「Voice Mode」については、今後数週間のうちに、ChatGPT Plus(有料)のアルファ版から使用可能になると伝えています。

(Update 2024/6/26)

 OpenAIは、Voice Modeのリリース予定時期を、今秋まで延長しました。

人間並みの視覚と会話能力

 GPT-4oは、音声と映像の処理能力が強化されています。

  • 人間並みの会話レスポンス
  • 会話を「被せる」ことができる
  • 感情豊かな音声表現ができる
  • 静止画・動画を見ながら状況説明ができる

 これらのUXは、音声・テキスト・映像向けに訓練された「end-to-endモデル」が基盤となっています。

CHECK!

(コラム)end-to-end モデルとは?

 GPT-4oの特徴について、OpenAIは以下のように述べています。

With GPT-4o, we trained a single new model end-to-end across text, vision, and audio, meaning that all inputs and outputs are processed by the same neural network.

引用元: https://openai.com/index/hello-gpt-4o/

 「end-to-end」モデルとは、簡単に説明すると「必要な解析能力を1つに集約したモデル」を指します。

 分かり易くするため、ここでは音声データ単体を例に考えてみます。

end-to-endモデルの説明画像

 GPT-4では、ASR(音声のテキスト変換)、NLU(テキスト出力)、TTS(テキストの音声変換)の3モデルを使用して、音声処理の解析精度を保っていました。

 しかし、複数モデルを使用することは、以下のようなデメリットがあります。

  1. 全てのモデル処理が完了するまで、時間がかかってしまう(= 入力と出力に時間差が生じる)
  2. 各モデルのデータ処理過程で、情報が少しずつ失われる(これについて、OpenAIは「音調、複数の話者、背景音の直接観察、そして笑い声、歌、感情の表現が難しくなる」と述べている)
  3. 各モデルの相性が悪いと、良い出力が生まれない(= 個々のモデル性能を追い求めてもダメ)

 この問題点を解消するために考案されたモデルが「End-to-End」、つまり間に挟むモデルを取り除くという手法です。

 OpenAIは、この手法を音声・テキスト・映像に適用したことになります。

 一体、どのようにモデルを訓練したんでしょうか・・。

GPT-4o が提供する最新UX

 サイトで紹介されている動画(一部抜粋)を基に、GPT-4oが提供するUXを纏めました。

1. 映像の説明

 静止画だけでなく、streaming中の動画についても、内容を説明することができます。

  • セルフィーを見て、表情や感情を言い当てる
  • 人物の名前と外見を覚え、会話中も名前で呼びかける
  • 走ってくるタクシーを見て、「もうすぐ、タクシーがあなたの前を通りそうです」と伝える
  • streaming中の動画の、少し前の内容を言い当てる
gpt4oの映像認識デモ
引用元: https://openai.com/index/hello-gpt-4o/

2. 会議に参加する

 多人数の議論に加わることができます。

  • 参加者の1人として意見を言う
  • 内容をリアルタイムで要約する

3. 教師になる

 分からない問題を映像で示し、「答えは言わずに、解き方のヒントを順に教えて欲しい」と言えば、tutorになってくれます。

gpt4oのtutorデモ
引用元: https://openai.com/index/hello-gpt-4o/

4. 歌う

 多彩な歌唱表現が可能です。

  • 子守唄
  • 2つのGPT-4oで交互に歌う、ハーモニーを奏でる
  • 「もう少し、高い声で」「もう少し早く」
  • 「もっとドラマティックに」

5. 電話代行

 デモ動画では、カスタマーサービスに扮したGPT-4oと、電話代行するGPT-4oの掛け合いが映っています。

 見た限りでは、実際の電話でも問題なく対応できる会話レベルです。

6. 読み上げ速度の変更

 以下のように、細かく指定することができます。

  • 「もっと早く喋って」
  • 「ちょっと遅いかな、もう少し早く」
  • 「それだと早すぎる、その中間ぐらいで」

7. 翻訳する

 GPT-4oが仲介役となって、会話をリアルタイム翻訳します。

8. 感情表現

 Voice Modeの音声表現は、非常に豊かです。

 映像の内容、話者の抑揚、話の内容に合わせて、喋り方を細かくアレンジすることができます。

まとめ

 GPT-4oは、音声と映像の処理能力が強化されたOpenAIの最新モデルです。Voice Modeによる音声インタラクションと最新の映像認識能力により、業務効率化や生産性向上が期待できます。

関連記事はこちら //

ChatGPTのMemory機能とは?パーソナライズされたAIを学習シーンに活用する方法
Mermory機能をOnにすると、「xxxを覚えて」と指示した内容がChatGPT上に保存されるようになります。ユーザー専用の小規模データベースを作成して、語学など学習シーンに応用することが可能です。
Gboardで絵文字付き日本語テキストを音声入力 & その内容を英語に同時翻訳する方法
GboardはGoogleが提供する多機能キーボードアプリです。音声入力や同時翻訳を活用すると、日本語・英語のテキスト入力時間を短縮化することができます。一部Pixel端末なら、音声入力による自動句読点や絵文字入力も可能です。
GoogleがGemini 1.5 Proを正式リリース!Vertex AI Studioで音声 & 動画処理をテストする
Googleは2024年4月に公開プレビューした「Gemini 1.5 Pro」のstable版を、正式にリリースしました。テキスト、動画、音声を横断的に処理する同モデルの性能は、Vertex AI Studio内で簡単にテストすることができます。
タイトルとURLをコピーしました