OpenAIの「GPT-4o」は人間並みのレスポンスが可能な映像認識とVoice Modeを搭載！

TL;DR

– GPT-4oは、既存モデルよりも音声と映像の解析能力が大きく向上している
-「end-to-endモデル」を採用することで、入力・出力の時間差を大幅に改善
– サイト内のデモ動画では、同モデルの様々な活用シーン（歌う、教師になる、会議に参加する、翻訳する・・）が紹介されている

OpenAIの「GPT-4o」は人間並みのレスポンスが可能な映像認識とVoice Modeを搭載！

音声・テキスト・映像に特化したend-to-endモデル

　OpenAIは、最新モデル「GPT-4o」（o は「omni」の頭文字）をリリースしました。

　全ユーザー（ChatGPT Freeを含む）を対象に、モデル展開を既に開始していると伝えています。

　また、今回の目玉である「Voice Mode」については、~~今後数週間のうちに~~、ChatGPT Plus（有料）のアルファ版から使用可能になると伝えています。

（Update 2024/6/26）

　OpenAIは、Voice Modeのリリース予定時期を、今秋まで延長しました。

We're sharing an update on the advanced Voice Mode we demoed during our Spring Update, which we remain very excited about:

We had planned to start rolling this out in alpha to a small group of ChatGPT Plus users in late June, but need one more month to reach our bar to launch.…
— OpenAI (@OpenAI) June 25, 2024

人間並みの視覚と会話能力

　GPT-4oは、音声と映像の処理能力が強化されています。

人間並みの会話レスポンス
会話を「被せる」ことができる
感情豊かな音声表現ができる
静止画・動画を見ながら状況説明ができる

　これらのUXは、音声・テキスト・映像向けに訓練された「end-to-endモデル」が基盤となっています。

CHECK！

（コラム）end-to-end モデルとは？

　GPT-4oの特徴について、OpenAIは以下のように述べています。

With GPT-4o, we trained a single new model end-to-end across text, vision, and audio, meaning that all inputs and outputs are processed by the same neural network.
引用元: https://openai.com/index/hello-gpt-4o/

　「end-to-end」モデルとは、簡単に説明すると「必要な解析能力を1つに集約したモデル」を指します。

　分かり易くするため、ここでは音声データ単体を例に考えてみます。

　GPT-4では、ASR（音声のテキスト変換）、NLU（テキスト出力）、TTS（テキストの音声変換）の3モデルを使用して、音声処理の解析精度を保っていました。

　しかし、複数モデルを使用することは、以下のようなデメリットがあります。

全てのモデル処理が完了するまで、時間がかかってしまう（= 入力と出力に時間差が生じる）
各モデルのデータ処理過程で、情報が少しずつ失われる（これについて、OpenAIは「音調、複数の話者、背景音の直接観察、そして笑い声、歌、感情の表現が難しくなる」と述べている）
各モデルの相性が悪いと、良い出力が生まれない（= 個々のモデル性能を追い求めてもダメ）

　この問題点を解消するために考案されたモデルが「End-to-End」、つまり間に挟むモデルを取り除くという手法です。

　OpenAIは、この手法を音声・テキスト・映像に適用したことになります。

　一体、どのようにモデルを訓練したんでしょうか・・。