– GPT-4oは、既存モデルよりも音声と映像の解析能力が大きく向上している -「end-to-endモデル」を採用することで、入力・出力の時間差を大幅に改善 – サイト内のデモ動画では、同モデルの様々な活用シーン(歌う、教師になる、会議に参加する、翻訳する・・)が紹介されている
OpenAIの「GPT-4o」は人間並みのレスポンスが可能な映像認識とVoice Modeを搭載!
音声・テキスト・映像に特化したend-to-endモデル
OpenAIは、最新モデル「GPT-4o」(o は「omni」の頭文字)をリリースしました。
全ユーザー(ChatGPT Freeを含む)を対象に、モデル展開を既に開始していると伝えています。
また、今回の目玉である「Voice Mode」については、今後数週間のうちに 、ChatGPT Plus(有料)のアルファ版から使用可能になると伝えています。
(Update 2024/6/26)
OpenAIは、Voice Modeのリリース予定時期を、今秋まで延長しました。
人間並みの視覚と会話能力
GPT-4oは、音声と映像の処理能力が強化されています。
人間並みの会話レスポンス
会話を「被せる」ことができる
感情豊かな音声表現ができる
静止画・動画を見ながら状況説明ができる
これらのUXは、音声・テキスト・映像向けに訓練された「end-to-endモデル」が基盤となっています。
CHECK!
(コラム)end-to-end モデルとは?
GPT-4oの特徴について、OpenAIは以下のように述べています。
With GPT-4o, we trained a single new model end-to-end across text, vision, and audio, meaning that all inputs and outputs are processed by the same neural network.
引用元: https://openai.com/index/hello-gpt-4o/
「end-to-end」モデルとは、簡単に説明すると「必要な解析能力を1つに集約したモデル」を指します。
分かり易くするため、ここでは音声データ単体を例に考えてみます。
GPT-4では、ASR(音声のテキスト変換)、NLU(テキスト出力)、TTS(テキストの音声変換)の3モデルを使用して、音声処理の解析精度を保っていました。
しかし、複数モデルを使用することは、以下のようなデメリットがあります。
全てのモデル処理が完了するまで、時間がかかってしまう (= 入力と出力に時間差が生じる)
各モデルのデータ処理過程で、情報が少しずつ失われる (これについて、OpenAIは「音調、複数の話者、背景音の直接観察、そして笑い声、歌、感情の表現が難しくなる 」と述べている)
各モデルの相性が悪いと、良い出力が生まれない (= 個々のモデル性能を追い求めてもダメ)
この問題点を解消するために考案されたモデルが「End-to-End」、つまり間に挟むモデルを取り除くという手法です。
OpenAIは、この手法を音声・テキスト・映像に適用したことになります。
一体、どのようにモデルを訓練したんでしょうか・・。
GPT-4o が提供する最新UX
サイトで紹介されている動画(一部抜粋)を基に、GPT-4oが提供するUXを纏めました。
1. 映像の説明
静止画だけでなく、streaming中の動画についても、内容を説明することができます。
セルフィーを見て、表情や感情を言い当てる
人物の名前と外見を覚え、会話中も名前で呼びかける
走ってくるタクシーを見て、「もうすぐ、タクシーがあなたの前を通りそうです」と伝える
streaming中の動画の、少し前の内容を言い当てる
引用元: https://openai.com/index/hello-gpt-4o/
2. 会議に参加する
多人数の議論に加わることができます。
参加者の1人として意見を言う
内容をリアルタイムで要約する
3. 教師になる
分からない問題を映像で示し、「答えは言わずに、解き方のヒントを順に教えて欲しい」と言えば、tutorになってくれます。
引用元: https://openai.com/index/hello-gpt-4o/
4. 歌う
多彩な歌唱表現が可能です。
子守唄
2つのGPT-4oで交互に歌う、ハーモニーを奏でる
「もう少し、高い声で」「もう少し早く」
「もっとドラマティックに」
5. 電話代行
デモ動画では、カスタマーサービスに扮したGPT-4oと、電話代行するGPT-4oの掛け合いが映っています。
見た限りでは、実際の電話でも問題なく対応できる会話レベルです。
6. 読み上げ速度の変更
以下のように、細かく指定することができます。
「もっと早く喋って」
「ちょっと遅いかな、もう少し早く」
「それだと早すぎる、その中間ぐらいで」
7. 翻訳する
GPT-4oが仲介役となって、会話をリアルタイム翻訳します。
8. 感情表現
Voice Modeの音声表現は、非常に豊かです。
映像の内容、話者の抑揚、話の内容に合わせて、喋り方を細かくアレンジすることができます。
まとめ
GPT-4oは、音声と映像の処理能力が強化されたOpenAIの最新モデルです。Voice Modeによる音声インタラクションと最新の映像認識能力により、業務効率化や生産性向上が期待できます。
関連記事はこちら //
ChatGPTのMemory機能とは?パーソナライズされたAIを学習シーンに活用する方法
Mermory機能をOnにすると、「xxxを覚えて」と指示した内容がChatGPT上に保存されるようになります。ユーザー専用の小規模データベースを作成して、語学など学習シーンに応用することが可能です。
Gboardで絵文字付き日本語テキストを音声入力 & その内容を英語に同時翻訳する方法
GboardはGoogleが提供する多機能キーボードアプリです。音声入力や同時翻訳を活用すると、日本語・英語のテキスト入力時間を短縮化することができます。一部Pixel端末なら、音声入力による自動句読点や絵文字入力も可能です。
GoogleがGemini 1.5 Proを正式リリース!Vertex AI Studioで音声 & 動画処理をテストする
Googleは2024年4月に公開プレビューした「Gemini 1.5 Pro」のstable版を、正式にリリースしました。テキスト、動画、音声を横断的に処理する同モデルの性能は、Vertex AI Studio内で簡単にテストすることができます。