GoogleがGemini 1.5 Proを正式リリース!Vertex AI Studioで音声 & 動画処理をテストする

音声ニュースのイメージ図 最新リリース・アナウンス
This image was created with DALL·E3
最新リリース・アナウンス
この記事は約3分で読めます。

TL;DR

– Gemini 1.5 Proは、音声、動画、テキスト、コードのマルチモーダル処理が可能なLLM
– Vertex AI Studioには、Gemini 1.5 Pro向けのテストサンプル(動画や音声ファイル)が複数用意されている

GoogleがGemini 1.5 Proを正式リリース!Vertex AI Studioで音声 & 動画処理をテストする

最新モデルを正式リリース

 Googleは、2024年4月に公開プレビューしたGemini 1.5 Proのstable版を、正式にリリースしました。

 このモデルは、音声を含むマルチモーダルな推論能力が強化されています。

 複数媒体を横断的に処理するMLLM(Multimodal Large Language Model)の登場は、一般・企業ユーザーの利便性を更に高めることになります。

VertexAIのgemini15proモデル

Vertex AIのGemini 1.5 Pro

Gemini Advancedに搭載

 Gemini 1.5 Proは、Gemini Advanced(有料)に搭載されており、Geminiアプリ、Geminiモバイルアプリの両方で使用可能です。

GeminiアプリのGeminiAdvanced最新情報

2024.05.14よりGemini Advancedに搭載

Vertex AI Studioでテストする

 Gemini 1.5 Proは、Vertex AI StudioやGoogle AI Studioでテストすることができます。

 Vertex AI Studioには、動画や音声のテストサンプルが複数用意されており、私は動画サンプルを使ってテストしました。

 「オープン」をクリックすると、プロンプト入力済みのchatが開きます。

VertexAIに用意されているLLM用のテストサンプル

VertexAI内に用意されている動画サンプル

 結果は以下の通り。

 動画と音声に関する質問に対して、概ね正しく回答しています(「やきとり」とは書いてないような・・)。

VertexAIのgemini15proテスト結果

Gemini 1.5 Proのテスト結果

まとめ

 Gemini 1.5 Proの正式リリースにより、マルチモーダルLLMへのアクセスは更に容易になりました。

 Vertex AI Studioでは、その性能を簡単にテストすることができます。

関連記事はこちら //

ChatGPTのMemory機能とは?パーソナライズされたAIを学習シーンに活用する方法
Mermory機能をOnにすると、「xxxを覚えて」と指示した内容がChatGPT上に保存されるようになります。ユーザー専用の小規模データベースを作成して、語学など学習シーンに応用することが可能です。
Gboardで絵文字付き日本語テキストを音声入力 & その内容を英語に同時翻訳する方法
GboardはGoogleが提供する多機能キーボードアプリです。音声入力や同時翻訳を活用すると、日本語・英語のテキスト入力時間を短縮化することができます。一部Pixel端末なら、音声入力による自動句読点や絵文字入力も可能です。
Google I/O 2024で発表されたGeminiアプリのロードマップ: 音声UXはこれから更に進化する
Google I/O 2024では、Gemini LiveやProject Astraなど最新の音声機能がアナウンスされました。Gemini Advancedの音声UXは、年後半に向けてどのような変貌を遂げていくのでしょうか。
タイトルとURLをコピーしました