Google I/O 2024で発表されたGeminiアプリのロードマップ: 音声UXはこれから更に進化する

音声ニュースのイメージ図 最新リリース・アナウンス
This image was created with DALL·E3
最新リリース・アナウンス
この記事は約5分で読めます。

TL;DR

– 2024年のGoogle I/Oは、GeminiやAI関連の最新発表が相次ぐ
– 動画やPDFの解析機能は、Geminiモバイルアプリの利便性を更に高める
– Gemini Live、Project Astraなどの音声機能は、今夏以降のリリースが予定されている

Google I/O 2024で発表されたGeminiアプリのロードマップ: 音声UXはこれから更に進化する

Gemini関連のリリース・アナウンスが勢揃い

 Google I/O 2024では、Geminiアプリ、及びGeminiモバイルアプリに関する最新発表が相次ぎました。

 その内容について、一部抜粋しながら要点を纏めていきたいと思います。

  • 言語、地域、端末、有料・無料ユーザー区分により、使用できるモデルや機能は異なります。
  • リリース予定については、公式の動画・ブログ・SNS間でも時期が統一されていません。
  • 今後の詳細については、Googleの最新情報をご確認ください。

Gemini 1.5 ProをGemini Advancedユーザー向けに展開

 Gemini Advanced(有料)のAIエンジンが、Gemini 1.5 Proにアップグレードされました。

 1M tokensを処理するマルチモーダルLLMが、Geminiアプリ、及びGeminiモバイルアプリの両方で使用可能になります。

20240514geminiアプリの最新情報画面

Geminiアプリの最新情報より

 また、ローカルやGoogle Driveからファイルを直接アップロードし、内容を要約する機能も合わせてリリースされています。

 なお、アップロードしたスプレッドシート等のデータを視覚化・分析する機能が、間もなくリリースされる予定となっています。

(Update 2024/5/22)

 Gemini Advancedユーザー向けのデータ分析機能が、5/21付で正式にリリースされました。


Gemini Advancedのデータ分析機能

 手元のスプレッドシートでテストしましたが、データの視覚化、具体的な分析、改善点の提案まで出力してくれます。

GeminiAdvancedのデータ分析機能でチャートを表示する

データの視覚化
GeminiAdvancedのデータ分析による分析結果の出力

分析結果
GeminiAdvancedのデータ分析による改善点の提案

改善点の提案

「Gemini 1.5 Pro 2M」のPrivate Previewを開始

 2M tokensを処理可能な「Gemini 1.5 Pro 2M」が、開発者向けのPrivate Previewとしてリリースされました。

 現在、waitlistに登録することができます。

gemini15proの2Mモデルのwaitlist画面

「Ask this video」「Ask this PDF」

 モバイルアプリ画面で表示される「この画面を追加」というアクションボタンを、動画やPDF向けに使用する機能です。

 今後数ヶ月でのリリースが予定されています。

geminiモバイルアプリの画面添付ボタン

 YouTubeの要約には「Ask this video」、PDFの要約には「Ask this PDF」のような使い分けが可能になります。

 なお、「Ask this PDF」については、Gemini Advanced(有料)ユーザーが対象になります。

Gems

 Geminiの振る舞いを、ユーザーがInstruction画面からカスタマイズできるようになります。既に少人数のテスターに展開し、良い結果が得られているとGoogleは説明しています。

 Gemini Advanced(有料)ユーザー向けに、間もなくリリースされる予定となっています。

geminiアプリのgems設定画面
引用元: blog.google

Gemini Live

 Geminiの回答中に質問を被せるなど、より自然な会話UXが可能になります。

 Gemini Advanced(有料)ユーザー向けに、今後数ヶ月でのリリースが予定されています。

geminiアプリのLive画面
引用元: blog.google

Project Astra

 Google DeepMindが開発中のマルチモーダルなAIアシスタントが、モバイルでも使用できるようになります。

 Google I/Oで登場したデモ動画では、streaming動画の内容をリアルタイムで認識しながら、ユーザーと会話する模様が紹介されています。

 「私のサングラスって、どこに置いてあったが覚えてますか?」のように、内容を少し遡って質問することも可能です。

 Gemini Advanced(有料)ユーザーを対象に、年後半のリリースが予定されています。

マルチモーダルなGemini Nano

 テキストだけでなく、音声や画像も処理可能なGemini Nanoが、対象のPixel端末に搭載されます。

 今年後半のリリースが予定されています。

Gemini Nanoを使ったscam電話の判定

 通話をリアルタイムで監視し、不審な内容(詐欺など)を検知すると画面上にアラートを表示します。

 Gemini Nano搭載の端末を対象に、今年後半のリリースが予定されています。

まとめ

 Google I/O 2024では、モデルや最新機能に関する多くの発表がありました。

 今後、Gemini Live、Project Astraなどの機能実装により、モバイルアプリの音声UXは更に向上することが予想されます。

関連記事はこちら //

Geminiモバイルアプリ入門: Workspace拡張・プライバシー設定・音声とAIが実現するタスク処理
Geminiモバイルアプリは、Google基幹アプリ(Gmail、Docs、YouTube・・)と連携可能なAIアシスタントです。拡張機能、プライバシー設定、音声を使ったアプリの有効活用法について解説していきます。
Gboardで絵文字付き日本語テキストを音声入力 & その内容を英語に同時翻訳する方法
GboardはGoogleが提供する多機能キーボードアプリです。音声入力や同時翻訳を活用すると、日本語・英語のテキスト入力時間を短縮化することができます。一部Pixel端末なら、音声入力による自動句読点や絵文字入力も可能です。
GoogleがGemini 1.5 Proを正式リリース!Vertex AI Studioで音声 & 動画処理をテストする
Googleは2024年4月に公開プレビューした「Gemini 1.5 Pro」のstable版を、正式にリリースしました。テキスト、動画、音声を横断的に処理する同モデルの性能は、Vertex AI Studio内で簡単にテストすることができます。
タイトルとURLをコピーしました