Google I/O 2024で発表されたGeminiアプリのロードマップ: 音声UXはこれから更に進化する
Gemini関連のリリース・アナウンスが勢揃い
Google I/O 2024では、Geminiアプリ、及びGeminiモバイルアプリに関する最新発表が相次ぎました。
その内容について、一部抜粋しながら要点を纏めていきたいと思います。
Gemini 1.5 ProをGemini Advancedユーザー向けに展開
Gemini Advanced(有料)のAIエンジンが、Gemini 1.5 Proにアップグレードされました。
1M tokensを処理するマルチモーダルLLMが、Geminiアプリ、及びGeminiモバイルアプリの両方で使用可能になります。
![20240514geminiアプリの最新情報画面](https://thkkvui.blog/wp-content/uploads/2024/05/20240515google-io-2024-gemini-update2-1.png)
Geminiアプリの最新情報より
また、ローカルやGoogle Driveからファイルを直接アップロードし、内容を要約する機能も合わせてリリースされています。
なお、アップロードしたスプレッドシート等のデータを視覚化・分析する機能が、間もなくリリースされる予定となっています。
(Update 2024/5/22)
Gemini Advancedユーザー向けのデータ分析機能が、5/21付で正式にリリースされました。
![](https://thkkvui.blog/wp-content/uploads/2024/05/20240515google-io-2024-gemini-update6.jpg)
Gemini Advancedのデータ分析機能
手元のスプレッドシートでテストしましたが、データの視覚化、具体的な分析、改善点の提案まで出力してくれます。
![GeminiAdvancedのデータ分析機能でチャートを表示する](https://thkkvui.blog/wp-content/uploads/2024/05/20240515google-io-2024-gemini-update7.png)
データの視覚化
![GeminiAdvancedのデータ分析による分析結果の出力](https://thkkvui.blog/wp-content/uploads/2024/05/20240515google-io-2024-gemini-update8-1024x966.png)
分析結果
![GeminiAdvancedのデータ分析による改善点の提案](https://thkkvui.blog/wp-content/uploads/2024/05/20240515google-io-2024-gemini-update9-1024x649.png)
改善点の提案
「Gemini 1.5 Pro 2M」のPrivate Previewを開始
2M tokensを処理可能な「Gemini 1.5 Pro 2M」が、開発者向けのPrivate Previewとしてリリースされました。
現在、waitlistに登録することができます。
![gemini15proの2Mモデルのwaitlist画面](https://thkkvui.blog/wp-content/uploads/2024/05/20240515google-io-2024-gemini-update1.png)
「Ask this video」「Ask this PDF」
モバイルアプリ画面で表示される「この画面を追加」というアクションボタンを、動画やPDF向けに使用する機能です。
今後数ヶ月でのリリースが予定されています。
![geminiモバイルアプリの画面添付ボタン](https://thkkvui.blog/wp-content/uploads/2024/05/20240515google-io-2024-gemini-update3.jpg)
YouTubeの要約には「Ask this video」、PDFの要約には「Ask this PDF」のような使い分けが可能になります。
なお、「Ask this PDF」については、Gemini Advanced(有料)ユーザーが対象になります。
Gems
Geminiの振る舞いを、ユーザーがInstruction画面からカスタマイズできるようになります。既に少人数のテスターに展開し、良い結果が得られているとGoogleは説明しています。
Gemini Advanced(有料)ユーザー向けに、間もなくリリースされる予定となっています。
![geminiアプリのgems設定画面](https://thkkvui.blog/wp-content/uploads/2024/05/20240515google-io-2024-gemini-update4-1.png)
Gemini Live
Geminiの回答中に質問を被せるなど、より自然な会話UXが可能になります。
Gemini Advanced(有料)ユーザー向けに、今後数ヶ月でのリリースが予定されています。
![geminiアプリのLive画面](https://thkkvui.blog/wp-content/uploads/2024/05/20240515google-io-2024-gemini-update5.png)
Project Astra
Google DeepMindが開発中のマルチモーダルなAIアシスタントが、モバイルでも使用できるようになります。
Google I/Oで登場したデモ動画では、streaming動画の内容をリアルタイムで認識しながら、ユーザーと会話する模様が紹介されています。
「私のサングラスって、どこに置いてあったが覚えてますか?」のように、内容を少し遡って質問することも可能です。
Gemini Advanced(有料)ユーザーを対象に、年後半のリリースが予定されています。
マルチモーダルなGemini Nano
テキストだけでなく、音声や画像も処理可能なGemini Nanoが、対象のPixel端末に搭載されます。
今年後半のリリースが予定されています。
Gemini Nanoを使ったscam電話の判定
通話をリアルタイムで監視し、不審な内容(詐欺など)を検知すると画面上にアラートを表示します。
Gemini Nano搭載の端末を対象に、今年後半のリリースが予定されています。
まとめ
Google I/O 2024では、モデルや最新機能に関する多くの発表がありました。
今後、Gemini Live、Project Astraなどの機能実装により、モバイルアプリの音声UXは更に向上することが予想されます。
関連記事はこちら //
![](https://thkkvui.blog/wp-content/uploads/2023/11/20231118DeploymyVUIサムネイル1-160x90.png)
![](https://thkkvui.blog/wp-content/uploads/2024/02/20240229voicetech-useサムネイル-160x90.png)
![](https://thkkvui.blog/wp-content/uploads/2024/03/20240304siri-useサムネイル1-160x90.png)