概要
グーグルは最近、Geminiアプリのユーザーに正式に招待を発行し、最新のGemini 2.0 Flashアプリケーションモデルを体験する機会を与え、同時に2.0 Flash Thinking推論実験モデルも公開しました。この注目を集める2.0 Flashモデルは、2024年のグーグルI/Oカンファレンスで初めて登場したとき、その低遅延と高性能の特性で急速に開発者コミュニティの支持を得ました。100万tokensのコンテキストウィンドウを処理することができ、優れたマルチモーダル推論能力を示し、特に大規模で高頻度のタスク処理に適しています。
Gemini 2.0 Flashシリーズの発表
1.1 Gemini 2.0 Flashモデルの特性
2024年のグーグルI/Oカンファレンスで初めて登場したGemini 2.0 Flashモデルは、その低遅延と高性能の特性で急速に開発者コミュニティの支持を得ました。このモデルは100万tokensのコンテキストウィンドウを処理することができ、優れたマルチモーダル推論能力を示し、特に大規模で高頻度のタスク処理に適しています。
Gemini 2.0 Flashモデルは、独立して動作するだけでなく、YouTube、Google Search、Google Mapsなどグーグルの人気アプリケーションとシームレスに連携することができます。ユーザーはこれらのアプリケーション内で知識を発見し、拡張し、よりスマートなサービを体験することができます。
1.2 Gemini 2.0 Flash Thinkingモデルの強化された推論能力
2.0 Flashの速度と性能に基づくGemini 2.0 Flash Thinkingモデルは、推論能力をさらに強化しました。このモデルは特別なトレーニングを経て、複雑なプロンプトを一連の明確なステップに分解することができ、より正確で優れたレスポンスを提供します。さらに、2.0 Flash Thinking Experimentalモデルは、その思考プロセスを示すことができ、ユーザーはモデルがなぜある方法で応答するのか、その背後にある仮定は何なのか、モデルの推論ロジックがどのようなものかを見ることができます。この前例のない透明性は、ユーザーがモデルの決定プロセスをより深く理解できるようにします。
現在、GeminiはYouTube、Search、Google Mapsなどとの連携を実現した2.0 Flash Thinkingバージョンをすでに提供しています。これらの連携アプリケーションはGeminiをユニークなAIアシスタントにし、グーグルは今後も新しい推論能力をユーザーのアプリケーションと組み合わせる方法を探索し続け、ユーザーがより多く、より複雑なタスクを完了できるようにするでしょう。
1.3 Gemini 2.0 Pro実験バージョン
上述の2つのモデルに加えて、グーグルはGemini 2.0 Pro実験バージョンを発表しました。このモデルは、卓越したプログラミング性能と複雑なプロンプト処理能力で知られており、200万tokensのコンテキストウィンドウを有し、大量の情報を包括的に分析し理解することができます。また、Google検索やコードの実行などのツールを呼び出すこともでき、開発者にさらに強力なサポートを提供します。現在、開発者はGoogle AI StudioとVertex AIでこの実験バージョンのモデルを体験することができ、Geminiの上級ユーザーはデスクトップとモバイルでアクセスすることができます。
1.4 Gemini 2.0 Flash-Liteモデル
異なるユーザーのニーズを満たすために、グーグルはGemini 2.0 Flash-Liteモデルも発表しました。このモデルは、これまでで最もコストパフォーマンスの高いモデルと呼ばれ、低コストと高速応答を維持しながら、1.5 Flashよりも高い品質を提供することを目指しています。100万tokensのコンテキストウィンドウとマルチモーダル入力をサポートしており、例えばGoogle AI Studioの有料サブスクリプションでは、4万枚のユニークな画像に1行の関連する説明を生成することができ、コストは1ドル以下です。
Gemini 2.0 Flash画像生成の使用ガイド
2.1 Gemini 2.0 Flashを使用して画像を生成する方法
現在、主に2つの方法があります:Google AI Studioを使用する;Gemini APIに接続して使用する。
2.1.1 Google AI Studioを使用する
-
Google AI Studioウェブサイトを開き、Googleアカウントでログインします。
-
画像を生成する
- ページで「Create prompt」をクリックします。
- 「Model」ドロップダウンメニューから「Gemini 2.0 Flash (Image Generation) Experimental」を選択します。
- Promptボックスに生成したい画像の説明を入力し、開始をクリックします。
-
画像を編集する:一言でP图
- Promptボックスに続けて指示を入力して、生成された画像を編集することができます。例えば、AIに要素を追加したり、色を変更したり、スタイルを変更したりすることができます。
- 既存の画像をアップロードし、望む変更を入力することもできます。例えば、「追加...」、「変更...」、「変更...」など。
-
特定のテーマの画像を生成する
- 直接に彼女……の画像を要求することもできます(笑)。
2.1.2 Gemini APIに接続して使用する
Google AI Studioでの使用に加えて、現在Gemini 2.0 FlashのAPIに接続して使用することもできますが、ある程度の技術的な基礎が必要です。具体的な使用方法は以下のドキュメントを参照してください:
2.2 上級者の使用方法
2.2.1 編集する対象を明確にし、対象と要求動作を分離する
特に画面要素が多い画像では、例えば:
- 青色に変更する、ではなく「この車の色を青色に変更する」というように指定する方が良いでしょう。
2.2.2 図文を組み合わせて、シリーズ画像を直接生成する
例えば:
- ストーリーを語り、それに応じたイラストを生成するように指示することで、児童絵本を作成することができます。
2.2.3 英語のプロンプトを使用して、カードを引く回数を増やす
Gemini 2.0 Flashの画像生成の一致性は確かに強いけれども、毎回生成されるものが要求に合致するとは限りません。そのような場合、プロンプトを英語に変更するか、もしくは元のプロンプトを再編集し、カードを引き続けることで、満足のいくものを見つけることができます。
2.3 使用制限
Google AI Studioは無料で使用できる枠組みを提供していますが、使用制限があります:
- 現在、毎日最大50回のリクエストまでで、1分間に2回を超えてはならず、最大tokensは32,000までです(後日変更される可能性があります)。
まとめ
Gemini 2.0シリーズのモデルが発表されたことで、グーグルはAI分野で再び堅実な一歩を踏み出しました。これらのモデルは、ユーザーによりスマートで便利なサービを提供するだけでなく、開発者にさらに強力で柔軟なツールを提供します。近い将来、Geminiがより多くのユーザーに信頼されるスマートアシスタントになることを信じています。
aiスピーキング
ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?