画像認識技術は日々進化していますが、Googleの生成AI「Gemini」が持つ画像認識能力は、従来のAIとは一線を画すレベルに到達しています。
「画像の内容を説明させる」だけでなく、細かい文字の読み取りや複雑な状況の推論など、ビジネス現場で即戦力となる機能が満載!
本記事では、Geminiの画像認識機能の凄さやAIが自ら画像を詳しく調査する最新のアプローチ、そして実際に使ってみた検証結果をわかりやすく解説していきます。
API価格や他のAIモデルとの違いについても触れていますので、導入を検討中の方はぜひ参考にしてくださいね!
🏃♂️➡️YoomはGeminiとの連携を自動化できます
👉Yoomとは?ノーコードで業務自動化につながる!
AIとの連携は強力ですが、毎回手動で指示を出すのは手間がかかりますよね...
Yoomを活用すれば、チャットで送信された内容を解析してドキュメントに追加したり、データベースツールへの情報追加をトリガーに解析結果を通知する業務フローをノーコードで自動化できるんです!
例えば、以下のようなテンプレートを使えば、すぐに自動化を始められます。
チャットで送信された内容をGeminiで解析し、Googleドキュメントに追加する
試してみる
■概要
Slack上での活発な議論やアイデア共有は有益ですが、後から内容を追いかけたり、議事録としてまとめる作業に手間を感じていませんか。
重要な情報が流れてしまい、探すのに時間がかかることもあります。
このワークフローを活用すれば、Slackの特定チャンネルへの投稿をトリガーに、Geminiが自動で内容を解析・要約し、Googleドキュメントに追記します。情報整理の手間を解消し、ナレッジの蓄積を円滑に進めることが可能です。
■このテンプレートをおすすめする方
- Slackでの情報共有が多く、内容の振り返りや整理に課題を感じている方
- Geminiを活用して、チャットの内容から要約やタスクの抽出を自動化したい方
- 手作業での情報転記をなくし、議事録作成などの業務を効率化したいマネージャーの方
■このテンプレートを使うメリット
- Slackの投稿を自動で解析しGoogleドキュメントに記録するため、手作業での転記や要約に費やしていた時間を短縮できます。
- 手動でのコピー&ペーストによる転記漏れや、内容の抜け漏れといったヒューマンエラーの発生を防ぎ、情報の正確性を保ちます。
■フローボットの流れ
- はじめに、Slack、Gemini、GoogleドキュメントをYoomと連携します。
- 次に、トリガーでSlackを選択し、「メッセージがチャンネルに投稿されたら」というアクションを設定します。
- 次に、オペレーションでGeminiを選択し、「コンテンツを生成」アクションでSlackの投稿内容を解析・要約するよう設定します。
- 最後に、オペレーションでGoogleドキュメントを選択し、「文末にテキストを追加」アクションで、Geminiが生成した内容を指定のドキュメントに追記するよう設定します。
※「トリガー」:フロー起動のきっかけとなるアクション、「オペレーション」:トリガー起動後、フロー内で処理を行うアクション
■このワークフローのカスタムポイント
- Slackのトリガー設定では、自動化の対象としたいチャンネルを任意で選択してください。
- Geminiのオペレーション設定では、「この内容を要約して」「アクションアイテムを抽出して」など、目的に応じてプロンプトを自由にカスタマイズしてください。
- Googleドキュメントのオペレーション設定では、解析結果を追記したいドキュメントを任意で選択してください。
■注意事項
- Gemini、Googleドキュメント、SlackのそれぞれとYoomを連携してください。
Google スプレッドシートに追加された行を元に、Geminiでテキストを生成しRedditのサブレディットに投稿する
試してみる
■概要
Redditへの定期的な投稿や、Geminiを使ったコンテンツ生成を手作業で行っていませんか?ネタの考案から投稿まで、一連の作業には多くの時間と手間がかかります。
このワークフローを活用すれば、Google スプレッドシートに投稿の元となる情報を追加するだけで、Geminiが自動でテキストを生成し、指定したRedditのサブレディットへの投稿までを自動化できます。これにより、コンテンツ投稿のプロセスを効率化し、より戦略的な活動に時間を充てることが可能になります。
■このテンプレートをおすすめする方
- Geminiを活用してRedditへの投稿コンテンツを効率的に作成したいコミュニティマネージャーの方
- Google スプレッドシートで管理している情報を元に、Redditへの投稿を自動化したいマーケターの方
- API連携の知識なしで、GeminiとRedditを連携させた情報発信の仕組みを構築したい方
■このテンプレートを使うメリット
- スプレッドシートへの追記だけでGeminiが投稿文を生成しRedditへ投稿するため、一連の作業に費やしていた時間を短縮することができます。
- 手作業によるコピー&ペーストのミスや投稿先の間違いといったヒューマンエラーを防ぎ、安定した情報発信を実現します。
■フローボットの流れ
- はじめに、Google スプレッドシート、Gemini、RedditをYoomと連携します。
- 次に、トリガーでGoogle スプレッドシートを選択し、「行が追加されたら」というアクションを設定します。
- 次に、オペレーションでGeminiを選択し、「コンテンツを生成」アクションを設定し、スプレッドシートの情報を元に投稿するテキストを作成します。
- 最後に、オペレーションでRedditの「サブレディットに新規投稿を作成」アクションを設定し、Geminiで生成したテキストを投稿します。
※「トリガー」:フロー起動のきっかけとなるアクション、「オペレーション」:トリガー起動後、フロー内で処理を行うアクション
■このワークフローのカスタムポイント
- Google スプレッドシートのトリガー設定では、対象のスプレッドシート、シート、そしてデータを取得するテーブルの範囲を任意で設定してください。
- Geminiのアクションでは、テキストを生成するためのプロンプトを自由にカスタマイズできます。スプレッドシートから取得した情報を変数としてプロンプトに含めることも可能です。
- Redditへの投稿アクションでは、投稿先のサブレディット、タイトル、本文などを任意で設定できます。固定値だけでなく、前段のフローで取得した情報を変数として利用できます。
■注意事項
- Google スプレッドシート、Gemini、RedditのそれぞれとYoomを連携してください。
- トリガーは5分、10分、15分、30分、60分の間隔で起動間隔を選択できます。
- プランによって最短の起動間隔が異なりますので、ご注意ください。
Notionに行が追加されたら、Geminiで解析しGoogle Chatにメッセージを送信する
試してみる
■概要
Notionに蓄積される情報を、都度確認して要約しチームに共有する作業は手間がかかるのではないでしょうか。
このワークフローは、Notionのデータソースに新しいページが追加・更新されると、その内容をGeminiが自動で解析し、要約した結果をGoogle Chatに通知します。GeminiとGoogle Chatを連携させることで、情報共有のプロセスを自動化し、手作業による確認や転記の手間を省き、チーム全体の情報共有を円滑にします。
■このテンプレートをおすすめする方
- Notionに集約した情報を、手作業でGoogle Chatに共有しており手間を感じている方
- GeminiとGoogle Chatを連携させ、情報共有の自動化や効率化を実現したい方
- 最新情報の確認漏れを防ぎ、チーム内の効率的な意思決定を促進したいマネージャーの方
■このテンプレートを使うメリット
- Notionへの情報追加を起点にGeminiでの解析とGoogle Chatへの通知が自動化され、これまで手作業で行っていた情報共有の時間を短縮します。
- 手作業による情報の転記ミスや共有漏れを防ぎ、常に正確な情報に基づいたコミュニケーションを実現できます。
■フローボットの流れ
- はじめに、Notion、Gemini、Google ChatをYoomと連携します。
- 次に、トリガーでNotionを選択し、「特定のデータソースのページが作成・更新されたら」というアクションを設定します。
- 次に、オペレーションで分岐機能を設定し、取得した情報をもとに特定の条件で後続のアクションを実行するかを判断させます。
- 次に、オペレーションでNotionの「レコードを取得する(ID検索)」を設定し、トリガーで反応したページのより詳細な情報を取得します。
- 次に、オペレーションでGeminiの「コンテンツを生成」を設定し、取得したNotionの情報を元に要約などのテキストを生成します。
- 最後に、オペレーションでGoogle Chatの「メッセージを送信」を設定し、Geminiが生成したテキストを指定のスペースに送信します。
※「トリガー」:フロー起動のきっかけとなるアクション、「オペレーション」:トリガー起動後、フロー内で処理を行うアクション
■このワークフローのカスタムポイント
- Notionのトリガー設定では、連携の対象としたいデータソースIDを任意で設定してください。
- 分岐機能では、Notionから取得したページのプロパティ(ステータスなど)の値を基に、後続の処理を実行する条件を自由に設定できます。
- Geminiにテキスト生成を依頼する際のプロンプトは自由にカスタマイズでき、Notionから取得した情報を変数として組み込むことで、目的に応じた文章を作成させることが可能です。
- Google Chatへの通知では、メッセージを送信するスペースを任意で指定できるだけでなく、本文にGeminiが生成した内容やNotionの情報を変数として埋め込めます。
■注意事項
- Notion、Gemini、Google ChatのそれぞれとYoomを連携してください。
- トリガーは5分、10分、15分、30分、60分の間隔で起動間隔を選択できます。
- プランによって最短の起動間隔が異なりますので、ご注意ください。
- 分岐はミニプラン以上のプランでご利用いただける機能(オペレーション)となっております。フリープランの場合は設定しているフローボットのオペレーションはエラーとなりますので、ご注意ください。
- ミニプランなどの有料プランは、2週間の無料トライアルを行うことが可能です。無料トライアル中には制限対象のアプリや機能(オペレーション)を使用することができます。
- Google Chatとの連携はGoogle Workspaceの場合のみ可能です。詳細は下記を参照ください。
https://intercom.help/yoom/ja/articles/6647336
👀Geminiの画像認識とは?何ができる?
Geminiは、Googleが開発した「マルチモーダルAI」。
テキストだけでなく、画像や音声、動画といった異なる種類の情報をネイティブに理解することができます。
画像認識においては、単に「何が写っているか」を答えるだけでなく、以下のような高度な処理が可能です。
- 物体認識・特定:写真内の商品、動物、建物などを高精度に特定します。
- OCR(文字認識):手書きのメモや印刷物の文字をテキストデータとして抽出可能!
日本語の読み取り精度も非常に高いのが特徴です。 - 状況説明:「この画像の人物は何をしているか?」「このグラフから何が読み取れるか?」といった、文脈を理解して説明できちゃうんです。
- 推論とアドバイス:冷蔵庫の中身の写真からレシピを提案したり、商品のパッケージ画像からターゲット層を推測したりといった活用も可能!
👐AIの認識アプローチとは?
Geminiの最新の画像認識機能における最大の特徴は、AIが人間のように「能動的に画像を見る」アプローチを取り入れている点。
従来のAIは、与えられた画像を一度だけ全体的にスキャンして回答していましたが、これでは細かい文字や密集した物体の数え上げなどでミスが発生しがちでした...
Geminiの「自律的な視覚探索機能」では、AIが画像の細部を確認する必要があると判断した場合、自ら画像を「ズーム」「切り抜き」して、対象箇所を詳しく再確認できるようになったんです!
「Think-Act-Observe」のループ
このプロセスは、AIの中で以下のような自律的なループとして実行されます。
- Think(思考):「この文字は小さくて読みにくいな。拡大して確認しよう」や「物体の数を正確に数えるためにマーキングが必要だ」とAI自身が判断できるんです!
- Act(実行):判断に基づき、実際に画像の特定部分をズーム処理したり、カウント用のマーカーを描画したりするコードを裏側で実行します。
- Observe(観察):処理後の画像を再度認識し、より正確な情報を取得して回答を生成。
この「確認プロセス」を自律的に挟むことで、小さな注釈文字の読み取りや、複雑な図面の解析精度が飛躍的に向上しています。
Google AI StudioやAPIでの活用
このアプローチは、Google AI StudioやAPIを通じたエージェント型(Agentic)ワークフローとして提供されています。
従来の画像認識APIは「画像を送って結果を受け取る」という一方通行のものでした。
エージェント型ワークフローでは、AIがタスクを完了するために必要なツール(Pythonコード実行環境など)を自律的に呼び出し、納得いくまで確認を行ってから最終回答を出力します。
開発者は複雑な指示(例:「この図面の配管の本数を数えて」など)を投げても、AIが自ら試行錯誤して精度の高い答えを導き出してくれるようになるのです!
☑️【やってみた】Geminiの画像認識力を検証
さっそく、Geminiがどのような挙動を見せるのか、3つのパターンで検証してみました!
1.高難度探索
細かい物体が大量に描かれたイラストを用意し、以下のプロンプトを投稿してみます。
入力プロンプト
この画像の中から、白のTシャツを着たキャラクターを探してください。見つけた場所に印をつけて、どのあたりにいるかも説明してください。
プロンプト投稿後、「Nano Banana Proを読み込んでいます...」と表示され、解析結果が出力されました!
白い毛色の動物や薄い水色のトップスの人物もいたのですが、惑わされることもなく、対象のキャラクターがいる場所に正確に印をつけているようです!
従来モデルでは「画像の中央あたり」といった曖昧な回答になりがちでしたが、正確に位置を特定できる実力を見せつけました。