Difyで画像認識や分析ができることをご存知でしょうか?
「Dify=チャットボット」というイメージが強いかもしれませんが、実は画像内の文字を読み取ったり、写っている状況を理解することが可能なのです!
従来のOCRツールとの最大の違いは、「ただ文字を読むだけでなく、その意味を理解して推論できる」点。
例えば、手書きのメモを見て「これは重要事項だ」と判断したり、商品の写真を見て「在庫が減っている」と気づくこともできます。
本記事では、Difyの画像分析機能の仕組みや設定方法、そして実際に3つのパターンで分析させてみた検証結果などを詳しく解説します!
アプリの構築とか難しそう...という方でも、簡単に導入できるやり方で検証を進めますので、ぜひ最後までご覧くださいね。
🖼️Yoomは画像分析後の業務フローを自動化できます
👉Yoomとは?ノーコードで業務自動化につながる!
Difyで画像を分析した後、そのデータをどう活用しますか?
画像から抽出したテキストデータをコピー&ペーストで別のツールに移していては、せっかくのAI分析も宝の持ち腐れ...
Yoomを使えば、Difyで抽出したデータを自動でNotionデータベースに登録したり、Slackでチームに共有することもできちゃいます!
例えば、「感情分析した結果をチャットツールで通知する」といったフローも、ノーコードで簡単に実現可能。
Dify単体では完結しない「業務の自動化」を、Yoomが強力にサポートします。
フォーム回答をDifyで感情分析してLINEに通知する
試してみる
■概要
「フォーム回答をDifyで感情分析してLINEに通知する」フローは、収集したフォームの回答をDifyのAI機能で分析し、その結果をLINEに自動的に通知する業務ワークフローです。
顧客やチームからのフィードバックをスムーズに把握し、迅速な対応や意思決定が可能になります。
■このテンプレートをおすすめする方
- フォームで得た回答の感情傾向を分析したい担当者の方
- 分析結果をスムーズにチームメンバーや関係者に共有したい管理者の方
- 手動での感情分析に時間を取られず、業務を効率化したい方
- DifyとLINEの連携を利用して通知を自動化したい方
- 顧客満足度や従業員の感情を継続的にモニタリングしたい企業の方
■このテンプレートを使うメリット
- 感情分析結果を自動的にLINEに通知でき、迅速な対応が可能になります。
- 手動での分析作業を自動化することで、業務の効率化と負担軽減が実現します。
- DifyとLINEの連携により、重要な感情データを見逃すことなくチームメンバーと共有できます。
- 分析データを活用することで、より戦略的な改善施策の立案が容易になります。
フォームから回答が送信されたら、Difyで解析し結果をGoogle スプレッドシートに追加する
試してみる
■概要
フォームから送信された問い合わせやアンケートの回答を手作業で確認し、内容を分類して転記する作業に手間を感じていませんか。このワークフローは、フォームからの回答をトリガーとして、AIアシスタント構築プラットフォームのDifyが自動で内容を解析し、その結果をGoogle スプレッドシートへ追加する処理を自動化します。DifyとGoogle スプレッドシートを連携させることで、面倒な手作業から解放され、データの集計や分析を効率化できます。
■このテンプレートをおすすめする方
- フォームから得られる顧客の声を、手作業で分類・集計している担当者の方
- DifyとGoogle スプレッドシートを連携させ、データ分析業務を自動化したい方
- アンケートや問い合わせの解析を効率化し、スムーズな対応や改善に繋げたい方
■このテンプレートを使うメリット
- フォーム回答からDifyでの解析、Google スプレッドシートへの記録までが自動化され、手作業にかかっていた時間を削減できます。
- 手動でのコピー&ペーストが不要になるため、転記ミスや入力漏れといったヒューマンエラーを防ぎ、データの正確性を保つことに繋がります。
■フローボットの流れ
- はじめに、DifyとGoogle スプレッドシートをYoomと連携します。
- 次に、トリガーでフォームトリガーを選択し、フォームから回答が送信されたらフローが起動するように設定します。
- 次に、オペレーションでDifyの「チャットメッセージを送信」アクションを設定し、フォームで受け付けた回答内容を解析させます。
- 最後に、オペレーションでGoogle スプレッドシートの「レコードを追加する」アクションを設定し、Difyによる解析結果を指定のシートに追加します。
※「トリガー」:フロー起動のきっかけとなるアクション、「オペレーション」:トリガー起動後、フロー内で処理を行うアクション
■このワークフローのカスタムポイント
- フォームトリガー機能では、ユーザーが任意で設問項目などをカスタマイズできます。
- Difyに送信するプロンプトは自由にカスタマイズが可能です。フォームで受け付けた回答内容を変数としてプロンプトに組み込むことで、動的なテキスト生成ができます。
- Google スプレッドシートへの追加先として、対象のスプレッドシートやシート、書き込むテーブル範囲などを任意で設定してください。
■注意事項
- Google スプレッドシート、DifyのそれぞれとYoomを連携してください。
- YoomとDifyの連携は、Difyのマイアプリ登録方法をご参照ください。
Googleドキュメントの情報をDifyで解析し、新しいドキュメントに結果を追加する
試してみる
■概要
Googleドキュメントで作成したレポートや議事録の内容をAIで解析し、その結果を新しいドキュメントにまとめる作業に手間を感じていませんか?手作業でのコピー&ペーストは時間がかかるだけでなく、情報の転記ミスが発生する可能性もあります。 このワークフローを活用すれば、フォームにGoogleドキュメントのURLを送信するだけで、Difyが内容を解析し、その結果を元に新しいGoogleドキュメントを自動生成できるため、一連の作業を効率化できます。
■このテンプレートをおすすめする方
- Googleドキュメントで作成した議事録やレポートの要約・解析を効率化したい方
- DifyなどのAIを活用して、手作業でのドキュメント作成の手間を省きたい方
- 様々な情報を元にしたGoogleドキュメントの自動生成に関心があるマーケティングや企画担当の方
■このテンプレートを使うメリット
- フォーム送信を起点に、既存ドキュメントの取得からAIによる解析、新規ドキュメントの自動生成までを一本化し、手作業でのコピー&ペーストの時間を短縮します。
- 手動での転記作業がなくなるため、情報の貼り付けミスや抜け漏れといったヒューマンエラーを防ぎ、アウトプットの品質を安定させることができます。
■フローボットの流れ
- はじめに、DifyとGoogleドキュメントをYoomと連携します。
- 次に、トリガーでフォームトリガーを選択し、解析したいGoogleドキュメントのURLを入力するフォームを設定します。
- 次に、オペレーションでGoogleドキュメントの「ドキュメントのコンテンツを取得」アクションを設定し、フォームで受け取ったURLのドキュメント内容を取得します。
- 次に、オペレーションでDifyの「チャットメッセージを送信」アクションを設定し、取得したドキュメントの内容を解析させます。
- 次に、オペレーションでGoogleドキュメントの「新しいドキュメントを作成する」アクションを設定します。
- 最後に、オペレーションでGoogleドキュメントの「文末にテキストを追加」アクションを設定し、Difyの解析結果を新しいドキュメントに追加します。
※「トリガー」:フロー起動のきっかけとなるアクション、「オペレーション」:トリガー起動後、フロー内で処理を行うアクション
■このワークフローのカスタムポイント
- フォームトリガーのタイトルや質問内容は、ユースケースに合わせて「議事録URLを入力してください」のように任意で編集が可能です。
- Difyの「チャットメッセージを送信」アクションでは、会話の継続性を管理するために任意のuser(ユーザー識別子)を設定してください。
■注意事項
👀Difyの画像分析機能とは?
画像分析をDifyで行うことができるのは知っている方も多いでしょうが、具体的にどんな機能があるのでしょうか?
ビジョン機能とマルチモーダルAI
Difyでは、画像認識に対応した「マルチモーダルAIモデル」を利用でき、テキストだけでなく画像情報も同時に処理することが可能になります。
特別なプラグインなどは不要で、Difyの標準機能である「ビジョン機能」をオンにするだけで、AIに「目」を持たせることができます。
従来のOCRとの決定的な違い
一般的なOCR(光学文字認識)は「画像に書かれている文字をテキストデータにする」ことが目的。
文字の形を認識してデータ化しますが、そこに書かれている内容の意味までは理解しません。
一方、Difyの画像分析は使用するLLMを選択でき、選択したLLMの精度によって「画像の内容を理解し、構造化データとして抽出する」ことが可能。
例えば、レシートの画像から対象の情報だけを抜き出したり、手書きの図解を見て「この矢印は手順を表している」と解釈できるので、「文字を読む」のではなく「内容を理解する」という点が、業務活用における最大のメリットといえるでしょう。
✅Difyで画像分析を行う設定方法
Difyで画像分析を行うには、主に「チャットフロー」や「ワークフロー」を使用します。ここでは基本的な設定手順を解説します。
1.LLMノードでビジョン機能を有効にする
チャットボットアプリの作成画面で、設定パネルにある「ビジョン」という項目を探します。
ここを「有効(オン)」にし、分析に使用するAIモデルを選択。
画像の解像度設定(解像度の高/低など)もここで行えます。
詳細モードにするとトークン消費量は増えますが、細かい文字や図の認識精度が向上しますよ!
2.プロンプトのコツ
AIに画像を正確に分析させるためには、明確な指示(プロンプト)が必要。
単に「この画像を分析して」と言うだけでなく、「あなたは分析のスペシャリストです。」や「添付された画像を読み取り、決定事項とTo-Doリストを作成してください。」というように具体的に指示しましょう。
3.JSON形式にする
分析結果をシステムで活用しやすくするために、「JSONモード」を利用するのがおすすめです。
出力結果を`{"date":"2024-03-01","total":1500}`のようなJSON形式に指定することで、後の工程(API連携など)でデータを扱いやすくなります。
🏃♂️➡️【実体験】Difyの画像分析を実際に試してみた
ここからは、実際にDifyを使って3つの異なるパターンで画像分析を検証してみた結果をご紹介します。
検証1:手書きホワイトボードの議事録化
まずは、会議で使用したホワイトボードの画像です。