・
Difyで画像認識や分析ができることをご存知でしょうか?
「Dify=チャットボット」というイメージが強いかもしれませんが、実は画像内の文字を読み取ったり、写っている状況を理解することが可能なのです!
従来のOCRツールとの最大の違いは、「ただ文字を読むだけでなく、その意味を理解して推論できる」点。
例えば、手書きのメモを見て「これは重要事項だ」と判断したり、商品の写真を見て「在庫が減っている」と気づくこともできます。
本記事では、Difyの画像分析機能の仕組みや設定方法、そして実際に3つのパターンで分析させてみた検証結果などを詳しく解説します!
アプリの構築とか難しそう...という方でも、簡単に導入できるやり方で検証を進めますので、ぜひ最後までご覧くださいね。
Difyで画像を分析した後、そのデータをどう活用しますか?
画像から抽出したテキストデータをコピー&ペーストで別のツールに移していては、せっかくのAI分析も宝の持ち腐れ...
Yoomを使えば、Difyで抽出したデータを自動でNotionデータベースに登録したり、Slackでチームに共有することもできちゃいます!
例えば、「感情分析した結果をチャットツールで通知する」といったフローも、ノーコードで簡単に実現可能。
Dify単体では完結しない「業務の自動化」を、Yoomが強力にサポートします。
■概要
「フォーム回答をDifyで感情分析してLINEに通知する」フローは、収集したフォームの回答をDifyのAI機能で分析し、その結果をLINEに自動的に通知する業務ワークフローです。
顧客やチームからのフィードバックをスムーズに把握し、迅速な対応や意思決定が可能になります。
■このテンプレートをおすすめする方
■このテンプレートを使うメリット
■概要
フォームから送信された問い合わせやアンケートの回答を手作業で確認し、内容を分類して転記する作業に手間を感じていませんか。このワークフローは、フォームからの回答をトリガーとして、AIアシスタント構築プラットフォームのDifyが自動で内容を解析し、その結果をGoogle スプレッドシートへ追加する処理を自動化します。DifyとGoogle スプレッドシートを連携させることで、面倒な手作業から解放され、データの集計や分析を効率化できます。
■このテンプレートをおすすめする方
■このテンプレートを使うメリット
■フローボットの流れ
※「トリガー」:フロー起動のきっかけとなるアクション、「オペレーション」:トリガー起動後、フロー内で処理を行うアクション
■このワークフローのカスタムポイント
■注意事項
画像分析をDifyで行うことができるのは知っている方も多いでしょうが、具体的にどんな機能があるのでしょうか?
Difyでは、画像認識に対応した「マルチモーダルAIモデル」を利用でき、テキストだけでなく画像情報も同時に処理することが可能になります。
特別なプラグインなどは不要で、Difyの標準機能である「ビジョン機能」をオンにするだけで、AIに「目」を持たせることができます。
一般的なOCR(光学文字認識)は「画像に書かれている文字をテキストデータにする」ことが目的。
文字の形を認識してデータ化しますが、そこに書かれている内容の意味までは理解しません。
一方、Difyの画像分析は使用するLLMを選択でき、選択したLLMの精度によって「画像の内容を理解し、構造化データとして抽出する」ことが可能。
例えば、レシートの画像から対象の情報だけを抜き出したり、手書きの図解を見て「この矢印は手順を表している」と解釈できるので、「文字を読む」のではなく「内容を理解する」という点が、業務活用における最大のメリットといえるでしょう。
Difyで画像分析を行うには、主に「チャットフロー」や「ワークフロー」を使用します。ここでは基本的な設定手順を解説します。
チャットボットアプリの作成画面で、設定パネルにある「ビジョン」という項目を探します。
ここを「有効(オン)」にし、分析に使用するAIモデルを選択。
画像の解像度設定(解像度の高/低など)もここで行えます。
詳細モードにするとトークン消費量は増えますが、細かい文字や図の認識精度が向上しますよ!
AIに画像を正確に分析させるためには、明確な指示(プロンプト)が必要。
単に「この画像を分析して」と言うだけでなく、「あなたは分析のスペシャリストです。」や「添付された画像を読み取り、決定事項とTo-Doリストを作成してください。」というように具体的に指示しましょう。
分析結果をシステムで活用しやすくするために、「JSONモード」を利用するのがおすすめです。
出力結果を`{"date":"2024-03-01","total":1500}`のようなJSON形式に指定することで、後の工程(API連携など)でデータを扱いやすくなります。
ここからは、実際にDifyを使って3つの異なるパターンで画像分析を検証してみた結果をご紹介します。
まずは、会議で使用したホワイトボードの画像です。
文字が殴り書きで汚く、文字の重なりも混じっていますが、この部分をしっかりと読み取ってくれるでしょうか?
アプリ作成時に『チャットボット』を選択して、オーケストレーション画面でプロンプトとLLMモデルを設定します。
設定プロンプト
あなたは、ビジネス文脈に特化した「画像分析スペシャリスト」です。
特に以下のような画像を読み取り、構造化された情報として整理・要約することを専門とします
・会議で使用したホワイトボードの写真
・手書きメモ・殴り書きのメモ
・図解(矢印や囲み枠、フローチャート、箇条書きなど)が含まれる画像
〜(省略)〜
この際、LLMは「gpt-5.1」を指定しました。
アプリを公開して、画像の添付と「この画像の内容を整理し、「決定事項」と「ネクストアクション」に分けて箇条書きでまとめてください。」という指示を投稿します。
すると、6〜7秒ほどで結果が出力されました!早い!
驚くべきことに、汚い文字もほぼ正確に読み取られました!
「テーマ」は『◯Aデザイン』の◯部分をQと認識しているため惜しい!と感じましたが、全体の分析レベルは高いと評価できます。(赤枠)
さらに、読解が困難な箇所は「※〜と読めるためこのように推定」と注釈も記載されています。(赤線)
明確でない部分をしっかりと「不明である」と漏れなく出力している点もいいですね。
単なる文字起こしではなく、AIが会議の流れを理解して要約してくれるため、手動入力の手間が激減するでしょう。
なお、先述したように誤って文字起こしされる場合もあるので、人の手で修正する必要もゼロではないことも念頭に置いておくように。
次に、ビジネスで最も需要が高い名刺と領収書の読み取りです。
ここでもチャットボットを活用します。
設定プロンプト
あなたは、ビジネスドキュメントの読み取りに特化した「画像分析スペシャリスト」です。
名刺・領収書などの画像から、指定された項目だけを正確に抽出し、構造化データとして出力します。
対象となる画像の例:
・領収書(会社名、金額、日付、但し書きなどが含まれる)
あなたのミッション
アップロードされた画像から、次の項目を抽出し、JSON形式で出力してください:
〜(省略)〜
指定した項目だけがきれいに抽出されました!
従来のOCRでは余計な背景の文字まで拾ってしまったり、数値データをうまく抽出できないことがありましたが、Difyでは「会社名はどれか」「金額はどれか」をAIが判断するため、ノイズの少ないデータが得られたと感じます。
「No」と「登録番号」を混同しないかな、と心配でしたが、こちらも正しく分けて認識しているようですね!
これなら、そのままデータベースや経費精算システムに登録できるレベルです!
なお、AIによる画像抽出は完璧ではありません。
そのため、抽出データが正しいものか、人による最終チェックが必要であることを忘れずに!
最後に、文字情報の少ない「状況」の画像分析を試しました。
冷蔵庫の中身の写真です。
この状況を考慮した上で、見える材料からレシピを考案してもらいましょう。
設定プロンプト
あなたは、画像から「食材」や「商品の在庫状況」を読み取り、その情報をもとに最適な提案を行う「画像分析スペシャリスト」です。
今回扱う画像は、主に次のようなものです:
・家庭用冷蔵庫の中身
あなたのミッション
1. 画像内に写っている「主要な食材・食品」をできる限りリストアップする
〜(省略)〜
ここで重要なのは、「写っているもので提案するレシピに不足しているものを提案できるか」です。
一般的な常備調味料や追加で購入すべき食材を的確に提示できるでしょうか?
出力された結果を見てみましょう...
おお〜、なかなかいい提案です!
具体的な調理手順が提示されているのももちろん、マヨネーズを焼く際の油として利用する工夫も見てとれます。
補足として『もしあれば』の範囲で、写っている食材以外の調味料の存在を提案しているので、料理の幅をさらに広げることができますね。
定番以外の料理に挑戦してみたい、という時に活用できるでしょう!
文字が一切ない画像からでも、AIが物体を認識し、こちらの要望に合わせて回答してくれる柔軟性には感動しかありません!
ツールを使う上では、コストやリスクが発生します。どういったことに注意すべきでしょうか?
画像分析はテキスト処理に比べて、AIモデルの利用コスト(トークン消費量)が高くなる傾向があります。
高精度なモデルを使えば細かい文字も認識できますが、コストもかさむ...
一方、軽量なモデルでも十分な認識精度が出るケースも多いです。
「重要な書類は高精度モデル」「大量の定型画像は軽量モデル」といった使い分けが、運用コストを抑えるポイントだといえます。
画像をAIに分析させる際、その画像データがAIモデルの学習に使われるかどうかは、利用するモデルや契約プランによって異なります。
個人情報を含む名刺や機密情報を含む書類を扱う場合は、各AIプロバイダーのデータポリシーを必ず確認し、学習に利用されない設定になっているかを確認しましょう。
Difyの画像分析機能は、従来のOCRサービスを遥かに超えた「理解する目」を持っています。
手書き文字の文脈理解や、画像内の状況判断など、これまでのツールでは難しかった業務も自動化できる可能性を秘めています。
設定もノーコードで簡単に行えるため、まずは身近な業務(議事録作成や経費精算など)から試してみてはいかがでしょうか?
そして、分析したデータを業務フロー全体で活用するために、ぜひYoomとの連携も検討してみてください。
Difyの画像分析機能は非常に強力ですが、それ単体では「分析して終わり」になりがちです。
業務全体の効率化を目指すなら、Yoomとの連携が欠かせません。
Yoomを使えば、データベースに要約結果を集約したり、生成完了を素早く関係者に共有する、といった自動化フローを構築できるんです!
Difyで「データの構造化」を行い、Yoomで「データの移動と活用」を行う。
この組み合わせこそが、業務自動化の最適解といえるでしょう!
■概要
お客様からのメールでの問い合わせ対応に、多くの時間を要していませんか。一件一件内容を確認し、回答を作成する作業は丁寧さが求められる一方で、担当者の負担になりがちです。このワークフローを活用すれば、特定のメール受信をきっかけに、AIプラットフォームであるDifyが自動で回答案を作成しSlackへ通知します。これにより、問い合わせ対応の初動を自動化し、業務効率化に繋がります。
■このテンプレートをおすすめする方
■このテンプレートを使うメリット
■フローボットの流れ
※「トリガー」:フロー起動のきっかけとなるアクション、「オペレーション」:トリガー起動後、フロー内で処理を行うアクション
■このワークフローのカスタムポイント
■注意事項
■概要
Typeformに届く問い合わせの確認やその内容をまとめる作業に手間を感じていませんか。
手作業での転記は時間もかかり、重要な情報を見落とすリスクもあります。
このワークフローを活用すれば、Typeformにフォームが送信されると、AIモデルのDifyが自動で内容を要約します。
さらに、その結果をGoogle スプレッドシートに記録するため、問い合わせ管理の効率化を実現できます。
■このテンプレートをおすすめする方
■このテンプレートを使うメリット
■フローボットの流れ
※「トリガー」:フロー起動のきっかけとなるアクション、「オペレーション」:トリガー起動後、フロー内で処理を行うアクション
■このワークフローのカスタムポイント
■注意事項
[Yoomとは]