AI最新トレンド

・

2026-02-24

Difyの画像分析 OCRとの違いや実務での活用事例を解説

Kana Saruno

🖼️Yoomは画像分析後の業務フローを自動化できます
👀Difyの画像分析機能とは？
✅Difyで画像分析を行う設定方法
🏃‍♂️‍➡️【実体験】Difyの画像分析を実際に試してみた
🎓Difyで画像分析。注意点とかかるコストは？
🏵️まとめ
🌿Yoomでできること

Difyで画像認識や分析ができることをご存知でしょうか？

「Dify＝チャットボット」というイメージが強いかもしれませんが、実は画像内の文字を読み取ったり、写っている状況を理解することが可能なのです！

従来のOCRツールとの最大の違いは、「ただ文字を読むだけでなく、その意味を理解して推論できる」点。

例えば、手書きのメモを見て「これは重要事項だ」と判断したり、商品の写真を見て「在庫が減っている」と気づくこともできます。

本記事では、Difyの画像分析機能の仕組みや設定方法、そして実際に3つのパターンで分析させてみた検証結果などを詳しく解説します！

アプリの構築とか難しそう...という方でも、簡単に導入できるやり方で検証を進めますので、ぜひ最後までご覧くださいね。

🖼️Yoomは画像分析後の業務フローを自動化できます

👉Yoomとは？ノーコードで業務自動化につながる！

Difyで画像を分析した後、そのデータをどう活用しますか？

画像から抽出したテキストデータをコピー＆ペーストで別のツールに移していては、せっかくのAI分析も宝の持ち腐れ...

Yoomを使えば、Difyで抽出したデータを自動でNotionデータベースに登録したり、Slackでチームに共有することもできちゃいます！

例えば、「感情分析した結果をチャットツールで通知する」といったフローも、ノーコードで簡単に実現可能。

Dify単体では完結しない「業務の自動化」を、Yoomが強力にサポートします。

フォームから回答が送信されたら、Difyで解析し結果をGoogle スプレッドシートに追加する

試してみる

■概要
フォームから送信された問い合わせやアンケートの回答を手作業で確認し、内容を分類して転記する作業に手間を感じていませんか。このワークフローは、フォームからの回答をトリガーとして、AIアシスタント構築プラットフォームのDifyが自動で内容を解析し、その結果をGoogle スプレッドシートへ追加する処理を自動化します。DifyとGoogle スプレッドシートを連携させることで、面倒な手作業から解放され、データの集計や分析を効率化できます。
■このテンプレートをおすすめする方
フォームから得られる顧客の声を、手作業で分類・集計している担当者の方
DifyとGoogle スプレッドシートを連携させ、データ分析業務を自動化したい方
アンケートや問い合わせの解析を効率化し、スムーズな対応や改善に繋げたい方
■このテンプレートを使うメリット
フォーム回答からDifyでの解析、Google スプレッドシートへの記録までが自動化され、手作業にかかっていた時間を削減できます。
手動でのコピー＆ペーストが不要になるため、転記ミスや入力漏れといったヒューマンエラーを防ぎ、データの正確性を保つことに繋がります。
■フローボットの流れ
はじめに、DifyとGoogle スプレッドシートをYoomと連携します。
次に、トリガーでフォームトリガーを選択し、フォームから回答が送信されたらフローが起動するように設定します。
次に、オペレーションでDifyの「チャットメッセージを送信」アクションを設定し、フォームで受け付けた回答内容を解析させます。
最後に、オペレーションでGoogle スプレッドシートの「レコードを追加する」アクションを設定し、Difyによる解析結果を指定のシートに追加します。
※「トリガー」：フロー起動のきっかけとなるアクション、「オペレーション」：トリガー起動後、フロー内で処理を行うアクション
■このワークフローのカスタムポイント
フォームトリガー機能では、ユーザーが任意で設問項目などをカスタマイズできます。
Difyに送信するプロンプトは自由にカスタマイズが可能です。フォームで受け付けた回答内容を変数としてプロンプトに組み込むことで、動的なテキスト生成ができます。
Google スプレッドシートへの追加先として、対象のスプレッドシートやシート、書き込むテーブル範囲などを任意で設定してください。
■注意事項
Google スプレッドシート、DifyのそれぞれとYoomを連携してください。
YoomとDifyの連携は、Difyのマイアプリ登録方法をご参照ください。

詳細を見る  試してみる

Googleドキュメントの情報をDifyで解析し、新しいドキュメントに結果を追加する

試してみる

■概要
Googleドキュメントで作成したレポートや議事録の内容をAIで解析し、その結果を新しいドキュメントにまとめる作業に手間を感じていませんか？手作業でのコピー＆ペーストは時間がかかるだけでなく、情報の転記ミスが発生する可能性もあります。このワークフローを活用すれば、フォームにGoogleドキュメントのURLを送信するだけで、Difyが内容を解析し、その結果を元に新しいGoogleドキュメントを自動生成できるため、一連の作業を効率化できます。
■このテンプレートをおすすめする方
Googleドキュメントで作成した議事録やレポートの要約・解析を効率化したい方
DifyなどのAIを活用して、手作業でのドキュメント作成の手間を省きたい方
様々な情報を元にしたGoogleドキュメントの自動生成に関心があるマーケティングや企画担当の方
■このテンプレートを使うメリット
フォーム送信を起点に、既存ドキュメントの取得からAIによる解析、新規ドキュメントの自動生成までを一本化し、手作業でのコピー＆ペーストの時間を短縮します。
手動での転記作業がなくなるため、情報の貼り付けミスや抜け漏れといったヒューマンエラーを防ぎ、アウトプットの品質を安定させることができます。
■フローボットの流れ
はじめに、DifyとGoogleドキュメントをYoomと連携します。
次に、トリガーでフォームトリガーを選択し、解析したいGoogleドキュメントのURLを入力するフォームを設定します。
次に、オペレーションでGoogleドキュメントの「ドキュメントのコンテンツを取得」アクションを設定し、フォームで受け取ったURLのドキュメント内容を取得します。
次に、オペレーションでDifyの「チャットメッセージを送信」アクションを設定し、取得したドキュメントの内容を解析させます。
次に、オペレーションでGoogleドキュメントの「新しいドキュメントを作成する」アクションを設定します。
最後に、オペレーションでGoogleドキュメントの「文末にテキストを追加」アクションを設定し、Difyの解析結果を新しいドキュメントに追加します。
※「トリガー」：フロー起動のきっかけとなるアクション、「オペレーション」：トリガー起動後、フロー内で処理を行うアクション
■このワークフローのカスタムポイント
フォームトリガーのタイトルや質問内容は、ユースケースに合わせて「議事録URLを入力してください」のように任意で編集が可能です。
Difyの「チャットメッセージを送信」アクションでは、会話の継続性を管理するために任意のuser（ユーザー識別子）を設定してください。
■注意事項
Dify、GoogleドキュメントのそれぞれとYoomを連携してください。
Difyのマイアプリ連携方法は「Difyマイアプリ登録方法と連携するとできること」をご参照ください。

詳細を見る  試してみる

フォーム回答をDifyで感情分析してLINEに通知する

試してみる

■概要
フォームに寄せられるお客様の声やアンケート回答を、一つひとつ確認するのは手間がかかる作業ではないでしょうか。特に、多数の回答の中から緊急性の高い意見や感情をすぐに把握するのは難しいものです。このワークフローを活用すれば、フォームに回答が送信されると、AIのDifyが自動で感情分析を行い、その結果を即座にLINE公式アカウントへ通知します。顧客の声をリアルタイムで把握し、迅速な対応を実現できます。

■このテンプレートをおすすめする方
フォームで収集した顧客の声を、Difyで感情分析して迅速にサービス改善へ繋げたい方
手作業でのテキスト分析に時間を要しており、AIを活用した自動化に関心がある担当者の方
分析結果をLINE公式アカウントに通知し、チーム内での情報共有を円滑にしたい方

■このテンプレートを使うメリット
フォームに回答があると、Difyが自動で感情分析を行うため、手作業での内容確認や感情の判定にかかっていた時間を短縮できます。
AIによる客観的な分析で、担当者ごとの解釈のばらつきや重要なフィードバックの見落としといったヒューマンエラーを防ぎます。

■フローボットの流れ
はじめに、DifyとLINE公式アカウントをYoomと連携します。
次に、トリガーでフォームを選択し、「回答が送信されたら」というアクションを設定します。
次に、オペレーションでDifyの「チャットメッセージを送信」アクションを設定し、フォームの回答内容を送信して分析を実行します。
最後に、オペレーションでLINE公式アカウントの「マルチキャストメッセージを送る」アクションを設定し、Difyの分析結果を指定のユーザーに通知します。
※「トリガー」：フロー起動のきっかけとなるアクション、「オペレーション」：トリガー起動後、フロー内で処理を行うアクション

■このワークフローのカスタムポイント
トリガーに設定するフォームは、感情分析の目的に合わせて質問項目などを自由に設定してください。
Difyに送信するプロンプト（query）やユーザー情報は任意の値に設定できるため、より精度の高い分析が可能です。
LINE公式アカウントでの通知先ユーザーIDや、通知するメッセージのフォーマットは自由にカスタマイズできます。

■注意事項
Dify、LINE公式アカウントのそれぞれとYoomを連携してください。
Difyのマイアプリ連携方法は「Difyマイアプリ登録方法と連携するとできること」をご参照ください。
フォーム機能はミニプラン以上でご利用いただけるアプリとなっております。フリープラン・パーソナルプランの場合は設定しているフローボットのオペレーションやデータコネクトはエラーとなりますので、ご注意ください。
パーソナルプラン・ミニプラン・チームプラン・サクセスプランなどの有料プランは、2週間の無料トライアルを行うことが可能です。無料トライアル中には制限対象のアプリを使用することができます。

詳細を見る  試してみる

👀Difyの画像分析機能とは？

画像分析をDifyで行うことができるのは知っている方も多いでしょうが、具体的にどんな機能があるのでしょうか？

ビジョン機能とマルチモーダルAI

Difyでは、画像認識に対応した「マルチモーダルAIモデル」を利用でき、テキストだけでなく画像情報も同時に処理することが可能になります。

特別なプラグインなどは不要で、Difyの標準機能である「ビジョン機能」をオンにするだけで、AIに「目」を持たせることができます。

従来のOCRとの決定的な違い

一般的なOCR（光学文字認識）は「画像に書かれている文字をテキストデータにする」ことが目的。

文字の形を認識してデータ化しますが、そこに書かれている内容の意味までは理解しません。

一方、Difyの画像分析は使用するLLMを選択でき、選択したLLMの精度によって「画像の内容を理解し、構造化データとして抽出する」ことが可能。

例えば、レシートの画像から対象の情報だけを抜き出したり、手書きの図解を見て「この矢印は手順を表している」と解釈できるので、「文字を読む」のではなく「内容を理解する」という点が、業務活用における最大のメリットといえるでしょう。

✅Difyで画像分析を行う設定方法

Difyで画像分析を行うには、主に「チャットフロー」や「ワークフロー」を使用します。ここでは基本的な設定手順を解説します。

1.LLMノードでビジョン機能を有効にする

チャットボットアプリの作成画面で、設定パネルにある「ビジョン」という項目を探します。

ここを「有効（オン）」にし、分析に使用するAIモデルを選択。

画像の解像度設定（解像度の高/低など）もここで行えます。

詳細モードにするとトークン消費量は増えますが、細かい文字や図の認識精度が向上しますよ！

2.プロンプトのコツ

AIに画像を正確に分析させるためには、明確な指示（プロンプト）が必要。

単に「この画像を分析して」と言うだけでなく、「あなたは分析のスペシャリストです。」や「添付された画像を読み取り、決定事項とTo-Doリストを作成してください。」というように具体的に指示しましょう。

3.JSON形式にする

分析結果をシステムで活用しやすくするために、「JSONモード」を利用するのがおすすめです。

出力結果を`{"date":"2024-03-01","total":1500}`のようなJSON形式に指定することで、後の工程（API連携など）でデータを扱いやすくなります。

🏃‍♂️‍➡️【実体験】Difyの画像分析を実際に試してみた

ここからは、実際にDifyを使って3つの異なるパターンで画像分析を検証してみた結果をご紹介します。

検証1：手書きホワイトボードの議事録化

まずは、会議で使用したホワイトボードの画像です。

文字が殴り書きで汚く、文字の重なりも混じっていますが、この部分をしっかりと読み取ってくれるでしょうか？

アプリ作成時に『チャットボット』を選択して、オーケストレーション画面でプロンプトとLLMモデルを設定します。

設定プロンプト

あなたは、ビジネス文脈に特化した「画像分析スペシャリスト」です。
特に以下のような画像を読み取り、構造化された情報として整理・要約することを専門とします
・会議で使用したホワイトボードの写真
・手書きメモ・殴り書きのメモ
・図解（矢印や囲み枠、フローチャート、箇条書きなど）が含まれる画像
〜（省略）〜

この際、LLMは「gpt-5.1」を指定しました。

アプリを公開して、画像の添付と「この画像の内容を整理し、「決定事項」と「ネクストアクション」に分けて箇条書きでまとめてください。」という指示を投稿します。

すると、6〜7秒ほどで結果が出力されました！早い！

驚くべきことに、汚い文字もほぼ正確に読み取られました！

「テーマ」は『◯Aデザイン』の◯部分をQと認識しているため惜しい！と感じましたが、全体の分析レベルは高いと評価できます。（赤枠）

さらに、読解が困難な箇所は「※〜と読めるためこのように推定」と注釈も記載されています。（赤線）

明確でない部分をしっかりと「不明である」と漏れなく出力している点もいいですね。

単なる文字起こしではなく、AIが会議の流れを理解して要約してくれるため、手動入力の手間が激減するでしょう。

なお、先述したように誤って文字起こしされる場合もあるので、人の手で修正する必要もゼロではないことも念頭に置いておくように。

検証2：名刺・領収書の構造化データ化

次に、ビジネスで最も需要が高い名刺と領収書の読み取りです。

ここでもチャットボットを活用します。

設定プロンプト

あなたは、ビジネスドキュメントの読み取りに特化した「画像分析スペシャリスト」です。
名刺・領収書などの画像から、指定された項目だけを正確に抽出し、構造化データとして出力します。
対象となる画像の例：
・領収書（会社名、金額、日付、但し書きなどが含まれる）
あなたのミッション
アップロードされた画像から、次の項目を抽出し、JSON形式で出力してください：
〜（省略）〜

指定した項目だけがきれいに抽出されました！

従来のOCRでは余計な背景の文字まで拾ってしまったり、数値データをうまく抽出できないことがありましたが、Difyでは「会社名はどれか」「金額はどれか」をAIが判断するため、ノイズの少ないデータが得られたと感じます。

「No」と「登録番号」を混同しないかな、と心配でしたが、こちらも正しく分けて認識しているようですね！

これなら、そのままデータベースや経費精算システムに登録できるレベルです！

なお、AIによる画像抽出は完璧ではありません。

そのため、抽出データが正しいものか、人による最終チェックが必要であることを忘れずに！

検証3：冷蔵庫・商品棚からの提案

最後に、文字情報の少ない「状況」の画像分析を試しました。

冷蔵庫の中身の写真です。

この状況を考慮した上で、見える材料からレシピを考案してもらいましょう。

チャットボットアプリを選択し、設定プロンプトを入力します。

設定プロンプト

あなたは、画像から「食材」や「商品の在庫状況」を読み取り、その情報をもとに最適な提案を行う「画像分析スペシャリスト」です。
今回扱う画像は、主に次のようなものです：
・家庭用冷蔵庫の中身
あなたのミッション
1. 画像内に写っている「主要な食材・食品」をできる限りリストアップする
〜（省略）〜

ここで重要なのは、「写っているもので提案するレシピに不足しているものを提案できるか」です。

一般的な常備調味料や追加で購入すべき食材を的確に提示できるでしょうか？

出力された結果を見てみましょう...

おお〜、なかなかいい提案です！

具体的な調理手順が提示されているのももちろん、マヨネーズを焼く際の油として利用する工夫も見てとれます。

補足として『もしあれば』の範囲で、写っている食材以外の調味料の存在を提案しているので、料理の幅をさらに広げることができますね。

定番以外の料理に挑戦してみたい、という時に活用できるでしょう！

文字が一切ない画像からでも、AIが物体を認識し、こちらの要望に合わせて回答してくれる柔軟性には感動しかありません！

🎓Difyで画像分析。注意点とかかるコストは？

ツールを使う上では、コストやリスクが発生します。どういったことに注意すべきでしょうか？

モデルごとのコストと精度のバランス

画像分析はテキスト処理に比べて、AIモデルの利用コスト（トークン消費量）が高くなる傾向があります。

高精度なモデルを使えば細かい文字も認識できますが、コストもかさむ...

一方、軽量なモデルでも十分な認識精度が出るケースも多いです。

「重要な書類は高精度モデル」「大量の定型画像は軽量モデル」といった使い分けが、運用コストを抑えるポイントだといえます。

セキュリティとプライバシー

画像をAIに分析させる際、その画像データがAIモデルの学習に使われるかどうかは、利用するモデルや契約プランによって異なります。

個人情報を含む名刺や機密情報を含む書類を扱う場合は、各AIプロバイダーのデータポリシーを必ず確認し、学習に利用されない設定になっているかを確認しましょう。

🏵️まとめ

Difyの画像分析機能は、従来のOCRサービスを遥かに超えた「理解する目」を持っています。

手書き文字の文脈理解や、画像内の状況判断など、これまでのツールでは難しかった業務も自動化できる可能性を秘めています。

設定もノーコードで簡単に行えるため、まずは身近な業務（議事録作成や経費精算など）から試してみてはいかがでしょうか？

そして、分析したデータを業務フロー全体で活用するために、ぜひYoomとの連携も検討してみてください。

🌿Yoomでできること

Difyの画像分析機能は非常に強力ですが、それ単体では「分析して終わり」になりがちです。

業務全体の効率化を目指すなら、Yoomとの連携が欠かせません。

Yoomを使えば、データベースに要約結果を集約したり、生成完了を素早く関係者に共有する、といった自動化フローを構築できるんです！

Difyで「データの構造化」を行い、Yoomで「データの移動と活用」を行う。

この組み合わせこそが、業務自動化の最適解といえるでしょう！

Typeformの問い合わせをDifyで要約し、結果をGoogle スプレッドシートに追加する

試してみる

■概要
Typeformに届く問い合わせの確認やその内容をまとめる作業に手間を感じていませんか。手作業での転記は時間もかかり、重要な情報を見落とすリスクもあります。
このワークフローを活用すれば、Typeformにフォームが送信されると、AIモデルのDifyが自動で内容を要約します。さらに、その結果をGoogle スプレッドシートに記録するため、問い合わせ管理の効率化を実現できます。
■このテンプレートをおすすめする方
Typeformで受け付けた問い合わせ内容の管理を効率化したいと考えている方
DifyなどのAIを活用して、日々のテキスト要約業務を自動化したいと考えている方
複数のツールをまたぐ手作業でのデータ入力を減らしたいと考えている方
■このテンプレートを使うメリット
フォームが送信されるたびに、内容の要約から転記までが自動で実行されるため、これまで手作業に費やしていた時間を短縮することができます。
人の手によるコピー＆ペースト作業が減るので、転記ミスや要約の抜け漏れといったヒューマンエラーの防止に繋がります。
■フローボットの流れ
はじめに、Typeform、Dify、Google スプレッドシートをYoomと連携します。
トリガーでTypeformの「フォームが送信されたら」というアクションを設定して、対象のフォームを指定します。
次に、オペレーションでDifyの「チャットメッセージを送信」アクションで、Typeformから取得した問い合わせ内容を要約するよう設定します。
最後に、Google スプレッドシートの「レコードを追加する」アクションで、Difyが要約した結果を指定のシートに追加するよう設定します。
※「トリガー」：フロー起動のきっかけとなるアクション、「オペレーション」：トリガー起動後、フロー内で処理を行うアクション
■このワークフローのカスタムポイント
「チャットメッセージを送信」では、Typeformのフォームで取得した特定の回答内容を変数として埋め込むことが可能です。
「レコードを追加する」では、要約結果やTypeformから取得した情報を各項目に引用できます。
■注意事項
Typeform、Dify、Google スプレッドシートのそれぞれとYoomを連携してください。
Typeformの回答内容を取得する方法は「『取得する値』を追加する方法」をご参照ください。

詳細を見る  試してみる

メールを受信したら回答内容をDifyで作成しSlackに通知する

試してみる

■概要
お客様からのメールでの問い合わせ対応に、多くの時間を要していませんか。一件一件内容を確認し、回答を作成する作業は丁寧さが求められる一方で、担当者の負担になりがちです。このワークフローを活用すれば、特定のメール受信をきっかけに、AIプラットフォームであるDifyが自動で回答案を作成しSlackへ通知します。これにより、問い合わせ対応の初動を自動化し、業務効率化に繋がります。

■このテンプレートをおすすめする方
メールでの問い合わせ対応に多くの時間を割いているカスタマーサポート担当者の方
DifyとSlackを連携させ、問い合わせに対する一次回答の作成を自動化したい方
属人化しがちな問い合わせ対応業務を標準化し、チーム全体の効率を上げたい方

■このテンプレートを使うメリット
メールの内容に基づいた回答案の作成が自動化されるため、これまで手作業での対応に費やしていた時間を短縮し、より重要な業務に集中できます。
Difyで生成する回答の質を一定に保てるため、担当者ごとの回答内容のばらつきを防ぎ、業務品質の標準化に繋がります。

■フローボットの流れ
はじめに、DifyとSlackをYoomと連携します。
次に、トリガーでメールトリガー機能を選択し、特定のメールアドレスでメールを受信したらフローが起動するよう設定します。
次に、オペレーションでDifyの「チャットメッセージを送信」アクションを設定し、受信したメールの内容を元に回答案を生成するよう指示します。
最後に、オペレーションでSlackの「チャンネルにメッセージを送る」アクションを設定し、Difyで生成された回答案を指定のチャンネルに通知します。
※「トリガー」：フロー起動のきっかけとなるアクション、「オペレーション」：トリガー起動後、フロー内で処理を行うアクション

■このワークフローのカスタムポイント
メールトリガー機能では、フローを起動させるためのメールアドレスの一部を任意の内容にカスタマイズできます。また、件名や本文に特定のキーワードを含むメールのみを対象とするような、詳細な条件設定も可能です。
Difyでテキストを生成する際のプロンプト（指示文）は自由に編集でき、受信したメールの件名や本文を変数として組み込むことで、より文脈に沿った回答案を生成できます。
Slackへの通知先は任意のチャンネルを設定できるほか、通知メッセージの本文もカスタマイズが可能です。Difyが生成した内容に加えて、固定のテキストや受信メールの情報を変数として自由に埋め込めます。

■注意事項
Dify、SlackのそれぞれとYoomを連携してください。
Difyのマイアプリ連携方法は「Difyマイアプリ登録方法と連携するとできること」をご参照ください。

詳細を見る  試してみる

[Yoomとは]

Yoomを使えば、今回ご紹介したような連携を
プログラミング知識なしで手軽に構築できます。

無料でYoomを試す

この記事を書いた人

Kana Saruno

API連携プラットフォーム「Yoom」がもたらすワークフローの自動化と、生産性の劇的な向上に感銘を受け、現在はコンテンツ制作を担当。カスタマーサポートとして、多様な業界のユーザーが抱える業務課題の解決に取り組む中で、定型業務の非効率性を目の当たりにした経験を持つ。ユーザー視点を武器に、SaaS連携による業務効率化の具体的な手法や、明日から実践できるIT活用のノウハウを分かりやすく発信している。

タグ

Dify