Ruby Biz (3)
Claudeの画像認識を使ってみた!使い方からChatGPTとの比較まで徹底解説
Yoomを詳しくみる
この記事のテンプレートを試す
Ruby Biz (3)
自動化のアイデア

2025-12-18

Claudeの画像認識を使ってみた!使い方からChatGPTとの比較まで徹底解説

Suguru Nakazawa
Suguru Nakazawa

 

レシートや請求書の内容を経費精算システムに1件ずつ手入力する、そんな非効率な作業に時間を奪われていませんか?
こうした多くのビジネスパーソンが抱える課題を、Anthropic社のClaudeが解決できるかもしれません。
実際にこの技術を導入した企業は、手作業に比べ処理時間を削減できています。

本記事では、Claudeの画像認識性能を検証するためグラフのデータ化を行います。
この記事を読めば、Claudeの画像認識機能がもたらす業務効率化を具体的にイメージできると思うので、参考にしてみてください。

✍Claudeの画像認識機能とは?

本記事の想定読者

  • 日々のデータ入力作業(レシート、名刺、アンケートなど)を自動化し、企画や分析といった本来の業務に集中したいと考えている方
  • 自社サービスや業務プロセスにAI画像認識を組み込むことを検討中で、Claudeの具体的な性能、料金、そしてChatGPTなどの競合モデルとの違いを明確に把握したい方
  • Claudeの画像認識の性能に関心を持つエンジニアや研究者の方

マルチモーダルAIの進化

Claudeの画像認識機能は、一言でいえば「目で見て理解し、行動するAI」です。
これはマルチモーダルAIと呼ばれる技術の一種で、画像と文章(テキスト)を同時に処理できる能力を持っています。

写真やグラフ、設計図面を見せただけでその内容を即座に理解し、要約やデータ抽出を行うだけでなく、AIが画面上のボタンや入力フォームを認識し、人間と同じようにクリックや入力操作を行うことさえ可能です。

Extended Thinking(じっくり考える)

Claude 4.5ファミリーの最大の特徴の1つが、Extended Thinking(じっくり考える)プロセスを搭載している点です。
これにより、ユーザーは用途に応じてAIの思考深度を制御することが可能になります。

  • 標準モード: 迅速な応答が求められる日常的なタスク(例:簡単な文字起こし、画像の説明)に最適です。
  • 拡張思考モード: 複雑な画像分析や推論に対し、人間のように段階的な思考プロセスを経て、より高精度な回答を導き出します。
    特筆すべきは、AIが結論に至るまでの思考のプロセスを可視化できる点です。
    これにより、開発者やマネージャーはAIの判断根拠(なぜこのグラフを上昇トレンドと判断したか等)を確認でき、業務適用時の信頼性アップに繋がります。

利用前の重要チェック項目

Claudeの画像認識機能は非常に強力ですが、最大限に活用するためには、以下の仕様と制約を事前に把握しておくことが重要です。

  • 対応画像形式:対応している画像形式は、JPEG, PNG, GIF, WebPです。
  • アップロード上限:claude.aiのWeb版およびAPIでは、1回のリクエストで複数の画像を送信可能です。
    API利用時の制限は緩和傾向にありますが、大量処理の際はバッチAPIの利用が推奨されます。
  • 画像サイズ制限:8000x8000ピクセル、30MBを超える画像はリサイズ等の処理が必要です。
  • 性能が低下するケース:いずれかの辺が200ピクセル未満の非常に小さな画像は、認識性能が低下する可能性があります。
  • モデルの知識:Opus 4.5は2025年5月、Sonnet 4.5とHaiku 4.5は2025年7月までの知識カットオフ(信頼できる情報の期限)となっており、それ以降の出来事については正確性が保証されません。(2025年12月2日時点)
  • 禁止事項:利用規約では、画像内の人物を特定する行為(顔認識による個人特定)や、CT・MRIといった医療診断への利用が明確に禁止または制限されています。

⭐Yoomは画像共有を自動化できます

👉Yoomとは?ノーコードで業務自動化につながる!
Claudeのような高度なAIを使うことで素早くにタスクを処理できますが、効率化が必要な業務は他にもありませんか?

例えば、Claudeで画像をチェックする前には、生成された画像やファイルの共有があります。
手作業で行っているファイル共有を自動化することで、チーム全体の生産性アップにつながります。
気になる方は、ノーコードで直感的に設定できる、以下のテンプレートを試してみてください


■概要
OneDriveに新しいファイルがアップロードされるたびに、手作業でMicrosoft Teamsに通知するのは手間がかかり、時には見落としも発生するのではないでしょうか。このワークフローを活用すれば、OneDriveの特定フォルダへのファイルアップロードを検知し、Microsoft Teamsへ自動で通知できます。これにより、ファイル共有の確認と通知作業の効率化が期待でき、情報共有の遅延や漏れを防ぐのに役立ちます。

■このテンプレートをおすすめする方
・OneDriveとMicrosoft Teamsを連携させ、ファイル共有の通知を自動化したいと考えている方
・手作業での通知による時間的なロスや、通知漏れなどのミスを減らしたいチームの担当者の方
・ファイルの更新情報をスムーズに関係者へ共有し、業務の迅速化を図りたいと考えている方

■注意事項
・OneDrive、Microsoft TeamsのそれぞれとYoomを連携してください。
・Microsoft365(旧Office365)には、家庭向けプランと一般法人向けプラン(Microsoft365 Business)があり、一般法人向けプランに加入していない場合には認証に失敗する可能性があります。
・トリガーは5分、10分、15分、30分、60分の間隔で起動間隔を選択できます。
・プランによって最短の起動間隔が異なりますので、ご注意ください。
・分岐はミニプラン以上のプランでご利用いただける機能(オペレーション)となっております。フリープランの場合は設定しているフローボットのオペレーションはエラーとなりますので、ご注意ください。
・ミニプランなどの有料プランは、2週間の無料トライアルを行うことが可能です。無料トライアル中には制限対象のアプリや機能(オペレーション)を使用することができます。

■概要
「Google Driveでファイルがアップロードされたら、Slackにファイルを通知する」ワークフローは、Google Driveの新規ファイルを検知し、Yoomを通じてSlack APIで自動的にチャンネルへ共有する業務ワークフローです。

■このテンプレートをおすすめする方
・Google Driveへのアップロードを見逃したくない方
・Slack APIを使ったファイル通知を手軽に実装したいエンジニア
・Slack apiを初めて触るけど、手順をシンプルに学びたい方
・チーム内でファイル共有の確認漏れを防ぎたいプロジェクトマネージャー
・YoomでシンプルにRPAやAPI連携を活用して業務改善を図りたい方
・Google DriveからSlackへの一連の流れを自動化してコスト削減したいチームリーダー

■注意事項
・Google Drive、SlackのそれぞれとYoomを連携してください。
・トリガーは5分、10分、15分、30分、60分の間隔で起動間隔を選択できます。
・プランによって最短の起動間隔が異なりますので、ご注意ください。

🤔Claudeの画像認識を実際に使ってみた

今回は、2025年後半に登場したAnthropic社の最新モデル群「Claude 4.5ファミリー(Haiku, Sonnet, Opus)」の実力を測るべく、競合である「ChatGPT (GPT-5.1)」および「Gemini (3 Pro)」との徹底比較を行いました。

検証条件

公平な比較を行うため、以下の有料プランおよび最新モデルを使用しました。

【Claude】 プラン: Pro Plan モデル: Haiku 4.5, Sonnet 4.5, Opus 4.5

【ChatGPT】 プラン: Plus モデル: GPT-5.1 Auto

【Gemini】 プラン: Google AI Pro モデル: Gemini 3 Pro (思考モード搭載)

検証内容とポイント一覧

今回の検証テーマは、棒グラフ(販売数)と折れ線グラフ(平均単価)が混在し、さらに左右に異なるY軸を持つ複合グラフの解析です。

求めるアウトプット:グラフ画像から数値を正確に読み取り、「地域」「製品カテゴリ」「販売数」「平均単価」の4列を持つ表形式で出力すること。

検証ポイント

  1. 数値データの一致率(グラフの目盛りを正しく読めるか)
  2. 日本語データの一致率(凡例や軸ラベルのOCR精度)
  3. 作成時間(プロンプト送信から完了までのスピード)

使用するデータとグラフ


検証方法

【Claude】

1.アカウントにログイン

2.モデルを選択

入力欄右下のプルダウンからモデルを選択します。

3.ファイルを添付

「+」マークをクリックし、「ファイルをアップロード」からファイルを添付します。

4.機能を選択

「ツール」マークをクリックし、「じっくり考える(拡張思考)」を選択します。
コネクタ機能を使うと、Google Driveなどと連携することもできます。

5.プロンプトを入力して送信

検証するためのプロンプトを入力して送信します。

【検証プロンプト】

添付されたグラフの画像について、凡例と軸ラベルをすべて読み取ってください。
そして、グラフ内の数値を抽出し、地域、製品カテゴリ、販売数・平均単価の4列を持つ表形式で出力してください。

【ChatGPT】

1.アカウントにログイン

2.モデルを選択

左上のプルダウンからモデルを選択します。

3.テキストデータを添付

「+」マークをクリックして「写真とファイルを追加」を選択し、画像を添付します。
必要に応じて情報源の追加を行ってください。

4.プロンプトを入力して作成開始

【Gemini】

1.アカウントにログイン

2.モデルを選択

入力欄の右下からモデルを選択します。

3.テキストデータを添付

「+」マークをクリックして「ファイルをアップロード」を選択し、画像を添付します。

今回は画像処理のため、「ツール」は何も選択していません。

4.プロンプトを入力して作成開始

Claudeと同じプロンプトを入力して作成を開始します。