・
レシートや請求書の内容を経費精算システムに1件ずつ手入力する、そんな非効率な作業に時間を奪われていませんか?
こうした多くのビジネスパーソンが抱える課題を、Anthropic社のClaudeが解決できるかもしれません。
実際にこの技術を導入した企業は、手作業に比べ処理時間を削減できています。
本記事では、Claudeの画像認識性能を検証するためグラフのデータ化を行います。
この記事を読めば、Claudeの画像認識機能がもたらす業務効率化を具体的にイメージできると思うので、参考にしてみてください。
Claudeの画像認識機能は、一言でいえば「目で見て理解し、行動するAI」です。
これはマルチモーダルAIと呼ばれる技術の一種で、画像と文章(テキスト)を同時に処理できる能力を持っています。
写真やグラフ、設計図面を見せただけでその内容を即座に理解し、要約やデータ抽出を行うだけでなく、AIが画面上のボタンや入力フォームを認識し、人間と同じようにクリックや入力操作を行うことさえ可能です。
Claude 4.5ファミリーの最大の特徴の1つが、Extended Thinking(じっくり考える)プロセスを搭載している点です。
これにより、ユーザーは用途に応じてAIの思考深度を制御することが可能になります。
Claudeの画像認識機能は非常に強力ですが、最大限に活用するためには、以下の仕様と制約を事前に把握しておくことが重要です。
今回は、2025年後半に登場したAnthropic社の最新モデル群「Claude 4.5ファミリー(Haiku, Sonnet, Opus)」の実力を測るべく、競合である「ChatGPT (GPT-5.1)」および「Gemini (3 Pro)」との徹底比較を行いました。
【Claude】 プラン: Pro Plan モデル: Haiku 4.5, Sonnet 4.5, Opus 4.5
【ChatGPT】 プラン: Plus モデル: GPT-5.1 Auto
【Gemini】 プラン: Google AI Pro モデル: Gemini 3 Pro (思考モード搭載)
今回の検証テーマは、棒グラフ(販売数)と折れ線グラフ(平均単価)が混在し、さらに左右に異なるY軸を持つ複合グラフの解析です。
求めるアウトプット:グラフ画像から数値を正確に読み取り、「地域」「製品カテゴリ」「販売数」「平均単価」の4列を持つ表形式で出力すること。
検証ポイント:
使用するデータとグラフ
【Claude】
1.アカウントにログイン
2.モデルを選択
入力欄右下のプルダウンからモデルを選択します。
3.ファイルを添付
「+」マークをクリックし、「ファイルをアップロード」からファイルを添付します。
「ツール」マークをクリックし、「じっくり考える(拡張思考)」を選択します。
コネクタ機能を使うと、Google Driveなどと連携することもできます。
5.プロンプトを入力して送信
検証するためのプロンプトを入力して送信します。
【検証プロンプト】
添付されたグラフの画像について、凡例と軸ラベルをすべて読み取ってください。
そして、グラフ内の数値を抽出し、地域、製品カテゴリ、販売数・平均単価の4列を持つ表形式で出力してください。
【ChatGPT】
1.アカウントにログイン
2.モデルを選択
左上のプルダウンからモデルを選択します。
3.テキストデータを添付
「+」マークをクリックして「写真とファイルを追加」を選択し、画像を添付します。
必要に応じて情報源の追加を行ってください。
【Gemini】
1.アカウントにログイン
2.モデルを選択
入力欄の右下からモデルを選択します。
3.テキストデータを添付
「+」マークをクリックして「ファイルをアップロード」を選択し、画像を添付します。
今回は画像処理のため、「ツール」は何も選択していません。
4.プロンプトを入力して作成開始
Claudeと同じプロンプトを入力して作成を開始します。
Claude 4.5シリーズ(Haiku、Sonnet、Opus)の出力結果は、以下になりました。
【Haiku 4.5】
【Sonnet 4.5】
【Opus 4.5】
出力結果を「数値データの一致率」「日本語データの一致率」「作成時間」で比較すると以下のようになりました。
驚くべきことに、処理速度に関してはモデル間で大きな差は見られませんでした。
最軽量のHaiku 4.5が「15秒」、標準のSonnet 4.5が「16秒」、そして最重量のOpus 4.5でも「17秒」という結果となり、その差はわずか2秒以内です。
従来、上位モデルほど処理に時間がかかる傾向がありましたが、4.5世代においては最適化が進んでおり、どのモデルを選んでもストレスなくリアルタイム業務に利用できることがわかりました。
「上位モデルほど賢い」という常識が、画像認識においては必ずしも当てはまらない結果となりました。
意外だったのが、グラフ内の数値読み取り(全12項目)において、Haiku 4.5とSonnet 4.5は共に5問正解(正答率42%)でしたが、最高峰のOpusは4問正解(正答率33%)に留まったことです。
また、読み間違えた数値の誤差の程度も各モデルで似通っており、賢いモデルだからといって、視覚的な読み取り精度が必ずしも向上するわけではないこともわかりました。
数値の読み取りには課題が残ったものの、テキスト情報の処理に関しては全モデルが優秀でした。
グラフ内の凡例(「販売数」「平均単価」など)や軸ラベル(「関東」「関西」など)といった日本語テキストの認識率は、Haikuを含むすべてのモデルで100%を記録しました。
この結果から、OCR(文字認識)としての用途であれば、コストの安いHaiku 4.5でも十分に実用的と言えます。
ChatGPT (GPT-5.1) および Gemini (3 Pro)の出力結果は以下になりました。
【ChatGPT】
【Gemini】
出力結果を「数値データの一致率」「日本語データの一致率」「作成時間」で比較すると以下のようになりました。
「正確さ」において、Gemini 3 Proは他の追随を許しませんでした。
数値の一致率は83%という驚異的なスコアを記録。
Claudeが読み取れなかった微細な折れ線グラフの数値も、ほぼ正確に捉えていました。
ただし、生成時間は29秒と今回検証した中で最も遅く、Claudeの倍以上の時間を要しました。
速度のClaude、精度のGeminiという棲み分けが明確になったと言えます。
意外な結果となったのがChatGPT (GPT-5.1) です。
数値の一致率は17%と最も低く、さらに深刻だったのはシステムの安定性です。
画像を正しく認識させるまでに5回のリトライを要しました。
ChatGPTは現時点で、複雑なグラフ画像の読み取りタスクにおいて、ClaudeやGeminiに遅れを取っていると言えそうです。
今回の検証で唯一、全モデルが共通して優秀だった点が「日本語の読み取り」です。
凡例や軸ラベルといった日本語テキストに関しては、Claude全モデル、Gemini、ChatGPTのすべてが100%の一致率でした。
グラフの凡例程度のOCRにおいては、AIモデルに精度の差はないことがわかりました。
ビジネスの現場においてAIツール導入を成功させる鍵は、目的による明確な使い分けにあります。
会議の議事録作成や大量の文字情報処理などスピードを重視するならClaude 4.5ファミリー、経理データや数値分析など高い精度が求められる局面ではGeminiというように、それぞれの強みを活かす選択が重要です。
そして何より忘れてはならないのが、人間が読みにくいグラフはAIも読めないという事実です。
AIに正確な仕事をさせるためには、ツール選びだけでなく、元となる資料の視認性を高めるといった人間側の歩み寄りもまた、不可欠な要素になります。
出典情報
ClaudeとYoomを組み合わせることで、複数のツールとシームレスに連携できます。下記のテンプレートからお好きなものをコピーして、業務を自動化!ぜひチェックしてみてくださいね👀