AI最新トレンド

・

2026-02-09

【検証】Grokの画像テキスト抽出｜手書きやエラーログは読めるか？

Kana Saruno

🖼️Yoomは画像のテキスト化業務を自動化できます
👀Grokの画像テキスト抽出（OCR）とは
📝【実体験】XアプリでGrokに文字起こしをさせてみた
🏃‍♂️‍➡️APIでの利用と自動化の可能性
👥競合AI（ChatGPT・Gemini・Claude）との比較
🏝️まとめ
🍁Yoomでできること

「海外のニュース画像や手書きのメモをテキスト化したい」「手動入力って時間がかかりがち...」

普段からそう考えている方も多いのではないでしょうか？

xAIが提供するAI「Grok」は、画像生成機能が注目されがちですが、実は画像の内容を認識してテキストを抽出する「Vision機能」も非常に強力なのです！

この記事では、Grokを使って画像から文字起こし（OCR）を行う方法やその精度について実際に検証した結果をわかりやすく解説します。
「Grokと画像って考えた時に、画像生成しか思いつかない」と思っていた方も、「手入力でテキストに起こすのがもうしんどい！」と感じていた方にもぜひ試してほしいので、最後まで見ていってくださいね！

🖼️Yoomは画像のテキスト化業務を自動化できます

👉Yoomとは？ノーコードで業務自動化につながる！

Grokを使えば手軽に画像の文字起こしができますが、毎回手動で画像をアップロードしてAIに指示を出すのは少し手間ですよね。

ノーコードAI連携ツールのYoomを使えば、その作業自体を自動化できます。

例えば、「フォームで送付されたファイルをOCRで読み取り、Google スプレッドシートに追加する」というようなフローをプログラミングなしで作成可能です。

YoomにはOCR（光学文字認識）機能が標準搭載されており、以下のような業務を効率化できます。

請求書・レシートの自動入力：画像をフォームから送信するだけでデータベースに登録
名刺管理の自動化：スマホで撮った名刺画像を顧客管理ツールに追加
手書きメモのデジタル化：ホワイトボードの写真をテキスト化してチャットで共有

AIの力を使って、手作業の入力業務をゼロにしてみませんか？

フォームで受け取ったレシートをOCRで読み取り、Google スプレッドシートに追加する

試してみる

■概要
経費精算などで受け取った大量のレシートを、一つひとつ手作業で転記していませんか？この作業は時間がかかるだけでなく、入力ミスが発生する可能性もあります。このワークフローを活用すれば、フォームにアップロードされたレシート画像をAI-OCRが自動で読み取り、その内容をGoogle スプレッドシートへ直接追加できます。面倒なデータ入力作業から解放され、経費精算業務の効率化を実現します。
■このテンプレートをおすすめする方
経費精算など、レシートの手入力に多くの時間を費やしている経理担当者の方
Google スプレッドシートで経費管理を行っており、入力作業を自動化したい方
AI-OCRを活用して、紙媒体からのデータ抽出業務を効率化したいと考えている方
■このテンプレートを使うメリット
フォームに送信されたレシート情報を自動で転記するため、これまで手作業で行っていたデータ入力の時間を短縮し、コア業務に集中できます。
AI-OCRが文字を読み取り転記することで、手作業による入力ミスや転記漏れといったヒューマンエラーのリスク軽減に繋がります。
■フローボットの流れ
はじめに、Google スプレッドシートをYoomと連携します。
次に、トリガーでフォームトリガーを選択し、レシート画像などをアップロードするためのフォームを作成します。
続いて、オペレーションでAI機能を選択し、「画像・PDFから文字を読み取る」アクションで、フォームから送信されたレシート画像をOCR処理します。
最後に、オペレーションでGoogle スプレッドシートを選択し、「レコードの追加」アクションで、OCRで読み取った情報を指定のシートに追加するように設定します。
※「トリガー」：フロー起動のきっかけとなるアクション、「オペレーション」：トリガー起動後、フロー内で処理を行うアクション
■このワークフローのカスタムポイント
このワークフローで利用するAI-OCR機能は、チームプラン・サクセスプランでのみご利用いただけます。フリープラン・ミニプランではエラーとなるためご注意ください。
チームプランやサクセスプランなどの有料プランは、2週間の無料トライアルが可能です。トライアル期間中は、AI-OCR機能を含む全ての機能をお試しいただけます。

詳細を見る  試してみる

請求書が添付されたメールを受信したらAI-OCRで請求書を読み取りSlackに通知

試してみる

◼️概要‍
請求書添付メールを受信したらAI-OCRで請求書を読み取り、読み取り内容を担当者がチェックしてからSlackに通知するフローです。
途中で担当者チェックを入れることでより正確に請求書情報の連携が可能です。
OCRでの読み取り項目やSlackの通知先チャンネルや通知内容は自由に変更が可能です。

◼️注意事項‍
※受信用アドレスに対して、転送を行いたい場合はこちらを参照ください。
https://intercom.help/yoom/ja/articles/7266653
・AIオペレーションはチームプラン・サクセスプランでのみご利用いただける機能となっております。フリープラン・ミニプランの場合は設定しているフローボットのオペレーションはエラーとなりますので、ご注意ください。
・チームプランやサクセスプランなどの有料プランは、2週間の無料トライアルを行うことが可能です。無料トライアル中には制限対象のアプリやAI機能（オペレーション）を使用することができます。

詳細を見る  試してみる

名刺データをOCRで読み取りSalesforceの取引先責任者として登録

試してみる

■概要
名刺データをフォームで送信すると、AIが自動で名刺の情報を読み取りSalesforceの取引先責任者に登録します。
また、名刺の画像も合わせてアップロードしてレコードと紐付けます。
名刺の画像をスマホなどで撮影し、そのままスマホからフォームにアップロードすることも可能です。
‍
■注意事項
・SalesforceとYoomを連携してください。
・名刺画像のファイル形式はJPG、PNGなどの形式でアップロードしてください。
・Salesforceはチームプラン・サクセスプランでのみご利用いただけるアプリとなっております。フリープラン・ミニプランの場合は設定しているフローボットのオペレーションやデータコネクトはエラーとなりますので、ご注意ください。
・AIオペレーションはチームプラン・サクセスプランでのみご利用いただける機能となっております。フリープラン・ミニプランの場合は設定しているフローボットのオペレーションはエラーとなりますので、ご注意ください。
・チームプランやサクセスプランなどの有料プランは、2週間の無料トライアルを行うことが可能です。無料トライアル中には制限対象のアプリを使用することができます。

詳細を見る  試してみる

👀Grokの画像テキスト抽出（OCR）とは

Grokは、テキスト情報だけでなく画像情報も処理できる「マルチモーダルAI」です。

この画像認識能力は「Vision機能」と呼ばれ、人間と同じように画像を見て、その中に何が描かれているか、どんな文字が書かれているかを理解することができます。

💭「画像生成」と「画像認識」の違い

よく混同されがちなのが、以下の2つの機能です。

Imagine（画像生成）:「猫の絵を描いて」と指示して、新しい画像や動画を作り出す。
Vision（画像認識）:写真を見せて「これは何？」と聞き、内容を説明してもらう。

今回解説する「文字起こし」は、後者のVision機能を使用します。

GrokのVision機能は、単に文字を読み取るだけでなく、「画像内の状況を理解した上でテキスト化する」ことができるため、例えば「グラフの数値を読み取って傾向を解説する」といった高度な処理も可能です。

📝【実体験】XアプリでGrokに文字起こしをさせてみた

では、実際にX（旧Twitter）のアプリを使って、Grokに画像を読ませてみましょう。

今回筆者が検証で使用するSuperGrokであれば、スマホアプリやPCブラウザからすぐに利用できます。

基本的な使い方

XアプリでGrokのタブを開きます
チャット欄の左側にある画像アイコンをタップし、読み取りたい画像をアップロード
画像と一緒に、「この画像に書かれている文字をすべて書き出してください」といったテキストを入力して送信
しばらく待つと、Grokが画像内のテキストを抽出

検証1：外国語のメニュー表

まずは、旅先で見た英語のレストランメニューをGrokに読ませてみました。

入力したプロンプト

このメニューの内容を日本語に訳してください。
以下の形式で出力してください。
見出しを日本語にする
各料理について
・英語の料理名
・日本語の料理名
・どんな料理かの日本語での説明（日本人がイメージしやすいように）
・価格（数字と通貨記号はそのまま）
日本人旅行者向けに、カジュアルで読みやすい自然な日本語にしてください。

プロンプトを投稿すると、3秒ほどで読み取り結果が出力されました！

原文をそのまま翻訳して文字起こしするだけでなく、料理名の日本語訳とどのような料理かの詳細な解説までセットで行っています。

特に、「オランデーズソースをかけた〜」ではなく、「濃厚なオランデーズソース〜」としている表現が料理の魅力を引き立てていますね！

さらに、最下部で「楽しんでください〜🌊🍳」とメッセージも添えてくれているのが高ポイントです。

日本語の言い回しにも齟齬がないので、翻訳の精度もばっちり！

OCRアプリと翻訳アプリを行き来する必要がなく、これは非常に便利です。

検証2：手書きのメモ

次に、ホワイトボードに書いたかなり雑な手書き文字を読ませてみました。

人の目でもかなり読みづらいですが、

戦略会議Aデザイン株担当：田中・サトウbカイギ室　13:00〜

と記載しています。

漢字だけでなく、カタカナも混在していますが、こんなメモをしっかり判別できるでしょうか？

プロンプトを入力してみます。

この画像に写っているホワイトボードの手書きメモを、テキストに起こしてください。
読めない文字や判別が難しい箇所がある場合は、
・「ここは判読できませんでした」と明示する
・もし前後の文脈から内容を推測できる場合は、「〇〇と推測されます」といった形で、
・元の文字と区別できるように注釈をつけてください。
・元の構成（曜日ごとの箇条書き、最後のメモ書きなど）も、できる範囲で再現してください。
出力フォーマットはプレーンテキストで構いません。

こちらも3〜4秒ほどで読み取り結果が出ました。

丸を「Q」、カイギ室を「カタログ室」と抽出しているので正確ではありませんが、大部分はあっていますね！

『〜と推測されます』と断定していないことも良い点ですが、『会議室や別の部屋の可能性もゼロではない』と判断しているのも高評価できる部分です！

これをみたスタッフは、「カタログ室なんてなかったから、会議室ってことだな」と考えることもでき、読み取りの結果から「これはスケジュールを記録したメモである」ということも一目で判断することができますね。

このような「殴り書き」のような文字は、一般的なOCRツールでは誤認識しやすいです。

しかし、Grokは文脈を理解して補完し、テキスト化してくれました。

注釈を入れてくれる点も親切で、画像認識ツールとして通常使いしても良いと思うくらいの性能を発揮した結果となりました。

検証3：プログラミングコードのスクショ

最後の検証では、PC画面に表示されたプログラムのエラーコードを撮影し、「このコードをテキスト化して」と頼んでみました。

入力したプロンプト

この画像に写っているプログラムコードとエラー表示を、テキストとして正確に書き起こしてください。
条件：
・プログラムコードは、インデント（字下げ）・改行・記号・スペースを可能な限り正確に再現してください。
・ターミナル（コンソール）の実行結果とエラーメッセージも、コードとは別のブロックとしてテキスト化してください。
・コード部分とエラー出力部分が区別できるように、見出しやラベルをつけてください。
出力フォーマットは Markdown でお願いします。

4秒ほどで出力された結果は以下の通り。

プログラムコードをワンクリックでコピーできるテキストとして抽出しています。

インデント（字下げ）まで含めて、正確に再現していますね！

実行結果の読み取りも正確で、ちょっとしたスクショ画像も正確に読み取りできることがわかりましたね！
エンジニアの方にとっても、エラーログの手打ちは面倒な作業なので、重宝する機能と言えるでしょう。

🏃‍♂️‍➡️APIでの利用と自動化の可能性

開発者の方や企業で大規模に活用したい場合は、xAIが提供するAPIを利用することも可能です。

大量のアンケート用紙を一気にデータ化したり、自社アプリ内でユーザーがアップロードした画像を解析する機能を実装する、といった運用も実現できるでしょう。

APIを利用すれば、Xのインターフェースを開くことなく、バックグラウンドで自動的に処理を行えるようになります。

👥競合AI（ChatGPT・Gemini・Claude）との比較

画像認識ができるAIはGrokだけではありません。
他の主要AIと比較した際の特徴を見てみましょう。

結論として、Grokを選ぶメリットは「X内で操作が完結する手軽さ」と「リアルタイム情報への強さ」です。

普段Xを使っているなら、わざわざ別のアプリを開く必要がないGrokが最もスムーズな選択肢となるでしょう。

🏝️まとめ

今回の検証で、Grokの画像認識は想像以上に優秀でした。
外国語メニューでは文脈を汲み取った自然な日本語訳を返してくれますし、ホワイトボードの殴り書きも内容を推測しながら注釈を添えてくれます。
プログラムコードやエラーログの読み取りに至っては、インシデントまで正確に再現する徹底ぶり。従来のOCR読み取りツールとは明らかに一段上の仕上がりだと感じました。もちろん出力結果の確認は欠かせませんが、画像を送るだけで翻訳から判読、コード化まで完結できるのはかなり楽です。日常使いでもビジネスでも十分おすすめできるので、気になる方はぜひ触ってみてくださいね！

🍁Yoomでできること

「画像を毎回AIに送るのさえ面倒くさい……」

そう感じる方は、Yoomを使ってOCR業務を完全に自動化してしまいましょう！

Yoomを使えば、AIと連携し、以下のようなフローボットを作成できます。

OneDrive×OCR×X
特定のフォルダに画像ファイルが追加されたら、自動で文字を読み取り、Xに自動投稿します。情報発信のスピード感を高めるのにおすすめです。
フォーム×OCR×Notion
フォームが送信後、OCRによる読み取りからNotionへの追加までが自動化されるので、これまで情報確認やデータ転記に費やしていた時間を短縮できます。

Yoomはプログラミング知識がなくても、ドラッグ＆ドロップで簡単に設定可能！

まずは無料のテンプレートを使って、その便利さを体験してみてください。

フォームに添付されたレポートをOCRで読み取りNotionに追加する

試してみる

■概要
フォームで受け取ったレポートの内容を確認し、手作業でデータベースに入力する業務は、手間がかかる上に転記ミスなどのヒューマンエラーも起こりやすいのではないでしょうか。このワークフローは、Yoomのフォーム機能でファイルを受け付けるだけで、添付されたレポートをOCR機能が自動で読み取り、その内容をNotionのデータベースへ追加します。定型的なデータ入力業務から解放され、より重要な業務に集中できます。
■このテンプレートをおすすめする方
フォームで受け取ったレポートの内容を手作業で転記している方
OCR機能を活用して、紙やPDFの書類からのデータ入力を効率化したい方
Notionをデータベースとして活用しており、入力の手間を省きたいと考えている方
■このテンプレートを使うメリット
フォームが送信されると、OCRによる読み取りからNotionへの追加までが自動化され、これまで手作業に費やしていた時間を短縮できます。
手作業でのデータ転記が不要になるため、入力間違いや項目漏れといったヒューマンエラーのリスク軽減に繋がります。
■フローボットの流れ
はじめに、NotionをYoomと連携します。
次に、トリガーでフォームトリガーを選択し、レポート提出用のフォームが送信されたらフローが起動するように設定します。
次に、オペレーションでOCR機能を選択し、フォームに添付されたファイルからテキストを読み取るよう設定します。
最後に、オペレーションでNotionの「レコードを追加する」アクションを選択し、OCR機能で読み取った情報を指定のデータベースに追加します。
※「トリガー」：フロー起動のきっかけとなるアクション、「オペレーション」：トリガー起動後、フロー内で処理を行うアクション
■このワークフローのカスタムポイント
フォームトリガー機能では、レポート提出フォームの質問項目やファイル添付欄などを任意でカスタマイズしてください。
OCR機能では、読み取り対象のファイルの中から、どの箇所の情報を抽出するかを任意で設定できます。
Notionにレコードを追加する際は、データベースのどの項目に、固定値や前段のフローで取得した情報を変数として設定するかを任意で指定可能です。
■注意事項‍
NotionとYoomを連携してください。
OCRのAIオペレーションはチームプラン・サクセスプランでのみご利用いただける機能となっております。フリープラン・ミニプランの場合は設定しているフローボットのオペレーションはエラーとなりますので、ご注意ください。
チームプランやサクセスプランなどの有料プランは、2週間の無料トライアルを行うことが可能です。無料トライアル中には制限対象のアプリやAI機能（オペレーション）を使用することができます。
トリガーは5分、10分、15分、30分、60分の間隔で起動間隔を選択できます。
プランによって最短の起動間隔が異なりますので、ご注意ください。
トリガー、各オペレーションでの取り扱い可能なファイル容量の詳細はこちらをご参照ください。
OCRデータは6,500文字以上のデータや文字が小さい場合などは読み取れない場合があるので、ご注意ください。

詳細を見る  試してみる

OneDriveにファイルがアップロードされたら、OCRと要約を行いX（Twitter）にポストを投稿する

試してみる

■概要
OneDriveに保存した資料や画像の情報を、手作業でX（Twitter）に投稿していませんか？情報の転記や要約に時間がかかったり、投稿漏れが発生したりと、手作業での運用には課題がつきものです。このワークフローは、OneDriveへのファイルアップロードをきっかけに、OCRでの文字抽出、AIによる要約、そしてX（Twitter）への投稿までを自動化し、こうした情報発信業務の効率化を実現します。
■このテンプレートをおすすめする方
OneDriveに保存した情報を元に、X（Twitter）での情報発信を手作業で行っている方
画像やPDF内のテキストをコピー＆ペーストして投稿を作成することに手間を感じている方
OneDriveとX（Twitter）を連携させ、情報発信のスピードと効率を高めたいと考えている方
■このテンプレートを使うメリット
OneDriveへのファイルアップロードを起点に投稿までが自動化されるため、情報収集や投稿作成に費やしていた時間を削減できます
手作業によるテキストの転記ミスや要約内容のブレを防ぎ、投稿内容の品質を安定させることが可能です
■フローボットの流れ
はじめに、OneDriveとX（Twitter）をYoomと連携します
次に、トリガーでOneDriveを選択し、「特定フォルダ内にファイルが作成または更新されたら」というアクションを設定します
次に、オペレーションで「分岐機能」を設定し、ファイルの種類などに応じて後続の処理を分岐させます
次に、オペレーションでOneDriveの「ファイルをダウンロードする」アクションを設定します
次に、オペレーションで「OCR機能」を設定し、ダウンロードしたファイルからテキストを読み取ります
次に、オペレーションで「AI機能」を設定し、読み取ったテキストを要約します
最後に、オペレーションでX（Twitter）の「ポストを投稿」アクションを設定し、AIが生成した要約を投稿します
※「トリガー」：フロー起動のきっかけとなるアクション、「オペレーション」：トリガー起動後、フロー内で処理を行うアクション
■このワークフローのカスタムポイント
OneDriveのトリガー設定では、監視対象とするドライブIDやフォルダIDを任意で設定してください
分岐機能では、ファイル名や拡張子といった前段で取得した情報をもとに、後続の処理を実行する条件を任意に設定できます
OCR機能では、読み取り対象のファイルとして、前段のオペレーションでダウンロードしたファイルなどを任意に設定可能です
AI機能による要約では、OCRで抽出したテキストを要約対象に設定し、文字数や要約のスタイルをカスタマイズできます
X（Twitter）への投稿内容には、AIが生成した要約文を変数として設定するほか、固定のハッシュタグなどを追加することも可能です
■注意事項
OneDrive、X（Twitter）のそれぞれとYoomを連携してください。
OCRまたは音声を文字起こしするAIオペレーションはチームプラン・サクセスプランでのみご利用いただける機能となっております。フリープラン・ミニプランの場合は設定しているフローボットのオペレーションはエラーとなりますので、ご注意ください。
チームプランやサクセスプランなどの有料プランは、2週間の無料トライアルを行うことが可能です。無料トライアル中には制限対象のアプリやAI機能（オペレーション）を使用することができます。
OCRデータは6,500文字以上のデータや文字が小さい場合などは読み取れない場合があるので、ご注意ください。
Microsoft365（旧Office365）には、家庭向けプランと一般法人向けプラン（Microsoft365 Business）があり、一般法人向けプランに加入していない場合には認証に失敗する可能性があります。
分岐はミニプラン以上のプランでご利用いただける機能（オペレーション）となっております。フリープランの場合は設定しているフローボットのオペレーションはエラーとなりますので、ご注意ください。
ミニプランなどの有料プランは、2週間の無料トライアルを行うことが可能です。無料トライアル中には制限対象のアプリや機能（オペレーション）を使用することができます。
アプリの仕様上、ファイルの作成日時と最終更新日時が同一にならない場合があり、正しく分岐しない可能性があるのでご了承ください。
ダウンロード可能なファイル容量は最大300MBまでです。アプリの仕様によっては300MB未満になる可能性があるので、ご注意ください。
トリガー、各オペレーションでの取り扱い可能なファイル容量の詳細は下記をご参照ください。
https://intercom.help/yoom/ja/articles/9413924
オペレーション数が5つを越えるフローボットを作成する際は、ミニプラン以上のプランで設定可能です。フリープランの場合はフローボットが起動しないため、ご注意ください。

詳細を見る  試してみる

[Yoomとは]

Yoomを使えば、今回ご紹介したような連携を
プログラミング知識なしで手軽に構築できます。

無料でYoomを試す

この記事を書いた人

Kana Saruno

API連携プラットフォーム「Yoom」がもたらすワークフローの自動化と、生産性の劇的な向上に感銘を受け、現在はコンテンツ制作を担当。カスタマーサポートとして、多様な業界のユーザーが抱える業務課題の解決に取り組む中で、定型業務の非効率性を目の当たりにした経験を持つ。ユーザー視点を武器に、SaaS連携による業務効率化の具体的な手法や、明日から実践できるIT活用のノウハウを分かりやすく発信している。

タグ

xAI（Grok）