・
「海外のニュース画像や手書きのメモをテキスト化したい」「手動入力って時間がかかりがち...」
普段からそう考えている方も多いのではないでしょうか?
xAIが提供するAI「Grok」は、画像生成機能が注目されがちですが、実は画像の内容を認識してテキストを抽出する「Vision機能」も非常に強力なのです!
この記事では、Grokを使って画像から文字起こし(OCR)を行う方法やその精度について実際に検証した結果をわかりやすく解説します。
「Grokと画像って考えた時に、画像生成しか思いつかない」と思っていた方も、「手入力でテキストに起こすのがもうしんどい!」と感じていた方にもぜひ試してほしいので、最後まで見ていってくださいね!
Grokを使えば手軽に画像の文字起こしができますが、毎回手動で画像をアップロードしてAIに指示を出すのは少し手間ですよね。
ノーコードAI連携ツールのYoomを使えば、その作業自体を自動化できます。
例えば、「フォームで送付されたファイルをOCRで読み取り、Google スプレッドシートに追加する」というようなフローをプログラミングなしで作成可能です。
YoomにはOCR(光学文字認識)機能が標準搭載されており、以下のような業務を効率化できます。
AIの力を使って、手作業の入力業務をゼロにしてみませんか?
◼️概要
請求書添付メールを受信したらAI-OCRで請求書を読み取り、読み取り内容を担当者がチェックしてからSlackに通知するフローです。
途中で担当者チェックを入れることでより正確に請求書情報の連携が可能です。
OCRでの読み取り項目やSlackの通知先チャンネルや通知内容は自由に変更が可能です。
◼️注意事項
※受信用アドレスに対して、転送を行いたい場合はこちらを参照ください。
https://intercom.help/yoom/ja/articles/7266653
・AIオペレーションはチームプラン・サクセスプランでのみご利用いただける機能となっております。フリープラン・ミニプランの場合は設定しているフローボットのオペレーションはエラーとなりますので、ご注意ください。
・チームプランやサクセスプランなどの有料プランは、2週間の無料トライアルを行うことが可能です。無料トライアル中には制限対象のアプリやAI機能(オペレーション)を使用することができます。
■概要
経費精算などで受け取った大量のレシートを、一つひとつ手作業で転記していませんか?この作業は時間がかかるだけでなく、入力ミスが発生する可能性もあります。このワークフローを活用すれば、フォームにアップロードされたレシート画像をAI-OCRが自動で読み取り、その内容をGoogle スプレッドシートへ直接追加できます。面倒なデータ入力作業から解放され、経費精算業務の効率化を実現します。
■このテンプレートをおすすめする方
■このテンプレートを使うメリット
■フローボットの流れ
※「トリガー」:フロー起動のきっかけとなるアクション、「オペレーション」:トリガー起動後、フロー内で処理を行うアクション
■このワークフローのカスタムポイント
■概要
名刺データをフォームで送信すると、AIが自動で名刺の情報を読み取りSalesforceの取引先責任者に登録します。
また、名刺の画像も合わせてアップロードしてレコードと紐付けます。
名刺の画像をスマホなどで撮影し、そのままスマホからフォームにアップロードすることも可能です。
■注意事項
・SalesforceとYoomを連携してください。
・名刺画像のファイル形式はJPG、PNGなどの形式でアップロードしてください。
・Salesforceはチームプラン・サクセスプランでのみご利用いただけるアプリとなっております。フリープラン・ミニプランの場合は設定しているフローボットのオペレーションやデータコネクトはエラーとなりますので、ご注意ください。
・AIオペレーションはチームプラン・サクセスプランでのみご利用いただける機能となっております。フリープラン・ミニプランの場合は設定しているフローボットのオペレーションはエラーとなりますので、ご注意ください。
・チームプランやサクセスプランなどの有料プランは、2週間の無料トライアルを行うことが可能です。無料トライアル中には制限対象のアプリを使用することができます。
Grokは、テキスト情報だけでなく画像情報も処理できる「マルチモーダルAI」です。
この画像認識能力は「Vision機能」と呼ばれ、人間と同じように画像を見て、その中に何が描かれているか、どんな文字が書かれているかを理解することができます。
よく混同されがちなのが、以下の2つの機能です。
今回解説する「文字起こし」は、後者のVision機能を使用します。
GrokのVision機能は、単に文字を読み取るだけでなく、「画像内の状況を理解した上でテキスト化する」ことができるため、例えば「グラフの数値を読み取って傾向を解説する」といった高度な処理も可能です。
では、実際にX(旧Twitter)のアプリを使って、Grokに画像を読ませてみましょう。
今回筆者が検証で使用するSuperGrokであれば、スマホアプリやPCブラウザからすぐに利用できます。
まずは、旅先で見た英語のレストランメニューをGrokに読ませてみました。
入力したプロンプト
このメニューの内容を日本語に訳してください。
以下の形式で出力してください。
見出しを日本語にする
各料理について
・英語の料理名
・日本語の料理名
・どんな料理かの日本語での説明(日本人がイメージしやすいように)
・価格(数字と通貨記号はそのまま)
日本人旅行者向けに、カジュアルで読みやすい自然な日本語にしてください。
プロンプトを投稿すると、3秒ほどで読み取り結果が出力されました!
原文をそのまま翻訳して文字起こしするだけでなく、料理名の日本語訳とどのような料理かの詳細な解説までセットで行っています。
特に、「オランデーズソースをかけた〜」ではなく、「濃厚なオランデーズソース〜」としている表現が料理の魅力を引き立てていますね!
さらに、最下部で「楽しんでください〜🌊🍳」とメッセージも添えてくれているのが高ポイントです。
日本語の言い回しにも齟齬がないので、翻訳の精度もばっちり!
OCRアプリと翻訳アプリを行き来する必要がなく、これは非常に便利です。
次に、ホワイトボードに書いたかなり雑な手書き文字を読ませてみました。
人の目でもかなり読みづらいですが、
戦略会議Aデザイン株担当:田中・サトウbカイギ室 13:00〜
と記載しています。
漢字だけでなく、カタカナも混在していますが、こんなメモをしっかり判別できるでしょうか?
プロンプトを入力してみます。
この画像に写っているホワイトボードの手書きメモを、テキストに起こしてください。
読めない文字や判別が難しい箇所がある場合は、
・「ここは判読できませんでした」と明示する
・もし前後の文脈から内容を推測できる場合は、「〇〇と推測されます」といった形で、
・元の文字と区別できるように注釈をつけてください。
・元の構成(曜日ごとの箇条書き、最後のメモ書き など)も、できる範囲で再現してください。
出力フォーマットはプレーンテキストで構いません。
こちらも3〜4秒ほどで読み取り結果が出ました。
丸を「Q」、カイギ室を「カタログ室」と抽出しているので正確ではありませんが、大部分はあっていますね!
『〜と推測されます』と断定していないことも良い点ですが、『会議室や別の部屋の可能性もゼロではない』と判断しているのも高評価できる部分です!
これをみたスタッフは、「カタログ室なんてなかったから、会議室ってことだな」と考えることもでき、読み取りの結果から「これはスケジュールを記録したメモである」ということも一目で判断することができますね。
このような「殴り書き」のような文字は、一般的なOCRツールでは誤認識しやすいです。
しかし、Grokは文脈を理解して補完し、テキスト化してくれました。
注釈を入れてくれる点も親切で、画像認識ツールとして通常使いしても良いと思うくらいの性能を発揮した結果となりました。
最後の検証では、PC画面に表示されたプログラムのエラーコードを撮影し、「このコードをテキスト化して」と頼んでみました。
入力したプロンプト
この画像に写っているプログラムコードとエラー表示を、テキストとして正確に書き起こしてください。
条件:
・プログラムコードは、インデント(字下げ)・改行・記号・スペースを可能な限り正確に再現してください。
・ターミナル(コンソール)の実行結果とエラーメッセージも、コードとは別のブロックとしてテキスト化してください。
・コード部分とエラー出力部分が区別できるように、見出しやラベルをつけてください。
出力フォーマットは Markdown でお願いします。
4秒ほどで出力された結果は以下の通り。
プログラムコードをワンクリックでコピーできるテキストとして抽出しています。
インデント(字下げ)まで含めて、正確に再現していますね!
実行結果の読み取りも正確で、ちょっとしたスクショ画像も正確に読み取りできることがわかりましたね!
エンジニアの方にとっても、エラーログの手打ちは面倒な作業なので、重宝する機能と言えるでしょう。
開発者の方や企業で大規模に活用したい場合は、xAIが提供するAPIを利用することも可能です。
大量のアンケート用紙を一気にデータ化したり、自社アプリ内でユーザーがアップロードした画像を解析する機能を実装する、といった運用も実現できるでしょう。
APIを利用すれば、Xのインターフェースを開くことなく、バックグラウンドで自動的に処理を行えるようになります。
画像認識ができるAIはGrokだけではありません。
他の主要AIと比較した際の特徴を見てみましょう。
結論として、Grokを選ぶメリットは「X内で操作が完結する手軽さ」と「リアルタイム情報への強さ」です。
普段Xを使っているなら、わざわざ別のアプリを開く必要がないGrokが最もスムーズな選択肢となるでしょう。
今回の検証で、Grokの画像認識は想像以上に優秀でした。
外国語メニューでは文脈を汲み取った自然な日本語訳を返してくれますし、ホワイトボードの殴り書きも内容を推測しながら注釈を添えてくれます。
プログラムコードやエラーログの読み取りに至っては、インシデントまで正確に再現する徹底ぶり。従来のOCR読み取りツールとは明らかに一段上の仕上がりだと感じました。もちろん出力結果の確認は欠かせませんが、画像を送るだけで翻訳から判読、コード化まで完結できるのはかなり楽です。日常使いでもビジネスでも十分おすすめできるので、気になる方はぜひ触ってみてくださいね!
「画像を毎回AIに送るのさえ面倒くさい……」
そう感じる方は、Yoomを使ってOCR業務を完全に自動化してしまいましょう!
Yoomを使えば、AIと連携し、以下のようなフローボットを作成できます。
Yoomはプログラミング知識がなくても、ドラッグ&ドロップで簡単に設定可能!
まずは無料のテンプレートを使って、その便利さを体験してみてください。
■概要
OneDriveに保存した資料や画像の情報を、手作業でX(Twitter)に投稿していませんか?情報の転記や要約に時間がかかったり、投稿漏れが発生したりと、手作業での運用には課題がつきものです。このワークフローは、OneDriveへのファイルアップロードをきっかけに、OCRでの文字抽出、AIによる要約、そしてX(Twitter)への投稿までを自動化し、こうした情報発信業務の効率化を実現します。
■このテンプレートをおすすめする方
■このテンプレートを使うメリット
■フローボットの流れ
※「トリガー」:フロー起動のきっかけとなるアクション、「オペレーション」:トリガー起動後、フロー内で処理を行うアクション
■このワークフローのカスタムポイント
■注意事項
■概要
フォームで受け取ったレポートの内容を確認し、手作業でデータベースに入力する業務は、手間がかかる上に転記ミスなどのヒューマンエラーも起こりやすいのではないでしょうか。このワークフローは、Yoomのフォーム機能でファイルを受け付けるだけで、添付されたレポートをOCR機能が自動で読み取り、その内容をNotionのデータベースへ追加します。定型的なデータ入力業務から解放され、より重要な業務に集中できます。
■このテンプレートをおすすめする方
■このテンプレートを使うメリット
■フローボットの流れ
※「トリガー」:フロー起動のきっかけとなるアクション、「オペレーション」:トリガー起動後、フロー内で処理を行うアクション
■このワークフローのカスタムポイント
■注意事項
[Yoomとは]