・
「海外のニュース画像や手書きのメモをテキスト化したい」「手動入力って時間がかかりがち...」
普段からそう考えている方も多いのではないでしょうか?
xAIが提供するAI「Grok」は、画像生成機能が注目されがちですが、実は画像の内容を認識してテキストを抽出する「Vision機能」も非常に強力なのです!
この記事では、Grokを使って画像から文字起こし(OCR)を行う方法やその精度について実際に検証した結果をわかりやすく解説します。
「Grokと画像って考えた時に、画像生成しか思いつかない」と思っていた方も、「手入力でテキストに起こすのがもうしんどい!」と感じていた方にもぜひ試してほしいので、最後まで見ていってくださいね!
Grokを使えば手軽に画像の文字起こしができますが、毎回手動で画像をアップロードしてAIに指示を出すのは少し手間ですよね。
ノーコードAI連携ツールのYoomを使えば、その作業自体を自動化できます。
例えば、「フォームで送付されたファイルをOCRで読み取り、Google スプレッドシートに追加する」というようなフローをプログラミングなしで作成可能です。
YoomにはOCR(光学文字認識)機能が標準搭載されており、以下のような業務を効率化できます。
AIの力を使って、手作業の入力業務をゼロにしてみませんか?
■概要
経費精算などで受け取った大量のレシートを、一つひとつ手作業で転記していませんか?この作業は時間がかかるだけでなく、入力ミスが発生する可能性もあります。このワークフローを活用すれば、フォームにアップロードされたレシート画像をAI-OCRが自動で読み取り、その内容をGoogle スプレッドシートへ直接追加できます。面倒なデータ入力作業から解放され、経費精算業務の効率化を実現します。
■このテンプレートをおすすめする方
■このテンプレートを使うメリット
■フローボットの流れ
※「トリガー」:フロー起動のきっかけとなるアクション、「オペレーション」:トリガー起動後、フロー内で処理を行うアクション
■このワークフローのカスタムポイント
◼️概要
請求書添付メールを受信したらAI-OCRで請求書を読み取り、読み取り内容を担当者がチェックしてからSlackに通知するフローです。
途中で担当者チェックを入れることでより正確に請求書情報の連携が可能です。
OCRでの読み取り項目やSlackの通知先チャンネルや通知内容は自由に変更が可能です。
◼️注意事項
※受信用アドレスに対して、転送を行いたい場合はこちらを参照ください。
https://intercom.help/yoom/ja/articles/7266653
・AIオペレーションはチームプラン・サクセスプランでのみご利用いただける機能となっております。フリープラン・ミニプランの場合は設定しているフローボットのオペレーションはエラーとなりますので、ご注意ください。
・チームプランやサクセスプランなどの有料プランは、2週間の無料トライアルを行うことが可能です。無料トライアル中には制限対象のアプリやAI機能(オペレーション)を使用することができます。
■概要
名刺データをフォームで送信すると、AIが自動で名刺の情報を読み取りSalesforceの取引先責任者に登録します。
また、名刺の画像も合わせてアップロードしてレコードと紐付けます。
名刺の画像をスマホなどで撮影し、そのままスマホからフォームにアップロードすることも可能です。
■注意事項
・SalesforceとYoomを連携してください。
・名刺画像のファイル形式はJPG、PNGなどの形式でアップロードしてください。
・Salesforceはチームプラン・サクセスプランでのみご利用いただけるアプリとなっております。フリープラン・ミニプランの場合は設定しているフローボットのオペレーションやデータコネクトはエラーとなりますので、ご注意ください。
・AIオペレーションはチームプラン・サクセスプランでのみご利用いただける機能となっております。フリープラン・ミニプランの場合は設定しているフローボットのオペレーションはエラーとなりますので、ご注意ください。
・チームプランやサクセスプランなどの有料プランは、2週間の無料トライアルを行うことが可能です。無料トライアル中には制限対象のアプリを使用することができます。
Grokは、テキスト情報だけでなく画像情報も処理できる「マルチモーダルAI」です。
この画像認識能力は「Vision機能」と呼ばれ、人間と同じように画像を見て、その中に何が描かれているか、どんな文字が書かれているかを理解することができます。
よく混同されがちなのが、以下の2つの機能です。
今回解説する「文字起こし」は、後者のVision機能を使用します。
GrokのVision機能は、単に文字を読み取るだけでなく、「画像内の状況を理解した上でテキスト化する」ことができるため、例えば「グラフの数値を読み取って傾向を解説する」といった高度な処理も可能です。
では、実際にX(旧Twitter)のアプリを使って、Grokに画像を読ませてみましょう。
今回筆者が検証で使用するSuperGrokであれば、スマホアプリやPCブラウザからすぐに利用できます。
まずは、旅先で見た英語のレストランメニューをGrokに読ませてみました。