・
「Geminiという名前はよく聞くけど、結局、仕事にどう役立つの?」
生成AIの話題が飛び交う現在、「使ってみたいけれど、何をさせたら効果的なのかわからない」と感じているユーザーは多いのではないでしょうか。
今回はそんな疑問を解消すべく、多くの企業が時間をとられているであろう「動画要約」「画像生成」「企画立案」の3つの実務に近い検証を行い、Geminiの能力をチェックしました。
単に「便利」で終わらせず、具体的に「55分のウェビナー動画をたった1分で要約できた」「ターゲットのニーズを捉えた企画を提案できた」といった結果から、Geminiがあなたのどんな業務に使えるのかを解説します。
本記事の想定読者
Geminiとは
Gemini(ジェミニ)とは、Googleが開発したマルチモーダルな大規模言語モデル(LLM)です。テキスト・画像・音声・動画など複数の異なるデータを同時に理解し、処理できる能力を持っています。
Geminiの強みと特徴
Geminiを使用することで現場にもたらす主なメリットは、以下の3点です。
一方で生成AI共通の課題として、回答に不正確な情報(ハルシネーション)が含まれる可能性もあります。業務で利用する際は、出力された内容の検証や確認が不可欠です。
検証の条件
Geminiのモデル:2.5 Flash
Geminiのプラン:無料プラン
検証内容とポイント
なお、Geminiのモデルは2.5Flashの無料プランを使用しています。
プロンプト
以下のウェビナー動画を要約し、動画の紹介を行うSNSの投稿文を作成せよ。
・https://youtu.be/j8nUr0X1JHE?si=4flx3KK_jLV0fbxx
検証手順
PC版のGeminiにアクセスを行います。
ウェビナー動画のURLは、Yoomチャンネルの「【Yoom】Yoomの基本機能に関する考え方や概念について」を使用しています。
送信することで1分もかからずに動画を要約した結果が表示されました。
検証結果
プロンプトの内容にこだわらなくても、URLと簡単な指示を送信するだけで簡単に動画を要約できました。また、他のAIツールであるChatGPTの無料プランでも試したところ、下記のように動画要約の対応はできない結果に。
モデルやプランにもよりますが、下記のようにChatGPT(無料版)では動画URLを読み込めませんでした。このように他のチャットボットでは動画の内容まで確認できないこともあるため、Geminiの大きな強みだと感じます。
それでは次に、検証項目ごとに所感を見ていきましょう。
要点のまとめ方
こちらからは明確に指示は出していませんが、「動画を見てほしい対象」や「動画を見ることで得られる情報」、ハッシュタグも出力されていました。
そのため単に動画の内容をテキストに落とし込むだけでなく、「ユーザーが何を求めているか」「どこでこの情報を使うか(SNSでの告知)」という文脈を読み取り出力されていることが分かります。
また要約結果には動画のタイムリンクが表示されるため、気になった部分をすぐに動画で確認できる点も便利です。
全文の文字起こしとは異なり、要点とその該当箇所が紐づいているため、長時間の講演から特定の発言を探したい場合や議事録作成の補助ツールとしても活用が期待できそうだと思います。
専門用語の認識精度
Yoomの特性上、「トリガー」や「フローボット」など固有の専門用語を多く使用しています。
要約した結果を見るとシステム内での役割、使い方等も含め、かなり高い精度で認識してくれている印象を受けました。
専門用語の種類や動画上でどのくらい専門用語について言及されているかにもよりますが、今回の結果を見ると専門用語の手直しの手間は少なく運用できるでしょう。
要約にかかる時間
55分ある動画の内容を、1分もかからず要約できる処理速度は実用的です。
また長時間のウェビナーや会議の録画などすべてを視聴する時間がないコンテンツでも、要点を素早く掴むことが可能。
情報収集の効率を重視するリサーチ業務や、多忙な企業、ユーザーにとって有用な機能となっています。
プロンプト
企業HPのアイキャッチ画像に掲載するためのイラストを作成してほしい
・背景にはパソコンの写ったオフィスのイラスト
・「UPDATE」の文字も記載すること
検証結果
こちらの画像が出力されました。UPDATEの文字も入っていて、背景がオフィスの雰囲気ですが、良くも悪くもプロンプト通りのイラストが作成されたように見受けられます。
それでは検証項目ごとに所感を見ていきましょう。
生成速度
一般的な家庭の通信速度(こちらで測定)で先ほど記載したプロンプトで5回ほど画像の出力を行いました。
その結果、Geminiでは平均で15秒で出力が行われました。同条件で検証したところ、プランにもよりますがChatGPTでは36秒。
Grokは5秒。Microsoft Copilotでは67秒が平均。これらの結果を見ても、他の生成AIと比較して出力速度は速いほうに分類されています。
画像の質や雰囲気
先ほどのイラストを見てわかる通り、プロンプトの全てを拾っているためか、少し違和感のある画像となりました。
画像にサイトのメニューバーのようなものがあったり、窓に絵が飾られていたりと無理にプロンプトの内容をすべて組み込もうとしています。
なお比較として同一プロンプトにてChatGPTで出力したイラストは、以下のようにシンプルな結果となりました。
Geminiのように無理に全ての要素を取り込もうとはせず、簡潔に画像が生成されています。
chatGPTとGeminiの出力を比べると、Geminiはプロンプトにかなり忠実に出力しようとする特徴があるようです。
そこでもう少しシンプルなプロンプトを使い、Geminiで画像生成を行ってみました。こちらは問題なくイラストが作成されています。
出力結果を見てプロンプトを変更していくことで理想の画像に近づけられるものの、Geminiはあくまで「プロンプトに忠実なイラスト」を作成する印象。よりシンプルなプロンプトのほうが使い勝手が良いかもしれません。
プロンプト
コンビニのオリジナルブランドの商品を提案してほしい。
他の競合とは被らないオリジナリティの高い商品を提案すること。
1.夜ご飯を買いに来たサラリーマン
2.朝の散歩で立ち寄ったシニア世代
3.お小遣いをもらって買い物に来た小学生の男の子
上記3パターンのターゲットについてそれぞれ、
新商品の概要とキャッチコピーを作成すること。
検証結果
ありきたりな提案とならないように、オリジナリティを求めたプロンプトを送信した結果、以下のような回答を得ることができました。
出力結果をもとに検証項目を見ていきましょう。
プロンプトの理解度
プロンプトでは単なる属性(例:「サラリーマン」)の提示だけでなく、「夜ご飯を買いに来た」といった具体的な利用シーンや情景を加えて指示しましたが、適切に認識していたと感じられました。
特に、シニア向けの「小ぶりで減塩のおにぎり」や、小学生向けの「発掘体験型ラムネ」等、行動背景や心理までを考慮に入れたコンセプトが提案されていることから、指示内容を理解し、オリジナリティの高い提案を試みているところが評価できます提案の想像力
今回の提案で出たキャッチコピーは、商品の内容や買う人のメリットをしっかり伝えており宣伝として十分使える、バランスの良いものだと感じました。
ただ、他のAI(Grok)でも出力してみたところ「缶開けて、串刺して、3分で居酒屋。」、「開けたらロボ、食べたらヒーロー。」といった個性的な出力となり、Geminiの表現は少し控えめな印象です。
これは、Geminiの提案が「確実な情報伝達」を重視する傾向にあるためだと考えられます。
そのため、突飛な表現よりも、安心感や信頼感を大切にする企業やブランドにとっては、この堅実なトーンのキャッチコピーが非常に合っていると言えます。
ニーズの分析力
サラリーマン向け商品では最近スーパーやコンビニで増えている「高タンパク質」「低糖質」といった健康志向のトレンドと、忙しいビジネスパーソンが持つ「罪悪感なく美味しいものを食べたい」というニーズが結びついていると感じました
また、小学生の男の子向け商品ではお菓子のおまけや景品などで話題の「3Dプリンター造形物」や、子供たちの間で流行している「コレクション性」や「発掘・サプライズ」といった遊びのトレンドを取り入れており、各ターゲットの潜在的なニーズも捉えています。
このように、単なる現状の市場傾向だけでなく、ターゲット層が今、何を面白いと感じ、何を求めているかという消費者心理までを反映した提案となっており、高い分析力が発揮されているといえます。
総評としてGeminiがどんな業務で使えそうか、また業務で使う際の注意点等を記載します。
Geminiが活躍しそうな業務内容
Geminiは、以下の画像のように情報収集、資料作成、コンテンツ企画、そして日常的な事務作業の効率化において高い能力を発揮することでしょう。
Geminiを業務で使用する上での注意点
Geminiの業務での活用は非常に便利ですが、生成AI共通の課題として、回答に不正確な情報(ハルシネーション)が含まれる可能性があります。
固有名詞や数値データなど正確性が求められる用途では、必ず人の目による最終的な検証・確認が必要です。
あくまで「下書き」や「内容把握の補助」として活用することが、現実的かつ効果的といえるでしょう。
Yoomでできること
Yoomでは、検証①で行ったようなGeminiを使用した自動化システムを構築できます。
指定日時になったら、データベースの情報をもとにGeminiでテキストを生成してX(Twitter)に投稿する
上記の自動化フローを活用し、ウェビナー動画の要約が完了したらX(Twitter)やSlack等でメッセージを投稿するまでの処理を自動で行うこともできるようになります。
Yoomを使用してAPI連携やAI処理などのシステムを組み合わせ、日々の繰り返し作業も自動化できます。まずは無料のプランから始めてみませんか。
おわりに
Geminiの動画要約は、URLを渡すだけで長尺動画の内容を短時間で把握できる便利な機能です。
処理速度が速く、専門用語の認識精度も高い一方、映像のみの情報は見落とす可能性があり、最終的に人の目での確認は欠かせません。
ウェビナーや会議の録画など、動画コンテンツからの情報収集を効率化したいユーザーに特におすすめです。ぜひ一度、その手軽さと性能を試してみてください。