インタビュー音声の文字起こしと解説動画作成のワークフローを徹底検証
Vrew × Geminiで業務効率化!インタビュー音声の文字起こしと解説動画作成のワークフローを徹底検証
Yoomを詳しくみる
インタビュー音声の文字起こしと解説動画作成のワークフローを徹底検証
自動化のアイデア

2025-12-17

Vrew × Geminiで業務効率化!インタビュー音声の文字起こしと解説動画作成のワークフローを徹底検証

Harusara

インタビューや会議が終わった後の「議事録作成」や「文字起こし」、正直なところ気が重くなりませんか? 録音を聞き返してはタイピングし、聞き取れなかった箇所を何度も再生する……。そんな単純作業に、多くの時間を奪われている企業も少なくありません。

「もっと楽に終わらせたい」そんな願いを叶えてくれるのが、AI動画編集ソフト「Vrew」です。 Vrewと言えば「字幕作成」が有名ですが、実は高精度な文字起こしツールとして非常に優秀なのをご存知でしょうか。さらに、そのテキストを活用してそのまま「解説動画」まで自動生成できてしまうのです。

本記事では、Vrewと生成AI「Gemini」を組み合わせ、インタビュー音声を「議事録」と「ショート動画」へ変換する手順を検証しました。「5〜6分の音声が1分足らずで文字になる」そのスピードと、実用的かの検証結果を交えてレポートします。

✍️Vrewについて

本記事の想定読者

本記事は、以下のような課題やニーズを持つ方を想定しています。

・ウェビナーや動画コンテンツの活用を担当しており、文字起こし後の議事録作成や要約作業に追われている方

・Vrewの導入を検討しているが、具体的な文字起こし精度や、工数削減効果を事前に知りたい方

・Vrewのテキストを基に動画生成を行う機能が気になっている方

Vrewとは

Vrewは、韓国の企業VoyagerXが開発した、AI(人工知能)を活用した動画編集ソフトウェアです。「編集を減らし、創造を増やす」をコンセプトに掲げ、動画の音声を自動で分析してテキスト化し、それを元に字幕(テロップ)を自動生成する機能が最大の特徴です。

料金プランと制限:

基本機能は無料で利用できますが、無料プランでは音声分析(文字起こし)に月間120分までの制限があります。ビジネス利用や長時間の動画を頻繁に扱う場合は、有料プラン(ライト、スタンダード、ビジネス)へのアップグレードが推奨されます。


Vrew:皆さんにぴったりのプランを見つけてください。より

🤔Vrewを実際に使ってみた!

今回はAI動画編集ツール「Vrew」と生成AI「Gemini」を組み合わせた、業務効率化の検証レポートをお届けします。インタビュー音声のテキスト化から、解説動画作成まで、実際のワークフローに沿って検証しました。
※なお、「Vrew」はFreeプランで検証を行いました。

検証内容とポイント一覧

・インタビュー音声のテキスト化

・AI音声を用いた解説動画作成

それぞれ下記のポイントを基に検証を行っていきます。

📝Vrewの検証を実施

それではインタビュー音声のテキスト化。それを基に簡単な動画の作成を2段階で検証を行っていきます。

インタビュー音声のテキスト化

今回は、【Yoom】データベースを作成してみよう!の音声ファイルを基に、記事作成用のテキスト化を実施しました。

Vrewを立ち上げ「新規で作成」から「ビデオ・オーディオを読み込む」を選択し、音声ファイルをインポートを行います。

「動画を読み込む」画面では「確認」ボタンをクリックしましょう。

その後、文章の抽出が始まります。

抽出完了後、下記のような編集画面が表示されるため、必要に応じて誤字や段落を修正しましょう。

「検索して置換」機能を活用して効率的に修正することも可能です。

修正完了後、「エクスポート」ボタンからテキストファイル(txt)として出力ができます。


下記のように文字起こし済みのtxtファイルをダウンロードできるため、これを基にすれば議事録作成がスムーズに進みます。 

目視で確認しながら手修正で整えるのはもちろん、機密情報を含まない内容であれば、生成AIに要約を任せてさらに効率化を図るのも一つの手です。

【プロンプト例】

あなたは企業の議事録作成の担当者です。下記はYoomを使用しデータベースを作成する方法の音声を文字に起こした文章です。これを基に議事録の形で整えて出力してください。

・ここの出力結果のテキストを貼る

【Geminiでの出力結果】


検証結果

読み込みのスピードについて

読み込みの処理速度は、かなり高速だと感じました。 5分や6分の音声データであっても、1分とかからずに読み込みと文字起こしが完了しています。これは、ゼロから手作業で文字起こしを行う場合と比較すると、作業工数を大幅に削減するスピードであり、非常に実用的であるといえます。

文字起こしの精度について

基本的な内容に関する文字起こしの精度はかなり高い水準です。今回の検証音声に含まれていた「Googleスプレッドシート」「データベース」「CSV」といった専門用語も、概ね正確に認識されていました。ただし、固有名詞や特定の専門用語には誤字が見られました(例: YOOMがYOUMやゆーむと変換される)。目立った誤字は少数であり、人の目による最終確認は必要であるものの、実用には十分耐えうるレベルです。

実務への活用度について

出力結果は、即戦力として実務で使用できる完成度だと判断できます。以前、1〜2時間の打合せ内容の議事録を作成していた経験と比較しても、このツールを導入することで業務効率は飛躍的に向上すると確信できます。文字起こし結果をベースに、人が最終チェックを行うフローを組むだけで、日々の定型業務から解放される大きなメリットがあります。

AI音声を用いた解説動画作成

次に、Vrewの機能である「テキストから動画を作成」を使用して、取得した文字起こしデータからの解説動画作成を検証していきます。

文字起こしした議事録をもとにGeminiに下記のプロンプトを送信しました。

【プロンプト例】

以下のインタビューの記録を要約してほしい。

この後、Youtubeショート動画に編集していくため、文章の区切り箇所にも違和感がないように書き出すこと。

そのまま貼り付けて読み上げソフトに読ませるため、見出しや箇条書きも不要。

◆以下、文章

・ここに1つ前のステップで取得した文字起こしの内容を貼り付ける

回答が出力されたら、その内容をコピーしておきます。

Vrewの「テキストから動画を作成」を選択し動画作成を開始していきます。

スタイルの選択画面では任意のスタイルを選択しましょう。今回は「情報伝達スタイル」を設定しています。

台本の作成画面が表示されたら、先ほどのGeminiの回答を貼り付けましょう。

・画面比率やAI音声、BGM等を設定したら完了ボタンをクリックすることで動画の作成が始まります。

動画作成が完了し下記画面が表示されるため、字幕やAI音声などの編集を行いましょう。

編集が完了したら、動画ファイルとしてエクスポートを行うことができます。


検証結果

動画の作成速度について

動画の作成速度は、従来の制作工程と比較して非常に高速です。原稿の量にもよりますが、約2000文字の原稿を基にした4〜5分の動画であれば、わずか2分程度で作成が完了しました。一般的に行われる、音声読み上げツールで音声を生成し、それを別の編集ソフトで動画素材と合わせるという別々の工程を踏むよりも、効率的に動画作成が行えます。

音声読み上げの精度について

AI音声の読み上げは実用的なレベルに達しているものの、人の目による確認は必須です。特に漢字の読み分けや固有名詞、英語の読み上げには課題が見られました。

具体的な例として、「YOOM」を「ワイオーオーエム」と誤読したり、「他の(ほかの)テーブル」を「たのテーブル」、「空の(からの)データベース」を「そらのデータベース」と誤読するケースが散見されました。イントネーションや漢字の読み間違いは修正が必要ですが、動画を再生しながら編集画面で簡単に直せるため、そこまで大きな手間にはならないでしょう。

映像の完成度について

映像のクオリティについては、過度な期待はしない方が良いでしょう。自動生成される映像は、あくまで「紙芝居」程度の完成度でした。文章の区切りごとに、その内容に近い素材が自動で当て込まれる仕組みです(例:「請求」という単語に対して請求書のイラストが表示される、「データベース」に対してスプレッドシート風の画像が表示されるなど)。そのため、情報伝達に特化した簡易的な動画、または「おまけ機能」として割り切って活用すべきです。

✅2つの検証結果のまとめ

今回Vrewを使用して文字起こしによる議事録の作成、また議事録を基に動画の作成を試してみてのメリット・デメリットをまとめてみました。


メリット(活用できる点)

・圧倒的な時短による業務効率化:

文字起こしは、手作業に比べて効率がかなり向上します。(例:5〜6分の音声データを1分もかけずにテキスト化)

動画生成も高速で、音声読み上げと編集ソフトを別々に使う従来の工程に比べ、大幅に早く動画が出力されます。(例:2000文字の原稿から4〜5分の動画を2分前後で生成)

・素材の多目的再利用:

文字起こし結果はそのまま議事録のベースになるだけでなく、そのテキストをGeminiなどのAIで要約・整形し、そのままVrewの「テキストから動画を作成」機能で解説動画の原稿として再利用できます。


デメリット(注意すべき点)

・固有名詞や漢字の誤読修正:

文字起こしは高精度ですが、固有名詞(例: YOUM → YOOM)や特定の専門用語は人の目による確認と手修正が必須です。

・AI音声も実用的ですが、漢字の読み間違い(例:「他の」を「たの」)や不自然なイントネーションが散見されるため、音声の確認と修正も必要です。

・映像クオリティの限界:

自動生成される映像は、文章の内容に沿ったイラストや画像が自動で割り当てられる「紙芝居」レベルであり、高いビジュアルクオリティは期待できません。情報伝達用の簡易的な資料として割り切る必要があります。

・クレジット消費のリスク:

無償プランで検証する際、AI音声キャラクターなどで「FREE」マークがない有料素材を選んでしまうと、意図せずクレジットを消費してしまうリスクがあります。利用時には細心の注意が必要です。

🖊まとめ

今回の検証を通じて、AI動画編集ソフト「Vrew」が文字起こしから映像作成まで、コンテンツ制作プロセス全般において大幅な効率化を実現できるツールであることがわかりました。

ただし、その高い利便性を最大限に活かすためには、「ツール任せにしないこと」が重要です。精度やクオリティに課題が残る部分(固有名詞の誤字やAI音声の誤読など)については、ツールで大部分の工数を削減し、最終的な確認と修正を人力で行う「AIと人力の共存」を意識しながら作業を行う必要があります。

いくつかのデメリットも確認されましたが、それを補って余りあるほどの時間短縮と利便性を提供してくれるツールです。この新しい効率化の可能性をぜひ体験いただくためにも、まずは無償プランなどで試してみてはいかがでしょうか?

また、Yoomでは今回登場したGeminiとの連携を行うシステムを、ノーコードで作成することができます。




Yoomを使用し、API連携やAI処理などのシステムを組み合わせ、日々の繰り返し作業も自動化できます。まずは無料のプランから始めてみませんか。

Yoomを使えば、今回ご紹介したような連携を
プログラミング知識なしで手軽に構築できます。
無料でYoomを試す
この記事を書いた人
Harusara
Microsoft Office Specialist認定資格、Word文書処理技能認定、基本情報技術者資格を保有。新人教育や資格取得のための社内勉強会等の講師経験がある。また、Oracle Certified Java Programmer Bronze SE7、Javaプログラミング能力認定2級などJavaプログラミングに関する資格も持つ。 システムエンジニアとして8年の実務経験があり、PythonやWindowsバッチを用いてスクリプトを自作するなど、タスクの簡略化や作業効率化に日々取り組んでいる。自身でもIT関連のブログを5年以上運営しており、ITに馴染みのない方でも活用できるノウハウやTipsをわかりやすく発信している。
タグ
Gemini
関連アプリ
お役立ち資料
Yoomがわかる!資料3点セット
Yoomがわかる!資料3点セット
資料ダウンロード
3分でわかる!Yoomサービス紹介資料
3分でわかる!Yoomサービス紹介資料
資料ダウンロード
Before Afterでわかる!Yoom導入事例集
Before Afterでわかる!Yoom導入事例集
資料ダウンロード
お役立ち資料一覧を見る
詳しくみる