・
インタビューや会議が終わった後の「議事録作成」や「文字起こし」、正直なところ気が重くなりませんか? 録音を聞き返してはタイピングし、聞き取れなかった箇所を何度も再生する……。そんな単純作業に、多くの時間を奪われている企業も少なくありません。
「もっと楽に終わらせたい」そんな願いを叶えてくれるのが、AI動画編集ソフト「Vrew」です。 Vrewと言えば「字幕作成」が有名ですが、実は高精度な文字起こしツールとして非常に優秀なのをご存知でしょうか。さらに、そのテキストを活用してそのまま「解説動画」まで自動生成できてしまうのです。
本記事では、Vrewと生成AI「Gemini」を組み合わせ、インタビュー音声を「議事録」と「ショート動画」へ変換する手順を検証しました。「5〜6分の音声が1分足らずで文字になる」そのスピードと、実用的かの検証結果を交えてレポートします。
・ウェビナーや動画コンテンツの活用を担当しており、文字起こし後の議事録作成や要約作業に追われている方
・Vrewの導入を検討しているが、具体的な文字起こし精度や、工数削減効果を事前に知りたい方
・Vrewのテキストを基に動画生成を行う機能が気になっている方
料金プランと制限:
基本機能は無料で利用できますが、無料プランでは音声分析(文字起こし)に月間120分までの制限があります。ビジネス利用や長時間の動画を頻繁に扱う場合は、有料プラン(ライト、スタンダード、ビジネス)へのアップグレードが推奨されます。
・AI音声を用いた解説動画作成
それぞれ下記のポイントを基に検証を行っていきます。
Vrewを立ち上げ「新規で作成」から「ビデオ・オーディオを読み込む」を選択し、音声ファイルをインポートを行います。
「動画を読み込む」画面では「確認」ボタンをクリックしましょう。
その後、文章の抽出が始まります。
抽出完了後、下記のような編集画面が表示されるため、必要に応じて誤字や段落を修正しましょう。
「検索して置換」機能を活用して効率的に修正することも可能です。
下記のように文字起こし済みのtxtファイルをダウンロードできるため、これを基にすれば議事録作成がスムーズに進みます。
目視で確認しながら手修正で整えるのはもちろん、機密情報を含まない内容であれば、生成AIに要約を任せてさらに効率化を図るのも一つの手です。
【プロンプト例】
あなたは企業の議事録作成の担当者です。下記はYoomを使用しデータベースを作成する方法の音声を文字に起こした文章です。これを基に議事録の形で整えて出力してください。
・ここの出力結果のテキストを貼る
【Geminiでの出力結果】
読み込みの処理速度は、かなり高速だと感じました。 5分や6分の音声データであっても、1分とかからずに読み込みと文字起こしが完了しています。これは、ゼロから手作業で文字起こしを行う場合と比較すると、作業工数を大幅に削減するスピードであり、非常に実用的であるといえます。
・文字起こしの精度について
基本的な内容に関する文字起こしの精度はかなり高い水準です。今回の検証音声に含まれていた「Googleスプレッドシート」「データベース」「CSV」といった専門用語も、概ね正確に認識されていました。ただし、固有名詞や特定の専門用語には誤字が見られました(例: YOOMがYOUMやゆーむと変換される)。目立った誤字は少数であり、人の目による最終確認は必要であるものの、実用には十分耐えうるレベルです。
・実務への活用度について
出力結果は、即戦力として実務で使用できる完成度だと判断できます。以前、1〜2時間の打合せ内容の議事録を作成していた経験と比較しても、このツールを導入することで業務効率は飛躍的に向上すると確信できます。文字起こし結果をベースに、人が最終チェックを行うフローを組むだけで、日々の定型業務から解放される大きなメリットがあります。
文字起こしした議事録をもとにGeminiに下記のプロンプトを送信しました。
【プロンプト例】
以下のインタビューの記録を要約してほしい。
この後、Youtubeショート動画に編集していくため、文章の区切り箇所にも違和感がないように書き出すこと。
そのまま貼り付けて読み上げソフトに読ませるため、見出しや箇条書きも不要。
◆以下、文章
・ここに1つ前のステップで取得した文字起こしの内容を貼り付ける
回答が出力されたら、その内容をコピーしておきます。
Vrewの「テキストから動画を作成」を選択し動画作成を開始していきます。
・画面比率やAI音声、BGM等を設定したら完了ボタンをクリックすることで動画の作成が始まります。
動画作成が完了し下記画面が表示されるため、字幕やAI音声などの編集を行いましょう。
編集が完了したら、動画ファイルとしてエクスポートを行うことができます。
動画の作成速度は、従来の制作工程と比較して非常に高速です。原稿の量にもよりますが、約2000文字の原稿を基にした4〜5分の動画であれば、わずか2分程度で作成が完了しました。一般的に行われる、音声読み上げツールで音声を生成し、それを別の編集ソフトで動画素材と合わせるという別々の工程を踏むよりも、効率的に動画作成が行えます。
・音声読み上げの精度について
AI音声の読み上げは実用的なレベルに達しているものの、人の目による確認は必須です。特に漢字の読み分けや固有名詞、英語の読み上げには課題が見られました。
具体的な例として、「YOOM」を「ワイオーオーエム」と誤読したり、「他の(ほかの)テーブル」を「たのテーブル」、「空の(からの)データベース」を「そらのデータベース」と誤読するケースが散見されました。イントネーションや漢字の読み間違いは修正が必要ですが、動画を再生しながら編集画面で簡単に直せるため、そこまで大きな手間にはならないでしょう。
・映像の完成度について
映像のクオリティについては、過度な期待はしない方が良いでしょう。自動生成される映像は、あくまで「紙芝居」程度の完成度でした。文章の区切りごとに、その内容に近い素材が自動で当て込まれる仕組みです(例:「請求」という単語に対して請求書のイラストが表示される、「データベース」に対してスプレッドシート風の画像が表示されるなど)。そのため、情報伝達に特化した簡易的な動画、または「おまけ機能」として割り切って活用すべきです。
文字起こしは、手作業に比べて効率がかなり向上します。(例:5〜6分の音声データを1分もかけずにテキスト化)
動画生成も高速で、音声読み上げと編集ソフトを別々に使う従来の工程に比べ、大幅に早く動画が出力されます。(例:2000文字の原稿から4〜5分の動画を2分前後で生成)
・素材の多目的再利用:
文字起こし結果はそのまま議事録のベースになるだけでなく、そのテキストをGeminiなどのAIで要約・整形し、そのままVrewの「テキストから動画を作成」機能で解説動画の原稿として再利用できます。
文字起こしは高精度ですが、固有名詞(例: YOUM → YOOM)や特定の専門用語は人の目による確認と手修正が必須です。
・AI音声も実用的ですが、漢字の読み間違い(例:「他の」を「たの」)や不自然なイントネーションが散見されるため、音声の確認と修正も必要です。
・映像クオリティの限界:
自動生成される映像は、文章の内容に沿ったイラストや画像が自動で割り当てられる「紙芝居」レベルであり、高いビジュアルクオリティは期待できません。情報伝達用の簡易的な資料として割り切る必要があります。
・クレジット消費のリスク:
無償プランで検証する際、AI音声キャラクターなどで「FREE」マークがない有料素材を選んでしまうと、意図せずクレジットを消費してしまうリスクがあります。利用時には細心の注意が必要です。
ただし、その高い利便性を最大限に活かすためには、「ツール任せにしないこと」が重要です。精度やクオリティに課題が残る部分(固有名詞の誤字やAI音声の誤読など)については、ツールで大部分の工数を削減し、最終的な確認と修正を人力で行う「AIと人力の共存」を意識しながら作業を行う必要があります。
いくつかのデメリットも確認されましたが、それを補って余りあるほどの時間短縮と利便性を提供してくれるツールです。この新しい効率化の可能性をぜひ体験いただくためにも、まずは無償プランなどで試してみてはいかがでしょうか?
また、Yoomでは今回登場したGeminiとの連携を行うシステムを、ノーコードで作成することができます。
Yoomを使用し、API連携やAI処理などのシステムを組み合わせ、日々の繰り返し作業も自動化できます。まずは無料のプランから始めてみませんか。