・
「会議中にメモを取るのに必死で、肝心な議論に集中できない……」
「会議後に録音を聞き返しながら議事録をまとめていたら、それだけで1日が終わってしまった」
こんな経験、思い当たりませんか?
DX推進や業務効率化の流れを背景に、ChatGPTをはじめとした生成AIを業務に取り入れるケースが広がっています。ただ実際には、文字起こし結果をコピーして貼り付けたり、毎回同じ指示文(プロンプト)を入力したりと、「AIを使っているのに、結局は手作業が多い」と感じる場面もありますよね。
そんな中、非エンジニアのビジネスパーソンから注目されているのが、ノーコードでAIアプリを作れるプラットフォーム「Dify(ディフィ)」です。
本記事では、Difyを活用して議事録作成をできるだけ自動化する方法を初めての方でもイメージしやすいよう、ステップごとにご紹介します。
読み終える頃には、Difyの活用イメージが、きっとつかめているはずです。
ここでは、本記事がどんな方の役に立つのか、またDifyを使ううえで知っておきたいポイントを簡単に整理します。
本記事は、以下のような悩みを持つ方におすすめです!
Difyは、LLMアプリケーションの構築からデプロイ、管理までを非エンジニアでも手軽に行えるように設計された、オープンソースのプラットフォームです。ChatGPTのような単一の対話ツールとは異なり、チームや組織での実務利用を前提としています。
最大の特徴は、視覚的なドラッグ&ドロップ操作だけで、複雑なAIワークフローを作成できる点です。「音声認識(Whisper)」「LLMによる要約」「外部ツール連携」といった機能ブロック(ノード)をつなぎ合わせるだけで、自社独自のAIアプリケーションを開発できます。
Difyを活用して議事録作成業務をどこまで効率化できるのか、実務で想定される2つのシナリオで検証しました。
【想定されるユースケース】
定例会議の録音データをアップロードし、要約・決定事項・ネクストアクションを自動で出力させる。
【検証パターン】
ワークフロー vs チャットフロー
【検証項目】
【想定されるユースケース】
専門用語や独自のプロジェクト名が飛び交う会議を、社内資料(ナレッジ)を参照して正しく補足・要約する。
【検証パターン】
経済的インデックス vs 高品質インデックス(ハイブリッド検索)
【検証項目】
各シナリオの検証方法をまとめます。
# 役割
あなたは熟練の会議ファシリテーター兼、議事録作成のエキスパートです。
提供された音声の書き起こしテキスト(および付随情報)を元に、正確で読みやすい議事録を作成します。
# 入力データ
- 開催日: {{date}}
- 書き起こしテキスト: {{transcription}}
# 出力フォーマット
以下のフォーマットを厳守して出力してください。
## 議事録: {{MTG_TITLE}}
- 開催日: {{date}}
- 概要: (会議の全体像を3文程度で簡潔に記述)
## 決定事項
- (決定されたことを箇条書きで。不明な場合は「特になし」)
## ネクストアクション
- [ ] (誰が / いつまでに / 何をするか)
## 詳細要約
### 議題1:[トピック名]
- (内容の詳細)
### 議題2:[トピック名]
- (内容の詳細)
# 制約
- 専門用語や固有名詞は、文脈から判断して正確に記述すること。
- 「です・ます」調で統一すること。
- 事実に基づかない推測(ハルシネーション)は避けること。
まず、「スタジオ」→「最初から作成」をクリックし、アプリ作成画面を開きます。
「ワークフロー」を選び、名前を付けて「作成」をクリックします。
ワークフローを作る手順は、以下です。
1.ユーザー入力ノードで音声ファイルの受け取り設定
ユーザー入力ノードを選択し、入力フィールドを設定します。
今回は以下の設定としました。
2.音声ファイルの文字起こし(SPEECH TO TEXTツール)
ユーザー入力ノードの「+」をクリックし、ツールタブから「SPEECH TO TEXT」を選びます。
詳細設定は以下のとおりです。
3.LLMによる要約
LLMノードを追加し、今回は以下の設定を行います。
4.出力ノードで回答作成
LLMノードの後に、出力ノードを追加して出力変数にLLMの「text」を設定します。
以上で設定完了です。
チャットフローもスタジオから作成します。
チャットフローの場合、最初から以下3つのノードが設定されています。
ただ、「SPEECH TO TEXT」ツールは自分で追加する必要があります。
すべてのノードに対し、ワークフローと同様の設定をすればチャットフローの完成です。
実際の会議音声ファイルをアップロードしてアプリを実行し、出力を比較します。
結果は以下となりました。
【ワークフロー】
【チャットフロー】
# 指示
提供された「会議記録」を要約し、構造化された議事録を作成してください。
また、ナレッジベース(用語集)を参照し、会議中に登場した専門用語について、末尾に【用語解説】のセクションを設けて注釈を付けてください。
# 議事録の構成
1. 会議の目的
2. 主要な議題と結論
3. 次回のアクション(TODO)
4. 【用語解説】
# 用語解説のルール
- ナレッジベース内に記載がある用語のみを解説してください。
- 検索した用語と会議中の言葉に「表記のゆれ」がある場合、文脈から判断して同一の言葉であれば解説に含めてください。
- ナレッジベースに該当する定義が見つからない用語については、勝手に予想して解説を作らず、【用語解説】には記載しないでください。
# 入力データ(会議記録)
{{input_text}}
以下のインデックスを設定したナレッジを作成します。
ナレッジには「社内Wiki」のPDFファイルを登録しました。
【経済的インデックス】
【高品質インデックス(ハイブリッド検索)】
作成したワークフローの全体図は以下です。
LLMノードの前に知識検索ノードを追加し、ナレッジデータベース(経済的・高品質)を参照します。
今回の検証環境(高品質インデックス)では、Rerankモデルを有効にする必要があったので、オンにします。
各ワークフローに会議の文字起こしテキストファイルを送ります。
出力された結果を確認します。
【経済的インデックス】
【高品質インデックス(ハイブリッド検索)】
各シナリオの検証結果をまとめます!
①指定したフォーマット通りに出力されるか
判定:ワークフロー ◯ / チャットフロー ◯
結論からいうと、どちらも問題なく、指示したマークダウン形式に従って出力されています!
「概要」「決定事項」「ネクストアクション」などの項目が、指定されたフォーマット通りに出力できていました。
どちらを選んでも、会議レポートとして十分活用できるクオリティです。
②数値が正しく抽出できているか
判定:ワークフロー ◯ / チャットフロー ◯
数値の抽出が正確です!
「月10時間以上」「1月23日」「2月末」「3案」「残業代20%削減」といった、会話の中に散りばめられた重要な数値を漏れなく拾い上げてくれます。特に、「ネクストアクション」の表形式に数値を当てはめる精度が高く、安心して任せられそうです。
③議事録を出力した直後に、追加の修正依頼を対話で頼めるか
判定:ワークフロー × / チャットフロー ◯
ここが大きな違いです!
チャットフローは対話型なので、出力後に「もっと短くして」といった修正依頼をすぐに行うことができます。
一方、ワークフローは「入力に対して一括処理して完了」という一方向の仕組みのため、その場で会話を続けて修正を加えることはできません。
対話をしながら微調整したいなら、チャットフローが最適です!
どちらも指定されたフォーマットの遵守や数値の正確な抽出には問題なく、特に「月10時間削減」や「1月23日」といった細かな数値を正確に拾える点は、実務で役立つ部分です。
ただし、出力後に「もっと短くして」といった追加の修正依頼に応じてくれるのはチャットフローのみになります。ワークフローは一括処理に特化しており、後からの微調整が苦手です。
用途や運用スタイルに合わせて、うまく使い分けてみてください!
失敗したこと
テストで2分程度のファイル(5MB)をアップロードしたところ、ファイルサイズが大きすぎてエラーが発生しました。
ファイルサイズを3MB程度に減らしたところ、問題なく実行できました。
無料プランで「SPEECH TO TEXT」ノードを使用する際は、ファイルを分割するなどの工夫が必要です。
①表記のゆれがあっても、用語集から検索できるか
判定:経済的インデックス ◯ / 高品質インデックス ◯
両インデックスともに良好な結果を示しました。
たとえば、会議の文字起こしに含まれていた全角の「nexus connect」と、社内Wikiに登録されている半角・大文字混じりの「Nexus-Connect」を、同じ用語として正しく認識し、検索できています。
入力デバイスの違いや、タイピングのクセがあっても影響を受けにくく、安定して用語を抽出できることが確認できました。
②類義語や送り仮名が異なる表現で入力しても、ヒットするか
判定:経済的インデックス × / 高品質インデックス ×
意味の近さを考慮した検索ができるかという点については、残念ながらどちらも課題が残る結果となりました。
社内Wikiに登録されている「売上計上プロセス」に対して、会議中では「売上げ計上フロー」という表現が使われていましたが、Difyの検索エンジンではヒットしませんでした。
人の目では同じ意味だと判断できますが、現状のRAGでは言葉の表記や文字の並びがある程度異なると、見つけられないケースがあるようです。運用時には、この点を意識しておく必要があります。
③用語集にない言葉の意味を勝手に推測して答えないか
判定:経済的インデックス ◯ / 高品質インデックス ×
もっとも差が出たのが、この項目です。
「用語集にない言葉は解説しない」というルールに対して、経済的インデックスはきちんと従っていました。
一方で、高品質インデックスは、Wikiに存在しない「ハイパー・同期エンジン」という言葉に対し、文脈から意味を推測し、「高度なデータ同期機能を持つ〜」といった説明を生成してしまいました。検索性能が高い分、内容を補おうとしてしまったことが結果として裏目に出た形です。
今回の検証では、経済的インデックスの方が指示に忠実で、ハルシネーションを起こしにくいという結果になりました。
高品質インデックスは検索精度の高さが魅力ですが、ナレッジに存在しない情報を、それらしく補完してしまうリスクもあります。
現時点で用語注釈のワークフローを構築するのであれば、コストを抑えられる経済的インデックスをベースにしつつ、類義語や表記違いについては、プロンプト設計や辞書の充実で補っていく運用が、現実的な選択といえそうです。
本記事では、ノーコードAIプラットフォーム「Dify」を活用して、議事録作成を自動化する2つのシナリオを検証しました。
検証①では、会議音声からの議事録作成に挑戦。ワークフローとチャットフローのどちらも、重要な数値や決定事項を正確に抽出する高い実力を見せてくれました。特に対話しながら微調整ができるチャットフローは、現場のこだわりに応える頼もしい相棒になりそうです。
検証②では、RAG(ナレッジ機能)を用いた専門用語の注釈付き議事録を試しました。表記のゆれにも柔軟に対応できる一方で、経済的インデックスのほうが知らないことを勝手に答えない誠実な運用ができることも分かりました。
Difyは、これまでAIを使っているのに手作業が多いと感じていた方の悩みを解消し、 より創造的な業務に集中する時間を増やすことが可能なツールです。
まずは簡単なワークフローから、あなたの業務に「AIの相棒」を迎え入れてみませんか?
Yoomは、さまざまなLLMやSaaSツールをノーコードで連携できるサービスです。
たとえば、DifyとMicrosoft ExcelをYoomで連携すると、会議内容を自動で文字起こしして、Difyで要約後Microsoft Excelに保存できます。
他にも、Notionとの連携により、レコード内容をDifyで分析して自動タグ付けすることも可能です。
プログラミング知識がなくても、画面操作だけで手軽に業務の自動化フローを構築できるので、ぜひ試してみてください!