Alibaba Cloudが開発し、世界中で注目を集める大規模言語モデル「Qwen(クウェン)」。 特にQwenシリーズの上位モデルは、数学的推論やコーディング能力、画像認識を含むマルチモーダル性能において高い評価を受けています。 しかし、いかに高性能なエンジンを積んでいても、その操作方法を知らなければ真価は発揮できません。 AIに意図通りの回答を出してもらうために指示の出し方を工夫する技術の「プロンプトエンジニアリング」を施すことで、単なるチャットボットから専門家レベルのアシスタントへと進化します。 本記事では、公式ガイドに基づく正しいプロンプトの設計法から、実際にQwen Chatを利用してチャットと画像生成で検証した結果まで、実践的なテクニックを余すところなく解説します。
✍️Qwenプロンプトの基礎知識
Qwenを使いこなすための第一歩は、モデルが最も理解しやすい「言葉の形式」を知ることです。 人間同士の会話と同じで、曖昧な指示よりも構造化された明確な指示の方が、AIに意図が伝わりやすくなります。 まずは、Qwen特有のフォーマットと、公式ガイドでも推奨されている3つの基本原則について解説します。
ChatMLフォーマットの理解 Qwenシリーズは、対話の構造を明確にするために「ChatML(Chat Markup Language)」と呼ばれるフォーマットを採用しています。 これは、誰が発言しているかを明確に区別するためのタグ付けルールです。
APIを利用する場合や、ローカル環境で生のテキストを扱う場合、プロンプトは以下のような特殊トークンで囲まれます。
<|im_start|>system:システムプロンプト(AIの役割や性格を設定する部分) <|im_start|>user:ユーザーからの入力 <|im_start|>assistant:AIからの応答 <|im_end|>:メッセージの終了を示す <|vision_start|><|vision_end|>または<img>:画像を挿入(APIのライブラリや環境によって、画像を埋め込むための専用タグが使われます) 例えば、APIにリクエストを送る際は、この構造を意識してメッセージリストを作成します。 このフォーマットを守ることで、Qwenは「今はシステムの設定を読んでいるんだな」「ここからがユーザーの質問だな」と文脈を正確に理解できるようになります。 特に、長い会話履歴を持つタスクや、複雑な役割を与えたい場合には、この基本構造の理解が不可欠です。
Qwenの性能を引き出すプロンプトエンジニアリング3原則 Alibaba Cloud Model Studioの公式ドキュメントでは、プロンプトの効果を最大化するために以下の3つの原則を掲げています。 これらはQwenに限らず多くのLLMに共通する重要な指針ですが、特にQwenにおいては出力精度に直結します。
明確さと具体性(Clarity and Specificity) プロンプトは具体的であればあるほど良い結果を生みます。 例えば「コードを書いて」という指示では不十分です。「Pythonを使って、CSVファイルを読み込み、特定のカラムを抽出してグラフ化するコードを書いてください。エラー処理も含めてください」のように、背景、目的、使用するツール、制約条件を詳細に記述しましょう。 Qwenは文脈を読み取る能力が高いですが、指示に含まれていない意図まで汲み取ることはできません。曖昧さを排除し、期待する出力の解像度を高めることが、成功への近道です。役割設定(Role Prompting) AIに特定のペルソナ(人格・役割)を与えるテクニックです。「あなたは親切なアシスタントです」という指示だけでなく、具体性のテクニックを組み合わせ、「あなたは20年の経験を持つシニアPythonエンジニアです。可読性が高く、セキュリティに配慮したコードを書くことを信条としています」と伝えることで、 回答の質が向上しやすくなります。 役割を設定することで、Qwenはその専門分野に関連する知識を優先的に引き出し、トーンや用語の選択もその役割に適したものに調整します。これは、専門的なタスクを依頼する際に特に有効です。 構造化(Structuring) 情報は整理して渡しましょう。 長文の指示をダラダラと書くのではなく、見出し、箇条書き、番号付きリスト、区切り文字(「#」や 「-」など)を活用して プロンプトを視覚的に整理します。例えば、以下のようなイメージです。 「以下の手順に従ってください: 1.データを分析する 2.要約を作成する 3.翻訳する」 また、入力データと指示内容を明確に分けるために、入力データを「"""(トリプルクォート)」で囲むなどの工夫も効果的です。構造化されたプロンプトは、AIにとっても人間にとっても読みやすく、誤解を防ぐ効果があります。
🖊️【チャット編】論理的思考を引き出すテクニック
テキストチャットにおいて、Qwenの論理的思考能力や推論能力を最大限に引き出すためのテクニックを紹介します。 単に質問に答えてもらうだけでなく、複雑な問題を解かせたり、外部ツールを使わせたりする場合に役立つ実践的な手法です。
システムプロンプトのベストプラクティス システムプロンプトは、AIの振る舞いを決定づける最も重要な部分です。 ここでは、役割の定義だけでなく、出力形式の指定や禁止事項(制約)を含めることが推奨されます。
特に重要なのが「言語指定」です。 Qwenは多言語対応ですが、学習データの割合から英語や中国語が優位になることがあります。 日本語で高品質な回答を得たい場合は、システムプロンプト内で「あなたは日本語のアシスタントです。すべての回答を自然な日本語で行ってください」と明示的に制約をかけることで、出力の安定性が向上します。
【推奨される構成】
役割の定義: 「あなたは〇〇の専門家です」タスクの概要: 「ユーザーの質問に対して、論理的かつ簡潔に回答します」制約事項: 「専門用語には解説をつけること」「回答は日本語で行うこと」出力形式: 「Markdown形式で見出しをつけて出力してください」
CoT(Chain of Thought)の活用 複雑な推論を必要とするタスク(数学の問題、論理パズル、プログラミングのデバッグなど)では、「CoT(思考の連鎖)」と呼ばれるテクニックが効果を発揮します。
これは、いきなり答えを出させるのではなく、「ステップバイステップで考えてください(Let's think step by step)」というマジックワードをプロンプトに追加し、思考プロセスを順を追って出力させる手法です。 Qwenに対しては、「まず問題を分析し、次に解決策を検討し、最後に結論を述べてください」といった具体的な手順を示すことも有効です。 途中経過を出力させることで、論理の飛躍を防ぎ、正答率を高めることができます。
Function Calling(ツール利用)の書き方 Qwenは、外部のツール(APIや関数)を呼び出してタスクを実行する「Function Calling」に対応しています。 これを生のテキストプロンプトで実現する場合、利用可能なツールをJSONスキーマとして定義し、システムプロンプトに埋め込む必要があります。
具体的には、<tools> というタグの中にツールの定義(名前、説明、パラメータ)を記述し、「ツールを使用する必要がある場合は、<tool_call> タグ内にJSONを出力してください」と指示します。 これにより、Qwenはユーザーの質問に応じて「この質問には天気予報APIを使う必要がある」と判断し、適切なJSONデータを生成して返してくれます。 これをアプリケーション側で受け取り、実際のAPIを実行する仕組みです。
⭐YoomはAI運用の手間を自動化できます 👉Yoomとは?ノーコードで業務自動化につながる!
高度なプロンプトエンジニアリングを習得しても、毎回手動でチャット画面に入力していては業務効率は上がりません。Yoomを使えば、作成したプロンプトをワークフローに組み込み、日々の業務を自動化できます。 例えば、QwenなどのAIで生成した記事をNotionに自動保存したり、AIで作成した画像を自動で管理ツールにアップロードしたりすることが可能です。
Googleフォームに送信された文章をAIで校正して、結果をNotionに格納する
試してみる
■概要
Googleフォームで集めたアンケート回答や日報などの文章を、手作業でコピーして整形し、別のツールに転記する作業に手間を感じていませんか。この一連の作業は時間がかかるだけでなく、転記ミスや修正漏れといったヒューマンエラーの原因にもなり得ます。このワークフローを活用すれば、Googleフォームへの回答送信をきっかけに、AIが自動で文章を校正し、その結果をNotionへ格納するため、こうした課題を円滑に解消します。
■このテンプレートをおすすめする方
Googleフォームで収集した文章の校正や転記作業に時間を費やしている方 AIを活用して文章の品質を向上させ、Notionでの情報管理を効率化したい方 手作業による転記ミスをなくし、常に正確なデータを蓄積したいと考えている方 ■このテンプレートを使うメリット
フォームへの回答送信からAIによる校正、Notionへの格納までが自動化されるため、これまで手作業に費やしていた時間を削減できます。 手作業での転記ミスや校正漏れを防ぎ、常に一定の品質で整形されたデータをNotionに蓄積することが可能です。 ■フローボットの流れ
はじめに、GoogleフォームとNotionをYoomと連携します。 次に、トリガーでGoogleフォームを選択し、「フォームに回答が送信されたら」というアクションを設定します。 続いて、オペレーションでAI機能を選択し、「テキストを生成する」アクションで、フォームから受け取った文章を校正するよう指示します。 最後に、オペレーションでNotionの「レコードを追加する」アクションを設定し、AIが校正したテキストを指定のデータベースに格納します。 ※「トリガー」:フロー起動のきっかけとなるアクション、「オペレーション」:トリガー起動後、フロー内で処理を行うアクション
■このワークフローのカスタムポイント
Googleフォームの質問項目は自由に設定できるため、目的に応じて校正したいテキスト情報を取得することが可能です。 AI機能のオペレーションでは、「誤字脱字を修正してください」や「要点を3つにまとめてください」など、目的に合わせてAIへの指示内容を自由にカスタマイズできます。 ■注意事項
Googleフォーム、NotionのそれぞれとYoomを連携してください。 Googleフォームをトリガーとして使用した際の回答内容を取得する方法は下記を参照ください。https://intercom.help/yoom/ja/articles/6807133 トリガーは5分、10分、15分、30分、60分の間隔で起動間隔を選択できます。 プランによって最短の起動間隔が異なりますので、ご注意ください。
フォームの回答をもとにOpenAIで画像生成してGoogle Driveに保存する
試してみる
■概要
資料作成やコンテンツ制作で、AIによる画像生成の機会が増えていませんか。しかし、都度プロンプトを入力したり、生成された画像をダウンロードして管理したりする作業は、数が多くなると手間がかかるものです。このワークフローを活用すれば、フォームにプロンプトを入力するだけで、画像の自動生成からGoogle Driveへの保存までを一気通貫で実行し、クリエイティブな業務に集中できる環境を整えます。
■このテンプレートをおすすめする方
SNS投稿や資料作成でAI画像生成ツールを頻繁に利用するマーケティング担当者の方 企画のアイデア出しや素材作成のために、効率的なAI画像生成フローを構築したい方 プロンプトの管理や生成画像の整理を手作業で行っており、自動化したいと考えている方 ■このテンプレートを使うメリット
フォームへの入力だけで画像生成からGoogle Driveへの保存までが完了するため、これまで手作業で行っていた時間を削減できます。 ファイルの保存忘れや命名規則の間違いといったヒューマンエラーを防ぎ、スムーズなファイル管理を実現します。 ■フローボットの流れ
はじめに、OpenAIとGoogle DriveをYoomと連携します。 トリガーで「フォームトリガー」を選択し、画像生成のプロンプトなどを入力するフォームを設定します。 次に、オペレーションでOpenAIの「テキストから画像を生成する」を選択し、フォームで受け取った内容をもとに画像を生成します。 続いて、オペレーションの「ブラウザを操作」を活用し、生成された画像をダウンロードする操作を設定します。 最後に、オペレーションでGoogle Driveの「ファイルをアップロードする」を選択し、ダウンロードしたファイルを指定のフォルダに保存します。 ※「トリガー」:フロー起動のきっかけとなるアクション、「オペレーション」:トリガー起動後、フロー内で処理を行うアクション■このワークフローのカスタムポイント
フォームトリガーのタイトルや質問項目は、用途に合わせて任意で編集可能です。プロンプトを入力するための質問などを自由に設定してください。 OpenAIで画像を生成するアクションでは、利用したいモデルや画像のサイズ、品質などを任意で設定できます。 Google Driveにファイルをアップロードするアクションでは、保存先のフォルダを任意で指定してください。ファイル名は、前段で取得した値を使用して設定することが可能です。 ■注意事項
OpenAI、Google DriveのそれぞれとYoomを連携してください。 OpenAIのアクションを実行するには、OpenAIのAPI有料プラン の契約が必要です。(APIが使用されたときに支払いができる状態) OpenAIのAPIはAPI疎通時のトークンにより従量課金される仕組みとなっています。そのため、API使用時にお支払いが行える状況でない場合エラーが発生しますのでご注意ください。 ブラウザを操作するオペレーションはサクセスプランでのみご利用いただける機能となっております。フリープラン・ミニプラン・チームプランの場合は設定しているフローボットのオペレーションはエラーとなりますので、ご注意ください。 サクセスプランなどの有料プランは、2週間の無料トライアルを行うことが可能です。無料トライアル中には制限対象のアプリやブラウザを操作するオペレーションを使用することができます。 ブラウザを操作するオペレーションの設定方法は「『ブラウザを操作する』の設定方法 」をご参照ください。 ダウンロード可能なファイル容量は最大300MBまでです。アプリの仕様によっては300MB未満になる可能性があるので、ご注意ください トリガー、各オペレーションでの取り扱い可能なファイル容量の詳細は「ファイルの容量制限について 」をご参照ください。
✅【画像生成・認識編】Qwenのプロンプトエンジニアリング実践
Qwenシリーズには、画像を生成できるQwen-Imageモデルと、画像を理解する能力を持つQwen-VLモデルも存在します。 マルチモーダルなタスクにおいて、プロンプトをどのように工夫すれば意図通りの画像生成や認識ができるのか、そのコツを解説します。
画像生成のプロンプト構造 Qwen Chatの画像生成機能(Qwen-Image)では、プロンプトの「語順」と「構造」が品質を左右します。 漫然と単語を並べるのではなく、以下の順序で情報を記述することが推奨されています。
【推奨フォーマット】
「被写体」→「環境・背景」→「スタイル・画風」→「品質タグ」
例えば、「猫」を描かせたい場合、「猫」とだけ書くのではなく、「ソファで眠る三毛猫(被写体)、日差しが差し込むリビングルーム(環境)、水彩画風、柔らかいタッチ(スタイル)、高解像度、詳細なテクスチャ(品質)」 のように段階的に記述します。 また、上記のように単語を羅列する方法もありますが、Qwenの場合は自然言語(文章形式)での記述が適している場合が多いです。 「〜のようなスタイルで描いてください」と文章で指示することで、文脈を汲み取った豊かな画像が生成されやすくなります。
画像認識(Qwen-VL)でのコツ Qwen-VLモデルに対して画像の内容を質問したり、OCR(文字認識)を行わせたりする場合、画像をプロンプトの一部として埋め込む必要があります。 ブラウザ版のQwen Chatで利用する際は、入力欄のメニューから画像を添付します。 API利用時は、テキストベースのプロンプトの中に<|image|>という特殊トークンを配置し、その前後に質問を記述します。
例えば、「この画像に写っている看板の文字を読み取ってください」という指示の場合、「User: <|image|> この画像内の看板に書かれているテキストをすべて抽出して出力してください。」のように記述します。 また、画像内の特定の位置を指定したい場合は、座標(バウンディングボックス)を用いた指示も可能です。 画像認識においても、チャットと同様に「具体的に何を読み取るべきか」「出力形式はどうするか(JSONや表形式など)」を明確に指示することが、高精度な認識結果を得る鍵となります。
🤔【検証】Qwenでプロンプトエンジニアリングのあり・なし結果を比較
ここでは実際に、プロンプトエンジニアリングのテクニックを使う場合と使わない場合で、Qwenの出力がどのように変化するかを検証します。 「チャットによる論理推論」と「画像生成」の2つのパターンで比較を行います。
検証①:チャット(論理推論タスク) ある架空のSaaS製品の導入メリットを、特定のターゲット層に向けて解説させるタスクで検証します。
【検証プロンプト:プロンプトエンジニアリングなし】
クラウド会計ソフトのメリットを教えて。
【検証プロンプト:プロンプトエンジニアリングあり】
あなたはIT導入コンサルタントです。 従業員数50名規模の製造業の経営者に向けて、クラウド会計ソフトを導入するメリットを3つ解説してください。 以下の制約事項を守ってください:専門用語には簡単な解説を加えること 導入前と導入後の変化を比較する表を作成すること 経営者が気にする「コスト削減」と「業務効率化」の観点を盛り込むこと 出力はMarkdown形式で行ってください。
検証結果 それぞれのプロンプトで生成された結果は、以下の通りです。
【プロンプトエンジニアリングなし】