NEW 新たにAIワーカー機能が登場。あなただけのAI社員をつくろう! 詳しくはこちら
AIワーカー機能であなただけのAI社員をつくろう! 詳しくはこちら
Qwenの動画生成を評価|物理法則の無視やズレまで実務検証
Qwenの動画生成を評価|物理法則の無視やズレまで実務検証
Yoomを詳しくみる
この記事のテンプレートを試す
Qwenの動画生成を評価|物理法則の無視やズレまで実務検証
AI最新トレンド

2026-02-16

Qwenの動画生成を評価|物理法則の無視やズレまで実務検証

Suguru Nakazawa
Suguru Nakazawa

「プロのような動画を作りたいけれど、専門的なスキルも高価な機材もない…」

そんな悩みを抱えているクリエイターやビジネスパーソンは少なくありません。
しかし、AI技術の進化により、テキストで指示を出すだけで高品質な動画を生成できる環境が整いつつあります。特に注目を集めているのが、Alibaba Cloudが提供するAI技術です。
Qwen Chat(クウェンチャット)で利用できる同社の動画生成モデル「Wan(ワン)」は、テキストから映像を制作できます。
本記事では、Qwen Chatを使った動画生成の方法と、実際に作成した動画のクオリティを検証します。
さらに、ビジネスで利用する際に避けて通れない商用利用のルールや著作権についても詳しく解説するので、ぜひ参考にしてみてください。

✍️QwenとWanの関係性:Alibaba CloudのAIエコシステム

Qwenで動画を生成する場合、「Qwen」と「Wan」という2つの異なるAIモデルが連携して機能しています。
ここでは、Alibaba Cloudが展開するAIエコシステムの全体像と、それぞれの役割について解説します。

Qwen:大規模言語モデルの役割

Qwenは、Alibaba Cloudが開発した大規模言語モデル(LLM)です。テキストの理解、生成、翻訳、要約などを得意としており、ChatGPTやClaudeのような対話型AIの中核を担っています。

動画生成におけるQwenの役割は、ユーザーが入力したプロンプト(指示文)を深く理解し、動画生成AIが処理しやすい形に変換することです。
例えば、「寂しい感じの雨の映像」という抽象的な指示を、「薄暗い照明、窓ガラスを伝う雨粒、寒色系のカラーグレーディング、悲哀に満ちた雰囲気」といった具体的な映像表現の指示へと解釈・補完します。
このQwenの高い言語能力があるからこそ、自然な言葉で動画を生成することができます。

Wan:動画生成モデルの役割

Wanは、Alibaba Cloudが開発した画像・動画生成AIモデルです。
物理世界の法則を学習しており、光の反射、流体の動き、物体の重なりなどをリアルに再現することが得意です。

Qwenが「監督」として指示を出すならば、Wanは「撮影クルー」や「CGアーティスト」として実際に映像を作り出す役割を果たします。
Wanモデルには「Wan 2.1」などのバージョンがあり、テキストから動画を生成する(Text-to-Video)だけでなく、1枚の画像から動きを生成する(Image-to-Video)機能も備えています。
Wan 2.1には、家庭用GPUでも動作する1.3Bモデルから、映画のようなクオリティを実現する14Bモデルまで複数のラインナップがあり、用途に合わせて選択可能です。

✅動画生成AI「Wan」の特徴と実力

Alibaba Cloudが開発したWanモデルは、他の動画生成AIと比較しても際立った特徴を持っています。
ここでは、その実力を3つのポイントで解説します。

圧倒的な映像品質と物理シミュレーション

Wanモデルの最大の特徴は、生成される映像の「物理的な正しさ」と「美しさ」です。
従来の動画生成AIでは、歩いている人物の足が地面に埋まったり、コップの水が不自然に流れたりする「物理的な破綻」がよく見られました。
しかし、Wanモデルは高度な拡散モデル(Diffusion Transformer)を採用しており、現実世界の物理法則を学習しています。

そのため、水面の波紋、風になびく髪、立ち上る煙といった複雑な流体表現も、違和感なくリアルに描写できる傾向があります。
また、映画のようなライティング(照明)やカメラワークも得意としており、まるでプロが撮影したかのような映像を作り出すことが可能です。

日本語プロンプトへの高度な対応力

多くの海外製AIツールは、英語でのプロンプト入力が必須、あるいは推奨されています。
英語が苦手なユーザーにとって、これは大きなハードルとなります。
しかし、WanモデルはQwenの強力な言語処理能力を介しているため、日本語のプロンプトを高い精度で理解します。

単に単語を翻訳するだけでなく「わびさび」といった日本的なニュアンスや、「活気あふれる」「静まり返った」といった雰囲気の形容詞も映像に反映してくれます。
これにより、ユーザーは翻訳ツールを使う必要がなく、思い描いたイメージを直感的に日本語にするだけで、理想の動画を生成することが可能になっています。ただし、動画の中に日本語の文字を描写する機能については、現時点では公式サポート外(英語・中国語のみ)である点に注意しましょう。

オープンソースとしての拡張性と自由度

Wanモデルは、一部のモデル(Wan 2.1など)がオープンソースとして公開されています。
多くの動画生成AIが、公式サイト経由でしか利用できない「クローズド」な環境であるのに対し、Wanはモデルデータ自体が公開されており、エンジニアやクリエイターが自分のPC(ローカル環境)で動かすことができます。

これにより、商用利用の際のコストを抑えたり、独自の追加学習(LoRAなど)を行って特定のキャラクターや画風に特化させたりといった、自由度の高い使い方が可能です。
また、機密性の高いデータを外部サーバーに送信することなく、セキュアな環境で動画生成を行いたい企業にとっても有力な選択肢となります。

🖊️Wanモデルを利用する3つの主要な方法

Wanモデルを使って動画を生成するには、主に3つの方法があります。
それぞれの特徴を理解し、自分の目的や環境に合った方法を選びましょう。

Wan公式サイトやQwen Chatでの利用

最も手軽に、今すぐ動画生成を試したい方におすすめなのが、Wan公式サイト(wan.video)やQwen Chatを利用する方法です。
この方法の最大の特徴は、ハイスペックなPCや複雑な設定が一切不要である点です。
ブラウザからサイトにアクセスし、アカウントを作成(またはログイン)した後、テキストボックスにプロンプトを入力するだけで、クラウド上で動画が生成されます。
UIも直感的で使いやすいため、初心者でも迷うことなく操作でき、特にWanでは、最新モデルを利用可能です。

ただし、無料枠には制限がある場合があり、混雑時には生成に時間がかかることがあります。
また、wan.videoで生成した動画は、クレジット表記が必要な場合や商用利用不可なプランがあるため、ビジネス目的であればオープンソース版を自社環境で運用するのが最も安全です。

Hugging Face / ComfyUIでのローカル構築

動画生成を本格的に行いたい、あるいはプライバシーを重視したい方におすすめなのが、自分のPC環境にWanモデルを構築する方法です。

Hugging Faceなどのリポジトリからモデルデータをダウンロードし、ComfyUIなどのインターフェースを使ってローカル環境で動作させます。

この方法のメリットは、一度環境を構築してしまえば、生成枚数や時間の制限なく、好きなだけ動画を作ることができる点です。

また、プロンプトの詳細な調整や、他のAIツールとの連携も自由自在です。

データが外部に送信されないため、機密性の高い映像制作にも向いています。

注意点として、高性能なGPU(VRAM 16GB以上推奨など)を搭載したPCが必要となります。
また、環境構築にはある程度の専門知識が求められるため、中級者以上のユーザーに適した方法です。

Alibaba Cloud Model Studio APIの活用

自社のアプリやサービスに動画生成機能を組み込みたい開発者や企業におすすめなのが、APIを利用する方法です。

Alibaba Cloudが提供する「Model Studio」を通じて、API経由でWanモデルを利用します。
この方法のメリットは、自社のWebサイトやスマートフォンアプリから動画生成機能を呼び出し、ユーザーに提供できることです。
Alibaba Cloudの堅牢なインフラを利用するため、大量のアクセスがあっても安定した動作が期待できます。
また、セキュリティ面でも企業の基準に準拠した運用が可能です。

APIの利用量に応じた従量課金制となるのが一般的であるため、コスト管理が必要です。
利用にはプログラミングの知識が必要となりますが、ビジネス展開を考える上では最も拡張性の高い選択肢と言えます。

⭐Yoomは動画生成後の業務フローを自動化できます

👉Yoomとは?ノーコードで業務自動化につながる!

動画生成AIを活用してコンテンツを量産するようになると、生成された動画ファイルの管理や、チームメンバーへの共有といった「事務作業」が新たな課題となります。
ファイルサイズが大きいためメールでの送付は難しく、都度クラウドストレージにアップロードしてリンクを発行し、チャットツールで連絡するといった手順は、数が増えるほど大きな負担となります。

Yoomを使えば、動画保存後の通知といった定型業務をノーコードで自動化し、クリエイティブな作業に集中する時間を確保できます。
例えば、動画ファイルを特定のフォルダに保存するだけで、自動的にその共有リンクをSlackやChatworkへ通知するといったフローが実現可能です。
これにより、チーム全体の制作効率向上につながります。

以下のテンプレートを使用すれば、すぐに自動化を開始できます。


■概要

Google Driveに新しいファイルを追加した際、都度Slackで関係者に情報を共有するのは手間がかかるのではないでしょうか。また、手作業での共有は漏れが発生しやすく、業務の遅延に繋がることも少なくありません。
このワークフローを活用することで、Google DriveとSlackを連携させ、ファイルが追加されたら自動でSlackに通知できます。これにより、Google DriveとSlack間でのファイル情報の共有に関する手作業をなくし、スムーズな情報伝達を実現します。

■このテンプレートをおすすめする方

  • Google Driveにアップロードしたファイルの情報を、都度Slackで共有している方
  • SlackとGoogle Driveを活用し、チーム内の情報共有を効率化したい方
  • 手作業によるファイル共有の漏れや遅れをなくしたいと考えている方

■このテンプレートを使うメリット

  • Google Driveへのファイル追加を検知して自動で通知されるため、これまでSlackでの共有に費やしていた時間を短縮することができます。
  • Google DriveとSlackの連携を自動化することで、共有漏れや伝達の遅延といったヒューマンエラーの発生を抑制します。

■フローボットの流れ

  1. はじめに、Google DriveとSlackをYoomと連携します。
  2. 次に、トリガーでGoogle Driveを選択し、「特定のフォルダ内に新しくファイル・フォルダが作成されたら」というアクションを設定します。
  3. 最後に、オペレーションでSlackを選択し、「チャンネルにメッセージを送る」アクションを設定して、ファイルが追加された旨を通知します。

※「トリガー」:フロー起動のきっかけとなるアクション、「オペレーション」:トリガー起動後、フロー内で処理を行うアクション

■このワークフローのカスタムポイント

  • Google Driveのトリガー設定では、通知のきっかけとしたいフォルダを任意のフォルダIDで設定してください。
  • Slackでメッセージを送るアクションでは、通知先のチャンネルを任意で設定できます。また、メッセージ本文は固定の文章だけでなく、前のステップで取得したファイル名などの情報を変数として埋め込むといったカスタムが可能です。

■注意事項

  • Google Drive、SlackのそれぞれとYoomを連携してください。
  • トリガーは5分、10分、15分、30分、60分の間隔で起動間隔を選択できます。
  • プランによって最短の起動間隔が異なりますので、ご注意ください。

■概要

Boxの指定のフォルダにファイルがアップロードされたら、Chatworkでメッセージを送るフローです。

■このテンプレートをおすすめする方

1.取引先企業の帳票類を管理する必要のある方

・営業アシスタントや経理担当

・オフィスマネージャーや経理担当

・デジタルツールを活用してデータの管理を行なっている事務担当者

2.Chatworkを主なコミュニケーションツールとして使用している方

・外勤のフィールドセールス担当者

・社内のコミュニケーションとして使用している各部門長の方

・取引先企業とのやりとりを担当している営業アシスタント

3.手入力の作業を減らし、自動化したいと考えている方

・業務効率化を目指している中小企業の経営者

・入力作業の多い総務、事務の担当者

■このテンプレートを使うメリット

・Boxへのファイルアップロードを自動で知らせてくれるため、確実なファイル管理を行うことができ担当者間での情報共有がスムーズになります。

・一連の流れが自動で完結するため、業務の効率化につながります。

■注意事項

・Chatwork、BoxのそれぞれとYoomを連携させてください。

🤔【検証1】Qwen Chatでリアルな映像の動画生成

ここからは、実際にQwen Chatを使って動画を生成し、その実力を検証していきます。
最初の検証テーマは、AIにとって難易度が高い「自然風景」と「動物の動き」です。
これらは物理的な法則に従った動きが求められるため、モデルの性能差が顕著に現れる分野です。

【検証プロンプト】

夕暮れのサバンナで水を飲む巨大なアフリカ象、水面に映る象の影と波紋、映画のような高画質、詳細なテクスチャ、黄金色の光、スローモーション、超写実的

検証結果

上記のプロンプトで5秒の長さの動画が生成されました。