・
「プロのような動画を作りたいけれど、専門的なスキルも高価な機材もない…」
そんな悩みを抱えているクリエイターやビジネスパーソンは少なくありません。
しかし、AI技術の進化により、テキストで指示を出すだけで高品質な動画を生成できる環境が整いつつあります。特に注目を集めているのが、Alibaba Cloudが提供するAI技術です。
Qwen Chat(クウェンチャット)で利用できる同社の動画生成モデル「Wan(ワン)」は、テキストから映像を制作できます。
本記事では、Qwen Chatを使った動画生成の方法と、実際に作成した動画のクオリティを検証します。
さらに、ビジネスで利用する際に避けて通れない商用利用のルールや著作権についても詳しく解説するので、ぜひ参考にしてみてください。
Qwenで動画を生成する場合、「Qwen」と「Wan」という2つの異なるAIモデルが連携して機能しています。
ここでは、Alibaba Cloudが展開するAIエコシステムの全体像と、それぞれの役割について解説します。
Qwenは、Alibaba Cloudが開発した大規模言語モデル(LLM)です。テキストの理解、生成、翻訳、要約などを得意としており、ChatGPTやClaudeのような対話型AIの中核を担っています。
動画生成におけるQwenの役割は、ユーザーが入力したプロンプト(指示文)を深く理解し、動画生成AIが処理しやすい形に変換することです。
例えば、「寂しい感じの雨の映像」という抽象的な指示を、「薄暗い照明、窓ガラスを伝う雨粒、寒色系のカラーグレーディング、悲哀に満ちた雰囲気」といった具体的な映像表現の指示へと解釈・補完します。
このQwenの高い言語能力があるからこそ、自然な言葉で動画を生成することができます。
Wanは、Alibaba Cloudが開発した画像・動画生成AIモデルです。
物理世界の法則を学習しており、光の反射、流体の動き、物体の重なりなどをリアルに再現することが得意です。
Qwenが「監督」として指示を出すならば、Wanは「撮影クルー」や「CGアーティスト」として実際に映像を作り出す役割を果たします。
Wanモデルには「Wan 2.1」などのバージョンがあり、テキストから動画を生成する(Text-to-Video)だけでなく、1枚の画像から動きを生成する(Image-to-Video)機能も備えています。
Wan 2.1には、家庭用GPUでも動作する1.3Bモデルから、映画のようなクオリティを実現する14Bモデルまで複数のラインナップがあり、用途に合わせて選択可能です。
Alibaba Cloudが開発したWanモデルは、他の動画生成AIと比較しても際立った特徴を持っています。
ここでは、その実力を3つのポイントで解説します。
Wanモデルの最大の特徴は、生成される映像の「物理的な正しさ」と「美しさ」です。
従来の動画生成AIでは、歩いている人物の足が地面に埋まったり、コップの水が不自然に流れたりする「物理的な破綻」がよく見られました。
しかし、Wanモデルは高度な拡散モデル(Diffusion Transformer)を採用しており、現実世界の物理法則を学習しています。
そのため、水面の波紋、風になびく髪、立ち上る煙といった複雑な流体表現も、違和感なくリアルに描写できる傾向があります。
また、映画のようなライティング(照明)やカメラワークも得意としており、まるでプロが撮影したかのような映像を作り出すことが可能です。
多くの海外製AIツールは、英語でのプロンプト入力が必須、あるいは推奨されています。
英語が苦手なユーザーにとって、これは大きなハードルとなります。
しかし、WanモデルはQwenの強力な言語処理能力を介しているため、日本語のプロンプトを高い精度で理解します。
単に単語を翻訳するだけでなく「わびさび」といった日本的なニュアンスや、「活気あふれる」「静まり返った」といった雰囲気の形容詞も映像に反映してくれます。
これにより、ユーザーは翻訳ツールを使う必要がなく、思い描いたイメージを直感的に日本語にするだけで、理想の動画を生成することが可能になっています。ただし、動画の中に日本語の文字を描写する機能については、現時点では公式サポート外(英語・中国語のみ)である点に注意しましょう。
Wanモデルは、一部のモデル(Wan 2.1など)がオープンソースとして公開されています。
多くの動画生成AIが、公式サイト経由でしか利用できない「クローズド」な環境であるのに対し、Wanはモデルデータ自体が公開されており、エンジニアやクリエイターが自分のPC(ローカル環境)で動かすことができます。
これにより、商用利用の際のコストを抑えたり、独自の追加学習(LoRAなど)を行って特定のキャラクターや画風に特化させたりといった、自由度の高い使い方が可能です。
また、機密性の高いデータを外部サーバーに送信することなく、セキュアな環境で動画生成を行いたい企業にとっても有力な選択肢となります。
Wanモデルを使って動画を生成するには、主に3つの方法があります。
それぞれの特徴を理解し、自分の目的や環境に合った方法を選びましょう。
最も手軽に、今すぐ動画生成を試したい方におすすめなのが、Wan公式サイト(wan.video)やQwen Chatを利用する方法です。
この方法の最大の特徴は、ハイスペックなPCや複雑な設定が一切不要である点です。
ブラウザからサイトにアクセスし、アカウントを作成(またはログイン)した後、テキストボックスにプロンプトを入力するだけで、クラウド上で動画が生成されます。
UIも直感的で使いやすいため、初心者でも迷うことなく操作でき、特にWanでは、最新モデルを利用可能です。
ただし、無料枠には制限がある場合があり、混雑時には生成に時間がかかることがあります。
また、wan.videoで生成した動画は、クレジット表記が必要な場合や商用利用不可なプランがあるため、ビジネス目的であればオープンソース版を自社環境で運用するのが最も安全です。
動画生成を本格的に行いたい、あるいはプライバシーを重視したい方におすすめなのが、自分のPC環境にWanモデルを構築する方法です。
Hugging Faceなどのリポジトリからモデルデータをダウンロードし、ComfyUIなどのインターフェースを使ってローカル環境で動作させます。
この方法のメリットは、一度環境を構築してしまえば、生成枚数や時間の制限なく、好きなだけ動画を作ることができる点です。
また、プロンプトの詳細な調整や、他のAIツールとの連携も自由自在です。
データが外部に送信されないため、機密性の高い映像制作にも向いています。
注意点として、高性能なGPU(VRAM 16GB以上推奨など)を搭載したPCが必要となります。
また、環境構築にはある程度の専門知識が求められるため、中級者以上のユーザーに適した方法です。
自社のアプリやサービスに動画生成機能を組み込みたい開発者や企業におすすめなのが、APIを利用する方法です。
Alibaba Cloudが提供する「Model Studio」を通じて、API経由でWanモデルを利用します。
この方法のメリットは、自社のWebサイトやスマートフォンアプリから動画生成機能を呼び出し、ユーザーに提供できることです。
Alibaba Cloudの堅牢なインフラを利用するため、大量のアクセスがあっても安定した動作が期待できます。
また、セキュリティ面でも企業の基準に準拠した運用が可能です。
APIの利用量に応じた従量課金制となるのが一般的であるため、コスト管理が必要です。
利用にはプログラミングの知識が必要となりますが、ビジネス展開を考える上では最も拡張性の高い選択肢と言えます。
動画生成AIを活用してコンテンツを量産するようになると、生成された動画ファイルの管理や、チームメンバーへの共有といった「事務作業」が新たな課題となります。
ファイルサイズが大きいためメールでの送付は難しく、都度クラウドストレージにアップロードしてリンクを発行し、チャットツールで連絡するといった手順は、数が増えるほど大きな負担となります。
Yoomを使えば、動画保存後の通知といった定型業務をノーコードで自動化し、クリエイティブな作業に集中する時間を確保できます。
例えば、動画ファイルを特定のフォルダに保存するだけで、自動的にその共有リンクをSlackやChatworkへ通知するといったフローが実現可能です。
これにより、チーム全体の制作効率向上につながります。
以下のテンプレートを使用すれば、すぐに自動化を開始できます。
■概要
Google Driveに新しいファイルを追加した際、都度Slackで関係者に情報を共有するのは手間がかかるのではないでしょうか。また、手作業での共有は漏れが発生しやすく、業務の遅延に繋がることも少なくありません。
このワークフローを活用することで、Google DriveとSlackを連携させ、ファイルが追加されたら自動でSlackに通知できます。これにより、Google DriveとSlack間でのファイル情報の共有に関する手作業をなくし、スムーズな情報伝達を実現します。
■このテンプレートをおすすめする方
■このテンプレートを使うメリット
■フローボットの流れ
※「トリガー」:フロー起動のきっかけとなるアクション、「オペレーション」:トリガー起動後、フロー内で処理を行うアクション
■このワークフローのカスタムポイント
■注意事項
■概要
Boxの指定のフォルダにファイルがアップロードされたら、Chatworkでメッセージを送るフローです。
■このテンプレートをおすすめする方
1.取引先企業の帳票類を管理する必要のある方
・営業アシスタントや経理担当
・オフィスマネージャーや経理担当
・デジタルツールを活用してデータの管理を行なっている事務担当者
2.Chatworkを主なコミュニケーションツールとして使用している方
・外勤のフィールドセールス担当者
・社内のコミュニケーションとして使用している各部門長の方
・取引先企業とのやりとりを担当している営業アシスタント
3.手入力の作業を減らし、自動化したいと考えている方
・業務効率化を目指している中小企業の経営者
・入力作業の多い総務、事務の担当者
■このテンプレートを使うメリット
・Boxへのファイルアップロードを自動で知らせてくれるため、確実なファイル管理を行うことができ担当者間での情報共有がスムーズになります。
・一連の流れが自動で完結するため、業務の効率化につながります。
■注意事項
・Chatwork、BoxのそれぞれとYoomを連携させてください。
ここからは、実際にQwen Chatを使って動画を生成し、その実力を検証していきます。
最初の検証テーマは、AIにとって難易度が高い「自然風景」と「動物の動き」です。
これらは物理的な法則に従った動きが求められるため、モデルの性能差が顕著に現れる分野です。
【検証プロンプト】
夕暮れのサバンナで水を飲む巨大なアフリカ象、水面に映る象の影と波紋、映画のような高画質、詳細なテクスチャ、黄金色の光、スローモーション、超写実的
上記のプロンプトで5秒の長さの動画が生成されました。
生成された動画から、以下のことがわかりました。
物理法則の表現を得意にしているだけあり、生成された映像は指示通り映画のような高画質で、水面の反射や夕暮れのライティングも一見すると実写と思えるような自然な仕上がりです。
しかし、細部を確認すると、草が背景から浮いているように見えたり、水面の質感が過度にツヤツヤしていたりと、AI特有の「作り物感」があります。
特に大きな課題を感じたのは音声機能です。
象が鼻で水をすくう動作と音が明らかにズレており、本来あるはずの水が水面に落ちる着水音が欠落していました。
映像のクオリティが高いだけに、音の違和感が際立ってしまいます。
現状のWanモデルにおいては、無理に映像と音声の同時生成を狙わず、効果音やBGMは別の動画編集ソフトで後付けするのが、商用レベルのコンテンツを作るためには現実的です。
次の検証テーマは、動画生成AIにとって大きなハードルとなる「文字の描写」です。
静止画でも難しい文字の生成を、動画の中で崩さずに維持できるかを検証します。
【検証プロンプト】
雨上がりの夕焼け、日本のレトロな商店街、濡れたアスファルト、喫茶店の木製の看板に「珈琲タイム 営業中」と書かれている、多くの人が傘を持って行き交う映像。
上記のプロンプトで、以下の動画が生成されました。
生成された動画から、以下のことがわかりました。
漢字とカタカナを混ぜた看板の生成を試みましたが、結果は「惜しい」レベルにとどまりました。
カタカナ部分は正確に描写できたものの、漢字は一部が崩れたり、他のお店の看板が解読不能な謎の文字になったりと、日本語処理の限界が見えました。
Wanモデルは動画内にテキストを生成する機能を備えていますが、公式にサポートされているのは中国語と英語のみです。検証では日本語の看板生成を試みましたが、やはり漢字の崩れなどが見られました。現時点では、日本語の文字入れを正確に行いたい場合は、動画編集ソフトで後付けするのが確実です。また、映像の物理法則や整合性にも課題が残ります。
濡れたアスファルトや建物の質感にリアルさがなく、「雨上がり」という指示に対し、雨が降っていないにもかかわらず通行人が傘をさしているという矛盾が生じました。
特に赤丸で示した自転車が跳ね上げる水しぶきは、車輪の回転方向ではなく側面から真横に飛び出すという物理的にありえない描写となっていました。
Wanは物理法則に沿った処理を得意にしているという特徴はありますが、こうした細部の違和感はまだ発生します。
そのまま公開するのではなく、必ず人間の目でプレビューを行い、物理的な矛盾や文字の崩れがないかを選別する工程が不可欠です。
生成した動画をYouTubeで公開したり、広告に使ったりする際には、利用するモデルやサービスの「ライセンス」を正しく理解しておく必要があります。
ここでは、Wanモデルを利用する場合の商用利用について解説します。
GitHubやHugging Faceで公開されているWanモデル(例:Wan 2.1)の多くは、Apache 2.0ライセンスの下で提供されています。
このライセンスは非常に寛容で、商用利用に対しても開かれています。
具体的には、ライセンス条文のコピーを同梱し、著作権表示を保持すれば、生成した動画を商用利用することはもちろん、モデル自体を自社サービスに組み込んで販売することも可能です。
改変も認められているため、自社のニーズに合わせてモデルをチューニングすることもできます。
自社のサーバーやローカルPCでこのモデルを運用する場合、生成された動画の権利は基本的にユーザーに帰属するため、安心してビジネスに活用できます。
開発者や企業にとっては、このオープンソース版を利用することが、最も権利関係のリスクを低減できる方法と言えます。
Alibaba Cloudやサードパーティが提供する「無料のWebチャット」や「デモサイト」を利用する場合は注意が必要です。
これらのサービスには独自の「利用規約(Terms of Service)」が設定されており、多くの場合、無料版での生成物は商用利用が禁止されているか、制限されています。
例えば、「個人利用に限る」「SNSでの非営利シェアのみ可」といった条項が含まれていることがあります。
また、生成されたコンテンツをサービス提供側が学習データとして利用することに同意させられるケースもあります。
ビジネス目的なら、そのサイト独自の規約を必ず確認して導入するか、前述のオープンソース版を利用するのが賢明です。
AIで生成したコンテンツの著作権については、各国によって法が異なります。
2026年2月時点では、「AIが完全に自動生成したもの」には著作権が発生しないとする見解が一般的ですが、人間の創作的寄与(プロンプトの工夫や編集など)があれば著作権が認められる可能性もあります。
また、Wanモデルで生成した動画には、右下などに「Wan」や「Alibaba Cloud」といった透かし(Watermark)が入ることがあります。
この透かしは、その動画がAIによって生成されたものであることを示す重要なマークです。
透かしを無理に削除して商用利用することは、利用規約違反や権利侵害のリスクを高めるため避けましょう。
商用利用可能な環境(オープンソース版や有料API版など)では、透かしが入らない設定ができる場合もありますので、正規の手順で利用することをおすすめします。
Qwen Chatにも組み込まれているAlibaba Cloudの動画生成AI「Wan」は、高い言語理解力と、物理法則に強い映像生成力が特徴です。
今回の検証では、一部物理法則を無視する描写や音声と映像のズレ、AIっぽさが残る描写もありましたが、高いクオリティの映像を生成する能力があることがわかりました。
実際に映像を作成してみたい方は、WanやQwen Chatで気軽にその実力を試してみてください。
ただし、商用利用の際は、利用するプラットフォームの規約を必ず確認しましょう。
動画生成AIは強力なツールですが、それ単体では業務は完結しません。
動画を生成する前には、元になるアイデアが必要です。
こうした付随する業務も自動化してこそ、更なる効率化を図れます。
Yoomには、業務フローをすぐに実現できるテンプレートが多数用意されています。
これらを使えば、専門的な知識がなくても、簡単な設定で自動化システムを構築可能です。
自社の環境に合わせてアプリやアクションをカスタマイズすることもできるので、ぜひ試してみてください。
■概要
日々の業務で、イラストのアイデア出しやチームへの共有を手作業で行う際、時間がかかると感じていませんか?また、アイデアがGoogle スプレッドシートに蓄積されても、それを都度確認しMicrosoft Teamsへ通知する作業は手間がかかるものです。このワークフローを活用すれば、Google スプレッドシートへの行追加をトリガーに、AIがイラストアイデアを自動生成し、Microsoft Teamsへ通知する一連の流れを自動化でき、これらの課題解決に貢献します。
■このテンプレートをおすすめする方
■このテンプレートを使うメリット
■フローボットの流れ
※「トリガー」:フロー起動のきっかけとなるアクション、「オペレーション」:トリガー起動後、フロー内で処理を行うアクション
■このワークフローのカスタムポイント
■注意事項
【出典】
Qwen Chat/Wan AI/Qwen - Alibaba Cloud/Alibaba Cloud Model Studio/GitHub - Wan-Video/Wan2.1: Wan: Open and Advanced Large-Scale Video Generative Models/Qwen