ChatGPTのDeep Research(AI)での出力結果をそのまま掲載しています。ChatGPTのDeep Researchはハルシネーション(誤った情報の生成)が少なくなるよう調整されていますが、あくまで参考程度に読んでください。当記事は検索エンジンに登録していないため、このブログ内限定の記事です。
モデル概要(開発背景と目的)
中国・アリババグループのAI研究機関である通義研究所(Alibaba DAMO Academy)は、2025年2月に最新の動画生成AIモデル「Wan2.1」をオープンソースで公開しました (Alibaba Cloud Open Sources its AI Models for Video Generation - Alibaba Cloud Community)。このモデルはアリババクラウドのマルチモーダル大規模モデル「通義万相(Tongyi Wanxiang)」シリーズの最新バージョンであり、初代モデルは2023年7月に登場しています (Alibaba Cloud Unveiled Wanx 2.1: Redefining AI-Driven Video Generation - Alibaba Cloud Community)。Wan2.1はテキストや画像から高品質な動画を自動生成できるのが特徴で、開発の背景には「高度な動画生成技術を民主化し、クリエイターや企業が自由に活用できるようにする」という狙いがあります (Wan 2.1: Alibaba’s Open-Source Text-to-Video Model Changes Everything | by Cogni Down Under | Mar, 2025 | Medium) ([2503.20314] Wan: Open and Advanced Large-Scale Video Generative Models)。実際、従来はクローズドなAPI経由でしか使えなかった高度な動画AIを、Wan2.1はApache 2.0ライセンスのオープンソースとして無償公開することで、研究者や開発者コミュニティへの貢献を目指しています (Wan 2.1 by Wan AI :best cost efficient video generation model Now Available) (〖Wan2.1使ってみた〗SoraやLuma超えの動画生成AI!?概要や使い方を徹底解説 | WEEL)。
開発元のアリババは、2023年に大規模言語モデル「Qwen(通義千問)」を皮切りに自社AIをオープンソース化してきた実績があり、Wan2.1もその延長線上に位置づけられます (Alibaba Cloud Open Sources its AI Models for Video Generation - Alibaba Cloud Community)。最新モデルWan2.1の公開により、動画生成AI分野でのオープンソース推進においても、中国発の大手テック企業が主導的役割を果たすことになりました。アリババは「高品質な映像コンテンツを低コストで作成できるようにすることで、企業や個人のクリエイティブなニーズに応える」ことを目標に掲げており (Alibaba Cloud Open Sources its AI Models for Video Generation - Alibaba Cloud Community)、Wan2.1の公開はその取り組みの一環です。特に中国語・英語のテキスト入力に対応し、テロップや文字エフェクトを含む動画生成を可能にした初のモデルでもあり (Alibaba Cloud Open Sources its AI Models for Video Generation - Alibaba Cloud Community)、広告制作やショートビデオ分野など多様な産業のニーズに応える革新的技術として注目されています (Alibaba Cloud Unveiled Wanx 2.1: Redefining AI-Driven Video Generation - Alibaba Cloud Community)。
技術仕様(アーキテクチャ・データ・特徴)
Wan2.1は拡散モデル(Diffusion)とTransformerを組み合わせた最新アーキテクチャを採用しており、特に動画生成に最適化した3次元(時空間)VAE(Variational Autoencoder)「Wan-VAE」を独自開発しています (Wan 2.1: Alibaba’s Open-Source Text-to-Video Model Changes Everything | by Cogni Down Under | Mar, 2025 | Medium) (GitHub - Wan-Video/Wan2.1: Wan: Open and Advanced Large-Scale Video Generative Models)。従来の画像生成AI(例:Stable Diffusion)では2次元空間でのVAEが用いられますが、Wan2.1では時間軸方向の因果性を保つ3D VAEによりフレーム間の一貫性を高め、複雑な動きでも前後の文脈が破綻しにくくなっています (Wan 2.1: Alibaba’s Open-Source Text-to-Video Model Changes Everything | by Cogni Down Under | Mar, 2025 | Medium) (GitHub - Wan-Video/Wan2.1: Wan: Open and Advanced Large-Scale Video Generative Models)。このWan-VAEによりメモリ効率も改善されており、1080pの長尺動画でも過去フレーム情報を失わずエンコード・デコード可能な性能を実現しました (GitHub - Wan-Video/Wan2.1: Wan: Open and Advanced Large-Scale Video Generative Models)。さらに、フルの時空間アテンション機構を組み込むことで、現実世界の複雑な動態を高精度に模倣できるよう工夫されています (Alibaba Cloud Unveiled Wanx 2.1: Redefining AI-Driven Video Generation - Alibaba Cloud Community)。
モデルのテキストエンコーダにはGoogleのT5を拡張した多言語モデル(UMT5)が使われており、ユーザーが入力するプロンプト(指示文)を埋め込みベクトルに変換して動画生成に反映します (GitHub - Wan-Video/Wan2.1: Wan: Open and Advanced Large-Scale Video Generative Models)。Transformer部分では各層にテキスト情報をクロスアテンションで織り込む設計となっており、時間情報についても特殊なMLPブロックで処理・共有することで、同規模パラメータでの生成性能を大幅に向上させたと報告されています (GitHub - Wan-Video/Wan2.1: Wan: Open and Advanced Large-Scale Video Generative Models)。また拡散モデルの学習過程における新手法として、ノイズサンプリングにFlow Matchingという手法を取り入れ高速収束を実現したとされ (通义万相,开源! - UIED用户体验学习平台)、超長文の文脈を扱う訓練戦略によってテキスト指示の精密な反映も可能にしています (Alibaba Cloud Unveiled Wanx 2.1: Redefining AI-Driven Video Generation - Alibaba Cloud Community)。これらのアーキテクチャ上の工夫により、Wan2.1はメモリ使用量を抑えつつ時間的な一貫性を保った動画生成を実現し、既存モデル比で2.5倍高速に動画を再構成できるというデータもあります (Wan 2.1: Alibaba’s Open-Source Text-to-Video Model Changes Everything | by Cogni Down Under | Mar, 2025 | Medium)(※競合モデル比の詳細は非公開指標ながら、その高速性が実用性向上の大きな鍵となっています)。
トレーニングデータとしては、数十億枚規模の画像・動画データセットが用いられました ([2503.20314] Wan: Open and Advanced Large-Scale Video Generative Models)。研究チームは独自に大規模データを収集・クレンジングし、画質・動きの品質や多様性に配慮した4段階のデータ洗練パイプラインを構築 (GitHub - Wan-Video/Wan2.1: Wan: Open and Advanced Large-Scale Video Generative Models)。その結果、ノイズの少ない高品質な多種多様データでモデルを訓練することに成功したと述べられています。モデルサイズは用途に応じて約13億パラメータ(1.3B)と140億パラメータ(14B)の2種類があり、それぞれテキスト入力から動画を生成するT2V(Text-to-Video)モデルとして提供されています (Alibaba Cloud Open Sources its AI Models for Video Generation - Alibaba Cloud Community)。さらに14B版については画像入力も併用できるI2V(Image-to-Video)モデルが720p版と480p版の2種用意され、静止画一枚とテキスト説明から動きのある動画を作ることも可能です (Alibaba Cloud Open Sources its AI Models for Video Generation - Alibaba Cloud Community)。この他、Wan2.1は動画編集(Video Editing)やテキスト画像生成(Text-to-Image)、動画から音声への変換(Video-to-Audio)などマルチモーダルな下流タスクにも対応しており (GitHub - Wan-Video/Wan2.1: Wan: Open and Advanced Large-Scale Video Generative Models) (〖Wan2.1使ってみた〗SoraやLuma超えの動画生成AI!?概要や使い方を徹底解説 | WEEL)、合計で8種類に及ぶタスクに応用できる包括的モデルとなっています ([2503.20314] Wan: Open and Advanced Large-Scale Video Generative Models)。
モデルの各種データやコードはGitHub上で公開されており、ライセンスは商用利用も可能なApache 2.0です (Wan 2.1 by Wan AI :best cost efficient video generation model Now Available) (〖Wan2.1使ってみた〗SoraやLuma超えの動画生成AI!?概要や使い方を徹底解説 | WEEL)。オープンソース版の全モデルと推論コードが完全公開されているため、開発者はモデルの内部を検証したりカスタムデータで再学習(LoRAによる追加学習など)することも可能です ([2503.20314] Wan: Open and Advanced Large-Scale Video Generative Models)。実際Wan2.1は、追加学習用の軽量モデルとの相性も良く、LoRAによるキャラクター特化など拡張の柔軟性にも優れると評価されています (ASCII.jp:動画生成AI、革命の兆し 「Stable Diffusion」級の衝撃再び (1/5))。これら技術仕様の充実によって、Wan2.1は「現時点で世界トップクラスの性能を持つ動画生成モデル」と位置づけられ、研究面と実用面の双方から大きな注目を集めています。
性能評価とベンチマーク比較
Wan2.1シリーズは公開直後から各種ベンチマークで既存モデルを凌ぐ高性能を示しています。包括的な動画生成評価スイートである「VBench」では、Wan2.1(14Bモデル)が総合スコア86.22%を記録し、従来トップクラスだった他モデル(OpenAIのSoraやRunway社のGen-2、中国のLumaやPikaなど)を大きく上回る1位にランクインしました (〖Wan2.1使ってみた〗SoraやLuma超えの動画生成AI!?概要や使い方を徹底解説 | WEEL)。VBench上位5モデルの中で唯一のオープンソースモデルでもあり (Alibaba Cloud Open Sources its AI Models for Video Generation - Alibaba Cloud Community) (Alibaba Cloud Open Sources its AI Models for Video Generation - Alibaba Cloud Community)、性能と公開性の両面で際立った存在となっています。評価内容を詳しく見ると、Wan2.1は大きな身体運動の表現や複数オブジェクトの相互作用、空間関係の正確さ、色彩の忠実度といった主要次元で競合をリードしています (Alibaba Cloud Open Sources its AI Models for Video Generation - Alibaba Cloud Community) (Alibaba Cloud Open Sources its AI Models for Video Generation - Alibaba Cloud Community)。例えば人間の複雑な動きやカメラの流れるような移動表現でも破綻が少なく、動物や乗り物など複数物体が登場するシーンの同時制御にも優れている点が高く評価されています (Alibaba Cloud Open Sources its AI Models for Video Generation - Alibaba Cloud Community)。
加えて、アリババ社内の1,035プロンプトからなる包括的テストでも14の主要指標・26のサブ指標において他のオープンモデルおよび商用モデルを全体的に上回る結果が得られたと報告されています (GitHub - Wan-Video/Wan2.1: Wan: Open and Advanced Large-Scale Video Generative Models)。特に比較対象として言及されるのがOpenAIの動画生成モデル「Sora」です。Soraは2024年に商用提供が開始されたテキスト動画AIで、ChatGPTの有料プラン利用者向けに月50本(480p)までといった制約付きで公開されていました (Alibaba open sources its video-generation AI model – Computerworld) (Alibaba open sources its video-generation AI model – Computerworld)。Wan2.1はこのSoraに対し、シーン生成品質・単一オブジェクトの精度・空間配置の正確さなど複数の指標で優れているとされます (Wan 2.1: Alibaba’s Open-Source Text-to-Video Model Changes Everything | by Cogni Down Under | Mar, 2025 | Medium)。もっとも、これらは開発元による内部評価でもあるため第三者による検証も必要ですが、実際に公開されたサンプル動画やユーザーの生成結果を見る限りでもWan2.1の映像クオリティは非常に高く、既存のクローズドモデルと遜色ないどころか凌駕する場面もあるとの声が上がっています (Wan 2.1: Alibaba’s Open-Source Text-to-Video Model Changes Everything | by Cogni Down Under | Mar, 2025 | Medium) (ASCII.jp:動画生成AI、革命の兆し 「Stable Diffusion」級の衝撃再び (1/5))。

さらに注目すべきはWan2.1の一貫性(Temporal Consistency)の高さです。例えば、ある1枚のイラストから「戦車」が前進して砲撃し方向転換する動画を生成するデモでは、キャタピラや車輪の動きが滑らかに表現され、向きを変えても戦車の形状や背景との整合性が保たれていました (ASCII.jp:動画生成AI、革命の兆し 「Stable Diffusion」級の衝撃再び (1/5)) (ASCII.jp:動画生成AI、革命の兆し 「Stable Diffusion」級の衝撃再び (1/5))。これは従来のローカル動画生成モデルでは困難だった芸当であり、専門家からも「現在公開されているどのローカル動画生成AIよりも性能が高い」と評価されています (ASCII.jp:動画生成AI、革命の兆し 「Stable Diffusion」級の衝撃再び (1/5))。総じてWan2.1の登場は、「ローカル環境の動画AIでもここまでできる」という常識破りの成果であり、AI業界には「Stable Diffusion登場時に匹敵するインパクト」を与えつつあります (ASCII.jp:動画生成AI、革命の兆し 「Stable Diffusion」級の衝撃再び (1/5))。
ユーザーが生成する際に必要なPCスペック
Wan2.1は高性能ながら、比較的手頃なハードウェア環境でも動作可能になるよう工夫されています。特に小型版のT2V-1.3Bモデルは必要VRAM(GPUメモリ)が約8.19GBと非常に軽量で (GitHub - Wan-Video/Wan2.1: Wan: Open and Advanced Large-Scale Video Generative Models) (〖Wan2.1使ってみた〗SoraやLuma超えの動画生成AI!?概要や使い方を徹底解説 | WEEL)、一般的なゲーム用GPUでも動かせます。たとえばNVIDIA RTX 4090(24GB搭載)の環境では、1.3Bモデルを用いて480p解像度・5秒程度の動画を約4分で生成可能と公式に報告されています (GitHub - Wan-Video/Wan2.1: Wan: Open and Advanced Large-Scale Video Generative Models) (Alibaba Cloud Open Sources its AI Models for Video Generation - Alibaba Cloud Community)。実際のユーザー検証でも、RTX3080や3090クラスであれば十分実用的な速度で動作し、よりVRAM容量が少ないRTX20〜30番台(8〜12GB程度)のGPUでもオフロード機能を使えば動作自体は可能とされています (GitHub - Wan-Video/Wan2.1: Wan: Open and Advanced Large-Scale Video Generative Models) (しまだ|AIマーケ&クリエイティブDX)。一方、高品質・高解像度を求める場合は14Bモデルの使用が推奨されます。14B版はパラメータ数が約10倍と大きいため、単体で動かすには24GB以上のGPUメモリが望ましく、RTX 4090クラスでもギリギリ動作するかどうかといった規模感です。公式には14Bモデルで480p・720p動画生成に対応するとされていますが (GitHub - Wan-Video/Wan2.1: Wan: Open and Advanced Large-Scale Video Generative Models)、実際にはマルチGPU環境(例えば8枚のA100 GPUなど)やメモリ節約の工夫(FP16/FP8量子化や分割実行)を凝らすことでフル性能を発揮できる設計です (GitHub - Wan-Video/Wan2.1: Wan: Open and Advanced Large-Scale Video Generative Models) (GitHub - Wan-Video/Wan2.1: Wan: Open and Advanced Large-Scale Video Generative Models)。
実用上は、NVIDIA製のCUDA対応GPUが必須と言えます(現状、PyTorchベースで開発されておりCUDA GPUでの動作を前提)。 (GitHub - Zuntan03/EasyWanVideo: Wan 2.1 を Geforce RTX 3060 などで簡単に試せる Win 用ローカル環境です。)によれば、最近のNVIDIA GPUと32GB以上の主メモリを搭載したWindows 11 PCで問題なく動作確認が取れています。Linux環境でももちろん動作し、モデルのダウンロード先としてAlibaba CloudのModelScopeやHugging Face Hubから入手可能です (Alibaba Cloud Open Sources its AI Models for Video Generation - Alibaba Cloud Community)。ソフトウェア要件としてはPythonとPyTorch (ver.2.4以降)、および必要ライブラリのインストールが必要です (GitHub - Wan-Video/Wan2.1: Wan: Open and Advanced Large-Scale Video Generative Models) (GitHub - Wan-Video/Wan2.1: Wan: Open and Advanced Large-Scale Video Generative Models)。GitHubのリポジトリには推論スクリプトやGradioデモ、さらにStable Diffusion用GUIであるComfyUIへの統合も用意されており (GitHub - Wan-Video/Wan2.1: Wan: Open and Advanced Large-Scale Video Generative Models)、コマンドラインに不慣れなユーザーでも比較的簡単に扱えます (ComfyUIで始める!WAN 2.1モデルを使用したテキスト・画像からの …)。実際、日本の有志開発者によってWindows向けの一括セットアップ環境も公開されており、たとえばRTX 3060 (12GB)+64GB RAMのPCで動作確認がされています (GitHub - Zuntan03/EasyWanVideo: Wan 2.1 を Geforce RTX 3060 などで簡単に試せる Win 用ローカル環境です。)。総じて要求スペックは「GPU: 8GB VRAM(最低)~24GB VRAM(推奨)、RAM: 16〜32GB以上、OS: Windows 10/11またはLinux」が一つの目安と言えるでしょう。高解像度動画をローカル生成するにはハイエンドGPUが望ましいものの、個人のPCでもプロンプトを入力すれば映像生成ができる時代がWan2.1によって現実のものとなりました (しまだ|AIマーケ&クリエイティブDX)。
幅広い活用事例と用途
Wan2.1の登場は、様々な業界で新たな動画生成ニーズを喚起すると期待されています。まず、伝統的な映像制作・広告クリエイティブの分野では、テキストから即座に動画コンテンツを得られることで企画段階のプロトタイピングが格段に効率化します。アリババはWan2.1が広告デザインや短編動画制作などの創作ニーズに応えるものと位置付けており (Alibaba Cloud Unveiled Wanx 2.1: Redefining AI-Driven Video Generation - Alibaba Cloud Community)、背景の合成やモーショングラフィックス、商品プロモーション映像の自動生成などに応用できるでしょう。また、映画やゲーム開発においても、事前ビジュアライゼーション(映像の試作)やCG制作の補助として、テキストでシーンを指定すれば粗い動画が得られるため、クリエイターのアイデア具現化を助けるツールとなりえます。実際に中国では、映画の1シーンのアイデアをWan2.1で素早く動画化しコンテ制作に活かす実験も行われているとの報道があります (好奇飞梭接入阿里通义万相2.1,打造AI视频创作新纪元内容用户_技术)。
さらに個人クリエイターやSNS分野での活用も盛んになると見られます。中国のAIGC(AI生成コンテンツ)プラットフォーム「好奇飞梭」では、早速Wan2.1モデルをエンジンとして組み込み、ユーザーが文章を入力するだけで短い動画クリップを生成できるサービスを開始しました (好奇飞梭接入阿里通义万相2.1,打造AI视频创作新纪元内容用户技术)。例えば旅行の思い出映像や料理レシピ動画をブログ投稿者がWan2.1で自動生成し、SNSに共有するといったケースも出始めており、視聴者からは「動画のクオリティが上がり視聴時間が延びた」といったポジティブな反応が寄せられています (好奇飞梭接入阿里通义万相2.1,打造AI视频创作新纪元内容用户技术)。このように、従来は動画編集スキルや長時間の作業が必要だったコンテンツを、一人のユーザーが短時間で生み出せるようになった点は革新的です (好奇飞梭接入阿里通义万相2.1,打造AI视频创作新纪元内容用户_技术)。教育やエンタメの領域でも、教師がテキストで説明したい場面を入力すればそれに沿った解説動画が得られたり、ゲーム実況者が自分の空想シナリオを映像化してファンに披露したりと、アイデア次第で新しいコンテンツ創作の扉が開かれています。
また、Wan2.1は画像を入力して動画化できるため、例えばイラストレーターが描いた一枚絵のキャラクターに命を吹き込むといった使い方もできます (ASCII.jp:動画生成AI、革命の兆し 「Stable Diffusion」級の衝撃再び (1/5))。実際、ファンタジー風の戦車イラストを動かした前述のデモや、VTuber的な二次元キャラクターの立ち絵からモーション映像を作る試みも報告されています (ASCII.jp:動画生成AI、革命の兆し 「Stable Diffusion」級の衝撃再び (1/5))。このように「静止画から動く映像へ」という次元の拡張が手軽にできる点で、クリエイティブ業界への波及効果は計り知れません。マーケティングでは商品写真からCM動画を起こすことも可能となり、ライブイベントでは出演者の写真から事前PR用の動画を生成するといった応用も考えられます。さらには、音声生成モデルと組み合わせて自動ナレーション付き動画を作成したり、VR/ARコンテンツの自動生成に発展させたりと、Wan2.1が基盤となることで映像制作の自動化が一層加速するでしょう。
もっとも、こうした活用が広がる一方で倫理的・法的な課題にも目を向ける必要があります (好奇飞梭接入阿里通义万相2.1,打造AI视频创作新纪元内容用户技术)。AIによる動画生成が容易になることで、ディープフェイク(Deepfake)など悪用のリスクも指摘されています (Alibaba open sources its video-generation AI model – Computerworld)。実際、専門家からは「高性能なモデルだけにフェイク映像の生成にも使われかねない」という懸念や、著作権侵害になりうる既存映像の模倣についての注意喚起もあります (好奇飞梭接入阿里通义万相2.1,打造AI视频创作新纪元内容用户技术) (Alibaba open sources its video-generation AI model – Computerworld)。Wan2.1はオープンソースであるがゆえに内部挙動の検証やフィルタリングの実装もコミュニティ次第となりますが、開発元も利用時のガイドライン整備を呼びかけています。健全な創作支援ツールとして定着させるために、使う側のモラルと適切な規制の両面で今後の取り組みが重要になるでしょう。
日本・米国・中国での反響
日本での反響
日本においてWan2.1は、生成AI分野の最新トピックとして技術系メディアやSNSで大きな注目を集めました。アリババクラウドは2025年3月に日本市場へのWan2.1投入を正式に発表しており、ASCII.jpなどのメディアが「日本市場でも最新動画生成モデルWan2.1シリーズを提供開始」と報じています (ASCII.jp:アリババクラウド、日本の拡大戦略でLLM「Qwen2.5」や画像生成AI「Wan2.1」投入) (ASCII.jp:アリババクラウド、日本の拡大戦略でLLM「Qwen2.5」や画像生成AI「Wan2.1」投入)。これにより日本の開発者も公式ルートでモデルにアクセスできるようになり、商用利用の検討も進み始めました。また、日本のAI研究コミュニティやクリエイターからもWan2.1への評価は高く、「8GB程度のGPUでも動作可能で、性能はOpenAIのSoraやRunwayのGen-2を凌ぐ」といった驚きの声がSNS上で拡散しました (しまだ|AIマーケ&クリエイティブDX)。実際、国内の有志がWan2.1を使った作品事例を次々と公開しており、YouTube上にはComfyUIを用いた導入解説やデモ動画が数多く投稿されています (ComfyUIで始める!WAN 2.1モデルを使用したテキスト・画像からの …)。あるクリエイターは「ローカルPCでここまで高品質なAI動画が作れるようになった」とコメントし、そのインパクトを「Stable Diffusion登場時の衝撃再来」と評価しています (ASCII.jp:動画生成AI、革命の兆し 「Stable Diffusion」級の衝撃再び (1/5))。特に、LoRAを組み合わせて日本のアニメ風キャラクターに好きな動きをさせる試みなど、日本ならではの創作分野でもWan2.1が活用され始めています。総じて日本では、技術者からクリエイターまで幅広い層がWan2.1の可能性に期待を寄せ、熱狂的に受け入れている状況です。
米国での反響
米国を中心とする英語圏でも、Wan2.1の公開はAI業界のホットニュースとなりました。ReutersやCNBC、Computerworldといった主要メディアが「Alibabaが動画生成AIモデルを無償公開。競争激化へ」と報じ (Alibaba makes AI model for video, image generation publicly available | Reuters) (Alibaba open sources its video-generation AI model – Computerworld)、オープンソース戦略によるAI競争の新局面が分析されています。特にComputerworldの記事では、Wan2.1を「OpenAIのSoraに対する無償の代替策」と位置づけ、Soraが月額20ドルで提供されているのに対しWan2.1は制限なく無料で利用可能である点を強調しています (Alibaba open sources its video-generation AI model – Computerworld)。また、Google傘下のDeepMindが開発中とされる動画生成モデル「Veo」にも言及し、大手各社がしのぎを削る動画AI競争にAlibabaが風穴を開けたとの論調も見られました (Alibaba open sources its video-generation AI model – Computerworld)。
開発者コミュニティでも反響は大きく、RedditのAI関連板では「待望のオープンソース動画モデルだ」「今後のクリエイティブツールが変わる」といったコメントが相次ぎました (Alibaba video model Wan 2.1 will be released Feb 25th,2025 and is open source! : r/LocalLLaMA) (Alibaba video model Wan 2.1 will be released Feb 25th,2025 and is open source! : r/LocalLLaMA)。一部では実際にWan2.1を使って生成した動画クリップが共有され、そのクオリティに「信じられないほどリアルだ」と驚く声もあります。AI専門家からは、「まだ生成時間や解像度に限界はあるが、クリエイティブ・メディア業界や企業ユーザーにとって全く新しい選択肢が登場した」との評価が出ています (Alibaba open sources its video-generation AI model – Computerworld)。従来、テキスト画像生成ではAdobeやOpenAIの商用APIが使われてきましたが、動画分野ではこれまで有力なオープンソースがなかったため、Wan2.1は企業が自社環境で高度な動画生成AIを運用できる初の事例として歓迎されています (Alibaba open sources its video-generation AI model – Computerworld)。一方で、米国の専門家は前述のディープフェイクなどセキュリティ・悪用面のリスクにも言及しており、「良い面もあれば悪い面もある。強力なモデルゆえ慎重な運用が必要だ」との指摘もなされています (Alibaba open sources its video-generation AI model – Computerworld)。総じて米国圏では、Wan2.1はAI映像生成のゲームチェンジャーとして受け止められつつも、その影響力の大きさから倫理面への関心も含めた議論が活発化している状況です。
中国圏での反響
中国国内では、Wan2.1のオープンソース化は「国産AI技術の新たなマイルストーン」として大きく報じられました。2月下旬の深夜に発表が行われた際には、中国版SNSである微博や微信の技術コミュニティで瞬く間に話題となり、「阿里深夜開源万相2.1,これぞAI動画界のDeepSeekだ」といった見出しで専門ブログが速報するなど (阿里深夜开源万相2.1,这是AI视频领域的DeepSeek啊。 - 53AI)、業界関係者の関心の高さが伺えます。中国のテックメディアはWan2.1を、同国スタートアップが開発した高性能LLM「DeepSeek」になぞらえて紹介しつつ (Alibaba open sources its video-generation AI model – Computerworld)、「動画生成技術における新たな潮流の幕開け」と位置付けています (好奇飞梭接入阿里通义万相2.1,打造AI视频创作新纪元内容用户技术)。実際、前述のように中国企業の浙文互联(Zhewen Internet)は自社のAIGCプラットフォーム「好奇飞梭」にWan2.1をいち早く統合し、AI動画サービスの新時代を切り拓く動きも見られます (好奇飞梭接入阿里通义万相2.1,打造AI视频创作新纪元内容用户技术)。このサービスではユーザーが入力した中国語テキストに従い、自動で短い動画コンテンツを生成できるようになっており、発表後すぐに多くのクリエイターが実利用を開始しました (好奇飞梭接入阿里通义万相2.1,打造AI视频创作新纪元内容用户技术)。例えば旅行ブロガーが文章から風景紹介動画を作ったり、料理愛好家がレシピの手順動画を生成したりと、斬新な使い方の事例が次々登場しています (好奇飞梭接入阿里通义万相2.1,打造AI视频创作新纪元内容用户技术)。ユーザーからは「視聴者の反応が良くなり、動画プラットフォームでのエンゲージメントが向上した」といった声も寄せられ、マーケティング分野での活用にも明るい兆しが見えています (好奇飞梭接入阿里通义万相2.1,打造AI视频创作新纪元内容用户_技术)。
一方、中国における議論でもやはりAIコンテンツ規制や倫理の問題は無視できません。中国政府は近年AIディープフェイク規制を強化しており、生成コンテンツであることの明示義務など法整備が進んでいます。そのため専門家からは「Wan2.1のような強力な生成AIこそ、遵守すべき規範を守りつつ発展させる必要がある」との意見が出ています (好奇飞梭接入阿里通义万相2.1,打造AI视频创作新纪元内容用户_技术)。もっとも、モデル自体がオープンで透明性が高いため「ホワイトボックスとして検証可能であり、安全性向上のフィードバックも得やすい」と擁護する声もあります (Alibaba open sources its video-generation AI model – Computerworld)。総じて中国圏では、Wan2.1は国産AI技術の誇りとして歓迎されると同時に、その社会的インパクトへの責任にも関心が払われ、健全なエコシステム構築への議論が始まっている状況です。
まとめ
Alibaba通義研究所(DAMOアカデミー)が公開したWan2.1は、テキストや画像から高品質な動画を生成できる画期的なオープンソースAIモデルです。最先端の拡散モデル×Transformerアーキテクチャと独自の3D VAE「Wan-VAE」により、動きの一貫性や表現力で他モデルを凌駕する性能を実現しました。社内外のベンチマークで最高クラスの評価を獲得し、OpenAIのSoraや商用モデルにも匹敵する実力を示しています。小型版モデルは一般的なGPUでも動作可能で、研究者・開発者のみならず個人クリエイターにも門戸が開かれました。広告・映像制作、SNSコンテンツ、ゲーム・教育など幅広い領域で新たな活用事例が生まれており、ユーザーの創造力次第で「テキストから誰も見たことのない映像を生み出す」ことが現実になりつつあります。各国で大きな反響を呼び、オープンソースコミュニティの発展や競合他社の刺激にもつながりました。一方で、ディープフェイク対策や著作権配慮など倫理面の課題も浮上しています。今後はそうした課題に向き合いながら、Wan2.1を基盤とした技術革新がさらに進むことでしょう。動画生成AIの民主化を掲げるWan2.1は、2025年現在におけるこの分野の集大成であり、これからのクリエイティブ産業とAI研究に大きな足跡を残すものと期待されます。
参考文献
- Alibaba Cloud Open Sources its AI Models for Video Generation – Alibaba Cloud公式ブログ (2025年2月27日)
- Alibaba Cloud Unveiled Wanx 2.1: Redefining AI-Driven Video Generation – Alibaba Cloud公式ブログ (2025年1月13日)
- Wan: Open and Advanced Large-Scale Video Generative Models – 技術レポート(arXiv:2503.20314)
- Wan2.1 – GitHubリポジトリ (Wan-Video/Wan2.1)
- Reuters: Alibaba makes AI model for video, image generation publicly available (2025年2月26日)
- Computerworld: Alibaba open sources its video-generation AI model (2025年2月26日)
- ASCII.jp: アリババクラウド、日本の拡大戦略でLLM「Qwen2.5」や画像生成AI「Wan2.1」投入 (2025年3月7日)
- ASCII.jp: 動画生成AI、革命の兆し 「Stable Diffusion」級の衝撃再び (2025年3月31日)
- WEELブログ: 【Wan2.1使ってみた】SoraやLuma超えの動画生成AI!?概要や使い方を徹底解説 (2025年3月)
- 搜狐新闻: 好奇飞梭接入阿里通义万相2.1,打造AI视频创作新纪元 (2025年2月28日)