ネイティブのインペインティングと編集を備えた、Skyworkのデュアルストリーム動画・音声モデル
SkyReels V4はSkywork AIが2026年2月25日にリリースした、初の動画・音声統合生成モデルです。SkyReels V4のアーキテクチャはデュアルストリームのマルチモーダル拡散トランスフォーマー(MMDiT)で、一方のブランチが動画を、もう一方が時間軸を揃えた音声を生成し、両者がMLLMベースのテキストエンコーダーを共有します。SkyReels V4の生成はテキスト、画像、動画クリップ、マスク、音声参照を受け付け、SkyReels V4はテキストから動画、画像から動画、インペインティング、編集を1つのパイプラインでカバーします。SkyReels V4の出力は1回のレンダリングあたり最大1080p、32 FPS、15秒です。
SkyReels V4は最大1080p・32 FPSで出力し、SkyReels V4は多くのテキスト動画モデルが既定とする24/30 FPSより滑らかな動きを実現します。
SkyReels V4は1回のレンダリングで15秒のクリップを生成します。SkyReels V4のクリップは連結なしでオープニングやBロール素材として十分な長さです。
SkyReels V4は同じレンダリング内で画面上のアクションと時間軸が揃った音声を生成します。SkyReels V4を使えば別途のフォーリー作業は不要です。
テキスト、画像、動画クリップ、マスク、音声参照——SkyReels V4は1回のプロンプトで5つのモダリティを読み取ります。SkyReels V4の入力は混在しても問題ありません。
領域をマスクして変更内容を記述するだけ。SkyReels V4はフレームの他の部分と音声トラックを保持したまま埋め直します。
既存クリップと指示を渡すと、SkyReels V4は動画と音声をまとめて編集します。SkyReels V4の編集には別ツールは要りません。
SkyReels V4 — テキスト入力で15秒の1080p動画と同期音声を出力。
シーンを言葉で記述すると、SkyReels V4はそれを読み取って32 FPSの1080pクリップを15秒分、時間軸が揃った音声とともに描画します。SkyReels V4は1回のレンダリング、1つのパイプライン、別途の音声処理は不要です。
テキスト+画像+動画+マスク+音声——SkyReels V4のプロンプトはすべてを読み取ります。
キャラクターを固定する参照画像、延長する既存クリップ、編集箇所を限定するマスク、サウンドトラックを合わせる音声クリップ——SkyReels V4はマルチモーダルなセットを1回の呼び出しで受け取ります。SkyReels V4のプロンプト1本に5つのモダリティを束ねて渡せます。
SkyReels V4はテキストから動画、画像から動画、インペインティング、編集を1つのパイプラインでカバーします。
従来の動画モデルはゼロからの生成しかできませんでした。SkyReels V4は既存クリップとマスクや指示も受け付け、SkyReels V4は動画と音声を同時に編集します。キャラクター差し替え、背景修正、音声重ね——すべてSkyReels V4の中で完結します。
デュアルストリーム構造により、SkyReels V4の音声はモデル段階でフレームと時間軸が揃います。
SkyReels V4のMMDiTアーキテクチャは2つのブランチを持ち、一方が動画、もう一方が音声を担い、テキストエンコーダーを共有します。実際の効果として、SkyReels V4の音声トラックはアクションと一致します——足音は接地の瞬間に鳴り、台詞はリップシンクし、環境音はカットに合います。SkyReels V4の音声処理はモデル内で完結するため、後処理での同期作業を省けます。
SkyReels V4は撮影現場の語彙を理解します——ドリー、クレーン、レンズ、ライト、カラーグレード。
撮影監督に伝えるようにSkyReels V4のクリップを指示してみてください。レンズ、カメラの動き、キーライトとリムライト、ムード、音声を指定するだけ。SkyReels V4はやり直しを繰り返すよりも、設計された一発撮りに近い結果を出します。SkyReels V4のショット指示は曖昧な命令より具体的な撮影語彙が効きます。
8本のクリップ——各キャプションはそのまま使えるSkyReels V4のプロンプトです
各ベンダーの公式ページで確認した仕様のみ——第三者による数値は使用していません。
| 機能 | SkyReels V4 | Veo 3.1 | Seedance 2.0 | Sora 2 |
|---|---|---|---|---|
| 最大クリップ長 | 15秒 | 標準8秒、Scene Extensionで最大148秒 | 15秒(マルチショット) | 最大12秒(Sora 2 API) |
| 解像度 / FPS | 最大1080p / 32 FPS | 最大4Kアップスケール | 公式に明記なし | 最大720p(Sora 2) |
| レンダリング内音声 | あり、時間軸が揃う | あり、ネイティブ48kHz | あり、デュアルチャンネル | あり、同期音声 |
| 入力モダリティ | テキスト、画像、動画、マスク、音声 | テキスト、画像 | テキスト、画像、音声、動画 | テキスト、画像 |
| インペインティング+編集 | あり、ネイティブ(マスク+指示) | ドキュメントなし | ドキュメントなし | ドキュメントなし |
| リリース日 | 2026-02-25(Skywork AI) | 2026-01-13(Google DeepMind) | 2026-02-12(ByteDance Seed) | 2025(OpenAI) |
使える映像とノイズだらけのやり直しを分ける4つの習慣
1つのSkyReels V4プロンプトに、被写体、カメラの動き、レンズ、ライト、ムード、音声を書き並べます。SkyReels V4のレンダリングは入力した内容をそのまま反映するため、SkyReels V4には情報を絞って渡すのが得策です。
YouTubeなら16:9、Reelsなら9:16、フィードなら1:1。SkyReels V4へ送る前に両方を設定してください——SkyReels V4の上限は1回のレンダリングで15秒です。
キャラクターや製品をショット間で同じ見た目に保つ必要があるときはSkyReels V4に参照画像を渡します。SkyReels V4は画像、動画、マスク、音声をまとめて読み取れます。
聞きたい内容を言葉で——「環境雨音」「アップビートのlofi」「2人の笑い声」など。SkyReels V4は同じレンダリングで音声を出力するので、SkyReels V4に音の指示を忘れずに添えてください。
初回のSkyReels V4レンダリング前にユーザーが実際に尋ねる質問
SkyReels V4は無料、クレジットカード不要。15秒の1080p動画と時間軸が揃った音声。上のフォームからZorqAIでSkyReels V4を試せます。SkyReels V4の最初のレンダリングを今すぐ。