崑崙天工的雙流影片音訊模型,內建區域修補與影片編輯
SkyReels V4 是崑崙天工 Skywork AI 在 2026-02-25 釋出的首款整合型影片音訊生成模型。架構採用雙流多模態擴散 Transformer(MMDiT):一條分支負責合成影片,另一條同步生成對齊音訊,兩者共用 MLLM 文字編碼器。SkyReels V4 單次推論可吃下文字、圖片、影片片段、遮罩與音訊參考,把文字生成影片、圖片生成影片、區域修補與影片編輯全部收進同一條管線。輸出規格為 1080p、32 FPS、單次最長 15 秒。
SkyReels V4 最高輸出 1080p、32 FPS,動態畫面比一般文字生成影片模型常見的 24/30 FPS 還要滑順。
SkyReels V4 單次生成可產出 15 秒影片,足以拍一個開場或一段空鏡 B-roll,不必拼接多段片段。
SkyReels V4 在同一次生成中產出音訊,並與畫面動作對齊在同一條時間軸上,無需另外做配音擬音。
文字、圖片、影片片段、遮罩、音訊參考——SkyReels V4 在同一個提示詞中同時讀取這五種輸入格式。
標出遮罩、寫好要改成什麼,SkyReels V4 會把指定區域填補完成,同時保留畫面其他部分與原本的音訊。
丟一段現有影片加上修改指令,SkyReels V4 會同時編輯影片與音訊,整個 SkyReels V4 編輯流程不需另外開軟體。
SkyReels V4——輸入文字,輸出 15 秒 1080p 影片與同步音訊。
你描述場景,SkyReels V4 讀完後會渲染出 15 秒、1080p、32 FPS 的影片,並附上時間軸對齊的音訊。一次推論、一條管線,不必再跑單獨的音訊流程。
文字 + 圖片 + 影片 + 遮罩 + 音訊——SkyReels V4 一次讀完。
丟一張參考圖鎖定角色、一段影片片段做延續、一張遮罩定位編輯範圍,或一段音訊比對配樂節奏。SkyReels V4 把整包多模態素材在同一次呼叫中處理完。
SkyReels V4 把文字生成影片、圖片生成影片、區域修補與影片編輯整合在同一條管線。
過去的影片模型只能從零生成,SkyReels V4 還能吃下既有影片,搭配遮罩或修改指令,同時編輯影片與音訊——換角色、修背景、加環境音,全部在 SkyReels V4 模型內完成。
雙流架構讓 SkyReels V4 的音訊在模型層級就與畫面對齊。
MMDiT 架構分成兩條分支:一條跑影片、一條跑音訊,兩條共用同一組文字編碼器。實際效果是:SkyReels V4 的音訊會貼齊動作——腳步聲落在踩地瞬間、對白配合嘴型、環境音切合鏡頭轉換。
SkyReels V4 看得懂分鏡語彙——推軌、升降、鏡頭、燈光、調色。
用攝影師會用的方式描述這個鏡頭:指定鏡頭焦段、運鏡方式、主光與輪廓光、整體氛圍與配樂風格。SkyReels V4 算出來的結果會更接近事先排好的鏡頭,而不是反覆重抽憑運氣。
八段影片,每段標題都是可以直接複用的 SkyReels V4 提示詞
規格皆出自各家官方頁面,沒有第三方數據。
| 能力項目 | SkyReels V4 | Veo 3.1 | Seedance 2.0 | Sora 2 |
|---|---|---|---|---|
| 單次最長片段 | 15 秒 | 8 秒起;可透過 Scene Extension 延長到 148 秒 | 15 秒(多鏡頭) | 最長 12 秒(Sora 2 API) |
| 解析度/FPS | 最高 1080p/32 FPS | 最高 4K 升頻 | 官方未公布 | 最高 720p(Sora 2) |
| 生成內含音訊 | 有,時間軸對齊 | 有,原生 48kHz | 有,雙聲道 | 有,同步音訊 |
| 輸入模態 | 文字、圖片、影片、遮罩、音訊 | 文字、圖片 | 文字、圖片、音訊、影片 | 文字、圖片 |
| 區域修補與編輯 | 有,原生(遮罩+指令) | 未公開 | 未公開 | 未公開 |
| 釋出日期 | 2026-02-25(崑崙天工 Skywork AI) | 2026-01-13(Google DeepMind) | 2026-02-12(位元組跳動 Seed) | 2025(OpenAI) |
四個習慣讓你少抽幾次卡,多拿到能用的素材
在一段 SkyReels V4 提示詞中寫清楚主體、運鏡、鏡頭焦段、燈光、氛圍與聲音。SkyReels V4 算出來的畫面就是你給它的內容。
YouTube 用 16:9,Reels 用 9:16,動態消息用 1:1。送出 SkyReels V4 之前先把這兩項定下來——SkyReels V4 單次最長 15 秒。
當角色或產品需要每個鏡頭都長一樣,丟一張參考圖。SkyReels V4 可以同時讀取圖片、影片、遮罩與音訊。
明確寫出想聽到什麼——「環境雨聲」、「輕快 lofi」、「兩位朋友的笑聲」。SkyReels V4 會把音訊放在同一次生成中產出。
使用者第一次跑 SkyReels V4 之前最常問的問題
免費、不必綁信用卡,15 秒 1080p 影片附時間軸對齊音訊。立即在 ZorqAI 上方試用 SkyReels V4。