快手推出的多鏡頭影片模型,支援完整多模態輸入
Kling 3.0 是快手科技的影片生成模型系列,於 2026-02-04 正式發佈。本次發佈推出四款版本——Video 3.0、Video 3.0 Omni、Image 3.0、Image 3.0 Omni——專為敘事級影片生成而設計。單次 Kling 3.0 算圖最長可產出 15 秒影片,搭配最多 6 個多鏡頭分鏡運鏡、原生多語音訊(中文、英文、日文、韓文、西班牙文,並支援方言),並可同時接受文字、圖片、音訊與影片作為輸入。
Kling 3.0 Video 3.0 Omni 一次輸出多鏡頭分鏡腳本——15 秒影片內最多包含 6 個運鏡切換。
Kling 3.0 將片長從 10 秒延伸至 15 秒——比舊版提升 50%;Kling 3.0 適合開場長度的故事敘述。
Kling 3.0 內建中文、英文、日文、韓文與西班牙文的原生音訊——配音與影片在同一次算圖完成。
Kling 3.0 接受文字、圖片、音訊與影片作為輸入——單一提示詞可融合四種模態驅動算圖。
Kling 3.0 提升整段影片的擬真度與一致性——Kling 3.0 算圖讓人物與道具逐幀保持模型一致。
可逐鏡指定時長、構圖、視角與運鏡——Kling 3.0 Omni 嚴守分鏡指令,因此 Kling 3.0 能精準呈現你規劃的節奏。
Kling 3.0 Video 3.0 Omni 在單次算圖內串接多鏡頭分鏡腳本。
舊款文字生成影片工具只能產出單鏡頭——若要串接序列,必須手動剪接重組。Kling 3.0 Omni 接受分鏡腳本指令——逐鏡指定時長、景別、視角、敘事節拍與運鏡——並在一次算圖中回傳多鏡頭片段,於 15 秒影片內最多包含 6 個切換。
Kling 3.0 算圖支援中文、英文、日文、韓文或西班牙文音訊——並與畫面動作同步。
Kling 3.0 的音訊分支可生成對嘴對白、環境音與配樂,支援五種核心語言加方言變體。適合多市場行銷活動——同一個提示詞即可用五種語言渲染相同場景,省下逐國重新配音的成本。
Kling 3.0 提示詞可結合任意模態——丟一張參考圖配一段音樂,即可獲得對拍影片。
Kling 3.0 支援完整多模態輸入:文字描述場景、圖片鎖定人物或商品、音訊驅動口型同步或節拍、既有影片用於延伸或改風格。適合品牌代言人變體、音樂導向促銷片,以及連續場景的分鏡腳本。
Kling 3.0 拉高一致性標準——人物與道具在 6 個鏡頭間保持模型一致。
多鏡頭影片最容易在分鏡切換時讓主角走樣。Kling 3.0 在整段 15 秒序列中維持人物樣貌、服裝、道具與光線的一致性。適合品牌行銷活動,以及任何需要同一個人物跨鏡頭出現的敘事內容。
Kling 3.0 接受逐鏡指令——時長、景別、視角、運鏡。
把指令當成同時對攝影指導與剪輯師下達的需求單。逐鏡欄位可控制時長、構圖、鏡頭、視角與運動。Kling 3.0 Omni 嚴守分鏡腳本,因此最終剪接會貼合你預想的節奏與節拍。
八支影片——每段註解都是可重用的 Kling 3.0 指令
規格皆來自各廠官方頁面驗證——不採用第三方數據。
| 能力項目 | Kling 3.0 | Veo 3.1 | Seedance 2.0 | Sora 2 |
|---|---|---|---|---|
| 最長片長 | 最長 15 秒(最多 6 鏡頭) | 基礎 8 秒;經 Scene Extension 最長 148 秒 | 15 秒(多鏡頭) | 最長 12 秒(Sora 2 API) |
| 算圖內音訊 | 支援,原生多語 | 支援,原生 48kHz | 支援,雙聲道 | 支援,同步音訊 |
| 參考素材 | 支援多模態輸入 | 最多 3 張參考圖片 | 9 圖片+3 影片+3 音訊 | 單張圖片參考 |
| 多鏡頭輸出 | 單次算圖最多 6 鏡頭 | Scene Extension 串接 8 秒片段 | 單次算圖、多鏡頭 | 單一片段 |
| 多模態輸入 | 文字、圖片、音訊、影片 | 文字、圖片 | 文字、圖片、音訊、影片 | 文字、圖片 |
| 發佈日期 | 2026-02-04(快手) | 2026-01-13(Google DeepMind) | 2026-02-12(ByteDance Seed) | 2025(OpenAI) |
四個習慣,分出可用素材與重跑廢片
向 Kling 3.0 Omni 逐鏡下指令——時長、構圖、運鏡。Kling 3.0 算圖能在 15 秒內塞進最多 6 個鏡頭,所以節奏要事先規劃。
YouTube 用 16:9、Reels 用 9:16、社群動態用 1:1。提交 Kling 3.0 前先設定好——Kling 3.0 算圖以後就會鎖死。
丟一張人物或商品參考圖,跨鏡頭就能保持一致。Kling 3.0 讀取多模態輸入,包含參考圖片與音訊,所以 Kling 3.0 分鏡腳本能維持品牌調性。
說清楚你要聽到什麼——「環境雨聲」、「西班牙文旁白」、「歡快 lofi」。Kling 3.0 在同一次算圖內輸出原生音訊,因此 Kling 3.0 影片產出後即可上架。
用戶在第一次跑 Kling 3.0 算圖前最常問的問題
免費。免信用卡。最長 15 秒、6 個多鏡頭切換、原生多語音訊。在上方 ZorqAI 試用 Kling 3.0。