Google 的文字轉影片模型,內建原生音訊與場景延伸
Veo 3.1 是 Google DeepMind 推出的影片生成模型,於 2026-01-13 正式發布。一次 Veo 3.1 渲染就能輸出 8 秒影片,並同步生成 48kHz 音訊 — 環境音、音效與對白都與畫面一同產出。Veo 3.1 帶來兩項創作功能:場景延伸可串接 7-8 秒片段,組成最長 148 秒的敘事;素材轉影片(Ingredients to Video)支援上傳最多 3 張參考圖片,以鎖定主角身份、服裝或環境。
Veo 3.1 在同一次渲染中產出 48kHz 的環境音、音效與對白 — 不需要另外處理音訊。
串接 7-8 秒片段,Veo 3.1 序列可延伸至 148 秒,主角與色調保持一致。
上傳最多 3 張參考圖片,Veo 3.1 會在影片中鎖定主體、服裝與環境。
Veo 3.1 內建 4K 升頻並重建細節 — 以 1080p 渲染、輸出印刷級畫質。
在提示詞中設定 9:16,Veo 3.1 即為 Shorts、TikTok 與 Reels 渲染 — 免重新裁切、無黑邊。
推軌、升降、橫搖、環繞 — Veo 3.1 讀懂分鏡語彙,一次 Veo 3.1 渲染即還原指定鏡頭。
Veo 3.1 — 文字輸入,畫面與 48kHz 音訊一次輸出,中間無需剪輯軟體。
你寫好場景,Veo 3.1 讀完即可渲染一支 8 秒影片,音訊同步輸出。產品預告、品牌宣傳、社群開場 — Veo 3.1 一次渲染就完成一個鏡頭。
串接 7-8 秒片段 — Veo 3.1 在剪接點維持同一主角、色調與運鏡。
8 秒底片往往撐不起完整開場。Veo 3.1 場景延伸每次再加 7-8 秒,主角身份與色彩風格一致保留,整段電影級序列可串到 148 秒,無需手動接續。
傳入最多 3 張參考圖 — Veo 3.1 會在影片裡鎖定主體、服裝與場景。
傳一張人像鎖定角色,一張服裝照保留穿搭,一張場景圖固定環境。Veo 3.1 會把三張圖與提示詞一起讀進去 — 適用於品牌代言人、主打商品與連戲分鏡。
環境音、配樂與對白都來自同一次 Veo 3.1 渲染 — 不需要額外擬音。
早期文字轉影片工具只能輸出無聲片段,得在後期配樂混音。Veo 3.1 以 48kHz 同步生成環境音、配樂與對嘴對白 — 完成的影片可直接上架 TikTok 或 YouTube。
Veo 3.1 讀懂分鏡語彙 — 推軌、升降、鏡頭、燈光、調色。
用對攝影指導下指令的方式撰寫提示詞。寫清楚鏡頭、運鏡、主光與輪廓光、整體氛圍,Veo 3.1 比反覆抽卡更接近預設構圖 — 適合主視覺鏡頭、品牌宣傳與開場。
八支影片 — 每段說明都是可直接複用的 Veo 3.1 提示詞
規格皆來自各廠商官方頁面 — 不採用第三方數字。
| 功能 | Veo 3.1 | Seedance 2.0 | Sora 2 | Kling 3.0 |
|---|---|---|---|---|
| 最長片長 | 8 秒底片;場景延伸最長 148 秒 | 15 秒(多鏡頭) | 最長 12 秒(Sora 2 API) | 最長 15 秒(最多 6 個鏡頭) |
| 渲染內含音訊 | 支援,原生 48kHz | 支援,雙聲道 | 支援,同步音訊 | 支援,多語原生 |
| 參考素材 | 最多 3 張參考圖片(素材轉影片) | 9 張圖片 + 3 段影片 + 3 段音訊 | 單張圖片參考 | 支援多模態輸入 |
| 多鏡頭輸出 | 場景延伸串接 8 秒片段 | 單次渲染、多鏡頭 | 單一片段 | 單次渲染最多 6 個鏡頭 |
| 多模態輸入 | 文字、圖片 | 文字、圖片、音訊、影片 | 文字、圖片 | 文字、圖片、音訊、影片 |
| 發布日期 | 2026-01-13(Google DeepMind) | 2026-02-12(ByteDance Seed) | 2025(OpenAI) | 2026-02-04(快手) |
四個習慣,把可用素材與重抽噪音分開
在一段 Veo 3.1 提示詞中寫出主體、運鏡、鏡頭、燈光、氛圍與音訊。Veo 3.1 渲染會反映你給的內容。
16:9 給 YouTube、9:16 給 Shorts、1:1 給動態消息。送出 Veo 3.1 前先設定好兩者 — Veo 3.1 會把它們鎖進影片。
需要角色或商品在跨鏡頭間保持一致時,丟一張參考圖片進去。Veo 3.1 每次生成最多讀 3 張圖片。
寫清楚你想聽到什麼 — 「環境雨聲」、「輕快 lofi」、「兩位朋友開懷大笑」。Veo 3.1 會在同一次渲染中輸出 48kHz 音訊。
使用者在第一次 Veo 3.1 渲染前真正會問的事
免費,免信用卡。8 秒影片內建 48kHz 音訊。在上方 ZorqAI 免費試用 Veo 3.1。