Veo 3.1 是 Google DeepMind 的影片生成模型，於 2026-01-13 正式發布。一次 Veo 3.1 渲染輸出 8 秒影片，並同步生成 48kHz 音訊。場景延伸可串接 7-8 秒片段，組成最長 148 秒的序列。

多數平台都提供免費方案。免費的 Veo 3.1 使用通常會限制片長、每日次數或輸出解析度；付費方案則解鎖 4K 升頻與更長的場景延伸串接。你可以在上方免費試用 Veo 3.1，無需信用卡。

Veo 3.1 是否包含音訊？

是的 — Veo 3.1 在生成畫面的同一次渲染中輸出 48kHz 音訊。環境音、音效與對嘴對白皆出自同一次渲染，因此 Veo 3.1 影片可直接上架 TikTok 或 YouTube，無需另外處理音訊。

Veo 3.1 可以使用幾張參考圖片？

依 Google DeepMind 官方說明，素材轉影片功能每次 Veo 3.1 生成最多接受 3 張參考圖片 — 通常用來鎖定主體身份、服裝與環境。

一段 Veo 3.1 影片可以多長？

一次 Veo 3.1 渲染為 8 秒。場景延伸再串接 7-8 秒片段並維持主角與色調，最終可組成最長 148 秒的電影級序列。

Veo 3.1 的成果可以商用嗎？

通常可以，但需依各平台條款而定。Veo 3.1 的商用片段一般可用於廣告、商品影片與客戶委託。請查看你所使用 Veo 3.1 平台的授權條款 — 部分會限制政治、醫療或名人形象用途。

免費 · 免註冊即試

Veo 3.1 — 8 秒影片內建 48kHz 原生音訊

Veo 3.1 是 Google DeepMind 的文字轉影片模型。一段提示詞即可生成 8 秒影片，並同步輸出 48kHz 音訊。場景延伸功能可串接多段 7-8 秒片段，組成最長 148 秒的電影級敘事。

Veo 3.1 是什麼？

Google 的文字轉影片模型，內建原生音訊與場景延伸

Veo 3.1 是 Google DeepMind 推出的影片生成模型，於 2026-01-13 正式發布。一次 Veo 3.1 渲染就能輸出 8 秒影片，並同步生成 48kHz 音訊 — 環境音、音效與對白都與畫面一同產出。Veo 3.1 帶來兩項創作功能：場景延伸可串接 7-8 秒片段，組成最長 148 秒的敘事；素材轉影片（Ingredients to Video）支援上傳最多 3 張參考圖片，以鎖定主角身份、服裝或環境。

原生 48kHz 音訊

Veo 3.1 在同一次渲染中產出 48kHz 的環境音、音效與對白 — 不需要另外處理音訊。

Explore

場景延伸最長 148 秒

串接 7-8 秒片段，Veo 3.1 序列可延伸至 148 秒，主角與色調保持一致。

Explore

素材轉影片

上傳最多 3 張參考圖片，Veo 3.1 會在影片中鎖定主體、服裝與環境。

Explore

4K 升頻

Veo 3.1 內建 4K 升頻並重建細節 — 以 1080p 渲染、輸出印刷級畫質。

Explore

原生 9:16 縱向

在提示詞中設定 9:16，Veo 3.1 即為 Shorts、TikTok 與 Reels 渲染 — 免重新裁切、無黑邊。

Explore

電影級運鏡指令

推軌、升降、橫搖、環繞 — Veo 3.1 讀懂分鏡語彙，一次 Veo 3.1 渲染即還原指定鏡頭。

Explore

一段提示詞，一支 8 秒含聲影片

Veo 3.1 — 文字輸入，畫面與 48kHz 音訊一次輸出，中間無需剪輯軟體。

你寫好場景，Veo 3.1 讀完即可渲染一支 8 秒影片，音訊同步輸出。產品預告、品牌宣傳、社群開場 — Veo 3.1 一次渲染就完成一個鏡頭。

場景延伸最長 148 秒

串接 7-8 秒片段 — Veo 3.1 在剪接點維持同一主角、色調與運鏡。

8 秒底片往往撐不起完整開場。Veo 3.1 場景延伸每次再加 7-8 秒，主角身份與色彩風格一致保留，整段電影級序列可串到 148 秒，無需手動接續。

素材轉影片 — 3 張參考圖片

傳入最多 3 張參考圖 — Veo 3.1 會在影片裡鎖定主體、服裝與場景。

傳一張人像鎖定角色，一張服裝照保留穿搭，一張場景圖固定環境。Veo 3.1 會把三張圖與提示詞一起讀進去 — 適用於品牌代言人、主打商品與連戲分鏡。

48kHz 音訊與畫面同步輸出

環境音、配樂與對白都來自同一次 Veo 3.1 渲染 — 不需要額外擬音。

早期文字轉影片工具只能輸出無聲片段，得在後期配樂混音。Veo 3.1 以 48kHz 同步生成環境音、配樂與對嘴對白 — 完成的影片可直接上架 TikTok 或 YouTube。

像攝影指導一樣指揮鏡頭

Veo 3.1 讀懂分鏡語彙 — 推軌、升降、鏡頭、燈光、調色。

用對攝影指導下指令的方式撰寫提示詞。寫清楚鏡頭、運鏡、主光與輪廓光、整體氛圍，Veo 3.1 比反覆抽卡更接近預設構圖 — 適合主視覺鏡頭、品牌宣傳與開場。

一段提示詞即可生成的 Veo 3.1 範例

八支影片 — 每段說明都是可直接複用的 Veo 3.1 提示詞

緩慢推軌前進，黑色霧面轎車駛過雨後霓虹東京小巷，夜晚城市環境音，16:9，8s

夕陽下布魯克林屋頂，兩位好友開懷大笑，手持對白鏡頭，對嘴同步，電影級調色，16:9，8s

野生動物慢動作，雪豹在喜馬拉雅岩台間躍進，環境風聲，600mm 望遠鏡頭，9:16，8s

黑絲絨上奢華手錶的產品微距環繞鏡頭，緩慢旋轉，錶圈頻閃高光，1:1，8s

電影級空拍，雷克雅維克港口在極光下，緩慢視差移動，環境風聲，21:9，8s

主視覺咖啡注入特寫，蒸氣升起，木桌上暖色鎢絲燈，私密 ASMR 音效，16:9，5s

黎明衝浪手划水出海，平靜海面映出粉色天空，輕柔運動，海洋環境音，9:16，6s

舞蹈教室雙人現代舞鏡頭，主光加輪廓光，16:9，8s

Veo 3.1 vs Seedance 2.0 vs Sora 2 vs Kling 3.0

規格皆來自各廠商官方頁面 — 不採用第三方數字。

功能	Veo 3.1	Seedance 2.0	Sora 2	Kling 3.0
最長片長	8 秒底片；場景延伸最長 148 秒	15 秒（多鏡頭）	最長 12 秒（Sora 2 API）	最長 15 秒（最多 6 個鏡頭）
渲染內含音訊	支援，原生 48kHz	支援，雙聲道	支援，同步音訊	支援，多語原生
參考素材	最多 3 張參考圖片（素材轉影片）	9 張圖片 + 3 段影片 + 3 段音訊	單張圖片參考	支援多模態輸入
多鏡頭輸出	場景延伸串接 8 秒片段	單次渲染、多鏡頭	單一片段	單次渲染最多 6 個鏡頭
多模態輸入	文字、圖片	文字、圖片、音訊、影片	文字、圖片	文字、圖片、音訊、影片
發布日期	2026-01-13（Google DeepMind）	2026-02-12（ByteDance Seed）	2025（OpenAI）	2026-02-04（快手）

如何撰寫真正可用的 Veo 3.1 提示詞

四個習慣，把可用素材與重抽噪音分開

寫鏡頭，不要寫故事

在一段 Veo 3.1 提示詞中寫出主體、運鏡、鏡頭、燈光、氛圍與音訊。Veo 3.1 渲染會反映你給的內容。

先決定比例與長度

16:9 給 YouTube、9:16 給 Shorts、1:1 給動態消息。送出 Veo 3.1 前先設定好兩者 — Veo 3.1 會把它們鎖進影片。

用素材鎖定身份

需要角色或商品在跨鏡頭間保持一致時，丟一張參考圖片進去。Veo 3.1 每次生成最多讀 3 張圖片。

明確要求所需音訊

寫清楚你想聽到什麼 — 「環境雨聲」、「輕快 lofi」、「兩位朋友開懷大笑」。Veo 3.1 會在同一次渲染中輸出 48kHz 音訊。

Veo 3.1 — 常見問題

使用者在第一次 Veo 3.1 渲染前真正會問的事

完成你的第一支 Veo 3.1 渲染

免費，免信用卡。8 秒影片內建 48kHz 音訊。在上方 ZorqAI 免費試用 Veo 3.1。

Veo 3.1 vs Seedance 2.0 vs Sora 2 vs Kling 3.0

規格皆來自各廠商官方頁面 — 不採用第三方數字。

功能	Veo 3.1	Seedance 2.0	Sora 2	Kling 3.0
最長片長	8 秒底片；場景延伸最長 148 秒	15 秒（多鏡頭）	最長 12 秒（Sora 2 API）	最長 15 秒（最多 6 個鏡頭）
渲染內含音訊	支援，原生 48kHz	支援，雙聲道	支援，同步音訊	支援，多語原生
參考素材	最多 3 張參考圖片（素材轉影片）	9 張圖片 + 3 段影片 + 3 段音訊	單張圖片參考	支援多模態輸入
多鏡頭輸出	場景延伸串接 8 秒片段	單次渲染、多鏡頭	單一片段	單次渲染最多 6 個鏡頭
多模態輸入	文字、圖片	文字、圖片、音訊、影片	文字、圖片	文字、圖片、音訊、影片
發布日期	2026-01-13（Google DeepMind）	2026-02-12（ByteDance Seed）	2025（OpenAI）	2026-02-04（快手）

Veo 3.1 — 8 秒影片內建 48kHz 原生音訊