네이티브 오디오와 장면 확장을 갖춘 구글의 텍스트-투-비디오 모델
Veo 3.1은 구글 딥마인드의 영상 생성 모델로, 2026-01-13에 정식 공개되었습니다. Veo 3.1은 한 번의 렌더링으로 동기화된 48kHz 오디오가 포함된 8초 클립을 만들어 냅니다. 환경음, 효과음, 대사가 영상 프레임과 함께 한 번에 생성됩니다. Veo 3.1은 두 가지 핵심 창작 기능을 도입했습니다. 장면 확장은 7~8초 분량의 세그먼트를 이어 붙여 최대 148초까지 내러티브를 늘려 주고, 인그리디언츠 투 비디오는 레퍼런스 이미지를 최대 3장까지 업로드해 인물의 외형, 의상, 배경을 클립 전체에 걸쳐 고정해 줍니다.
Veo 3.1은 환경음, 효과음, 대사를 같은 Veo 3.1 렌더링 안에서 48kHz로 만들어 냅니다. 별도의 오디오 작업 단계가 필요 없습니다.
7~8초 세그먼트를 이어 붙이세요. Veo 3.1 시퀀스는 일관된 캐릭터와 색감을 유지하며 최대 148초까지 이어집니다.
레퍼런스 이미지를 최대 3장 업로드하면 Veo 3.1이 인물, 의상, 배경을 Veo 3.1 클립 전반에 걸쳐 고정해 줍니다.
Veo 3.1은 디테일 복원을 갖춘 4K 업스케일링을 제공합니다. 1080p로 렌더링하고 인쇄급 해상도로 납품하세요.
프롬프트에 9:16을 지정하면 Veo 3.1이 쇼츠, 틱톡, 릴스용으로 바로 렌더링합니다. Veo 3.1에서는 리크롭이나 레터박스가 필요 없습니다.
달리, 크레인, 휩 팬, 오빗까지 — Veo 3.1은 촬영 콘티의 전문 용어를 그대로 받아 들이며, Veo 3.1 렌더링은 연출된 샷에 가깝게 떨어집니다.
Veo 3.1 — 텍스트가 들어가면 프레임과 48kHz 오디오가 나옵니다. Veo 3.1 사이에는 중간 편집 단계가 필요 없습니다.
장면을 글로 적으면, Veo 3.1이 그 글을 읽고 동기화된 오디오가 입혀진 Veo 3.1 8초 클립을 한 번에 렌더링합니다. 제품 티저, 브랜드 프로모, 소셜 오프닝 영상까지 — Veo 3.1은 한 번의 패스로 한 컷을 마무리합니다.
7~8초 세그먼트를 이어 붙이세요 — Veo 3.1은 컷이 바뀌어도 같은 인물, 색감, 카메라를 유지합니다.
8초짜리 베이스 클립만으로 풀 오프닝을 채우기에는 부족합니다. Veo 3.1의 장면 확장은 한 번 패스에 7~8초씩 이어 붙이면서 인물 동일성과 색 보정을 그대로 유지하므로, 수동 연결 작업 없이 최대 148초의 시네마틱 시퀀스를 쌓아 올릴 수 있습니다.
레퍼런스를 최대 3장 넣으면 Veo 3.1이 인물, 의상, 배경을 Veo 3.1 클립 전체에 걸쳐 고정합니다.
캐릭터를 고정할 인물 사진, 의상을 유지할 코디 컷, 배경을 묶어 둘 로케이션 이미지를 함께 넣어 보세요. Veo 3.1은 세 장을 프롬프트와 동시에 읽어 처리합니다. Veo 3.1은 브랜드 모델, 히어로 제품, 연속 장면 스토리보드에 특히 유용합니다.
환경음, 음악, 대사가 같은 Veo 3.1 패스에서 한 번에 나옵니다 — 별도 폴리 작업이 필요 없습니다.
기존 텍스트-투-비디오 도구는 무음 클립을 내놓아 후반에서 음악을 입히고 믹싱해야 했습니다. Veo 3.1은 환경음, 음악 베드, 립싱크 대사를 48kHz로 프레임과 함께 렌더링합니다. Veo 3.1 클립을 그대로 틱톡이나 유튜브에 업로드할 수 있습니다.
Veo 3.1은 촬영 콘티 어휘를 그대로 받아 들입니다 — 달리, 크레인, 렌즈, 라이트, 색감까지.
촬영감독에게 브리핑하듯 Veo 3.1 클립을 설명해 보세요. 렌즈, 카메라 무빙, 키 라이트와 림 라이트, 무드를 짚어 주면 됩니다. Veo 3.1은 무작정 다시 돌리는 결과물보다 연출된 샷에 더 가깝게 떨어집니다. Veo 3.1은 히어로 컷, 브랜드 프로모, 오프닝 영상에 적합합니다.
여덟 개의 클립 — 각 캡션은 그대로 재사용할 수 있는 Veo 3.1 프롬프트입니다
각 벤더의 공식 페이지에서 검증된 사양만 정리했습니다 — 제3자 수치는 사용하지 않았습니다.
| 기능 | Veo 3.1 | Seedance 2.0 | Sora 2 | Kling 3.0 |
|---|---|---|---|---|
| 최대 클립 길이 | 기본 8초, 장면 확장으로 최대 148초 | 15초 (멀티샷) | 최대 12초 (Sora 2 API) | 최대 15초 (최대 6컷) |
| 렌더링 시 오디오 | 지원, 네이티브 48kHz | 지원, 듀얼 채널 | 지원, 동기화 오디오 | 지원, 다국어 네이티브 |
| 레퍼런스 자산 | 레퍼런스 이미지 최대 3장 (인그리디언츠 투 비디오) | 이미지 9장 + 영상 3개 + 오디오 3개 | 단일 이미지 레퍼런스 | 멀티모달 입력 지원 |
| 멀티샷 출력 | 장면 확장으로 8초 클립 연결 | 단일 렌더링, 멀티샷 | 단일 클립 | 한 번 렌더링에 최대 6컷 |
| 멀티모달 입력 | 텍스트, 이미지 | 텍스트, 이미지, 오디오, 영상 | 텍스트, 이미지 | 텍스트, 이미지, 오디오, 영상 |
| 출시일 | 2026-01-13 (구글 딥마인드) | 2026-02-12 (바이트댄스 시드) | 2025 (OpenAI) | 2026-02-04 (콰이쇼우) |
쓸 만한 영상과 다시 돌릴 영상을 가르는 네 가지 습관
Veo 3.1 프롬프트 한 줄에 피사체, 카메라 무빙, 렌즈, 라이트, 무드, 사운드를 함께 적으세요. Veo 3.1 렌더링은 입력한 만큼 그대로 반영됩니다.
유튜브는 16:9, 쇼츠는 9:16, 피드는 1:1입니다. 두 값을 모두 결정한 뒤 Veo 3.1에 제출하세요 — Veo 3.1은 이 설정을 클립에 그대로 고정합니다.
여러 컷에 걸쳐 같은 인물이나 제품이 등장해야 한다면 레퍼런스 사진을 넣으세요. Veo 3.1은 한 번 생성에 최대 3장까지 읽어 들입니다.
'환경 빗소리', '경쾌한 로파이', '두 친구의 웃음소리'처럼 듣고 싶은 소리를 분명히 적으세요. Veo 3.1은 같은 렌더링에서 48kHz 오디오를 함께 만들어 냅니다.
사용자가 첫 Veo 3.1 렌더링을 돌리기 전 실제로 던지는 질문들
무료, 신용카드 불필요. 48kHz 오디오가 입혀진 8초 클립. ZorqAI 위쪽 화면에서 Veo 3.1을 바로 체험해 보세요.