Veo 3.1은 무료로 쓸 수 있나요?

대부분의 제공처에서 무료 티어를 운영합니다. 무료 Veo 3.1 사용 시에는 보통 클립 길이, 일일 횟수, 출력 해상도 중 일부가 제한되며, 유료 플랜에서는 4K 업스케일링과 더 긴 장면 확장 체인이 열립니다. 위 화면에서 신용카드 없이 Veo 3.1을 무료로 체험할 수 있습니다.

Veo 3.1은 오디오까지 만들어 주나요?

네, Veo 3.1은 프레임과 같은 패스에서 48kHz 오디오를 함께 렌더링합니다. 환경음, 효과음, 립싱크 대사가 한 번의 렌더링에서 함께 출력되므로, Veo 3.1 클립은 별도의 오디오 작업 없이 틱톡이나 유튜브에 바로 올릴 수 있습니다.

Veo 3.1은 레퍼런스 이미지를 몇 장까지 받나요?

구글 딥마인드 발표에 따르면, 인그리디언츠 투 비디오 기능은 Veo 3.1 한 번 생성당 최대 3장의 레퍼런스 이미지를 받습니다. 보통 인물 동일성, 의상, 배경을 고정하는 용도로 활용됩니다.

Veo 3.1 클립은 얼마나 길게 만들 수 있나요?

Veo 3.1 한 번 렌더링은 8초입니다. 장면 확장은 7~8초 세그먼트를 추가로 이어 붙이며 인물과 색감을 유지하므로, 최대 148초까지 시네마틱 시퀀스를 만들 수 있습니다.

Veo 3.1 결과물을 상업적으로 써도 되나요?

보통은 가능하며, 각 제공처의 약관을 따릅니다. 상업용 Veo 3.1 클립은 일반적으로 광고, 제품 영상, 클라이언트 작업에 그대로 활용할 수 있습니다. 정치, 의료, 유명인 외형 등 일부는 제한될 수 있으니 사용하는 Veo 3.1 제공처의 라이선스를 반드시 확인하세요.

무료 · 가입 없이 체험 가능

Veo 3.1 — 네이티브 48kHz 오디오가 입혀진 8초 클립

Veo 3.1은 구글 딥마인드의 텍스트-투-비디오 모델입니다. 프롬프트 한 줄이면 동기화된 48kHz 오디오와 함께 8초 클립이 만들어집니다. 장면 확장 기능은 7~8초 분량을 추가로 이어 붙여 최대 148초의 시네마틱 시퀀스를 완성합니다.

Veo 3.1이란?

네이티브 오디오와 장면 확장을 갖춘 구글의 텍스트-투-비디오 모델

Veo 3.1은 구글 딥마인드의 영상 생성 모델로, 2026-01-13에 정식 공개되었습니다. Veo 3.1은 한 번의 렌더링으로 동기화된 48kHz 오디오가 포함된 8초 클립을 만들어 냅니다. 환경음, 효과음, 대사가 영상 프레임과 함께 한 번에 생성됩니다. Veo 3.1은 두 가지 핵심 창작 기능을 도입했습니다. 장면 확장은 7~8초 분량의 세그먼트를 이어 붙여 최대 148초까지 내러티브를 늘려 주고, 인그리디언츠 투 비디오는 레퍼런스 이미지를 최대 3장까지 업로드해 인물의 외형, 의상, 배경을 클립 전체에 걸쳐 고정해 줍니다.

네이티브 48kHz 오디오

Veo 3.1은 환경음, 효과음, 대사를 같은 Veo 3.1 렌더링 안에서 48kHz로 만들어 냅니다. 별도의 오디오 작업 단계가 필요 없습니다.

Explore

최대 148초 장면 확장

7~8초 세그먼트를 이어 붙이세요. Veo 3.1 시퀀스는 일관된 캐릭터와 색감을 유지하며 최대 148초까지 이어집니다.

Explore

Veo 3.1 인그리디언츠 투 비디오

레퍼런스 이미지를 최대 3장 업로드하면 Veo 3.1이 인물, 의상, 배경을 Veo 3.1 클립 전반에 걸쳐 고정해 줍니다.

Explore

4K 업스케일링

Veo 3.1은 디테일 복원을 갖춘 4K 업스케일링을 제공합니다. 1080p로 렌더링하고 인쇄급 해상도로 납품하세요.

Explore

Veo 3.1 네이티브 9:16 세로 비율

프롬프트에 9:16을 지정하면 Veo 3.1이 쇼츠, 틱톡, 릴스용으로 바로 렌더링합니다. Veo 3.1에서는 리크롭이나 레터박스가 필요 없습니다.

Explore

시네마틱 카메라 디렉션

달리, 크레인, 휩 팬, 오빗까지 — Veo 3.1은 촬영 콘티의 전문 용어를 그대로 받아 들이며, Veo 3.1 렌더링은 연출된 샷에 가깝게 떨어집니다.

Explore

Veo 3.1 프롬프트 한 줄로 사운드까지 입힌 8초 클립

Veo 3.1 — 텍스트가 들어가면 프레임과 48kHz 오디오가 나옵니다. Veo 3.1 사이에는 중간 편집 단계가 필요 없습니다.

장면을 글로 적으면, Veo 3.1이 그 글을 읽고 동기화된 오디오가 입혀진 Veo 3.1 8초 클립을 한 번에 렌더링합니다. 제품 티저, 브랜드 프로모, 소셜 오프닝 영상까지 — Veo 3.1은 한 번의 패스로 한 컷을 마무리합니다.

Veo 3.1 장면 확장으로 최대 148초까지

7~8초 세그먼트를 이어 붙이세요 — Veo 3.1은 컷이 바뀌어도 같은 인물, 색감, 카메라를 유지합니다.

8초짜리 베이스 클립만으로 풀 오프닝을 채우기에는 부족합니다. Veo 3.1의 장면 확장은 한 번 패스에 7~8초씩 이어 붙이면서 인물 동일성과 색 보정을 그대로 유지하므로, 수동 연결 작업 없이 최대 148초의 시네마틱 시퀀스를 쌓아 올릴 수 있습니다.

Veo 3.1 인그리디언츠 투 비디오 — 레퍼런스 이미지 3장

레퍼런스를 최대 3장 넣으면 Veo 3.1이 인물, 의상, 배경을 Veo 3.1 클립 전체에 걸쳐 고정합니다.

캐릭터를 고정할 인물 사진, 의상을 유지할 코디 컷, 배경을 묶어 둘 로케이션 이미지를 함께 넣어 보세요. Veo 3.1은 세 장을 프롬프트와 동시에 읽어 처리합니다. Veo 3.1은 브랜드 모델, 히어로 제품, 연속 장면 스토리보드에 특히 유용합니다.

Veo 3.1 프레임과 함께 렌더링되는 48kHz 오디오

환경음, 음악, 대사가 같은 Veo 3.1 패스에서 한 번에 나옵니다 — 별도 폴리 작업이 필요 없습니다.

기존 텍스트-투-비디오 도구는 무음 클립을 내놓아 후반에서 음악을 입히고 믹싱해야 했습니다. Veo 3.1은 환경음, 음악 베드, 립싱크 대사를 48kHz로 프레임과 함께 렌더링합니다. Veo 3.1 클립을 그대로 틱톡이나 유튜브에 업로드할 수 있습니다.

Veo 3.1로 촬영감독처럼 카메라를 디렉팅하기

Veo 3.1은 촬영 콘티 어휘를 그대로 받아 들입니다 — 달리, 크레인, 렌즈, 라이트, 색감까지.

촬영감독에게 브리핑하듯 Veo 3.1 클립을 설명해 보세요. 렌즈, 카메라 무빙, 키 라이트와 림 라이트, 무드를 짚어 주면 됩니다. Veo 3.1은 무작정 다시 돌리는 결과물보다 연출된 샷에 더 가깝게 떨어집니다. Veo 3.1은 히어로 컷, 브랜드 프로모, 오프닝 영상에 적합합니다.

프롬프트 한 줄로 만든 Veo 3.1 결과물

여덟 개의 클립 — 각 캡션은 그대로 재사용할 수 있는 Veo 3.1 프롬프트입니다

비 내린 네온 도쿄 골목을 달리는 무광 블랙 세단을 슬로우 달리 인으로, 야간 도시 환경음, 16:9, 8s

노을 진 브루클린 옥상에서 웃고 있는 두 친구, 핸드헬드 대화 샷, 립싱크, 시네마틱 색감, 16:9, 8s

히말라야 바위 사이를 도약하는 눈표범의 와일드라이프 슬로우 모션, 환경 바람 소리, 600mm 망원, 9:16, 8s

검정 벨벳 위에 놓인 럭셔리 시계의 제품 매크로 오빗, 천천히 회전, 베젤에 스트로브 하이라이트, 1:1, 8s

오로라가 펼쳐진 레이캬비크 항구 위로 시네마틱 항공 샷, 천천히 흐르는 페럴랙스, 환경 바람 소리, 21:9, 8s

히어로 커피 푸어 클로즈업, 피어오르는 김, 원목 테이블 위 따뜻한 텅스텐 램프, 친밀한 ASMR, 16:9, 5s

동틀 녘에 패들링하는 서퍼, 분홍빛 하늘이 반사되는 잔잔한 수면, 부드러운 움직임, 바다 환경음, 9:16, 6s

댄스 스튜디오에서 컨템퍼러리 듀오 안무 장면, 키 라이트와 림 라이트, 16:9, 8s

Veo 3.1 vs Seedance 2.0 vs Sora 2 vs Kling 3.0

각 벤더의 공식 페이지에서 검증된 사양만 정리했습니다 — 제3자 수치는 사용하지 않았습니다.

기능	Veo 3.1	Seedance 2.0	Sora 2	Kling 3.0
최대 클립 길이	기본 8초, 장면 확장으로 최대 148초	15초 (멀티샷)	최대 12초 (Sora 2 API)	최대 15초 (최대 6컷)
렌더링 시 오디오	지원, 네이티브 48kHz	지원, 듀얼 채널	지원, 동기화 오디오	지원, 다국어 네이티브
레퍼런스 자산	레퍼런스 이미지 최대 3장 (인그리디언츠 투 비디오)	이미지 9장 + 영상 3개 + 오디오 3개	단일 이미지 레퍼런스	멀티모달 입력 지원
멀티샷 출력	장면 확장으로 8초 클립 연결	단일 렌더링, 멀티샷	단일 클립	한 번 렌더링에 최대 6컷
멀티모달 입력	텍스트, 이미지	텍스트, 이미지, 오디오, 영상	텍스트, 이미지	텍스트, 이미지, 오디오, 영상
출시일	2026-01-13 (구글 딥마인드)	2026-02-12 (바이트댄스 시드)	2025 (OpenAI)	2026-02-04 (콰이쇼우)

쓸 만한 Veo 3.1 프롬프트 작성법

쓸 만한 영상과 다시 돌릴 영상을 가르는 네 가지 습관

스토리가 아니라 컷을 적기

Veo 3.1 프롬프트 한 줄에 피사체, 카메라 무빙, 렌즈, 라이트, 무드, 사운드를 함께 적으세요. Veo 3.1 렌더링은 입력한 만큼 그대로 반영됩니다.

비율과 길이를 먼저 정하기

유튜브는 16:9, 쇼츠는 9:16, 피드는 1:1입니다. 두 값을 모두 결정한 뒤 Veo 3.1에 제출하세요 — Veo 3.1은 이 설정을 클립에 그대로 고정합니다.

동일성 유지에는 인그리디언츠 활용

여러 컷에 걸쳐 같은 인물이나 제품이 등장해야 한다면 레퍼런스 사진을 넣으세요. Veo 3.1은 한 번 생성에 최대 3장까지 읽어 들입니다.

원하는 사운드를 명시하기

'환경 빗소리', '경쾌한 로파이', '두 친구의 웃음소리'처럼 듣고 싶은 소리를 분명히 적으세요. Veo 3.1은 같은 렌더링에서 48kHz 오디오를 함께 만들어 냅니다.

Veo 3.1 — 자주 묻는 질문

사용자가 첫 Veo 3.1 렌더링을 돌리기 전 실제로 던지는 질문들

첫 Veo 3.1 렌더링을 지금 시작하세요

무료, 신용카드 불필요. 48kHz 오디오가 입혀진 8초 클립. ZorqAI 위쪽 화면에서 Veo 3.1을 바로 체험해 보세요.

Veo 3.1 — 네이티브 48kHz 오디오가 입혀진 8초 클립

Veo 3.1 vs Seedance 2.0 vs Sora 2 vs Kling 3.0

각 벤더의 공식 페이지에서 검증된 사양만 정리했습니다 — 제3자 수치는 사용하지 않았습니다.

기능	Veo 3.1	Seedance 2.0	Sora 2	Kling 3.0
최대 클립 길이	기본 8초, 장면 확장으로 최대 148초	15초 (멀티샷)	최대 12초 (Sora 2 API)	최대 15초 (최대 6컷)
렌더링 시 오디오	지원, 네이티브 48kHz	지원, 듀얼 채널	지원, 동기화 오디오	지원, 다국어 네이티브
레퍼런스 자산	레퍼런스 이미지 최대 3장 (인그리디언츠 투 비디오)	이미지 9장 + 영상 3개 + 오디오 3개	단일 이미지 레퍼런스	멀티모달 입력 지원
멀티샷 출력	장면 확장으로 8초 클립 연결	단일 렌더링, 멀티샷	단일 클립	한 번 렌더링에 최대 6컷
멀티모달 입력	텍스트, 이미지	텍스트, 이미지, 오디오, 영상	텍스트, 이미지	텍스트, 이미지, 오디오, 영상
출시일	2026-01-13 (구글 딥마인드)	2026-02-12 (바이트댄스 시드)	2025 (OpenAI)	2026-02-04 (콰이쇼우)

Veo 3.1 — 네이티브 48kHz 오디오가 입혀진 8초 클립