풀 멀티모달 입력을 지원하는 콰이쇼우의 멀티샷 비디오 모델
Kling 3.0은 콰이쇼우 테크놀로지가 2026-02-04에 공식 출시한 비디오 생성 모델 시리즈입니다. 이 Kling 3.0 릴리스에서는 Video 3.0, Video 3.0 Omni, Image 3.0, Image 3.0 Omni 네 가지 변형이 도입되어 서사 수준의 영상 생성이 가능해졌습니다. Kling 3.0 한 번의 렌더로 최대 15초 영상, 최대 6컷 멀티샷 스토리보드 카메라 컷, Kling 3.0 네이티브 다국어 오디오(중국어·영어·일본어·한국어·스페인어, 방언 지원 포함)를 출력하며, Kling 3.0은 텍스트·이미지·오디오·비디오를 결합 입력으로 받습니다.
Kling 3.0 Video 3.0 Omni는 멀티샷 스토리보드를 출력합니다 — 단일 15초 클립 안에 최대 6개의 카메라 컷이 담깁니다.
Kling 3.0 한 번의 생성은 10초에서 15초로 확장됩니다 — 이전 버전 대비 50% 향상된 길이로, Kling 3.0은 오프닝 분량의 서사를 담아냅니다.
Kling 3.0은 중국어·영어·일본어·한국어·스페인어 네이티브 오디오를 함께 출력합니다 — 같은 렌더 안에 더빙이 그대로 실립니다.
Kling 3.0은 텍스트·이미지·오디오·비디오를 입력으로 받습니다 — 한 프롬프트에서 네 가지를 모두 결합해 렌더를 구동할 수 있습니다.
Kling 3.0은 클립 전체의 포토리얼리즘과 일관성을 끌어올립니다 — Kling 3.0 렌더는 캐릭터와 소품을 프레임 단위로 동일하게 유지합니다.
컷마다 지속 시간·프레이밍·시점·카메라 무브를 지정하세요 — Kling 3.0 Omni는 스토리보드 브리프를 충실히 따르므로, Kling 3.0은 의도한 리듬을 그대로 구현합니다.
Kling 3.0 Video 3.0 Omni는 한 번의 렌더 안에서 멀티샷 스토리보드를 이어 붙입니다.
기존 텍스트 투 비디오 도구는 단일 컷만 출력했고, 시퀀스를 만들려면 수동 컷팅과 재편집이 필요했습니다. Kling 3.0 Omni는 스토리보드 브리프(컷별 지속 시간·샷 사이즈·시점·서사 비트·카메라 무브)를 받아 한 번의 렌더로 멀티샷 클립을 반환합니다. Kling 3.0 워크플로에서는 15초 안에 최대 6컷이 들어가며, Kling 3.0의 멀티샷 엔진이 컷 간 전환을 자동으로 처리합니다.
Kling 3.0 렌더는 중국어·영어·일본어·한국어·스페인어 오디오를 — 액션과 동기화된 상태로 — 함께 출력합니다.
Kling 3.0의 오디오 브랜치는 5개 핵심 언어와 방언 변형으로 립싱크 대사·앰비언트 사운드·음악을 생성합니다. Kling 3.0 멀티 마켓 캠페인에 유용합니다 — 더빙별로 재촬영할 필요 없이 한 Kling 3.0 프롬프트에서 같은 장면을 5개 언어로 렌더링할 수 있습니다.
Kling 3.0 프롬프트는 어떤 모달리티든 결합할 수 있습니다 — 레퍼런스 이미지와 음악 클립을 넣으면 동기화된 영상이 나옵니다.
Kling 3.0은 풀 멀티모달 입력을 지원합니다: 텍스트는 장면을 묘사하고, 이미지는 캐릭터나 제품을 고정하며, 오디오 클립은 립싱크나 비트를 구동하고, 기존 비디오는 Kling 3.0에서 확장 또는 리스타일링됩니다. Kling 3.0 워크플로는 브랜드 인물 변형, 음악 중심 프로모, 연속 장면 스토리보드에 유용하며, Kling 3.0 한 번의 호출로 모든 모달리티를 묶을 수 있습니다.
Kling 3.0은 일관성 기준을 끌어올렸습니다 — 캐릭터와 소품이 6컷 전체에서 동일하게 유지됩니다.
멀티샷 클립은 컷이 바뀔 때 피사체가 흔들리면 무너집니다. Kling 3.0은 캐릭터 외모·의상·소품·조명을 15초 시퀀스 전체에서 유지합니다. Kling 3.0 브랜드 캠페인이나 같은 인물이 여러 컷에 일관되게 등장해야 하는 모든 서사에 유용하며, Kling 3.0 렌더는 재촬영 없이 컷 간 일관성을 보장합니다.
Kling 3.0은 컷별 디렉션 — 지속 시간·샷 사이즈·시점·카메라 무브 — 을 받습니다.
촬영 감독과 편집자에게 동시에 브리핑하듯 Kling 3.0 클립을 지시해 보세요. 컷별 필드로 지속 시간·프레이밍·렌즈·시점·움직임을 제어할 수 있습니다. Kling 3.0 Omni가 스토리보드를 충실히 따르므로, Kling 3.0 결과 컷이 의도한 리듬과 비트에 맞게 떨어집니다.
8개 클립 — 각 캡션은 그대로 재사용할 수 있는 Kling 3.0 브리프입니다
각 벤더 공식 페이지에서 검증한 스펙 — 제3자 수치 없음.
| 기능 | Kling 3.0 | Veo 3.1 | Seedance 2.0 | Sora 2 |
|---|---|---|---|---|
| 최대 클립 길이 | 최대 15초 (최대 6컷) | 기본 8초; Scene Extension으로 최대 148초 | 15초 (멀티샷) | 최대 12초 (Sora 2 API) |
| 렌더 내 오디오 | 지원, 다국어 네이티브 | 지원, 네이티브 48kHz | 지원, 듀얼 채널 | 지원, 동기화 오디오 |
| 레퍼런스 자산 | 멀티모달 입력 지원 | 최대 3장의 레퍼런스 이미지 | 이미지 9장 + 비디오 3개 + 오디오 3개 | 단일 이미지 레퍼런스 |
| 멀티샷 출력 | 한 번의 렌더로 최대 6컷 | Scene Extension으로 8초 클립 연결 | 단일 렌더, 멀티샷 | 단일 클립 |
| 멀티모달 입력 | 텍스트·이미지·오디오·비디오 | 텍스트·이미지 | 텍스트·이미지·오디오·비디오 | 텍스트·이미지 |
| 출시일 | 2026-02-04 (콰이쇼우) | 2026-01-13 (Google DeepMind) | 2026-02-12 (ByteDance Seed) | 2025 (OpenAI) |
재촬영용 노이즈와 실제 사용 가능한 푸티지를 가르는 네 가지 습관
Kling 3.0 Omni에 컷별로 브리핑하세요 — 컷마다 지속 시간·프레이밍·카메라 무브를 지정합니다. Kling 3.0 렌더는 15초 안에 최대 6컷을 담으므로 리듬을 미리 설계하세요.
유튜브용 16:9, 릴스용 9:16, 피드용 1:1. Kling 3.0에 제출하기 전에 둘 다 설정하세요 — Kling 3.0은 렌더별로 비율과 길이를 고정합니다.
컷 간 일관성을 위해 캐릭터나 제품 레퍼런스를 함께 전달하세요. Kling 3.0은 레퍼런스 이미지와 오디오를 포함한 멀티모달 입력을 읽기 때문에, Kling 3.0 스토리보드는 브랜드 톤을 유지합니다.
원하는 사운드를 직접 적으세요 — '앰비언트 빗소리', '스페인어 보이스오버', '경쾌한 로파이'. Kling 3.0은 같은 렌더에 네이티브 오디오를 함께 출력하므로, Kling 3.0 클립은 업로드 준비가 끝난 상태로 도착합니다.
사용자가 첫 Kling 3.0 렌더 전에 실제로 묻는 것들
무료. 신용카드 없음. 최대 15초, 6컷 멀티샷, 네이티브 다국어 오디오. 위에서 ZorqAI로 Kling 3.0을 체험해 보세요.