- 홈
- 텍스트로 영상 생성
- SkyReels V4
SkyReels V4 — 1080p 영상과 동기화 오디오를 한 번에 생성
SkyReels V4는 Skywork AI가 개발한 통합 영상-오디오 생성 모델입니다. 한 번의 SkyReels V4 렌더링으로 32 FPS, 1080p, 15초 길이의 클립과 시간적으로 정렬된 오디오가 함께 만들어집니다. 입력은 텍스트, 이미지, 영상, 마스크, 오디오 레퍼런스까지 모두 지원합니다.
SkyReels V4는 Skywork AI가 개발한 통합 영상-오디오 생성 모델입니다. 한 번의 SkyReels V4 렌더링으로 32 FPS, 1080p, 15초 길이의 클립과 시간적으로 정렬된 오디오가 함께 만들어집니다. 입력은 텍스트, 이미지, 영상, 마스크, 오디오 레퍼런스까지 모두 지원합니다.
네이티브 인페인팅과 편집을 갖춘 Skywork의 듀얼 스트림 영상-오디오 모델
SkyReels V4는 2026년 2월 25일에 공개된 Skywork AI 최초의 통합 영상-오디오 생성 모델입니다. 아키텍처는 듀얼 스트림 멀티모달 디퓨전 트랜스포머(MMDiT)이며, 한 분기는 영상을 합성하고 다른 분기는 시간적으로 정렬된 오디오를 생성하면서 MLLM 기반 텍스트 인코더를 공유합니다. SkyReels V4 한 번의 생성은 텍스트, 이미지, 영상 클립, 마스크, 오디오 레퍼런스를 입력으로 받아 텍스트-투-비디오, 이미지-투-비디오, 인페인팅, 편집을 단일 파이프라인에서 처리합니다. 출력은 렌더링당 1080p, 32 FPS, 15초가 상한입니다.
SkyReels V4는 최대 1080p, 32 FPS로 출력하므로, 대다수 텍스트-투-비디오 모델이 기본값으로 쓰는 24/30 FPS보다 SkyReels V4 결과물의 움직임이 부드럽습니다.
SkyReels V4 한 번의 렌더링으로 15초 길이의 클립이 만들어지며, 별도 연결 작업 없이 SkyReels V4만으로 오프닝이나 B-roll로 충분히 쓸 수 있는 길이입니다.
SkyReels V4는 같은 렌더링 안에서 화면 동작과 시간적으로 정렬된 오디오를 생성하므로, SkyReels V4 작업 흐름에서 별도의 폴리(Foley) 작업이 필요 없습니다.
텍스트, 이미지, 영상 클립, 마스크, 오디오 레퍼런스 — SkyReels V4는 한 번의 프롬프트에서 다섯 가지 모달리티를 모두 읽어들이며, SkyReels V4 입력 파이프라인이 이를 동시에 처리합니다.
영역을 마스크로 지정하고 변경 내용을 적으면, SkyReels V4가 나머지 프레임과 오디오 베드를 보존하면서 해당 부분을 채워 넣습니다. SkyReels V4 인페인팅은 별도 모델 없이 동작합니다.
기존 클립과 지시문을 함께 전달하면 SkyReels V4가 영상과 오디오를 동시에 편집해 주며, SkyReels V4 편집에는 별도 도구가 필요 없습니다.
SkyReels V4 — 텍스트를 넣으면 15초 1080p 영상과 동기화 오디오가 함께 출력됩니다.
장면을 묘사하기만 하면 SkyReels V4가 이를 읽고 32 FPS, 1080p, 15초 클립을 시간 정렬 오디오와 함께 렌더링합니다. SkyReels V4는 한 번의 렌더링, 하나의 파이프라인으로 끝나며 별도 오디오 작업이 필요 없습니다.
텍스트 + 이미지 + 영상 + 마스크 + 오디오 — SkyReels V4 프롬프트는 이 모두를 읽어들입니다.
캐릭터를 고정하기 위한 레퍼런스 이미지, 이어 붙일 기존 클립, 편집을 한정하기 위한 마스크, 사운드트랙을 맞출 오디오 클립을 함께 넣어 보세요. SkyReels V4는 한 번의 호출에서 멀티모달 번들 전체를 받으며, SkyReels V4 출력은 입력한 모달리티를 모두 반영합니다.
SkyReels V4는 텍스트-투-비디오, 이미지-투-비디오, 인페인팅, 편집을 하나의 파이프라인으로 처리합니다.
이전 영상 모델은 처음부터 새로 생성하는 작업만 가능했습니다. SkyReels V4는 기존 클립과 마스크 또는 지시문을 함께 받아, 영상과 오디오를 동시에 편집합니다 — 캐릭터 교체, 배경 보정, 오디오 오버레이까지 SkyReels V4 모델 안에서 모두 끝납니다.
듀얼 스트림 아키텍처 덕분에 SkyReels V4 오디오는 모델 단계에서부터 프레임과 시간적으로 정렬됩니다.
SkyReels V4의 MMDiT 아키텍처는 영상과 오디오 두 분기로 구성되며 텍스트 인코더를 공유합니다. 그 결과 SkyReels V4 오디오 베드는 동작과 정확히 맞물립니다 — 발걸음은 접지 순간에 들어오고, 대사는 입모양에 맞으며, 환경음은 컷에 맞춰 흘러갑니다.
SkyReels V4는 돌리, 크레인, 렌즈, 라이트, 컬러 그레이드 같은 샷리스트 용어를 그대로 받아들입니다.
촬영 감독에게 브리핑하듯 클립을 설명해 보세요. 렌즈, 카메라 무브, 키 라이트와 림 라이트, 분위기, 오디오까지 짚어 주면 SkyReels V4는 무작정 재생성을 반복하기보다 의도한 샷에 가까운 결과를 한 번에 내놓습니다. SkyReels V4 프롬프트가 구체적일수록 결과물의 품질이 높아집니다.
여덟 개의 클립 — 각 캡션은 그대로 재사용 가능한 SkyReels V4 프롬프트입니다
각 벤더 공식 페이지 기준으로 검증된 사양 — 제3자 수치는 사용하지 않았습니다.
| 기능 | SkyReels V4 | Veo 3.1 | Seedance 2.0 | Sora 2 |
|---|---|---|---|---|
| 최대 클립 길이 | 15초 | 기본 8s, Scene Extension으로 최대 148s | 15초 (멀티 샷) | 최대 12s (Sora 2 API) |
| 해상도 / FPS | 최대 1080p / 32 FPS | 최대 4K 업스케일 | 공식 미공개 | 최대 720p (Sora 2) |
| 렌더링 내 오디오 | 지원, 시간 정렬 | 지원, 네이티브 48kHz | 지원, 듀얼 채널 | 지원, 동기화 오디오 |
| 입력 모달리티 | 텍스트, 이미지, 영상, 마스크, 오디오 | 텍스트, 이미지 | 텍스트, 이미지, 오디오, 영상 | 텍스트, 이미지 |
| 인페인팅 + 편집 | 지원, 네이티브 (마스크 + 지시문) | 문서화되지 않음 | 문서화되지 않음 | 문서화되지 않음 |
| 출시일 | 2026-02-25 (Skywork AI) | 2026-01-13 (Google DeepMind) | 2026-02-12 (ByteDance Seed) | 2025 (OpenAI) |
재생성 노이즈 대신 쓸 수 있는 영상이 나오는 네 가지 습관
한 번의 SkyReels V4 프롬프트에 피사체, 카메라 무브, 렌즈, 조명, 분위기, 오디오를 모두 적어 보세요. SkyReels V4 렌더링 결과는 입력한 정보를 그대로 반영하기 때문에 SkyReels V4 프롬프트의 구체성이 품질을 좌우합니다.
유튜브는 16:9, 릴스는 9:16, 피드는 1:1을 사용합니다. SkyReels V4에 제출하기 전에 두 값 모두 정해 두세요 — SkyReels V4는 렌더링당 15s가 상한이며, SkyReels V4 출력 비율은 시작 단계에서 고정됩니다.
캐릭터나 제품이 샷마다 같은 모습이어야 한다면 레퍼런스 이미지를 함께 넣으세요. SkyReels V4는 이미지, 영상, 마스크, 오디오를 함께 읽으며, SkyReels V4 멀티모달 입력이 일관성을 잡아 줍니다.
원하는 사운드를 그대로 적어 보세요 — '환경 빗소리', '경쾌한 로파이', '두 친구가 웃는 소리'처럼요. SkyReels V4는 같은 렌더링 안에서 오디오까지 함께 출력하므로 SkyReels V4 결과물에 별도 사운드 트랙을 붙일 필요가 없습니다.
사용자가 첫 SkyReels V4 렌더링 전에 실제로 묻는 질문
무료, 신용카드 불필요, 시간 정렬 오디오를 갖춘 15s 1080p SkyReels V4 영상. 위에서 ZorqAI로 SkyReels V4를 체험해 보세요.