HappyHorse 1.0 是什麼？

HappyHorse 1.0 是阿里雲百鍊（阿里云百炼）正式上架的影片生成模型。HappyHorse 1.0 家族包含四個變體：文生影片（`happyhorse-1.0-t2v`）、首幀圖生影片（`happyhorse-1.0-i2v`）、參考圖生影片（`happyhorse-1.0-r2v`）以及影片編輯（`happyhorse-1.0-video-edit`）。四個變體共用同一個百鍊 DashScope 非同步端點。

HappyHorse 1.0 的影片可以多長？

每個 HappyHorse 1.0 變體都支援 `duration` 參數，範圍 3-15 秒，預設 5 秒。video-edit 變體的規則則略有不同：若輸入影片在 15 秒以內，輸出時長與輸入一致；若輸入超過 15 秒，HappyHorse 1.0 會截取前 15 秒。

HappyHorse 1.0 會生成聲音嗎？

在四個官方 HappyHorse 1.0 變體中，目前僅 video-edit 變體（`happyhorse-1.0-video-edit`）於 API 文件中明列 `audio_setting` 參數 — 可選 `auto`（由模型決定）或 `origin`（保留輸入影片原音）。其他變體的發表會實機展示影片附帶多語對白與環境音，但 API 文件並未為 T2V、I2V、Reference 提供正式的音訊控制參數。

HappyHorse 1.0 支援哪些解析度與畫面比例？

HappyHorse 1.0 輸出 MP4（H.264）格式，解析度為 720P 或 1080P，預設 1080P。T2V 與 Reference 變體支援 `ratio` 參數，可選 16:9（預設）、9:16、1:1、4:3、3:4。I2V 變體沒有 `ratio` 參數 — 輸出畫面比例大致依首幀圖片決定 — video-edit 變體則沿用輸入影片的比例。

一段 HappyHorse 1.0 提示詞可以用幾張參考圖片？

依變體而定。T2V 不需要任何參考圖片。I2V 只接受一張首幀圖片（每邊 ≥ 300 px、畫面比例 1:2.5-2.5:1、檔案 ≤ 10 MB）。Reference 接受 1-9 張角色參考圖片，於提示詞中以 `character1` 至 `character9` 指代。Video-edit 接受一段輸入影片（3-60 秒、檔案 ≤ 100 MB），外加 0-5 張可選的參考圖片。

HappyHorse 1.0 的官方文件在哪裡？

HappyHorse 1.0 的 API 文件放在阿里雲說明中心 model-studio 路徑底下：HappyHorse-文生影片（T2V）、HappyHorse-圖生影片-基於首幀（I2V）、HappyHorse-參考生影片（Reference）、HappyHorse-影片編輯（Video-Edit）。英文鏡像則位於 alibabacloud.com/help/en/model-studio/。每一個變體文件都列出請求結構、參數範圍以及共用的非同步端點。

免費 · 免註冊即可試用

HappyHorse 1.0 — 阿里雲多變體影片生成模型

HappyHorse 1.0 是阿里雲百鍊（Model Studio）的影片生成模型家族。一段 HappyHorse 1.0 提示詞即可從文字、首幀圖片、最多 9 張參考圖片或既有影片，生成 3-15 秒的 1080P 影片。電影級對白、環境音景與第一人稱 FPV 一鏡到底，皆出自 HappyHorse 1.0 發表會的實機展示。

什麼是 HappyHorse 1.0？

阿里雲百鍊推出的影片生成模型，支援四種輸入模式

HappyHorse 1.0 是阿里雲百鍊（阿里云百炼）的影片生成模型。四個變體 — 文生影片、首幀圖生影片、參考生影片與影片編輯 — 共用同一個 Bailian DashScope 端點。HappyHorse 1.0 單次渲染輸出 3-15 秒的 720P 或 1080P MP4 影片。

一個家族四種變體

HappyHorse 1.0 涵蓋 T2V、I2V（首幀）、Reference（1-9 張角色參考圖片）以及 Video-Edit — 共用一個百鍊端點與一套計費模型。

Explore

3-15 秒影片成片

每一個 HappyHorse 1.0 變體都接受 3-15 秒的 duration 參數（預設 5 秒）。HappyHorse 1.0 短片做循環，長片做開場。

Explore

720P 與 1080P 輸出

HappyHorse 1.0 輸出 MP4 H.264 格式，解析度為 720P 或 1080P，預設 1080P。社群、網站與多數廣告版位都直接堪用。

Explore

五種畫面比例

HappyHorse 1.0 的 T2V 與 Reference 變體支援 16:9、9:16、1:1、4:3、3:4 — Reels、YouTube、各類資訊流，一條提示詞全部覆蓋。

Explore

最多 9 張角色參考圖片

HappyHorse 1.0 的 Reference 變體最多接受 9 張參考圖片，於提示詞中以 `character1`...`character9` 進行指代。

Explore

百鍊 DashScope API

使用 DashScope API 金鑰驗證，向百鍊影片合成端點 POST 請求，加上 `X-DashScope-Async: enable` 標頭，輪詢任務即可取得 1080P MP4 成片。

Explore

HappyHorse 1.0 發表會實機展示的電影級對白

HappyHorse 1.0 發表會在影片內直接渲染英文、普通話、地方方言與雙語混搭的台詞。

HappyHorse 1.0 發表會展示了影片內直接生成的角色對白 — 黑色電影風的巴黎咖啡廳英文對話、普通話偵訊室的緩慢張力場、邵氏電影語言互換喜劇、河南方言的產品搞笑橋段，以及私人飛機艙內的雙語談判。在四個官方 HappyHorse 1.0 變體中，目前僅 HappyHorse 1.0 的 video-edit 變體於 API 文件中明列 `audio_setting` 參數；其餘 HappyHorse 1.0 變體的發表會展示影片仍附帶聲音。建議將 HappyHorse 1.0 發表會實機展示視為這個家族能呈現的聲音規格。

HappyHorse 1.0 一鏡到底的長提示詞鏡頭

HappyHorse 1.0 單條提示詞最多支援 5,000 個非中文字元（或 2,500 個中文字元），長腳本鏡頭依然可以還原。

早期影片模型撐不過幾句腳本 — 第三個分鏡開始就會偏離分鏡表。HappyHorse 1.0 能把長分鏡提示詞貫穿整段影片：地面起飛的 FPV 視角、貝果店慢動作減速、垂直爬升越過摩天大樓玻璃帷幕、軸向翻轉，再到莫比烏斯鏡像世界結尾。發表會以一段 800 字的分鏡腳本送進 HappyHorse 1.0 一次渲染 — 每一個鏡頭運動都依序到位。

首幀圖片即 HappyHorse 1.0 影片開場

HappyHorse 1.0 的 I2V 變體只接受一張首幀圖片，並由該幀繼續動起來。

丟一張圖給 HappyHorse 1.0 — JPEG、JPG、PNG 或 WEBP，每邊至少 300 像素，畫面比例介於 1:2.5 與 2.5:1，檔案大小 10 MB 以內 — HappyHorse 1.0 的 I2V 變體會把它當作影片真正的第一幀。風格轉換落在 HappyHorse 1.0 的訓練覆蓋範圍內：發表會展示了一個卡通角色旋轉一圈後直接漸變成寫實場景。HappyHorse 1.0 的 I2V 適合產品開場、品牌揭示，以及已有靜態素材的劇情類應用。

發表會展示的環境音景

HappyHorse 1.0 發表會影片在畫面中同步附帶環境音效 — 落葉、風聲、流水、室內氛圍音。

踩在落葉上的腳步聲、林冠間的風聲、遠處的溪流聲 — HappyHorse 1.0 的森林步道發表會展示影片把這些環境聲響全部直接呈現於影片中。雖然 HappyHorse 1.0 的 T2V/I2V/Reference 變體並未在 API 文件中明列環境音景參數，但 HappyHorse 1.0 的發表會實機展示讓這項能力可被觀察。透過 HappyHorse 1.0，ASMR 影片片段、外景 B-roll 與氛圍鏡頭可直接交付，省去額外的聲音設計流程。

最多 9 張角色參考圖片

HappyHorse 1.0 的 Reference 變體接受 1-9 張角色圖片，並在提示詞中對應到 `character1`...`character9`。

兩個角色必須在同一段戲中保持是同一個人 — 一個男孩與一台生鏽機器人輕聲說「我們是朋友」，接著拉遠的全景 — 這正是較弱模型最常出包的失敗模式。HappyHorse 1.0 的 Reference 變體最多接受 9 張 reference_image（每張至少 720P、檔案 10 MB 以內，畫面比例介於 1:2.5 與 2.5:1），HappyHorse 1.0 會將每張圖片綁定到提示詞中的角色代詞。一段 HappyHorse 1.0 Reference 影片可以在剪接點之間維持身分、服裝與道具的連戲，這是 HappyHorse 1.0 在多角色場景的核心優勢。

HappyHorse 1.0 發表會實機輸出範例

十段影片 — 每一段說明都是 HappyHorse 1.0 公開發表會的真實提示詞

陽光斜照的巴黎咖啡廳，黑色電影氛圍 — 深藍西裝男子與緋紅洋裝女子隔著半空咖啡杯交鋒英文對白，35 mm 底片顆粒，黃金時刻光線。

曼哈頓清晨 FPV 一鏡到底的超現實鏡頭 — 貝果店慢動作減速、垂直爬升越過摩天大樓玻璃帷幕、軸向翻轉，最後在布魯克林褐石老屋上空收尾於莫比烏斯鏡像世界。

HappyHorse 1.0 圖生影片首幀 — 一個卡通角色起舞、旋轉一圈，循同一條動作弧線漸變成寫實場景。

冷白色偵訊室 — 老練偵探推出一張照片，嫌犯撇開視線，普通話對白以慢拍精準停頓。

黎明森林步道 — 慢推鏡頭聚焦鞋底踏過濕泥與落葉，林冠間有風，遠處小溪潺潺，鳥鳴間歇出現。

邵氏電影風喜劇 — 西方演員講普通話，華人演員講英文，兩人在語言互換的笑點時機上對話。

滿月光下，男孩與生鏽機器人牽手 — 近景的真摯耳語「我們是朋友」，斷續的電子回應，再拉遠全景。

烈日漂白的沙漠對峙 — 兩名牛仔，地平線上的塵捲風，眉間汗水的極近特寫，李昂尼風的褐黃與焦橘色調。

9:16 直式 HappyHorse 1.0 圖生影片 — 一顆鳳梨擺出可愛姿勢，接著用河南方言邀請觀眾過來吃。

金紅落日下的豪華私人飛機 — 銀髮長者對上年輕菁英，雙語的獵人與獵物對白，引擎低鳴與冰塊碰撞玻璃杯的聲響。

HappyHorse 1.0 vs Veo 3.1 vs Kling 3.0 vs Sora 2

各項能力資料來自每家供應商的官方文件。

能力	HappyHorse 1.0	Veo 3.1	Kling 3.0	Sora 2
供應商	Alibaba Cloud Model Studio	Google DeepMind	Kuaishou Technology	OpenAI
家族變體	T2V、I2V（首幀）、Reference、Video-Edit	T2V 含 Scene Extension、Ingredients to Video	T2V、I2V、多鏡頭	T2V、I2V
單次最大影片長度	3-15 秒（每次請求）	基礎 8 秒；Scene Extension 最長至 148 秒	最長 15 秒、最多 6 個鏡頭	最長 12 秒（Sora 2 API）
輸出解析度	720P 或 1080P（預設 1080P）	原生最高 1080p；支援 4K 升頻	1080p 多鏡頭輸出	Sora 2 / Sora 2 Pro 兩種等級
參考素材	Reference 變體：1-9 張角色參考圖片	最多 3 張參考圖片（Ingredients）	支援多模態輸入	單張圖片參考
多模態輸入	文字、圖片、影片	文字、圖片	文字、圖片、音訊、影片	文字、圖片
API 接取	Bailian DashScope（北京 + 新加坡）	Google AI / Vertex AI	Kling AI API	OpenAI Sora API

HappyHorse 1.0 提示詞怎麼寫才一次到位

四個習慣，讓 HappyHorse 1.0 第一次渲染就拿到能用的影片

動筆前先決定 HappyHorse 1.0 變體

從 `happyhorse-1.0-t2v`（純文字）、`happyhorse-1.0-i2v`（單張首幀圖片）、`happyhorse-1.0-r2v`（1-9 張角色參考）以及 `happyhorse-1.0-video-edit`（既有影片加可選參考圖片）之間做選擇。每個 HappyHorse 1.0 變體吃的是稍微不同的腦袋 — 選對 HappyHorse 1.0 變體就能省掉一次重跑。

先設定好時長、解析度與比例

HappyHorse 1.0 接受 `duration` 3-15 秒、`resolution` 720P 或 1080P，以及 16:9、9:16、1:1、4:3、3:4 的 `ratio`（僅 T2V 與 Reference）。在動筆前就決定 — Reels 用 9:16 5 秒、開場用 16:9 12 秒 — 提示詞才能瞄準明確的成品畫面。

把動作、運鏡與聲音音景都寫進來

HappyHorse 1.0 撐得住長提示詞（最多 5,000 個非中文字元 / 2,500 個中文字元）。寫清楚主體、運鏡方式、鏡頭焦段、打光，以及你希望聽到什麼。HappyHorse 1.0 的發表會實機展示已證實這個模型可在影格中直接渲染聲音 — 把它明確寫出來。

用參考圖片鎖角色，用 character 代詞下指令

如果使用 HappyHorse 1.0 的 Reference 變體，把參考圖片放進 `media[]`，並在提示詞中以 `character1`、`character2`...等代詞指稱。每張參考圖片需為 JPEG/JPG/PNG/WEBP，短邊 ≥ 400 px，檔案大小 ≤ 10 MB。

HappyHorse 1.0 — 常見問題

在跑出第一段 HappyHorse 1.0 影片之前，大家最常問的幾件事

跑你的第一段 HappyHorse 1.0 影片

免費。免信用卡。從文字、圖片或參考素材生成 3-15 秒的 1080P 影片。馬上試試上方的 HappyHorse 1.0。

HappyHorse 1.0 — 阿里雲多變體影片生成模型

HappyHorse 1.0 vs Veo 3.1 vs Kling 3.0 vs Sora 2

各項能力資料來自每家供應商的官方文件。

能力	HappyHorse 1.0	Veo 3.1	Kling 3.0	Sora 2
供應商	Alibaba Cloud Model Studio	Google DeepMind	Kuaishou Technology	OpenAI
家族變體	T2V、I2V（首幀）、Reference、Video-Edit	T2V 含 Scene Extension、Ingredients to Video	T2V、I2V、多鏡頭	T2V、I2V
單次最大影片長度	3-15 秒（每次請求）	基礎 8 秒；Scene Extension 最長至 148 秒	最長 15 秒、最多 6 個鏡頭	最長 12 秒（Sora 2 API）
輸出解析度	720P 或 1080P（預設 1080P）	原生最高 1080p；支援 4K 升頻	1080p 多鏡頭輸出	Sora 2 / Sora 2 Pro 兩種等級
參考素材	Reference 變體：1-9 張角色參考圖片	最多 3 張參考圖片（Ingredients）	支援多模態輸入	單張圖片參考
多模態輸入	文字、圖片、影片	文字、圖片	文字、圖片、音訊、影片	文字、圖片
API 接取	Bailian DashScope（北京 + 新加坡）	Google AI / Vertex AI	Kling AI API	OpenAI Sora API

HappyHorse 1.0 — 阿里雲多變體影片生成模型