阿里雲百鍊推出的影片生成模型,支援四種輸入模式
HappyHorse 1.0 是阿里雲百鍊(阿里云百炼)的影片生成模型。四個變體 — 文生影片、首幀圖生影片、參考生影片與影片編輯 — 共用同一個 Bailian DashScope 端點。HappyHorse 1.0 單次渲染輸出 3-15 秒的 720P 或 1080P MP4 影片。
HappyHorse 1.0 涵蓋 T2V、I2V(首幀)、Reference(1-9 張角色參考圖片)以及 Video-Edit — 共用一個百鍊端點與一套計費模型。
每一個 HappyHorse 1.0 變體都接受 3-15 秒的 duration 參數(預設 5 秒)。HappyHorse 1.0 短片做循環,長片做開場。
HappyHorse 1.0 輸出 MP4 H.264 格式,解析度為 720P 或 1080P,預設 1080P。社群、網站與多數廣告版位都直接堪用。
HappyHorse 1.0 的 T2V 與 Reference 變體支援 16:9、9:16、1:1、4:3、3:4 — Reels、YouTube、各類資訊流,一條提示詞全部覆蓋。
HappyHorse 1.0 的 Reference 變體最多接受 9 張參考圖片,於提示詞中以 `character1`...`character9` 進行指代。
使用 DashScope API 金鑰驗證,向百鍊影片合成端點 POST 請求,加上 `X-DashScope-Async: enable` 標頭,輪詢任務即可取得 1080P MP4 成片。
HappyHorse 1.0 發表會在影片內直接渲染英文、普通話、地方方言與雙語混搭的台詞。
HappyHorse 1.0 發表會展示了影片內直接生成的角色對白 — 黑色電影風的巴黎咖啡廳英文對話、普通話偵訊室的緩慢張力場、邵氏電影語言互換喜劇、河南方言的產品搞笑橋段,以及私人飛機艙內的雙語談判。在四個官方 HappyHorse 1.0 變體中,目前僅 HappyHorse 1.0 的 video-edit 變體於 API 文件中明列 `audio_setting` 參數;其餘 HappyHorse 1.0 變體的發表會展示影片仍附帶聲音。建議將 HappyHorse 1.0 發表會實機展示視為這個家族能呈現的聲音規格。
HappyHorse 1.0 單條提示詞最多支援 5,000 個非中文字元(或 2,500 個中文字元),長腳本鏡頭依然可以還原。
早期影片模型撐不過幾句腳本 — 第三個分鏡開始就會偏離分鏡表。HappyHorse 1.0 能把長分鏡提示詞貫穿整段影片:地面起飛的 FPV 視角、貝果店慢動作減速、垂直爬升越過摩天大樓玻璃帷幕、軸向翻轉,再到莫比烏斯鏡像世界結尾。發表會以一段 800 字的分鏡腳本送進 HappyHorse 1.0 一次渲染 — 每一個鏡頭運動都依序到位。
HappyHorse 1.0 的 I2V 變體只接受一張首幀圖片,並由該幀繼續動起來。
丟一張圖給 HappyHorse 1.0 — JPEG、JPG、PNG 或 WEBP,每邊至少 300 像素,畫面比例介於 1:2.5 與 2.5:1,檔案大小 10 MB 以內 — HappyHorse 1.0 的 I2V 變體會把它當作影片真正的第一幀。風格轉換落在 HappyHorse 1.0 的訓練覆蓋範圍內:發表會展示了一個卡通角色旋轉一圈後直接漸變成寫實場景。HappyHorse 1.0 的 I2V 適合產品開場、品牌揭示,以及已有靜態素材的劇情類應用。
HappyHorse 1.0 發表會影片在畫面中同步附帶環境音效 — 落葉、風聲、流水、室內氛圍音。
踩在落葉上的腳步聲、林冠間的風聲、遠處的溪流聲 — HappyHorse 1.0 的森林步道發表會展示影片把這些環境聲響全部直接呈現於影片中。雖然 HappyHorse 1.0 的 T2V/I2V/Reference 變體並未在 API 文件中明列環境音景參數,但 HappyHorse 1.0 的發表會實機展示讓這項能力可被觀察。透過 HappyHorse 1.0,ASMR 影片片段、外景 B-roll 與氛圍鏡頭可直接交付,省去額外的聲音設計流程。
HappyHorse 1.0 的 Reference 變體接受 1-9 張角色圖片,並在提示詞中對應到 `character1`...`character9`。
兩個角色必須在同一段戲中保持是同一個人 — 一個男孩與一台生鏽機器人輕聲說「我們是朋友」,接著拉遠的全景 — 這正是較弱模型最常出包的失敗模式。HappyHorse 1.0 的 Reference 變體最多接受 9 張 reference_image(每張至少 720P、檔案 10 MB 以內,畫面比例介於 1:2.5 與 2.5:1),HappyHorse 1.0 會將每張圖片綁定到提示詞中的角色代詞。一段 HappyHorse 1.0 Reference 影片可以在剪接點之間維持身分、服裝與道具的連戲,這是 HappyHorse 1.0 在多角色場景的核心優勢。
十段影片 — 每一段說明都是 HappyHorse 1.0 公開發表會的真實提示詞
各項能力資料來自每家供應商的官方文件。
| 能力 | HappyHorse 1.0 | Veo 3.1 | Kling 3.0 | Sora 2 |
|---|---|---|---|---|
| 供應商 | Alibaba Cloud Model Studio | Google DeepMind | Kuaishou Technology | OpenAI |
| 家族變體 | T2V、I2V(首幀)、Reference、Video-Edit | T2V 含 Scene Extension、Ingredients to Video | T2V、I2V、多鏡頭 | T2V、I2V |
| 單次最大影片長度 | 3-15 秒(每次請求) | 基礎 8 秒;Scene Extension 最長至 148 秒 | 最長 15 秒、最多 6 個鏡頭 | 最長 12 秒(Sora 2 API) |
| 輸出解析度 | 720P 或 1080P(預設 1080P) | 原生最高 1080p;支援 4K 升頻 | 1080p 多鏡頭輸出 | Sora 2 / Sora 2 Pro 兩種等級 |
| 參考素材 | Reference 變體:1-9 張角色參考圖片 | 最多 3 張參考圖片(Ingredients) | 支援多模態輸入 | 單張圖片參考 |
| 多模態輸入 | 文字、圖片、影片 | 文字、圖片 | 文字、圖片、音訊、影片 | 文字、圖片 |
| API 接取 | Bailian DashScope(北京 + 新加坡) | Google AI / Vertex AI | Kling AI API | OpenAI Sora API |
四個習慣,讓 HappyHorse 1.0 第一次渲染就拿到能用的影片
從 `happyhorse-1.0-t2v`(純文字)、`happyhorse-1.0-i2v`(單張首幀圖片)、`happyhorse-1.0-r2v`(1-9 張角色參考)以及 `happyhorse-1.0-video-edit`(既有影片加可選參考圖片)之間做選擇。每個 HappyHorse 1.0 變體吃的是稍微不同的腦袋 — 選對 HappyHorse 1.0 變體就能省掉一次重跑。
HappyHorse 1.0 接受 `duration` 3-15 秒、`resolution` 720P 或 1080P,以及 16:9、9:16、1:1、4:3、3:4 的 `ratio`(僅 T2V 與 Reference)。在動筆前就決定 — Reels 用 9:16 5 秒、開場用 16:9 12 秒 — 提示詞才能瞄準明確的成品畫面。
HappyHorse 1.0 撐得住長提示詞(最多 5,000 個非中文字元 / 2,500 個中文字元)。寫清楚主體、運鏡方式、鏡頭焦段、打光,以及你希望聽到什麼。HappyHorse 1.0 的發表會實機展示已證實這個模型可在影格中直接渲染聲音 — 把它明確寫出來。
如果使用 HappyHorse 1.0 的 Reference 變體,把參考圖片放進 `media[]`,並在提示詞中以 `character1`、`character2`...等代詞指稱。每張參考圖片需為 JPEG/JPG/PNG/WEBP,短邊 ≥ 400 px,檔案大小 ≤ 10 MB。
在跑出第一段 HappyHorse 1.0 影片之前,大家最常問的幾件事
免費。免信用卡。從文字、圖片或參考素材生成 3-15 秒的 1080P 影片。馬上試試上方的 HappyHorse 1.0。