本工作由加州大學洛杉磯分校與字節 Seed 等團隊聯合完成。
在擴散模型持續引領視覺生成浪潮的今天,圖像生成早已臻于極致,但視頻生成仍被一個關鍵瓶頸困住——時長限制。目前多數模型還停留在數秒短視頻的生成,Self-Forcing++讓視頻生成首次跨入4 分鐘高質量長視頻時代,且無需任何長視頻數據再訓練。先展示一段 100 秒的生成視頻:

本工作由加州大學洛杉磯分校與字節 Seed 等團隊聯合完成。
在擴散模型持續引領視覺生成浪潮的今天,圖像生成早已臻于極致,但視頻生成仍被一個關鍵瓶頸困住——時長限制。目前多數模型還停留在數秒短視頻的生成,Self-Forcing++讓視頻生成首次跨入4 分鐘高質量長視頻時代,且無需任何長視頻數據再訓練。先展示一段 100 秒的生成視頻:
