數字人視頻生成技術正迅速成為增強人機交互體驗的核心手段之一。然而,現有方法在實現低延遲、多模態控制與長時序一致性方面仍存在顯著挑戰。大多數系統要么計算開銷巨大,無法實時響應,要么只能處理單一模態輸入,缺乏真正的交互能力。
為了解決這些問題,快手可靈團隊(Kling Team) 提出了一種名為 MIDAS(Multimodal Interactive Digital-human Synthesis)的新型框架,通過自回歸視頻生成結合輕量化擴散去噪頭,實現了多模態條件下實時、流暢的數字人視頻合成。該系統具備三大核心優勢:
-
64× 高壓縮比自編碼器,將每幀壓縮至最多 60 個 token,大幅降低計算負荷;
-
低于 500ms 端到端生成延遲,支持實時流式交互;
-
4 步擴散去噪,在效率與視覺質量間取得最佳平衡。
該項研究已被廣泛實驗驗證,在多語言對話、歌唱合成甚至交互式世界建模等任務中表現出色,為數字人實時交互提供了全新解決方案。