該項工作的作者分別是來自香港中文大學的博士生施柯煊,來自西湖大學的助理教授溫研東,來自香港中文大學的計算機系助理教授劉威楊。
當前,基于通用基礎模型進行任務特定微調已成為主流范式。這種范式雖然能夠在各個特定任務上獲得高性能的專家模型,但也帶來新的挑戰:如何將這些特定微調得到的專家模型的能力有效整合到單一模型中并且無需訪問原始訓練數據,實現多任務協通,同時最小化性能損失?
針對這一問題,研究者們提出了FDA(Model Merging with Functional Dual Anchors)——一個全新的模型融合框架。與傳統的參數空間操作不同,FDA 將專家模型的參數知識投射到輸入-表征空間中的合成錨點,通過功能對偶的方式實現更高效的知識整合。