歡迎來到淘金地

上海 AI 實驗室開源 AETHER 世界模型?

來源: 發(fā)布時間:2025-04-23

在科技飛速發(fā)展的當下,人工智能領域的每一次突破都如同璀璨星辰,照亮人類前行的道路。近日,上海人工智能實驗室(上海 AI 實驗室)重磅開源了生成式世界模型 AETHER,這一消息猶如一顆投入平靜湖面的巨石,激起層層漣漪,為人工智能的發(fā)展注入了新的強大動力。

傳統(tǒng)世界模型在自動駕駛與游戲開發(fā)等領域有廣泛應用,它主要依靠豐富的動作標簽來預測接下來的視覺畫面。然而,其短板也十分明顯。由于缺乏對真實三維空間的建模能力,預測結果常常出現(xiàn)違背物理規(guī)律的現(xiàn)象。在面對復雜多變的真實場景時,受限于真實數(shù)據(jù)的不足,其泛化能力更是捉襟見肘。

為了攻克這些難題,上海 AI 實驗室的研究團隊潛心鉆研,提出了生成式世界模型 AETHER。該模型基于三維時空建模,通過引入并構建幾何空間,讓模型空間推理的準確性與一致性得到大幅提升。研究團隊利用海量仿真 RGBD 數(shù)據(jù),精心開發(fā)了一套完整的數(shù)據(jù)清洗與動態(tài)重建流程,同時標注了豐富的動作序列。在此基礎上,他們創(chuàng)新性地提出一種多模態(tài)數(shù)據(jù)的動態(tài)融合機制,將動態(tài)重建、視頻預測和動作規(guī)劃這三項任務融合在一個統(tǒng)一的框架中進行優(yōu)化,實現(xiàn)了真正的一體化多任務協(xié)同,極大地提高了模型的穩(wěn)定性與魯棒性。

實驗數(shù)據(jù)是比較好的證明。傳統(tǒng)世界模型通常只關注 RGB 圖像的預測,而忽視了背后隱含的幾何信息。當引入空間建模后,各項指標均有明顯提升,其中視頻一致性指標提升約 4%。更令人驚嘆的是,即使使用合成數(shù)據(jù)進行訓練,AETHER 模型在真實環(huán)境中依然展現(xiàn)出強大的零樣本泛化能力,這意味著它可以在未接觸過的真實場景中迅速適應并發(fā)揮作用。

AETHER 模型在框架中實現(xiàn)了三項關鍵技術突破,明顯提升了具身系統(tǒng)在動態(tài)環(huán)境中的感知、建模與決策能力。

其一,目標導向視覺規(guī)劃。AETHER 能夠根據(jù)起始與目標場景,自動生成一條實現(xiàn)視覺目標的合理路徑,并以視頻形式呈現(xiàn)全過程。通過聯(lián)合優(yōu)化重建與預測目標,它內嵌空間幾何先驗知識,使生成結果兼具物理合理性。這一特性讓具身智能系統(tǒng)如同擁有智慧的人類,能夠 “看路規(guī)劃”。例如,搭載該模型的機器人通過攝像頭觀察周圍環(huán)境后,能自動生成既安全又符合物理規(guī)律的行動路線,在復雜的環(huán)境中自由穿梭,完成各種任務。

其二,4D 動態(tài)重建。AETHER 通過自動標注流水線,構建合成 4D 數(shù)據(jù)集,無需真實世界數(shù)據(jù)即可實現(xiàn)零樣本遷移,精細捕捉并重建時空環(huán)境的動態(tài)變化。以輸入一段街景視頻為例,系統(tǒng)能夠快速重建包含時間維度的三維場景模型,精確呈現(xiàn)行人行走、車輛運動等動態(tài)過程,建模精度可達毫米級。這一技術在城市規(guī)劃、智能安防等領域有著巨大的應用潛力,能夠為相關決策提供極為精細的場景數(shù)據(jù)支持。

其三,動作條件視頻預測。AETHER 創(chuàng)新性地采用相機軌跡作為全局動作表征,可直接基于初始視覺觀察和潛在動作,預測未來場景的變化趨勢。這就如同給具身智能系統(tǒng)裝上了一個能夠預測未來的 “神奇鏡頭”。與傳統(tǒng)預測圖像變化的世界模型不同,AETHER 不僅能同時完成四維時空的重建與預測,還支持由動作控制驅動的場景推演與路徑規(guī)劃。并且,該方法完全在虛擬數(shù)據(jù)上訓練,即可實現(xiàn)對真實世界的零樣本泛化,展現(xiàn)出不可比擬的跨域遷移能力。

AETHER 模型通過巧妙組合不同的條件輸入,如觀察幀、目標幀和動作軌跡,再結合擴散過程,實現(xiàn)對多種任務的統(tǒng)一建模與生成??梢孕蜗蟮卣f,觀察幀提供了 “現(xiàn)在的樣子”,目標幀給出了 “未來的樣子”,動作軌跡則是 “怎么從這里走到那里”,而擴散過程就像是拼圖的拼接邏輯,把這些零散信息有序組合起來,2還原出一個連續(xù)、合理且可預測的時空過程。

為了支持同時完成重建、預測和規(guī)劃這三類不同任務,AETHER 精心設計了一種統(tǒng)一的多任務框架,實現(xiàn)在同一個系統(tǒng)中整合動態(tài)重建、視頻預測和動作規(guī)劃。其中心之處在于,能夠融合圖像、動作、深度等多模態(tài)信息,建立一個跨模態(tài)共享的時空一致性建??臻g,實現(xiàn)不同任務在同一認知基礎上的協(xié)同優(yōu)化。在多個實驗任務中,AETHER 在動態(tài)場景重建方面已達到甚至超過現(xiàn)有 SOTA(state-of-the-art,其先進水平)水平。同時,研究人員發(fā)現(xiàn)在多任務框架下,各個任務之間相互促進,尤其在動作跟隨的準確度上面有較大幅度的提升。

AETHER 生成式世界模型的開源,為整個行業(yè)帶來了諸多利好。它有望為具身智能大模型在數(shù)據(jù)增強、路徑規(guī)劃以及基于模型的強化學習等方向研究提供堅實的技術支撐。眾多開發(fā)者和研究人員可以基于此模型,進一步探索和創(chuàng)新,加速機器人智能化的進程,推動人工智能在更多領域的廣泛應用。

隨著 AETHER 模型的開源,我們仿佛站在了一個新的科技十字路口,前方是充滿無限可能的智能未來。它將如何重塑各個行業(yè)的格局?又會給我們的日常生活帶來哪些意想不到的改變?讓我們拭目以待,共同見證科技的無窮魅力和力量。

公司信息

聯(lián) 系 人:

手機號:

電話:

郵箱:

網址:

地址:

新疆派威智研科技有限公司
SaaS智能營銷云平臺
本日新聞 本周新聞 本月新聞
返回頂部