因此,具身智能體可以與世界模型進(jìn)行交互,而不是直接與現(xiàn)實(shí)世界環(huán)境交互,以生成模擬數(shù)據(jù),這些數(shù)據(jù)可以用于各種下游任務(wù),包括反事實(shí)預(yù)測(cè)、離線策略評(píng)估、離線強(qiáng)化學(xué)習(xí)。
世界模型在具身環(huán)境的決策中起著至關(guān)重要的作用,使得在現(xiàn)實(shí)世界中成本高昂的探索成為可能。為了促進(jìn)有效的決策,世界模型必須具備強(qiáng)大的泛化能力,以支持分布外(OOD)區(qū)域的想象,并提供可靠的不確定性估計(jì)來(lái)評(píng)估模擬體驗(yàn)的可信度,這兩者都對(duì)之前的可擴(kuò)展方法提出了重大挑戰(zhàn)。
近日,來(lái)自南京大學(xué)、南棲仙策等機(jī)構(gòu)的研究者在論文中引入了WHALE(World models with beHavior-conditioning and retrAcing-rollout LEarning),這是一個(gè)用于學(xué)習(xí)可泛化世界模型的框架,由兩種可以與任何神經(jīng)網(wǎng)絡(luò)架構(gòu)普遍結(jié)合的關(guān)鍵技術(shù)組成。
在確定策略分布差異是泛化誤差的主要來(lái)源的基礎(chǔ)上,研究者引入了一種行為—條件(behavior-conditioning)技術(shù)來(lái)增強(qiáng)世界模型的泛化能力,該技術(shù)建立在策略條件模型學(xué)習(xí)的概念之上,旨在使模型能夠主動(dòng)適應(yīng)不同的行為,以減小分布偏移引起的外推誤差。此外,研究者還提出了一種簡(jiǎn)單而有效的技術(shù),稱為retracing-rollout,以便對(duì)模型想象進(jìn)行有效的不確定性估計(jì),作為一種即插即用的解決方案,可以有效地應(yīng)用于各種實(shí)施任務(wù)中的末端執(zhí)行器姿態(tài)控制,而無(wú)需對(duì)訓(xùn)練過程進(jìn)行任何更改。
通過整合WHALE的這兩種技術(shù),研究者提出了WHALE-ST,這是一種可擴(kuò)展的基于時(shí)空transformer的世界模型,旨在實(shí)現(xiàn)更有效的決策。研究者進(jìn)一步提出了WHALE-X,這是一個(gè)在970K機(jī)器人演示上預(yù)訓(xùn)練的414M參數(shù)世界模型。最后,研究者進(jìn)行了大量的實(shí)驗(yàn),以證明WHALE-ST和WHALE-X在模擬和現(xiàn)實(shí)世界任務(wù)中的卓越可擴(kuò)展性與泛化性,突出了它們?cè)谠鰪?qiáng)決策方面的效果。
為了評(píng)估WHALE-X在實(shí)際物理環(huán)境中的泛化能力,研究團(tuán)隊(duì)在ARX5機(jī)器人上進(jìn)行了全面實(shí)驗(yàn)。與預(yù)訓(xùn)練數(shù)據(jù)不同,評(píng)估任務(wù)調(diào)整了攝像機(jī)角度和背景等,增加了對(duì)世界模型的挑戰(zhàn)。他們收集了每個(gè)任務(wù)60條軌跡的數(shù)據(jù)集用于微調(diào),任務(wù)包括開箱、推盤、投球和移動(dòng)瓶子,還設(shè)計(jì)了多個(gè)模型從未接觸過的任務(wù)來(lái)測(cè)試模型的視覺、運(yùn)動(dòng)和任務(wù)泛化能力。
結(jié)果顯示,WHALE-X在真實(shí)世界中展現(xiàn)出明顯的優(yōu)勢(shì):與沒有行為—條件的模型相比,WHALEX的一致性提高了63%,表明該機(jī)制顯著提升了OOD泛化能力;在97萬(wàn)個(gè)樣本上進(jìn)行預(yù)訓(xùn)練的WHALE-X,比從零開始訓(xùn)練的模型具有更高的一致性,凸顯了大規(guī)模互聯(lián)網(wǎng)數(shù)據(jù)預(yù)訓(xùn)練的優(yōu)勢(shì);增加模型參數(shù)能夠提升世界模型的泛化能力,WHALE-X-base(203M)動(dòng)態(tài)模型在三個(gè)未見任務(wù)中的一致性比率是77M版本的3倍。此外,視頻生成質(zhì)量與一致性的結(jié)果一致。通過行為—條件策略、大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)集和擴(kuò)展模型參數(shù),三種策略結(jié)合,顯著提高了模型的OOD泛化能力,尤其是在生成高質(zhì)量視頻方面。
關(guān)鍵詞:
凡注有"環(huán)球傳媒網(wǎng)"或電頭為"環(huán)球傳媒網(wǎng)"的稿件,均為環(huán)球傳媒網(wǎng)獨(dú)家版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載或鏡像;授權(quán)轉(zhuǎn)載必須注明來(lái)源為"環(huán)球傳媒網(wǎng)",并保留"環(huán)球傳媒網(wǎng)"的電頭。
- 文旅部:促進(jìn)旅行社研學(xué)旅游業(yè)務(wù)健康發(fā)展
- “粉”墨凝丹心 “筆”尖綻芳華——駐馬店市第三十二小學(xué)組織開展教師粉筆字培訓(xùn)
- ?西平縣安委辦積極助企紓困全力營(yíng)造安全環(huán)境
- 股票交易與基金有哪些不同?基金減持是利好還是利空?
- 智利車?yán)遄?0小時(shí)從南美“枝頭”到中國(guó)“餐桌”
- ?西平縣重渠武海小學(xué)開展“書香常作伴 閱讀沁童心”手抄報(bào)制作活動(dòng)
- 共拓文旅市場(chǎng)!“沿著黃河遇見?!甭糜吻郎滩少?gòu)會(huì)在東營(yíng)舉行
- 駐馬店第二實(shí)驗(yàn)小學(xué):科創(chuàng)之舟泛詩(shī)意 校園綻放智慧花
- 廣西新增3個(gè)通用機(jī)場(chǎng) 助力低空經(jīng)濟(jì)發(fā)展
- 我國(guó)快遞年業(yè)務(wù)量首次突破1500億件
資訊
- “課間一刻鐘”何以更好支持學(xué)生健康成長(zhǎng)?
- 石家莊:因地制宜 推動(dòng)土特產(chǎn)成為特色產(chǎn)業(yè)
- 長(zhǎng)沙國(guó)際采購(gòu)供需集中對(duì)接 發(fā)布145項(xiàng)需求清單
- 南昌新建區(qū)以“兩整治一提升”行動(dòng)為抓手 扎實(shí)推進(jìn)鄉(xiāng)村振興
- 城陽(yáng)區(qū)開啟安全護(hù)學(xué)模式,守護(hù)學(xué)生上學(xué)路
- 四川再添一長(zhǎng)江班列始發(fā)地 樂山開出首趟長(zhǎng)江班列
- 三季度業(yè)績(jī)?cè)傧禄?,資生堂計(jì)劃全球降本
- 給空氣加點(diǎn)“料”?“嗅覺經(jīng)濟(jì)”風(fēng)生水起 成分不明暗藏隱患
- 上海取消普通住房和非普通住房標(biāo)準(zhǔn)
- 紅旗品牌“明星陣容”閃耀廣州車展 以“高質(zhì)量創(chuàng)新”驅(qū)動(dòng)產(chǎn)品上新
焦點(diǎn)
- 小雪節(jié)氣后如何避免陽(yáng)氣損害?中醫(yī)專家建議首先要潛藏
- 河南交通技師學(xué)院土木工程系黨支部與市營(yíng)商環(huán)境和信用建設(shè)服務(wù)中心黨支部開展支部共建主題黨日活動(dòng)
- 再創(chuàng)多項(xiàng)歷史,大谷翔平三度當(dāng)選美職棒MVP
- 奧運(yùn)冠軍杜麗擔(dān)任國(guó)家手槍射擊隊(duì)領(lǐng)隊(duì)
- 中巴合作創(chuàng)新打造巴西微電網(wǎng)示范標(biāo)桿項(xiàng)目
- 中新健康|高速擴(kuò)張暗藏隱憂 塔斯汀屢陷食品安全丑聞
- 實(shí)體經(jīng)濟(jì)如何爬坡邁坎?浙江僑界“半邊天”話發(fā)展謀對(duì)策
- 南陽(yáng)市宛城區(qū)法院:作業(yè)中的特種車輛發(fā)生事故,交強(qiáng)險(xiǎn)賠不賠?
- 西峽農(nóng)商銀行“千企萬(wàn)戶大走訪”在行動(dòng)
- 秋收秋種近尾聲 全年糧食產(chǎn)量有望邁上新臺(tái)階