• <rt id="2wkqu"><small id="2wkqu"></small></rt>
  • 您當(dāng)前的位置 :環(huán)球傳媒網(wǎng)>新視野 > 正文
    厲害了!谷歌通過(guò)乒乓球運(yùn)動(dòng)強(qiáng)化機(jī)器人學(xué)習(xí)
    2022-11-01 09:32:21 來(lái)源:DeepTech深科技 編輯:

    乒乓球運(yùn)動(dòng)可大大助推機(jī)器人學(xué)習(xí)研究?

    在最近的一篇博文中表示,機(jī)器人學(xué)習(xí)現(xiàn)已應(yīng)用到許多真實(shí)世界任務(wù),但將其應(yīng)用于需要緊密循環(huán)的動(dòng)態(tài)、高速人機(jī)交互任務(wù)還并不常見(jiàn)。這方面的任務(wù)可體現(xiàn)在乒乓球訓(xùn)練上。

    乒乓球任務(wù)有兩個(gè)互補(bǔ)的屬性,其不僅需要速度和精度(對(duì)算法要求高),還是高度結(jié)構(gòu)化的(環(huán)境固定、可預(yù)測(cè))。

    另外,執(zhí)行乒乓球任務(wù)的機(jī)器人可與人和其他機(jī)器人分別對(duì)戰(zhàn),非常利于有關(guān)人機(jī)交互和強(qiáng)化學(xué)習(xí)方面的研究。因此,一些團(tuán)隊(duì)已經(jīng)開(kāi)發(fā)了乒乓球研究平臺(tái)。

    機(jī)器人團(tuán)隊(duì)同樣搭建了一個(gè)類(lèi)似平臺(tái),使其能夠在多玩家、動(dòng)態(tài)的環(huán)境中,研究機(jī)器人學(xué)習(xí)中出現(xiàn)的問(wèn)題。

    視頻 | (來(lái)源:)

    對(duì)于該方面的研究,通過(guò)兩篇論文做了相關(guān)闡述,分別題為《i-Sim2Real:緊密人機(jī)交互循環(huán)中機(jī)器人策略的強(qiáng)化學(xué)習(xí)》()、《GoalsEye: 在一個(gè)物理機(jī)器人上學(xué)習(xí)高速精密乒乓球》(),且都已提交到 arXiv 上。

    下面對(duì)的 i-Sim2Real 和 GoalsEye 兩個(gè)項(xiàng)目分別做一簡(jiǎn)單介紹。

    在 i-Sim2Real(i-S2R)項(xiàng)目中,機(jī)器人的目標(biāo)本質(zhì)上是有關(guān)合作的。即最大程度與人類(lèi)玩家連續(xù)游戲。

    由于在現(xiàn)實(shí)中通過(guò)人類(lèi)訓(xùn)練機(jī)器人既費(fèi)時(shí)又費(fèi)力,采用了一種基于仿真(模擬現(xiàn)實(shí))的方法。但該方法較難準(zhǔn)確模擬人類(lèi)行為,尤其是在需要與人類(lèi)進(jìn)行緊密、閉環(huán)交互的任務(wù)上。

    因此,開(kāi)發(fā)出一種學(xué)習(xí)人類(lèi)行為模型,專(zhuān)門(mén)用于人-機(jī)器人交互。最終,在與人對(duì)戰(zhàn)中,機(jī)器人能夠連續(xù)擊中乒乓球三百多次。

    關(guān)于學(xué)習(xí)人類(lèi)行為模型,其在官網(wǎng) 表示,該問(wèn)題似乎是一個(gè)悖論。若起 初缺乏優(yōu)良的機(jī)器人策略,便很難獲得人機(jī)交互方面的優(yōu)質(zhì)數(shù)據(jù)。但人類(lèi)行為模型的缺失,又會(huì)得不到機(jī)器人策略。

    為解決這個(gè)問(wèn)題,i-S2R 以一般的人類(lèi)行為模型為起點(diǎn),并在模擬和真實(shí)訓(xùn)練中不斷迭代,人類(lèi)行為模型和策略都逐漸得到了優(yōu)化。

    還通過(guò)不同的人類(lèi)對(duì)手重復(fù)訓(xùn)練,來(lái)評(píng)估 i-S2R。并將它與通常的模擬到現(xiàn)實(shí)(S2R,sim-to-real)+微調(diào)(FT,fine-tuning)進(jìn)行比較,發(fā)現(xiàn) i-S2R 反彈長(zhǎng)度比 S2R + FT 高約 9%。

    i-S2R 和 S2R + FT 的反彈長(zhǎng)度直方圖顯示,S2R + FT 的反彈大部分較短(即小于 5),而 i-S2R 實(shí)現(xiàn)更長(zhǎng)的反彈更頻繁。

    圖 | i-S2R 結(jié)果摘要(來(lái)源:)

    還在博文中表示,i-S2R 專(zhuān)注于模擬到真實(shí)學(xué)習(xí),但有時(shí)需要僅使用真實(shí)世界的數(shù)據(jù)進(jìn)行學(xué)習(xí)。在這種情況下,縮小模擬到真實(shí)的差距是不必要的。

    研究人員還簡(jiǎn)單分析了模仿學(xué)習(xí)(Imitation learning,IL)和強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)存在的問(wèn)題。

    其認(rèn)為,IL 提供了一種簡(jiǎn)易、穩(wěn)定的學(xué)習(xí)方法,但它需要獲得演示,并且?guī)缀醪粫?huì)超過(guò)被模仿者的表現(xiàn)。而在高速環(huán)境下,收集專(zhuān)業(yè)人員訓(xùn)練時(shí)的精確目標(biāo)定位非常困難。

    RL 雖然十分適合這種高速、高精度任務(wù),但它面臨著一個(gè)艱難的探索問(wèn)題(特別是在一開(kāi)始),并且采樣效率很低下。

    所以,在另外一個(gè) GoalsEye 項(xiàng)目上,結(jié)合行為克隆技術(shù),來(lái)塑造精確定位策略。該方法起始于一個(gè)結(jié)構(gòu)薄弱的、非目標(biāo)的小型數(shù)據(jù)集。其主要考慮乒乓球任務(wù)的精度。

    關(guān)鍵詞: 谷歌通過(guò)乒乓球運(yùn)動(dòng)強(qiáng)化機(jī)器人學(xué)習(xí) 乒乓球運(yùn)動(dòng)強(qiáng)化機(jī)器人學(xué)習(xí) 乒乓球運(yùn)動(dòng) 機(jī)器人學(xué)習(xí)

    分享到:
    版權(quán)和免責(zé)申明

    凡注有"環(huán)球傳媒網(wǎng)"或電頭為"環(huán)球傳媒網(wǎng)"的稿件,均為環(huán)球傳媒網(wǎng)獨(dú)家版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載或鏡像;授權(quán)轉(zhuǎn)載必須注明來(lái)源為"環(huán)球傳媒網(wǎng)",并保留"環(huán)球傳媒網(wǎng)"的電頭。

    Copyright ? 1999-2017 cqtimes.cn All Rights Reserved 環(huán)球傳媒網(wǎng)-重新發(fā)現(xiàn)生活版權(quán)所有 聯(lián)系郵箱:8553 591@qq.com
    久久激情五月网站,一本色道综合亚洲精品精品,午夜电影久久久久久,中文无码AV片在线 成a在线观看视频播放 婷婷色中文在线观看
  • <rt id="2wkqu"><small id="2wkqu"></small></rt>