ICC訊 斯坦福的 ALOHA 家務(wù)機器人團隊,發(fā)布了最新研究成果——項目名為 Yell At Your Robot(簡稱 YAY),有了它,機器人的“翻車”動作,只要喊句話就能糾正了!而且機器人可以隨著人類的喊話動態(tài)提升動作水平、即時調(diào)整策略,并根據(jù)反饋持續(xù)自我改進。
比如在這個場景中,機器人沒能完成系統(tǒng)設(shè)定的“把海綿放入袋子”的任務(wù)。這時研究者直接朝它喊話,“用海綿把袋子撐得再開一些”,之后就一下子成功了。而且,這些糾正的指令還會被系統(tǒng)記錄下來,成為訓練數(shù)據(jù),用于進一步提高機器人的后續(xù)表現(xiàn)。
有網(wǎng)友看了說,既然已經(jīng)能朝著機器人喊話了,那汽車是不是也快點安排上,還在線點名特斯拉和其自動駕駛軟件總監(jiān) Ashok Elluswamy。成果發(fā)布后,前谷歌機器人高級研究員 Eric Jang,前 DeepMind 研究員、斯坦??妥淌?Karol Hausman 等一眾大佬也紛紛表示了肯定和贊許。那么,用喊話調(diào)整的機器人,都能實現(xiàn)什么樣的動作呢?
喊話就能發(fā)號施令
利用 YAY 技術(shù)調(diào)教后,機器人以更高的成功率挑戰(zhàn)了物品裝袋、水果混合和洗盤子這三項復(fù)雜任務(wù)。這三種任務(wù)的特點是都需要兩只手分別完成不同的動作,其中一只手要穩(wěn)定地拿住容器并根據(jù)需要調(diào)整姿態(tài),另一只手則需要準確定位目標位置并完成指令,而且過程中還涉及海綿這種軟性物體,拿捏的力度也是一門學問。
以打包裝袋這個任務(wù)為例,機器人在全自主執(zhí)行的過程中會遇到各種各樣的困難,但通過喊話就能見招拆招。只見機器人在將裝袋的過程中不小心把海綿掉落了下來,然后便無法再次撿起。這時,開發(fā)者直接朝它喊話,口令就是簡單的“往我這邊挪一挪,然后往左”。當按照指令做出動作后,第一次還是沒成功,但機器人記住了“往左”這個指令,再次左移之后便成功把海綿撿起來了。
但緊接著就出現(xiàn)了新的困難 —— 袋子的口被卡住了。這時只要告訴它再把袋子打開一點點,機器人就“心領(lǐng)神會”,調(diào)整出了一系列后續(xù)動作,并最終成功完成任務(wù)。
而且不只是能糾正錯誤,任務(wù)的細節(jié)也能通過喊話實時調(diào)整,比如在裝糖的任務(wù)中,開發(fā)者覺得機器人拿的糖有點多了,只要喊出“少一點”,機器人就會將一部分糖果倒回盒子。
進一步地,人類發(fā)出的這些指令還會被系統(tǒng)記錄并用作微調(diào),以提高機器人的后續(xù)表現(xiàn)。比如在刷盤子這項任務(wù)中,經(jīng)過微調(diào)之后的機器人清潔力度更強,范圍也變大了。
統(tǒng)計數(shù)據(jù)表明,機器人在經(jīng)歷這種微調(diào)之后,平均任務(wù)成功率提高了 20%,如果繼續(xù)加入喊話指令還能繼續(xù)提高。
而且這樣的指令-微調(diào)過程可以迭代進行,每迭代一次機器人的表現(xiàn)都能有所提升。
那么,YAY 具體是如何實現(xiàn)的呢?
人類教誨“銘記在心”
架構(gòu)上,整個 YAY 系統(tǒng)主要由高級策略和低級策略這兩個部分組成。其中高級策略負責生成指導低級策略的語言指令,低級策略則用于執(zhí)行具體動作。
具體來說,高級策略將攝像頭捕捉到的視覺信息編碼,與相關(guān)知識結(jié)合,然后由 Transformer 生成包含當前動作描述、未來動作預(yù)測等內(nèi)容的指令。而低級策略接收到語言指令后,會解析這些指令中的關(guān)鍵詞,并映射到機器人關(guān)節(jié)的目標位置或運動軌跡。
同時,YAY 系統(tǒng)引入了實時的語言糾正機制,人類的口頭命令優(yōu)先級最高 —— 經(jīng)識別后,直接傳遞給低級策略用于執(zhí)行。且在這個過程中命令會被系統(tǒng)記錄并用于微調(diào)高級策略 —— 通過學習人類提供的糾正性反饋,逐漸減少對即時口頭糾正的依賴,從而提高長期任務(wù)的自主成功率。
在完成基礎(chǔ)訓練并已經(jīng)在真實環(huán)境中部署后,系統(tǒng)仍然可以繼續(xù)收集指令信息,不斷地從反饋中學習并進行自我改進。
作者簡介
本項目的第一作者是斯坦福大學的學生研究員 Lucy X. Shi,2019 年畢業(yè)于人大附中后進入南加州大學就讀計算機科學專業(yè)。其間,Lucy 曾到英偉達實習研究多模態(tài)大模型,并曾與知名 AI 學者 Jim Fan 博士合作。她的論文曾連續(xù)兩年被機器人頂會 CoRL 收錄,還入選過 NeurIPS,本人還被 DeepMind 邀請發(fā)表過演講。Lucy 的導師 Chelsea Finn 是斯坦福計算機科學和電氣工程系助理教授,谷歌學術(shù)論文引用數(shù)超 4.7 萬,此前還在 Google Brain 工作過一段時間。包括本項目在內(nèi),在 ALOHA 團隊發(fā)表的一系列論文當中,F(xiàn)inn 總是作為通訊作者出現(xiàn)。
此外,ALOHA 團隊的 Tony Z. Zhao、Sergey Levine 等研究人員,也是本文的共同作者。
新聞來源:量子位