Eureka！NVIDIA 研究突破為機(jī)器人學(xué)習(xí)注入新動(dòng)力

訊石光通訊網(wǎng) 發(fā)布時(shí)間:2023/10/25 14:16:24 編者:iccsz

摘要：AI 智能體利用 LLM 自動(dòng)生成獎(jiǎng)勵(lì)算法，訓(xùn)練機(jī)器人完成復(fù)雜任務(wù)。

ICC訊 NVIDIA Research 開(kāi)發(fā)的一款名為 Eureka 的新型 AI 智能體可以教機(jī)器人復(fù)雜的技能，它教會(huì)了機(jī)器人手快速轉(zhuǎn)筆，并且第一次轉(zhuǎn)得像人類(lèi)一樣好。

上面視頻中所展示的令人驚嘆的“魔術(shù)”是機(jī)器人通過(guò) Eureka 學(xué)會(huì)熟練完成的近 30 項(xiàng)任務(wù)之一，Eureka 可以自動(dòng)編寫(xiě)?yīng)剟?lì)算法來(lái)訓(xùn)練機(jī)器人。

Eureka 還教會(huì)了機(jī)器人完成打開(kāi)抽屜和柜子、拋接球、操作剪刀等任務(wù)。

于 10 月 20 日發(fā)布的這一 Eureka 研究包含一篇論文和該項(xiàng)目的 AI 算法，開(kāi)發(fā)者可以使用 NVIDIA Isaac Gym(一款用于強(qiáng)化學(xué)習(xí)研究的物理模擬參考應(yīng)用)進(jìn)行實(shí)驗(yàn)。Isaac Gym 基于 NVIDIA Omniverse 而構(gòu)建，后者是一個(gè)用于基于 OpenUSD 框架構(gòu)建 3D 工具和應(yīng)用的開(kāi)發(fā)平臺(tái)。Eureka 自身是由 GPT-4 大型語(yǔ)言模型驅(qū)動(dòng)的。

NVIDIA AI 研究高級(jí)總監(jiān)、Eureka 論文作者之一的 Anima Anandkumar 表示：“在過(guò)去十年，強(qiáng)化學(xué)習(xí)取得了空前成功，但依然面臨許多挑戰(zhàn)，比如獎(jiǎng)勵(lì)設(shè)計(jì)需要不斷試錯(cuò)才能完成。Eureka 是朝著開(kāi)發(fā)將生成式和強(qiáng)化學(xué)習(xí)方法結(jié)合以解決這些艱巨的任務(wù)的新算法邁出的第一步?！?

相關(guān)精彩視頻已在NVIDIA中國(guó)西瓜視頻賬號(hào)發(fā)布：

NVIDIA Research 最新研究成果：Eureka 用 LLM 訓(xùn)練機(jī)器人靈巧操作

AI訓(xùn)練機(jī)器人

據(jù)該論文介紹，Eureka 生成的獎(jiǎng)勵(lì)程序(可讓機(jī)器人進(jìn)行試錯(cuò)學(xué)習(xí))在超過(guò) 80% 的任務(wù)上優(yōu)于人類(lèi)專(zhuān)家編寫(xiě)的程序，這使得機(jī)器人的平均性能提高了 50% 以上。

該 AI 智能體使用 GPT-4 LLM 和生成式 AI 編寫(xiě)軟件代碼，為機(jī)器人進(jìn)行強(qiáng)化學(xué)習(xí)提供獎(jiǎng)勵(lì)。它不需要任何特定任務(wù)提示或預(yù)定義的獎(jiǎng)勵(lì)模板，并且能夠隨時(shí)結(jié)合人類(lèi)的反饋改進(jìn)其獎(jiǎng)勵(lì)，使結(jié)果更加精準(zhǔn)地符合開(kāi)發(fā)者的愿望。

利用 Isaac Gym 中的 GPU 加速模擬，Eureka 能夠快速評(píng)估大批獎(jiǎng)勵(lì)候選者的質(zhì)量，從而提高訓(xùn)練效率。

Eureka 隨后會(huì)基于訓(xùn)練結(jié)果匯總關(guān)鍵統(tǒng)計(jì)數(shù)據(jù)，并指導(dǎo) LLM 改進(jìn)其獎(jiǎng)勵(lì)函數(shù)的生成。通過(guò)這種方式，AI 可以自我完善。Eureka 教會(huì)了各類(lèi)機(jī)器人，包括四足機(jī)器人、雙足機(jī)器人、四旋翼機(jī)器人、靈巧手、協(xié)作機(jī)器人臂等，來(lái)完成不同類(lèi)型的任務(wù)。

該研究論文對(duì) 20 個(gè) Eureka 訓(xùn)練任務(wù)進(jìn)行了深入評(píng)估，這些任務(wù)基于開(kāi)源的靈巧性基準(zhǔn)，要求機(jī)器人手展示一系列復(fù)雜的雙手任務(wù)。

這些來(lái)自九個(gè) Isaac Gym 環(huán)境的測(cè)試結(jié)果通過(guò)使用 NVIDIA Omniverse 生成的可視化進(jìn)行了展示。

該項(xiàng)目的貢獻(xiàn)者之一、NVIDIA 高級(jí)研究科學(xué)家 Linxi “Jim” Fan 表示：“Eureka 是一個(gè)獨(dú)特的組合，將大型語(yǔ)言模型與 NVIDIA GPU 加速的模擬技術(shù)相結(jié)合，可以實(shí)現(xiàn)靈巧的機(jī)器人控制，并且為藝術(shù)家提供了一種制作物理逼真動(dòng)畫(huà)的新方法?！?

除了 NVIDIA Research 最近取得的進(jìn)展(比如使用 GPT-4 構(gòu)建的能夠自主玩《我的世界》的 AI 智能體 Voyager)之外，這項(xiàng)突破性的研究成果也必將讓開(kāi)發(fā)者們腦洞大開(kāi)。

NVIDIA Research 由全球數(shù)百名科學(xué)家和工程師組成，團(tuán)隊(duì)專(zhuān)注于 AI、計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺(jué)、自動(dòng)駕駛汽車(chē)、機(jī)器人學(xué)等領(lǐng)域的研究。

進(jìn)一步了解 Eureka 與 NVIDIA Research。

關(guān)于NVIDIA

自1993年成立以來(lái)，NVIDIA (NASDAQ: NVDA) 一直是加速計(jì)算領(lǐng)域的先驅(qū)。NVIDIA 1999 年發(fā)明的 GPU 驅(qū)動(dòng)了 PC 游戲市場(chǎng)的增長(zhǎng)，并重新定義了現(xiàn)代計(jì)算機(jī)圖形，開(kāi)啟了現(xiàn)代 AI 時(shí)代，正在推動(dòng)跨市場(chǎng)的工業(yè)數(shù)字化。NVIDIA 現(xiàn)在是一家全棧計(jì)算公司，其數(shù)據(jù)中心規(guī)模的解決方案正在重塑整個(gè)行業(yè)。更多信息，請(qǐng)?jiān)L問(wèn)https://nvidianews.nvidia.com/。

內(nèi)容來(lái)自：NVIDIA
本文地址：http://3xchallenge.com//Site/CN/News/2023/11/08/20231108062429953375.htm 轉(zhuǎn)載請(qǐng)保留文章出處
關(guān)鍵字:
文章標(biāo)題:Eureka！NVIDIA 研究突破為機(jī)器人學(xué)習(xí)注入新動(dòng)力

1、凡本網(wǎng)注明“來(lái)源：訊石光通訊網(wǎng)”及標(biāo)有原創(chuàng)的所有作品，版權(quán)均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像，違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位，也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性，并完整標(biāo)注作者信息和本站來(lái)源。
2、免責(zé)聲明，凡本網(wǎng)注明“來(lái)源：XXX（非訊石光通訊網(wǎng)）”的作品，均為轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。因可能存在第三方轉(zhuǎn)載無(wú)法確定原網(wǎng)地址，若作品內(nèi)容、版權(quán)爭(zhēng)議和其它問(wèn)題，請(qǐng)聯(lián)系本網(wǎng)，將第一時(shí)間刪除。
聯(lián)系方式：訊石光通訊網(wǎng)新聞中心　電話(huà)：0755-82960080-168 Right

Eureka！NVIDIA 研究突破為機(jī)器人學(xué)習(xí)注入新動(dòng)力

相關(guān)新聞

Eureka！NVIDIA 研究突破為機(jī)器人學(xué)習(xí)注入新動(dòng)力