河南夢之網網絡科技有限公司
夢之網科技出品
掃描關注夢之網科技微信公眾賬號

掃小程序碼聯系客服

Facebook最新研究:4小時讓機器人學會2千種操作-鄭州網站建設

夢之網科技?2019-10-08?文章動態?

【新智元導讀】Facebook AI Research團隊在訓練兩個Sawyer機械臂操作目標對象時提出了一種模式訓練方法,研究人員認為許多任務學習的過程都可分為兩個階段:一是學習任務模式(如動作是抓、握、扭、拾取等),二是學習使用相關動作著力的依據(如施力位置、力的大小、目標姿勢等)。通過這兩個階段的視覺圖像學習,大約4到10小時即學會了2000種操作技能,成功率超過90%。>>>人工智能改變中國,我們還要跨越這三座大山 | 獻禮 70 周年

雙臂機器人如何完成打開瓶子的任務?

總是需要用一只手抓住瓶子的底部,同時用另一只手抓住瓶蓋并擰開,這種對人類來說小兒科的操作,讓機器來做就要費很多事。這種高級操作步驟,就是所謂的Schema。

不過值得慶幸的是,它不受對象的幾何和空間狀態的影響。不過,與旨在通過學習策略來解決任務的強化學習技術相比,schema的優勢在于:不需要在數小時、數周甚至數月的時間內提取數百萬個示例。

最近,Facebook AI Research的一個團隊,試圖使用兩個可以從庫中選擇正確步驟的Sawyer機械臂來實現這個目的。在每個時間步長上,他們的智能體都必須決定使用什么技能、以及要使用哪些論據來達成目標。例如,施加力的位置、力的大小、要移動的目標姿勢等等。

盡管涉及復雜性,不過該團隊表示他們的方法提高了學習效率,因此僅需幾個小時的訓練,機械臂就可以發現操縱技能。

團隊的主要見解是:對于許多任務,學習過程可以分為兩個部分,分別是(1)學習任務模式和(2)學習為不同技能選擇適當參數化的策略。

他們認為,這種方法可以加快學習速度,部分原因是可以使用來自給定任務不同版本的數據來提高共享技能。而且,他們說這允許在相關任務之間轉移學習到的模式。

該論文的共同作者詳細解釋稱,假設我們已經學會了一種很好的方案,在一個模擬環境中我們可以訪問對象的姿勢、幾何信息等、以及更多內容,然后在這個模擬環境中舉起個長條,那么我們就可以將該模式重新用于相關任務,例如僅從原始攝像機觀察結果中拾取現實世界中的托盤。

即使狀態空間和最佳參數化(例如,抓握姿勢)都存在顯著差異。由于該模式是固定的,因此針對該任務欄提取任務的策略學習將非常有效,因為它僅需要學習每種技能的(與觀察相關的)參數。

研究人員為上述兩個機械臂提供了一個通用的技能庫,例如扭轉、提升和伸展,他們必須將其應用于涉及不同對象、幾何形狀和初始姿勢的多個橫向提升、拾取、打開和旋轉任務。

Facebook最新研究:4小時讓機器人學會2千種操作-鄭州網站建設

在MuJoCo(模擬環境)中,通過使用低維輸入數據進行訓練,例如幾何和本體感受特征(關節位置,關節速度,末端執行器姿勢)等,然后在模擬和現實世界中都轉換為可視輸入。

在實驗過程中,Sawyer手臂(配備攝像頭,并由Facebook的PyRobot開源機器人平臺控制)的任務是操縱包括面杖、足球、玻璃罐和T型扳手在內的9個常用物品。

完成任何任務都需要兩個相互配合的爪子。盡管必須從原始視覺圖像中學習,但他們說系統在大約4到10個小時的訓練中學會了使用2000種技能來操縱大多數項目,并且成功率超過90%。

論文的共同作者寫道:“我們已經研究了如何利用與狀態無關的技能序列來大大提高無模型強化學習的樣本效率。此外,我們已經通過實驗表明,將在模擬環境中學習到的技能序列,轉移到現實世界中的任務,使我們能夠非常有效地解決圖像中的稀疏獎勵問題,從而使訓練真正的機器人執行諸如雙手操作之類的復雜技能變得可行。”

參考鏈接:

https://venturebeat.com/2019/10/07/facebooks-ai-teaches-robots-to-manipulate-objects-in-less-than-10-hours-of-training/

Facebook最新研究:4小時讓機器人學會2千種操作-鄭州網站建設

文章關鍵詞
人工智能
機器人
Facebook
s
機械臂
sawyer
急速赛车国语 彩吧论坛3d三天计划 云南11选5开将结果 在家除了做微商还可以做什么赚钱 河北十一选五开奖结果查 钱咖怎么做任务赚钱快 河南十一选五下载 农村开废品站能赚钱吗 极速11选5哪里查开奖 中国电脑体育彩票 赢钱棋牌排行榜 竞彩足球现场比分 福彩3d跨度走势图彩吧助手 安徽十一选五前三值走势图 倒卖二哈赚钱吗 快乐扑克三玩法 辉煌娱乐APP