生成式AI賦予機器人跨領域通用能力
原文網址:
https://bit.ly/3VNW0pn
原文:
在機器人領域追求通用人工智慧的路途上,資料的多樣性和整合度一直是關鍵挑戰。儘管
硬體設計已有長足進展,但要真正實現所謂「通用型人形機器人」,仍需突破訓練數據的
限制。麻省理工學院(MIT)最新研究指出,運用生成式AI技術有望跨越這一障礙,為機器
人賦予跨領域的通用能力。
研究團隊提出了一種名為「策略/政策組合」(Policy Composition, PoCo)的新方法,能
將不同來源、模態和任務的機器人數據集整合訓練,並成功提高機器人執行多項工具使用
任務的能力。透過訓練出擬效各數據集的「擴散模型」,再將其所學習到的策略加權組合
,最終得到一個通用策略,使機器人能在多樣化環境中靈活運用工具完成任務。
傳統機器人訓練方式往往侷限於單一數據集,例如:某個倉儲環境中的包裝任務數據,難
以從中演繹出通用的策略應用於其他情境。研究人員表示,儘管目前各領域都在大量產生
龐大數據,但缺乏有效整合的方式,反而限制了這些資訊的潛力發揮。PoCo方法的核心概
念,就是將這些小而專一的數據集透過擴散模型學習出策略,再予以組合,讓機器人能從
中萃取共通之處,幫助其泛化到更普遍的任務上。
所謂擴散模型(Diffusion Model),是一種新興的生成式AI技術,通常用於生成影像。研
究團隊的做法是,將其應用於生成機器人的動作軌跡。首先在訓練數據集的動作軌跡中添
加雜訊,然後讓擴散模型逐步去除雜訊,並最終產生一條清晰的動作軌跡,作為機器人的
操作策略。這種方式被稱為「擴散策略」(Diffusion Policy),可從不同類型的數據中學
習策略。
研究人員透過不同數據集分別訓練出多個擴散模型,每一個都學習到針對特定任務的最佳
策略。接著,他們將這些策略加權組合,經過反覆調整後,得到一個能滿足各個策略目標
的綜合策略。這種策略組合的好處在於能同時獲得不同數據集的優點,例如從實際演示數
據中獲得技術熟練度,又從模擬數據中達到良好泛化性。
實驗中,研究團隊讓機器人使用工具執行各種任務,包括用鎚子釘釘子、用鍋鏟翻轉物品
等。結果顯示,採用PoCo策略組合技術後,機器人的任務執行表現比基準方法提升了20%
。研究人員注意到,經過調整的組合策略軌跡明顯優於單一策略軌跡,展現出策略組合的
優勢。
此項研究為機器人領域帶來新的契機,有望突破長期以來訓練數據的侷限性。未來,研究
人員希望能夠將這項技術應用於更複雜的長期任務,例如讓機器人先拿起一種工具使用,
再轉換為另一種工具,展現出更強的任務切換能力。另一目標則是整合更大規模的機器人
數據集,進一步提升模型的性能表現。
不過,要取得通用人工智慧的最終目標,單憑此一技術恐怕還不夠,仍需要其他重要基礎
。NVIDIA的高級研究科學家指出:「要在機器人領域取得成功,我們需要三種數據:網路
數據、模擬數據和真實機器人數據。如何有效整合這三種數據,將是一個價值百萬美元的
問題。」顯見策略組合只是邁向通用智慧的一小步,仍有許多挑戰待克服。
MIT的這項研究對於實現通用型人形機器人邁進一步,為日後自動化機器人能夠自由切換
工具、應對複雜多變的工作環境奠定基礎。可以預想未來智慧化時代的場景,有不同製造
商生產的多功能機器人,不僅能在工廠內高效作業,更能在家庭和社區中協助人類完成家
務、維修等各式各樣的勞務。對人類的勞動力分擔是一大解放,而其中潛藏無限商機和社
會影響,也正是我們當前應為之做好準備的重大議題。