[討論] 為何機器人AI不透過強化式學習訓練?

作者: seal46825 (Vanish)   2024-10-16 23:54:43
剛剛看了YouTube 介紹特斯拉Optimus的影片
裡面提到特斯拉裡面有50位人員
專門用VR裝置去操控Optimus
去執行某修動作 例如分類物品
然後就可以透過這些動作訓練模型
但是跟特斯拉成千上萬個車子數據比起來
這只能算是小巫見大巫
那我就好奇 為什麼機器人不透過強化式學習的方式去訓練
如同訓練AI玩遊戲一樣
可以給個很明確的計分方式
然後讓AI自己去玩遊戲
只要規則夠明確 AI自己就可以訓練練到很強
同樣道理 我讓一顆球放在一個發射平台
會自動彈出 然後球上有晶片
只要機器人可以在越短的時間去把球撿回來
他就可以得到高分
如此一來他就可以去學習如何快速辨識球的位置
如何規劃路線 如何最佳應用他的身體
然後快速把球撿起來 放回發射平台
這樣作法的好處是可以做出成千上萬台機器人
讓他們自己去訓練 一年365天24小不停歇
這樣就能產生大量數據 快速精進機器人AI模型
同樣的模式還可以特用的很多事情上
所以為何現在的機器人公司不這樣做
要用真的人去訓練搜集數據呢?
還是其實有在做了?
作者: peter3354152 (阿瑋)   2024-10-17 00:25:00
上網搜尋robotic deep reinforcement learning 應該會有一堆paper
作者: DarkIllusion (′・ω・‵)   2024-10-17 01:54:00
用RL做機器人策略有獎勵稀疏、sim2real gap問題,有人類展示當訓練資料是最好的
作者: gogogogo3333 (gogogogo33333)   2024-10-17 12:25:00
llm/vlm is based on RLHF for long time.

Links booklink

Contact Us: admin [ a t ] ucptt.com