DeepMind已經解決了另一個AI問題:
一個叫DreamerV3的AI在什么都不知道的情況下被扔進了我的世界經過17天的奮斗,他真正學會了從零開始挖鉆石
是從樹開始的那種。
要知道,為了克服這個問題,CMU,微軟,DeepMind和OpenAI還聯手在NeurIPS上拉了一場名為MineRL的比賽。
結果過了三四年,AI人沒有參考人類經驗,沒能完成挖鉆石的任務。
之前最好的VPT玩家,為了取得這個成績,看了7萬+小時的我的世界視頻,用了720 V100。...
這還不是DeepMind的最新成果,研究人員好開心。
MineRL創始人之一,前OpenAI研究科學家威廉·古斯第一時間前來發表賀詞:
四年后,鉆石挑戰終于被攻克了!
AI玩MineCraft的背后,是一個莫拉維克悖論:有些任務對人類來說很難,但對AI來說很簡單但是像MineCraft這樣的人玩的游戲數不勝數,反倒是真的
DreamerV3不需要任何人工數據就可以采集鉆石,這讓我很興奮。
怎么做
那么,這個0基礎的鉆石挖掘任務的難度到底有多大呢。
首先,在我的世界里,初始世界完全是隨機生成的。
即使是人類玩家,想要快速挖到鉆石也需要大量的經驗比如知道如何計算鉆石的位置,掌握一些采礦技巧
排除經驗這個因素,對于AI來說,挖鉆石的過程也是相當復雜的,至少有七個步驟。
第一步,玩家空手進入我的世界,需要滾樹才能拿到方塊:
第二步,用木塊合成工作臺:
第三步,在工作臺上合成木鎬挖漂石:
第四步,獲得圓石后,需要合成一個石鎬快速挖鐵礦石:
第五步,為了將鐵礦石合成鐵錠,需要造一個爐子來燒鐵:
第六步,合成鶴嘴鋤挖鉆石:
第七步,尋找鉆石,然后用鎬把它們挖出來:
P.S .經過玩家測試,在AI知道鉆石等各種資源坐標的情況下,2—3分鐘就搞定了。
所以既然不能參考人類大師的經驗,自然需要加強學習。
具體來說,DeepMind的研究人員提出了一種基于世界模型的通用算法。
在整體架構上,DreamerV3由世界模型,裁判和演員三個神經網絡組成。
世界模型需要做的是將環境輸入編碼成離散的表示,通過預測來指導下一步的操作。
評委和演員會根據抽象的表象來學習其中,陪審團網絡會輸出一個標量值來表示動作值,從而幫助演員網絡選擇最佳動作
這里的一個核心點是,DeepMind的研究人員希望DreamerV3不僅能處理同類型的問題,還能掌握固定超參數的跨領域任務。
因此,研究人員需要系統地解決世界模型,法官和演員,目標的穩定平衡等各種組件中不同信號大小的問題。
研究人員發現:
在以前的世界模型中,表征損失需要根據復雜3D環境的視覺輸入進行不同的縮放,在訓練過程中要調整很多超參數,但實際上有很多不必要的細節。
如果將自由位與KL平衡相結合,DreamerV3可以在不調整超參數的情況下學習不同的領域。
KL balance是上一代DreamerV2中提出的新技術它能使預測移向表征的速度快于表征移向預測的速度,帶來更準確的預測
自由位避免了簡單環境下的過擬合。
DreamerV3的所有三個塊都使用固定超參數,如下所示:
實驗結果
換句話說,DreamerV3現在已經成為世界上第一個只需要靠自己摸索就能在我的世界里快速挖到鉆石的AI。
而DreamerV3能做的不僅僅是玩MC。
在其他七項基準測試中,DreamerV3取得了成功,并在BSuite和Crafter中獲得了SOTA。
值得一提的是,在這些任務中,用于訓練代理的GPU資源只有一個V100研究人員表示,這意味著更多的實驗室可以運行這種模式
此外,DreamerV3還可以在需要時空推理的三維空間中快速學習。
在DeepMind專門為強化學習打造的3D平臺DMLab上,DreamerV3在任務中只使用了1/130次的交互。
目前DreamerV3的代碼是即將到來的狀態。
感興趣的朋友可以蹲一會兒~
參考鏈接:
鄭重聲明:此文內容為本網站轉載企業宣傳資訊,目的在于傳播更多信息,與本站立場無關。僅供讀者參考,并請自行核實相關內容。
|