無(wú)人機(jī)首次成功在一對(duì)一冠軍賽中戰(zhàn)勝人類對(duì)手,而無(wú)人機(jī)背后是一個(gè)名為Swift的人工智能系統(tǒng),《Nature》期刊的封面上的也在當(dāng)期封面刊登了相關(guān)論文。
AI如何成為游戲高手?
國(guó)際象棋、星際爭(zhēng)霸(StarCraft)、Dota2和GT賽車這些游戲,如果你與電腦對(duì)戰(zhàn),那些電腦虛擬玩家是如何來完成一系列操作的?
或許你沒有聽說過深度強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)系統(tǒng),但你一定聽說過或接觸過或許你沒有聽說過深度強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)系統(tǒng),因?yàn)檫@些電腦虛擬玩家就是運(yùn)用了這一技術(shù)。
在模擬和棋盤游戲環(huán)境中,AI可以輕松勝過人類,但在物理世界的競(jìng)賽,AI的決策和操作則面臨諸多困難。
第一人稱視角 (FPV) 無(wú)人機(jī)競(jìng)賽是專業(yè)選手在 3D 賽道上駕駛高速飛行的無(wú)人機(jī),駕駛員可以通過機(jī)載攝像頭傳輸?shù)漠嬅鎻臒o(wú)人機(jī)的角度觀察環(huán)境,從而完成加減速、轉(zhuǎn)彎等操作,讓無(wú)人機(jī)穿越賽道中的障礙。
Swift (藍(lán)色)和人類(紅色)交鋒,七個(gè)方形門,每圈必須依次通過,圖片來源:參考文獻(xiàn)
自動(dòng)駕駛無(wú)人機(jī)要達(dá)到職業(yè)飛行員的水準(zhǔn)很難,因?yàn)闄C(jī)器人需要在其物理限制下飛行,同時(shí)只能根據(jù)機(jī)載傳感器估算其速度和方位。
傳統(tǒng)的無(wú)人機(jī)競(jìng)速方法包括軌跡規(guī)劃和模型預(yù)測(cè)控制(model predictive control,MPC),但這種方法只能在理想條件下實(shí)施,一旦受到任何干擾,整個(gè)系統(tǒng)就會(huì)崩潰。
圖片來源:piqsels
而Swift系統(tǒng)克服了這個(gè)困難。Swift系統(tǒng)由兩個(gè)關(guān)鍵模塊組成:
一是感知系統(tǒng),將高維視覺(即空間立體視覺)和慣性信息轉(zhuǎn)換為低維編碼;
二是控制系統(tǒng),攝取感知系統(tǒng)產(chǎn)生的低維編碼并產(chǎn)生控制命令。將這兩個(gè)系統(tǒng)結(jié)合起來,便可以基于物理環(huán)境的細(xì)微變化進(jìn)行實(shí)時(shí)決策調(diào)整。
當(dāng)然,先進(jìn)的感知系統(tǒng)和控制系統(tǒng)還不足以對(duì)抗人類冠軍駕駛員。
Swift系統(tǒng)比人類強(qiáng)在哪兒?
Swift系統(tǒng)比人類駕駛員具有一定的結(jié)構(gòu)優(yōu)勢(shì)。
Swift系統(tǒng),圖片來源:參考文獻(xiàn)
首先,它能利用來自機(jī)載慣性測(cè)量單元的慣性數(shù)據(jù)。
這類似于人類的前庭系統(tǒng),人類駕駛員在比賽中無(wú)法使用該系統(tǒng),因?yàn)樗麄儗?shí)際上并不在飛機(jī)上,并且感覺不到作用在飛機(jī)上的加速度。
其次,Swift系統(tǒng)受益于較低的感覺運(yùn)動(dòng)延遲(Swift為40毫秒,而人類專家的平均延遲為220毫秒)。
FPV比賽使用的是四軸飛行器,它是有史以來最敏捷的機(jī)器之一。在比賽中,飛行器會(huì)施加超過自身重量五倍或更多的力量,即使在有限的空間內(nèi),速度也能超過100公里/小時(shí),加速度是重力的幾倍。因此,較低的延遲有助于讓飛行器的行動(dòng)更靈活。
在實(shí)際比賽流程中,人類飛行員在賽道上進(jìn)行了為期一周的練習(xí)。之后,由Swift和人類控制的無(wú)人機(jī)需要在場(chǎng)地賽道中以正確的順序穿過每一道門。Swift在與三位人類冠軍正面交鋒的比賽中均獲勝,甚至創(chuàng)造了最快完成比賽的記錄。
圖片來源:piqsels
在AI控制的無(wú)人機(jī)戰(zhàn)勝人類之后,自主移動(dòng)機(jī)器人仍然有很多可以提升的方向。
例如人類控制無(wú)人機(jī)時(shí),即使發(fā)生了碰撞,只要硬件仍然正常工作,人類仍然可以控制無(wú)人機(jī)繼續(xù)飛行并完成這段賽道,但Swift沒有接受過碰撞后恢復(fù)的訓(xùn)練。
即便存在諸多限制,但該研究成果已經(jīng)成為移動(dòng)機(jī)器人技術(shù)和機(jī)器智能的一個(gè)里程碑,它將助力自動(dòng)駕駛的地面車輛、飛行器和個(gè)人機(jī)器人的快速發(fā)展。
參考文獻(xiàn)
原論文:Kaufmann, E., Bauersfeld, L., Loquercio, A. et al. Champion-level drone racing using deep reinforcement learning. Nature 620, 982–987 (2023). https://doi.org/10.1038/s41586-023-06419-4
策劃制作
來源丨科協(xié)之聲
作者丨SamKakeru 科普作者
責(zé)編丨楊雅萍 金禹奮
歡迎掃碼關(guān)注深i科普!
我們將定期推出
公益、免費(fèi)、優(yōu)惠的科普活動(dòng)和科普好物!