上海微系統所在智能駕駛場(chǎng)景感知研究方面取得進(jìn)展
近日,中國科學(xué)院上海微系統與信息技術(shù)研究所仿生視覺(jué)系統實(shí)驗室李嘉茂研究員團隊與路特斯機器人(LOTUS ROBOTICS)合作在智能駕駛感知領(lǐng)域取得了重要進(jìn)展。針對智能駕駛感知的兩個(gè)關(guān)鍵問(wèn)題——柵格占據預測(Occupancy Prediction)和全景分割(Panoptic Segmentation)取得了突破,兩項成果被機器人領(lǐng)域頂級國際學(xué)術(shù)會(huì )議2024 IEEE International Conference on Robotics and Automation(ICRA)錄用,分別題為“CVFormer: Learning Circum-View Representation and Consistency for Vision-Based Occupancy Prediction via Transformers”與“BEE-Net: Bridging Semantic and Instance with Gated Encoding and Edge Constraint for Efficient Panoptic Segmentation”。
CVFormer:基于Transformer的環(huán)視視角表征和一致性約束的柵格占據預測方法。
在智能駕駛中,柵格占據預測旨在表征空間中的對象分布,以指導路徑選擇。最直接的表征方法是將立體空間劃分為無(wú)數個(gè)堆疊的占據體素(voxel),但龐大的計算量導致難以在實(shí)車(chē)中部署。鳥(niǎo)瞰視角(Bird eyes view, BEV)的表征方式,將空間投影于單個(gè)水平面,可以大幅減少計算與存儲壓力,但由于缺失了細粒度的結構信息,在開(kāi)放場(chǎng)景中對象的形狀或外觀(guān)不明確時(shí),往往會(huì )出現錯誤估計障礙物的情況。TPVFormer基于傳統三視圖的占據預測方法,在BEV基礎上將表征平面擴展至三個(gè),可客觀(guān)精細的表征三維環(huán)境,但該方法忽略了自車(chē)與表征平面的相對關(guān)系,導致場(chǎng)景中的視角重疊障礙物間難以分辨。
為解決上述問(wèn)題,在TPVFormer基礎上,團隊提出了一種以自車(chē)為中心的環(huán)視視角的占據預測表征方法CVFormer。以汽車(chē)全景環(huán)視多視圖為輸入,建立環(huán)繞車(chē)輛的二維正交視角來(lái)表征三維場(chǎng)景,有效實(shí)現細粒度三維場(chǎng)景表征,并克服車(chē)體周身障礙物的視角遮擋問(wèn)題。具體地,提出了環(huán)視視圖交叉注意力模塊構建二維環(huán)視特征,設計時(shí)序多重注意力模塊加強幀間關(guān)系的利用,并通過(guò)設計2D與3D類(lèi)別一致性約束,增強網(wǎng)絡(luò )對場(chǎng)景的學(xué)習性能。本方法在駕駛場(chǎng)景占據預測權威評測數據nuScenes數據集上進(jìn)行驗證,在預測精度上明顯優(yōu)于現有算法,達到了43.09%的mIoU性能指標,相比基線(xiàn)算法(TPVFormer)提高了102.3%,并將計算復雜度由O(n3)降低至O(n),展現了較強的可部署性,在路特斯下一代量產(chǎn)車(chē)型智能駕駛感知系統上完成了測試驗證。
柵格占據預測CVFormer在nuScenes數據集上達到最優(yōu)性能
本研究成果得到了科技部科技創(chuàng )新2030、國家自然科學(xué)基金、中國科學(xué)院青促會(huì )、上海市優(yōu)秀學(xué)術(shù)帶頭人等項目支持。上海微系統所仿生視覺(jué)系統實(shí)驗室研究生白正奇、副研究員石文君為論文共同一作,李嘉茂研究員為通訊作者。
BEE-Net:基于門(mén)控編碼和邊緣約束加強語(yǔ)義與實(shí)例關(guān)聯(lián)的高效全景分割
全景分割是理解場(chǎng)景中背景與對象個(gè)體的語(yǔ)義的基礎感知問(wèn)題,是融合了語(yǔ)義分割與實(shí)例分割的綜合方法。其中,語(yǔ)義分割關(guān)注將圖像中的區域分割為不同的類(lèi)別,而不區分不同的物體實(shí)例;實(shí)例分割則側重對每個(gè)實(shí)例對象進(jìn)行獨立的分割。全景分割往往基于語(yǔ)義分割與實(shí)例分割的融合實(shí)現,既區分場(chǎng)景語(yǔ)義,又需要明確物體實(shí)例。全景分割方法在語(yǔ)義-實(shí)例分割任務(wù)融合中,往往由于二者預測結果間的矛盾,導致難以分辨合理的預測結果。
為解決這一問(wèn)題,團隊設計了基于門(mén)控編碼和邊緣約束的端到端全景分割模型BEE-Net。該模型基于全局雙向信息交互以及多角度邊緣優(yōu)化,有效地緩解了全景分割中的語(yǔ)義-實(shí)例預測矛盾問(wèn)題與邊緣分割挑戰。具體地,針對語(yǔ)義與實(shí)例分割特征感知融合,設計了輕量級門(mén)控編碼模塊進(jìn)行多尺度全局特征信息交互,并通過(guò)語(yǔ)義-實(shí)例-全景三重邊緣優(yōu)化算法對邊緣分割質(zhì)量進(jìn)行針對性?xún)?yōu)化,保持高效的同時(shí),顯著(zhù)提升了場(chǎng)景分割性能。本方法在駕駛場(chǎng)景分割權威數據集CityScapes上完成了驗證,取得了65.0%的PQ精度指標,在精度上超越了現有基于CNN的全景分割模型,同時(shí)在效率上優(yōu)于所有基于Transformer的全景分割模型。本方法兼顧了分割精度與效率的性能需求,在路特斯下一代量產(chǎn)車(chē)型智能駕駛感知系統上完成了測試驗證。
在CityScapes數據集上BEE-Net達到
基于CNN的全景分割模型最優(yōu)性能
本研究成果得到了科技部科技創(chuàng )新2030、上海市啟明星揚帆計劃、中國科學(xué)院青促會(huì )、上海市優(yōu)秀學(xué)術(shù)帶頭人等項目支持。上海微系統所仿生視覺(jué)系統實(shí)驗室研究生黃心陽(yáng)、副研究員張廣慧為論文共同一作,李嘉茂研究員為通訊作者。