久久精品国产一区二区电影,亚洲 小说 欧美 激情 另类,久久99精品久久久久久噜噜,人妻少妇av中文字幕乱码

當前位置:首頁 > 最新資訊 > 行業資訊

綜述!全面概括基礎模型對于推動自動駕駛的重要作用

近年來,隨著深度學習技術的發展和突破,大規模的基礎模型(Foundation Models)在自然語言處理和計算機視覺領域取得了顯著性的成果。基礎模型在自動駕駛當中的應用也有很大的發展前景,可以提高對于場景的理解和推理。

通過對豐富的語言和視覺數據進行預訓練,基礎模型可以理解和解釋自動駕駛場景中的各類元素并進行推理,為駕駛決策和規劃提供語言和動作命令。

基礎模型可以根據對駕駛場景的理解來實現數據增強,用于提供在常規駕駛和數據收集期間不太可能遇到的長尾分布中那些罕見的可行場景以實現提高自動駕駛系統準確性和可靠性的目的。

對基礎模型應用的另外一個場景是在于世界模型,該模型展示了理解物理定律和動態事物的能力。通過采用自監督的學習范式對海量數據進行學習,世界模型可以生成不可見但是可信的駕駛場景,促進對于動態物體行為預測的增強以及駕駛策略的離線訓練過程。

自動駕駛

本文主要概述了基礎模型在自動駕駛領域中的應用,并根據基礎模型在自動駕駛模型方面的應用、基礎模型在數據增強方面的應用以及基礎模型中世界模型對于自動駕駛方面的應用三方面進行展開。

自動駕駛模型

基于語言和視覺基礎模型的類人駕駛

在自動駕駛中,語言和視覺的基礎模型顯示出了巨大的應用潛力,通過增強自動駕駛模型在駕駛場景中的理解和推理,實現自動駕駛的類人駕駛。下圖展示了基于語言和視覺的基礎模型對駕駛場景的理解以及給出語言引導指令和駕駛行為的推理。

基礎模型對于自動駕駛模型增強范式

目前很多工作都已經證明語言和視覺特征可以有效增強模型對于駕駛場景的理解,再獲取到對于當前環境的整體感知理解后,基礎模型就會給出一系列的語言命令,如:“前方有紅燈,減速慢行”,“前方有十字路口,關注行人”等相關語言指令,便于自動駕駛汽車根據相關的語言指令執行最終的駕駛行為。

最近,學術界和工業界將GPT的語言知識嵌入到自動駕駛的決策過程中,以語言命令的形式提高自動駕駛的性能,以促進大模型自動駕駛中的應用。考慮到大模型有望真正部署在車輛端,它最終需要落在規劃或控制指令上,基礎模型最終應該從動作狀態級別授權自動駕駛。一些學者已經進行了初步探索,但仍有很多發展空間。更重要的是,一些學者通過類似GPT的方法探索了自動駕駛模型的構建,該方法直接輸出基于大規模語言模型的軌跡甚至控制命令,相關工作已經匯總在如下表格中。

使用預訓練主干網絡進行端到端自動駕駛

上述的相關內容其核心思路是提高自動駕駛決策的可解釋性,增強場景理解,指導自動駕駛系統的規劃或控制。在過去的一段時間內,有許多工作一直以各種方式優化預訓練主干網絡,也有許多研究嘗試開發基于Transformer架構的端到端框架,并且取得了非常不錯的成績。因此,為了更加全面的總結基礎模型在自動駕駛中的應用,我們對預訓練主干的端到端自動駕駛相關研究進行了總結和回顧。下圖展示了端到端自動駕駛的整體過程。

基于預訓練主干網絡的端到端自動駕駛系統的流程圖

在端到端自動駕駛的整體流程中,從原始數據中提取低級信息在一定程度上決定了后續模型性能的潛力,優秀的預訓練骨干可以使模型具有更強的特征學習能力。ResNet和VGG等預訓練卷積網絡是端到端模型視覺特征提取應用最廣泛的主干網絡。這些預訓練網絡通常利用目標檢測或分割作為提取廣義特征的任務進行訓練,并且他們所取得的性能已經在很多工作中得到了驗證。

此外,早期的端到端自動駕駛模型主要是基于各種類型的卷積神經網絡,通過模仿學習或者強化學習的方式來完成。最近的一些工作試圖建立一個具有Transformer網絡結構的端到端自動駕駛系統,并且同樣取得了比較不錯的成績,比如Transfuser、FusionAD、UniAD等工作。

數據增強

隨著深度學習技術的進一步發展,底層網絡架構的進一步完善和升級,具有預訓練和微調的基礎模型已經展現出了越來越強大的性能。由GPT代表的基礎模型已經使得大模型從學習范式的規則向數據驅動的方式進行轉換。數據作為模型學習關鍵環節的重要性是無可替代的。在自動駕駛模型的訓練和測試過程中,大量的場景數據被用來使模型能夠對各種道路和交通場景具有良好的理解和決策能力。自動駕駛面臨的長尾問題也是這樣一種事實,即存在無窮無盡的未知邊緣場景,使模型的泛化能力似乎永遠不足,導致性能較差。

數據增強對于提高自動駕駛模型的泛化能力至關重要。數據增強的實現需要考慮兩個方面

一方面:如何獲取大規模的數據,使提供給自動駕駛模型的數據具有足夠的多樣性和廣泛性

另一方面:如何獲取盡可能多的高質量數據,使用于訓練和測試自動駕駛模型的數據準確可靠

所以,相關的研究工作主要從以上兩個方面開展相關的技術研究,一是豐富現有的數據集中的數據內容,增強駕駛場景中的數據特征。二是通過模擬的方式生成多層次的駕駛場景。

擴展自動駕駛數據集

現有的自動駕駛數據集主要是通過記錄傳感器數據然后標記數據來獲得的。通過這種方式獲得的數據特征通常是很低級的,同時數據集的量級也是比較差,這對于自動駕駛場景的視覺特征空間是完全不夠的。語言模型表示的基礎模型在高級語義理解、推理和解釋能力為自動駕駛數據集的豐富和擴展提供了新的思路和技術途徑。通過利用基礎模型的高級理解、推理和解釋能力來擴展數據集可以幫助更好地評估自動駕駛系統的可解釋性和控制,從而提高自動駕駛系統的安全性和可靠性。

生成駕駛場景

駕駛場景對自動駕駛來說具有重要的意義。為了獲得不同的駕駛場景數據,僅依賴采集車輛的傳感器進行實時采集需要消耗巨大的成本,很難為一些邊緣場景獲得足夠的場景數據。通過仿真生成逼真的駕駛場景引起了許多研究者的關注,交通仿真研究主要分為基于規則和數據驅動兩大類。

基于規則的方法:使用預定義的規則,這些規則通常不足以描述復雜的駕駛場景,并且模擬的駕駛場景更簡單、更通用

基于數據驅動的方法:使用駕駛數據來訓練模型,模型可以從中持續學習和適應。然而,數據驅動的方法通常需要大量的標記數據進行訓練,這阻礙了流量模擬的進一步發展

隨著技術的發展,目前數據的生成方式已經逐漸由規則的方式轉換為數據驅動的方式。通過高效、準確地模擬駕駛場景,包括各種復雜和危險的情況,為模型學習提供了大量的訓練數據,可以有效提高自動駕駛系統的泛化能力。同時,生成的駕駛場景也可用于評估不同的自動駕駛系統和算法來測試和驗證系統性能。下表是不同數據增強策略的總結。

世界模型

世界模型被認為是為一種人工智能模型,它包含了它運行的環境的整體理解或表示。該模型能夠模擬環境做出預測或決策。在最近的文獻中,強化學習的背景下提到了術語”世界模型”。這個概念在自動駕駛應用中也得到了關注,因為它能夠理解和闡明駕駛環境的動態特性。世界模型與強化學習、模仿學習和深度生成模型高度相關。然而,在強化學習和模仿學習中利用世界模型通常需要標注好的數據,并且SEM2以及MILE等方法都是在監督范式中進行的。同時,也有嘗試根據標記的數據的局限性將強化學習和無監督學習結合起來。由于與自監督學習密切相關,深度生成模型變得越來越流行,目前已經提出了很多工作。下圖展示出來了使用世界模型增強自動駕駛模型的整體流程圖。

深度生成模型

深度生成模型通常包括變分自動編碼器、生成對抗網絡、流模型以及自回歸模型。

變分自動編碼器結合了自動編碼器和概率圖形模型的思想來學習數據的底層結構并生成新樣本

生成對抗網絡由兩個神經網絡、生成器和鑒別器組成,它們利用對抗訓練相互競爭和增強,最終實現生成真實樣本的目標

流模型通過一系列可逆變換將簡單的先驗分布轉換為復雜的后驗分布來生成相似的數據樣本

自回歸模型是一類序列分析方法,基于序列數據之間的自相關,描述當前觀測值與過去觀測值之間的關系,模型參數的估計通常是利用最小二乘法和最大似然估計來完成的。擴散模型是一種典型的自回歸模型,它從純噪聲數據中學習逐步去噪的過程。由于其強大的生成性能,擴散模型是當前深度生成模型中的新SOTA模型

生成式方法

基于深度生成模型的強大能力,利用深度生成模型作為世界模型學習駕駛場景以增強自動駕駛已經逐漸成為研究熱點。接下來我們將回顧利用深度生成模型作為自動駕駛中的世界模型的應用。視覺是人類獲取有關世界信息的最直接有效的方法之一,因為圖像數據中包含的特征信息極其豐富。許多以前的工作通過世界模型完成了圖像生成的任務,表明世界模型對圖像數據具有良好的理解和推理能力。目前整體來看,研究者們希望可以從圖像數據中學習世界的內在進化規律,然后預測未來的狀態。結合自監督學習,世界模型用于從圖像數據中學習,充分釋放模型的推理能力,為視覺域構建廣義基礎模型提供了一種可行的方向。

非生成式方法

與生成世界模型相比,LeCun通過提出聯合提取和預測架構 (JEPA) 詳細闡述了他對世界模型的不同概念。這是一個非生成和自監督的架構,因為它不直接根據輸入數據來預測輸出結果,而是將輸入數據編碼在一種抽象空間中進行編碼完成最終的預測。這種預測方式的優點是它不需要預測關于輸出結果的所有信息,并且可以消除不相關的細節信息。

JEPA是一種基于能量模型的自監督學習架構,它觀察和學習世界如何工作和高度概括的規律。JEPA在自動駕駛中也有很大的潛力,有望通過學習駕駛是如何工作的來生成高質量的駕駛場景和駕駛策略。

結論

本文全面概述了基礎模型在自動駕駛應用中的重要作用。從本文調研的相關研究工作的總結和發現來看,另一個值得進一步探索的方向是如何為自監督學習設計一個有效的網絡架構。自監督學習可以有效地突破數據標注的局限性,允許模型大規模的對數據進行學習,充分釋放模型的推理能力。如果自動駕駛的基礎模型可以在自監督學習范式下使用不同規模的駕駛場景數據進行訓練,則預計其泛化能力將大大提高。這種進步可能會實現更通用的基礎模型。

總之,雖然在將基礎模型應用于自動駕駛方面存在許多挑戰,但其具有非常廣闊的應用空間和發展前景。未來,我們將繼續觀察應用于自動駕駛的基礎模型的相關進展。

猜你喜歡