自動(dòng)駕駛數(shù)據(jù)閉環(huán)的理想與現(xiàn)實(shí)

沃卡惠
行業(yè)資訊
2023-05-04 09:45:26
385

近年來，數(shù)據(jù)閉環(huán)成了自動(dòng)駕駛行業(yè)的一個(gè)熱門話題，很多自動(dòng)駕駛公司都在試圖打造自己的數(shù)據(jù)閉環(huán)系統(tǒng)。

實(shí)際上，數(shù)據(jù)閉環(huán)并不是一個(gè)新的概念。在傳統(tǒng)軟件工程領(lǐng)域，數(shù)據(jù)閉環(huán)被用來作為改進(jìn)用戶體驗(yàn)的一種重要方式。相信大家都有過這樣的經(jīng)歷，在使用軟件時(shí)，屏幕上跳出一個(gè)彈窗，詢問你“是否允許該軟件收集你的數(shù)據(jù)”，如果你同意相關(guān)條例，那這些數(shù)據(jù)便會(huì)被用來改進(jìn)用戶體驗(yàn)。

當(dāng)用戶端軟件捕捉到一個(gè)問題時(shí)，后臺(tái)能抓取相應(yīng)數(shù)據(jù)，然后由開發(fā)團(tuán)隊(duì)分析此問題后對(duì)軟件做修復(fù)和完善，交由測(cè)試團(tuán)隊(duì)測(cè)試好新版本軟件，之后會(huì)將新版本軟件放在云端，并由用戶更新到終端，這是軟件工程中數(shù)據(jù)閉環(huán)的流程。

在自動(dòng)駕駛場(chǎng)景中，問題數(shù)據(jù)通常是在試驗(yàn)車上收集，極少數(shù)車輛能實(shí)現(xiàn)在量產(chǎn)車上收集。收集后需要對(duì)數(shù)據(jù)做標(biāo)注，然后工程師在云端用新的數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型，重新訓(xùn)練后的模型通常會(huì)通過OTA的方式部署到車端。

一個(gè)完整的數(shù)據(jù)閉環(huán)通常包括數(shù)據(jù)采集、數(shù)據(jù)回流、數(shù)據(jù)處理、數(shù)據(jù)標(biāo)注、模型訓(xùn)練、測(cè)試驗(yàn)證這幾個(gè)環(huán)節(jié)。

Momenta數(shù)據(jù)閉環(huán)流程示意

以特斯拉為例，配置了自動(dòng)駕駛硬件的車隊(duì)采集通過規(guī)則及影子模式下的觸發(fā)器篩選的數(shù)據(jù)，經(jīng)過語義篩選后的數(shù)據(jù)被回傳到云端。此后，工程師在云端用工具對(duì)數(shù)據(jù)做一些處理，再把處理好的數(shù)據(jù)放入數(shù)據(jù)集群，然后利用這些有效數(shù)據(jù)訓(xùn)練模型。模型訓(xùn)練好之后，工程師會(huì)把訓(xùn)練好的模型部署回車端做一系列的指標(biāo)檢測(cè)，經(jīng)過驗(yàn)證的新模型會(huì)被部署到車端供駕駛員使用。

在這種模型下，會(huì)有新的數(shù)據(jù)源源不斷被觸發(fā)回傳，從而形成循環(huán)。此時(shí)，一個(gè)完整的由數(shù)據(jù)驅(qū)動(dòng)的迭代開發(fā)循環(huán)便形成了。

目前，采用數(shù)據(jù)閉環(huán)來驅(qū)動(dòng)算法迭代，幾乎已經(jīng)被公認(rèn)為是提升自動(dòng)駕駛能力的必由之路。很多主機(jī)廠和自動(dòng)駕駛Tier1都在搭建自己的數(shù)據(jù)閉環(huán)系統(tǒng)，甚至還專門設(shè)置了數(shù)據(jù)閉環(huán)架構(gòu)師的職位。

數(shù)據(jù)閉環(huán)的意義是什么？數(shù)據(jù)閉環(huán)能夠在量產(chǎn)車上落地的背景是什么？數(shù)據(jù)閉環(huán)在量產(chǎn)車上落地的過程中有哪些痛點(diǎn)以及如何應(yīng)對(duì)？

接下來，本文將圍繞這些話題逐一討論。

01 數(shù)據(jù)閉環(huán)的意義

根據(jù)智駕科技MAXIEYE的介紹，“數(shù)據(jù)閉環(huán)對(duì)于產(chǎn)品的性能，不僅僅是某個(gè)功能的性能提高，還能以影子模式的形式驗(yàn)證新功能。同時(shí)根據(jù)數(shù)據(jù)觸發(fā)的類別，對(duì)于系統(tǒng)的其他方面也可以幫助優(yōu)化，比如radar/camera blockage 的檢測(cè)，可以根據(jù)回傳數(shù)據(jù)優(yōu)化閾值。在性能層面，數(shù)據(jù)回傳基本上可以優(yōu)化所有的性能，比如AEB，LKA，ELK，ACC，TJA，NOA等。MAXIEYE已通過數(shù)據(jù)回傳OTA不斷升級(jí)AEB, ACC, TJA 等系統(tǒng)功能，而且預(yù)埋了新功能的影子模式。”

如今，各家公司紛紛打造自己的數(shù)據(jù)閉環(huán)系統(tǒng)，主要希望實(shí)現(xiàn)的效果包括提升corner case數(shù)據(jù)采集效率、提高模型的泛化能力以及驅(qū)動(dòng)算法的迭代。

1.1 搜集corner case的數(shù)據(jù)

只要是L2及L2以上的產(chǎn)品，都需要具備持續(xù)進(jìn)化的能力。要讓自動(dòng)駕駛系統(tǒng)持續(xù)地進(jìn)化，就需要不斷獲得corner case的數(shù)據(jù)。而隨著越來越多的corner case從“未知”轉(zhuǎn)換成“已知”，通過數(shù)量有限、形式路線也有限的測(cè)試車輛挖掘出新的corner case的難度越來越大。

通過在場(chǎng)景覆蓋度更廣的量產(chǎn)車上部署數(shù)據(jù)采集系統(tǒng)，在遇到當(dāng)前的自動(dòng)駕駛系統(tǒng)處理地得不夠好的情形時(shí)，觸發(fā)數(shù)據(jù)回傳，是一種比較好的獲取corner case的方法。

例如，可以在搭載L2輔助駕駛的量產(chǎn)車上部署AEB系統(tǒng)，然后收集駕駛員猛踩剎車、猛踩油門、猛打轉(zhuǎn)向、猛打方向盤等的數(shù)據(jù)，分析為什么駕駛員在做這些操作的時(shí)候AEB系統(tǒng)沒有任何響應(yīng)。針對(duì)AEB系統(tǒng)應(yīng)對(duì)地不夠好的問題做相應(yīng)改進(jìn)，提高AEB系統(tǒng)的能力。

1.2 提高模型的泛化能力

當(dāng)前，高等級(jí)的輔助駕駛正在從高速向城市進(jìn)軍。要解決高速這樣相對(duì)簡(jiǎn)單的場(chǎng)景，基本上，僅靠測(cè)試車采集的數(shù)據(jù)來訓(xùn)練模型就夠了，而不是一定要回傳量產(chǎn)車的數(shù)據(jù)；然而，城市場(chǎng)景的復(fù)雜度大幅提升了，而且不同城市的路況也有很多差異。例如，在廣州，隨處可見拉著貨物的三輪車在道路上疾馳，而在上海就很少會(huì)見到這種情形。

因此，很多自動(dòng)駕駛Tier1以及車企對(duì)場(chǎng)景打通的訴求很強(qiáng)烈——即車輛的輔助駕駛系統(tǒng)可妥善應(yīng)對(duì)各主流城市的各種路況。因?yàn)檐嚻鬅o法限制用戶的行駛范圍，假如只針對(duì)很小的區(qū)域做好輔助駕駛功能，會(huì)大大縮小用戶群的范圍，這顯然不是車企希望看到的。

要實(shí)現(xiàn)場(chǎng)景打通的目標(biāo)，模型的泛化能力就需要大幅提高。要大幅提高模型的泛化能力，就要盡可能地把各種各樣的場(chǎng)景對(duì)應(yīng)的數(shù)據(jù)都采集到。而只有基于大規(guī)模真實(shí)人駕數(shù)據(jù)的乘用車輔助駕駛才有能力積累到足夠規(guī)模和足夠多樣的數(shù)據(jù)。

1.3 驅(qū)動(dòng)算法迭代

前文提到，基于深度學(xué)習(xí)的人工智能算法發(fā)展已經(jīng)超過十年。這期間，隨著模型的演進(jìn)以及算力的發(fā)展，自動(dòng)駕駛系統(tǒng)對(duì)大數(shù)據(jù)的消化成為可能。此外，自動(dòng)駕駛系統(tǒng)要升級(jí)，感知、規(guī)劃等環(huán)節(jié)都需要在能力上有相應(yīng)的提升，而采用數(shù)據(jù)驅(qū)動(dòng)，讓算法持續(xù)不斷地進(jìn)化，是提升感知、規(guī)劃等環(huán)節(jié)能力的一個(gè)高效的方式。

城市NOA——即城市內(nèi)的點(diǎn)對(duì)點(diǎn)導(dǎo)航輔助功能是很多主機(jī)廠以及自動(dòng)駕駛Tier1接下來的發(fā)力點(diǎn)，要實(shí)現(xiàn)點(diǎn)對(duì)點(diǎn)的導(dǎo)航輔助駕駛功能，感知系統(tǒng)的語義識(shí)別、障礙物識(shí)別、可行駛區(qū)域的識(shí)別都需要具備一定的精度，然而目前這一標(biāo)準(zhǔn)尚未實(shí)現(xiàn)。

目前主流的感知系統(tǒng)網(wǎng)絡(luò)架構(gòu)是基于BEV+Transformer模型，單純依靠軟件工程師或者算法架構(gòu)師來優(yōu)化，模型可以提升的空間不太多，而BEV+Transformer的架構(gòu)可以容納大量的數(shù)據(jù)，進(jìn)而有望讓模型效果得到提升。

在規(guī)劃層面，數(shù)據(jù)驅(qū)動(dòng)也可以發(fā)揮作用。特斯拉早先使用部分約束下的最優(yōu)方案作為初值，然后采用遞增的方式不斷加入新的約束，再求解增加約束后的優(yōu)化問題，最終得到規(guī)劃問題的最優(yōu)。特斯拉工程師針對(duì)此方法離線做了很多預(yù)生成，并在在線做了并行優(yōu)化，這樣每個(gè)候選路徑的計(jì)算時(shí)間仍然長(zhǎng)達(dá)1～5ms。而根據(jù)特斯拉在2022年9月30日的AI day上披露的內(nèi)容，特斯拉的工程師現(xiàn)在使用了一套數(shù)據(jù)驅(qū)動(dòng)的決策樹生成模型來幫助自動(dòng)駕駛系統(tǒng)快速生成規(guī)劃路徑。這個(gè)數(shù)據(jù)驅(qū)動(dòng)的決策樹生成模型使用特斯拉車隊(duì)中人類駕駛員駕駛數(shù)據(jù)和無時(shí)間約束下的最優(yōu)路徑作為真值進(jìn)行訓(xùn)練，能夠在100us內(nèi)生成一個(gè)候選規(guī)劃路徑，大大縮短了生成候選規(guī)劃路徑的時(shí)間。

綜上可見，搭建好數(shù)據(jù)閉環(huán)系統(tǒng)是自動(dòng)駕駛系統(tǒng)能力提升的一個(gè)重要方式。

02 數(shù)據(jù)閉環(huán)的背景

當(dāng)前，許多量產(chǎn)車上都搭載了輔助駕駛系統(tǒng)，人們可以在量產(chǎn)車上采集數(shù)據(jù)，自動(dòng)駕駛系統(tǒng)的路測(cè)里程超過1億公里已非難事。此外，芯片算力進(jìn)一步增強(qiáng)——例如英偉達(dá)的OrinX芯片算力可達(dá)254TOPS，因此大模型開始被應(yīng)用于感知系統(tǒng)，自動(dòng)駕駛系統(tǒng)對(duì)大數(shù)據(jù)的消化成為可能。另一方面云端技術(shù)較為成熟，自動(dòng)駕駛開始慢慢進(jìn)入數(shù)據(jù)驅(qū)動(dòng)的時(shí)代。

MAXIEYE公司方面的解釋是：“確切地來說，現(xiàn)在不僅僅是數(shù)據(jù)驅(qū)動(dòng)，而是AI算法和數(shù)據(jù)共同驅(qū)動(dòng)。AI算法解決的是學(xué)習(xí)效率的問題，數(shù)據(jù)解決的是學(xué)習(xí)內(nèi)容的問題，算法和數(shù)據(jù)是共生關(guān)系。”

“基于深度學(xué)習(xí)的人工智能算法的發(fā)展已經(jīng)超過了十年，在這十年間的早期階段，監(jiān)督學(xué)習(xí)是學(xué)術(shù)界和工業(yè)界的主流，而監(jiān)督學(xué)習(xí)有一個(gè)致命的缺陷，就是需要大量的人工標(biāo)注，這大大的限制了AI的進(jìn)步空間，但在近幾年，無監(jiān)督和半監(jiān)督學(xué)習(xí)算法慢慢地開始興起，計(jì)算機(jī)可以通過自學(xué)習(xí)的方式不斷地對(duì)數(shù)據(jù)進(jìn)行清洗以及對(duì)算法進(jìn)行自我迭代，因此，通過數(shù)據(jù)驅(qū)動(dòng)的方式開發(fā)自動(dòng)駕駛技術(shù)的條件已經(jīng)成熟。”

長(zhǎng)城沙龍智能化中心負(fù)責(zé)人楊繼峰在一次演講中提到：“從整車角度上，2022年完成了L2到L4的架構(gòu)閉環(huán)和數(shù)據(jù)閉環(huán)，車端架構(gòu)和云端架構(gòu)的進(jìn)一步統(tǒng)一。接下來的競(jìng)爭(zhēng)是數(shù)據(jù)挖掘、數(shù)據(jù)的有效利用以及整個(gè)技術(shù)棧對(duì)數(shù)據(jù)的理解，以及如何在大規(guī)模的基礎(chǔ)設(shè)施上平衡整個(gè)計(jì)算效率。”

03 數(shù)據(jù)閉環(huán)落地的痛點(diǎn)及對(duì)策

目前，大家關(guān)于數(shù)據(jù)閉環(huán)對(duì)于自動(dòng)駕駛系統(tǒng)的意義已達(dá)成共識(shí)，數(shù)據(jù)閉環(huán)在量產(chǎn)車上的落地的時(shí)機(jī)也基本成熟。那么，各家的數(shù)據(jù)閉環(huán)實(shí)際落地的情況如何？我們?nèi)绾稳ピu(píng)判一家公司數(shù)據(jù)閉環(huán)系統(tǒng)搭建的效果呢？

筆者從智駕科技MAXIEYE了解到，對(duì)于自動(dòng)駕駛Tier1來講，技術(shù)上實(shí)現(xiàn)數(shù)據(jù)閉環(huán)其實(shí)不是難題，本質(zhì)上看的是該Tier1的產(chǎn)品實(shí)力——是否能通過數(shù)據(jù)閉環(huán)賦能車廠。其次，數(shù)據(jù)閉環(huán)的效果還要看產(chǎn)品的迭代是否由數(shù)據(jù)閉環(huán)驅(qū)動(dòng)，是否能基于回傳數(shù)據(jù)實(shí)現(xiàn)軟件及算法的優(yōu)化，并定期通過OTA部署到終端。

當(dāng)前，根據(jù)數(shù)據(jù)閉環(huán)能力的高低，自動(dòng)駕駛Tier 1可劃分為三類：第一種是已經(jīng)實(shí)現(xiàn)規(guī)模化量產(chǎn)的數(shù)據(jù)閉環(huán)，第二種是通過采集車實(shí)現(xiàn)閉環(huán)，第三種是還沒有實(shí)現(xiàn)數(shù)據(jù)閉環(huán)的能力。目前來看，第一種還屬于少數(shù)派。

根據(jù)筆者和業(yè)內(nèi)人士交流得到的信息，目前大部分公司的數(shù)據(jù)來源都是采集車。由于用戶隱私、基礎(chǔ)設(shè)施、成本等種種因素，在量產(chǎn)車上大規(guī)模采集數(shù)據(jù)用于自動(dòng)駕駛系統(tǒng)的迭代升級(jí)尚未實(shí)現(xiàn)。有的公司尚未搭建好在量產(chǎn)車上采集數(shù)據(jù)用于數(shù)據(jù)閉環(huán)的流程，有的公司雖然搭建好了流程，也采集了一些數(shù)據(jù)，但尚未將數(shù)據(jù)很好地用起來。

據(jù)悉，少數(shù)公司會(huì)從量產(chǎn)車上采集一些數(shù)據(jù)，但業(yè)內(nèi)人士反映目前采集這些數(shù)據(jù)主要是用來診斷當(dāng)前的自動(dòng)駕駛系統(tǒng)存在的故障等，而非用于深度學(xué)習(xí)模型的迭代。

也即是說，目前很少有公司真正實(shí)現(xiàn)了規(guī)模化量產(chǎn)的數(shù)據(jù)閉環(huán)——即用好從大規(guī)模量產(chǎn)車上采集的數(shù)據(jù)來實(shí)現(xiàn)自動(dòng)駕駛系統(tǒng)能力的提升。那么，數(shù)據(jù)閉環(huán)的量產(chǎn)落地究竟有哪些痛點(diǎn)？針對(duì)這些痛點(diǎn)，有什么樣的應(yīng)對(duì)策略呢？

量產(chǎn)落地的實(shí)踐中需要考慮的問題包括但不限于：如何保證數(shù)據(jù)采集和使用的合規(guī)性、數(shù)據(jù)確權(quán)問題如何解決、數(shù)據(jù)采集功能如何與自動(dòng)駕駛系統(tǒng)共存、數(shù)據(jù)處理難度大、數(shù)據(jù)驅(qū)動(dòng)的軟件系統(tǒng)復(fù)雜度高、模型訓(xùn)練難度大等。

3.1 數(shù)據(jù)采集和使用的合規(guī)性問題

合規(guī)分為測(cè)繪合規(guī)和隱私合規(guī)：測(cè)繪合規(guī)主要涉及到采集國家地理信息時(shí)的合規(guī)，隱私合規(guī)主要涉及到采集用戶隱私相關(guān)數(shù)據(jù)的合規(guī)。

測(cè)繪合規(guī)方面，近幾年，國家對(duì)數(shù)據(jù)安全的管理趨嚴(yán)，出臺(tái)了相關(guān)法律法規(guī)來對(duì)回傳數(shù)據(jù)的范圍進(jìn)行限制。2022 年 “830 新規(guī)”之后，車輛在道路上采集的數(shù)據(jù)都屬于測(cè)繪數(shù)據(jù)。企業(yè)要使用測(cè)繪數(shù)據(jù)，后續(xù)的數(shù)據(jù)加密、數(shù)據(jù)合規(guī)的環(huán)節(jié)必不可少。

首先，在道路上采集數(shù)據(jù)的時(shí)候，企業(yè)需要具備國家測(cè)繪資質(zhì)，并且要做相應(yīng)的備案，否則采集過程中會(huì)被國安等部門阻止。目前，國內(nèi)總共有約30家機(jī)構(gòu)具備相關(guān)資質(zhì)，有的企業(yè)具備國家電子導(dǎo)航甲級(jí)資質(zhì)，適用范圍較廣，在國內(nèi)多個(gè)城市都可以采集，而有的企業(yè)具備乙級(jí)資質(zhì)，適用范圍就會(huì)更小，只能在特定的城市采集。

由于測(cè)繪資質(zhì)很難獲取，需要有長(zhǎng)期的業(yè)務(wù)積累，并且，要保有測(cè)繪資質(zhì)，企業(yè)就需要有相應(yīng)的測(cè)繪業(yè)務(wù)。因此，主機(jī)廠以及自動(dòng)駕駛Tier1一般會(huì)委托帶有資質(zhì)的供應(yīng)商或單位，例如現(xiàn)在有些云廠商會(huì)幫助客戶圍繞數(shù)據(jù)的獲取、加工、使用來設(shè)計(jì)一個(gè)合規(guī)方案。

采集到數(shù)據(jù)后，還需要在車端脫敏、加密，上云之后（一般來講是私有云），還需要做一些合規(guī)工作，這一部分會(huì)由有資質(zhì)的供應(yīng)商或者單位來幫忙做測(cè)繪的合規(guī)。對(duì)于部分很敏感的數(shù)據(jù)，需要由圖商來做采集，而且數(shù)據(jù)需要在脫敏之后存儲(chǔ)在圖商監(jiān)管的服務(wù)器里。

另外，測(cè)繪的數(shù)據(jù)不得泄漏，尤其是不得將數(shù)據(jù)挪到國外，非中國國籍的人既不能獲取測(cè)繪數(shù)據(jù)，也不能在公司內(nèi)操作測(cè)繪數(shù)據(jù)。

一般來說，主機(jī)廠和自動(dòng)駕駛Tier1會(huì)建立自己的數(shù)據(jù)中心，出于安全考慮，這些數(shù)據(jù)中心都比較封閉。主機(jī)廠和自動(dòng)駕駛Tier1需要使用這些數(shù)據(jù)中心存儲(chǔ)的數(shù)據(jù)來做一些訓(xùn)練、仿真等工作的時(shí)候，基于合規(guī)要求，需要將相關(guān)模型部署到數(shù)據(jù)中心來使用。

有業(yè)內(nèi)專家表示，“測(cè)繪的合規(guī)流程太復(fù)雜，資質(zhì)也很難獲取，大家希望盡可能減少對(duì)高精地圖的依賴，這是目前業(yè)界流行‘重感知輕地圖’方案的一部分原因。但實(shí)際上，輕地圖不一定就是‘更好’，因?yàn)橛械貓D數(shù)據(jù)效果肯定比沒有好。目前這個(gè)趨勢(shì)不一定是最終的形態(tài)，也不一定是最好的，只是大家希望能做得更簡(jiǎn)單一點(diǎn)。”

隱私合規(guī)方面，企業(yè)在量產(chǎn)車上采集數(shù)據(jù)，需要用戶授權(quán)。類似于用微信的時(shí)候，企業(yè)需要用戶在一開始簽署授權(quán)協(xié)議，并告知用戶哪些數(shù)據(jù)會(huì)被采集，哪些使用行為會(huì)被記錄。

目前在隱私合規(guī)方面，國家尚未出臺(tái)特別具體的方案規(guī)定哪些數(shù)據(jù)可以采哪些不可以，而是僅有一個(gè)相對(duì)寬泛的條款來規(guī)定數(shù)據(jù)采集方“不得泄漏用戶隱私”。

實(shí)際操作中，涉及到用戶信息的數(shù)據(jù)需要做脫敏，例如車牌號(hào)需要隱去等。

3.2 數(shù)據(jù)確權(quán)問題

我們是否可以在車上采集自動(dòng)駕駛行業(yè)需要的攝像頭、激光或毫米波形成的數(shù)據(jù)呢？

魔視智能產(chǎn)品經(jīng)理蘇林飛介紹道：“按照中國的《個(gè)人信息保護(hù)法》相關(guān)規(guī)定，非法律允許的數(shù)據(jù)采集受到隱私保護(hù)。在德國，原德國聯(lián)邦信息保護(hù)局有這樣的規(guī)定，如果司機(jī)不是受害者，未經(jīng)對(duì)方同意就記錄其他司機(jī)的臉和車輛，是違反個(gè)人信息保護(hù)法的。也就是說，即使是車主記錄別人信息也可能屬于違法。但由于和新能源車伴生的自動(dòng)駕駛行業(yè)很新，法律規(guī)定目前尚屬空缺，所以我們按照基本法學(xué)理念推導(dǎo)，量產(chǎn)車采集的數(shù)據(jù)應(yīng)該由車主所有。”

那車主使用自己的車輛采集的數(shù)據(jù)是否可以授權(quán)給其他單位使用呢？

目前并沒有相關(guān)法律規(guī)定與約束。但是在其他行業(yè)，比如手機(jī)、互聯(lián)網(wǎng)領(lǐng)域，是廣泛允許的。

誰可以拿到車主上傳的數(shù)據(jù)？

從汽車產(chǎn)業(yè)鏈分工看，2種主體可以拿到，第1種是無人車隊(duì)運(yùn)營公司，比如百度的無人駕駛出租車，第2種是主機(jī)廠。但由于前者規(guī)模較小，所以我們重點(diǎn)介紹后者。

由于主機(jī)廠離用戶最近，所以最容易拿到用戶上傳的數(shù)據(jù)。在全球范圍看，Tesla是在這方面做地最好的主機(jī)廠。

目前，主機(jī)廠很少對(duì)外開放數(shù)據(jù)，導(dǎo)致自動(dòng)駕駛Tier1在幫助主機(jī)廠實(shí)現(xiàn)了主機(jī)廠定制的功能后，很難收集到用戶在使用這些功能時(shí)的反饋數(shù)據(jù)，除非Tier1自己有很多測(cè)試車。那么，自動(dòng)駕駛Tier1就難以根據(jù)用戶反饋的數(shù)據(jù)對(duì)相關(guān)功能做后續(xù)的優(yōu)化，數(shù)據(jù)閉環(huán)就難以實(shí)現(xiàn)。

魔視智能產(chǎn)品經(jīng)理蘇林飛告訴筆者：“我們?cè)趲椭鳈C(jī)廠做完一個(gè)項(xiàng)目之后，假如主機(jī)廠不開放數(shù)據(jù)接口，我們就很難拿到用戶的反饋數(shù)據(jù)，進(jìn)而針對(duì)此車型進(jìn)一步迭代產(chǎn)品性能。最后大部分自動(dòng)駕駛系統(tǒng)供應(yīng)商成為了以項(xiàng)目運(yùn)作為核心的公司，進(jìn)而隨著產(chǎn)品性能的落后慢慢被淘汰。

更糟糕的是，由于自動(dòng)駕駛系統(tǒng)源代碼開源的趨勢(shì)已經(jīng)顯現(xiàn)，有的主機(jī)廠會(huì)希望自己搭建數(shù)據(jù)閉環(huán)系統(tǒng)來實(shí)現(xiàn)自動(dòng)駕駛的功能，因而也不愿意把數(shù)據(jù)分享給供應(yīng)商。但主機(jī)廠這樣做我認(rèn)為并不合理，我認(rèn)為從自動(dòng)駕駛整體的生態(tài)來講，最好還是大家各司其職，專業(yè)的人做專業(yè)的事。只是目前行業(yè)還處于比較早期的發(fā)展階段，可能大家都會(huì)想要嘗試，從而把握更大的主動(dòng)權(quán)。”

某新能源主機(jī)廠專家表示：“以前主機(jī)廠不愿意把數(shù)據(jù)給供應(yīng)商是沒想明白供應(yīng)商可以怎么回饋?zhàn)约海赡芙o了數(shù)據(jù)之后對(duì)方也不知道要如何使用。但是現(xiàn)在，對(duì)于合作的供應(yīng)商，比如給主機(jī)廠提供自動(dòng)駕駛解決方案的，主機(jī)廠是可以開放數(shù)據(jù)使用權(quán)的。當(dāng)然了，開放數(shù)據(jù)使用權(quán)的前提是合規(guī)，供應(yīng)商在接收主機(jī)廠提供的數(shù)據(jù)以及在使用數(shù)據(jù)時(shí)都需要保證整個(gè)流程是合規(guī)的。”

對(duì)于主機(jī)廠來說，假如不把數(shù)據(jù)開放給供應(yīng)商，那么就自己發(fā)掘這些數(shù)據(jù)的價(jià)值。早期的時(shí)候，大家都不太知道這些數(shù)據(jù)具體有什么價(jià)值，需要用起來才能慢慢發(fā)現(xiàn)價(jià)值。主機(jī)廠可以把數(shù)據(jù)先給供應(yīng)商使用，同時(shí)自己留存一份，供應(yīng)商發(fā)掘出數(shù)據(jù)的價(jià)值之后再回饋主機(jī)廠。

現(xiàn)在有的主機(jī)廠會(huì)要求供應(yīng)商在sop之后仍能持續(xù)地幫助他們迭代軟件，而供應(yīng)商也可以以此為契機(jī)獲得數(shù)據(jù)，如此一來主機(jī)廠和供應(yīng)商可以實(shí)現(xiàn)雙贏。當(dāng)然了，站在主機(jī)廠的角度，目前這種方式仍然存在一些瑕疵，因?yàn)楣?yīng)商很難保證迭代后效果一定會(huì)變好。主機(jī)廠也很難驗(yàn)證迭代效果，所以主機(jī)廠常常反向要求供應(yīng)商開放中間結(jié)果（例如感知目標(biāo)識(shí)別結(jié)果）數(shù)據(jù)的接口，這樣主機(jī)廠就可以通過針對(duì)中間結(jié)果的統(tǒng)計(jì)指標(biāo)來驗(yàn)證供應(yīng)商的迭代效果。

目前，主要需要雙方本著互相信任，真誠合作的心態(tài)，主機(jī)廠開放數(shù)據(jù)使用權(quán)給供應(yīng)商，然后供應(yīng)商定期更新軟件，并且能看到相應(yīng)的效果，這樣合作就能持續(xù)下去。只是目前這個(gè)模式尚未被廣泛接受，因?yàn)榇蠹疑形纯吹矫黠@的效果。

3.3數(shù)據(jù)采集會(huì)占用系統(tǒng)資源

在量產(chǎn)車上采集數(shù)據(jù)會(huì)占用一些系統(tǒng)資源，比如計(jì)算、存儲(chǔ)等。理論上，可以假設(shè)計(jì)算資源、網(wǎng)絡(luò)帶寬等都不受限制，但在實(shí)際落地過程中，如何保證采集數(shù)據(jù)不影響量產(chǎn)車上自動(dòng)駕駛系統(tǒng)的正常運(yùn)行，例如，如何不影響自動(dòng)駕駛系統(tǒng)的延遲等，這是一個(gè)需要解決的問題。

當(dāng)然了，有的公司會(huì)在自動(dòng)駕駛系統(tǒng)不運(yùn)行的時(shí)候再上傳數(shù)據(jù)，這樣就不存在資源占用的問題。但是也有業(yè)內(nèi)人士認(rèn)為，僅在自動(dòng)駕駛系統(tǒng)不運(yùn)行的時(shí)候上傳數(shù)據(jù)就會(huì)限制數(shù)據(jù)的采集量，現(xiàn)階段還是要盡可能多地采集數(shù)據(jù)。那么，在設(shè)計(jì)的時(shí)候，就需要考慮到采集數(shù)據(jù)等對(duì)自動(dòng)駕駛系統(tǒng)運(yùn)行的影響。

3.4 數(shù)據(jù)標(biāo)注及后續(xù)處理的難度大

據(jù)估計(jì)，從量產(chǎn)車回傳數(shù)據(jù)后，單車每日回傳的數(shù)據(jù)量大概為百兆級(jí)。研發(fā)階段，車輛總數(shù)可能只有幾十輛或者幾百輛。但是到了量產(chǎn)階段，車輛數(shù)目的量級(jí)可以達(dá)到上萬、幾十萬甚至更多。那么，量產(chǎn)階段，整個(gè)車隊(duì)日產(chǎn)生的數(shù)據(jù)量就是很大的數(shù)字。

急劇增加的數(shù)據(jù)量給存儲(chǔ)空間以及數(shù)據(jù)處理的速度都帶來了挑戰(zhàn)。量產(chǎn)之后，數(shù)據(jù)處理的延遲需要和研發(fā)階段保持在同一個(gè)量級(jí)。但如果底層的基礎(chǔ)設(shè)施跟不上，數(shù)據(jù)處理的延遲就會(huì)隨著數(shù)據(jù)量的增長(zhǎng)而相應(yīng)地增加，這樣會(huì)極大地拖慢研發(fā)流程的進(jìn)度。對(duì)于系統(tǒng)迭代來講，這種效率的降低是不可接受的。

一位業(yè)界專家告訴筆者，“目前，我們還沒有看到哪家公司具備處理量產(chǎn)車上回傳的大規(guī)模數(shù)據(jù)的能力。即使是某家在數(shù)據(jù)閉環(huán)層面做得比較前沿的造車新勢(shì)力，即便是每輛量產(chǎn)車每天只回傳5分鐘的數(shù)據(jù)，他們也難以應(yīng)對(duì)這樣的數(shù)據(jù)量，因?yàn)楫?dāng)前的存儲(chǔ)設(shè)備、文件讀取系統(tǒng)、計(jì)算工具等都還無法應(yīng)對(duì)極大的數(shù)據(jù)量。”

要應(yīng)對(duì)越來越大的數(shù)據(jù)量，底層的基礎(chǔ)設(shè)施以及平臺(tái)的設(shè)計(jì)都需要相應(yīng)升級(jí)。

工程團(tuán)隊(duì)需要開發(fā)完善的數(shù)據(jù)訪存SDK。由于視覺數(shù)據(jù)、雷達(dá)數(shù)據(jù)的文件尺寸都非常大，數(shù)據(jù)的訪問、查詢、跳轉(zhuǎn)、解碼過程都需要效率足夠高，否則會(huì)大大拖慢研發(fā)進(jìn)度。

車端數(shù)據(jù)回傳到云端后，工程團(tuán)隊(duì)需要及時(shí)給大量數(shù)據(jù)做好標(biāo)注。業(yè)界目前會(huì)借助預(yù)訓(xùn)練模型來做輔助標(biāo)注，但是數(shù)據(jù)量很大時(shí)，標(biāo)注仍然需要很大的工作量。

在做數(shù)據(jù)標(biāo)注的時(shí)候，還需要確保標(biāo)注結(jié)果的一致性。目前，業(yè)界尚未實(shí)現(xiàn)全自動(dòng)數(shù)據(jù)標(biāo)注，仍然需要人工完成一部分工作量。在人工操作的時(shí)候，如何在數(shù)據(jù)量極大的情況下，保證標(biāo)注結(jié)果的一致性也是一大挑戰(zhàn)。

此外，自動(dòng)駕駛相關(guān)的數(shù)據(jù)不僅量大，而且種類龐雜，這也給數(shù)據(jù)處理增加了難度。數(shù)據(jù)類型按照來源劃分包括車輛數(shù)據(jù)、位置數(shù)據(jù)、環(huán)境感知數(shù)據(jù)、應(yīng)用數(shù)據(jù)、個(gè)人數(shù)據(jù)等等，按照格式劃分包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)，數(shù)據(jù)的服務(wù)類型又涵蓋文件、對(duì)象等，如何統(tǒng)一標(biāo)準(zhǔn)，協(xié)調(diào)不同類型的存儲(chǔ)、訪問接口也是一大難題。

3.5 數(shù)據(jù)驅(qū)動(dòng)的軟件系統(tǒng)復(fù)雜度高

傳統(tǒng)的V字型開發(fā)模式很難適用于數(shù)據(jù)閉環(huán)。而且，目前行業(yè)中還沒有形成統(tǒng)一的面向高等級(jí)自動(dòng)駕駛的軟件開發(fā)平臺(tái)及中間件。

某公司自動(dòng)駕駛部門的技術(shù)專家告訴筆者，“以數(shù)據(jù)和深度學(xué)習(xí)模型驅(qū)動(dòng)的自動(dòng)駕駛功能迭代體系可以稱之為軟件2.0。在這樣的模式下，整個(gè)體系，包括團(tuán)隊(duì)的構(gòu)建、研發(fā)流程、測(cè)試方法、工具鏈都是圍繞數(shù)據(jù)構(gòu)建的。”

在軟件1.0時(shí)代，每個(gè)人提交了什么代碼，預(yù)期的效果都是很容易評(píng)估的。但是，在軟件2.0時(shí)代，每個(gè)人貢獻(xiàn)的部分對(duì)整體效果的影響的衡量難度變大了，而且也很難事先預(yù)期，因?yàn)榇蠹蚁嗷ソ涣鞯牟辉偈乔逦梢姷拇a，而是數(shù)據(jù)以及根據(jù)數(shù)據(jù)更新的模型。

在數(shù)據(jù)量很少的時(shí)候，例如我們之前做移動(dòng)互聯(lián)網(wǎng)應(yīng)用的AI視覺算法，由于數(shù)據(jù)量很少，涉及的視覺模型工程師，大家基本上是Windows或Ubuntu的文件夾各自管理，團(tuán)隊(duì)成員互相之間直接用各種重新命名的文件夾來回傳輸，非常低效進(jìn)行數(shù)據(jù)交換或合作。

但是涉及到自動(dòng)駕駛?cè)蝿?wù)時(shí)，我們面臨的是幾十萬張圖片，而且是幾百人共同研發(fā)一個(gè)系統(tǒng)，每次改動(dòng)涉及到的的模塊可能都是上百乃至上千。如何評(píng)測(cè)每個(gè)模塊的代碼質(zhì)量，如何檢驗(yàn)各模塊之間是否有沖突，這些都是較為復(fù)雜的任務(wù)。迄今為止，我認(rèn)為這套系統(tǒng)仍較為糟糕，工程化部分還不夠成熟。

到了軟件2.0階段，還需要應(yīng)對(duì)的問題是：如何衡量新增的數(shù)據(jù)對(duì)特定的場(chǎng)景和對(duì)全局的影響分別是什么，如何避免基于新增數(shù)據(jù)重新訓(xùn)練的模型在一些特定任務(wù)上效果變好但總體上效果下降。要解決這些問題，我們需要做單元測(cè)試，來檢驗(yàn)新增部分?jǐn)?shù)據(jù)后，對(duì)我們希望解決的細(xì)分場(chǎng)景有沒有幫助以及對(duì)全局有沒有幫助。

舉例來講，假如針對(duì)某個(gè)特定的任務(wù)，原始的數(shù)據(jù)集是2000萬張圖片，然后新增500張圖片，解決這個(gè)特定任務(wù)的能力提升了，但有時(shí)候這也同時(shí)意味著模型在應(yīng)對(duì)全局任務(wù)時(shí)得分降低。

此外，針對(duì)視覺任務(wù)，除了根據(jù)指標(biāo)來判斷新增數(shù)據(jù)對(duì)模型的影響，我們還需要實(shí)際去看具體的影響是什么，這樣才能知道優(yōu)化是否符合預(yù)期。僅僅通過指標(biāo)來看可能會(huì)出現(xiàn)雖然指標(biāo)提升了但實(shí)際效果仍然不符合預(yù)期的情況。

我們還需要有一套基礎(chǔ)設(shè)施，來保證每次做的更新是全局最優(yōu)的。這套基礎(chǔ)設(shè)施會(huì)涉及到數(shù)據(jù)的管理、訓(xùn)練的評(píng)測(cè)等。特斯拉在這個(gè)方面是走在行業(yè)前列的，它關(guān)于數(shù)據(jù)驅(qū)動(dòng)的整條鏈路從一開始的設(shè)計(jì)上就是領(lǐng)先全行業(yè)而且從2019到2022年，不需要太大的改變就能支撐產(chǎn)品的迭代。

3.6 模型訓(xùn)練難度增加

解決了數(shù)據(jù)采集、存儲(chǔ)、標(biāo)注等問題后，后續(xù)的模型訓(xùn)練、功能迭代仍然是挑戰(zhàn)。

訓(xùn)練量產(chǎn)車上回傳的大量數(shù)據(jù)，需要有高效的文件傳輸系統(tǒng)，保證訓(xùn)練時(shí)不被I/O“卡脖子”。

同時(shí)，還要有充足的算力。提高算力的方式通常是打造多卡并行的集群，那么，如何在訓(xùn)練時(shí)保持高效的卡間通信來減少數(shù)據(jù)傳輸?shù)难舆t從而充分有效地利用每張卡的算力也是需要考慮的問題。

為應(yīng)對(duì)模型訓(xùn)練對(duì)算力的需求，有主機(jī)廠專門打造了自己的智算中心。然而，打造智算中心的成本很高，對(duì)于中小企業(yè)來說，這幾乎是一件不可能的事情。

盡管當(dāng)前仍存在諸多痛點(diǎn)，但我們?nèi)匀豢梢灶A(yù)期，假以時(shí)日，目前存在的問題會(huì)被逐個(gè)解決。屆時(shí)，數(shù)據(jù)閉環(huán)能在量產(chǎn)車上真正落地，在量產(chǎn)車上落地后采集的數(shù)據(jù)將反哺數(shù)據(jù)閉環(huán)系統(tǒng)，推動(dòng)自動(dòng)駕駛系統(tǒng)走向更高階。

上一篇：為什么聊天機(jī)器人不能完全取代人類

下一篇：人工智能會(huì)取代低代碼/無代碼嗎？