作為緊隨風口的車企,自然也不能在大模型時代落后:7月31日,吉利預告了大模型技術(shù);8月8日,廣汽推出“廣汽AI大模型平臺”;奇瑞也將發(fā)布自己的AI大模型……而在此之前,小鵬、理想、特斯拉都宣稱自己擁有“自動化數(shù)據(jù)閉環(huán)系統(tǒng)”,作為大模型的一種應用方向。
除此之外,平臺級公司,百度、阿里、騰訊、360、華為都推出了自己的大模型。上半年結(jié)束的時候,國內(nèi)大模型已經(jīng)達到80個以上。中美兩國的大模型數(shù)量占據(jù)了全球80%。在大模型如此火熱的今天,自動駕駛的落地也在加速,當然,也迎來了新的挑戰(zhàn)。
01
自動駕駛中的大模型
其實“模型”就是一段計算機程序,用來構(gòu)建一個虛擬的神經(jīng)網(wǎng)絡。和生物的神經(jīng)網(wǎng)絡類似,只有刺激到一定程度,神經(jīng)才會活躍。如果再強化刺激,就會輸出活動。這其實就是多段函數(shù)的表達。神經(jīng)網(wǎng)絡模擬任意連續(xù)函數(shù),也就成了可能。上世紀80年代之后,這些計算機概念就建立起來,并在自動駕駛上應用,但一直沒有大的突破。
其根本的原因在于參數(shù)量。這是ChatGPT火起來的重要原因。OpenAI公司發(fā)現(xiàn),模型參數(shù)如果多到一定程度,系統(tǒng)智能(模型精度)就會極大提升,原理現(xiàn)在無法解釋,但已經(jīng)有了一個詞匯來形容——“涌現(xiàn)”。多到什么程度呢?一般來說,至少要1億左右。當然,因為自然語言的信息密度高于圖像,所以ChatGPT-2的參數(shù)量達到15億個,而ChatGPT-3則達到1750億個,剛好和人類神經(jīng)元數(shù)量級別差不多。
自動駕駛中的大模型更為復雜一些,被稱作為多模態(tài)大模型。作為一種可以處理多種不同類型數(shù)據(jù)的深度學習模型,它可以整合來自不同傳感器的數(shù)據(jù),并根據(jù)這些數(shù)據(jù)做出決策。多模態(tài)大模型通常由多個分支組成,每個分支處理不同類型的數(shù)據(jù),例如圖像、文本、聲音、視頻等。這些分支可以并行運行,并最終將結(jié)果合并以進行決策。與傳統(tǒng)的單模態(tài)模型相比,多模態(tài)大模型的優(yōu)點在于它可以從多個數(shù)據(jù)源中獲得更豐富的信息,從而提高模型的性能和魯棒性。例如,在自動駕駛領(lǐng)域中,多模態(tài)大模型可以同時處理來自相機、激光雷達和毫米波雷達等多個傳感器的數(shù)據(jù),以更全面地理解當前交通環(huán)境,并做出更準確的決策。
02
大模型如何顛覆自動駕駛?
具體而言,大模型如何部署在自動駕駛車輛上,又能部署在自動駕駛車輛的哪些模塊呢?
首先是自動駕駛的感知部分,眾所周知,自動駕駛的感知需要融合多個傳感器的輸入,從而完成數(shù)據(jù)的融合增強。在這個過程中,當傳感器的檢測結(jié)果沖突時,更加相信哪一方的結(jié)果便成了一大難題。而大模型的一大優(yōu)勢是可以處理不同類型的數(shù)據(jù)之間的關(guān)系。例如,在自動駕駛中,相機可以提供道路和障礙物的圖像信息,激光雷達可以提供距離和深度信息,而毫米波雷達可以提供速度和方向信息。大模型可以將這些不同類型的數(shù)據(jù)融合在一起,以更全面和準確地理解駕駛環(huán)境。
其次,便是完成目標檢測任務中的自動標注和預標注。以前都是有監(jiān)督學習(人工訓練),現(xiàn)在讓AI自我訓練,就需要先完成數(shù)據(jù)閉環(huán)。這就是為什么幾家新勢力說自己擁有“自動化數(shù)據(jù)標注系統(tǒng)”的原因,其實就是大模型的一個功能。而完整的數(shù)據(jù)閉環(huán)則囊括了數(shù)據(jù)采集、數(shù)據(jù)回流、數(shù)據(jù)處理、數(shù)據(jù)標注、模型訓練、測試驗證諸多環(huán)節(jié)。其中,“數(shù)據(jù)標注”是AI自我訓練的前提,也是AI訓練的成本節(jié)點。
所謂標注,就是給視頻或者圖像的關(guān)鍵信息點貼上標簽,以便讓系統(tǒng)認識并在實際操作中做針對性規(guī)劃。顯然,量產(chǎn)車采集的場景基本都是重復的,數(shù)據(jù)意義不大。專門采集車則比較貴(成本每天6000元-10000元)。重點是,如何盡量多地搜集到“長尾場景”,即不常遇見,但駕駛了很多次之后,每個人幾乎都會遇上的場景(占5%左右)。在大模型上線前,都是人工標注。1000幀的視頻數(shù)據(jù),人工標注成本可能達到萬元。而大模型目前最有價值的部分,莫過于自動化數(shù)據(jù)標注,可能會節(jié)約上億元(取決于替代多少人標注數(shù)據(jù))。
03
大模型時代,車企迎來全新挑戰(zhàn)
在大模型時代,由于模型參數(shù)量的巨大,所采集的數(shù)據(jù)也在飛速增長,如何應用好車企賴以生存的駕駛數(shù)據(jù),并通過分布式系統(tǒng)來進行部署和訓練,最終如何應用在自動駕駛車輛上,都成了一大難題。
一般來說,數(shù)據(jù)閉環(huán)的工作現(xiàn)在已經(jīng)分割給外包供應商、大模型平臺公司(也可以視為供應商)和車企分別來做。很少有車企能夠徹頭徹尾地自己部署基礎(chǔ)大模型,自己搞定應用層,自己設(shè)計預標注并實現(xiàn)數(shù)據(jù)閉環(huán),再驅(qū)動算法更新。這即是L4的進化之路,它的技術(shù)復雜度要求車企與供應商充分融合式合作,而非傳統(tǒng)的供應商“交付”-主機廠應用。
車企過于看重價值鏈全盤掌握,強調(diào)全棧自研,可能會耽誤迭代進程。如果設(shè)計一種規(guī)則,比如基礎(chǔ)層大模型由平臺級公司設(shè)計,車企負責掌握標注規(guī)則,并將后續(xù)人工審核交給另外的第三方,拿回標注好的數(shù)據(jù)之后,自己進行訓練。通過任務拆解,讓自己處于自動駕駛價值鏈的核心地位。避免在關(guān)鍵技術(shù)上受制于人,也不用被迫接受由某個供應商提出軟硬一體的解決方案。
總而言之,大模型的興起又引起了掌握智能駕駛的新勢力的一場狂歡,作為筆者始終認為想要在L4級別的自動駕駛領(lǐng)域走到最后,必須是智駕、車身一起抓,特斯拉已經(jīng)為后來者指明了方向,在大模型時代到來之際,也將拉開新勢力與傳統(tǒng)造車廠的進一步差距。
04
總結(jié)
在未來,汽車的終極形態(tài)必然是一個行走的智能終端,大模型的火熱也帶動了智駕在汽車上的部署落地,使得L4甚至更高級別的自動駕駛成為了可能。
縱然很多人認為corner case對于自動駕駛來說將成為約束其發(fā)展的阻礙,但隨著時間發(fā)展,采集到的極端場景數(shù)據(jù)越來越多,越來越全,總有一天可以讓大模型學習到所有的駕駛情況,而那時自動駕駛時代將真正到來,走在前列的智駕公司也將贏得先發(fā)優(yōu)勢。