[汽車(chē)之家 行業(yè)] 3月28日-3月30日,以“夯實(shí)電動(dòng)化 推進(jìn)智能化 實(shí)現(xiàn)高質(zhì)量發(fā)展”為主題的中國(guó)電動(dòng)汽車(chē)百人會(huì)論壇(2025)正式舉辦。
在本屆論壇期間,卓馭科技AI首席技術(shù)官陳曉智與包括汽車(chē)之家在內(nèi)的核心媒體進(jìn)行了交流。陳曉智在交流中表示,近期汽車(chē)圈流行的“全民智駕”對(duì)于卓馭科技這樣的智能駕駛供應(yīng)商來(lái)說(shuō)是好事,有利于推動(dòng)更多車(chē)企尋求相關(guān)合作。目前,城市NOA功能還有一定的價(jià)格下探空間,未來(lái)有望在更低價(jià)位車(chē)型上搭載。
在陳曉智看來(lái),不論是特斯拉FSD這種非激光雷達(dá)方案,還是國(guó)內(nèi)高端車(chē)型搭載的激光雷達(dá)方案,技術(shù)上車(chē)的本質(zhì)邏輯應(yīng)該保持同樣的安全性標(biāo)準(zhǔn),區(qū)別只應(yīng)該在部分極端場(chǎng)景能否使用上。但車(chē)企是否選擇搭載激光雷達(dá),并不僅是出于對(duì)智駕系統(tǒng)本身的考量,還會(huì)考慮整車(chē)的成本、定位、市場(chǎng)宣傳等維度的需求。
對(duì)于年內(nèi)入華的特斯拉FSD功能體驗(yàn),陳曉智認(rèn)為,基礎(chǔ)能力非常強(qiáng),但對(duì)于中國(guó)道路交通環(huán)境的適應(yīng)很差。在他看來(lái),除了FSD所呈現(xiàn)出來(lái)的常規(guī)安全舒適體驗(yàn)之外,卓馭將在2025年升級(jí)到端到端的世界模型,在功能體驗(yàn)上可能會(huì)有更大的升級(jí),實(shí)現(xiàn)千人千面的智能駕駛,有能力給用戶FSD上也看不到的功能。
隨著技術(shù)的不斷演進(jìn),卓馭科技已經(jīng)開(kāi)始針對(duì)L3技術(shù)進(jìn)行布局。據(jù)陳曉智透露,該公司將于2025年內(nèi)開(kāi)啟硬件相關(guān)能力的布局,預(yù)計(jì)相關(guān)軟件能力的落地還需要兩到三年的時(shí)間。
卓馭科技AI首席技術(shù)官 陳曉智
以下為交流原文(經(jīng)汽車(chē)之家整理修改):
媒體:剛才您演講提到了L3,我想問(wèn)一下卓馭科技的L3落地有時(shí)間表嗎?
陳曉智:關(guān)于L3、L4,我們今年會(huì)把L3、L4的硬件做出來(lái),包括控制器、傳感器,滿足L3、L4冗余的架構(gòu)需求。這個(gè)傳感器除了視覺(jué)攝像頭,還會(huì)增加激光雷達(dá)來(lái)滿足冗余;控制器也會(huì)有主系統(tǒng)和備份系統(tǒng)的架構(gòu)設(shè)計(jì)。
再下一步,軟件功能的落地,這塊我們認(rèn)為還需要一段時(shí)間。今年,更多要做的事情就是先把硬件預(yù)埋,把落地的事情先做了。整個(gè)行業(yè),我們認(rèn)為可能也會(huì)是這樣的趨勢(shì),先預(yù)埋L3、L4的硬件,等算法,包括安全接管率、效率都提上去之后,我們?cè)僭谝恍┨囟▓?chǎng)景把L3、L4的功能釋放出來(lái)。
肯定今年會(huì)有一些落地。軟件可能是還需要兩三年的維度。
媒體:大家都知道卓馭在成本控制方面很厲害?,F(xiàn)在的全民智駕背景下,預(yù)計(jì)成本還會(huì)不會(huì)下探?
陳曉智:全民智駕這個(gè)事情,跟我們卓馭一直以來(lái)倡導(dǎo)推動(dòng)的高階智駕普及是比較一致的。過(guò)去幾年也一直在做這樣一個(gè)事情。比如2023年,我們把全國(guó)無(wú)圖高速領(lǐng)航下放到10萬(wàn)出頭的車(chē)型;2024年,我們又把記憶城市領(lǐng)航下放到10萬(wàn)出頭的車(chē)型。
我們過(guò)去比較擅長(zhǎng)的是把高階的智駕功能下放到更低價(jià)位區(qū)間的車(chē)型。今年,大家都說(shuō)智駕標(biāo)配、全民智駕,對(duì)我們來(lái)說(shuō)是一個(gè)比較好的事情。我們也會(huì)跟更多客戶加深這方面的合作,幫助他們更輕松地標(biāo)配這些智駕功能。
我們現(xiàn)在比較關(guān)心的像城市領(lǐng)航的功能,它的成本肯定能做到更低。比如目前用的7V攝像頭,再加32tops的算力平臺(tái)就可以跑城市領(lǐng)航。目前,大家常見(jiàn)到的動(dòng)不動(dòng)跑城市領(lǐng)航要有激光雷達(dá)、要有幾百tops算力的平臺(tái)還會(huì)有比較大的成本,要下放到更低價(jià)位區(qū)間的車(chē)型還是會(huì)有一些壓力和挑戰(zhàn)。我們能支持更簡(jiǎn)單的硬件就能跑城市領(lǐng)航,可能會(huì)有一定的優(yōu)勢(shì),對(duì)于我們的客戶來(lái)說(shuō)推動(dòng)標(biāo)配會(huì)更容易一些。
媒體:卓馭之前提出過(guò)智駕硬件可以插拔更換。卓馭將來(lái)會(huì)不會(huì)把這個(gè)想法實(shí)施,讓它成為一個(gè)正式落地的產(chǎn)品形式?
陳曉智:這個(gè)方向其實(shí)我們已經(jīng)落地了,比如在傳感器不變的情況下,同樣是7V攝像頭,我們可以更換算力芯片,從32tops升級(jí)為100tops的算力,我們跑的功能體驗(yàn)還能進(jìn)一步得到提升。
這樣的方案我們可以做到PintoPin的替換,或者整車(chē)替換都可以,別的傳感器、接插件都不需要變。這個(gè)我們已經(jīng)給我們的客戶提供了,預(yù)計(jì)2025年上半年就會(huì)在一些車(chē)型上有相應(yīng)的升級(jí)。
媒體:最近一年,我們能看到不同廠商在車(chē)載激光雷達(dá)態(tài)度上有所分化,比如特斯拉和小鵬都明確說(shuō)以后不會(huì)用,像華為和理想甚至全系標(biāo)配,您怎么評(píng)價(jià)這種不同廠商的不同態(tài)度?
陳曉智:卓馭對(duì)于這個(gè)問(wèn)題的觀點(diǎn)一直也沒(méi)有變。激光雷達(dá),我們認(rèn)為它的作用就是提供冗余安全性。當(dāng)然,可能不同車(chē)企有不同觀點(diǎn),我要標(biāo)配激光,或者我要減少激光雷達(dá)。我們認(rèn)為,車(chē)企他們不僅是對(duì)于智駕系統(tǒng)的考量,他們裝不裝激光雷達(dá)還會(huì)考慮整車(chē)的成本,考慮車(chē)型的定位,甚至考慮市場(chǎng)宣傳的需求。
從技術(shù)角度來(lái)說(shuō),裝不裝激光雷達(dá),主要還是看冗余安全性。沒(méi)有激光不影響基礎(chǔ)能力,我們已經(jīng)看到像特斯拉FSD。FSD已經(jīng)進(jìn)國(guó)內(nèi)了,大家可以體驗(yàn)到,我們也體驗(yàn)了,我們會(huì)發(fā)現(xiàn)它基礎(chǔ)能力非常強(qiáng),基礎(chǔ)能力的意思就是安全性、舒適性、擬人性,它是非常強(qiáng)的。它沒(méi)有激光雷達(dá),但是也可以做到這些基礎(chǔ)能力很強(qiáng)。所以,有沒(méi)有激光雷達(dá)不影響開(kāi)車(chē)是否是老司機(jī),或者是否安全,不太影響。
如果你要應(yīng)對(duì)一些比較極端的場(chǎng)景,比如說(shuō)有的媒體朋友可能也會(huì)測(cè)一些極端場(chǎng)景,比如夜晚有逆光大燈,還遇到一個(gè)靜止的黑衣人,這種確實(shí)是視覺(jué)弱視的場(chǎng)景,加上激光肯定是有用的,對(duì)于L3、L4確實(shí)要考慮比較極端的場(chǎng)景,你就可以加,加不加激光取決于很多方面的因素,技術(shù)以外的因素也有,技術(shù)本身的因素也有。
媒體:當(dāng)前有很多主機(jī)廠選擇了自研+供應(yīng)商合作的技術(shù)模式,供應(yīng)商的角色從單純的方案交付者轉(zhuǎn)變到技術(shù)賦能者的地位,您認(rèn)為供應(yīng)商和車(chē)企的協(xié)作模式未來(lái)將發(fā)生哪些結(jié)構(gòu)性的變化?
陳曉智:卓馭是作為供應(yīng)商,我們給我們客戶的提供方式本身是比較靈活的,我們?cè)谟布④浖?、算法各個(gè)層面都可以提供相應(yīng)的合作,比如有的客戶想要一個(gè)交鑰匙方案,軟硬件都給他,我們也可以做整套方案給他們。有的客戶可能自己做硬件,或者在第三方采購(gòu)硬件,我們也可以只提供軟件算法。甚至有的客戶有自研團(tuán)隊(duì),你能不能賦能我們,給我們提供工具鏈,或者只要部分的算法,我們也是可以提供的。我們卓馭的合作模式本身比較靈活,會(huì)針對(duì)不同客戶提供不同的合作選項(xiàng)。
對(duì)于車(chē)企自研,現(xiàn)在大家都看到自研,但是自研這個(gè)事情本身會(huì)有一定挑戰(zhàn)。未來(lái),不同的車(chē)企自研占多大比重可能還是得看持續(xù)的產(chǎn)品迭代能做到什么程度。
媒體:最近汽車(chē)出海事情是非常熱的,但中國(guó)的很多非常好的技術(shù)在外國(guó)落地時(shí)遇到非常多的困難。從您的角度看,卓馭在技術(shù)出海方面會(huì)遇到哪些問(wèn)題?
陳曉智:目前,我們海外做得比較多的還是像歐洲那邊的海外適配。這方面適配的挑戰(zhàn)更多不是技術(shù)上的,技術(shù)上相對(duì)簡(jiǎn)單,我們的算法模型在國(guó)內(nèi)場(chǎng)景訓(xùn)練之后到國(guó)外場(chǎng)景泛化性會(huì)比預(yù)想中的要好,比如國(guó)內(nèi)做到100%泛化,到海外的工況可能能做到80%,甚至還要多一些。它不會(huì)有太大適配的問(wèn)題。對(duì)我們來(lái)說(shuō),可能針對(duì)一些長(zhǎng)尾的場(chǎng)景或者當(dāng)?shù)匾恍┨厥獾膱?chǎng)景,比如標(biāo)識(shí)牌等等特殊的交規(guī)做相應(yīng)的適配就可以了。
這里挑戰(zhàn)更多的可能是在數(shù)據(jù)的采集,還有相應(yīng)的路側(cè)得符合當(dāng)?shù)氐姆ㄒ?guī)要求。這塊,我們也是有對(duì)應(yīng)的合規(guī)方案去做海外的適配。
媒體:特斯拉FSD在2025年入華,卓馭和特斯拉FSD之間的優(yōu)劣勢(shì)分別是什么?
陳曉智:我們認(rèn)為它基礎(chǔ)能力還是非常強(qiáng)的,比較老司機(jī)。但是它的短板確實(shí)也如很多媒體所體驗(yàn)的,對(duì)中國(guó)路況,特別是遵守交規(guī)、走對(duì)路方面還做得不夠好,還需要一些時(shí)間去適配,它的優(yōu)點(diǎn)和缺點(diǎn)都非常突出。
對(duì)于卓馭來(lái)說(shuō),我們也不太會(huì)跟FSD有什么直接競(jìng)爭(zhēng)關(guān)系。他是賣(mài)車(chē)的,我們是供應(yīng)商。我們可以幫助國(guó)內(nèi)OEM提供可以跟FSD PK的智駕能力,并且我們?cè)趪?guó)內(nèi)的數(shù)據(jù)以及適配的進(jìn)展顯然會(huì)更加多一些。對(duì)于國(guó)內(nèi)OEM來(lái)說(shuō)壓力更大一點(diǎn)。
除了FSD所呈現(xiàn)出來(lái)的常規(guī)安全舒適體驗(yàn)之外,我們2025年在技術(shù)上還會(huì)升級(jí)到端到端的世界模型,在功能體驗(yàn)上可能會(huì)有更大的升級(jí)。它不僅能提供基礎(chǔ)的安全舒適的智駕體驗(yàn),還能做到千人千面的風(fēng)格,能夠通過(guò)自然語(yǔ)言控制這個(gè)車(chē)輛的行為。這種體驗(yàn)可能是一些常規(guī)車(chē)型看不到的,無(wú)論是FSD還是別的智駕車(chē)型看不到的。從這個(gè)體驗(yàn)上,我們可能也會(huì)有一些不一樣的地方。
媒體:最近業(yè)內(nèi)關(guān)于一段式、二段式端到端的爭(zhēng)議,有些已經(jīng)實(shí)現(xiàn)了一段式。您怎么看待一段式端到端的趨勢(shì)?未來(lái)一段式的方案會(huì)對(duì)成本產(chǎn)生什么樣的影響?可以透露一下卓馭在這方面的布局嗎?
陳曉智:端到端確實(shí)會(huì)有不同的實(shí)現(xiàn)方案,二段式、一段式。
在我們看來(lái),一段式跟二段式我們不太糾結(jié)。一段式比二段式只是多了一步,就是白感知和規(guī)劃模型串聯(lián)起來(lái)訓(xùn)練,二段式的訓(xùn)練方式就是先訓(xùn)感知模型,再訓(xùn)規(guī)劃模型,而一段式增加了第三步訓(xùn)練,就是白感知和規(guī)劃串起來(lái)訓(xùn)練我再微調(diào)一遍。
對(duì)我們來(lái)說(shuō),我們內(nèi)部端到端是否要做一段式串聯(lián)訓(xùn)練,會(huì)根據(jù)每個(gè)版本的需求來(lái)決定。串聯(lián)起來(lái)訓(xùn)練必然訓(xùn)練的時(shí)間更長(zhǎng),訓(xùn)練周期更長(zhǎng),那么這個(gè)版本的發(fā)布是否能接受這種迭代周期,這是需要考量的。
對(duì)于發(fā)版的需求來(lái)說(shuō),其實(shí)每個(gè)版本都有一些要解決的問(wèn)題。比如這個(gè)版本要解決某個(gè)安全性問(wèn)題,比如說(shuō)過(guò)路口不夠絲滑的問(wèn)題。這個(gè)問(wèn)題不見(jiàn)得你要把感知和規(guī)劃串聯(lián)起來(lái)才能解決。你要判斷這個(gè)問(wèn)題是否要把感知也聯(lián)合起來(lái)微調(diào)才能解決,如果不是,只是你的planning的模型就能解決,那我們就沒(méi)有必要串聯(lián)起來(lái)去訓(xùn)練。
在我們內(nèi)部看來(lái),它是一個(gè)比較靈活的處理方式,我們都可以支持二段式跟一段式的訓(xùn)練。什么時(shí)候做一段式訓(xùn)練就是根據(jù)版本的迭代目標(biāo),要解決什么問(wèn)題來(lái)去決定要不要用這個(gè)手段。
媒體:DeepSeek開(kāi)源對(duì)于整個(gè)AI領(lǐng)域也會(huì)有影響。卓馭對(duì)于這樣一個(gè)開(kāi)源的技術(shù)有什么運(yùn)用領(lǐng)域,或者我們目前有什么效果?
陳曉智:DeepSeek開(kāi)源大家都看到很多應(yīng)用場(chǎng)景都有在探索。但是對(duì)于自動(dòng)駕駛算法來(lái)說(shuō),它的作用跟原有的大模型區(qū)別不大,目前它比較多的還是自然語(yǔ)言的能力,多模態(tài)能力可能也是比較常見(jiàn)的,也沒(méi)有特別突出。
對(duì)于自動(dòng)駕駛的應(yīng)用,它更多是技術(shù)上對(duì)我們會(huì)有一些啟發(fā),比如它引入強(qiáng)化學(xué)習(xí),以及在訓(xùn)練的成本上控制得很好,是通過(guò)整個(gè)訓(xùn)練系統(tǒng)的優(yōu)化,使得它使用更少的成本把這個(gè)大模型訓(xùn)出來(lái)。在這些技術(shù)方面對(duì)我們啟發(fā)是比較大的,但是直接用這個(gè)模型放到我們車(chē)上去跑,或者怎么去開(kāi)車(chē),其實(shí)是不太行的,不太能直接去用它。更多是借鑒它的技術(shù),像強(qiáng)化學(xué)習(xí)、推理的能力。
?媒體:現(xiàn)在國(guó)內(nèi)的車(chē)廠提出智駕平權(quán),對(duì)于消費(fèi)者來(lái)說(shuō)他實(shí)際體驗(yàn)上感知區(qū)別會(huì)怎么樣?對(duì)于用戶來(lái)說(shuō),9萬(wàn)塊錢(qián)買(mǎi)一輛車(chē)和20萬(wàn)買(mǎi)的車(chē),他不知道智駕方面的區(qū)別會(huì)在哪里?
陳曉智:這個(gè)其實(shí)要取決于每家車(chē)企對(duì)不同價(jià)位車(chē)型所放的功能的區(qū)別,我們也不能判斷別的車(chē)企是怎么做的。
對(duì)于卓馭來(lái)說(shuō),我們對(duì)于不同價(jià)位方案的區(qū)分度,絕大部分場(chǎng)景能力要做到它們是一樣的,只有在一些比較極端的工況會(huì)有區(qū)別。
類(lèi)似于不同的車(chē)可能會(huì)有不同的電機(jī),有的單電機(jī),有的雙電機(jī),從開(kāi)車(chē)的角度其實(shí)沒(méi)有區(qū)別,你用單電機(jī)還是雙電機(jī)都能完成開(kāi)車(chē)駕駛這個(gè)任務(wù),沒(méi)有區(qū)別。你可能只在一些特殊場(chǎng)景,比如說(shuō)地面濕滑,容易打滑的場(chǎng)景,或者下雪天,雙電機(jī)可能會(huì)好一點(diǎn),可能會(huì)有這些區(qū)別,或者追求極致運(yùn)動(dòng),我等紅綠燈的時(shí)候,希望有聲浪的聲音出去,可能會(huì)有這些區(qū)別,但是基本能力是沒(méi)有變成。
智駕也是做到類(lèi)似這樣的區(qū)別,大部分場(chǎng)景都有相同的安全性、舒適性、擬人性,只有在一些具體場(chǎng)景有區(qū)別。舉個(gè)例子,比如可通過(guò)性可以有區(qū)別,比如說(shuō)相對(duì)低成本的方案,可能在一些狹窄的路段不能通過(guò),它就會(huì)告訴用戶說(shuō)不能通過(guò)或者我就剎停,停在這里等待接管,它有這個(gè)能力,但是不要影響它的安全性,只是不能通過(guò),它只是沒(méi)有這個(gè)能力通過(guò),但是你的安全性、舒適性不能變;更高成本的呢,在更窄的路可以通過(guò),可能在通過(guò)性的配置上會(huì)有區(qū)別。
媒體:卓馭科技現(xiàn)在已經(jīng)公布的定點(diǎn)企業(yè)主要是自主品牌和大眾汽車(chē)。豪華品牌現(xiàn)在也在找本土化的智駕供應(yīng)商,卓馭接下來(lái)有沒(méi)有一些合作的可能性?
陳曉智:除了我們目前正在合作的客戶,我們也一直在跟一些全球客戶在深入交流,相關(guān)的合作未來(lái)一定還會(huì)有增加的,具體是哪些,可能需要再過(guò)一段時(shí)間,大家可以等官方的消息。我們也一直在拓展這些海外客戶,包括他們?cè)诒就粱能?chē)型、海外車(chē)型。
?媒體:我們用AI只是一個(gè)語(yǔ)言模型,比如用DeepSeek或者用ChatGPT,它的模型量或者數(shù)據(jù)量比較小,但是智駕是非常復(fù)雜的情況,它怎么能做到千人千面以及動(dòng)態(tài)調(diào)節(jié)?
陳曉智:我們上午在會(huì)場(chǎng)上也提了一個(gè)議價(jià)能力,就是千人千面和智駕的能力。它背后的技術(shù)關(guān)鍵是在于我們?cè)谘邪l(fā)端到端的世界模型,它跟傳統(tǒng)的端到端區(qū)別在于,傳統(tǒng)的端到端是基于模仿學(xué)習(xí),你從大量的駕駛員數(shù)據(jù)中學(xué)習(xí)他的行為,就是模仿司機(jī)的行為。但是因?yàn)槟愕臄?shù)據(jù)里面各種風(fēng)格的司機(jī)都有,你學(xué)出來(lái)的風(fēng)格其實(shí)就是一個(gè)平均的司機(jī),你沒(méi)有區(qū)分度,所以它很難做到千人千面,并且它的推理過(guò)程也是基于直覺(jué)式的。端到端,就是看到一個(gè)傳感器輸入就做一個(gè)駕駛動(dòng)作,它是直覺(jué)式的一次性動(dòng)作的預(yù)測(cè)。
為了做到千人千面,其實(shí)要有一些推理的能力,并且要區(qū)分不同的風(fēng)格。我們通過(guò)世界模型,世界模型的特點(diǎn)不是直覺(jué)式的,它有推理能力,它可以生成未來(lái)可能發(fā)生的N種情況,就類(lèi)似N個(gè)平行宇宙。N個(gè)平行宇宙里面可能有非預(yù)期的,有一些不符合用戶駕駛意圖的,你可能需要一個(gè)推理過(guò)程結(jié)合用戶意圖選擇最有可能的駕駛軌跡,大概是這么一個(gè)思路。背后的技術(shù)核心,一個(gè)是世界模型的推理能力,在訓(xùn)練過(guò)程中會(huì)引入強(qiáng)化學(xué)習(xí)去克服模仿學(xué)習(xí)本身的局限性。
媒體:它的數(shù)據(jù)量會(huì)很大嗎?
陳曉智:數(shù)據(jù)量其實(shí)沒(méi)有太大區(qū)別,更多是算法上的創(chuàng)新。引入強(qiáng)化學(xué)習(xí)之后,在長(zhǎng)尾數(shù)據(jù)積累,這種數(shù)據(jù)還能減少,因?yàn)槟7聦W(xué)習(xí),你要模仿一些極端場(chǎng)景的行為,你得采集這個(gè)場(chǎng)景的數(shù)據(jù)。有一些場(chǎng)景數(shù)據(jù)是很難覆蓋的,強(qiáng)化學(xué)習(xí)可以通過(guò)仿真手段生成這種場(chǎng)景,它可以降低數(shù)據(jù)采集的需求。
?媒體:剛才您提到低成本和高成本的智駕方案對(duì)于路況的解決,我想請(qǐng)您展開(kāi)聊一下。大家最關(guān)注的三個(gè)場(chǎng)景,一個(gè)是絲滑繞行,一個(gè)路口的靈活交匯,還有駕駛預(yù)判。這個(gè)低成本和高成本是什么樣的解決思路?
陳曉智:首先對(duì)于安全性、舒適性,包括擬人性,我們認(rèn)為在常規(guī)場(chǎng)景,不同成本方案還是可以做到非常接近的,但必然會(huì)有個(gè)別的場(chǎng)景確實(shí)會(huì)有差異,差異的地方可能會(huì)在高動(dòng)態(tài)的場(chǎng)景,需要精密操作的場(chǎng)景,比如說(shuō)突然快速橫穿一個(gè)外賣(mài)小哥的車(chē),高成本方案可能會(huì)剎得更快一點(diǎn),響應(yīng)更快一點(diǎn),而低成本方案可能會(huì)慢一點(diǎn),但是它也能剎住,安全性是有,但是它可能就是響應(yīng)慢一點(diǎn),可能硬件的時(shí)延在里面,這是一個(gè)例子。
另一種,高精密操作,比如非常復(fù)雜的人車(chē)混行,各種快速響應(yīng)周?chē)腥?,或者電?dòng)車(chē)的交互,這時(shí)候你如果高成本的,你這個(gè)模型處理的分辨率更大一些,或者算力更大一些,它在這方面還是會(huì)體現(xiàn)出來(lái)一些更安心的感覺(jué),但是在絕大部分場(chǎng)景,我們認(rèn)為區(qū)別不大。
?媒體:端到端世界模型的問(wèn)題,業(yè)內(nèi)也有一些廠商在嘗試,比如您剛才說(shuō)的推理,它其實(shí)是在發(fā)生環(huán)境去做,但是推理相比于強(qiáng)化學(xué)習(xí)是比較耗時(shí)的。我們?cè)趺窗言谔摂M環(huán)境下的能力在最后部署上車(chē)的時(shí)候?qū)崿F(xiàn)這方面的能力?
陳曉智:推大家如果了解像思維鏈、慢思考或者推理這些能力,慢思考要處理時(shí)間更長(zhǎng),可能沒(méi)辦法做到比較高的頻率去處理,在車(chē)端應(yīng)用并非這種用法。車(chē)端使用更多是慢思考或者推理更多是做長(zhǎng)時(shí)的任務(wù)規(guī)劃,就是對(duì)于駕駛的策略它可以做分解。比如說(shuō),根據(jù)導(dǎo)航,我要大概什么時(shí)候左轉(zhuǎn)繞行,遇到復(fù)雜的路況怎么保證我走對(duì)路……
它需要更多的規(guī)劃,并不是像原來(lái)直覺(jué)式的端到端,我看到一幀數(shù)據(jù)就輸出一個(gè)動(dòng)作,它可能會(huì)出錯(cuò)。如果通過(guò)更長(zhǎng)時(shí)的規(guī)劃可以做出更加合理的決策,它會(huì)是一個(gè)結(jié)合的過(guò)程。這是部署角度的一個(gè)方式。
媒體:業(yè)內(nèi)也在談?wù)撟詣?dòng)駕駛的終極解決方案,像前面有一些大佬說(shuō)他覺(jué)得VLM可能只能做到L2+,如果要往L3或者往更高級(jí)別L4去做的話,可能要做VLA的大模型。不知道您對(duì)這個(gè)自動(dòng)駕駛解決方案怎么看?
陳曉智:我們認(rèn)為,無(wú)論是VLM還是VLA,跟是否L3、L4沒(méi)有什么必然關(guān)系。L3、L4跟L2是安全責(zé)任的區(qū)別,誰(shuí)來(lái)承擔(dān)事故責(zé)任,并不是功能的區(qū)別。L3、L4就是你的接管率要足夠高,你可能要比人類(lèi)司機(jī)要高幾個(gè)數(shù)量級(jí),MPI(每次干預(yù)行駛的里程數(shù))要高。你選用什么技術(shù),端到端也好,VLM也好,VLA也好,只是影響你的接管率。但是接管率即使做到很低了,也不代表你能做到L3、L4。
L3、L4更多為了實(shí)現(xiàn)安全責(zé)任,駕駛員不接管,意味著系統(tǒng)必須還有另外一個(gè)備份系統(tǒng)代替駕駛員去接管這個(gè)車(chē)。L3、L4的區(qū)別是你得有一個(gè)備份系統(tǒng)代替這個(gè)人。對(duì)于主系統(tǒng)跑的是端到端還是VLA沒(méi)有太大關(guān)系,至于VLA能不能滿足L3、L4,其實(shí)沒(méi)有什么關(guān)系。
媒體:在電動(dòng)化時(shí)代剛開(kāi)始的時(shí)候,續(xù)航其實(shí)是有泡沫的,很多用戶會(huì)對(duì)續(xù)航非常焦慮。現(xiàn)在可能大家不會(huì)在乎這個(gè)。在智駕行業(yè)也存在這樣的情況,但是擠泡沫的過(guò)程看起來(lái)比電動(dòng)化稍微快一些,您怎么看這個(gè)趨勢(shì)?大概需要多長(zhǎng)時(shí)間?
陳曉智:泡沫可能是會(huì)不會(huì)有一些宣傳過(guò)度,導(dǎo)致消費(fèi)者有一些理解上或者使用上的誤區(qū)。
對(duì)于這一塊必然會(huì)有這樣一個(gè)過(guò)程。畢竟是新技術(shù),但是我們也看到,智能駕駛的功能,比如像高速領(lǐng)航,在兩年前很多人不敢用、不愿意用,但現(xiàn)在很多人會(huì)愿意用了,并且覺(jué)得好用,其實(shí)需要大家使用的過(guò)程。一旦用戶用了,他確實(shí)可能就回不去了,它確實(shí)能在高速場(chǎng)景解放他的疲勞。
城區(qū)的功能,像城市領(lǐng)航,目前確實(shí)還沒(méi)達(dá)到這種成熟度,在功能上必然也會(huì)經(jīng)過(guò)像高速領(lǐng)航的階段,后面也會(huì)逐步讓更多消費(fèi)者覺(jué)得它安心,愿意用它。但現(xiàn)在其實(shí)還是有一定的距離。
對(duì)于城市的功能,我們認(rèn)為在兩年左右就會(huì)達(dá)到類(lèi)似高速領(lǐng)航的成熟度。
媒體:2024年,卓馭公布了和英偉達(dá)的合作,基于索爾?;谒鳡栭_(kāi)發(fā)的一段式端到端方案進(jìn)度怎么樣?相比于低算力這些方案它的優(yōu)勢(shì)是什么?它的搭載車(chē)型有哪些?
陳曉智:索爾是我們今年重點(diǎn)在做的一個(gè)平臺(tái),最快實(shí)車(chē)體驗(yàn)下個(gè)月上海車(chē)展大家可能就能體驗(yàn)到,會(huì)是我們一個(gè)初步的版本,也會(huì)部署端到端的能力。
對(duì)于這個(gè)平臺(tái),它跟我們?cè)瓉?lái)比如100tops、幾十tops平臺(tái)的主要區(qū)別是,我們可以上剛才提到的端到端世界模型這種技術(shù)。這種技術(shù)可以引入像大語(yǔ)言模型這種比較耗算力的模型,你要用100tops去跑確實(shí)比較困難,但是有1000tops可以跑VLA也好,世界模型、大語(yǔ)言模型都能跑。跑這些模型從功能上的區(qū)別就是能支持剛才我們說(shuō)的千人千面的駕駛風(fēng)格,實(shí)現(xiàn)個(gè)性化駕駛,還有自然語(yǔ)言控制車(chē)輛的行為。這些能力可能是中低算力平臺(tái)比較難做到。
索爾因?yàn)樗懔Υ?,所以我們?cè)谶@個(gè)芯片上面部署,也能支持座艙的使用。座艙也想部署LLM,智駕也想部署LLM,部署兩套LLM比較費(fèi)算力。我們會(huì)提供一個(gè)共享部署的方案,一個(gè)LLM解決兩個(gè)域的問(wèn)題,索爾平臺(tái)也能支持這種功能。