131美女爱做视频,曰本真人性做爰全过程视频,性做爰aaa片免费看大尺度,欧洲乱码卡一卡二,丰满少妇被猛烈进入av久久

當(dāng)前位置:首頁(yè) 車聞中心 智能網(wǎng)聯(lián) 正文

李想:智能輔助駕駛目前是黎明前的黑暗 我們?cè)敢馊ソ鉀Q問(wèn)題

收藏 (0條) 舉報(bào)/糾錯(cuò) 向編輯提問(wèn)

[汽車之家 資訊] 日前,理想汽車董事長(zhǎng)兼CEO李想開(kāi)啟第二季AI Talk,描述了理想汽車關(guān)于智能駕駛輔助方面接下來(lái)的發(fā)展方向,并重點(diǎn)分享了對(duì)于人工智能的最新思考,VLA司機(jī)大模型的作用、訓(xùn)練方法和挑戰(zhàn),以及對(duì)于創(chuàng)業(yè)和個(gè)人成長(zhǎng)的見(jiàn)解。

汽車之家

汽車之家

汽車之家

李想將AI工具分為三個(gè)層級(jí),分別是信息工具、輔助工具和生產(chǎn)工具。目前,大多數(shù)人將AI作為信息工具使用,但信息工具常伴隨大量無(wú)效信息、無(wú)效結(jié)果和無(wú)效結(jié)論,僅具參考價(jià)值。成為輔助工具后,AI可以提升效率,例如現(xiàn)在的輔助駕駛,但仍需人類參與。未來(lái),AI發(fā)展為生產(chǎn)工具后,將能獨(dú)立完成專業(yè)任務(wù),顯著提升效率與質(zhì)量。李想表示:“判斷Agent(智能體)是否真正智能,關(guān)鍵在于它是否成為生產(chǎn)工具。只有當(dāng)人工智能變成生產(chǎn)工具,才是其真正爆發(fā)的時(shí)刻。就像人類會(huì)雇傭司機(jī),人工智能技術(shù)最終也會(huì)承擔(dān)類似職責(zé),成為真正的生產(chǎn)工具!

● VLA的實(shí)現(xiàn)不是突變的過(guò)程,是進(jìn)化的過(guò)程

汽車之家

目前的L2、L2+組合駕駛輔助仍屬于輔助工具階段,而VLA(Vision-Language-Action Model,視覺(jué)語(yǔ)言行動(dòng)模型)能夠讓AI真正成為司機(jī),成為交通領(lǐng)域的專業(yè)生產(chǎn)工具。對(duì)理想汽車而言, 未來(lái)的VLA就是一個(gè)像人類司機(jī)一樣工作的司機(jī)大模型。

VLA的實(shí)現(xiàn)不是一個(gè)突變的過(guò)程,是進(jìn)化的過(guò)程,經(jīng)歷了三個(gè)階段,對(duì)應(yīng)理想汽車輔助駕駛的昨天、今天和明天。第一階段,理想汽車自2021年起自研依賴規(guī)則算法和高精地圖的輔助駕駛,類似“昆蟲(chóng)動(dòng)物智能”。第二階段,理想汽車自2023年起研究,并于2024年正式推送的端到端+VLM(Vision Language Model,視覺(jué)語(yǔ)言模型)輔助駕駛,接近“哺乳動(dòng)物智能”。

端到端模型在處理復(fù)雜問(wèn)題時(shí)存在局限,雖可借助VLM視覺(jué)語(yǔ)言模型輔助,但VLM使用開(kāi)源模型,使其在交通領(lǐng)域的能力有限。同時(shí)端到端模型也難以與人類溝通。為了解決這些問(wèn)題并提升用戶的智能體驗(yàn),理想汽車自2024年起開(kāi)展VLA研究,并在多項(xiàng)頂級(jí)學(xué)術(shù)會(huì)議上發(fā)表論文,夯實(shí)了理論基礎(chǔ)。

在端到端的基礎(chǔ)上,到第三階段,VLA將開(kāi)啟“人類智能”的階段。它能通過(guò)3D和2D視覺(jué)的組合,完整地看到物理世界,而不像VLM僅能解析2D圖像。同時(shí),VLA擁有完整的腦系統(tǒng),具備語(yǔ)言、CoT(Chain of Thought,思維鏈)推理能力,既能看,也能理解并真正執(zhí)行行動(dòng),符合人類的運(yùn)作方式。

● VLA訓(xùn)練過(guò)程模擬人類學(xué)習(xí),對(duì)齊人類價(jià)值觀

汽車之家

VLA的訓(xùn)練分為預(yù)訓(xùn)練、后訓(xùn)練和強(qiáng)化訓(xùn)練三個(gè)環(huán)節(jié),類似于人類學(xué)習(xí)駕駛技能的過(guò)程。預(yù)訓(xùn)練相當(dāng)于人類學(xué)習(xí)物理世界和交通領(lǐng)域的常識(shí),通過(guò)大量高清2D和3D Vision(視覺(jué))數(shù)據(jù)、交通相關(guān)的Language(語(yǔ)言)語(yǔ)料,以及與物理世界相關(guān)的VL(Vision-Language,視覺(jué)和語(yǔ)言)聯(lián)合數(shù)據(jù),訓(xùn)練出云端的VL基座模型,并通過(guò)蒸餾轉(zhuǎn)化為在車端高效運(yùn)行的端側(cè)模型。

后訓(xùn)練相當(dāng)于人類去駕校學(xué)習(xí)開(kāi)車的過(guò)程。隨著Action(動(dòng)作)數(shù)據(jù)的加入——即對(duì)周圍環(huán)境和自車駕駛行為的編碼,VL基座變?yōu)閂LA司機(jī)大模型。得益于短鏈條的CoT,以及Diffusion擴(kuò)散模型對(duì)于他車軌跡和環(huán)境的預(yù)測(cè),VLA具備實(shí)時(shí)性的特點(diǎn),實(shí)現(xiàn)了在復(fù)雜交通環(huán)境中的博弈能力。

強(qiáng)化訓(xùn)練類似于人類在社會(huì)中實(shí)際開(kāi)車練習(xí),目標(biāo)是讓VLA司機(jī)大模型更加安全、舒適,對(duì)齊人類價(jià)值觀,甚至超越人類駕駛水平。強(qiáng)化訓(xùn)練包含兩部分:一是通過(guò)RLHF(Reinforcement Learning from Human Feedback,基于人類反饋的強(qiáng)化學(xué)習(xí))完成安全對(duì)齊,使模型遵守交通規(guī)則,貼合中國(guó)用戶的駕駛習(xí)慣;二是將純強(qiáng)化學(xué)習(xí)模型放入世界模型中訓(xùn)練,提升舒適性,避免碰撞事故,遵守交通規(guī)則。經(jīng)過(guò)預(yù)訓(xùn)練、后訓(xùn)練和強(qiáng)化訓(xùn)練后,VLA司機(jī)大模型即可部署至車端運(yùn)行。

VLA司機(jī)大模型以“司機(jī)Agent(智能體)”的產(chǎn)品形態(tài)呈現(xiàn),用戶可通過(guò)自然語(yǔ)言與司機(jī)Agent溝通,跟人類司機(jī)怎么說(shuō),就跟司機(jī)Agent怎么說(shuō)。簡(jiǎn)單通用的短指令由端側(cè)的VLA直接處理,復(fù)雜指令則先由云端的VL基座模型解析,再交由VLA處理。

● 超級(jí)對(duì)齊確保AI決策安全,世界模型破解AI黑盒難題

汽車之家

除了提升專業(yè)能力,VLA司機(jī)大模型還需解決安全性和模型黑盒的問(wèn)題。

模型能力越強(qiáng),越需要職業(yè)性約束,以確保能力下限。為了保障VLA司機(jī)大模型能夠?qū)崿F(xiàn)職業(yè)司機(jī)般的安全和舒適,避免學(xué)習(xí)加塞等違規(guī)行為,理想汽車在強(qiáng)化訓(xùn)練環(huán)節(jié)投入大量資源,并于2024年底組建超過(guò)100人的超級(jí)對(duì)齊團(tuán)隊(duì),相當(dāng)于為司機(jī)Agent注入職業(yè)素養(yǎng)。

為解決模型的黑盒問(wèn)題,理想汽車結(jié)合重建和生成兩種路徑,打造了真實(shí)、符合物理世界規(guī)律的世界模型,覆蓋所有交通參與者和要素;谑澜缒P偷姆抡婺芰,VLA可以在世界模型中低成本、準(zhǔn)確地驗(yàn)證現(xiàn)實(shí)問(wèn)題,提升解決問(wèn)題的效率,有效應(yīng)對(duì)模型黑盒帶來(lái)的挑戰(zhàn)。

判斷司機(jī)Agent是否是個(gè)好司機(jī),有三個(gè)關(guān)鍵標(biāo)準(zhǔn):專業(yè)能力、職業(yè)能力和構(gòu)建信任的能力。VLA司機(jī)大模型提升了專業(yè)能力,超級(jí)對(duì)齊增強(qiáng)了職業(yè)能力,VLA通過(guò)理解自然語(yǔ)言、具備記憶能力提升了構(gòu)建信任的能力。

● 人工智能時(shí)代,扎實(shí)的基本功比走捷徑重要

理想汽車實(shí)現(xiàn)技術(shù)快速躍遷的背后,是從研究、研發(fā)到能力表達(dá),再到將能力變成業(yè)務(wù)價(jià)值的基本功積累。研究是關(guān)鍵,研究突破后,研發(fā)的效率會(huì)大幅提升,且注重價(jià)值轉(zhuǎn)化,最終實(shí)現(xiàn)業(yè)務(wù)落地。

理想汽車堅(jiān)持自研,通過(guò)技術(shù)賦能用戶價(jià)值。例如,在輔助駕駛方面,由于英偉達(dá)Orin-X芯片無(wú)法直接運(yùn)行語(yǔ)言模型,端到端+VLM的輔助駕駛方案對(duì)部分企業(yè)來(lái)說(shuō)仍具挑戰(zhàn)。理想汽車依托自有編譯團(tuán)隊(duì),自研底層推理引擎,使芯片可通過(guò)INT4(4比特整型)量化的方式運(yùn)行VLM。同時(shí),憑借芯片、控制器設(shè)計(jì)和自研汽車操作系統(tǒng)等綜合能力,理想汽車實(shí)現(xiàn)了讓雙Orin-X芯片和Thor-U芯片運(yùn)行同等規(guī)模的VLA司機(jī)大模型。李想表示,大型企業(yè)的基本功和能力永遠(yuǎn)無(wú)法被逾越。

汽車之家

得益于DeepSeek的開(kāi)源,理想汽車在VLA司機(jī)大模型的語(yǔ)言能力研發(fā)上提速顯著,節(jié)省了近9個(gè)月的時(shí)間和數(shù)億元成本。盡管如此,理想汽車仍選擇加大投入,在基座模型上投入超預(yù)期3倍的訓(xùn)練卡,專注打造適配多場(chǎng)景的自研模型。李想表示:“我們可以站在巨人的肩膀上,但它只是其中的一部分!痹谑芤骈_(kāi)源的同時(shí),理想汽車也選擇開(kāi)源自研的汽車操作系統(tǒng)——理想星環(huán)OS,回饋社會(huì)。

● 成長(zhǎng)帶來(lái)能量,在痛苦中保持正能量

今年7月,理想汽車將迎來(lái)成立十周年。李想表示,創(chuàng)業(yè)路上苦多于甜,他選擇保留那些有價(jià)值的美好片段,用來(lái)激勵(lì)自己保持正能量。“創(chuàng)業(yè)確實(shí)不容易,但是沒(méi)必要苦哈哈的。苦和甜是一個(gè)硬幣的正反面,取決于看哪一面!彼麑⑵髽I(yè)遭遇的打擊視為必須面對(duì)的挑戰(zhàn),也正是這些挑戰(zhàn),賦予了理想汽車更多的能力。也正因這份積極樂(lè)觀的創(chuàng)業(yè)心態(tài),理想汽車才能快速成長(zhǎng)為千億營(yíng)收規(guī)模、百萬(wàn)交付量的新勢(shì)力企業(yè)。

汽車之家

談及如何成為更有能量的人,李想認(rèn)為,關(guān)鍵在于關(guān)注自我,接受自身的優(yōu)點(diǎn)和不足,并用成長(zhǎng)替代改變——成長(zhǎng)意味著增強(qiáng)能力。除此之外,李想強(qiáng)調(diào)親密關(guān)系同樣重要,關(guān)注他人的成長(zhǎng)也能帶來(lái)能量,家人和同事能夠和他形成互補(bǔ),相互支撐。“我需要家人和同事甚至超過(guò)了他們需要我,首先是我需要他們,然后才是他們需要我,我們?cè)谝黄鹉軌蛐纬煞浅?qiáng)的腦力和心力!崩钕氡硎。

汽車之家

回顧幾次創(chuàng)業(yè)經(jīng)歷,李想表示,從高中創(chuàng)辦個(gè)人網(wǎng)站至今,自己的思維方式?jīng)]有什么變化:遇到問(wèn)題解決問(wèn)題,解決別人不愿解決的難題,解決用戶的痛點(diǎn),不斷向他人學(xué)習(xí)。不同的是,如今面臨的問(wèn)題更復(fù)雜、服務(wù)的用戶群體更多、公司規(guī)模和組織也更龐大。“幾次創(chuàng)業(yè)一路走來(lái),最難時(shí)有人相助,遇坑也能迅速爬出,一幫人齊心協(xié)力變得更好,這是種幸運(yùn),也沒(méi)什么可后悔的!

汽車之家

面對(duì)AI的發(fā)展,李想認(rèn)為,在AI面前所有的人性都應(yīng)被保留,無(wú)論好壞,因?yàn)橐磺腥诵远际俏幕、生命、性格、能力的特質(zhì),也是人類真正的生命力所在。

從使用增程電動(dòng)和5C超充技術(shù)解決電池成本高、充電難、充電慢的問(wèn)題,到自研汽車操作系統(tǒng)攻克傳統(tǒng)汽車操作系統(tǒng)性能差、開(kāi)發(fā)緩慢、芯片匹配周期長(zhǎng)等挑戰(zhàn),理想汽車始終以技術(shù)創(chuàng)新解決行業(yè)無(wú)法解決的問(wèn)題。自研VLA時(shí),理想汽車更是踏入了人工智能的無(wú)人區(qū)。當(dāng)前,輔助駕駛走到了新的十字路口上,理想汽車將不斷挑戰(zhàn)成長(zhǎng)的極限,持續(xù)為行業(yè)和用戶創(chuàng)造價(jià)值。

● Agent(智能體)應(yīng)該怎么定價(jià)?

汽車之家

李想表示,我們雇用人類費(fèi)用的幾分之一,至于幾分之一最后還是看把成本都算出來(lái)以后,我覺(jué)得比如說(shuō)我一個(gè)月,我雇一個(gè)司機(jī),1萬(wàn)塊錢(qián),我是否愿意?2千到3千雇傭一個(gè)司機(jī)。我覺(jué)得這個(gè)其實(shí)是一個(gè),可能是一個(gè)比較重要的一個(gè)判斷,當(dāng)然它也會(huì)帶來(lái)其他商業(yè)模式的不同。比如說(shuō)你花2千到3千塊錢(qián)雇傭一個(gè)司機(jī),那可能你對(duì)車而言,你可能也不需要付保險(xiǎn)費(fèi)了,保險(xiǎn)費(fèi)也包在這里邊了,保險(xiǎn)的費(fèi)用就財(cái)產(chǎn)的保險(xiǎn),這個(gè)財(cái)產(chǎn)險(xiǎn)的費(fèi)用也包含在里邊了。也可能一定的這種,因?yàn)樗赡軙?huì)自動(dòng)去充電,可能一定的充電的金額,對(duì)應(yīng)一定里程的充電金額也放在里面了。所以可能到最后算下來(lái),還可能是個(gè)更劃算的一個(gè)事情。

● 以下是實(shí)錄內(nèi)容:

1. 距離上次的AI talk過(guò)去了130天,你最大的進(jìn)步是什么?你有成為一個(gè)更智能的李想嗎?

我覺(jué)得這130天我覺(jué)得我更高興看到的是整個(gè)中國(guó)的進(jìn)步,對(duì)吧?我覺(jué)得包括DeepSeek,包括千問(wèn)在內(nèi)的,可以讓中國(guó)無(wú)論是基座模型,還是reasoning推理模型,還是后邊的多模態(tài),已經(jīng)跟美國(guó)的距離基本上拉近了,或者基本上在一個(gè)水平線上了。而且中國(guó)的企業(yè)做出來(lái)這些模型效率也更高,無(wú)論是在預(yù)訓(xùn)練上,在訓(xùn)練的層面,還是在后邊的整個(gè)推理層面,我們做了很多的深層的工程的改造。我覺(jué)得也讓整個(gè)的中國(guó)的人工智能領(lǐng)域更有信心。也包含后邊我看到一些比較驚喜的,在Agent(智能體)上面的一些突破,無(wú)論是Manus還是這個(gè)還是Genspark,我覺(jué)得其實(shí)這些方面做的都非常的好。

嗯,所以我說(shuō)這個(gè)其實(shí)是非常驚喜的,那如果從我們自己個(gè)人而言,這也樹(shù)立了我們把 AI 做得更好的這個(gè)信心。今天大家在講語(yǔ)言模型,但我還是認(rèn)為語(yǔ)言模型只是世界的一個(gè)重要的組成部分,但并不是全部,我們要想去理解物理世界,我們要想讓一個(gè)終端或者一個(gè)機(jī)器人能夠在物理世界和數(shù)字世界里運(yùn)行,其實(shí)要做的工作還有非常多。我覺(jué)得這個(gè)其實(shí)是讓我們也更加堅(jiān)信,這條路走下去是對(duì)的。


2. 那你有變成一個(gè)更智能的李想嗎?

我覺(jué)得沒(méi)有那么大的變化。如果從實(shí)際的角度而言,人工智能發(fā)展這么好,但我每天工作時(shí)間并沒(méi)有減少,還是在增加。

3. 是啊,這是為什么?

大部分人在使用,或者說(shuō)我見(jiàn)到的幾乎所有人,其實(shí)還是在把它當(dāng)成一個(gè)信息工具來(lái)使用。那如果是信息工具的話,其實(shí)AI作為一個(gè)信息工具不是完美的,因?yàn)樗詈笠欢ㄒo你個(gè)next token(下個(gè)詞元),一定要給你一個(gè)結(jié)果。而且大家今天使用的時(shí)候會(huì)先點(diǎn)上聯(lián)網(wǎng)搜索,先去通過(guò)Rag(檢索增強(qiáng)生成)聯(lián)網(wǎng)搜索一些索引信息。但往往其實(shí)索引的信息源,就已經(jīng)失真和不準(zhǔn)確了,所以最后推理的過(guò)程,(雖然)很認(rèn)真地在做推理,但是你明顯都看到這個(gè)過(guò)程和結(jié)果已經(jīng)開(kāi)始有問(wèn)題了。所以某種程度而言,如果我們不對(duì)這套機(jī)制進(jìn)行一個(gè)改造的話,它某種程度仍然是在做熵增,在增加大量的無(wú)效信息、無(wú)效結(jié)果、無(wú)效結(jié)論。

我覺(jué)得這是一個(gè)很大的挑戰(zhàn),我就在思考一個(gè)問(wèn)題,還是要站在真正用戶價(jià)值的角度,如果大家在拼命地使用AI,大家在為AI做投資,但是我的工作時(shí)長(zhǎng)并沒(méi)有減少,我的工作結(jié)果也沒(méi)有變好,那這個(gè)問(wèn)題到底在哪里?所以這也是過(guò)去幾個(gè)月我跟很多人在聊,在思考,我們內(nèi)部在討論非常多的一個(gè)問(wèn)題。我覺(jué)得很多時(shí)候不要把東西纏繞到一起,我們可以先做一個(gè)分類,因?yàn)槿祟悮v史上也會(huì)有類似這些的分類。今天,通過(guò)一個(gè)對(duì)話的方式,無(wú)論文本多么長(zhǎng),其實(shí)它都是個(gè)信息工具,我覺(jué)得信息工具對(duì)大家而言更重要的其實(shí)是參考作用。

再往下,AI變好了以后,它會(huì)變成一些輔助工具。比如我們今天做的輔助駕駛,大家在車上用人工智能的語(yǔ)音方式來(lái)進(jìn)行導(dǎo)航,來(lái)查找美團(tuán),來(lái)調(diào)取音樂(lè),它會(huì)讓我們的效率更高,但它仍然離不開(kāi)我們。所以這時(shí)候,這種角色比較像什么呢?它確實(shí)比原來(lái)的使用體驗(yàn)會(huì)更好了,但它是個(gè)輔助的一個(gè)工具。

我覺(jué)得什么時(shí)候才能真正改變我們的工作的成果以及減少我們的工作時(shí)長(zhǎng),我覺(jué)得它必須變成生產(chǎn)工具。我自己認(rèn)為Agent(智能體)最重要的評(píng)判條件是它是否是個(gè)生產(chǎn)工具、它是否真正能替代我去完成專業(yè)的工作、它是否真的在產(chǎn)生有效的生產(chǎn)力、它是否真的在解決我工作中那最重要的8小時(shí)的時(shí)間。對(duì),我覺(jué)得這個(gè)是我接下來(lái)對(duì)Agent(智能體)最重要的衡量,也是我覺(jué)得Agent(智能體)的意義所在。

4. 這是你對(duì)于工具的三個(gè)分級(jí),信息工具、輔助工具和生產(chǎn)工具。

對(duì),我覺(jué)得人工智能變成生產(chǎn)工具,然后才是真正人工智能爆發(fā)的時(shí)刻。

5. 所以最過(guò)去130天其實(shí)最大的變化是外部的環(huán)境。

對(duì),國(guó)際環(huán)境在發(fā)生重大的變化。然后技術(shù)也在發(fā)生變化,但技術(shù)最大的變化還是中國(guó)在人工智能方面帶來(lái)的變化。美國(guó)的變化反而沒(méi)那么大。

6. 你從DeepSeek身上學(xué)到了什么?

我覺(jué)得DeepSeek我能學(xué)到最好的一個(gè)方式是DeepSeek運(yùn)用了人類的最佳實(shí)踐,它極簡(jiǎn)的運(yùn)用了人的最佳實(shí)踐。比如說(shuō)其實(shí)他在做DeepSeek V3的時(shí)候,其實(shí)V3是一個(gè)MoE(混合專家模型)的,671B的一個(gè)模型。我覺(jué)得MoE(混合專家模型)是個(gè)非常好的架構(gòu)。它相當(dāng)于把一堆專家組合在一起,然后每一個(gè)是一個(gè)專家能力。它做這個(gè)專家能力是怎么來(lái)構(gòu)建的?其實(shí)挺明顯的,就當(dāng)我們想去構(gòu)建能力的時(shí)候,DeepSeek給你展示了一個(gè)最佳實(shí)踐,第一步一定要先搞研究。我覺(jué)得這是非常重要的。就是任何的時(shí)候,當(dāng)我們想去改變能力和提升能力的時(shí)候,第一步一定是搞研究,搞完研究以后其實(shí)才搞研發(fā)。然后搞完研發(fā)以后,我覺(jué)得第三步是要把能力表達(dá)出來(lái)。然后第四步是能力變成業(yè)務(wù)的價(jià)值。

這四個(gè)步驟是個(gè)極簡(jiǎn)的人類最佳實(shí)踐,但我們經(jīng)常做著就忘掉了,看到什么東西就直接去啟動(dòng)研發(fā),而沒(méi)有去搞研究。我們自己也很受益,其實(shí)無(wú)論我們是在端到端和VLM(視覺(jué)語(yǔ)言模型)上,還是今天做VLA(視覺(jué)語(yǔ)言行動(dòng)模型)的時(shí)候,我們的研究團(tuán)隊(duì)其實(shí)表現(xiàn)得非常好。

包括你可以看國(guó)外的像李飛飛,其實(shí)她在引用輔助駕駛的時(shí)候,也經(jīng)常會(huì)引用我們的關(guān)于輔助駕駛方面的這些研究的論文。那我覺(jué)得這個(gè)其實(shí)挺重要。那研究跑通了以后,研發(fā)效率會(huì)變得非常的高。但是研發(fā)又非常在意價(jià)值,他能夠把價(jià)值表達(dá)出來(lái),然后變成業(yè)務(wù),那我覺(jué)得這是一個(gè)很重要的過(guò)程。

7. 我很好奇在就是DeepSeek全球爆火的時(shí)候,你這個(gè)春節(jié)是怎么過(guò)的?

春節(jié)過(guò)得挺好的,還帶著孩子去看哪吒2。那其實(shí)我印象應(yīng)該是1月20號(hào)然后DeepSeek R1上線的,然后到后邊開(kāi)源,我們也在對(duì)DeepSeek做了很多的這個(gè)整個(gè)的研究,就是我們也在研究DeepSeek很多東西為什么做得好。包括整個(gè)的訓(xùn)練和推理的效率,也包括這些一個(gè)MoE(混合專家模型)模型部署上去對(duì)內(nèi)存占用的這些挑戰(zhàn)。

其實(shí)我們自己已經(jīng)開(kāi)始在芯片上來(lái)寫(xiě)FP8(8 位浮點(diǎn)數(shù)格式)的整個(gè)的工程的優(yōu)化了。因?yàn)槲覀冏约河芯幾g團(tuán)隊(duì)。那比較有意思的一點(diǎn)是,我沒(méi)有上來(lái)敢跟模型團(tuán)隊(duì)直接聊,我先跟謝炎(理想汽車CTO)聊了一下,我說(shuō)我們本身要做VLA(視覺(jué)語(yǔ)言行動(dòng)模型),然后VLA一個(gè)很重要的計(jì)劃是到今年的這個(gè)9月份的時(shí)候能夠做一個(gè)非常好的語(yǔ)言模型出來(lái),才能再往下去訓(xùn)練VLA(視覺(jué)語(yǔ)言行動(dòng)模型)。

但是今天看的話說(shuō)我們自己預(yù)測(cè)的我們到9月份做的模型,能力是否比DeepSeek V3加R1更強(qiáng)?我說(shuō)至少我聽(tīng)到你們說(shuō)的東西,我說(shuō)不如那個(gè)強(qiáng),對(duì)吧?而且它開(kāi)源開(kāi)得如此的徹底。然后我們是否應(yīng)該基于它的開(kāi)源,去做我們的 VLA(視覺(jué)語(yǔ)言行動(dòng)模型)的L(language 語(yǔ)言)的部分,并且我們基于這個(gè)L(language 語(yǔ)言)的部分,比如說(shuō)其實(shí)我在理想同學(xué)用的話可能就是個(gè)VL(視覺(jué)和語(yǔ)言),它沒(méi)有A(action 行動(dòng)),對(duì)吧?就把vision(視覺(jué))和language(語(yǔ)言)其實(shí)放在一起,包括要做成端到端的,然后語(yǔ)音的這樣的一個(gè)方式。

我覺(jué)得我們?cè)瓉?lái)本來(lái)應(yīng)該是9月份以后才能做這些工作,我們是否應(yīng)該站在巨人的肩膀上就去做了?然后謝炎(理想汽車CTO)說(shuō)肯定應(yīng)該這么做。

那時(shí)候我們比較擔(dān)心陳偉(理想汽車基座模型負(fù)責(zé)人)會(huì)怎么想,對(duì)吧?因?yàn)檫@個(gè)壓力是挺大的。然后我們發(fā)現(xiàn)陳偉比我們還堅(jiān)決。他說(shuō)這個(gè)會(huì)加速我們往下一步的這個(gè)工作,我們應(yīng)該以這個(gè)為基礎(chǔ),加速VLA(視覺(jué)語(yǔ)言行動(dòng)模型),加速端到端的多模態(tài)這樣的一個(gè)進(jìn)展,然后研究團(tuán)隊(duì)也都在研究我們?nèi)绾卧谛酒弦才艿酵瑯拥挠?xùn)練和推理的效率,大家都在同步地進(jìn)行工作。

我跟謝炎(理想汽車CTO)打的最多的電話,我們還有一個(gè)專門(mén)的人工智能的戰(zhàn)略小組,我們就在里邊不停地聊,發(fā)現(xiàn)大家并不糾結(jié),因?yàn)槲覀冎牢覀兗移髽I(yè)的基因,還是要為用戶推出最好的產(chǎn)品和服務(wù)。

整個(gè)擁抱DeepSeek的這個(gè)過(guò)程比我們想象得要快,所以這是今天其實(shí)我們VLA(視覺(jué)語(yǔ)言行動(dòng)模型)推出的速度也會(huì)比原來(lái)的預(yù)期的要快。

8. 你怎么看梁文鋒(DeepSeek創(chuàng)始人)?你覺(jué)得他是怎么找到你說(shuō)的這個(gè)人類最佳實(shí)踐呢?

我只跟他聊過(guò)一次,是去年的9月份,印象特別深,應(yīng)該是ChatGPT的o1發(fā)布前的幾天。我自己個(gè)人感覺(jué),兩個(gè)特點(diǎn),第一他是個(gè)特別自律的人。明顯你跟他溝通的過(guò)程中其實(shí)能夠看到,第二個(gè)是我個(gè)人認(rèn)為其實(shí)他是會(huì)在全世界范圍之內(nèi)去研究和學(xué)習(xí)最佳實(shí)踐和最好的方法論的這樣一個(gè)人。

9. 怎么理解自律?

我覺(jué)得自律的最大特點(diǎn)就是能夠堅(jiān)守這些你相信的東西,能夠堅(jiān)守這些最佳實(shí)踐,能跟人性的一些懶惰、走捷徑,這些方面做對(duì)抗。

我覺(jué)得讓我們更加敬佩他,包括我們的開(kāi)源。我覺(jué)得DeepSeek的出現(xiàn)對(duì)我們加速做VLA(視覺(jué)語(yǔ)言行動(dòng)模型)是巨大的幫助。過(guò)去我們打算要到今年年底才能做出一個(gè)像樣的,能夠滿足我們需求的語(yǔ)言模型,但DeepSeek一開(kāi)源,我們就加速了9個(gè)月的時(shí)間,所以給我們帶來(lái)了巨大的收益和幫助,我們受到了那么大的幫助,所以我們?cè)谙胛覀兡軐?duì)社會(huì)做點(diǎn)什么貢獻(xiàn),所以我們就把自研的整車操作系統(tǒng)理想星環(huán)OS給開(kāi)源了。沒(méi)有大家想的那么復(fù)雜,我自己內(nèi)心,包括謝炎(理想汽車CTO)的內(nèi)心就是DeepSeek給我們帶來(lái)那么大的幫助,我們應(yīng)該給對(duì)社會(huì)貢獻(xiàn)點(diǎn)什么。不讓行業(yè)那么卷。說(shuō)白了純粹是感謝DeepSeek。

10. 自研了四年嗎?

對(duì),那真的是做得好,明顯得好。如果你做的不好的東西出去開(kāi)源不就丟人嗎?

11. 所以這是一種情懷,而不是一個(gè)公司戰(zhàn)略,對(duì)嗎?

不是公司戰(zhàn)略。

12. 這很有意思。 DeepSeek感覺(jué)帶來(lái)了更多的善良和善意。

是的。

13. 你有沒(méi)有想過(guò)DeepSeek為什么不是你做的?

我覺(jué)得我只能做最好的自己。我的人生經(jīng)歷,我進(jìn)入了汽車行業(yè),我做汽車的網(wǎng)站,我其實(shí)一直在自己的長(zhǎng)板的延長(zhǎng)線上繼續(xù)來(lái)做。從最開(kāi)始做個(gè)人網(wǎng)站,到做產(chǎn)品的IT網(wǎng)站,到做汽車網(wǎng)站,最后希望能夠改變汽車行業(yè),推出更好的產(chǎn)品,汽車疊加下一代的信息技術(shù)。這個(gè)其實(shí)是我的一個(gè)延長(zhǎng)線。他(梁文鋒 DeepSeek創(chuàng)始人)的延長(zhǎng)線其實(shí)就是從人工智能開(kāi)始的,他在浙大學(xué)的就是人工智能,那是他的延長(zhǎng)線,本身我也相信,量化交易的公司,對(duì)于整個(gè)模型的能力,對(duì)模型的理解,對(duì)于本身工程的能力,不會(huì)比任何互聯(lián)網(wǎng)公司差,甚至可能還要更強(qiáng)。

14. 在春節(jié)之后很多人都來(lái)問(wèn)我這個(gè)問(wèn)題,就說(shuō)理想還做基座模型。既然都有DeepSeek,為什么還要做基座模型?

因?yàn)槲覀兊臉I(yè)務(wù),意味著其實(shí)我們并不是說(shuō)只是做好語(yǔ)言模型就夠了,我們車上其實(shí)要有對(duì)話,然后又有多模態(tài),那這個(gè)仍然其實(shí)需要我們自己去訓(xùn)練一個(gè)根據(jù)我們自己需要的一個(gè)基座模型,包括我要去做VLA(視覺(jué)語(yǔ)言行動(dòng)模型),因?yàn)檫@個(gè)VLA里邊,哪怕V(vision 視覺(jué))和L(language 語(yǔ)言)都和正常的是不一樣的,就是這個(gè)我需要3D的vision(視覺(jué)),還有高清的2D的vision(視覺(jué))的,然后token(詞元)要用預(yù)訓(xùn)練,必須得涉及到更專業(yè)的車領(lǐng)域的語(yǔ)義語(yǔ)料,交通領(lǐng)域的語(yǔ)義語(yǔ)料,我們面向的家庭用戶的語(yǔ)義語(yǔ)料,然后來(lái)做訓(xùn)練,還有也包含其實(shí)還有很多的時(shí)候,一個(gè)重要的是說(shuō)大家在做VLA(視覺(jué)語(yǔ)言行動(dòng)模型)訓(xùn)練的時(shí)候,很多時(shí)候在做基座的時(shí)候說(shuō)我要把VL(視覺(jué)和語(yǔ)言)也要連在一起,然后把VL(視覺(jué)和語(yǔ)言)的組合語(yǔ)料放進(jìn)去,那這些無(wú)論是OpenAI還是DeepSeek,它都沒(méi)有這樣的數(shù)據(jù),它也沒(méi)有這樣的場(chǎng)景和需求,也不去解決這樣的問(wèn)題,那只能我自己來(lái)做了。只是好處是說(shuō)VLA(視覺(jué)語(yǔ)言行動(dòng)模型)里邊的這個(gè)language(語(yǔ)言),我可以站在巨人的肩膀上,但是它只是我其中的一部分。

15. 所以一方面是擁抱了DeepSeek,另一方面你們把基座模型的團(tuán)隊(duì)還拆出去了,并且加大了投入,是嗎?

我覺(jué)得首先訓(xùn)練卡比他們今年的預(yù)期我們應(yīng)該多買(mǎi)了3倍。

16. 你要訓(xùn)多大的模型?

并不是一個(gè)固定的,就是我們現(xiàn)在的話,做出來(lái)的一個(gè)不同的版本,比如說(shuō)我們給理想同學(xué)用的,會(huì)是一個(gè)300B的模型,就大概是個(gè)3000億(參數(shù))的一個(gè)模型,我們給輔助駕駛運(yùn)用的VLA(視覺(jué)語(yǔ)言行動(dòng)模型)的,其實(shí)VL(視覺(jué)和語(yǔ)言)的部分,是個(gè)32B的模型。那包含其實(shí)我們真正工作中用的也會(huì)去用那個(gè)3000億的這個(gè)模型,就大概現(xiàn)在是這樣的兩個(gè)版本。

17. 你現(xiàn)在覺(jué)得給基座模型打多少分?你希望2025年提升到多少?

結(jié)果還沒(méi)呈現(xiàn)呢。這才幾月。课矣X(jué)得沒(méi)有什么捷徑,我覺(jué)得還是我認(rèn)為其實(shí)雖然我們借用了一些能力,但是你沒(méi)有辦法直接去吃第十個(gè)包子。如果你規(guī)則算法都做不好,你根本不知道怎么去做端到端,如果你端到端沒(méi)有做到一個(gè)非常極致的水平,你連VLA(視覺(jué)語(yǔ)言行動(dòng)模型)怎么去訓(xùn)練都不知道。

18. 那今年2月5號(hào),也就是春節(jié)之后,你們的第一個(gè)AI的例會(huì),你說(shuō)DeepSeek更像是Linux推出,而你們要去追逐安卓時(shí)刻,你們準(zhǔn)備怎么去爭(zhēng)奪安卓時(shí)刻?

這個(gè)東西是一個(gè)比喻,比如說(shuō)安卓其實(shí)是基于Linux開(kāi)發(fā)出來(lái)的一個(gè)手機(jī)操作系統(tǒng)。那我們以語(yǔ)言作為基礎(chǔ),我們的VLA(視覺(jué)語(yǔ)言行動(dòng)模型)就是把vision(視覺(jué))這部分做成最強(qiáng)的,然后把a(bǔ)ction(行動(dòng))也做好,然后借助了L(language),就是語(yǔ)言的這個(gè)能力。那其實(shí)我覺(jué)得VLA(視覺(jué)語(yǔ)言行動(dòng)模型)就比較像在汽車或者交通領(lǐng)域的更重要的一個(gè)大模型或者操作系統(tǒng),我覺(jué)得這是我們的機(jī)會(huì)所在。

19. 我們來(lái)聊聊你們最近在做的VLA(視覺(jué)語(yǔ)言行動(dòng)模型)的架構(gòu)。今天的輔助駕駛其實(shí)走到了一個(gè)新的十字路口上,有的人說(shuō)甚至覺(jué)得輔助駕駛應(yīng)該被叫停。你怎么想?

我覺(jué)著我們這么多年,從規(guī)則算法,做到了端到端+VLM,然后今天真正的邁入到了VLA(視覺(jué)語(yǔ)言行動(dòng)模型)的階段,我覺(jué)得比較像什么?比較像黎明前的黑暗吧。我覺(jué)得黎明馬上就要來(lái)了。但是會(huì)先經(jīng)歷一個(gè)黑暗的過(guò)程,之所以有黑暗是因?yàn)橐瓉?lái)黎明。我覺(jué)得這是今天這么一個(gè)階段。

正因?yàn)檩o助駕駛行業(yè)遇到了問(wèn)題,我最喜歡、最開(kāi)心的方式,就是去解決行業(yè)解決不了的問(wèn)題,我覺(jué)得這是我們自己堅(jiān)決相信的。就跟我們推出增程,就是為了解決電池成本高、充電難的問(wèn)題。我們推出5C也是為了解決充電慢、等待時(shí)間長(zhǎng)這樣的問(wèn)題。我們?cè)敢馊ソ鉀Q各種行業(yè)遇到的問(wèn)題,包括我們做操作系統(tǒng),也是因?yàn)檫^(guò)去的時(shí)候,傳統(tǒng)的那種車控和智控的操作系統(tǒng)性能差,開(kāi)發(fā)緩慢,芯片匹配周期長(zhǎng)的這些問(wèn)題。我覺(jué)得這些問(wèn)題(存在)恰恰是我們的價(jià)值所在。

20. 為什么人類一定需要輔助駕駛呢?為什么科技不能就此止步呢?

只要人類會(huì)雇傭?qū)I(yè)司機(jī)。我覺(jué)得人工智能技術(shù)其實(shí)就是把類似這樣的一些功能和角色,去變成真正的生產(chǎn)力、生產(chǎn)工具,然后去進(jìn)行替代。

21. 什么是VLA(視覺(jué)語(yǔ)言行動(dòng)模型)?你能從用戶語(yǔ)言來(lái)講,不要用技術(shù)語(yǔ)言。

我覺(jué)得VLA(視覺(jué)語(yǔ)言行動(dòng)模型)我們定義的一個(gè)方式是叫,因?yàn)閂LA(視覺(jué)語(yǔ)言行動(dòng)模型)機(jī)器人領(lǐng)域也在講,對(duì)于我們理想汽車而言,VLA是一個(gè)司機(jī)大模型,像人類的司機(jī)一樣去工作的一個(gè)模型。那我覺(jué)得到達(dá)VLA(司機(jī)大模型)它不是一個(gè)突變的過(guò)程,其實(shí)它是一個(gè)進(jìn)化的過(guò)程。

經(jīng)歷了三個(gè)階段。我覺(jué)得第一個(gè)階段是我們從2021年開(kāi)始,通過(guò)機(jī)器學(xué)習(xí)的感知,配合后邊的規(guī)則算法,包括規(guī)劃、控制、執(zhí)行這些規(guī)則算法分段式的。我覺(jué)得第一個(gè)階段比較像什么?比較像昆蟲(chóng)動(dòng)物的智能。它有既定的規(guī)則,還要依賴于高精地圖,就比較像螞蟻的行動(dòng)和完成任務(wù)的一個(gè)方式。

22. 它能理解的世界也很有限。

非常之有限,我覺(jué)得這是第一個(gè)階段,而且效率比較低,也是個(gè)很麻煩的事情。它(規(guī)則算法)就這樣一個(gè)規(guī)模的腦子,包括它的整個(gè)模型規(guī)模大概就只有幾百萬(wàn)的一個(gè)參數(shù),它就那么小的一個(gè)腦子,你讓它去完成復(fù)雜的事情,幾乎不可能的。所以你就不停地限定、限定,幾乎把它做成了一個(gè)有軌交通的方式。這跟螞蟻非常相似。

第二個(gè)階段就是我們從2023年開(kāi)始搞研究,2024年推出的端到端。端到端比較像什么呢?端到端比較像哺動(dòng)物的智能,比如像馬戲團(tuán)里的一些動(dòng)物,向人類學(xué)習(xí)怎么騎自行車。它學(xué)了人類的這些行為,人類怎么去做出各種的行為的開(kāi)車。但是它對(duì)物理世界并不理解,它只是看到了一個(gè)什么樣的三維的圖像,知道自身的速度,并給出了一個(gè)什么樣的軌跡,所以它應(yīng)付大部分的泛化是沒(méi)有問(wèn)題的,去面對(duì)它從來(lái)沒(méi)有學(xué)到的、特別復(fù)雜的,其實(shí)就會(huì)遇到問(wèn)題。所以這時(shí)候我們也會(huì)配合,視覺(jué)語(yǔ)言模型 VLM,然后放進(jìn)來(lái)。但是我們能夠用到的視覺(jué)語(yǔ)言模型這些開(kāi)源的,用在交通上的能力都非常的有限,所以只能起到一些非常有限的輔助的一個(gè)作用。我覺(jué)得第二個(gè)階段就是哺乳動(dòng)物智能運(yùn)作的一個(gè)方式。

我覺(jué)得到了VLA(司機(jī)大模型),就是完全人類的運(yùn)作方式了。它會(huì)像人類一樣的,用3D的vision(視覺(jué))和2D的組合,去看整個(gè)真實(shí)的物理世界,也包含它能夠去看懂導(dǎo)航軟件,這樣的軟件是怎么在運(yùn)行的,而不是像VLM(視覺(jué)語(yǔ)言模型)那樣只能看到一張圖片。另外一方面,它有自己的整個(gè)腦系統(tǒng),不但要看到物理世界,還能夠理解這個(gè)物理世界。它有它的language(語(yǔ)言),然后它也有它的CoT(思維鏈),有推理的一個(gè)能力。我覺(jué)得第三個(gè),它能夠像人類一樣的,真正地去執(zhí)行這樣的行動(dòng)。我覺(jué)得這個(gè)其實(shí)是VLA(視覺(jué)語(yǔ)言行動(dòng)模型)產(chǎn)生的一個(gè),放在我們的汽車,輔助駕駛領(lǐng)域,我們把它稱之為VLA的司機(jī)大模型。

23. 你也可以講講VLA(司機(jī)大模型)這三個(gè)它的關(guān)系是什么,以及怎么訓(xùn)的。

我還是講一下怎么訓(xùn)的,并把這個(gè)關(guān)系表達(dá)清楚了。我覺(jué)得第一個(gè)其實(shí)是訓(xùn)練的環(huán)節(jié)。訓(xùn)練環(huán)節(jié)第一個(gè)部分是什么呢?要訓(xùn)出來(lái)一個(gè)VL(視覺(jué)和語(yǔ)言)的基座,就vision(視覺(jué))和language(語(yǔ)言)的基座。我們目前在訓(xùn)的,當(dāng)前的這個(gè)版本,是一個(gè)32B的,就是320億云端的一個(gè)基座模型,所以先訓(xùn)這個(gè)。這里邊的話,跟過(guò)去的時(shí)候這些語(yǔ)言模型的差異在于什么呢?第一在于我要放入更多vision(視覺(jué))的語(yǔ)料,放入vision(視覺(jué))的token(詞元)。vision(視覺(jué))里面包含兩個(gè)部分,一部分是3D上的vision(視覺(jué)),物理世界3D的 vision(視覺(jué)) 要放進(jìn)去,第二個(gè)是高清的、2D的vision(視覺(jué))。因?yàn)榻裉斓脑,大家看到各種多模態(tài)的開(kāi)源 VLM(視覺(jué)語(yǔ)言模型) 里邊,它整個(gè)2D vision(視覺(jué))的清晰度太低,所以看的距離不夠。那我們放進(jìn)去的基本上圖像分辨率提升了10倍。我覺(jué)得這是非常之重要的。這是一個(gè)部分,是vision(視覺(jué))的token(詞元)和語(yǔ)料。

第二個(gè)是要放入language(語(yǔ)言),跟交通、駕駛相關(guān)的足夠多的這方面的語(yǔ)料。這是language(語(yǔ)言)的部分。

第三個(gè)還有一個(gè)很重要的,是大家可能容易忽略的,就我們必須放入很多VL(視覺(jué)和語(yǔ)言)聯(lián)合的語(yǔ)料,就是三維圖像和對(duì)世界的理解語(yǔ)義要同時(shí)產(chǎn)生的。比如我舉一個(gè)例子,我要把導(dǎo)航的地圖和車輛對(duì)導(dǎo)航地圖的理解一起放進(jìn)去。

24. 這是原始的數(shù)據(jù)嗎?

沒(méi)有原始的數(shù)據(jù)。

25. 這是你們自己的?

比如我要放入一個(gè),看到導(dǎo)航以后人類做了一個(gè)什么判斷,然后這個(gè)判斷我們的車輛是怎么記錄的。把這個(gè)語(yǔ)料放進(jìn)去。其實(shí)整個(gè) VL (視覺(jué)和語(yǔ)言)基座模型訓(xùn)練的時(shí)候,包含了三個(gè)部分,數(shù)據(jù)是vision(視覺(jué))的數(shù)據(jù),language(語(yǔ)言)的數(shù)據(jù)和VL(視覺(jué)和語(yǔ)言)聯(lián)合的數(shù)據(jù)。然后它形成一個(gè)VL(視覺(jué)和語(yǔ)言)的一個(gè)基座。同時(shí)我要把這個(gè)基座干什么呢?我要蒸餾下來(lái),然后變成一個(gè) 3.2B 端側(cè)的蒸餾模型。因?yàn)槲乙WC它運(yùn)行速度足夠得快,然后無(wú)論是兩個(gè)Orin-X還是Thor-U上能夠流暢地運(yùn)行。蒸餾下來(lái)是一個(gè)3.2B,8個(gè)專家組成的MoE(混合專家模型)模型。如果直接跑3.2B一個(gè)完整模型的話,雙Orin-X和Thor-U的幀率是達(dá)不到的,token(詞元)的整個(gè)輸出率是達(dá)不到的這是第一個(gè)步驟,這是預(yù)訓(xùn)練的環(huán)節(jié)。

第二個(gè)步驟是什么?第二個(gè)步驟是做后訓(xùn)練。后訓(xùn)練是什么呢?后訓(xùn)練其實(shí)是我把它變成VLA(司機(jī)大模型)。我要把a(bǔ)ction(行動(dòng))放進(jìn)來(lái)。action(行動(dòng))的部分后訓(xùn)練什么呢?其實(shí)仍然是一種模仿學(xué)習(xí)。特別像你去駕校學(xué)開(kāi)車,就相當(dāng)于我訓(xùn)練VLA(司機(jī)大模型),把它組合成一個(gè)VLA(司機(jī)大模型)的端到端的一個(gè)方式,這是第二個(gè)部分。這個(gè)時(shí)候大概模型規(guī)模就會(huì)從3.2B大概擴(kuò)大到接近4B,大概這么一個(gè)規(guī)模。

同時(shí),它一方面是個(gè)VLA(司機(jī)大模型),能夠直接從視覺(jué),到理解,到最后的輸出。但是我們的CoT(思維鏈)就會(huì)很短,我不會(huì)做超長(zhǎng)的CoT(思維鏈),我的CoT(思維鏈)鏈條一般兩步到三步,我不會(huì)再做更多的,否則延時(shí)太長(zhǎng),沒(méi)有辦法滿足交通或者機(jī)器人的安全。另外當(dāng)我 action(行動(dòng))做完以后,我還會(huì)做一個(gè)diffusion(擴(kuò)散模型)的預(yù)測(cè),就是下邊會(huì)發(fā)生什么樣的時(shí)長(zhǎng)的一個(gè)場(chǎng)景。這個(gè)主要根據(jù)性能會(huì)做出來(lái)4到8秒的一個(gè)diffusion(擴(kuò)散模型)的軌跡和環(huán)境的預(yù)測(cè)。我覺(jué)得這是第二個(gè)部分,比較像人去駕校學(xué)開(kāi)車這樣的一個(gè)環(huán)節(jié)。

第三個(gè)部分是什么?是強(qiáng)化,是要做強(qiáng)化的訓(xùn)練,比較像人到社會(huì)上開(kāi)車了。所以強(qiáng)化我們分成兩個(gè)部分,第一個(gè)部分先做RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí)學(xué)習(xí)),帶有人類反饋的,所以我們有很多人類數(shù)據(jù)。就是當(dāng)它這樣的話,人類就會(huì)接管,當(dāng)它那樣的話,人類不會(huì)接管。包括人類的一些習(xí)慣,所以拿這塊來(lái)做一個(gè)帶有人類反饋的強(qiáng)化訓(xùn)練。包括我們安全的對(duì)齊都是在這個(gè)強(qiáng)化的環(huán)節(jié)完成的,你除了要遵守交通規(guī)則以外,你要遵守比如中國(guó)的,大家的駕駛習(xí)慣。你的開(kāi)車習(xí)慣能夠融入社會(huì),首先要開(kāi)得跟整個(gè)社會(huì)環(huán)境上的大家一樣好,不能給別人帶來(lái)麻煩,對(duì)吧?而不是個(gè)新手在路上的時(shí)候,你變成一個(gè)阻礙。第二個(gè)部分是純粹的RL(強(qiáng)化學(xué)習(xí)),是(拿RL模型放到)我們的世界模型來(lái)做訓(xùn)練。這塊兒的目的什么呢?就是開(kāi)得比人類更好。這塊兒的話,我們中間不會(huì)給人類的反饋,只會(huì)給一個(gè)結(jié)果,就是從a點(diǎn)到b點(diǎn)要開(kāi)過(guò)去。但是會(huì)有三類的訓(xùn)練要求,第一個(gè)是我們可以通過(guò)G 值(加速度數(shù)值)來(lái)判斷它的舒適性,給舒適性的反饋。第二個(gè)是做碰撞的反饋,它碰撞了這個(gè)強(qiáng)化就沒(méi)有完成。第三個(gè)是交通規(guī)則的反饋,如果它違反交通規(guī)則就沒(méi)有完成。所以是舒適、交通規(guī)則和碰撞事故,讓它自己來(lái)做整個(gè)強(qiáng)化的訓(xùn)練。當(dāng)這三個(gè)步驟完成了以后,VLA(司機(jī)大模型)能夠跑在車端的模型其實(shí)就產(chǎn)生了。

大概是這么一個(gè)方式。跟人非常像,先學(xué)習(xí)世界、交通和人類的這些知識(shí),這是預(yù)訓(xùn)練的環(huán)節(jié)。后訓(xùn)練的環(huán)節(jié)相當(dāng)于去駕校,認(rèn)真地去學(xué)開(kāi)車。第三個(gè)環(huán)節(jié)相當(dāng)于到社會(huì)上來(lái)開(kāi)車,也是我們訓(xùn)練的一個(gè)過(guò)程,要通過(guò)人類的RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí)學(xué)習(xí))跟人類做對(duì)齊,然后跟社會(huì)的環(huán)境來(lái)對(duì)齊。另外一方面,通過(guò)純RL(強(qiáng)化學(xué)習(xí))的強(qiáng)化,以及我們自己在世界模型里生成的數(shù)據(jù)拿它做強(qiáng)化訓(xùn)練,從而開(kāi)得比人類更好,能夠解決更復(fù)雜的問(wèn)題,或者說(shuō),比人類的平均值要好得多,大概是這么一個(gè)過(guò)程。

這還沒(méi)有完,這時(shí)有了VLA(司機(jī)大模型)。但人類是怎么跟VLA(司機(jī)大模型)工作的時(shí)候,其實(shí)我要搭建一個(gè)司機(jī)的Agent(智能體)。司機(jī)的Agent(智能體)是什么呢?是人類以自然語(yǔ)言的方式,就是你跟一個(gè)司機(jī)怎么說(shuō)話,你跟一個(gè)正常的駕駛員,假設(shè)你有男朋友,你男朋友在開(kāi)車,你怎么跟他說(shuō),你就怎么跟司機(jī)Agent來(lái)說(shuō);蛘咭粋(gè)代駕,你怎么跟他說(shuō)就說(shuō)了。這里邊的話,如果是一些短指令,通用的短指令VLA(司機(jī)大模型)直接就處理了,不需要再經(jīng)過(guò)云端。如果是一些復(fù)雜的指令,其實(shí)先要到云端的32B那里,VL(視覺(jué)和語(yǔ)言)處理完以后,(因?yàn)樗斫饨煌ǖ囊磺校?,整個(gè)交給VLA(司機(jī)大模型)來(lái)進(jìn)行處理,大概這么運(yùn)行的一個(gè)過(guò)程。

說(shuō)白了它最后的一個(gè)好處是說(shuō)它能夠像人類司機(jī)一樣去理解物理世界,能夠像人類司機(jī)一樣去開(kāi)車,去處理復(fù)雜的問(wèn)題,也能像人類司機(jī)一樣跟其他人類進(jìn)行溝通。這是最后我們交付到用戶那里的產(chǎn)品。

26. 這其中這些步驟里面哪個(gè)是最難的呀?

沒(méi)法預(yù)測(cè),我覺(jué)得沒(méi)有辦法預(yù)測(cè)。因?yàn)檫@些東西我們前面沒(méi)有任何人走過(guò)這條路。DeepSeek也沒(méi)走過(guò)這條路,然后OpenAI也沒(méi)有走過(guò)這條路,谷歌、Waymo也沒(méi)有走過(guò)這條路。我們其實(shí)走的是一個(gè)無(wú)人區(qū)。

27. 那你們?yōu)槭裁淳蚥et(下注),為什么就押注了這條路呢?因?yàn)槲易罱隽艘粋(gè)技術(shù)播客,就是講 VLA(視覺(jué)語(yǔ)言行動(dòng)模型),我就感覺(jué)這個(gè)技術(shù)路線還沒(méi)有收斂。為什么你們覺(jué)得你們可以?

我覺(jué)得交通領(lǐng)域應(yīng)該是VLA(視覺(jué)語(yǔ)言行動(dòng)模型)最早實(shí)現(xiàn)的。因?yàn)橐皇且?guī)則清楚,包括你說(shuō)做強(qiáng)化是非常容易的。按照每個(gè)來(lái)講,交通的世界,一個(gè)車會(huì)跑到哪里?其實(shí)是有的,雖然它很復(fù)雜,但是確定的,對(duì)吧?車又不能開(kāi)到水里,車也不能開(kāi)到空中,車只能開(kāi)到有路的地方,所以它是復(fù)雜但具備確定性,對(duì)吧?我覺(jué)得這是一點(diǎn)。

第二其實(shí)車的控制,其實(shí)車是個(gè)3 DoF(自由度),車有三個(gè)自由度,對(duì)吧?左右是一個(gè)自由度,前后是個(gè)自由度,某種程度上還有一點(diǎn)輕微的旋轉(zhuǎn),是個(gè)自由度,對(duì)吧?甚至輔助駕駛某種程度就控制兩個(gè)多,撐死就三個(gè)自由度。如果這個(gè)都不能實(shí)現(xiàn),機(jī)器人的上來(lái)就是40多個(gè)自由度,那個(gè)挑戰(zhàn)就更大了。

所以這時(shí)候,我們進(jìn)行模仿學(xué)習(xí)是特別容易的。所以車看到的就是人看到的,人操作的其實(shí)就是車操作的,所以我覺(jué)得第二個(gè)它能做特別好的模仿學(xué)習(xí)。

第三個(gè)它還能做特別好的強(qiáng)化,對(duì)吧?就是大家在使用的過(guò)程中不滿意的時(shí)候就接管了,其實(shí)這個(gè)就是跟人類沒(méi)有對(duì)齊,對(duì)吧?它就告訴你不應(yīng)該這么做,以及告訴你該怎么做,這是非常清晰的指標(biāo),對(duì)吧?包含哪怕其實(shí)不做,包括后邊我不做人類監(jiān)督,我靠生成數(shù)據(jù)來(lái)做訓(xùn)練的時(shí)候也非常清晰。因?yàn)槭裁词鞘孢m,G值(加速度數(shù)值)是可以表達(dá)的。什么是符合交通規(guī)則是能夠表達(dá)出來(lái)的,交通規(guī)則是個(gè)清晰的規(guī)則。第三個(gè)是否發(fā)生碰撞是可以表達(dá)的。如果它很舒適,又不違反交通規(guī)則,然后第三個(gè),又沒(méi)有發(fā)生碰撞,a點(diǎn)到b點(diǎn)它就會(huì)開(kāi)得越來(lái)越好。我覺(jué)得它是一個(gè)最好的 VLA(視覺(jué)語(yǔ)言行動(dòng)模型)的,第一個(gè)重要的實(shí)驗(yàn)場(chǎng)。

28. VLA(視覺(jué)語(yǔ)言行動(dòng)模型)還有包括VL,它的哪個(gè)數(shù)據(jù)獲取難度是最大的?

vision(視覺(jué))和action(行動(dòng))的數(shù)據(jù)是因?yàn)檐,我們裝滿傳感器是可以收集物理世界數(shù)據(jù)的,還有人在車上開(kāi)車是我們可以收集到action(行動(dòng))的數(shù)據(jù)的,這兩個(gè)其實(shí)是最難的,而且也沒(méi)有任何公司可以替代。

29. 其他的車企不行嗎?其他車企也可以啊。

但是我覺(jué)得其他車企你有沒(méi)有建立整個(gè)基座模型的、預(yù)訓(xùn)練的能力,后訓(xùn)練的能力,以及后邊強(qiáng)化的能力,因?yàn)閺?qiáng)化還需要世界模型的能力,我覺(jué)得這是不一樣的,對(duì)吧?包括我剛才講的說(shuō),其實(shí)本身我們?cè)趺慈ソ鉀Q很多的問(wèn)題,比如說(shuō)我講一個(gè)問(wèn)題,第一個(gè)如何提升能力剛才講清楚了,第二個(gè)是說(shuō)我如何向人類安全對(duì)齊,我如果讓它像一個(gè)職業(yè)司機(jī)一樣足夠的安全,足夠的舒適,所以我們本身能夠要建立強(qiáng)化學(xué)習(xí)的體系,對(duì)吧?我們的RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí)學(xué)習(xí))是很重要的,我們其實(shí)有一個(gè)成規(guī)模的團(tuán)隊(duì)了。

因?yàn)楹芏鄷r(shí)候一家公司如果模型能力不強(qiáng)的時(shí)候,根本不知道怎么去做對(duì)齊,對(duì)吧?因?yàn)槟隳P湍芰?qiáng)的時(shí)候,你才發(fā)現(xiàn)對(duì)齊的重要性,你才知道Ilya(伊爾亞·蘇茨克維,OpenAI聯(lián)合創(chuàng)始人)原來(lái)想得那么遠(yuǎn)。Ilya把很多事情想得那么遠(yuǎn)。

30. 怎么說(shuō)?

因?yàn)槟P湍芰υ綇?qiáng),也就意味著它胡來(lái)的可能性越高,就跟一個(gè)人能力越強(qiáng),其實(shí)我要需要他的職業(yè)性越強(qiáng)。公司規(guī)模越大,越需要職業(yè)性。公司小時(shí)候不需要職業(yè)性,對(duì)吧?然后因?yàn)橐粋(gè)人能力強(qiáng)的時(shí)候,他干好事也很強(qiáng),他干壞事能力也很強(qiáng),所以這時(shí)候就需要職業(yè)性來(lái)約束。

比如舉個(gè)例子,我不可能雇用一個(gè)職業(yè)賽車手來(lái)每天給我開(kāi)車,但我要雇一個(gè)職業(yè)司機(jī),所以他除了開(kāi)車能力不錯(cuò)以外,他有非常強(qiáng)的職業(yè)性,保證舒適、保證安全,保證像人類開(kāi)車的,價(jià)值觀能夠?qū)R,所以這個(gè)其實(shí)是很重要的工作,我們就能做得非常好。

我覺(jué)得第三個(gè)還有最大的一個(gè)挑戰(zhàn),就是模型是一個(gè)黑盒子。怎么解決?所以我們做了世界模型,對(duì)吧?然后我們把VLA(司機(jī)大模型)放在世界模型里,一個(gè)交通世界模型,它是一個(gè)如果不跟你說(shuō)的話,你看的跟一個(gè)真實(shí)世界是一樣的。

31. 模型是一個(gè)黑盒,怎么解決它?

我們很早的時(shí)候在做端到端的時(shí)候就意識(shí)到,然后模型的黑盒子問(wèn)題必須得一起解決。所以我們當(dāng)時(shí)然后做的世界模型,或者說(shuō)是叫交通世界模型,就是我們用重建加生成的一個(gè)方式,借助我們的數(shù)據(jù),然后來(lái)構(gòu)建了一個(gè)真的、交通的一個(gè)物理世界,包含有所有的參與者、參與物,所有的固定的這些物體,我覺(jué)得這是非常重要的。

所以我們就可以讓無(wú)論是最開(kāi)始的這個(gè)端到端還是今天的VLA(司機(jī)大模型),在模型里邊進(jìn)行考試,它會(huì)模擬真實(shí)的交通的參與,包括真實(shí)的這些城市,來(lái)進(jìn)行考試,而且考試有點(diǎn)像我剛才,跟我剛才講的然后強(qiáng)化訓(xùn)練其實(shí)非常類似。它考什么呢?考a點(diǎn)到b點(diǎn)。然后考什么呢?考這個(gè)它的舒適性、它的交通的合規(guī)性和它的安全性。

我覺(jué)得這是我們要一直在做的這方面的一個(gè)工作。那這時(shí)候就能夠非常好的還原了,而且基于這樣的一個(gè) 我們的模型或者真實(shí)的物理世界的仿真的能力。我們還把整個(gè)的驗(yàn)證的成本大幅的下降,過(guò)去的時(shí)候我們靠人類司機(jī)來(lái)做一萬(wàn)公里的驗(yàn)證,這個(gè)每一萬(wàn)公里的成本大概在17萬(wàn)到18萬(wàn)人民幣,算上車的各種費(fèi)用,今天的話我們大概只需要花4000多塊錢(qián)人民幣,就每一萬(wàn)公里。那這4000多塊錢(qián)基本上都是算力為主的成本,而且解決問(wèn)題的效率還提升的多得多。

為什么呢?比如說(shuō)其實(shí)今天的時(shí)候,我們要解決一個(gè)問(wèn)題的時(shí)候,這個(gè)問(wèn)題產(chǎn)生的時(shí)候,是我們自身的車輛跟多個(gè)交通參與物在不同的位置上,還有不同的道路上,出現(xiàn)了一個(gè)問(wèn)題,但是如果你靠人類去驗(yàn)證我有沒(méi)有解決這個(gè)問(wèn)題?要把這幾個(gè)交通參與物,相同的位置、相同的速度,其實(shí)湊在一起,幾乎沒(méi)有可能,所以只能模糊的驗(yàn)證。但今天,然后我們有了世界模型以后,我們可以非常準(zhǔn)確地驗(yàn)證。我們修正以后的模型有沒(méi)有解決這方面的問(wèn)題,可以100%還原一模一樣的、真實(shí)的場(chǎng)景,在世界模型里,進(jìn)行驗(yàn)證。

32. 我們?cè)谡f(shuō)司機(jī)Agent(智能體)的時(shí)候,它其實(shí)是涉及到action(行動(dòng))進(jìn)入了外部世界,進(jìn)入了物理世界。那怎么解決安全問(wèn)題呢?這個(gè)非常重要。

所以我們其實(shí)從去年年底成立了超級(jí)對(duì)齊的團(tuán)隊(duì),比如說(shuō)模型能力很強(qiáng),但不遵守交通規(guī)則,然后模型能力很強(qiáng),但模型經(jīng)常去加塞,去在交通擁堵中去加塞,對(duì)吧?它做出來(lái)一些讓人類坐在車上感覺(jué)到不安全的行為,對(duì)吧?那我覺(jué)得這個(gè)其實(shí),至于是否讓它碰撞,是模型能力的問(wèn)題,是否產(chǎn)生這些問(wèn)題,其實(shí)是這個(gè)價(jià)值觀,是這個(gè)模型要去做的對(duì)齊的這方面的。

所以這也是剛才我講的,就是說(shuō)我們要在做強(qiáng)化,訓(xùn)練的第一個(gè)環(huán)節(jié),是我們必須把人類的這些規(guī)則、習(xí)俗、駕駛習(xí)慣,對(duì)于很多東西的判斷,其實(shí)變成它整個(gè)的要訓(xùn)練的反饋。我覺(jué)得這個(gè)其實(shí)我們必須要做的,所以我們有一個(gè)挺大規(guī)模的,我們有一個(gè)100多人的超級(jí)對(duì)齊團(tuán)隊(duì)。

因?yàn)槟隳芰υ綇?qiáng)、責(zé)任越大,我覺(jué)得這是責(zé)任,或者你還可以用另外一種方式,我們把超級(jí)對(duì)齊如果拿一個(gè)人舉例子的話,模型相當(dāng)于是這個(gè)人的專業(yè)能力,然后超級(jí)對(duì)齊,是這個(gè)人的職業(yè)性。

是他的綜合職業(yè)性。然后司機(jī)Agent(智能體),包括司機(jī)背后的這種記憶能力是如何和使用者建立信任的,所以我們比如說(shuō)我招一個(gè)員工,或者我是否認(rèn)可一個(gè)員工,同樣是看他三個(gè),第一個(gè),是看他的專業(yè)能力,然后第二是看他的職業(yè)性,然后我覺(jué)得第三個(gè)是看他其實(shí)對(duì)別人理解和構(gòu)建信任的能力,比如這三個(gè)都很好,我覺(jué)得就是最卓越的員工。

33. 超級(jí)對(duì)齊,是什么時(shí)候開(kāi)始做的呀?

是我們做到了1000萬(wàn)Clips(視頻片段)以后開(kāi)始來(lái)做的,因?yàn)槲野l(fā)現(xiàn)這時(shí)候怎么去有效的運(yùn)用模型的能力就很關(guān)鍵了,比如就舉個(gè)例子,它經(jīng)常一擁堵就去加塞,然后這個(gè)包括它做的很多行為,雖然效率很高,但是人坐在車上是很不舒服的,因?yàn)楦祟惖囊恍┨幚矸绞交蛘吒H祟愄幚矸绞讲灰粯樱赡軐W(xué)到了一些不該學(xué)的司機(jī)的行為。

34. 我聽(tīng)你說(shuō)我有一個(gè)感受,就是剛開(kāi)始大模型火的時(shí)候,大家都說(shuō)創(chuàng)業(yè)要做AI是造人,你們這個(gè)其實(shí)就是在造司機(jī)。

對(duì),是的。我一個(gè)很重要的感覺(jué)就是,我們只有讓它變成一個(gè)真正的司機(jī),它才是一個(gè)生產(chǎn)力工具,不只是一個(gè)輔助工具,對(duì)吧?今天L2,L2+其實(shí)是個(gè)輔助工具,輔助工具其實(shí)還需要人大量的參與。但是我覺(jué)得如果想變成一個(gè)生產(chǎn)工具,我個(gè)人認(rèn)為并不會(huì)出現(xiàn)通用的 Agent(智能體),而是每個(gè)專業(yè)領(lǐng)域做專業(yè)的Agent(智能體)。就我剛才講的一樣,其實(shí)要想開(kāi)好車,它所有的vision(視覺(jué))的語(yǔ)料, language(語(yǔ)言)的語(yǔ)料,和action(行動(dòng))其實(shí)都是不一樣的。你想做好一個(gè)醫(yī)生,你想做好一個(gè)律師,其實(shí)背后的整個(gè)思維鏈,所有的數(shù)據(jù)其實(shí)都是完全不同的。所以我覺(jué)得這是判斷。

另外一方面,如果你想變成一個(gè)生產(chǎn)工具,這時(shí)候就會(huì)和專業(yè)的人進(jìn)行比較,比如說(shuō)你是否比一個(gè)專業(yè)的司機(jī)開(kāi)得更好?你是否比一個(gè)專業(yè)的醫(yī)生表現(xiàn)得更好?你是否比一個(gè)專業(yè)的律師表現(xiàn)得更好?你是否比一個(gè)專業(yè)的程序員表現(xiàn)得更好?因?yàn)槟銜?huì)影響到它的整個(gè)生產(chǎn),它的整個(gè)業(yè)績(jī),它的工作結(jié)果,甚至它的財(cái)產(chǎn)和生命安全。我覺(jué)得這是我們看到的這個(gè)終點(diǎn),所以這也是為什么我們必須很耐心、很深入地去解決,哪怕一個(gè)司機(jī)的問(wèn)題。它并不可能通過(guò)一個(gè)泛化的大基座模型,或者一個(gè)大語(yǔ)言模型,這些東西都能實(shí)現(xiàn)了,我覺(jué)得這是不現(xiàn)實(shí)。

35. 什么是一個(gè)好的司機(jī)大模型的北極星指標(biāo)(終極指標(biāo))?

我覺(jué)得還是把司機(jī)大模型和Agent(智能體)放在一起,這才是一個(gè)真正用戶能夠使用的一個(gè)產(chǎn)品,那如果是一個(gè),我覺(jué)得如果是一個(gè)司機(jī)大模型,好的,我覺(jué)得跟人的判斷是一樣,就我判斷一個(gè)司機(jī),就我們家雇用了一個(gè)司機(jī),第一是他開(kāi)車水平好不好?其實(shí)是他模型能力強(qiáng)不強(qiáng)?第二個(gè)還是說(shuō)他是否職業(yè)?然后我覺(jué)得那他是否職業(yè),很重要的一點(diǎn)其實(shí)就是我們的超級(jí)對(duì)齊這方面的工作,包括強(qiáng)化訓(xùn)練,是否做得足夠的好?然后我覺(jué)得第三個(gè),是否安全,對(duì)吧?、我覺(jué)得第三個(gè)是他跟我之間的信任的關(guān)系,我是跟他說(shuō)什么他都聽(tīng)不明白?還是我說(shuō)上半句他就知道下半句,甚至我很多東西不說(shuō),他已經(jīng)對(duì)我的記憶里邊都可以獨(dú)自去完成了。

其實(shí)就我們?nèi)绾稳ネㄟ^(guò)Agent(智能體)和記憶來(lái)構(gòu)建一個(gè)更好的信任的一個(gè)關(guān)系和理解的一個(gè)關(guān)系。如果我什么都不說(shuō),他都知道我要干什么了,這個(gè)司機(jī)要同時(shí)又滿足了他開(kāi)車不錯(cuò),又很職業(yè),他又對(duì)我特別了解,特別理解,我就會(huì)一直雇傭他。對(duì),我覺(jué)得最后我們對(duì)司機(jī)的Agent(智能體),對(duì)整個(gè)的這一個(gè)司機(jī)大模型,司機(jī)Agent(智能體)的判斷也是一樣的。我覺(jué)得以后所有的AI的或者Agent(智能體)的判斷都應(yīng)該是這樣的,它的專業(yè)能力,它的職業(yè)能力,然后以及它給你構(gòu)建信任的這個(gè)能力。

36. 你覺(jué)得這個(gè)Agent(智能體)應(yīng)該怎么定價(jià)呢?

我們雇用人類費(fèi)用的幾分之一,至于幾分之一最后還是看把成本都算出來(lái)以后,我覺(jué)得比如說(shuō)我一個(gè)月,我雇一個(gè)司機(jī),1萬(wàn)塊錢(qián),我是否愿意?2千到3千雇傭一個(gè)司機(jī)。然后我覺(jué)得這個(gè)其實(shí)是一個(gè),可能是一個(gè)比較重要的一個(gè)判斷,當(dāng)然它也會(huì)帶來(lái)其他商業(yè)模式的不同。比如說(shuō)你花2千到3千塊錢(qián)雇傭一個(gè)司機(jī),那可能你對(duì)車而言,你可能也不需要付保險(xiǎn)費(fèi)了,保險(xiǎn)費(fèi)也包在這里邊了,保險(xiǎn)的費(fèi)用就財(cái)產(chǎn)的保險(xiǎn),這個(gè)財(cái)產(chǎn)險(xiǎn)的費(fèi)用也包含在里邊了。也可能一定的這種,因?yàn)樗赡軙?huì)自動(dòng)去充電,可能一定的充電的金額,對(duì)應(yīng)一定里程的充電金額也放在里面了。所以可能到最后算下來(lái),還可能是個(gè)更劃算的一個(gè)事情。

37. 我們剛剛在聊 VLA(視覺(jué)語(yǔ)言行動(dòng)模型) 嘛,那是不是意味著端到端才出來(lái)一年,你們就要換架構(gòu)了?這個(gè)是不是太快了?去年端到端就被放棄了嗎?

我覺(jué)得也沒(méi)有放棄,還是我剛才講的,其實(shí)端到端是VLA(視覺(jué)語(yǔ)言行動(dòng)模型)的一部分基礎(chǔ)。如果你把端到端想象成一個(gè)一個(gè)具身智能執(zhí)行的環(huán)節(jié),那它其實(shí)就是我們VLA(視覺(jué)語(yǔ)言行動(dòng)模型)的A(action 行動(dòng))的部分,就我A(action 行動(dòng))的部分其實(shí)仍然是在拿這個(gè)數(shù)據(jù)在做訓(xùn)練的。其實(shí)它就組成了我的A(action 行動(dòng))的部分了。只是我要多語(yǔ)言的部分,還要多更強(qiáng)的3D vision(視覺(jué))和高清2D vision(視覺(jué))的部分。

38. 有可能一步直達(dá) VLA(視覺(jué)語(yǔ)言行動(dòng)模型)嗎?就比如說(shuō)去年不推出端到端加VLM(視覺(jué)語(yǔ)言模型)那個(gè)版本,然后直接推 VLA,直接研發(fā)VLA。

沒(méi)有可能,至少?gòu)奈覀冏约旱捏w驗(yàn)上其實(shí)沒(méi)有可能。我說(shuō)不太好聽(tīng)的話,就是沒(méi)有辦法直接吃第十個(gè)包子。雖然可能大家覺(jué)得第十個(gè)包子吃飽了,但前面每個(gè)包子其實(shí)都跳不過(guò)去。我覺(jué)得往往很多時(shí)候,如果大家不想做前面任何包子的積累,只想吃第十個(gè)包子,很多時(shí)候非常像練葵花寶典。我覺(jué)得今天包括DeepSeek的出現(xiàn)并不是練葵花寶典練出來(lái)的,過(guò)去的時(shí)候它很早就構(gòu)建這種集群的能力去做這些鏈路、基建的優(yōu)化,我覺(jué)得都是非常之重要的。所以才有了它的低成本和效率啊。所以我說(shuō)其實(shí)我們特別喜歡講這種,有一個(gè)人很聰明直接吃到了第十個(gè)包子,但現(xiàn)實(shí)中其實(shí),至少今天這個(gè)社會(huì)整個(gè)的知識(shí)文明發(fā)展得越來(lái)越好了,不是膽大大于一切,我看不到什么捷徑。包括今天很多企業(yè)做端到端都很吃力,因?yàn)樵谝?guī)則算法時(shí)候都沒(méi)做好。

39. 但是大家就覺(jué)得李想才是摘第十個(gè)包子的人,因?yàn)槟銈冏鲚o助駕駛的時(shí)間比別人晚。

但我們自研的時(shí)間并不短啊。我們從2021年,上地平線征程Journey3芯片的時(shí)候就開(kāi)始做自研。然后我們研究做得也很扎實(shí)。我覺(jué)得中國(guó)的所有企業(yè)里邊,關(guān)于輔助駕駛的論文我們應(yīng)該是發(fā)表,以及被大的會(huì)議,大的社區(qū)錄取和引用的其實(shí)應(yīng)該也是最多的。我覺(jué)得這個(gè)階段我們還是做的挺扎實(shí)。

因?yàn)槲覀兪莻(gè)用戶導(dǎo)向的公司,我們認(rèn)為技術(shù)是一種能力,所以我們更多的時(shí)候講的是用戶的價(jià)值,今天大家講我們是冰箱、彩電、大沙發(fā),對(duì)吧?但是背后的話,我們的這個(gè)冰箱、彩電、大沙發(fā)的智能化背后的基礎(chǔ),今天大家看仍然是非常強(qiáng)的,體驗(yàn)起來(lái)是完全不一樣。

40. 背后的基礎(chǔ)是什么?

就是大型軟件的能力。我們后邊很多能力其實(shí)還是很扎實(shí)的。比如舉一個(gè)例子,就為什么今天大家做端到端和VLM(視覺(jué)語(yǔ)言模型)很難?是因?yàn)檫@個(gè)Orin芯片并不支持直接跑語(yǔ)言模型。我們是自己的編譯團(tuán)隊(duì),所以我們特別理解DeepSeek,一看就看明白了,比如它做FP8(8位浮點(diǎn)數(shù)格式)的優(yōu)化,能夠跑它的整個(gè)訓(xùn)練的一個(gè)架構(gòu)。我們做相同的事情,我們直接然后是寫(xiě)了 Orin-X底層,因?yàn)橛ミ_(dá)沒(méi)時(shí)間,我們自己寫(xiě)的底層(推理引擎),讓它用 INT4量化的方式來(lái)跑 VLM(視覺(jué)語(yǔ)言模型)。那這跟誰(shuí)(DeepSeek)做 FP8(8位浮點(diǎn)數(shù)格式) 的訓(xùn)練其實(shí)一個(gè)道理。包括今天的話,我們?yōu)槭裁茨茏龅诫pOrin-X跟Thor-U 都能跑VLA(司機(jī)大模型),可能對(duì)很多團(tuán)隊(duì)是個(gè)非常大的挑戰(zhàn),為什么呢?因?yàn)槲覀冏约河蟹浅?qiáng)的能力,我們有編譯團(tuán)隊(duì),然后我們有芯片的能力,然后我們有板子設(shè)計(jì)能力,有操作系統(tǒng)能力,所以我們是能夠把兩個(gè) Orin-X帶寬足夠的大,它同樣可以跑同等規(guī)模的VLA的模型。我覺(jué)得我們這方面的技術(shù)都是非常之扎實(shí)的。因?yàn)槲易约哼是認(rèn)為,其實(shí)就是你規(guī)模小的時(shí)候無(wú)所謂,你規(guī)模大的時(shí)候基本功和能力永遠(yuǎn)是無(wú)法逾越的。

41. 所以什么樣的corner case(長(zhǎng)尾案例)是可能端到端加VLM(視覺(jué)語(yǔ)言模型)架構(gòu)無(wú)法解決,而VLA(視覺(jué)語(yǔ)言行動(dòng)模型)是可以解決的。能不能給大家舉個(gè)例子。

我覺(jué)得有兩個(gè)。過(guò)去的時(shí)候端到端有兩個(gè)麻煩的問(wèn)題。第一個(gè)問(wèn)題是它對(duì)復(fù)雜東西的理解,比如這有一個(gè)復(fù)雜的修路,如果是規(guī)則算法可能就會(huì)撞上了,如果是端到端可能停下來(lái),但它不知道該怎么干了。如果是VLA(司機(jī)大模型)就能輕松解決了,而且這些我不需要有真實(shí)的場(chǎng)景,甚至我可以直接生成,然后來(lái)數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練,對(duì)吧?因?yàn)樗軌蛴欣斫饽芰α,它并不是只是看到一個(gè)景象,就做出一個(gè)結(jié)果。規(guī)則算法其實(shí)往往可能就會(huì)出現(xiàn),遇到一個(gè)復(fù)雜路況,復(fù)雜的、沒(méi)見(jiàn)過(guò)的,或者規(guī)則之外的它就會(huì)出現(xiàn)事故。如果是端到端的,它可能停下來(lái),但它不知道該怎么辦了,我們經(jīng)常遇到修路狀況,它在那不知道猶猶豫豫,不知道該怎么辦,對(duì)吧?但是如果VLA(司機(jī)大模型),它其實(shí)就能夠有效地去處理了,而且不需要通過(guò)海量的數(shù)據(jù)訓(xùn)練。哪怕最開(kāi)始這個(gè)場(chǎng)景沒(méi)有辦法處理,但我保證三天之內(nèi)相關(guān)的這種場(chǎng)景都能處理,因?yàn)槲铱梢阅眠@東西來(lái)生成數(shù)據(jù),生成讓數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練。我覺(jué)得這是一方面。

另外一方面其實(shí)還有很難的一點(diǎn)是跟人溝通。今天端到端怎么做?就跟猴子一樣,你影響不了它,對(duì)吧?比如說(shuō)我們會(huì)經(jīng)常遇到一個(gè)什么樣的狀況,就是在一條路上三條道,最右側(cè)的車道是公交車道,然后又是限行,但是公交車道長(zhǎng)久沒(méi)有維護(hù)了,那個(gè)印刷已經(jīng)不清楚了,所以它就會(huì)在那跑,雖然你可以通過(guò)一個(gè)調(diào)整說(shuō),回到中間車道,但它過(guò)一陣又跑到那條車道上去了。如果是人類有了Agent(智能體)以后,因?yàn)橛辛薞LA(司機(jī)大模型)才有Agent(智能體)能跟VLA溝通,對(duì)吧?所以我可以跟一個(gè)Agent(智能體)講說(shuō),接下來(lái)這條道路一直在中間行駛,直到它在導(dǎo)航的時(shí)候走了下一個(gè)。包含如果跟導(dǎo)航錯(cuò)失了以后,端到端就不知該怎么辦了,但是VLA(司機(jī)大模型)在小區(qū)里可以漫游。在一個(gè)開(kāi)放空間里,它可以先處理完以后,最后再跟導(dǎo)航調(diào)整以后的進(jìn)行匯合,它跟人類完全一樣的了。只是今天可能它作為一個(gè)人類,能力還沒(méi)那么強(qiáng),作為一個(gè)人類能力還有一個(gè)成長(zhǎng)的過(guò)程,比如它今天像一個(gè)剛從駕校學(xué)完的新手司機(jī),有可能是這么一個(gè)狀況。

42. 今年都會(huì)是這個(gè)狀態(tài)嗎?

我覺(jué)得還是看整個(gè)訓(xùn)練的一個(gè)進(jìn)度了。但它泛化能力是完全不在一個(gè)量級(jí)上了。

43. 你覺(jué)得VLA(視覺(jué)語(yǔ)言行動(dòng)模型)是終極的架構(gòu)嗎,解決自動(dòng)駕駛的?還會(huì)有下一代嗎?會(huì)不會(huì)明年這個(gè)時(shí)候又是新的架構(gòu)了呢?

我自己認(rèn)為VLA(司機(jī)大模型)能夠解決到全自動(dòng)駕駛,但是VLA(司機(jī)大模型)是否是一個(gè)效率最高的方式?是否有效率更高的架構(gòu)出現(xiàn)?我打個(gè)問(wèn)號(hào),我認(rèn)為大概率還是會(huì)有的啊。因?yàn)閂LA(司機(jī)大模型)還是基于Transformer這樣子的,那Transformer是不是一個(gè)效率最高的一個(gè)架構(gòu),對(duì)吧?那我覺(jué)得這個(gè)其實(shí)后邊不知道。

44. 它是現(xiàn)階段效率最高的架構(gòu),在你看來(lái)?

我覺(jué)得它是能力最強(qiáng)的架構(gòu)。對(duì),因?yàn)楝F(xiàn)在能力差距太大了,就跟人類合格開(kāi)車。今天這個(gè)輔助駕駛的這些規(guī)則算法、端到端跟人類差距還是太大了。對(duì),然后那我覺(jué)得它是最接近人類的,甚至有機(jī)會(huì)超過(guò)人類能力的一種,就關(guān)于開(kāi)車超越人類的一種方式。那它是不是效率最高的方式?其實(shí)是打個(gè)問(wèn)號(hào),因?yàn)樗裉鞂?duì)算力的要求還是很高的。

45. VLA(司機(jī)大模型)跟最后可能形成的最終大統(tǒng)一模型的關(guān)系是什么呀?它是那個(gè)大統(tǒng)一嗎?

我覺(jué)得還是會(huì)有一個(gè)效率的問(wèn)題,對(duì)吧?我講的意思是,其實(shí)我們雖然有模型,但我們從來(lái)不放棄工具,然后因?yàn)楣ぞ呤窃黾哟_定性和提高效率的。我還是舉一個(gè)挺清晰的一個(gè)例子,因?yàn)閳F(tuán)隊(duì)很多時(shí)候太想用模型解決一切問(wèn)題,對(duì)吧?然后那這時(shí)候就會(huì)出現(xiàn)類似一個(gè)現(xiàn)象,比如我舉一個(gè)例子,那今天當(dāng)然VLA(司機(jī)大模型)會(huì)解決很好了,其實(shí)我們?cè)谑褂?VLM在解決ETC時(shí)候并不好。

因?yàn)閂LM(視覺(jué)語(yǔ)言模型)對(duì)于位置的判斷是很糟糕的,所以它如果其實(shí)是兩到三個(gè)ETC,然后我怎么進(jìn)入其實(shí)非常容易判斷,其實(shí)就是這個(gè)左中右。但如果像京承高速這樣的機(jī)場(chǎng)高速那樣的十幾個(gè)ETC,它很多時(shí)候就不知道怎么處理了,就開(kāi)始非;靵y了,因?yàn)樗鼪](méi)有位置的判斷的這個(gè)能力,我們團(tuán)隊(duì)太希望用模型去解決問(wèn)題,就是說(shuō)不停地去給VLM(視覺(jué)語(yǔ)言模型)喂更多的語(yǔ)料,更多的東西,其實(shí)都沒(méi)有解決這個(gè)問(wèn)題,因?yàn)檫@是VLM(視覺(jué)語(yǔ)言模型)的那個(gè)架構(gòu)問(wèn)題。

然后我跟團(tuán)隊(duì)說(shuō),那解決ETC為什么不能用規(guī)則算法?因?yàn)樽疃嗟囊灿?5個(gè)口,對(duì)吧?15個(gè)口對(duì)于你們而言,寫(xiě)一個(gè)程序基本上一周之內(nèi)就能完成,甚至三天就能完成。但是我說(shuō)很多時(shí)候我們心里有個(gè)心結(jié),對(duì)吧?因?yàn)槿祟惡芏噙\(yùn)行的時(shí)候其實(shí)是大模型運(yùn)行,但是我說(shuō)我們作為一個(gè)這個(gè)正常的人,我們其實(shí)也會(huì)背乘法口則,乘法口則就是個(gè)規(guī)則算法,對(duì)吧?但是乘法口則的結(jié)果是我們消耗的腦力更少,對(duì),我們消耗的token(詞元)更少。

然后以及我們的準(zhǔn)確性更高,所以它就是個(gè)好東西,它就是個(gè)工具,對(duì)吧?然后如果是一個(gè)確定性的,能夠拿規(guī)則去解決的,其實(shí)它意味著更低的能量消耗、更低的算力消耗和更高的準(zhǔn)確性,對(duì)吧?那我覺(jué)得為什么不用?所以團(tuán)隊(duì)很快就把問(wèn)題解決了,所以我們?cè)贓TC就非常的穩(wěn)了。其實(shí)一周都不到就解決了,過(guò)去的時(shí)候解決了三四個(gè)月都解決不了的,成本很高的方式解決不了的。所以我說(shuō)就是我覺(jué)得真正往下去落的時(shí)候,很多時(shí)候還是要考慮效率,就是今天DeepSeek之所以受到全世界的矚目,很重要的一個(gè)原因還是因?yàn)樗男首兊酶吡恕?/span>

45. VLA(司機(jī)大模型)跟最后可能形成的最終大統(tǒng)一模型的關(guān)系是什么呀?它是那個(gè)大統(tǒng)一嗎?

我覺(jué)得還是會(huì)有一個(gè)效率的問(wèn)題,對(duì)吧?我講的意思是,其實(shí)我們雖然有模型,但我們從來(lái)不放棄工具,然后因?yàn)楣ぞ呤窃黾哟_定性和提高效率的。我還是舉一個(gè)挺清晰的一個(gè)例子,因?yàn)閳F(tuán)隊(duì)很多時(shí)候太想用模型解決一切問(wèn)題,對(duì)吧?然后那這時(shí)候就會(huì)出現(xiàn)類似一個(gè)現(xiàn)象,比如我舉一個(gè)例子,那今天當(dāng)然VLA(司機(jī)大模型)會(huì)解決很好了,其實(shí)我們?cè)谑褂肰LM在解決ETC時(shí)候并不好。

因?yàn)閂LM(視覺(jué)語(yǔ)言模型)對(duì)于位置的判斷是很糟糕的,所以它如果其實(shí)是兩到三個(gè)ETC,然后我怎么進(jìn)入其實(shí)非常容易判斷,其實(shí)就是這個(gè)左中右。但如果像京承高速這樣的機(jī)場(chǎng)高速那樣的十幾個(gè)ETC,它很多時(shí)候就不知道怎么處理了,就開(kāi)始非;靵y了,因?yàn)樗鼪](méi)有位置的判斷的這個(gè)能力,我們團(tuán)隊(duì)太希望用模型去解決問(wèn)題,就是說(shuō)不停地去給VLM(視覺(jué)語(yǔ)言模型)喂更多的語(yǔ)料,更多的東西,其實(shí)都沒(méi)有解決這個(gè)問(wèn)題,因?yàn)檫@是VLM(視覺(jué)語(yǔ)言模型)的那個(gè)架構(gòu)問(wèn)題。

然后我跟團(tuán)隊(duì)說(shuō),那解決ETC為什么不能用規(guī)則算法?因?yàn)樽疃嗟囊灿?5個(gè)口,對(duì)吧? 15個(gè)口對(duì)于你們而言,寫(xiě)一個(gè)程序基本上一周之內(nèi)就能完成,甚至三天就能完成。但是我說(shuō)很多時(shí)候我們心里有個(gè)心結(jié),對(duì)吧?因?yàn)槿祟惡芏噙\(yùn)行的時(shí)候其實(shí)是大模型運(yùn)行,但是我說(shuō)我們作為一個(gè)這個(gè)正常的人,我們其實(shí)也會(huì)背乘法口則,乘法口則就是個(gè)規(guī)則算法,對(duì)吧?但是乘法口則的結(jié)果是我們消耗的腦力更少,對(duì),我們消耗的token(詞元)更少。

然后以及我們的準(zhǔn)確性更高,所以它就是個(gè)好東西,它就是個(gè)工具,對(duì)吧?然后如果是一個(gè)確定性的,能夠拿規(guī)則去解決的,其實(shí)它意味著更低的能量消耗、更低的算力消耗和更高的準(zhǔn)確性,對(duì)吧?那我覺(jué)得為什么不用?所以團(tuán)隊(duì)很快就把問(wèn)題解決了,所以我們?cè)贓TC就非常的穩(wěn)了。其實(shí)一周都不到就解決了,過(guò)去的時(shí)候解決了三四個(gè)月都解決不了的,成本很高的方式解決不了的。所以我說(shuō)就是我覺(jué)得真正往下去落的時(shí)候,很多時(shí)候還是要考慮效率,就是今天DeepSeek之所以受到全世界的矚目,很重要的一個(gè)原因還是因?yàn)樗男首兊酶吡恕?/span>

46. 特斯拉FSD真實(shí)的進(jìn)入了中國(guó),對(duì)你有沒(méi)有什么影響?

我們認(rèn)為,我們自己一個(gè)判斷的話,從實(shí)測(cè)過(guò)來(lái)的話,他們大概在用12.5之前的模型。對(duì),在用12.5之前的模型,然后并不是特斯拉真實(shí)能力,距離特斯拉真實(shí)能力還有巨大的差距。特斯拉13.0以后的能力還是非常強(qiáng)的。而且 12.5之前的話應(yīng)該其實(shí)是這個(gè)半規(guī)則算法的能力。所以我說(shuō)不是特斯拉真實(shí)能力的體現(xiàn),但是我們能看到特斯拉基本功是非常扎實(shí)的。它的整個(gè)的感知的距離,它整個(gè)運(yùn)行的幀率,它整個(gè)的車輛的整個(gè)的控制的穩(wěn)定性。

47. 為什么沒(méi)有釋放真實(shí)的能力?

我覺(jué)得因?yàn)槿绻苯由隙说蕉说脑挘兄袊?guó)的這些路況什么的,其實(shí)剛才我就像我講的,它在美國(guó)沒(méi)有學(xué)習(xí)到這些東西,然后再遇到這些復(fù)雜的,是還是會(huì)遇到挑戰(zhàn)的。

48. 你們現(xiàn)在還學(xué)特斯拉學(xué)的多嗎?最近從他身上學(xué)到了什么呀?

我覺(jué)得美國(guó)的很多的頂級(jí)的公司,像蘋(píng)果,像特斯拉這種企業(yè),就是他們基本功特別扎實(shí)。然后我覺(jué)得這個(gè)是我們真正要去學(xué)的,尤其是在今天這種內(nèi)卷的環(huán)境下,然后包括外部的不確定的環(huán)境下,我覺(jué)得這時(shí)候更是每個(gè)企業(yè)扎扎實(shí)實(shí)練基本功的最好的時(shí)候,而且到了人工智能時(shí)代的話,基本功就更是不可能、不可跳躍的。所以我覺(jué)得如果很多企業(yè)做了很多的創(chuàng)新,但是沒(méi)有基本功,不扎實(shí),所以很多創(chuàng)新就會(huì)曇花一現(xiàn)就過(guò)去了,所以這會(huì)是很大的問(wèn)題。因?yàn)榫退m然擁有很多錢(qián),能發(fā)明了很多東西,就創(chuàng)造、創(chuàng)新了一些很多的功能的組合。但是你會(huì)發(fā)現(xiàn)能力強(qiáng)的公司復(fù)制的東西基本上在人工智能時(shí)代都是按周計(jì)算的就能復(fù)制過(guò)來(lái),所以那個(gè)能力的基本功還是非常重要的。

49. 為什么是學(xué)蘋(píng)果呢?它也不是一家AI公司啊。

我覺(jué)得最重要的是學(xué)能力。我們?cè)谛〉臅r(shí)候沒(méi)有看明白,沒(méi)有看懂蘋(píng)果,那這個(gè)階段的時(shí)候我們可能又去認(rèn)真研究蘋(píng)果,發(fā)現(xiàn)蘋(píng)果還有很多能力其實(shí)值得我們?nèi)W(xué)習(xí)的。

所以到今天為止,你去看一個(gè)蘋(píng)果作為一個(gè)全世界市值第一的公司,當(dāng)你做到千億收入,你再去看這種萬(wàn)億收入公司的能力的時(shí)候,你開(kāi)始模模糊糊能看懂一些了。但是我們小的時(shí)候,我們很小規(guī)模的時(shí)候,我們看不懂蘋(píng)果為什么這么做。我覺(jué)得最后其實(shí)是規(guī)模,因?yàn)橐?guī)模是一個(gè)可以確定衡量的變化,也會(huì)帶來(lái)用戶規(guī)模和用戶需求的變化,技術(shù)和產(chǎn)品的變化,也會(huì)帶來(lái)組織和能力的變化。

50. 你有試駕過(guò)上了VLA(司機(jī)大模型)的車嗎?體驗(yàn)怎么樣?有經(jīng)歷過(guò)什么aha moment(驚喜時(shí)刻)嗎?

我覺(jué)得挺難有什么aha moment(驚喜時(shí)刻),因?yàn)槟阋呀?jīng)理解它的原理了,其實(shí)就是它就變得跟人很像了。

51. 就更像人了。

就真的像人了。它變成更像人其實(shí)沒(méi)什么驚奇的。對(duì)吧?相反一個(gè)動(dòng)物忽然會(huì)的一些東西,你覺(jué)得挺驚訝,但一個(gè)人做好東西,你認(rèn)為其實(shí)是正常的。

52. 你之前對(duì)內(nèi)說(shuō)過(guò)一句話,說(shuō)理想的智駕原創(chuàng)性超過(guò)了增程,這句話是不是太自信了?

我自己覺(jué)著就我們?cè)谶@方面的研究工作真的做得很深。所以你看到我們的各種的論文,而且我們?yōu)榱,然后我們(yōu)榱俗龊茫覀優(yōu)榱俗龊眠@個(gè)輔助駕駛,我們還做了操作系統(tǒng)。然后我們?yōu)榱俗鲚o助駕駛,我們構(gòu)建了完整的訓(xùn)練體系,我們?yōu)榱俗鲚o助駕駛,甚至我們自己去直接去改芯片的,然后這個(gè)底層的軟件,對(duì)吧?然后我覺(jué)得我們做了很多這方面的這些工作。然后那這方面工作肯定,然后肯定做的比這個(gè)增程更多,比增程做的工作量更多。然后我覺(jué)得還有一個(gè)比較好的一個(gè)評(píng)價(jià)方式。就是我們歷史上從來(lái)沒(méi)有遇到過(guò),然后任何一個(gè)周期,比如2024年和2025今年年初,我們每一個(gè)輔助駕駛團(tuán)隊(duì)的核心人員可能基本上都會(huì)接到20個(gè)以上的獵頭電話。

53. 7月份是理想的十周年,站在今天回顧理想這十年走過(guò)的路,你腦海里浮現(xiàn)的最深刻的場(chǎng)景畫(huà)面是什么?

我的第一個(gè)最重要的畫(huà)面,是2018年理想ONE第一次發(fā)布,一直延續(xù)到2019年的4月份,上海車展第一次正式的展示,帶有價(jià)格的。我覺(jué)得那是一個(gè)非常重要的時(shí)刻,我們真的能做出來(lái)一輛車,而且這個(gè)車特別受用戶喜歡。在上海車展的展館里面,我們是人流量最大的一個(gè)展臺(tái)。因?yàn)槲覀兪菑氖裁炊紱](méi)有開(kāi)始來(lái)做的。另一個(gè)是2022年發(fā)布理想L9的時(shí)候,我覺(jué)得那真的是一個(gè)全世界最卓越的產(chǎn)品。到了今天2025年,能看到至少有5個(gè)以上的企業(yè)是因?yàn)楫?dāng)時(shí)理想L9的成功,在打造跟理想L9相同的產(chǎn)品。

54. 你腦海里浮現(xiàn)的都是幸福的時(shí)候,而不是痛苦的時(shí)候。你會(huì)回憶到痛苦的時(shí)候嗎?

太多了,剛經(jīng)歷了L9的幸福就出現(xiàn)了。全網(wǎng)的黑公關(guān)都說(shuō)理想汽車倒閉,那一個(gè)季度我們虧了十幾億,將近二十億,原來(lái)從沒(méi)虧過(guò)那么多。忽然從巔峰掉到谷底,好處還是我說(shuō)的,我們認(rèn)識(shí)到很多能力不足,我們就去補(bǔ)了很多能力。但正是因?yàn)檫@件事情,我們的調(diào)整又帶來(lái)了2023年獲得接近三倍的增長(zhǎng),我們直接做到了1200億的收入。反正我創(chuàng)業(yè)那么多年了,當(dāng)問(wèn)題來(lái)的很多時(shí)候,又是一個(gè)更大的機(jī)會(huì)的到來(lái)。所以我對(duì)這方面其實(shí)也沒(méi)那么糾結(jié)。我對(duì)于不正常的事情耐受力很差,但我對(duì)于一些不好的東西解決完以后,整個(gè)記憶能力也很差,會(huì)把它忘掉,但你讓我回顧還是能回顧過(guò)來(lái)的。

55. 刻意刪掉的記憶片段會(huì)是什么呢?

為了讓自己有更好的正能量,我還是盡可能的只保留那些有價(jià)值、美好的片段。哪怕是一個(gè)不好的東西,比如剛才講的我們被黑、被打擊,我會(huì)轉(zhuǎn)變成“看,正是因?yàn)檫@件事情我們?cè)鲩L(zhǎng)了三倍,我們獲取了其他新勢(shì)力所沒(méi)有的能力,我們面臨其他新勢(shì)力所沒(méi)有的挑戰(zhàn)!边@樣的方式來(lái)表達(dá),這是一種心態(tài)。創(chuàng)業(yè)確實(shí)不容易,但是沒(méi)必要苦哈哈的。苦和甜。是一個(gè)硬幣的正反面,取決于你選擇看哪一面。如果按時(shí)間軸而言,肯定是苦更多,但是吃苦多了也就習(xí)慣了。

56. 余凱博士(地平線創(chuàng)始人兼CEO)回憶跟你第一次見(jiàn)面是在杭州一起去爬山,他記得你那天穿了一個(gè)軍大衣。我很好奇余凱博士見(jiàn)到的那個(gè)軍大衣里包裹的是一個(gè)怎樣的靈魂?它跟今天發(fā)生了什么樣的變化?

我覺(jué)得沒(méi)什么變化。我甚至認(rèn)為我今天90%的狀態(tài)、思維方式跟我上高中的時(shí)候差不多。遇到問(wèn)題去解決問(wèn)題、解決別人不愿意解決的問(wèn)題、解決消費(fèi)者遇到的最大的問(wèn)題、去找更多的人學(xué)習(xí)。那時(shí)候我是個(gè)人網(wǎng)站站長(zhǎng),但是我又有合伙人,是少數(shù)的有小團(tuán)隊(duì)的站長(zhǎng)?孔约耗芰Σ恍械臅r(shí)候還要靠別人,然后繼續(xù)完善能力。我覺(jué)得到今天為止我沒(méi)變化,只是解決的問(wèn)題在變大、服務(wù)的用戶群體在變大、公司的規(guī)模在變大、組織在變大。

57. 過(guò)去十年中所有的記憶里如果能改變一個(gè)記憶,改變一個(gè)程序,你想改變什么?

我覺(jué)得沒(méi)什么要改變的。能趕上這么一個(gè)時(shí)代,幾次創(chuàng)業(yè)還能一路走下來(lái),在最難的時(shí)候都有人來(lái)幫你,當(dāng)遇到問(wèn)題的時(shí)候,總是能從坑里快速爬出來(lái),一幫人齊心竭力變得更好,我覺(jué)得挺幸運(yùn)的了。無(wú)論是從運(yùn)氣層面,還是從能夠創(chuàng)造出來(lái)的價(jià)值層面,我覺(jué)得沒(méi)什么可后悔的。挺好的。

58. 你剛才說(shuō)一個(gè)詞是能量,怎么讓自己成為一個(gè)更有能量的人,更強(qiáng)大的人,或者是能吸引到更多能量的人?

我覺(jué)得就是關(guān)注人,尤其是關(guān)注那些離你最近的人,關(guān)注親密關(guān)系的人。關(guān)注人的時(shí)候首先你得先關(guān)注自己,作為我自己,我會(huì)怎么來(lái)看待自己?第一,我會(huì)接受自己所有的優(yōu)點(diǎn)。我很多身上的特質(zhì),這么多年的積累,從DNA里帶來(lái)的,其實(shí)它就是我的優(yōu)勢(shì),我應(yīng)該怎么去發(fā)揚(yáng)自己的優(yōu)勢(shì)。第二個(gè)是要能接受自己的不足。往往不足就是優(yōu)勢(shì)的另外一面。比如這個(gè)人很擅長(zhǎng)決策,他可能就沒(méi)有辦法其實(shí)去做很細(xì)致的運(yùn)營(yíng),因?yàn)檫@兩件事是沖突的。有的人非常擅長(zhǎng)運(yùn)營(yíng),他可能就很難跳出來(lái),或者跳好幾個(gè)維度來(lái)去做決策。一個(gè)人很懶,但可能是個(gè)極品的產(chǎn)品經(jīng)理,但如果他很勤奮,應(yīng)該是個(gè)非常好的業(yè)務(wù)運(yùn)營(yíng)。我覺(jué)得每個(gè)人是不一樣的,往往我們?nèi)绻牡脑挘瑫?huì)變成一個(gè)更差的別人,以及一個(gè)更糟糕的自己。所以我說(shuō)要接受自己的不足。第三個(gè)是用成長(zhǎng)替代改變。更重要的是我有沒(méi)有成長(zhǎng),我們?cè)谧銎囍业臅r(shí)候,我說(shuō)做好業(yè)務(wù)就行了,資本根本不重要,最后我們其實(shí)折在了資本上。

在做理想汽車的時(shí)候就非常注重資本,請(qǐng)最好的FA(財(cái)務(wù)顧問(wèn)),請(qǐng)最好的律所,股權(quán)架構(gòu)的設(shè)計(jì)、投票權(quán),今天大家可以看到所有的新勢(shì)力企業(yè)里面,理想汽車的股權(quán)架構(gòu)、治理結(jié)構(gòu)、資本現(xiàn)金管理都是做得最好的。我并沒(méi)有改變我的業(yè)務(wù),其實(shí)是增強(qiáng)了一個(gè)能力,所以它是個(gè)成長(zhǎng)。我們會(huì)面臨方方面面的能力成長(zhǎng),就能給自己帶來(lái)能量。你的成長(zhǎng)有自己的能量,然后你又不跟自己糾結(jié),當(dāng)有這個(gè)能力的時(shí)候,我們?cè)倏创齽e人其實(shí)也是一樣,我會(huì)先看別人的優(yōu)點(diǎn),這非常重要。這個(gè)優(yōu)點(diǎn)怎么讓他發(fā)揮出來(lái)?這優(yōu)點(diǎn)能帶來(lái)什么?這優(yōu)點(diǎn)怎么讓他發(fā)揮?我覺(jué)得第二個(gè),其實(shí)當(dāng)看到別人不足的時(shí)候,其實(shí)根本不是問(wèn)題。我從創(chuàng)業(yè)開(kāi)始就有合伙人。樊錚就是我的互補(bǔ),是我所不具備的,秦致是我所不具備的,李鐵、馬東輝、謝炎、鄒良軍就是我所不具備的。當(dāng)看到大家這些不足的時(shí)候,反而其實(shí)是我的價(jià)值,我有價(jià)值能幫助到他,他有價(jià)值能幫助到我,我覺(jué)得第三個(gè)一樣,去看別人的成長(zhǎng),你能看到孩子的成長(zhǎng),你能看到愛(ài)人的成長(zhǎng),你能看到身邊每個(gè)同事的成長(zhǎng),其實(shí)這就有能量了。

因?yàn)樽兒镁陀心芰柯。而且你關(guān)注的是人的成長(zhǎng),不是那些事兒。所以,第一你能自己產(chǎn)生能量,第二你能夠帶給別人能量,第三你能從別人那獲取能量,因?yàn)閯e人給你能量,別人也不會(huì)丟掉能量,它是個(gè)輻射作用。所以這是我一些隨著自己的成長(zhǎng),開(kāi)始有效的一些理解。然后另外一方面其實(shí)很重要的是親密關(guān)系,我覺(jué)得親密關(guān)系里邊特別重要的一點(diǎn),是要關(guān)注人,我需要我的愛(ài)人,我需要我的孩子,我需要李鐵、馬東輝,我需要?jiǎng)⒔堋⒔庑l(wèi)國(guó)、范皓宇,甚至超過(guò)了他們需要我。首先是我需要他們,才是他們需要我,這時(shí)候這些人之間的連接就不一樣了,我們?cè)谝黄鹁湍苄纬梢粋(gè)非常強(qiáng)的腦力、非常強(qiáng)的心力,形成特別好的能量,我覺(jué)得這個(gè)是特別重要的,而不是說(shuō)我對(duì)他們沒(méi)有需求。

我覺(jué)得在我的家里非常有意思的一點(diǎn),過(guò)去我和我老婆之間的相互支撐還是有限的,從去年年底春節(jié)過(guò)后一個(gè)最大的變化是我們家大女兒她形成了我們的第三個(gè)支撐。她14歲了,她對(duì)事情的理解在發(fā)生巨大的變化。她自己的三觀開(kāi)始有效、特別完善地形成,而且超出了我們的預(yù)期。而且她有能力跟我們做特別好的溝通了,關(guān)于她自己的人生規(guī)劃,她自己的喜好,她自己對(duì)人和事物的理解,這個(gè)特別有意思,我們家里實(shí)現(xiàn)了一個(gè)三人的支撐,這是個(gè)讓家里的能量大幅地提升。因?yàn)檫@些能量會(huì)影響到其他的孩子,雖然他們還沒(méi)有辦法做成支撐。我每次跟我老婆聊,在聊到大女兒的時(shí)候都是非常的高興,就沒(méi)想到她14歲就能和我們兩個(gè)人形成一個(gè)三人的支撐了。

我們能跟她一起去討論很多問(wèn)題了。我們可以討論事情,可以討論人,可以討論不同的見(jiàn)解,也可以討論她的規(guī)劃,可以討論怎么出去玩,可以討論家里要解決一些什么問(wèn)題,都可以的,我覺(jué)得這個(gè)特別好。

59. 我之前跟一個(gè)教授聊天啊,他說(shuō)他幾年前跟你聊過(guò),然后感覺(jué)你的心靈觀就是家庭觀,這個(gè)也反映到你的公司上,要?jiǎng)?chuàng)造幸福的家。那他想問(wèn)的是你有沒(méi)有更大的宇宙觀、世界觀?

我們從人出生開(kāi)始,我們上學(xué)到大學(xué)畢業(yè)到開(kāi)始工作,我們有多少自己想去做的事情沒(méi)有去做?我們有多少想接觸的萬(wàn)物沒(méi)有去接觸?我每天都在忙著去工作,去在做事兒。嗯,對(duì),但什么是智慧呢?智慧就是我們跟萬(wàn)物的接觸。

如果你沒(méi)有去過(guò)森林,沒(méi)有在森林里,認(rèn)真的玩兒、住過(guò)幾天,那你可能覺(jué)得木頭就是做筷子的,就是做紙的,就是做桌子的,而并不是意味著它是一個(gè)生命,它是跟我們不同的生命,對(duì)吧?你不能沒(méi)有跟孩子在一起、長(zhǎng)時(shí)間的生活體驗(yàn)跟他們一起去玩,你可能就不知道什么是親密的關(guān)系,你就沒(méi)法真正的去理解孩子,去了解孩子,對(duì)吧?那我覺(jué)得什么是智慧?我覺(jué)得智慧就是我們和萬(wàn)物的關(guān)系。但是怎么去提升我跟萬(wàn)物的關(guān)系?首先要有足夠的時(shí)間跟萬(wàn)物去接觸。所以我在講的一個(gè)很重要的一個(gè)問(wèn)題,就是今天我們很卷,但是我覺(jué)得這是恰恰是真正的人工智能的意義。

60. 在AI面前,什么是值得被保留的人性?

我覺(jué)得所有的人性都應(yīng)該得以保留。對(duì),然后無(wú)論是好的和壞的。

61. 為什么呀。繛槭裁匆冒盐业膲牡模ūA粝聛(lái))。

就沒(méi)有壞的,其實(shí)就沒(méi)有好的。那就跟剛才我講的一樣,就是說(shuō)一個(gè)人的優(yōu)點(diǎn)的另外一面,其實(shí)就是它的缺點(diǎn),對(duì)吧?然后一個(gè)好的另外一面其實(shí)就是它的不好。對(duì),以后我們?nèi)绻幌胍玫臇|西,而這個(gè)說(shuō)我只想要好的東西,但放棄所有不好的東西。對(duì),我覺(jué)得這件事情并不成立。對(duì),所以你可以把好的東西和不好的東西都當(dāng)成一種特質(zhì)。對(duì),然后它是文化的特質(zhì),然后它是生命的特質(zhì),它是性格的特質(zhì),它是能力的特質(zhì)。對(duì),我覺(jué)得這個(gè)其實(shí)這樣的,這樣我覺(jué)得才是活生生的,才是一個(gè)有生命力的世界,才是活生生的人。(編譯/汽車之家 秦超)

向編輯秦超提問(wèn)
收藏
+1
+1
推薦閱讀
發(fā)表我的評(píng)論
您認(rèn)為文章寫(xiě)的好么:
評(píng)價(jià)內(nèi)容: 修改 本文共有 4 個(gè)網(wǎng)友評(píng)價(jià),其中100.00%好評(píng),0%差評(píng)。
評(píng)價(jià)理由:語(yǔ)句不通/文章閱讀困難
0/5000字 提 交 同步到:
最新文章
加載中