被神話的GPT 造不出你的夢中神車

2023-06-11 00:06:08

ChatGPT爆火之後，AI大模型成為衆多科技公司追逐的熱點。從聊天對話，到圖像生成，再到桌面辦公，仿佛AI在一夜之間具備了顛覆一切的神力。

熱潮蔓延至汽車行業，從業者开始思考：讓GPT造車，是否可行？

有車企宣布將應用大模型技術，也有車企稱要接入第三方大模型，還有車企搶着發布了帶有GPT字眼的自動駕駛系統。

有從業者對深途說，智能座艙和自動駕駛，或將是大模型最先應用的場景。這其中，尤以自動駕駛最讓人期待。

自動駕駛是一個難度極高的賽道。除了谷歌、百度等科技巨頭，一大批天才創業者投身其中，燒掉數十億美金，至今也沒達到讓人滿意的效果。

AI大模型殺入自動駕駛，這次會不一樣嗎？

GPT跟汽車，有幾毛錢關系？

GPT跟汽車，表面看無直接關聯，實則淵源很深。故事得從六年前說起。

2017年6月，特斯拉的老板馬斯克，從OpenAI挖走了一個斯洛伐克籍的研究員。這個人叫Andrej Karpathy，他後來成為特斯拉的AI總監。

當時馬斯克對人工智能表現出極大興趣，他也是OpenAI的捐資創辦人之一。把Andrej Karpathy招致麾下不久，馬斯克離开OpenAI董事會，他認為特斯拉和OpenAI都在研究AI，未來可能發生利益衝突。

後來，Andrej Karpathy在特斯拉重寫了自動駕駛算法，开發出BEV純視覺感知技術，讓特斯拉自動駕駛進入新階段。而他的前東家OpenAI，則將全部籌碼押注在通用人工智能，最終研發出GPT。

從產品角度看，OpenAI的GPT和特斯拉的BEV，是完全不同的物種。但從技術底層來看，它們都依托人工智能技術，尤其是對谷歌Transformer模型進行了應用。

Transformer是一種深度學習的神經網絡架構，由谷歌的8位AI科學家在2017年提出。這是人工智能行業極其重要的一項發明，今天大火的ChatGPT中的“T”，就是指Transformer大模型。

與傳統神經網絡RNN和CNN不同，Transformer通過自我注意力機制，去挖掘序列中不同元素的聯系及相關性，具有很好的時序數據處理能力。這讓它在機器翻譯、文本摘要、問答系統等任務上，展現出突出的性能。

因此Transformer一开始被人們用在NLP（高級自然語言處理）領域，用於理解人類的文本和語言。

在Transformer模型上進行預訓練，經過不斷的微調、迭代，OpenAI相繼推出了GPT-1、GPT-2、GPT-3、GPT-4等語言訓練大模型。ChatGPT是OpenAI對GPT-3模型微調後开發出來的對話機器人。由於它能以對話的方式進行交互，普通人很好上手，且比過去的聊天機器人顯得更“聰明”，因此大放異彩。

從根本上，ChatGPT的GPT模型、谷歌的LaMDA大模型，以及百度的文心大模型，同宗同源。

將Transformer模型用於自然語言，誕生了ChatGPT這樣的聊天應用；將它用在計算機視覺，同樣取得了驚人的效果，這方面的先行者是特斯拉。

Andrej Karpathy在擔任特斯拉AI總監期間，負責領導自動駕駛的計算機視覺團隊，通過結合Transformer模型，特斯拉成功开發出BEV技術。

BEV全稱是Bird's Eye View，即鳥瞰圖。它可以將攝像頭拍攝的2D圖像拼接轉化為3D圖像，統一轉換到俯視角度下進行處理，形成“上帝視角”。這么做的原因是：开車是在三維空間中進行的，人看到的是立體的世界，而不是2D的圖像。

這項全新的感知方案，在2021年8月的特斯拉AI DAY上由Andrej Karpathy對外展示。為此特斯拉不惜重寫了自動駕駛算法，對訓練深度神經網絡的基礎設施進行了重構。

這是大模型技術首次被應用到自動駕駛行業。

今天回過頭來看，雖然GPT目前主要應用在自然語言處理領域，我們並不能讓GPT去駕駛一輛汽車，但它背後的AI大模型技術，尤其是Transformer架構，實際上早就已經在自動駕駛領域應用了。

從自然語言處理到計算機視覺，兩個領域基於Transformer架構在建模結構上實現了統一，使聯合建模更加容易。

而隨着對AI的理解加深，汽車公司越來越像人工智能公司。除了特斯拉，理想汽車在今年初公布公司愿景，聲稱要在2030年成為一家人工智能企業。它將在今年推出的城市NOA導航輔助駕駛系統，技術支撐就是BEV感知和Transformer模型。

讓AI跟人對話，與讓AI駕駛一輛汽車，似乎本質上並無區別，只是二者落地場景不同。在將底層技術應用到具體產品這件事上，人類永遠充滿想象力。

GPT教會自動駕駛的那些事

今年以來，GPT展現出來的強大能力，讓外界大受震撼。通用人工智能不再是空中樓閣。自動駕駛行業的人开始思考，或許生成式AI在語言模型上的應用思路，可以遷移到自動駕駛上。

本質上，語言模型是對人類的語言建立的數學模型。計算機還是不懂自然語言，但它通過數學建模，把語言問題變成了數學問題。通過給定的文本的歷史，預測下一個詞出現的概率，間接地理解了自然語言。

換到駕駛場景，如果給定當前的交通環境，給定一個導航地圖，以及一個駕駛員駕駛行為的歷史，那么，大模型是不是可以預測下一個駕駛動作？

地平线創始人余凱在今年4月舉辦的電動汽車百人會論壇上說，ChatGPT給他很大啓發，“我們要繼續用大數據、更大的數據、更大的模型，並且無監督地去學習人類駕駛的嘗試，就像你從大量的、無監督的、沒有標注的自然文本裏去學習一樣”。他認為，每個駕駛員駕駛控制的序列，就像我們的自然語言文本一樣。下一步，他想構建一個回歸自動駕駛的大語言模型。

理論上，這個思路是可行的。人工智能已經具備學習能力。根據自適應的語言模型，機器會根據用戶的反饋不斷迭代優化，學習用戶的習慣，然後改進模型。現在的ChatGPT就運用了這項技術。那么，讓機器學習司機的駕駛習慣，就不是一件很難的事情。

特斯拉的影子模式，就是把真人司機的駕駛數據，投喂給機器學習。通過比對人類駕駛員行為，來達到訓練算法的目的。

GPT掀起新一輪AI熱潮後，對行業造成的一個認知衝擊是，通過把模型的參數規模不斷變大，數據量指數型增加，也就是所謂的大模型，在達到某個臨界點後，模型會突然變得很聰明。

過去，模型在訓練階段需要的數據，是經過人工標注的。以自動駕駛為例，數據標注員通過大量的圖片標注，告訴機器什么是貓，什么是狗，貓和狗各有多少種類。標注員就像是機器的老師，一遍一遍教會它認識這個世界。

問題是，老師沒教過的東西，機器還是不會。典型的是特斯拉曾多次發生自動駕駛事故，車輛撞上側翻的大卡車，因為機器識別不了。

和高資本創始合夥人何宇華對深途舉過這樣一個例子：廣州的夏季雨天頻繁，在一些燈光比較昏暗的場景下，空中會有大量的飛蟲。當汽車駛過時，燈光打過去，可能會有數以千計的飛蟲撞向車頭。在這種情況下，汽車的自動駕駛感知系統，可能會誤認為是一堵牆。

自動駕駛系統不能窮盡所有的corner case（極端場景），是其發展路上的一大難關。

ChatGPT抓取的是全網未標記的數據。在自監督學習中，數據本身被用作監督信號，而不是依賴於人工標記的標籤。有一天人們發現，大模型在消化這些數據的過程中，突然具備了舉一反三的能力。

那么，如果自動駕駛大模型也能無監督地學習人類駕駛行為，不需要“老師”手把手地教，是不是意味着，系統搖身一變，成了“老司機”？

GPT“开車”，還不靠譜

夢想很美好，實現夢想的路總是很骨感。

類似ChatGPT的AI大模型要在自動駕駛領域發揮威力，目前來看至少有如下幾個問題需要解決。

首先是數據來源。

ChatGPT的數據來源非常豐富，包括維基百科、書籍、新聞文章、科學期刊等等，相當於全網公开數據都是它的養料。

自動駕駛不同。駕駛員的駕駛數據、車輛行駛數據不公开，很多還涉及隱私。汽車廠商、自動駕駛公司各自為政，數據封閉不流通，這讓獲取數據變得困難。沒有數據，自動駕駛就是無源之水。

聯想創投總裁賀志強對深途說，自動駕駛的核心是要有數據，數據對訓練模型非常重要。比亞迪這樣的主機廠有數據，但算法還需要打磨，“蔚小理”等造車新勢力擅長算法，但車的銷量還不夠。既有數據也有算法的公司，才能充分用好大模型。

其次是系統的計算部署方式有限制。

余凱認為，OpenAI、ChatGPT是在雲端的計算，在雲端有充分的能量供給、電源供給，同時有非常好的系統，可是如果在車上依賴的是電池，依賴的是車端的散熱，那么這個挑战是很大的，意味着自動駕駛不能用那么大的模型、那么大的計算。

大模型對算力的消耗，導致雲計算廠商成為這波AI熱潮中第一批喫到紅利的玩家。大廠开卷雲計算，也是為大模型开路。但是在車端，這會是一個矛盾。

更大的問題是，大模型的可靠性尚未驗證。

使用過ChatGPT的人知道，ChatGPT有時候會胡說八道，時對時錯。這在業內被稱為幻覺（hallucination）傾向，即產生完全沒有出處的非真實內容。大模型會編造內容，而不在意內容的真實性和准確性。

聊天可以胡說八道，自動駕駛不可以。任何一次錯誤的輸出，導致的結果都可能是致命的。

“ChatGPT取得巨大進展，但自動駕駛遲遲沒有到來，因為自動駕駛特別是無人駕駛，可能容錯率就是零，那是人命關天的事情。”余凱說。

曾在硅谷某AI創業公司擔任COO的龍志勇認為，不可控、不可預測和不可靠，是大模型商業化最大的威脅。典型表現是大模型有幻覺傾向。

現在，要讓自動駕駛系統學會選擇和辨別，並穩定地輸出最優解，還不太現實。

一家人工智能公司的內部人士對深途說：“視覺感知在算法層面的確有不少突破。但車這種場景，要求太高了，我個人不覺得短期能有大的突破。可以關注一下特斯拉的動向。”

然而最近科技圈有一股風氣，大大小小的公司，都要蹭一把GPT的熱點。有一些汽車廠商，宣布即將應用類似GPT的技術，一堆炫酷的概念讓人傻傻分不清楚。

比如某傳統車企旗下的自動駕駛公司，就發布了一個自動駕駛生成式大模型，要用這個模型來訓練自動駕駛，號稱“行業首例”。

一位長期關注智能汽車賽道的投資人，詢問一位行業大佬怎么看該模型，對方就回了四個字：“TM扯淡。”

“完全就是一個PR行為。”這位投資人對深途評價。

自動駕駛，會被推倒重來嗎？

在特斯拉的帶動下，再疊加今年興起的AI浪潮，自動駕駛行業逐漸向大模型、大算力、大數據方向不斷靠近。

大模型對自動駕駛的影響，目前還不夠劇烈，但嗅覺敏銳的人已經呈現出一種矛盾心態。

就像當年特斯拉利用Transformer將多攝像機數據從圖像空間轉化為BEV空間，為此不惜將原有架構推翻，重寫算法。現在大模型的應用，也可能意味着原有自動駕駛算法，會被推倒重來。

賀志強認為，大模型會對自動駕駛有巨大影響。以前自動駕駛用到很多小模型，現在變成大模型，可能需要重新來一遍。自動駕駛行業會重新洗牌。

一家AI芯片公司的自動駕駛總監趙東翔對深途說，整體端到端更改，等於重新做。

洗牌對新入局者是機會，對領先者是威脅。彎道超車的故事，往往發生在技術急速變革時期。在技術一日千裏的時代，在舊路线投入越多，沉沒成本可能越大，轉身越困難。對於整車廠或自動駕駛公司而言，要擁抱一項新技術，不僅要考慮效果，還要考慮成本。

趙東翔表示，就當前階段而言，自動駕駛變換技術路线沒意義，“現在行業技術能力也不差，大家花那么多錢做了那么久，沒有大幅度提高的話沒有換的動力。”

在去年底的AI DAY上，特斯拉將BEV升級到佔用網絡（occupancy network），泛化能力得到進一步提升。通過佔用網絡，特斯拉的自動駕駛感知系統可以不需要知道看到的物體是什么，就可以判斷是否需要躲避，由此解決了更多長尾問題。

不論何種技術路线，現在都處於快速變化迭代中。過去的小模型可能會被大模型替代，今天的大模型也可能在未來被某種新物種替代。

但不管怎樣，蹭熱點、制造噱頭的做法，是無益於技術進步的。“蹭熱度是陋習，踏踏實實做產品才有用。”趙東翔說。

自動駕駛真正的“王炸”，還遠沒有到來。我們需要做的，是對每一輪技術變革保持敬畏之心。被神話的GPT，造不出你的夢中神車，但至少，變化已經發生了。

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

被神話的GPT 造不出你的夢中神車

GPT跟汽車，有幾毛錢關系？

GPT教會自動駕駛的那些事

GPT“开車”，還不靠譜

自動駕駛，會被推倒重來嗎？

評論

追尋比特幣之神：一位記者對中本聰十五年的漫長調查

AI bots 能竊取你的加密貨幣嗎？一文了解數字盜賊的崛起

Dragonfly 合夥人：我是如何錯過投資 Solana 種子輪機會的？

Matrixport市場觀察：美股超賣反彈與黃金強勢並行，市場資金流向分化

離开 Telegram 小遊戲的人

TON生態大敗局，是誰扼殺了TG小遊戲？

元宇宙之心