毫末智行&清華AIR自動(dòng)駕駛精品公開課：DriveGPT開啟自動(dòng)駕駛大模型落地新范式

來源：快科技 2023-07-05 14:46:14

作為新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動(dòng)力量，以GPT為代表的大模型技術(shù)正在引領(lǐng)新一輪全球人工智能創(chuàng)新熱潮，為經(jīng)濟(jì)社會(huì)發(fā)展持續(xù)注入新動(dòng)能。6月30日，毫末智行聯(lián)合清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)舉辦了今年第二場(chǎng)自動(dòng)駕駛精品公開課，深入分享了大數(shù)據(jù)、大算力、大模型驅(qū)動(dòng)下的自動(dòng)駕駛發(fā)展趨勢(shì)和技術(shù)原理。

本期課程是自動(dòng)駕駛系列公開課程的第二期，在此前第一期聚焦自動(dòng)駕駛AI技術(shù)原理的基礎(chǔ)上，更進(jìn)一步介紹了大模型之于自動(dòng)駕駛背后的技術(shù)邏輯?，F(xiàn)場(chǎng)，毫末智行數(shù)據(jù)智能科學(xué)家賀翔以《大數(shù)據(jù)、大算力、大模型驅(qū)動(dòng)下的自動(dòng)駕駛》為主題，從AI大模型的內(nèi)核講起，結(jié)合毫末發(fā)布的業(yè)內(nèi)首個(gè)自動(dòng)駕駛生成式大模型DriveGPT雪湖·海若，通過毫末在自動(dòng)駕駛行業(yè)里用大模型思路實(shí)踐經(jīng)驗(yàn)，為大家全面分享了大模型技術(shù)落地自動(dòng)駕駛的新范式。

(資料圖)

回顧自動(dòng)駕駛行業(yè)過去這些年的發(fā)展，賀翔將技術(shù)演進(jìn)分為了3個(gè)階段，即以硬件驅(qū)動(dòng)為主的1.0時(shí)代、以軟件驅(qū)動(dòng)為主的2.0時(shí)代，以及正在進(jìn)入的、以數(shù)據(jù)驅(qū)動(dòng)為主要特征的自動(dòng)駕駛3.0時(shí)代?！白詣?dòng)駕駛3.0時(shí)代的特點(diǎn)，是Transformer這樣千億級(jí)別的大模型，模型參數(shù)很大，一定是大參數(shù)、大模型、大數(shù)據(jù)。而大模型的必要條件是有大的算力?！?/p>

毫末智行從創(chuàng)立之初，就定下以數(shù)據(jù)驅(qū)動(dòng)自動(dòng)駕駛技術(shù)升級(jí)的公司技術(shù)戰(zhàn)略，以領(lǐng)先的人工智能技術(shù)和智能駕駛規(guī)模量產(chǎn)作為自身優(yōu)勢(shì)，在2021年底，率先發(fā)布國內(nèi)首個(gè)全棧自研的自動(dòng)駕駛數(shù)據(jù)智能體系MANA（雪湖），又在一年后的2022年底，建成國內(nèi)自動(dòng)駕駛行業(yè)最大的智算中心MANA OASIS（雪湖·綠洲），每秒浮點(diǎn)運(yùn)算達(dá)到67億億次。

賀翔認(rèn)為，自動(dòng)駕駛當(dāng)前的技術(shù)范式與十幾年前的自然語言處理技術(shù)非常相近，即小數(shù)據(jù)、小模型，通過采集各種各樣的交通數(shù)據(jù)、進(jìn)行人工標(biāo)注、再用這些數(shù)據(jù)訓(xùn)練出小模型，然后再把模型部署到車上，結(jié)合業(yè)務(wù)規(guī)則，去控制車。這種模式的弊端十分明顯——一旦量產(chǎn)上車，當(dāng)數(shù)十萬輛車在全國各地跑起來，就會(huì)出現(xiàn)各種各樣的路況、場(chǎng)景，如果還按照之前的思路去做人工標(biāo)注，一方面，需要消耗大量的人力成本和時(shí)間，另一方面，則永遠(yuǎn)不可能標(biāo)注完所有場(chǎng)景，就像運(yùn)載著各種貨物的掛車這類交叉組合的特殊場(chǎng)景需要做出不同種類的標(biāo)注，而這種組合幾乎是無窮的。

過去幾年，自然語言處理領(lǐng)域，大模型技術(shù)取得了技術(shù)突破，尤其是GPT這樣的大模型出現(xiàn)以后，大模型具備很強(qiáng)的泛化能力，通過一個(gè)大模型就能解決各類問題。

基于這樣的行業(yè)困境、借鑒自然語言處理領(lǐng)域的經(jīng)驗(yàn)，毫末相信大數(shù)據(jù)、大模型會(huì)成為自動(dòng)駕駛領(lǐng)域一種新的解題思路。在技術(shù)路線上，毫末早在2021年初就開始探索將Transformer大模型技術(shù)落地應(yīng)用到自動(dòng)駕駛產(chǎn)品當(dāng)中，同時(shí)也成為國內(nèi)首家研發(fā)落地BEV感知技術(shù)的自動(dòng)駕駛公司，并在2022年4月，率先在國內(nèi)發(fā)布以“重感知”方式實(shí)現(xiàn)的城市NOH導(dǎo)航輔助駕駛產(chǎn)品。2023年4月，基于GPT大模型所具有的生成式、預(yù)訓(xùn)練、人類反饋強(qiáng)化學(xué)習(xí)等技術(shù)優(yōu)勢(shì)，毫末將視覺自監(jiān)督大模型、3D重建大模型、多模態(tài)互監(jiān)督大模型、動(dòng)態(tài)環(huán)境大模型、人駕自監(jiān)督認(rèn)知大模型等五大模型進(jìn)行統(tǒng)一升級(jí)，發(fā)布了行業(yè)首個(gè)自動(dòng)駕駛生成式大模型DriveGPT雪湖·海若。

DriveGPT的底層模型與ChatGPT一樣，都采用了生成式預(yù)訓(xùn)練模型架構(gòu)，使用了大規(guī)模無監(jiān)督的數(shù)據(jù)進(jìn)行初始模型的生成，也都采用了Prompt微調(diào)方式和RLHF人類反饋強(qiáng)化學(xué)習(xí)的方式進(jìn)行模型效果的優(yōu)化；二者的不同之處在于，ChatGPT輸入輸出的自然語言的文本，而DriveGPT輸入輸出分別是歷史場(chǎng)景序列和生成的未來場(chǎng)景序列，ChatGPT主要用于自然語言處理領(lǐng)域，而DriveGPT主要用于自動(dòng)駕駛領(lǐng)域。

據(jù)賀翔介紹，DriveGPT大模型現(xiàn)在分成兩個(gè)階段，一個(gè)階段是更通用、更基礎(chǔ)的能力，即空間計(jì)算能力。另一個(gè)階段是做駕駛決策，即要知道怎么開車。也就是在空間計(jì)算能力之上，再去疊加認(rèn)知決策的能力?！榜{駛決策，這其實(shí)還是一項(xiàng)特殊的技能，需要我們所有人學(xué)開車時(shí)候都要去駕校學(xué)一遍，大模型就相當(dāng)于做（駕駛技能教學(xué)）這個(gè)事情。駕駛的技能都需要依賴對(duì)周圍空間的三維感知，這種空間感知能力也是一種通用能力，我們希望這種通用感知能力，能對(duì)接不同的決策模型，完成不同的任務(wù)。例如對(duì)接自動(dòng)駕駛決策模型就可以實(shí)現(xiàn)自動(dòng)駕駛、對(duì)接機(jī)器人決策模型就可以實(shí)現(xiàn)具身機(jī)器人等等?！?/p>

賀翔表示，DriveGPT目前仍然以云端訓(xùn)練和推理的方式為主，但它已可以通過多種方式來賦能車端智駕能力。首先，可以通過多模態(tài)大模型的場(chǎng)景理解能力，進(jìn)行高效數(shù)據(jù)篩選，為車端小模型訓(xùn)練提供所需要的海量極端、困難場(chǎng)景數(shù)據(jù)。“我們的大模型能在幾秒鐘之內(nèi)從百億數(shù)據(jù)里面，通過任意輸入一段自然語言文本，類似人與人之間的自然對(duì)話，把圖片找出來?！?/p>

同時(shí)，DriveGPT也具備很強(qiáng)的駕駛場(chǎng)景識(shí)別能力，可以使用這個(gè)能力來進(jìn)行自動(dòng)標(biāo)注?；诤聊〥riveGPT所建立的4D Clips駕駛場(chǎng)景自動(dòng)標(biāo)注方案，可以使得單張圖片的標(biāo)注成本降到0.5元，相較目前行業(yè)平均成本的1/10。毫末目前正在會(huì)將圖像幀及4D Clips自動(dòng)駕駛場(chǎng)景識(shí)別服務(wù)向行業(yè)開放使用，這將大幅降低行業(yè)使用數(shù)據(jù)的成本，提高數(shù)據(jù)質(zhì)量。

在駕駛場(chǎng)景通用感知能力上，DriveGPT對(duì)視覺感知任務(wù)做了全面升級(jí)，以恢復(fù)真實(shí)世界的三維結(jié)構(gòu)和紋理分布為目標(biāo)，通過構(gòu)建統(tǒng)一的空間計(jì)算Backbone實(shí)現(xiàn)通用視覺感知能力，在一個(gè)大模型中同時(shí)完成圖片紋理、三維結(jié)構(gòu)深度信息、實(shí)體語義信息、實(shí)體跟蹤的學(xué)習(xí)，試圖與人腦對(duì)物理世界的感知一樣實(shí)現(xiàn)通用的視覺感知能力。目前，毫末視覺感知訓(xùn)練數(shù)據(jù)集達(dá)到400萬Clips，感知性能提升20%。DriveGPT可以支持單趟或多趟的純視覺NeRF三維重建以及數(shù)據(jù)生成，從而可以構(gòu)造大量自動(dòng)駕駛的corner cases，為行業(yè)提供更低成本、更大規(guī)模的自動(dòng)駕駛能力測(cè)試的仿真環(huán)境，幫助行業(yè)伙伴快速提升自動(dòng)駕駛技術(shù)能力。

除了感知層面，賀翔還分享了在DriveGPT認(rèn)知決策層面的應(yīng)用，當(dāng)前的認(rèn)知決策是把BEV感知結(jié)果作為輸入進(jìn)行駕駛決策訓(xùn)練。但是BEV感知結(jié)果會(huì)丟失很多信息，限制了駕駛決策的上限。DriveGPT則直接將空間計(jì)算Backbone對(duì)接駕駛決策，采用更豐富、更全面的感知信息來訓(xùn)練駕駛決策模型，結(jié)合海量的真實(shí)駕駛數(shù)據(jù)訓(xùn)練，最終實(shí)現(xiàn)端到端自動(dòng)駕駛甚至達(dá)到無人駕駛。

賀翔表示，當(dāng)前，毫末DriveGPT實(shí)現(xiàn)了模型架構(gòu)與參數(shù)規(guī)模的升級(jí)，參數(shù)規(guī)模達(dá)到1200億，預(yù)訓(xùn)練階段引入5500多萬公里量產(chǎn)車駕駛數(shù)據(jù)，RLHF階段引入5萬段人工精選的困難場(chǎng)景接管 Clips。同時(shí)，毫末正在將感知能力融入到DriveGPT大模型訓(xùn)練當(dāng)中，形成一整套的端到端的自動(dòng)駕駛能力模型。DriveGPT也將具備自動(dòng)駕駛的場(chǎng)景理解、場(chǎng)景識(shí)別、場(chǎng)景重建、場(chǎng)景生成能力，以及駕駛能力測(cè)評(píng)等能力。

DriveGPT的出現(xiàn)，從底層技術(shù)上顛覆了以往自動(dòng)駕駛認(rèn)知決策過程采用人工規(guī)則、小模型的實(shí)現(xiàn)方式，首次探索以數(shù)據(jù)驅(qū)動(dòng)的大模型方式實(shí)現(xiàn)自動(dòng)駕駛的數(shù)據(jù)篩選、自動(dòng)標(biāo)注、駕駛決策，最終為實(shí)現(xiàn)端到端自動(dòng)駕駛提供可能。

在現(xiàn)場(chǎng)問答環(huán)節(jié)，面對(duì)網(wǎng)友“大模型到底能給自動(dòng)駕駛帶來什么樣飛躍”的提問，賀翔解釋說：“我們希望通過大模型非常強(qiáng)大的泛化能力，能夠大規(guī)模提升自動(dòng)駕駛對(duì)于corner case的處理能力，有了這種能力之后，自動(dòng)駕駛可以去任何地方，任何路況，自動(dòng)駕駛的范圍能處理的場(chǎng)景可能比現(xiàn)在大得多?！?/p>

而當(dāng)談到自動(dòng)駕駛的“ChatGPT時(shí)刻”會(huì)在什么時(shí)候到來時(shí)，賀翔也給出了自己的看法。在他看來，ChatGPT之所以給了大家如此大的震撼，在于它天然是多面手。但是，一方面，在自動(dòng)駕駛領(lǐng)域里面，不同于ChatGPT只處理文本信號(hào)，自動(dòng)駕駛還要處理圖片、點(diǎn)云、交通法規(guī)、地圖、駕駛行為等一系列信息，自動(dòng)駕駛要處理的數(shù)據(jù)模態(tài)更復(fù)雜；另一方面，自動(dòng)駕駛對(duì)模型的輸出精度要求更高、可解釋性要求也更強(qiáng)。面對(duì)這種特別復(fù)雜的模態(tài)、特別高的輸出要求，實(shí)現(xiàn)自動(dòng)駕駛大模型道阻且長(zhǎng)，但行則將至。

毫末智行聯(lián)合清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)舉辦的自動(dòng)駕駛精品公開課共分4期，本期課程是第二期。在今年3月舉辦的第一期課程里，來自清華AIR和毫末智行的講師已經(jīng)為近百名業(yè)內(nèi)媒體人介紹了單車智能自動(dòng)駕駛、車路協(xié)同自動(dòng)駕駛和高等級(jí)智能道路建設(shè)等自動(dòng)駕駛技術(shù)發(fā)展，并向大家講解了自動(dòng)駕駛AI技術(shù)基礎(chǔ)原理，以及當(dāng)前大模型在自動(dòng)駕駛的應(yīng)用趨勢(shì)。通過本期自動(dòng)駕駛精品公開課，毫末與清華AIR一同為自動(dòng)駕駛行業(yè)奉獻(xiàn)了一場(chǎng)端到端自動(dòng)駕駛前沿技術(shù)盛筵。未來，還將有清華AIR和毫末智行的老師為大家?guī)碜钋把氐臉I(yè)內(nèi)技術(shù)分享。

如今，國內(nèi)外大模型科研保持著高速迭代的態(tài)勢(shì)，各類大模型層出不窮，模型性能不斷提升，創(chuàng)新創(chuàng)業(yè)蓬勃興起，展現(xiàn)了驚人的演進(jìn)速度。相信未來，毫末也將繼續(xù)用技術(shù)賦能自動(dòng)駕駛發(fā)展，攜手更多伙伴，推動(dòng)行業(yè)發(fā)展，一同加速自動(dòng)駕駛的“ChatGPT”時(shí)刻早日到來。

關(guān)鍵詞：

傳感物聯(lián)網(wǎng)

馬克龍?zhí)嶙h對(duì)參與騷亂青少年家庭罰款，作為“初次犯錯(cuò)最低代價(jià)” 全球短訊

【報(bào)道記者張曉雅】據(jù)“今日俄羅斯”（RT）4日?qǐng)?bào)道，法國總統(tǒng)馬克龍?zhí)?
乙酸鈉碳源商品報(bào)價(jià)動(dòng)態(tài)（2023-07-05）即時(shí)焦點(diǎn)

交易商品牌產(chǎn)地交貨地最新報(bào)價(jià)乙酸鈉碳源　含量25%河南順之邦環(huán)?？萍?
全球滾動(dòng):別讓收益飛走：散戶利用股票量化的策略秘籍

在這股市的賭局中，我曾是一個(gè)小船，在風(fēng)浪中搖擺，卻沒有目的地。我看
吉林拉升避暑消費(fèi)“涼動(dòng)能” 資訊

新華社長(zhǎng)春7月4日電題：吉林拉升避暑消費(fèi)“涼動(dòng)能”新華社記者王昊飛、
抓早、抓小、抓苗頭……棗莊嶧城公安深化“柔性調(diào)解”

齊魯網(wǎng)·閃電新聞7月5日訊為推動(dòng)“創(chuàng)優(yōu)創(chuàng)滿”工作走深走實(shí)，連日來，棗

久久精品亚洲成a人|亚洲精品中文字幕乱码|男人添女人全身免费视频|久久免费精品国自产拍网站|桃色午夜日韩在线三区精品|91精品国产高清自在线看|亚洲午夜精品无码专区在线观|97超级碰碰碰久久久久app

毫末智行&清華AIR自動(dòng)駕駛精品公開課：DriveGPT開啟自動(dòng)駕駛大模型落地新范式

傳感物聯(lián)網(wǎng)