來源:快科技
作為新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動(dòng)力量,以GPT為代表的大模型技術(shù)正在引領(lǐng)新一輪全球人工智能創(chuàng)新熱潮,為經(jīng)濟(jì)社會(huì)發(fā)展持續(xù)注入新動(dòng)能。6月30日,毫末智行聯(lián)合清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)舉辦了今年第二場(chǎng)自動(dòng)駕駛精品公開課,深入分享了大數(shù)據(jù)、大算力、大模型驅(qū)動(dòng)下的自動(dòng)駕駛發(fā)展趨勢(shì)和技術(shù)原理。
本期課程是自動(dòng)駕駛系列公開課程的第二期,在此前第一期聚焦自動(dòng)駕駛AI技術(shù)原理的基礎(chǔ)上,更進(jìn)一步介紹了大模型之于自動(dòng)駕駛背后的技術(shù)邏輯?,F(xiàn)場(chǎng),毫末智行數(shù)據(jù)智能科學(xué)家賀翔以《大數(shù)據(jù)、大算力、大模型驅(qū)動(dòng)下的自動(dòng)駕駛》為主題,從AI大模型的內(nèi)核講起,結(jié)合毫末發(fā)布的業(yè)內(nèi)首個(gè)自動(dòng)駕駛生成式大模型DriveGPT雪湖·海若,通過毫末在自動(dòng)駕駛行業(yè)里用大模型思路實(shí)踐經(jīng)驗(yàn),為大家全面分享了大模型技術(shù)落地自動(dòng)駕駛的新范式。
(資料圖)
回顧自動(dòng)駕駛行業(yè)過去這些年的發(fā)展,賀翔將技術(shù)演進(jìn)分為了3個(gè)階段,即以硬件驅(qū)動(dòng)為主的1.0時(shí)代、以軟件驅(qū)動(dòng)為主的2.0時(shí)代,以及正在進(jìn)入的、以數(shù)據(jù)驅(qū)動(dòng)為主要特征的自動(dòng)駕駛3.0時(shí)代?!白詣?dòng)駕駛3.0時(shí)代的特點(diǎn),是Transformer這樣千億級(jí)別的大模型,模型參數(shù)很大,一定是大參數(shù)、大模型、大數(shù)據(jù)。而大模型的必要條件是有大的算力?!?/p>
毫末智行從創(chuàng)立之初,就定下以數(shù)據(jù)驅(qū)動(dòng)自動(dòng)駕駛技術(shù)升級(jí)的公司技術(shù)戰(zhàn)略,以領(lǐng)先的人工智能技術(shù)和智能駕駛規(guī)模量產(chǎn)作為自身優(yōu)勢(shì),在2021年底,率先發(fā)布國內(nèi)首個(gè)全棧自研的自動(dòng)駕駛數(shù)據(jù)智能體系MANA(雪湖),又在一年后的2022年底,建成國內(nèi)自動(dòng)駕駛行業(yè)最大的智算中心MANA OASIS(雪湖·綠洲),每秒浮點(diǎn)運(yùn)算達(dá)到67億億次。
賀翔認(rèn)為,自動(dòng)駕駛當(dāng)前的技術(shù)范式與十幾年前的自然語言處理技術(shù)非常相近,即小數(shù)據(jù)、小模型,通過采集各種各樣的交通數(shù)據(jù)、進(jìn)行人工標(biāo)注、再用這些數(shù)據(jù)訓(xùn)練出小模型,然后再把模型部署到車上,結(jié)合業(yè)務(wù)規(guī)則,去控制車。這種模式的弊端十分明顯——一旦量產(chǎn)上車,當(dāng)數(shù)十萬輛車在全國各地跑起來,就會(huì)出現(xiàn)各種各樣的路況、場(chǎng)景,如果還按照之前的思路去做人工標(biāo)注,一方面,需要消耗大量的人力成本和時(shí)間,另一方面,則永遠(yuǎn)不可能標(biāo)注完所有場(chǎng)景,就像運(yùn)載著各種貨物的掛車這類交叉組合的特殊場(chǎng)景需要做出不同種類的標(biāo)注,而這種組合幾乎是無窮的。
過去幾年,自然語言處理領(lǐng)域,大模型技術(shù)取得了技術(shù)突破,尤其是GPT這樣的大模型出現(xiàn)以后,大模型具備很強(qiáng)的泛化能力,通過一個(gè)大模型就能解決各類問題。
基于這樣的行業(yè)困境、借鑒自然語言處理領(lǐng)域的經(jīng)驗(yàn),毫末相信大數(shù)據(jù)、大模型會(huì)成為自動(dòng)駕駛領(lǐng)域一種新的解題思路。在技術(shù)路線上,毫末早在2021年初就開始探索將Transformer大模型技術(shù)落地應(yīng)用到自動(dòng)駕駛產(chǎn)品當(dāng)中,同時(shí)也成為國內(nèi)首家研發(fā)落地BEV感知技術(shù)的自動(dòng)駕駛公司,并在2022年4月,率先在國內(nèi)發(fā)布以“重感知”方式實(shí)現(xiàn)的城市NOH導(dǎo)航輔助駕駛產(chǎn)品。2023年4月,基于GPT大模型所具有的生成式、預(yù)訓(xùn)練、人類反饋強(qiáng)化學(xué)習(xí)等技術(shù)優(yōu)勢(shì),毫末將視覺自監(jiān)督大模型、3D重建大模型、多模態(tài)互監(jiān)督大模型、動(dòng)態(tài)環(huán)境大模型、人駕自監(jiān)督認(rèn)知大模型等五大模型進(jìn)行統(tǒng)一升級(jí),發(fā)布了行業(yè)首個(gè)自動(dòng)駕駛生成式大模型DriveGPT雪湖·海若。
DriveGPT的底層模型與ChatGPT一樣,都采用了生成式預(yù)訓(xùn)練模型架構(gòu),使用了大規(guī)模無監(jiān)督的數(shù)據(jù)進(jìn)行初始模型的生成,也都采用了Prompt微調(diào)方式和RLHF人類反饋強(qiáng)化學(xué)習(xí)的方式進(jìn)行模型效果的優(yōu)化;二者的不同之處在于,ChatGPT輸入輸出的自然語言的文本,而DriveGPT輸入輸出分別是歷史場(chǎng)景序列和生成的未來場(chǎng)景序列,ChatGPT主要用于自然語言處理領(lǐng)域,而DriveGPT主要用于自動(dòng)駕駛領(lǐng)域。
據(jù)賀翔介紹,DriveGPT大模型現(xiàn)在分成兩個(gè)階段,一個(gè)階段是更通用、更基礎(chǔ)的能力,即空間計(jì)算能力。另一個(gè)階段是做駕駛決策,即要知道怎么開車。也就是在空間計(jì)算能力之上,再去疊加認(rèn)知決策的能力?!榜{駛決策,這其實(shí)還是一項(xiàng)特殊的技能,需要我們所有人學(xué)開車時(shí)候都要去駕校學(xué)一遍,大模型就相當(dāng)于做(駕駛技能教學(xué))這個(gè)事情。駕駛的技能都需要依賴對(duì)周圍空間的三維感知,這種空間感知能力也是一種通用能力,我們希望這種通用感知能力,能對(duì)接不同的決策模型,完成不同的任務(wù)。例如對(duì)接自動(dòng)駕駛決策模型就可以實(shí)現(xiàn)自動(dòng)駕駛、對(duì)接機(jī)器人決策模型就可以實(shí)現(xiàn)具身機(jī)器人等等?!?/p>
賀翔表示,DriveGPT目前仍然以云端訓(xùn)練和推理的方式為主,但它已可以通過多種方式來賦能車端智駕能力。首先,可以通過多模態(tài)大模型的場(chǎng)景理解能力,進(jìn)行高效數(shù)據(jù)篩選,為車端小模型訓(xùn)練提供所需要的海量極端、困難場(chǎng)景數(shù)據(jù)。“我們的大模型能在幾秒鐘之內(nèi)從百億數(shù)據(jù)里面,通過任意輸入一段自然語言文本,類似人與人之間的自然對(duì)話,把圖片找出來?!?/p>
同時(shí),DriveGPT也具備很強(qiáng)的駕駛場(chǎng)景識(shí)別能力,可以使用這個(gè)能力來進(jìn)行自動(dòng)標(biāo)注?;诤聊〥riveGPT所建立的4D Clips駕駛場(chǎng)景自動(dòng)標(biāo)注方案,可以使得單張圖片的標(biāo)注成本降到0.5元,相較目前行業(yè)平均成本的1/10。毫末目前正在會(huì)將圖像幀及4D Clips自動(dòng)駕駛場(chǎng)景識(shí)別服務(wù)向行業(yè)開放使用,這將大幅降低行業(yè)使用數(shù)據(jù)的成本,提高數(shù)據(jù)質(zhì)量。
在駕駛場(chǎng)景通用感知能力上,DriveGPT對(duì)視覺感知任務(wù)做了全面升級(jí),以恢復(fù)真實(shí)世界的三維結(jié)構(gòu)和紋理分布為目標(biāo),通過構(gòu)建統(tǒng)一的空間計(jì)算Backbone實(shí)現(xiàn)通用視覺感知能力,在一個(gè)大模型中同時(shí)完成圖片紋理、三維結(jié)構(gòu)深度信息、實(shí)體語義信息、實(shí)體跟蹤的學(xué)習(xí),試圖與人腦對(duì)物理世界的感知一樣實(shí)現(xiàn)通用的視覺感知能力。目前,毫末視覺感知訓(xùn)練數(shù)據(jù)集達(dá)到400萬Clips,感知性能提升20%。DriveGPT可以支持單趟或多趟的純視覺NeRF三維重建以及數(shù)據(jù)生成,從而可以構(gòu)造大量自動(dòng)駕駛的corner cases,為行業(yè)提供更低成本、更大規(guī)模的自動(dòng)駕駛能力測(cè)試的仿真環(huán)境,幫助行業(yè)伙伴快速提升自動(dòng)駕駛技術(shù)能力。
除了感知層面,賀翔還分享了在DriveGPT認(rèn)知決策層面的應(yīng)用,當(dāng)前的認(rèn)知決策是把BEV感知結(jié)果作為輸入進(jìn)行駕駛決策訓(xùn)練。但是BEV感知結(jié)果會(huì)丟失很多信息,限制了駕駛決策的上限。DriveGPT則直接將空間計(jì)算Backbone對(duì)接駕駛決策,采用更豐富、更全面的感知信息來訓(xùn)練駕駛決策模型,結(jié)合海量的真實(shí)駕駛數(shù)據(jù)訓(xùn)練,最終實(shí)現(xiàn)端到端自動(dòng)駕駛甚至達(dá)到無人駕駛。
賀翔表示,當(dāng)前,毫末DriveGPT實(shí)現(xiàn)了模型架構(gòu)與參數(shù)規(guī)模的升級(jí),參數(shù)規(guī)模達(dá)到1200億,預(yù)訓(xùn)練階段引入5500多萬公里量產(chǎn)車駕駛數(shù)據(jù),RLHF階段引入5萬段人工精選的困難場(chǎng)景接管 Clips。同時(shí),毫末正在將感知能力融入到DriveGPT大模型訓(xùn)練當(dāng)中,形成一整套的端到端的自動(dòng)駕駛能力模型。DriveGPT也將具備自動(dòng)駕駛的場(chǎng)景理解、場(chǎng)景識(shí)別、場(chǎng)景重建、場(chǎng)景生成能力,以及駕駛能力測(cè)評(píng)等能力。
DriveGPT的出現(xiàn),從底層技術(shù)上顛覆了以往自動(dòng)駕駛認(rèn)知決策過程采用人工規(guī)則、小模型的實(shí)現(xiàn)方式,首次探索以數(shù)據(jù)驅(qū)動(dòng)的大模型方式實(shí)現(xiàn)自動(dòng)駕駛的數(shù)據(jù)篩選、自動(dòng)標(biāo)注、駕駛決策,最終為實(shí)現(xiàn)端到端自動(dòng)駕駛提供可能。
在現(xiàn)場(chǎng)問答環(huán)節(jié),面對(duì)網(wǎng)友“大模型到底能給自動(dòng)駕駛帶來什么樣飛躍”的提問,賀翔解釋說:“我們希望通過大模型非常強(qiáng)大的泛化能力,能夠大規(guī)模提升自動(dòng)駕駛對(duì)于corner case的處理能力,有了這種能力之后,自動(dòng)駕駛可以去任何地方,任何路況,自動(dòng)駕駛的范圍能處理的場(chǎng)景可能比現(xiàn)在大得多?!?/p>
而當(dāng)談到自動(dòng)駕駛的“ChatGPT時(shí)刻”會(huì)在什么時(shí)候到來時(shí),賀翔也給出了自己的看法。在他看來,ChatGPT之所以給了大家如此大的震撼,在于它天然是多面手。但是,一方面,在自動(dòng)駕駛領(lǐng)域里面,不同于ChatGPT只處理文本信號(hào),自動(dòng)駕駛還要處理圖片、點(diǎn)云、交通法規(guī)、地圖、駕駛行為等一系列信息,自動(dòng)駕駛要處理的數(shù)據(jù)模態(tài)更復(fù)雜;另一方面,自動(dòng)駕駛對(duì)模型的輸出精度要求更高、可解釋性要求也更強(qiáng)。面對(duì)這種特別復(fù)雜的模態(tài)、特別高的輸出要求,實(shí)現(xiàn)自動(dòng)駕駛大模型道阻且長(zhǎng),但行則將至。
毫末智行聯(lián)合清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)舉辦的自動(dòng)駕駛精品公開課共分4期,本期課程是第二期。在今年3月舉辦的第一期課程里,來自清華AIR和毫末智行的講師已經(jīng)為近百名業(yè)內(nèi)媒體人介紹了單車智能自動(dòng)駕駛、車路協(xié)同自動(dòng)駕駛和高等級(jí)智能道路建設(shè)等自動(dòng)駕駛技術(shù)發(fā)展,并向大家講解了自動(dòng)駕駛AI技術(shù)基礎(chǔ)原理,以及當(dāng)前大模型在自動(dòng)駕駛的應(yīng)用趨勢(shì)。通過本期自動(dòng)駕駛精品公開課,毫末與清華AIR一同為自動(dòng)駕駛行業(yè)奉獻(xiàn)了一場(chǎng)端到端自動(dòng)駕駛前沿技術(shù)盛筵。未來,還將有清華AIR和毫末智行的老師為大家?guī)碜钋把氐臉I(yè)內(nèi)技術(shù)分享。
如今,國內(nèi)外大模型科研保持著高速迭代的態(tài)勢(shì),各類大模型層出不窮,模型性能不斷提升,創(chuàng)新創(chuàng)業(yè)蓬勃興起,展現(xiàn)了驚人的演進(jìn)速度。相信未來,毫末也將繼續(xù)用技術(shù)賦能自動(dòng)駕駛發(fā)展,攜手更多伙伴,推動(dòng)行業(yè)發(fā)展,一同加速自動(dòng)駕駛的“ChatGPT”時(shí)刻早日到來。
關(guān)鍵詞:
馬克龍?zhí)嶙h對(duì)參與騷亂青少年家庭罰款,作為“初次犯錯(cuò)最低代價(jià)” 全球短訊
【報(bào)道記者張曉雅】據(jù)“今日俄羅斯”(RT)4日?qǐng)?bào)道,法國總統(tǒng)馬克龍?zhí)?
乙酸鈉碳源商品報(bào)價(jià)動(dòng)態(tài)(2023-07-05) 即時(shí)焦點(diǎn)
交易商品牌 產(chǎn)地交貨地最新報(bào)價(jià)乙酸鈉碳源 含量25%河南順之邦環(huán)??萍?
全球滾動(dòng):別讓收益飛走:散戶利用股票量化的策略秘籍
在這股市的賭局中,我曾是一個(gè)小船,在風(fēng)浪中搖擺,卻沒有目的地。我看
吉林拉升避暑消費(fèi)“涼動(dòng)能” 資訊
新華社長(zhǎng)春7月4日電題:吉林拉升避暑消費(fèi)“涼動(dòng)能”新華社記者王昊飛、
抓早、抓小、抓苗頭……棗莊嶧城公安深化“柔性調(diào)解”
齊魯網(wǎng)·閃電新聞7月5日訊為推動(dòng)“創(chuàng)優(yōu)創(chuàng)滿”工作走深走實(shí),連日來,棗
關(guān)于我們 加入我們 聯(lián)系我們 商務(wù)合作 粵ICP備2022077823號(hào)
創(chuàng)氪網(wǎng) www.utyutyu.com 版權(quán)所有 技術(shù)支持:廣州中創(chuàng)互聯(lián)網(wǎng)信息服務(wù)有限公司
投稿投訴聯(lián)系郵箱:317 493 128 @qq.com