12月3日,由人工智能科學(xué)家李飛飛創(chuàng)立的科技公司W(wǎng)orld Labs推出了第一個項(xiàng)目,僅通過一張圖片,就能將圖中的場景三維化,生成的場景符合基本空間原理和物理定律,用戶可以在生成的空間內(nèi)移動,轉(zhuǎn)換視角。
他們稱之為大世界模型(Large World Model,LWM)。
李飛飛表示,大型世界模型只是 Worlds Labs公司的第一步,后面他們準(zhǔn)備把場景設(shè)計融入 AR、機(jī)器人甚至自動駕駛。
2天后,Google DeepMind發(fā)布Genie2,也展示了其可根據(jù)單圖生成無限3D世界,用于AI游戲及智能體訓(xùn)練,這就意味著它可以模擬虛擬世界,帶來了物體交互、復(fù)雜角色動畫、物理以及建模和預(yù)測其他智能體行為的潛力能力。
又5天后,在OpenAI發(fā)布會直播第3天,此前被稱為理解和模擬現(xiàn)實(shí)的基礎(chǔ)性AI技術(shù),邁出開發(fā)能夠與物理世界互動模型重要一步的Sora,推出了Sora Turbo,在模擬運(yùn)動中的物理世界時,進(jìn)一步增強(qiáng)了它的可編輯能力。
2018年,世界模型的概念開始被廣泛提及,科學(xué)家指出,人類使用有限的感官感知世界,并基于這些感知建立起一個內(nèi)部的、簡化的世界模型,這個簡化的模型不僅幫助我們理解世界,更重要的,我們還會根據(jù)這個頭腦中的簡化世界決定預(yù)測未來走向。
而計算機(jī)領(lǐng)域的世界模型不僅包括觀察、狀態(tài)估計、動作建議和潛在變量建議四大核心元素,也采用了類似的思維模式,即在有限的、有選擇性的信息基礎(chǔ)上進(jìn)行有效的決策和預(yù)測。
世界模型將會如何改變這個世界,對于身處變革中的智能汽車又意味著什么?
智能座艙:從被動到主動預(yù)測和推薦
隨著越來越多產(chǎn)品升級為高通8295芯片,以及AR-HUD的普及,3D HMI正在成為智能座艙發(fā)展的新趨勢之一。
從3D車模到3D的場景構(gòu)建,到最終可能會演變的全3D架構(gòu),用戶正在以3D的方式探索整個座艙的場景,實(shí)現(xiàn)多視角切換。一鏡到底的場景變化,這種更加直接并具有連貫性的體驗(yàn),正在顛覆整個座艙交互的方式和信息呈現(xiàn)的方式。
而汽車座艙的另一個變化,就是AI在智能座艙的快速應(yīng)用和能力拓展,它正在重新構(gòu)建視覺、聽覺、語義等多模態(tài)融合的全新體驗(yàn)。
當(dāng)前,雖然世界模型尚不成熟,但是它已經(jīng)預(yù)示了很多的可能。
汽車商業(yè)評論了解到,今天AI在座艙的能力大多還是基于AI算法的擬合,也就是依賴于人提供大量的算法和數(shù)據(jù)進(jìn)行訓(xùn)練,AI并沒有真正的理解座艙內(nèi)這個小世界的物理規(guī)律,也就無法主動預(yù)測用戶行為。
但如果世界模型能夠上車,打造成為座艙世界模型,就意味著車輛通過對外界環(huán)境的聲音、光線、溫度、位置、人體眼神、動作等信息的感知,能夠知道外面是在刮風(fēng),還是在下雨,人什么時候會熱,什么時候會冷。
它從一定概率的擬合轉(zhuǎn)向成一種精確的計算,把人當(dāng)做其中一個變量,在這個世界模型里去運(yùn)行,主動調(diào)整車內(nèi)的溫度和濕度,包括聲音、光線等,不僅讓人保持最舒適、最愉悅、最高效的狀態(tài),也實(shí)現(xiàn)了在3D世界的沉浸。
它帶來的的最大的價值點(diǎn)就在于,座艙未來會從被動接受指令,到主動推薦和預(yù)測,并且會更加精準(zhǔn)。同時,將人、車、外部環(huán)境的眾多感知信息相融合,真正將座艙拓展為千人千面。
智能駕駛:更快、更省、更安全
2024年,自動駕駛端到端大模型成為了車企開始競逐的新焦點(diǎn),它取代了此前用于感知、描述、預(yù)測以及規(guī)劃的多個模塊,讓自動駕駛以深度學(xué) 和人工智能為基礎(chǔ),通過統(tǒng)一的神經(jīng)網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)環(huán)境感知到車輛控制的全流程自動化,更接近人類的真實(shí)駕駛。
而端到端大模型的潛力和能力挖掘,以及未來競爭的核心就在于誰的數(shù)據(jù)規(guī)模更大、誰的訓(xùn)練能力更強(qiáng),誰的跨域融合應(yīng)用能力更出眾。
蔚來汽車曾在它的蔚來世界模型NWM的描述中表示,它能夠在0.1秒內(nèi)推演出216種車輛可能發(fā)生的軌跡,尋找最佳決策。然后在接下來的0.1秒內(nèi),根據(jù)外界的信息輸入,重復(fù)更新內(nèi)在時空的模型,再去預(yù)測216種可能性。以此循環(huán),跟隨駕駛軌跡持續(xù)預(yù)測,得到駕駛的最優(yōu)解。
因此,世界模型為自動駕駛訓(xùn)練構(gòu)建了更低成本、更快開發(fā)速度、以及復(fù)雜場景訓(xùn)練的可能。
首先,傳統(tǒng)的自動駕駛訓(xùn)練依賴大量的實(shí)際道路測試數(shù)據(jù)來構(gòu)建場景,但世界模型能夠通過學(xué) 和生成,構(gòu)建出更加豐富多樣的虛擬駕駛場景,包括一些罕見的、難以在實(shí)際中頻繁遇到的特殊場景和邊緣情況,如極端天氣條件下的駕駛場景、復(fù)雜交通流中的特殊事件等,為自動駕駛模型提供更全面的訓(xùn)練數(shù)據(jù),從而提升其在各種場景下的應(yīng)對能力。
其次,世界模型增強(qiáng)態(tài)勢感知與決策能力。
世界模型可以模擬真實(shí)世界環(huán)境的動態(tài)變化,理解各元素之間的關(guān)聯(lián)和因果關(guān)系,提前預(yù)判整個場景的演變。
第三,世界模型可以提高訓(xùn)練效率與降低成本。
基于世界模型的仿真平臺相較于傳統(tǒng)的單一道路測試,能夠更加精準(zhǔn)地滿足日益增長的模擬需求,大幅削減重復(fù)采集和分析工作,按照需求快速生成特定場景,有效提高算法的精準(zhǔn)度和迭代效率,從而縮短自動駕駛技術(shù)的研發(fā)周期,降低研發(fā)成本,加速其商業(yè)化應(yīng)用的進(jìn)程。
雖然,當(dāng)下的世界模型尚不成熟,但對于汽車真正成為人們的智能出行伴侶或者移動智能機(jī)器人的美好想象來說,越來越多科技公司的技術(shù)推動和演進(jìn),讓這個夢想又向前了一步。