一張圖片生成3D世界，對于汽車意味著什么？

2024-12-24 14:17:53

12月3日，由人工智能科學(xué)家李飛飛創(chuàng)立的科技公司W(wǎng)orld Labs推出了第一個項(xiàng)目，僅通過一張圖片，就能將圖中的場景三維化，生成的場景符合基本空間原理和物理定律，用戶可以在生成的空間內(nèi)移動，轉(zhuǎn)換視角。

他們稱之為大世界模型（Large World Model，LWM）。

李飛飛表示，大型世界模型只是 Worlds Labs公司的第一步，后面他們準(zhǔn)備把場景設(shè)計融入 AR、機(jī)器人甚至自動駕駛。

2天后，Google DeepMind發(fā)布Genie2，也展示了其可根據(jù)單圖生成無限3D世界，用于AI游戲及智能體訓(xùn)練，這就意味著它可以模擬虛擬世界，帶來了物體交互、復(fù)雜角色動畫、物理以及建模和預(yù)測其他智能體行為的潛力能力。

又5天后，在OpenAI發(fā)布會直播第3天，此前被稱為理解和模擬現(xiàn)實(shí)的基礎(chǔ)性AI技術(shù)，邁出開發(fā)能夠與物理世界互動模型重要一步的Sora，推出了Sora Turbo，在模擬運(yùn)動中的物理世界時，進(jìn)一步增強(qiáng)了它的可編輯能力。

2018年，世界模型的概念開始被廣泛提及，科學(xué)家指出，人類使用有限的感官感知世界，并基于這些感知建立起一個內(nèi)部的、簡化的世界模型，這個簡化的模型不僅幫助我們理解世界，更重要的，我們還會根據(jù)這個頭腦中的簡化世界決定預(yù)測未來走向。

而計算機(jī)領(lǐng)域的世界模型不僅包括觀察、狀態(tài)估計、動作建議和潛在變量建議四大核心元素，也采用了類似的思維模式，即在有限的、有選擇性的信息基礎(chǔ)上進(jìn)行有效的決策和預(yù)測。

世界模型將會如何改變這個世界，對于身處變革中的智能汽車又意味著什么？

智能座艙：從被動到主動預(yù)測和推薦

隨著越來越多產(chǎn)品升級為高通8295芯片，以及AR-HUD的普及，3D HMI正在成為智能座艙發(fā)展的新趨勢之一。

從3D車模到3D的場景構(gòu)建，到最終可能會演變的全3D架構(gòu)，用戶正在以3D的方式探索整個座艙的場景，實(shí)現(xiàn)多視角切換。一鏡到底的場景變化，這種更加直接并具有連貫性的體驗(yàn)，正在顛覆整個座艙交互的方式和信息呈現(xiàn)的方式。

而汽車座艙的另一個變化，就是AI在智能座艙的快速應(yīng)用和能力拓展，它正在重新構(gòu)建視覺、聽覺、語義等多模態(tài)融合的全新體驗(yàn)。

當(dāng)前，雖然世界模型尚不成熟，但是它已經(jīng)預(yù)示了很多的可能。

汽車商業(yè)評論了解到，今天AI在座艙的能力大多還是基于AI算法的擬合，也就是依賴于人提供大量的算法和數(shù)據(jù)進(jìn)行訓(xùn)練，AI并沒有真正的理解座艙內(nèi)這個小世界的物理規(guī)律，也就無法主動預(yù)測用戶行為。

但如果世界模型能夠上車，打造成為座艙世界模型，就意味著車輛通過對外界環(huán)境的聲音、光線、溫度、位置、人體眼神、動作等信息的感知，能夠知道外面是在刮風(fēng)，還是在下雨，人什么時候會熱，什么時候會冷。

它從一定概率的擬合轉(zhuǎn)向成一種精確的計算，把人當(dāng)做其中一個變量，在這個世界模型里去運(yùn)行，主動調(diào)整車內(nèi)的溫度和濕度，包括聲音、光線等，不僅讓人保持最舒適、最愉悅、最高效的狀態(tài)，也實(shí)現(xiàn)了在3D世界的沉浸。

它帶來的的最大的價值點(diǎn)就在于，座艙未來會從被動接受指令，到主動推薦和預(yù)測，并且會更加精準(zhǔn)。同時，將人、車、外部環(huán)境的眾多感知信息相融合，真正將座艙拓展為千人千面。

智能駕駛：更快、更省、更安全

2024年，自動駕駛端到端大模型成為了車企開始競逐的新焦點(diǎn)，它取代了此前用于感知、描述、預(yù)測以及規(guī)劃的多個模塊，讓自動駕駛以深度學(xué) 和人工智能為基礎(chǔ)，通過統(tǒng)一的神經(jīng)網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)環(huán)境感知到車輛控制的全流程自動化，更接近人類的真實(shí)駕駛。

而端到端大模型的潛力和能力挖掘，以及未來競爭的核心就在于誰的數(shù)據(jù)規(guī)模更大、誰的訓(xùn)練能力更強(qiáng)，誰的跨域融合應(yīng)用能力更出眾。

蔚來汽車曾在它的蔚來世界模型NWM的描述中表示，它能夠在0.1秒內(nèi)推演出216種車輛可能發(fā)生的軌跡，尋找最佳決策。然后在接下來的0.1秒內(nèi)，根據(jù)外界的信息輸入，重復(fù)更新內(nèi)在時空的模型，再去預(yù)測216種可能性。以此循環(huán)，跟隨駕駛軌跡持續(xù)預(yù)測，得到駕駛的最優(yōu)解。

因此，世界模型為自動駕駛訓(xùn)練構(gòu)建了更低成本、更快開發(fā)速度、以及復(fù)雜場景訓(xùn)練的可能。

首先，傳統(tǒng)的自動駕駛訓(xùn)練依賴大量的實(shí)際道路測試數(shù)據(jù)來構(gòu)建場景，但世界模型能夠通過學(xué) 和生成，構(gòu)建出更加豐富多樣的虛擬駕駛場景，包括一些罕見的、難以在實(shí)際中頻繁遇到的特殊場景和邊緣情況，如極端天氣條件下的駕駛場景、復(fù)雜交通流中的特殊事件等，為自動駕駛模型提供更全面的訓(xùn)練數(shù)據(jù)，從而提升其在各種場景下的應(yīng)對能力。

其次，世界模型增強(qiáng)態(tài)勢感知與決策能力。

世界模型可以模擬真實(shí)世界環(huán)境的動態(tài)變化，理解各元素之間的關(guān)聯(lián)和因果關(guān)系，提前預(yù)判整個場景的演變。

第三，世界模型可以提高訓(xùn)練效率與降低成本。

基于世界模型的仿真平臺相較于傳統(tǒng)的單一道路測試，能夠更加精準(zhǔn)地滿足日益增長的模擬需求，大幅削減重復(fù)采集和分析工作，按照需求快速生成特定場景，有效提高算法的精準(zhǔn)度和迭代效率，從而縮短自動駕駛技術(shù)的研發(fā)周期，降低研發(fā)成本，加速其商業(yè)化應(yīng)用的進(jìn)程。

雖然，當(dāng)下的世界模型尚不成熟，但對于汽車真正成為人們的智能出行伴侶或者移動智能機(jī)器人的美好想象來說，越來越多科技公司的技術(shù)推動和演進(jìn)，讓這個夢想又向前了一步。

點(diǎn)擊展開全文

【版權(quán)聲明】汽車時代網(wǎng)提醒您：請在瀏覽本網(wǎng)站關(guān)于【一張圖片生成3D世界，對于汽車意味著什么？】信息時,請您務(wù)必閱讀并理解本聲明。本站部分內(nèi)容以及圖片來源于商家投稿和網(wǎng)絡(luò)轉(zhuǎn)載，如網(wǎng)站發(fā)布的有關(guān)的信息侵犯到您的權(quán)益，請及時與我們?nèi)〉寐?lián)系，我們會尊重您的決定并當(dāng)天作出處理。

相關(guān)資訊

[汽車新聞]一張圖片生成3D世界，對于汽車意味著什么？

12月3日，由人工智能科學(xué)家李飛飛創(chuàng)立的科技公司W(wǎng)orld Labs推出了第一個項(xiàng)目，僅通過一張圖片，就能將圖中的場景三維化，生成的場景符合... 查看全文》

來源：汽車時代網(wǎng)

2024-12-24 14:17:53

一張圖片生成3D世界，對于汽車意味著什么？

一張圖片生成3D世界，對于汽車意味著什么？