分站>>
汽車時代網(wǎng)

一張圖片生成3D世界,對于汽車意味著什么?

2024-12-24 14:17:53

12月3日,由人工智能科學(xué)家李飛飛創(chuàng)立的科技公司W(wǎng)orld Labs推出了第一個項(xiàng)目,僅通過一張圖片,就能將圖中的場景三維化,生成的場景符合基本空間原理和物理定律,用戶可以在生成的空間內(nèi)移動,轉(zhuǎn)換視角。

他們稱之為大世界模型(Large World Model,LWM)。

李飛飛表示,大型世界模型只是 Worlds Labs公司的第一步,后面他們準(zhǔn)備把場景設(shè)計融入 AR、機(jī)器人甚至自動駕駛。

2天后,Google DeepMind發(fā)布Genie2,也展示了其可根據(jù)單圖生成無限3D世界,用于AI游戲及智能體訓(xùn)練,這就意味著它可以模擬虛擬世界,帶來了物體交互、復(fù)雜角色動畫、物理以及建模和預(yù)測其他智能體行為的潛力能力。

又5天后,在OpenAI發(fā)布會直播第3天,此前被稱為理解和模擬現(xiàn)實(shí)的基礎(chǔ)性AI技術(shù),邁出開發(fā)能夠與物理世界互動模型重要一步的Sora,推出了Sora Turbo,在模擬運(yùn)動中的物理世界時,進(jìn)一步增強(qiáng)了它的可編輯能力。

2018年,世界模型的概念開始被廣泛提及,科學(xué)家指出,人類使用有限的感官感知世界,并基于這些感知建立起一個內(nèi)部的、簡化的世界模型,這個簡化的模型不僅幫助我們理解世界,更重要的,我們還會根據(jù)這個頭腦中的簡化世界決定預(yù)測未來走向。

而計算機(jī)領(lǐng)域的世界模型不僅包括觀察、狀態(tài)估計、動作建議和潛在變量建議四大核心元素,也采用了類似的思維模式,即在有限的、有選擇性的信息基礎(chǔ)上進(jìn)行有效的決策和預(yù)測。

世界模型將會如何改變這個世界,對于身處變革中的智能汽車又意味著什么?

智能座艙:從被動到主動預(yù)測和推薦

隨著越來越多產(chǎn)品升級為高通8295芯片,以及AR-HUD的普及,3D HMI正在成為智能座艙發(fā)展的新趨勢之一。

從3D車模到3D的場景構(gòu)建,到最終可能會演變的全3D架構(gòu),用戶正在以3D的方式探索整個座艙的場景,實(shí)現(xiàn)多視角切換。一鏡到底的場景變化,這種更加直接并具有連貫性的體驗(yàn),正在顛覆整個座艙交互的方式和信息呈現(xiàn)的方式。

而汽車座艙的另一個變化,就是AI在智能座艙的快速應(yīng)用和能力拓展,它正在重新構(gòu)建視覺、聽覺、語義等多模態(tài)融合的全新體驗(yàn)。

當(dāng)前,雖然世界模型尚不成熟,但是它已經(jīng)預(yù)示了很多的可能。

汽車商業(yè)評論了解到,今天AI在座艙的能力大多還是基于AI算法的擬合,也就是依賴于人提供大量的算法和數(shù)據(jù)進(jìn)行訓(xùn)練,AI并沒有真正的理解座艙內(nèi)這個小世界的物理規(guī)律,也就無法主動預(yù)測用戶行為。

但如果世界模型能夠上車,打造成為座艙世界模型,就意味著車輛通過對外界環(huán)境的聲音、光線、溫度、位置、人體眼神、動作等信息的感知,能夠知道外面是在刮風(fēng),還是在下雨,人什么時候會熱,什么時候會冷。

它從一定概率的擬合轉(zhuǎn)向成一種精確的計算,把人當(dāng)做其中一個變量,在這個世界模型里去運(yùn)行,主動調(diào)整車內(nèi)的溫度和濕度,包括聲音、光線等,不僅讓人保持最舒適、最愉悅、最高效的狀態(tài),也實(shí)現(xiàn)了在3D世界的沉浸。

它帶來的的最大的價值點(diǎn)就在于,座艙未來會從被動接受指令,到主動推薦和預(yù)測,并且會更加精準(zhǔn)。同時,將人、車、外部環(huán)境的眾多感知信息相融合,真正將座艙拓展為千人千面。

智能駕駛:更快、更省、更安全

2024年,自動駕駛端到端大模型成為了車企開始競逐的新焦點(diǎn),它取代了此前用于感知、描述、預(yù)測以及規(guī)劃的多個模塊,讓自動駕駛以深度學(xué)   和人工智能為基礎(chǔ),通過統(tǒng)一的神經(jīng)網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)環(huán)境感知到車輛控制的全流程自動化,更接近人類的真實(shí)駕駛。

而端到端大模型的潛力和能力挖掘,以及未來競爭的核心就在于誰的數(shù)據(jù)規(guī)模更大、誰的訓(xùn)練能力更強(qiáng),誰的跨域融合應(yīng)用能力更出眾。

蔚來汽車曾在它的蔚來世界模型NWM的描述中表示,它能夠在0.1秒內(nèi)推演出216種車輛可能發(fā)生的軌跡,尋找最佳決策。然后在接下來的0.1秒內(nèi),根據(jù)外界的信息輸入,重復(fù)更新內(nèi)在時空的模型,再去預(yù)測216種可能性。以此循環(huán),跟隨駕駛軌跡持續(xù)預(yù)測,得到駕駛的最優(yōu)解。

因此,世界模型為自動駕駛訓(xùn)練構(gòu)建了更低成本、更快開發(fā)速度、以及復(fù)雜場景訓(xùn)練的可能。

首先,傳統(tǒng)的自動駕駛訓(xùn)練依賴大量的實(shí)際道路測試數(shù)據(jù)來構(gòu)建場景,但世界模型能夠通過學(xué)   和生成,構(gòu)建出更加豐富多樣的虛擬駕駛場景,包括一些罕見的、難以在實(shí)際中頻繁遇到的特殊場景和邊緣情況,如極端天氣條件下的駕駛場景、復(fù)雜交通流中的特殊事件等,為自動駕駛模型提供更全面的訓(xùn)練數(shù)據(jù),從而提升其在各種場景下的應(yīng)對能力。

其次,世界模型增強(qiáng)態(tài)勢感知與決策能力。

世界模型可以模擬真實(shí)世界環(huán)境的動態(tài)變化,理解各元素之間的關(guān)聯(lián)和因果關(guān)系,提前預(yù)判整個場景的演變。

第三,世界模型可以提高訓(xùn)練效率與降低成本。

基于世界模型的仿真平臺相較于傳統(tǒng)的單一道路測試,能夠更加精準(zhǔn)地滿足日益增長的模擬需求,大幅削減重復(fù)采集和分析工作,按照需求快速生成特定場景,有效提高算法的精準(zhǔn)度和迭代效率,從而縮短自動駕駛技術(shù)的研發(fā)周期,降低研發(fā)成本,加速其商業(yè)化應(yīng)用的進(jìn)程。

雖然,當(dāng)下的世界模型尚不成熟,但對于汽車真正成為人們的智能出行伴侶或者移動智能機(jī)器人的美好想象來說,越來越多科技公司的技術(shù)推動和演進(jìn),讓這個夢想又向前了一步。

【版權(quán)聲明】汽車時代網(wǎng)提醒您:請在瀏覽本網(wǎng)站關(guān)于【一張圖片生成3D世界,對于汽車意味著什么?】信息時,請您務(wù)必閱讀并理解本聲明。本站部分內(nèi)容以及圖片來源于商家投稿和網(wǎng)絡(luò)轉(zhuǎn)載,如網(wǎng)站發(fā)布的有關(guān)的信息侵犯到您的權(quán)益,請及時與我們?nèi)〉寐?lián)系,我們會尊重您的決定并當(dāng)天作出處理。
相關(guān)資訊
12月3日,由人工智能科學(xué)家李飛飛創(chuàng)立的科技公司W(wǎng)orld Labs推出了第一個項(xiàng)目,僅通過一張圖片,就能將圖中的場景三維化,生成的場景符合... 查看全文》
來源:汽車時代網(wǎng)
2024-12-24 14:17:53