①近日,英偉達發(fā)布物理AI大模型Cosmos,能夠預(yù)測倉庫、路況等環(huán)境以訓(xùn)練機器人; ②據(jù)英偉達披露名單,Cosmos首批用戶包括1X、Agility、Figure AI、小鵬汽車等廠商; ③券商認(rèn)為,在人形機器人訓(xùn)練數(shù)據(jù)的收集方式中,合成數(shù)據(jù)將大大促進機器人發(fā)展。
《科創(chuàng)板日報》1月8日訊 被谷歌、OpenAI、微軟等全球頂尖科技大廠紛紛看好的具身智能,正加速迎來它的ChatGPT時刻。
近日,英偉達掌門人黃仁勛在CES演講上正式推出物理AI大模型Cosmos。據(jù)介紹,這款模型使開發(fā)者能夠根據(jù)文本、圖像和視頻等輸入組合以及機器人傳感器或運動數(shù)據(jù)生成基于物理學(xué)的視頻,實現(xiàn)對現(xiàn)實環(huán)境(如倉庫、工廠、交通路況等)的預(yù)測,從而完成對機器人和自動駕駛汽車的訓(xùn)練。
所謂物理AI大模型,即是世界基礎(chǔ)模型,其能夠理解世界語言、物理特性、空間位置等要素,并合成相關(guān)物理數(shù)據(jù)。是加速智能汽車、具身智能等AI終端普及的關(guān)鍵所在。相較于ChatGPT等大語言模型的飛躍式進程,世界模型仍處于較為早期的階段。其普遍面臨開發(fā)成本高、無法持續(xù)遵守物理規(guī)則等問題。
值得一提的是,此次英偉達發(fā)布的Cosmos將以開源的形式發(fā)布。根據(jù)其披露的名單,首批用戶包括1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot,、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi 和小鵬汽車等十余個國內(nèi)外機器人和汽車廠商。
事實上,英偉達采用逼真物理環(huán)境對機器人進行訓(xùn)練的嘗試可以追溯至2024年6月,當(dāng)時其運用仿真框架RoboCasa,提供了超過150個物體類別的數(shù)千個3D模型和數(shù)十種可交互的家具和家電。在相關(guān)實驗中,證明了合成物理數(shù)據(jù)在機器人訓(xùn)練中的有效性。
黃仁勛表示,“世界基礎(chǔ)模型是推動機器人和自動駕駛汽車開發(fā)的基礎(chǔ),但并非所有開發(fā)者都擁有自主訓(xùn)練模型所需的專業(yè)知識和資源。我們創(chuàng)建Cosmos是為了普及物理AI,讓每一位開發(fā)者都能接觸到通用機器人技術(shù)?!?/p>
截至目前,已有數(shù)個公司推出世界基礎(chǔ)模型。2024年12月5日,谷歌發(fā)布大型基礎(chǔ)世界模型Genie2,可生成較為逼真的3D世界;同年9月,1XTechnologies發(fā)布人形機器人世界模型,可以模擬出機器人在不同動作下的未來場景。
此外,視頻生成模型也被視作通往世界基礎(chǔ)模型的路徑之一。在視頻生成領(lǐng)域,Sora、Runway等均表達了希望進軍世界模型的想法。開源證券指出,視頻生成和世界模型均有諸多相似之處,均將復(fù)雜外部世界獲取的數(shù)據(jù)進行編碼和壓縮、抽象成為低維度的向量,并采用Transformer或者其他模型在時空維度學(xué)習(xí)這些知識進而實現(xiàn)預(yù)測。
華泰證券今日研報指出,受到文本大模型的啟發(fā),人形機器人也開始構(gòu)建具身大模型,首當(dāng)其沖的便是解決數(shù)據(jù)問題。自動駕駛可簡化為3D空間中的2D運動,而機器人是3D空間中的3D運動,還需包括力觸覺等信息,因此理論上機器人所需數(shù)據(jù)量高于自動駕駛。目前,人形機器人訓(xùn)練數(shù)據(jù)的收集主要依賴三種方式:
采集真機數(shù)據(jù),例如人穿戴動作捕捉服,這種方式數(shù)據(jù)質(zhì)量好,但采集成本高速度慢;
利用仿真環(huán)境生成合成數(shù)據(jù),再對機器人進行訓(xùn)練;
根據(jù)現(xiàn)有的互聯(lián)網(wǎng)視頻捕捉動作數(shù)據(jù),雖然不需要構(gòu)建仿真物理引擎,但涉及復(fù)雜的坐標(biāo)轉(zhuǎn)換和缺少力觸覺等信息維度。
華泰證券認(rèn)為,在上述三種方式中,合成數(shù)據(jù)將大大促進機器人發(fā)展,學(xué)界已經(jīng)證明了上述方式的可行性,機器人大腦已迎來ChatGPT時刻。