通用大腦+通用本體的融合是構(gòu)建通用人形機器人的范式。
據(jù)IPO早知道消息,在2025世界機器人大會(WRC)主論壇上,北京星動紀元科技有限公司創(chuàng)始人陳建宇發(fā)表了題為《構(gòu)建通用人形機器人》的演講,分享了星動紀元打造通用人形機器人的思路——將通用大腦與通用本體相結(jié)合,同時強調(diào)向人類學習是實現(xiàn)通用人形機器人的最短路徑。
在陳建宇看來,之所以其認為最短的路徑就是直接向人學習,是因為人類是現(xiàn)實世界中唯一存在的通用具身智能體。
“我們的語言模型為什么成功,正是因為它借鑒了人類語言的學習過程,從海量人類文本中學習而來?!标惤ㄓ钫f道,“機器人涉及維度更廣,因此需要構(gòu)建人的通用大腦,不光要有語言功能,還要有能控制雙手、雙腿在物理世界中交互的功能,同時我們還要構(gòu)建與它匹配的通用本體。”
陳建宇進一步指出,通用大腦+通用本體的融合是構(gòu)建通用人形機器人的范式,再通過場景和數(shù)據(jù)形成物理世界AI進化飛輪。即是在頂層構(gòu)建統(tǒng)一模型,該模型可通用賦能各類人形機器人本體(包括靈巧手),而不同本體適配不同場景,場景應用又會反饋數(shù)據(jù)形成不斷迭代進化的閉環(huán)飛輪。
在大腦端,星動紀元已發(fā)布了一款ERA-42通用大腦模型,其集視覺、理解、預測、行動為一體,實現(xiàn)同一個端到端VLA模型控制高自由度人形機器人的全身靈巧操作,語音命令即可完成上百種復雜操作,包括柔性物品分揀、掃碼,使用螺釘槍、移液器等。此外,星動紀元還構(gòu)建了物理世界AI “模型-本體-場景數(shù)據(jù)”進化飛輪的正向循環(huán)。
在本體側(cè),星動紀元全棧自研關(guān)節(jié)模組、靈巧手、電機、減速器、控制器等核心零部件,實現(xiàn)供應鏈的垂直整合及穩(wěn)定可控,以保障產(chǎn)品的高質(zhì)量高效交付。
截至目前,星動紀元已推出了國內(nèi)首個同時實現(xiàn)“大運動+巧操作”的全尺寸雙足人形機器人「星動L7」,性能甚至超越特斯拉Optimus,其也是國內(nèi)首個由VLA大模型驅(qū)動、具備全身55個自由度的雙足人形機器人,將應用在工業(yè)、商服等場景;而超擬人服務機器人「星動Q5」則面向商場導購、文旅講解、企業(yè)接待、醫(yī)療養(yǎng)老、家庭服務、學校教育等場景,并已與海爾智家、世紀金源、天悅酒店等企業(yè)達成戰(zhàn)略簽約,意向訂單超百單。
星動紀元與海爾聯(lián)合研發(fā)的家庭管家“HIVA 海娃”
值得一提的是,星動紀元今年已交付超300臺產(chǎn)品,另有上百訂單量產(chǎn)交付中;全球市值TOP 10的科技巨頭中,9家為星動紀元客戶;而在全球化布局方面,星動紀元已率先布局業(yè)務出海——自年初布局以來,星動紀元海外市場占比已超過50%。
在本屆WRC期間,星動紀元創(chuàng)始人、清華大學交叉信息研究院助理教授陳建宇向「IPO早知道」等分享了星動紀元打造通用人形機器人的思路、以及對人形機器人行業(yè)的最新思考。
以下系經(jīng)「IPO早知道」整理的對話精選:
Q:目前很多公司將自己定位成“軟硬一體”。星動紀元的靈巧手已經(jīng)做得很好了,VLA能力也相當不錯,你們是怎么定義自己的?
陳建宇:我們從Day One開始就堅持“軟硬一體”的路徑——一開始我們先從造雙腿以及做locamotion開始,但當時就做了一個完整的人形,模型、運動控制就直接做端到端的模型;到后面我們逐步把雙手做出來了,這是一定要做的,因為雙手其實相比雙腿更重要一些,所有的干活都是靠雙手完成,雙腿最重要的作用是把雙手運到可以干活的地方。雙手的難度確實更高一些,其實我們的一只手可能跟很多人形機器人的自由度差不多了。一方面要集成到很小的一塊,另一方面還要保證到它的性能,這對模型也是很大的挑戰(zhàn),相當于端到端控制每個手指的動作,我們一直朝著這個方向努力。
整體來講,在軟件這塊、比如說VLA模型,我們基本上算是國內(nèi)在這方面研究時間最長、發(fā)表相應論文或者成果最豐富的一個團隊。在硬件端,我們一方面在形態(tài)上面完全有能力做最完整的雙手和雙足機器人,同時我們也是非常少能夠在整機里面,比如我們的靈巧手還能夠產(chǎn)品化出售的。同時,所有的核心零部件都是我們完全自主設(shè)計的。所以說,在軟、硬兩方面我們都扎得比較深。
Q:所以本體和大腦一起做會比較好一些?
陳建宇:我覺得在這個階段一定是本體和大腦同時做比較好。
這個階段軟件和硬件還是耦合得非常深的,從設(shè)計端到試驗階段,很難說有一款標準本體,或者一個標準大腦能夠隨便放在一個本體,所以在這個階段去做軟硬一體,同時再進一步延伸,甚至我們的商業(yè)化探索也是一體去做,盡快把這個閉環(huán)形成是更重要的事情。
Q:在各家本體還沒有統(tǒng)一的情況下,訓練出來的數(shù)據(jù)和成果在復用性和泛化性方面怎么解決?
陳建宇:這確實是一個難題。畢竟不同的機器人可能自由度都不一樣,模型的輸出維度都不一樣,包括傳感的類型可能也不一樣。所以對我們來說,我們的解決方案是:
在預訓練階段,我們盡量使用跟具體本體無關(guān),也就是不是從真機上面采集的數(shù)據(jù),比如說采取人的數(shù)據(jù)、視頻截取的方式;之后在真機的調(diào)整上面會有這么一個規(guī)律,如果說你的形態(tài)相對比較接近的話,它的遷移成果就比較好,這時候我們想通過人形的方式,因為我們可以把人的行為、視頻的數(shù)據(jù)更好地遷移過來。
而當我們的機器人迭代之后,如果都是類似人形、只是胳膊顏色換了、自由度換了的話,它可以比較好地遷移。我們在實驗中發(fā)現(xiàn),比如上一代機器人到下一代機器人,實際上胳膊的構(gòu)型還是有挺大的改變,顏色從黑色換成白色等等,但是我們發(fā)現(xiàn)模型完全沒有收集任何新的數(shù)據(jù),就直接拿原有的模型、沒有做任何的微調(diào),它也能干同樣的事兒,只不過成功率稍微受到一些損失。
所以這樣我們就能看出,如果說類似的人形機器人的形態(tài),它的遷移還是不錯的。但直接從人形遷移到四足上,或者從機器狗遷移到人形上,這可能就不行,從單臂遷移到雙臂上面,這可能也不行。
Q:目前整體來講是“軟件定義硬件”還是“硬件定義軟件”?
陳建宇:我覺得整體來說還是軟件定義硬件。
對于模型建模,都是通過一個抽象的方式建模,它能夠適配到各種各樣不同的硬件上。當然,我的數(shù)據(jù)可能跟硬件是綁定的,特別是真機的數(shù)據(jù)是跟硬件綁定的,但模型是能通用在各種各樣不同的硬件上面。比如說我們的模型和算法,一定程度要去考慮硬件怎么設(shè)計,會影響它的性能發(fā)揮,因為硬件會決定我們模型發(fā)揮能力的上限。一個是取決于我們想做怎么樣的場景工作,比如對于操作來說,一些復雜的工具使用類的,我可能就需要用到靈巧手;比如怎么造靈巧手,為什么我們采取直驅(qū)的方式?因為直驅(qū)有兩個好處,非常重要的一點是直驅(qū)響應非常快,響應非常快了之后數(shù)據(jù)就可以收集得更加精準,質(zhì)量更高。同時,直驅(qū)的方式對強化學習也更有好處,因為它在仿真里面建模是能夠更加準確的,所以一開始我們用了這樣一個方式去做,很大程度上是考慮了AI模型算法的做法。
Q:今天AI領(lǐng)域都在講開源,你們其實也有開源。
陳建宇:我們2024年年初的時候就推出了全球第一個做出運控強化學習并且公開的開源算法(humanoid gym),目前應該是人形機器人在github最受歡迎的開源算法、有1000多個stars。今年年初,我們又開源了VLA的一個基于生成式模型的大模型VPP,后續(xù)我們還會持續(xù)做一些開源的動作,因為具身智能還是需要整個生態(tài)一起努力和繁榮,從而實現(xiàn)更多的突破,這樣的話最終我們也會受益。
Q:具身開源的意義是什么?有人會覺得是為了更好地銷售自己的本體。
陳建宇:商業(yè)化肯定是一個比較重要的維度。
但從另一個維度來看,為什么AI領(lǐng)域現(xiàn)在發(fā)展得這么快?就是因為AI領(lǐng)域有很好的開源風氣和習慣。當開源之后,大家就都能夠非??斓剡M行更深的研究。就像我們開源了之后,我們看到也有很多人在跟隨我們的工作,并做進一步的改進。其實他們也做了開源,不管是論文開源、還是模型開源,我們也隨之受到了很多啟發(fā)。
Q:整體的技術(shù)路線現(xiàn)在看來是不是越來越收斂的?
陳建宇:在大的方向上,技術(shù)路線是有一定的收斂,不管是軟件還是硬件。
在軟件方面近期提到一個比較多的詞叫VLA、端到端,在23、34年提這個的還非常少,最開始大家會對端到端、甚至對是否是Learning-based 都有爭議。后來我們看到了比如說機器人通過強化學習等方式,讓它更穩(wěn)定地行走起來。大家覺得確實是該用Learning-based 的方法。
之前大家所爭議的還在于,比如說對操作人員,究竟是用一個分層式的模型,還是說一個端到端的VLA模型。但我們逐步可以看到不管國內(nèi)國外、不管是我們還是其他一些友商,都展現(xiàn)出來了比較不錯的VLA能力,所以說我們可以看到大家開始逐步相信了。
對我們來說,我們從一開始就從第一性原理出發(fā),堅持VLA和端對端的路線;當我們和一些同行證明了它的有效性后,更大范圍的人相信了(這個路線)。
現(xiàn)在我們也在探索一些新的演進路線,今天還沒有發(fā)生,但我們會下一個“賭注”往前改進。如果說我們把這個路線再次證明的話,它又會引領(lǐng)技術(shù)的進一步收斂。
Q:目前機器人的干活效率到了怎樣的程度?
陳建宇:我還是持比較樂觀的態(tài)度。
首先對我們來說,我們已經(jīng)在部分真實的工業(yè)場景已經(jīng)達到了人類70%多的效率,明年有望達到90%的樣子,已經(jīng)在接近這個數(shù)字了,可能在今年后半年大家會陸續(xù)看到。
星動L7——物流場景智能掃碼、分揀多機協(xié)作
現(xiàn)在的軟件和硬件還處于打磨階段,這也是得益于端到端——端到端的好處是能實時反饋、實時控制,就像人一樣,端到端是能夠滿足這樣一個方式的,所以從模型的架構(gòu)上已經(jīng)能支撐;同時,硬件本體本身的性能,尤其是速度這些能提到足夠高,硬件層面也能支撐了。接下來就是軟硬打磨,假以時日,我相信是能達到人類的水平,甚至是超人類的水平也是有可能的。
Q:哪些場景最有可能成為人形機器人的“殺手級應用”?
陳建宇:長期來看,“殺手級應用”最終還是要進入家庭,但前期我們需要在一些B端場景里,一個是為企業(yè)落地先行,一個是磨煉機器人整套技術(shù),包括做數(shù)據(jù)的積累,幫助把這個飛輪轉(zhuǎn)起來,所以短期來看一定是B端的工業(yè)這些場景先跑出來一些。但最終殺手級的應用,我認為一定是在家庭場景里面。
Q:這個時間需要多久?
陳建宇:實際上機器人進入家庭現(xiàn)在已經(jīng)發(fā)生了,比如說掃地機。所以說這是逐步出現(xiàn)的過程,我認為近幾年就會有相對簡單形態(tài)的機器人進入到家庭場景里面,也可能有少部分高凈值人士的家庭里面會直接用到比較通用的人形機器人。但它的功能還沒有到特別強大的時候,可能少部分人會嘗鮮使用,這是在近幾年就會逐步出現(xiàn)的。如果以未來五年為界限的話,可能就是家用場景機器人爆發(fā)的時間。
本文為IPO早知道原創(chuàng)
作者|Stone Jin
本文來源:IPO早知道
來源:IPO早知道
重要提示:本文僅代表作者個人觀點,并不代表樂居財經(jīng)立場。 本文著作權(quán),歸樂居財經(jīng)所有。未經(jīng)允許,任何單位或個人不得在任何公開傳播平臺上使用本文內(nèi)容;經(jīng)允許進行轉(zhuǎn)載或引用時,請注明來源。聯(lián)系請發(fā)郵件至ljcj@leju.com,或點擊【聯(lián)系客服】
樂居財經(jīng)APP
?2017-2025 北京怡生樂居財經(jīng)文化傳媒有限公司 北京市朝陽區(qū)西大望路甲22號院1號樓1層101內(nèi)3層S3-01房間756號 100016
京ICP備2021030296號-2京公網(wǎng)安備 11010502047973號