視頻生成規(guī)則改寫,Open AI 的下一步又是什么?作者丨克雷西 魚羊
現(xiàn)在世界上最受關(guān)注的技術(shù)團(tuán)隊(duì)是哪一支?Sora團(tuán)隊(duì),已經(jīng)來(lái)到聚光燈中心。不僅項(xiàng)目負(fù)責(zé)人評(píng)論區(qū)被擠爆,成了X 最火“景點(diǎn)”。天才成員們的履歷,也正在持續(xù)引爆關(guān)注。
大家伙發(fā)現(xiàn),這支團(tuán)隊(duì)挺年輕:兩位負(fù)責(zé)人都是在去年(2023年)剛剛博士畢業(yè),團(tuán)隊(duì)里甚至還有00后選手……Tim Brooks,DALL-E 3作者之一,GitHub 5.7k?項(xiàng)目InstructPix2Pix作者,2021-2022年在英偉達(dá)實(shí)習(xí)時(shí),就是視頻生成研究的項(xiàng)目負(fù)責(zé)人。William (Bill) Peebles,和謝賽寧合作,搞出了Sora的技術(shù)基礎(chǔ)之一DiT(擴(kuò)散Transformer)。論文還曾入圍CVPR 2022最佳論文候選。這支團(tuán)隊(duì)到底什么來(lái)頭,咱們今天一起仔細(xì)聊聊。包括Tim和Bill在內(nèi),Sora的主要負(fù)責(zé)人一共有三名(以下排名不分先后)。Tim Brooks,也是DALL-E 3的作者,去年1月剛從加州大學(xué)伯克利分校博士畢業(yè)。Tim本科就讀于卡內(nèi)基梅隆大學(xué),主修邏輯與計(jì)算,輔修計(jì)算機(jī)科學(xué),期間在Facebook軟件工程部門實(shí)習(xí)了四個(gè)月。2017年,本科畢業(yè)的Tim先到Google工作了近兩年,在Pixel手機(jī)部門中研究AI相機(jī),之后到了伯克利AI實(shí)驗(yàn)室攻讀博士。在伯克利讀博期間,Tim的主要研究方向就是圖片與視頻生成,他還在英偉達(dá)實(shí)習(xí)并主導(dǎo)了一項(xiàng)關(guān)于視頻生成的研究。回到校園后,Tim與導(dǎo)師Alexei Efros教授和同組博士后Aleksander Holynski(現(xiàn)在谷歌)一起研制了AI圖片編輯工具InstructPix2Pix,并入選CVPR 2023 Highlight。去年一月,Tim順利畢業(yè)并取得了博士學(xué)位,轉(zhuǎn)而加入OpenAI,并相繼參與了DALL-E 3和Sora的工作。值得一提的是,Tim不僅在專業(yè)領(lǐng)域擁有高超的技術(shù)水平,還是個(gè)多才多藝的人。據(jù)Tim自己介紹,他還喜歡攝影和音樂,高中時(shí)他拍攝的照片獲得過National Geographic頒發(fā)的獎(jiǎng)項(xiàng),本人到過百老匯演出,還獲得過B-box國(guó)際獎(jiǎng)項(xiàng)……而與Tim師出同門、晚畢業(yè)4個(gè)月的William Peebles,也是Sora的另一名負(fù)責(zé)人。(Peebles在?上用昵稱Bill,在Linkedin上及論文署名時(shí)用大名William,下文一律用Bill指代。)Bill本科就讀于MIT,主修計(jì)算機(jī)科學(xué),參加了GAN和text2video的研究,還在英偉達(dá)深度學(xué)習(xí)與自動(dòng)駕駛團(tuán)隊(duì)實(shí)習(xí),研究計(jì)算機(jī)視覺。畢業(yè)后正式開始讀博之前,他還參加了Adobe的暑期實(shí)習(xí),研究的依然是GAN,該項(xiàng)目和(時(shí)任)卡內(nèi)基梅隆大學(xué)華人學(xué)者朱俊彥(也是Efros教授學(xué)生,現(xiàn)在在MIT)組有合作,并成為CVPR 2022最佳論文候選。之后,學(xué)期開始,Bill到了伯克利Efros教授課題組攻讀博士,研究成果多次入選SIGGRAPH、ICCV、CVPR等學(xué)術(shù)會(huì)議。2022年5月,Bill到Meta進(jìn)行了為期半年的實(shí)習(xí),和謝賽寧(Bill開始實(shí)習(xí)時(shí)還未離開Meta)合作發(fā)表了DiT模型,首次將Transformer與擴(kuò)散模型結(jié)合到了一起。該成果被ICCV 2023錄用為Oral論文。值得一提的是,OpenAI此次發(fā)布的Sora,被認(rèn)為正是基于DiT構(gòu)建的。去年5月,Bill也從伯克利畢業(yè),并入職OpenAI。除了這兩位去年加入的研究者,Sora團(tuán)隊(duì)的另一位負(fù)責(zé)人Aditya Ramesh則是OpenAI的“老人”。Aditya是DALL-E的創(chuàng)造者,主導(dǎo)了三代DALL-E的研究,三個(gè)版本的論文當(dāng)中他都是共同一作。而這樣一位主導(dǎo)三代DALL-E,如今又領(lǐng)導(dǎo)Sora團(tuán)隊(duì)的大神,卻只有本科學(xué)歷。據(jù)LeCun介紹,Aditya本科就讀于紐約大學(xué),并在他的實(shí)驗(yàn)室參與過一些項(xiàng)目。期間,Aditya就已經(jīng)在研究生成式模型,并和LeCun共同發(fā)表論文。畢業(yè)之后,Aditya本想繼續(xù)深造,但在OpenAI的暑期實(shí)習(xí)中被留了下來(lái),成為了正式研究人員。Sora團(tuán)隊(duì)的本科生,還不止Aditya Ramesh一位。前文提到,這支團(tuán)隊(duì)中有一位“00后”Will DePue,就是2022年才剛從密西根大學(xué)計(jì)算機(jī)系本科畢業(yè)的。這位小哥大四的時(shí)候創(chuàng)業(yè)搞了個(gè)市場(chǎng)咨詢公司DeepResearch,這家公司后來(lái)被Commsor收購(gòu)。2023年7月,小哥加入OpenAI。根據(jù)他的領(lǐng)英信息,他是在今年1月才剛剛加入Sora項(xiàng)目組的。另外,David Schnurr和Joe Taylor也都沒有博士學(xué)位。前者畢業(yè)于加州大學(xué)圣塔芭芭拉分校,后者畢業(yè)于美國(guó)舊金山藝術(shù)大學(xué)。而正如Aditya Ramesh自己所說,Sora團(tuán)隊(duì)的不少成員都是DALL-E 3的作者。Li Jing是DALL-E 3的共同一作,2014年本科畢業(yè)于北京大學(xué)物理系,2019年獲得MIT物理學(xué)博士學(xué)位。在Meta做了2年多博士后之后,Li Jing于2022年加入OpenAI。華人作者中還有Ricky Wang,今年一月剛剛從Meta/Instagram跳槽到OpenAI,另外兩位Yufei Guo、Clarence Ng沒有太多公開資料。新跳槽來(lái)的還有Conner Holmes,他在微軟工作時(shí)以外援形式參與了DALL·E 3的推理優(yōu)化工作,后來(lái)干脆加入OpenAI了。從團(tuán)隊(duì)的組建情況和研究基礎(chǔ)來(lái)看,Sora應(yīng)該是OpenAI近半年來(lái)的最新成果,而非網(wǎng)傳“早已有之但憋著不發(fā)”。不過,Sora炸場(chǎng),頂級(jí)人才又持續(xù)星聚,還是驚得眾人開始重新考量OpenAI的技術(shù)領(lǐng)先性。就在今天,作者釋出的Sora新作,連“同一場(chǎng)景”下的多機(jī)位視頻都整出來(lái)了。現(xiàn)在,是視頻生成,下一個(gè)又會(huì)是什么?
參考鏈接:
[1]https://www.wpeebles.com/
[2]https://www.timothybrooks.com/about/
[3]http://adityaramesh.com/about.html
(首圖來(lái)源:圖蟲;正文中配圖來(lái)源:量子位)
重要提示:本文僅代表作者個(gè)人觀點(diǎn),并不代表樂居財(cái)經(jīng)立場(chǎng)。 本文著作權(quán),歸樂居財(cái)經(jīng)所有。未經(jīng)允許,任何單位或個(gè)人不得在任何公開傳播平臺(tái)上使用本文內(nèi)容;經(jīng)允許進(jìn)行轉(zhuǎn)載或引用時(shí),請(qǐng)注明來(lái)源。聯(lián)系請(qǐng)發(fā)郵件至ljcj@leju.com,或點(diǎn)擊【聯(lián)系客服】