作者丨Vincent Koc 翻譯|王強(qiáng) 策劃|Tina
人工智能工具如何將一張靜態(tài)圖像轉(zhuǎn)化為一段動(dòng)態(tài)、逼真的視頻?OpenAI 的 Sora 通過時(shí)空補(bǔ)丁的創(chuàng)新使用給出了答案。
在快速發(fā)展的生成式 AI 模型領(lǐng)域,OpenAI 的 Sora 已經(jīng)成為了一座重要的里程碑,有望重塑我們對(duì)視頻生成的理解和能力。我們揭示了 Sora 背后的技術(shù)及其激發(fā)新一代圖像、視頻和 3D 內(nèi)容創(chuàng)建模型的潛力。
上面的演示是由 OpenAI 使用以下文本提示生成的:
一只貓叫醒熟睡的主人,要求吃早餐。主人試圖忽視這只貓,但貓嘗試了新的策略,最后主人從枕頭下拿出秘密藏匿的零食,讓貓?jiān)俅粢粫?huì)兒。
隨著 Sora 的誕生,我們在視頻內(nèi)容生成方面已經(jīng)邁入了與現(xiàn)實(shí)幾乎無法區(qū)分的境界。由于該模型正在測試,它尚未向公眾完整發(fā)布。
今天,OpenAI 研究員 Jason Wei 發(fā)布了自己作為 OpenAI 技術(shù)人員一天的作息表,引發(fā)廣泛關(guān)注。我們看到 OpenAI 的技術(shù)人員也是非?!熬怼?。
Jason 在上午是這樣度過的:
[9:00] 醒來
[9:30] 通過 Waymo 無人駕駛汽車到 Mission SF,從 Tartine 購買牛油果吐司
[9:45] 背誦 OpenAI 憲章,向優(yōu)化之神祈禱,吸取慘痛的教訓(xùn)
[10:00] 會(huì)議(谷歌會(huì)議)上,討論如何在更多的數(shù)據(jù)上訓(xùn)練更大的模型
[11:00] 編寫代碼,在更多數(shù)據(jù)上訓(xùn)練更大的模型。
[12:00pm] 食堂午餐 (素食,無麩質(zhì))
下午是勤勤懇懇的“搬磚時(shí)間”:
[1:00] 在更多的數(shù)據(jù)上訓(xùn)練大型模型
[2:00] 調(diào)試基礎(chǔ)設(shè)施問題
[3:00] 監(jiān)控模型訓(xùn)練,玩玩 Sora
[4:00] 對(duì)前面提到的訓(xùn)練的模型進(jìn)行提示工程
[4:30] 休息會(huì)兒,坐在牛油果椅子上。真想知道 Gemini Ultra 到底有多好
[5:00] 頭腦風(fēng)暴,思考模型潛在的算法改進(jìn)
[5:05] 得出結(jié)論:算法改變風(fēng)險(xiǎn)太大,只擴(kuò)展計(jì)算和數(shù)據(jù)會(huì)更安全。
之后是晚餐。而回到家的 Jason 還要繼續(xù)編碼,但他的生產(chǎn)力最佳時(shí)刻也將到來:
[晚上 7:00] 通勤回家
[8:00] 喝杯酒,然后繼續(xù)編碼。鮑爾默峰值(描述了編程技能與血液酒精濃度的關(guān)系)即將到來
[9:00] 分析實(shí)驗(yàn)運(yùn)行情況
[10:00] 讓其通宵實(shí)驗(yàn),明天早上就能得到結(jié)果
[1:00am] 實(shí)驗(yàn)開始了
[1:15am] 睡覺,默念“Compression is all you need”。
來源:推特截圖
那么,這么卷的 OpenAI 技術(shù)人,如何讓 OpenAI 改變了視頻生成行業(yè)的格局?
在生成式模型的世界中,我們也已看到了從 GAN 到自回歸和擴(kuò)散模型的許多方法,它們都有自己的優(yōu)點(diǎn)和局限性。Sora 現(xiàn)在引入了一種范式轉(zhuǎn)變,采用了新的建模技術(shù)并提升了靈活性,可以處理更長的持續(xù)時(shí)間、更多的寬高比和分辨率參數(shù)。
Sora 將 Diffusion 和 Transformer 架構(gòu)結(jié)合在一起創(chuàng)建了一個(gè) Diffusion Transformer 模型,并能夠提供以下功能:
文本到視頻:正如我們所見
圖像到視頻:為靜態(tài)圖像帶來生命
視頻到視頻:將視頻轉(zhuǎn)換為其他風(fēng)格
實(shí)時(shí)延長視頻:向前和向后
創(chuàng)建無縫循環(huán):讓循環(huán)視頻看起來永無止境
圖像生成:靜止圖像是濃縮在一幀中的影片(最大 2048 x 2048)
生成任何格式的視頻:從 1920 x 1080 到 1080 x 1920 以及之間的所有格式
模擬虛擬世界:如《我的世界》和其他視頻游戲
創(chuàng)建一段視頻:長度不超過 1 分鐘,包含多個(gè)短片
想象一個(gè)廚房場景。傳統(tǒng)的視頻生成模型(例如 Pika 和 RunwayML 中的模型)就像嚴(yán)格遵循菜譜做菜的廚師。他們可以制作出精美的菜肴(視頻),但受到他們所知道的食譜(算法)的限制。廚師可能專注于使用特定成分(數(shù)據(jù)格式)和技術(shù)(模型架構(gòu))烘焙蛋糕(短片)或烹飪面食(特定類型的視頻)。
相比之下,Sora 是一位了解風(fēng)味基礎(chǔ)知識(shí)的新型廚師。這位廚師不僅可以按已有的菜譜做菜,還能發(fā)明新的菜譜。Sora 的原料(數(shù)據(jù))和技術(shù)(模型架構(gòu))的靈活性使它能夠制作各種高質(zhì)量的視頻,就像多才多藝的大廚的烹飪作品一樣。
時(shí)空補(bǔ)丁是 Sora 創(chuàng)新的核心,建立在 Google DeepMind 對(duì) NaViT 和 ViT(視覺 Transformer)的早期研究基礎(chǔ)上,該研究基于 2021 年的論文《An Image is Worth 16x16 Words》。
“Vanilla”視覺 Transformer 架構(gòu) — 來源:Dosovitskiy et al., 2021
傳統(tǒng)上,對(duì)于視覺 Transformer,我們使用一系列圖像“補(bǔ)丁”(而不是用于語言 Transformer 的單詞)來訓(xùn)練用于圖像識(shí)別的 Transformer 模型。這些補(bǔ)丁使我們能夠擺脫卷積神經(jīng)網(wǎng)絡(luò)來處理圖像。
幀 / 圖像如何“補(bǔ)丁化” — 來源:Dehghani et al., 2023
然而,視覺 Transformer 受到了大小和長寬比固定的圖像訓(xùn)練數(shù)據(jù)的限制,從而限制了質(zhì)量水平并且需要大量的圖像預(yù)處理工作。
視頻時(shí)態(tài)數(shù)據(jù)切片的可視化 — 來源:kitasenjudesign
Sora 將視頻視為很多補(bǔ)丁序列,這樣就保持了原始的寬高比和分辨率,和 NaViT 對(duì)圖像的處理機(jī)制很像。這種保存方法非常重要,使模型能夠捕捉視覺數(shù)據(jù)的真正本質(zhì),從更準(zhǔn)確的世界表示中學(xué)習(xí),從而賦予 Sora 近乎神奇的準(zhǔn)確性。
時(shí)空補(bǔ)?。ㄌ幚恚┑目梢暬?— 來源:OpenAI(Sora)
該方法使 Sora 能夠有效地處理各種視覺數(shù)據(jù),而無需調(diào)整大小或填充等預(yù)處理步驟。這種靈活性確保每條數(shù)據(jù)都能夠幫助模型加深理解,就像廚師使用各種原料來提升菜肴的風(fēng)味一樣。
通過時(shí)空補(bǔ)丁對(duì)視頻數(shù)據(jù)進(jìn)行詳細(xì)而靈活的處理,為精確的物理模擬和 3D 一致性等復(fù)雜功能奠定了基礎(chǔ)。有了這些至關(guān)重要的功能后,我們就可以創(chuàng)建不僅看起來逼真,而且符合世界物理規(guī)則的視頻,讓我們一睹人工智能創(chuàng)建復(fù)雜、動(dòng)態(tài)視覺內(nèi)容的潛力。
訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性對(duì)于生成模型的性能而言是非常重要的。現(xiàn)有的視頻模型傳統(tǒng)上是基于更嚴(yán)格的數(shù)據(jù)集、更短的長度和更窄的目標(biāo)來訓(xùn)練的。
Sora 使用的是龐大且多樣化的數(shù)據(jù)集,其中包括了不同時(shí)長、分辨率和寬高比的視頻和圖像。它能夠重建像《我的世界》這樣的數(shù)字世界,它的訓(xùn)練集中可能還包括來自虛幻或 Unity 等系統(tǒng)的游戲玩法和模擬世界畫面,以便捕捉所有角度和各種風(fēng)格的視頻內(nèi)容。這樣 Sora 就邁入了“通用”模型的境界,就像文本領(lǐng)域的 GPT-4 一樣。
這種涉獵廣泛的訓(xùn)練方法使 Sora 能夠理解復(fù)雜的動(dòng)態(tài)并生成多樣化且高質(zhì)量的內(nèi)容。該方法模仿大型語言模型在不同文本數(shù)據(jù)上的訓(xùn)練方式,將類似的原理應(yīng)用于視覺內(nèi)容以實(shí)現(xiàn)通用能力。
可變“補(bǔ)丁”,NaVit 與傳統(tǒng)視覺 Transformers 的對(duì)比,來源:Dehghani et al., 2023
正如 NaViT 模型將不同圖像的多個(gè)補(bǔ)丁打包到單個(gè)序列中的方法展示了顯著的訓(xùn)練效率和性能增益一樣,Sora 利用時(shí)空補(bǔ)丁在視頻生成中實(shí)現(xiàn)了類似的效率。這種方法可以更有效地從海量數(shù)據(jù)集中學(xué)習(xí),提高模型生成高保真視頻的能力,同時(shí)其所需的計(jì)算量與現(xiàn)有建模架構(gòu)相比也減少了。
3D 空間和物體持久性是 Sora 演示中的關(guān)鍵亮點(diǎn)之一。通過對(duì)各種視頻數(shù)據(jù)進(jìn)行訓(xùn)練,無需調(diào)整或預(yù)處理視頻,Sora 學(xué)會(huì)了以令人印象深刻的精度對(duì)物理世界建模,因?yàn)樗軌蚴褂迷夹问降挠?xùn)練數(shù)據(jù)。
它可以生成數(shù)字世界和視頻,其中對(duì)象和角色在三維空間中令人信服地移動(dòng)和交互,即使它們被遮擋或離開鏡頭也能保持連貫性。
Sora 為生成式模型的潛能設(shè)立了新的標(biāo)準(zhǔn)。這種方法很可能會(huì)激發(fā)開源社區(qū)嘗試和推進(jìn)視覺模式的能力,推動(dòng)新一代生成式模型的發(fā)展,突破創(chuàng)造力和現(xiàn)實(shí)主義的界限。
Sora 的旅程才剛剛開始,正如 OpenAI 所說,“擴(kuò)展視頻生成模型是構(gòu)建物理世界通用模擬器的一條有希望的道路”。
Sora 的方法將最新的人工智能研究與實(shí)際應(yīng)用相結(jié)合,預(yù)示著生成式模型的光明未來。隨著這些技術(shù)的不斷發(fā)展,它們有望重新定義我們與數(shù)字內(nèi)容的交互方式,使高保真、動(dòng)態(tài)視頻的創(chuàng)建變得更加容易和多樣化。
原文鏈接:https://towardsdatascience.com/explaining-openai-soras-spacetime-patches-the-key-ingredient-e14e0703ec5b
(首圖來源:圖蟲;正文中配圖來源:AI前線)
你“在看”我嗎?
來源:AI星球
重要提示:本文僅代表作者個(gè)人觀點(diǎn),并不代表樂居財(cái)經(jīng)立場。 本文著作權(quán),歸樂居財(cái)經(jīng)所有。未經(jīng)允許,任何單位或個(gè)人不得在任何公開傳播平臺(tái)上使用本文內(nèi)容;經(jīng)允許進(jìn)行轉(zhuǎn)載或引用時(shí),請注明來源。聯(lián)系請發(fā)郵件至ljcj@leju.com,或點(diǎn)擊【聯(lián)系客服】
樂居財(cái)經(jīng)APP
?2017-2025 北京怡生樂居財(cái)經(jīng)文化傳媒有限公司 北京市朝陽區(qū)西大望路甲22號(hào)院1號(hào)樓1層101內(nèi)3層S3-01房間756號(hào) 100016
京ICP備2021030296號(hào)-2京公網(wǎng)安備 11010502047973號(hào)