国产成人av综合久久视色,а√最新版在线天堂鲁大师,超碰97资源站,成人免费ā片在线观看,gogo西西人体大尺度大胆高清

OpenAI一線員工比國內(nèi)還“卷”!深度揭秘Sora關(guān)鍵技術(shù)

<{$news["createtime"]|date_format:"%Y-%m-%d %H:%M"}>  AI星球 2.2w閱讀 2024-02-21 17:10
OpenAI的視頻生成式人工智能技術(shù)的幕后故事。

文丨AI前線 ID:ai-front

作者丨Vincent Koc  翻譯|王強(qiáng)  策劃|Tina

人工智能工具如何將一張靜態(tài)圖像轉(zhuǎn)化為一段動(dòng)態(tài)、逼真的視頻?OpenAI 的 Sora 通過時(shí)空補(bǔ)丁的創(chuàng)新使用給出了答案。

在快速發(fā)展的生成式 AI 模型領(lǐng)域,OpenAI 的 Sora 已經(jīng)成為了一座重要的里程碑,有望重塑我們對(duì)視頻生成的理解和能力。我們揭示了 Sora 背后的技術(shù)及其激發(fā)新一代圖像、視頻和 3D 內(nèi)容創(chuàng)建模型的潛力。

OpenAI Sora 演示視頻:床上的貓。來源:OpenAI

上面的演示是由 OpenAI 使用以下文本提示生成的:

一只貓叫醒熟睡的主人,要求吃早餐。主人試圖忽視這只貓,但貓嘗試了新的策略,最后主人從枕頭下拿出秘密藏匿的零食,讓貓?jiān)俅粢粫?huì)兒。

隨著 Sora 的誕生,我們在視頻內(nèi)容生成方面已經(jīng)邁入了與現(xiàn)實(shí)幾乎無法區(qū)分的境界。由于該模型正在測試,它尚未向公眾完整發(fā)布。

今天,OpenAI 研究員 Jason Wei 發(fā)布了自己作為 OpenAI 技術(shù)人員一天的作息表,引發(fā)廣泛關(guān)注。我們看到 OpenAI 的技術(shù)人員也是非?!熬怼?。

Jason 在上午是這樣度過的:

[9:00] 醒來

[9:30] 通過 Waymo 無人駕駛汽車到 Mission SF,從 Tartine 購買牛油果吐司

[9:45] 背誦 OpenAI 憲章,向優(yōu)化之神祈禱,吸取慘痛的教訓(xùn)

[10:00] 會(huì)議(谷歌會(huì)議)上,討論如何在更多的數(shù)據(jù)上訓(xùn)練更大的模型

[11:00] 編寫代碼,在更多數(shù)據(jù)上訓(xùn)練更大的模型。

[12:00pm] 食堂午餐 (素食,無麩質(zhì))

下午是勤勤懇懇的“搬磚時(shí)間”:

[1:00]  在更多的數(shù)據(jù)上訓(xùn)練大型模型

[2:00] 調(diào)試基礎(chǔ)設(shè)施問題

[3:00] 監(jiān)控模型訓(xùn)練,玩玩 Sora

[4:00] 對(duì)前面提到的訓(xùn)練的模型進(jìn)行提示工程

[4:30] 休息會(huì)兒,坐在牛油果椅子上。真想知道 Gemini Ultra 到底有多好

[5:00] 頭腦風(fēng)暴,思考模型潛在的算法改進(jìn)

[5:05] 得出結(jié)論:算法改變風(fēng)險(xiǎn)太大,只擴(kuò)展計(jì)算和數(shù)據(jù)會(huì)更安全。

之后是晚餐。而回到家的 Jason 還要繼續(xù)編碼,但他的生產(chǎn)力最佳時(shí)刻也將到來:

[晚上 7:00] 通勤回家

[8:00] 喝杯酒,然后繼續(xù)編碼。鮑爾默峰值(描述了編程技能與血液酒精濃度的關(guān)系)即將到來

[9:00] 分析實(shí)驗(yàn)運(yùn)行情況

[10:00] 讓其通宵實(shí)驗(yàn),明天早上就能得到結(jié)果

[1:00am] 實(shí)驗(yàn)開始了

[1:15am] 睡覺,默念“Compression is all you need”。

來源:推特截圖

那么,這么卷的 OpenAI 技術(shù)人,如何讓 OpenAI 改變了視頻生成行業(yè)的格局?

Sora 的獨(dú)特方法:如何改變視頻生成技術(shù)

在生成式模型的世界中,我們也已看到了從 GAN 到自回歸和擴(kuò)散模型的許多方法,它們都有自己的優(yōu)點(diǎn)和局限性。Sora 現(xiàn)在引入了一種范式轉(zhuǎn)變,采用了新的建模技術(shù)并提升了靈活性,可以處理更長的持續(xù)時(shí)間、更多的寬高比和分辨率參數(shù)。

Sora 將 Diffusion 和 Transformer 架構(gòu)結(jié)合在一起創(chuàng)建了一個(gè) Diffusion Transformer 模型,并能夠提供以下功能:

  • 文本到視頻:正如我們所見

  • 圖像到視頻:為靜態(tài)圖像帶來生命

  • 視頻到視頻:將視頻轉(zhuǎn)換為其他風(fēng)格

  • 實(shí)時(shí)延長視頻:向前和向后

  • 創(chuàng)建無縫循環(huán):讓循環(huán)視頻看起來永無止境

  • 圖像生成:靜止圖像是濃縮在一幀中的影片(最大 2048 x 2048)

  • 生成任何格式的視頻:從 1920 x 1080 到 1080 x 1920 以及之間的所有格式

  • 模擬虛擬世界:如《我的世界》和其他視頻游戲

  • 創(chuàng)建一段視頻:長度不超過 1 分鐘,包含多個(gè)短片

想象一個(gè)廚房場景。傳統(tǒng)的視頻生成模型(例如 Pika 和 RunwayML 中的模型)就像嚴(yán)格遵循菜譜做菜的廚師。他們可以制作出精美的菜肴(視頻),但受到他們所知道的食譜(算法)的限制。廚師可能專注于使用特定成分(數(shù)據(jù)格式)和技術(shù)(模型架構(gòu))烘焙蛋糕(短片)或烹飪面食(特定類型的視頻)。

相比之下,Sora 是一位了解風(fēng)味基礎(chǔ)知識(shí)的新型廚師。這位廚師不僅可以按已有的菜譜做菜,還能發(fā)明新的菜譜。Sora 的原料(數(shù)據(jù))和技術(shù)(模型架構(gòu))的靈活性使它能夠制作各種高質(zhì)量的視頻,就像多才多藝的大廚的烹飪作品一樣。

Sora 秘方的核心:探索時(shí)空補(bǔ)丁

時(shí)空補(bǔ)丁是 Sora 創(chuàng)新的核心,建立在 Google DeepMind 對(duì) NaViT 和 ViT(視覺 Transformer)的早期研究基礎(chǔ)上,該研究基于 2021 年的論文《An Image is Worth 16x16 Words》。

“Vanilla”視覺 Transformer 架構(gòu) — 來源:Dosovitskiy et al., 2021

傳統(tǒng)上,對(duì)于視覺 Transformer,我們使用一系列圖像“補(bǔ)丁”(而不是用于語言 Transformer 的單詞)來訓(xùn)練用于圖像識(shí)別的 Transformer 模型。這些補(bǔ)丁使我們能夠擺脫卷積神經(jīng)網(wǎng)絡(luò)來處理圖像。

幀 / 圖像如何“補(bǔ)丁化” — 來源:Dehghani et al., 2023

然而,視覺 Transformer 受到了大小和長寬比固定的圖像訓(xùn)練數(shù)據(jù)的限制,從而限制了質(zhì)量水平并且需要大量的圖像預(yù)處理工作。

視頻時(shí)態(tài)數(shù)據(jù)切片的可視化 — 來源:kitasenjudesign

Sora 將視頻視為很多補(bǔ)丁序列,這樣就保持了原始的寬高比和分辨率,和 NaViT 對(duì)圖像的處理機(jī)制很像。這種保存方法非常重要,使模型能夠捕捉視覺數(shù)據(jù)的真正本質(zhì),從更準(zhǔn)確的世界表示中學(xué)習(xí),從而賦予 Sora 近乎神奇的準(zhǔn)確性。

時(shí)空補(bǔ)?。ㄌ幚恚┑目梢暬?— 來源:OpenAI(Sora)

該方法使 Sora 能夠有效地處理各種視覺數(shù)據(jù),而無需調(diào)整大小或填充等預(yù)處理步驟。這種靈活性確保每條數(shù)據(jù)都能夠幫助模型加深理解,就像廚師使用各種原料來提升菜肴的風(fēng)味一樣。

通過時(shí)空補(bǔ)丁對(duì)視頻數(shù)據(jù)進(jìn)行詳細(xì)而靈活的處理,為精確的物理模擬和 3D 一致性等復(fù)雜功能奠定了基礎(chǔ)。有了這些至關(guān)重要的功能后,我們就可以創(chuàng)建不僅看起來逼真,而且符合世界物理規(guī)則的視頻,讓我們一睹人工智能創(chuàng)建復(fù)雜、動(dòng)態(tài)視覺內(nèi)容的潛力。

喂養(yǎng) Sora:多樣化數(shù)據(jù)在訓(xùn)練中的作用

訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性對(duì)于生成模型的性能而言是非常重要的。現(xiàn)有的視頻模型傳統(tǒng)上是基于更嚴(yán)格的數(shù)據(jù)集、更短的長度和更窄的目標(biāo)來訓(xùn)練的。

Sora 使用的是龐大且多樣化的數(shù)據(jù)集,其中包括了不同時(shí)長、分辨率和寬高比的視頻和圖像。它能夠重建像《我的世界》這樣的數(shù)字世界,它的訓(xùn)練集中可能還包括來自虛幻或 Unity 等系統(tǒng)的游戲玩法和模擬世界畫面,以便捕捉所有角度和各種風(fēng)格的視頻內(nèi)容。這樣 Sora 就邁入了“通用”模型的境界,就像文本領(lǐng)域的 GPT-4 一樣。

這種涉獵廣泛的訓(xùn)練方法使 Sora 能夠理解復(fù)雜的動(dòng)態(tài)并生成多樣化且高質(zhì)量的內(nèi)容。該方法模仿大型語言模型在不同文本數(shù)據(jù)上的訓(xùn)練方式,將類似的原理應(yīng)用于視覺內(nèi)容以實(shí)現(xiàn)通用能力。

可變“補(bǔ)丁”,NaVit 與傳統(tǒng)視覺 Transformers 的對(duì)比,來源:Dehghani et al., 2023

正如 NaViT 模型將不同圖像的多個(gè)補(bǔ)丁打包到單個(gè)序列中的方法展示了顯著的訓(xùn)練效率和性能增益一樣,Sora 利用時(shí)空補(bǔ)丁在視頻生成中實(shí)現(xiàn)了類似的效率。這種方法可以更有效地從海量數(shù)據(jù)集中學(xué)習(xí),提高模型生成高保真視頻的能力,同時(shí)其所需的計(jì)算量與現(xiàn)有建模架構(gòu)相比也減少了。

將物理世界帶入生活:Sora 對(duì) 3D 和連續(xù)性的把握

3D 空間和物體持久性是 Sora 演示中的關(guān)鍵亮點(diǎn)之一。通過對(duì)各種視頻數(shù)據(jù)進(jìn)行訓(xùn)練,無需調(diào)整或預(yù)處理視頻,Sora 學(xué)會(huì)了以令人印象深刻的精度對(duì)物理世界建模,因?yàn)樗軌蚴褂迷夹问降挠?xùn)練數(shù)據(jù)。

它可以生成數(shù)字世界和視頻,其中對(duì)象和角色在三維空間中令人信服地移動(dòng)和交互,即使它們被遮擋或離開鏡頭也能保持連貫性。

展望未來:Sora 的未來影響

Sora 為生成式模型的潛能設(shè)立了新的標(biāo)準(zhǔn)。這種方法很可能會(huì)激發(fā)開源社區(qū)嘗試和推進(jìn)視覺模式的能力,推動(dòng)新一代生成式模型的發(fā)展,突破創(chuàng)造力和現(xiàn)實(shí)主義的界限。

Sora 的旅程才剛剛開始,正如 OpenAI 所說,“擴(kuò)展視頻生成模型是構(gòu)建物理世界通用模擬器的一條有希望的道路”。

Sora 的方法將最新的人工智能研究與實(shí)際應(yīng)用相結(jié)合,預(yù)示著生成式模型的光明未來。隨著這些技術(shù)的不斷發(fā)展,它們有望重新定義我們與數(shù)字內(nèi)容的交互方式,使高保真、動(dòng)態(tài)視頻的創(chuàng)建變得更加容易和多樣化。

原文鏈接:https://towardsdatascience.com/explaining-openai-soras-spacetime-patches-the-key-ingredient-e14e0703ec5b

(首圖來源:圖蟲;正文中配圖來源:AI前線

“在看”我嗎?

來源:AI星球

重要提示:本文僅代表作者個(gè)人觀點(diǎn),并不代表樂居財(cái)經(jīng)立場。 本文著作權(quán),歸樂居財(cái)經(jīng)所有。未經(jīng)允許,任何單位或個(gè)人不得在任何公開傳播平臺(tái)上使用本文內(nèi)容;經(jīng)允許進(jìn)行轉(zhuǎn)載或引用時(shí),請注明來源。聯(lián)系請發(fā)郵件至ljcj@leju.com,或點(diǎn)擊【聯(lián)系客服

網(wǎng)友評(píng)論