jzzijzzij在线观看亚洲熟妇,波多野结衣办公室33分钟

OpenAI一線員工比國內(nèi)還“卷”！深度揭秘Sora關(guān)鍵技術(shù)

<{$news["createtime"]|date_format:"%Y-%m-%d %H:%M"}> AI星球 2.2w閱讀 2024-02-21 17:10

OpenAI的視頻生成式人工智能技術(shù)的幕后故事。

文丨AI前線 ID：ai-front

作者丨Vincent Koc 翻譯｜王強(qiáng) 策劃｜Tina

人工智能工具如何將一張靜態(tài)圖像轉(zhuǎn)化為一段動(dòng)態(tài)、逼真的視頻？OpenAI 的 Sora 通過時(shí)空補(bǔ)丁的創(chuàng)新使用給出了答案。

在快速發(fā)展的生成式 AI 模型領(lǐng)域，OpenAI 的 Sora 已經(jīng)成為了一座重要的里程碑，有望重塑我們對(duì)視頻生成的理解和能力。我們揭示了 Sora 背后的技術(shù)及其激發(fā)新一代圖像、視頻和 3D 內(nèi)容創(chuàng)建模型的潛力。

OpenAI Sora 演示視頻：床上的貓。來源：OpenAI

上面的演示是由 OpenAI 使用以下文本提示生成的：

一只貓叫醒熟睡的主人，要求吃早餐。主人試圖忽視這只貓，但貓嘗試了新的策略，最后主人從枕頭下拿出秘密藏匿的零食，讓貓?jiān)俅粢粫?huì)兒。

隨著 Sora 的誕生，我們在視頻內(nèi)容生成方面已經(jīng)邁入了與現(xiàn)實(shí)幾乎無法區(qū)分的境界。由于該模型正在測試，它尚未向公眾完整發(fā)布。

今天，OpenAI 研究員 Jason Wei 發(fā)布了自己作為 OpenAI 技術(shù)人員一天的作息表，引發(fā)廣泛關(guān)注。我們看到 OpenAI 的技術(shù)人員也是非?！熬怼?。

Jason 在上午是這樣度過的：

[9:00] 醒來

[9:30] 通過 Waymo 無人駕駛汽車到 Mission SF，從 Tartine 購買牛油果吐司

[9:45] 背誦 OpenAI 憲章，向優(yōu)化之神祈禱，吸取慘痛的教訓(xùn)

[10:00] 會(huì)議（谷歌會(huì)議）上，討論如何在更多的數(shù)據(jù)上訓(xùn)練更大的模型

[11:00] 編寫代碼，在更多數(shù)據(jù)上訓(xùn)練更大的模型。

[12:00pm] 食堂午餐 (素食，無麩質(zhì))

下午是勤勤懇懇的“搬磚時(shí)間”：

[1:00] 在更多的數(shù)據(jù)上訓(xùn)練大型模型

[2:00] 調(diào)試基礎(chǔ)設(shè)施問題

[3:00] 監(jiān)控模型訓(xùn)練，玩玩 Sora

[4:00] 對(duì)前面提到的訓(xùn)練的模型進(jìn)行提示工程

[4:30] 休息會(huì)兒，坐在牛油果椅子上。真想知道 Gemini Ultra 到底有多好

[5:00] 頭腦風(fēng)暴，思考模型潛在的算法改進(jìn)

[5:05] 得出結(jié)論：算法改變風(fēng)險(xiǎn)太大，只擴(kuò)展計(jì)算和數(shù)據(jù)會(huì)更安全。

之后是晚餐。而回到家的 Jason 還要繼續(xù)編碼，但他的生產(chǎn)力最佳時(shí)刻也將到來：

[晚上 7:00] 通勤回家

[8:00] 喝杯酒，然后繼續(xù)編碼。鮑爾默峰值（描述了編程技能與血液酒精濃度的關(guān)系）即將到來

[9:00] 分析實(shí)驗(yàn)運(yùn)行情況

[10:00] 讓其通宵實(shí)驗(yàn)，明天早上就能得到結(jié)果

[1:00am] 實(shí)驗(yàn)開始了

[1:15am] 睡覺，默念“Compression is all you need”。

來源：推特截圖

那么，這么卷的 OpenAI 技術(shù)人，如何讓 OpenAI 改變了視頻生成行業(yè)的格局？

Sora 的獨(dú)特方法：如何改變視頻生成技術(shù)

在生成式模型的世界中，我們也已看到了從 GAN 到自回歸和擴(kuò)散模型的許多方法，它們都有自己的優(yōu)點(diǎn)和局限性。Sora 現(xiàn)在引入了一種范式轉(zhuǎn)變，采用了新的建模技術(shù)并提升了靈活性，可以處理更長的持續(xù)時(shí)間、更多的寬高比和分辨率參數(shù)。

Sora 將 Diffusion 和 Transformer 架構(gòu)結(jié)合在一起創(chuàng)建了一個(gè) Diffusion Transformer 模型，并能夠提供以下功能：

文本到視頻：正如我們所見
圖像到視頻：為靜態(tài)圖像帶來生命
視頻到視頻：將視頻轉(zhuǎn)換為其他風(fēng)格
實(shí)時(shí)延長視頻：向前和向后
創(chuàng)建無縫循環(huán)：讓循環(huán)視頻看起來永無止境
圖像生成：靜止圖像是濃縮在一幀中的影片（最大 2048 x 2048）
生成任何格式的視頻：從 1920 x 1080 到 1080 x 1920 以及之間的所有格式
模擬虛擬世界：如《我的世界》和其他視頻游戲
創(chuàng)建一段視頻：長度不超過 1 分鐘，包含多個(gè)短片

想象一個(gè)廚房場景。傳統(tǒng)的視頻生成模型（例如 Pika 和 RunwayML 中的模型）就像嚴(yán)格遵循菜譜做菜的廚師。他們可以制作出精美的菜肴（視頻），但受到他們所知道的食譜（算法）的限制。廚師可能專注于使用特定成分（數(shù)據(jù)格式）和技術(shù)（模型架構(gòu)）烘焙蛋糕（短片）或烹飪面食（特定類型的視頻）。

相比之下，Sora 是一位了解風(fēng)味基礎(chǔ)知識(shí)的新型廚師。這位廚師不僅可以按已有的菜譜做菜，還能發(fā)明新的菜譜。Sora 的原料（數(shù)據(jù)）和技術(shù)（模型架構(gòu)）的靈活性使它能夠制作各種高質(zhì)量的視頻，就像多才多藝的大廚的烹飪作品一樣。

Sora 秘方的核心：探索時(shí)空補(bǔ)丁

時(shí)空補(bǔ)丁是 Sora 創(chuàng)新的核心，建立在 Google DeepMind 對(duì) NaViT 和 ViT（視覺 Transformer）的早期研究基礎(chǔ)上，該研究基于 2021 年的論文《An Image is Worth 16x16 Words》。

“Vanilla”視覺 Transformer 架構(gòu) — 來源：Dosovitskiy et al., 2021

傳統(tǒng)上，對(duì)于視覺 Transformer，我們使用一系列圖像“補(bǔ)丁”（而不是用于語言 Transformer 的單詞）來訓(xùn)練用于圖像識(shí)別的 Transformer 模型。這些補(bǔ)丁使我們能夠擺脫卷積神經(jīng)網(wǎng)絡(luò)來處理圖像。

幀 / 圖像如何“補(bǔ)丁化” — 來源：Dehghani et al., 2023

然而，視覺 Transformer 受到了大小和長寬比固定的圖像訓(xùn)練數(shù)據(jù)的限制，從而限制了質(zhì)量水平并且需要大量的圖像預(yù)處理工作。

視頻時(shí)態(tài)數(shù)據(jù)切片的可視化 — 來源：kitasenjudesign

Sora 將視頻視為很多補(bǔ)丁序列，這樣就保持了原始的寬高比和分辨率，和 NaViT 對(duì)圖像的處理機(jī)制很像。這種保存方法非常重要，使模型能夠捕捉視覺數(shù)據(jù)的真正本質(zhì)，從更準(zhǔn)確的世界表示中學(xué)習(xí)，從而賦予 Sora 近乎神奇的準(zhǔn)確性。

時(shí)空補(bǔ)?。ㄌ幚恚┑目梢暬?— 來源：OpenAI（Sora）

該方法使 Sora 能夠有效地處理各種視覺數(shù)據(jù)，而無需調(diào)整大小或填充等預(yù)處理步驟。這種靈活性確保每條數(shù)據(jù)都能夠幫助模型加深理解，就像廚師使用各種原料來提升菜肴的風(fēng)味一樣。

通過時(shí)空補(bǔ)丁對(duì)視頻數(shù)據(jù)進(jìn)行詳細(xì)而靈活的處理，為精確的物理模擬和 3D 一致性等復(fù)雜功能奠定了基礎(chǔ)。有了這些至關(guān)重要的功能后，我們就可以創(chuàng)建不僅看起來逼真，而且符合世界物理規(guī)則的視頻，讓我們一睹人工智能創(chuàng)建復(fù)雜、動(dòng)態(tài)視覺內(nèi)容的潛力。

喂養(yǎng) Sora：多樣化數(shù)據(jù)在訓(xùn)練中的作用

訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性對(duì)于生成模型的性能而言是非常重要的。現(xiàn)有的視頻模型傳統(tǒng)上是基于更嚴(yán)格的數(shù)據(jù)集、更短的長度和更窄的目標(biāo)來訓(xùn)練的。

Sora 使用的是龐大且多樣化的數(shù)據(jù)集，其中包括了不同時(shí)長、分辨率和寬高比的視頻和圖像。它能夠重建像《我的世界》這樣的數(shù)字世界，它的訓(xùn)練集中可能還包括來自虛幻或 Unity 等系統(tǒng)的游戲玩法和模擬世界畫面，以便捕捉所有角度和各種風(fēng)格的視頻內(nèi)容。這樣 Sora 就邁入了“通用”模型的境界，就像文本領(lǐng)域的 GPT-4 一樣。

這種涉獵廣泛的訓(xùn)練方法使 Sora 能夠理解復(fù)雜的動(dòng)態(tài)并生成多樣化且高質(zhì)量的內(nèi)容。該方法模仿大型語言模型在不同文本數(shù)據(jù)上的訓(xùn)練方式，將類似的原理應(yīng)用于視覺內(nèi)容以實(shí)現(xiàn)通用能力。

可變“補(bǔ)丁”，NaVit 與傳統(tǒng)視覺 Transformers 的對(duì)比，來源：Dehghani et al., 2023

正如 NaViT 模型將不同圖像的多個(gè)補(bǔ)丁打包到單個(gè)序列中的方法展示了顯著的訓(xùn)練效率和性能增益一樣，Sora 利用時(shí)空補(bǔ)丁在視頻生成中實(shí)現(xiàn)了類似的效率。這種方法可以更有效地從海量數(shù)據(jù)集中學(xué)習(xí)，提高模型生成高保真視頻的能力，同時(shí)其所需的計(jì)算量與現(xiàn)有建模架構(gòu)相比也減少了。

將物理世界帶入生活：Sora 對(duì) 3D 和連續(xù)性的把握

3D 空間和物體持久性是 Sora 演示中的關(guān)鍵亮點(diǎn)之一。通過對(duì)各種視頻數(shù)據(jù)進(jìn)行訓(xùn)練，無需調(diào)整或預(yù)處理視頻，Sora 學(xué)會(huì)了以令人印象深刻的精度對(duì)物理世界建模，因?yàn)樗軌蚴褂迷夹问降挠?xùn)練數(shù)據(jù)。

它可以生成數(shù)字世界和視頻，其中對(duì)象和角色在三維空間中令人信服地移動(dòng)和交互，即使它們被遮擋或離開鏡頭也能保持連貫性。

展望未來：Sora 的未來影響

Sora 為生成式模型的潛能設(shè)立了新的標(biāo)準(zhǔn)。這種方法很可能會(huì)激發(fā)開源社區(qū)嘗試和推進(jìn)視覺模式的能力，推動(dòng)新一代生成式模型的發(fā)展，突破創(chuàng)造力和現(xiàn)實(shí)主義的界限。

Sora 的旅程才剛剛開始，正如 OpenAI 所說，“擴(kuò)展視頻生成模型是構(gòu)建物理世界通用模擬器的一條有希望的道路”。

Sora 的方法將最新的人工智能研究與實(shí)際應(yīng)用相結(jié)合，預(yù)示著生成式模型的光明未來。隨著這些技術(shù)的不斷發(fā)展，它們有望重新定義我們與數(shù)字內(nèi)容的交互方式，使高保真、動(dòng)態(tài)視頻的創(chuàng)建變得更加容易和多樣化。

原文鏈接：https://towardsdatascience.com/explaining-openai-soras-spacetime-patches-the-key-ingredient-e14e0703ec5b

（首圖來源：圖蟲；正文中配圖來源：AI前線）

你“在看”我嗎？

來源：AI星球

重要提示：本文僅代表作者個(gè)人觀點(diǎn)，并不代表樂居財(cái)經(jīng)立場。本文著作權(quán)，歸樂居財(cái)經(jīng)所有。未經(jīng)允許，任何單位或個(gè)人不得在任何公開傳播平臺(tái)上使用本文內(nèi)容；經(jīng)允許進(jìn)行轉(zhuǎn)載或引用時(shí)，請注明來源。聯(lián)系請發(fā)郵件至ljcj@leju.com，或點(diǎn)擊【聯(lián)系客服】