OpenAI sora是什麼意思 Sora是怎麼訓練出來的

OpenAIsora怎麼用?很多人還不知道這到底是什麼,這次我們就主要來討論一下這個問題,想要瞭解OpenAI sora的小夥伴,可以趕緊看看下面KALA遊戲小編帶來的介紹,方便大傢更好的瞭解Sora是如何訓練的,詳細的請趕緊來小編這裡瞭解一下。

OpenAI sora是什麼意思

OpenAI網站上的技術報告,主要提供瞭訓練Sora的方法,以及對其能力和局限性的定性評估。技術報告的13位作者中,有4位華人。報告也明確地說,不提供模型和實現細節。尤其是公眾和監管者最關註的數據來源。但是,這篇報告所列舉的32篇參考論文,已經提供瞭所有的方法和技術。OpenAI用一句話概括:“我們利用瞭一種在視頻和圖像潛碼的時空塊上操作的transformer架構”。具體點說就是:這幫大牛訓練瞭一個網絡,用於降低視覺數據的維度。許多專傢認為其視頻來源是Youtube。這個網絡以原始視頻為輸入,輸出一個在時間和空間上都被壓縮的潛在表示。Sora在這個壓縮的潛在空間內接受訓練,隨後也在此空間內生成視頻。他們還訓練瞭一個相應的解碼器模型,將生成的潛碼映射回像素空間。應該掌握四個關鍵詞:潛碼(latentcode),時空塊(spacetime patches),擴展 (scaling),通用模擬器 (general purposesimulators)。許多之前的研究已經通過各種方法研究瞭視頻數據的生成模型,包括循環網絡、生成對抗網絡、自回歸變換器和擴散模型。這些工作通常專註於視覺數據的一個狹窄類別、較短的視頻,或者固定大小的視頻。Sora是一個視覺數據的通用模型——它可以生成跨越不同持續時間、寬高比和分辨率的視頻和圖像,最長可達一分鐘的高清視頻。Sora是一個擴散模型;給定輸入的噪聲塊(和條件信息,如文本提示),它被訓練用於預測初始的“幹凈”塊。重要的是,Sora是一個擴散Transformer,在多個領域展示瞭顯著的擴展性能,包括語言建模、計算機視覺和圖像生成。Sora能夠適應寬屏1920x1080p視頻、豎屏1080x1920視頻以及它們之間的所有格式。這使得Sora能夠直接以不同設備的原生寬高比創建內容。它還允許我們在使用相同模型以全分辨率生成之前,快速原型化較小尺寸的內容。簡單地說,OpenAI集大成瞭先前的技術,而其中的每一項技術,都有過論文介紹,OpenAI在前人及同行研究的基礎之上,構建出Sora,一個非常重要的原因,是他們堅信數據-Transformer-擴展-湧現這一法則。下面是所有的參考論文及其為Sora所用之處:

Srivastava, Nitish, Elman Mansimov, 和 Ruslan Salakhudinov."使用LSTMs進行視頻表示的無監督學習." 國際機器學習會議. PMLR, 2015.

Chiappa, Silvia, 等. "循環環境模擬器." arXiv預印本 arXiv:1704.02254 (2017).

Ha, David, 和 Jürgen Schmidhuber. "世界模型." arXiv預印本 arXiv:1803.10122(2018).

(註:1-3,許多之前的研究已經通過各種方法研究瞭視頻數據的生成模型,包括循環網絡 )

Vondrick, Carl, Hamed Pirsiavash, 和 Antonio Torralba. "生成具有場景動態的視頻."神經信息處理系統進展 29 (2016).

Tulyakov, Sergey, 等. "MoCoGAN: 分解運動和內容以生成視頻." IEEE計算機視覺和模式識別會議論文集. 2018.

Clark, Aidan, Jeff Donahue, 和 Karen Simonyan. "在復雜數據集上生成對抗視頻." arXiv預印本arXiv:1907.06571 (2019).

Brooks, Tim, 等. "生成動態場景的長視頻." 神經信息處理系統會議進展 35 (2022): 31769-31781.

(註:4-7,生成對抗網絡的方法與技術)

Yan, Wilson, 等. "VideoGPT: 使用VQ-VAE和transformers生成視頻." arXiv預印本arXiv:2104.10157 (2021).

Wu, Chenfei, 等. "Nüwa: 為創造神經視覺世界進行視覺合成預訓練." 歐洲計算機視覺會議. 瑞士: 施普林格自然, 2022.

(註:8-9,自回歸Transformer )

Ho, Jonathan, 等. "Imagen視頻: 使用擴散模型生成高清視頻." arXiv預印本 arXiv:2210.02303(2022).

Blattmann, Andreas, 等. "對齊你的潛碼: 使用潛在擴散模型合成高分辨率視頻." IEEE/CVF計算機視覺和模式識別會議論文集.2023.

Gupta, Agrim, 等. "使用擴散模型生成逼真視頻." arXiv預印本 arXiv:2312.06662 (2023).

(註:10-12,擴散模型,如何逼真)

Vaswani, Ashish, 等. "註意力就是你所需要的一切." 神經信息處理系統進展 30 (2017).

Brown, Tom, 等. "語言模型是小樣本學習者." 神經信息處理系統會議進展 33 (2020): 1877-1901.

(註:13-14 ,作者從大型語言模型中受到的啟發是,通過對互聯網級數據進行訓練,可以獲得通用能力。)

Dosovitskiy, Alexey, 等. "一幅圖像值16x16個詞: 大規模圖像識別的transformers." arXiv預印本arXiv:2010.11929 (2020).

Arnab, Anurag, 等. "Vivit: 視頻視覺transformer." IEEE/CVF國際計算機視覺會議論文集. 2021.

He, Kaiming, 等. "掩碼自動編碼器是可擴展的視覺學習者." IEEE/CVF計算機視覺和模式識別會議論文集. 2022.

Dehghani, Mostafa, 等. "Patch n'Pack: NaViT, 適用於任何寬高比和分辨率的視覺transformer."arXiv預印本 arXiv:2307.06304 (2023).

(註:15-18,Transformer已經被證明在在計算機視覺中顯示出非凡的擴展特征,能訓練出適用於任何寬高比和分辨率的視頻)

Rombach, Robin, 等. "使用潛在擴散模型合成高分辨率圖像." IEEE/CVF計算機視覺和模式識別會議論文集.2022.

(註:通過把視頻壓縮成為低維度的潛碼空間,把視頻轉換為時空塊 )

OpenAI sora是什麼意思 Sora是怎麼訓練出來的

把視覺數據變成時空塊

Kingma, Diederik P., 和 Max Welling. "自編碼變分貝葉斯." arXiv預印本 arXiv:1312.6114(2013).

(註:訓練出一個能減少視覺維度數據的網絡)

Sohl-Dickstein, Jascha, 等. "使用非平衡熱力學的深度無監督學習." 國際機器學習會議. PMLR, 2015.

Ho, Jonathan, Ajay Jain, 和 Pieter Abbeel. "去噪擴散概率模型." 神經信息處理系統進展 33 (2020):6840-6851.

Nichol, Alexander Quinn, 和 Prafulla Dhariwal. "改進的去噪擴散概率模型." 國際機器學習會議. PMLR,2021.

Dhariwal, Prafulla, 和 Alexander Quinn Nichol. "擴散模型在圖像合成上勝過GANs."神經信息處理系統會議進展. 2021.

Karras, Tero, 等. "闡明基於擴散的生成模型的設計空間." 神經信息處理系統進展 35 (2022): 26565-26577.

(註:21-25, Sora是一個擴散模型,給定輸入的噪聲塊(和條件信息,如文本提示),它被訓練用於預測初始的“幹凈”塊 )

Peebles, William, 和 Saining Xie. "用transformers擴展擴散模型." IEEE/CVF國際計算機視覺會議論文集.2023.

(註:Sora是一個擴散Transformer)

OpenAI sora是什麼意思 Sora是怎麼訓練出來的

Transformer跨越不同的模態,其擴展功能依然有效

Chen, Mark, 等. "像素的生成預訓練." 國際機器學習會議. PMLR, 2020.

Ramesh, Aditya, 等. "零樣本文本到圖像生成." 國際機器學習會議. PMLR, 2021.

(註:27-28,Transformer在圖像生成方面具有非凡的擴展特征)

Yu, Jiahui, 等. "擴展自回歸模型以生成內容豐富的文生圖." arXiv預印本 arXiv:2206.10789 2.3 (2022):5.

Betker, James, 等. "用更好的圖說改善圖像生成." 計算機科學.https://cdn.openai.com/papers/dall-e-3.pdf 2.3 (2023): 8

(註:29-30,使用瞭Dall.E3的字幕和標題技術,用於視頻)

Ramesh, Aditya, 等. "使用CLIP潛碼的分層文本條件圖像生成." arXiv預印本 arXiv:2204.06125 1.2(2022): 3.

(註:30-31,用Dall.E2和Dall.E3圖像生成視頻)

Meng, Chenlin, 等. "Sdedit: 使用隨機微分方程的引導圖像合成和編輯." arXiv預印本 arXiv:2108.01073(2021).