為了方便理解,我們簡單總結了這個模型的強大之處:

1、文本到視頻生成能力:Sora能夠根據用戶提供的文本描述生成長達60S的視頻,這些視頻不僅保持了視覺品質,而且完整準確還原了用戶的提示語。

2、復雜場景和角色生成能力:Sora能夠生成包含多個角色、特定運動類型以及主題精確、背景細節復雜的場景。它能夠創造出生動的角色表情和復雜的運鏡,使得生成的視頻具有高度的逼真性和敘事效果。

3、語言理解能力:Sora擁有深入的語言理解能力,能夠準確解釋提示并生成能表達豐富情感的角色。這使得模型能夠更好地理解用戶的文本指令,并在生成的視頻內容中忠實地反映這些指令。

4、多鏡頭生成能力:Sora可以在單個生成的視頻中創建多個鏡頭,同時保持角色和視覺風格的一致性。這種能力對于制作電影預告片、動畫或其他需要多視角展示的內容非常有用。

5、從靜態圖像生成視頻能力:Sora不僅能夠從文本生成視頻,還能夠從現有的靜態圖像開始,準確地動畫化圖像內容,或者擴展現有視頻,填補視頻中的缺失幀。

6、物理世界模擬能力:Sora展示了人工智能在理解真實世界場景并與之互動的能力,這是朝著實現通用人工智能(AGI)的重要一步。它能夠模擬真實物理世界的運動,如物體的移動和相互作用。

可以說,Sora的出現,預示著一個全新的視覺敘事時代的到來,它能夠將人們的想象力轉化為生動的動態畫面,將文字的魔力轉化為視覺的盛宴。在這個由數據和算法編織的未來,Sora正以其獨特的方式,重新定義著我們與數字世界的互動。

01

以下為OpenAI文生視頻模型Sora官方技術報告

我們探索了利用視頻數據對生成模型進行大規模訓練。具體來說,我們在不同持續時間、分辨率和縱橫比的視頻和圖像上聯合訓練了以文本為輸入條件的擴散模型。我們引入了一種transformer架構,該架構對視頻的時空序列包和圖像潛在編碼進行操作。我們最頂尖的模型Sora已經能夠生成最長一分鐘的高保真視頻,這標志著我們在視頻生成領域取得了重大突破。我們的研究結果表明,通過擴大視頻生成模型的規模,我們有望構建出能夠模擬物理世界的通用模擬器,這無疑是一條極具前景的發展道路。

這份技術報告主要聚焦于兩大方面:首先,我們詳細介紹了一種將各類可視數據轉化為統一表示的方法,從而實現了對生成式模型的大規模訓練;其次,我們對Sora的能力及其局限性進行了深入的定性評估。需要注意的是,本報告并未涉及模型的具體技術細節。

在過去的研究中,許多團隊已經嘗試使用遞歸網絡、生成對抗網絡、自回歸Transformer和擴散模型等各種方法,對視頻數據的生成式建模進行了深入研究。然而,這些工作通常僅限于較窄類別的視覺數據、較短的視頻或固定大小的視頻上。相比之下,Sora作為一款通用的視覺數據模型,其卓越之處在于能夠生成跨越不同持續時間、縱橫比和分辨率的視頻和圖像,甚至包括生成長達一分鐘的高清視頻。

將可視數據轉換成數據包(patchs)

在可視數據的處理上,我們借鑒了大語言模型的成功經驗。這些模型通過對互聯網規模的數據進行訓練,獲得了強大的通用能力。同樣,我們考慮如何將這種優勢引入到可視數據的生成式模型中。大語言模型通過token將各種形式的文本代碼、數學和自然語言統一起來,而Sora則通過視覺包(patchs)實現了類似的效果。我們發現,對于不同類型的視頻和圖像,包是一種高度可擴展且有效的表示方式,對于訓練生成模型具有重要意義。

openai視頻生成模型sora爆火 OpenAI王炸模型官方技術報告解讀[多圖]圖片2

圖注:OpenAI專門設計的解碼器模型,它可以將生成的潛在表示重新映射回像素空間

在更高層次上,我們首先將視頻壓縮到一個低維度的潛在空間:這是通過對視頻進行時間和空間上的壓縮實現的。這個潛在空間可以看作是一個“時空包”的集合,從而將原始視頻轉化為這些包。

視頻壓縮網絡

我們專門訓練了一個網絡,專門負責降低視覺數據的維度。這個網絡接收原始視頻作為輸入,并輸出經過壓縮的潛在表示。Sora模型就是在這個壓縮后的潛在空間中接受訓練,并最終生成視頻。此外,我們還設計了一個解碼器模型,它可以將生成的潛在表示重新映射回像素空間,從而生成可視的視頻或圖像。

時空包

當給定一個壓縮后的輸入視頻時,我們會從中提取出一系列的時空包,這些包被用作轉換token。這一方案不僅適用于視頻,因為視頻本質上就是由連續幀構成的,所以圖像也可以看作是單幀的視頻。通過這種基于包的表示方式,Sora能夠跨越不同分辨率、持續時間和縱橫比的視頻和圖像進行訓練。在推理階段,我們只需在適當大小的網格中安排隨機初始化的包,就可以控制生成視頻的大小和分辨率。

用于視頻生成的縮放Transformers

Sora是一個擴散模型,它接受輸入的噪聲包(以及如文本提示等條件性輸入信息),然后被訓練去預測原始的“干凈”包。重要的是,Sora是一個基于擴散的轉換器模型,這種模型已經在多個領域展現了顯著的擴展性,包括語言建模、計算機視覺以及圖像生成等領域。

openai視頻生成模型sora爆火 OpenAI王炸模型官方技術報告解讀[多圖]圖片3

圖注:隨著訓練量的增加,擴散轉換器生成的樣本質量有了明顯提高

在這項工作中,我們發現擴散轉換器在視頻生成領域同樣具有巨大的潛力。我們展示了不同訓練階段下,使用相同種子和輸入的視頻樣本對比,結果證明了隨著訓練量的增加,樣本質量有著明顯的提高。

豐富的持續時間、分辨率與縱橫比

過去,圖像和視頻生成方法常常需要將視頻調整大小、裁剪或修剪至標準尺寸,如4秒、256x256分辨率的視頻。但Sora打破了這一常規,它直接在原始大小的數據上進行訓練,從而帶來了諸多優勢。

[1] [2] [3] 下一頁 在本頁閱讀全文

加載更多

ag·真人(中國)試玩平臺-IOS/安卓通用版/手機APP下載 類似軟件

猜你喜歡

ag·真人(中國)試玩平臺-IOS/安卓通用版/手機APP下載相關攻略
包含 ag·真人(中國)試玩平臺-IOS/安卓通用版/手機APP下載 的應用集