網(wǎng)友將搞怪視頻打上“該視頻由sora生成的標(biāo)簽”

另一方面，雖然Sora并沒有開放使用，但網(wǎng)絡(luò)上卻出現(xiàn)了一大批“培訓(xùn)機(jī)構(gòu)”，利用行業(yè)焦慮和信息不對(duì)稱，打起了收割韭菜的算盤。一個(gè)自稱清華博士的賣課博主，入門AI課達(dá)到了199元一份，光是在視頻號(hào)里，就賣出了520多份。還有人扒出，這門AI課他一年售出了25萬套，銷售額將近5000萬。于是網(wǎng)友們紛紛陰陽怪氣地稱他為：唯一可以與奧特曼平起平坐的AI巨頭。

圖片1.png

網(wǎng)友制作的梗圖

Sora究竟是什么？

Sora，源自日語“空（そら，發(fā)音為sora）”，不僅指代天空，還象征著無垠的空間和無限的可能性，從而引申出自由的寓意。在OpenAI關(guān)于Sora的介紹中，首頁就可以看到無數(shù)在空中自由飛翔的紙飛機(jī)，象征著Sora模型的自主性和創(chuàng)造性，反映出“空”所蘊(yùn)含的自由理念。

Sora介紹頁面

關(guān)于Sora生成的各種視頻我想大伙應(yīng)該都已經(jīng)見得不少了，相信很多人在看完視頻之后都會(huì)有一個(gè)疑問：Sora是如何生成視頻的呢？

在OpenAI放出的技術(shù)報(bào)告中是這樣描述Sora的：Sora是一個(gè)“擴(kuò)散變換器（Diffusion Transformer）”。與傳統(tǒng)的變換器（包括編碼器和解碼器）在處理方式上存在類似之處，但其處理的并不是文本標(biāo)簽，而是被稱為“補(bǔ)丁（Patches）”的視覺數(shù)據(jù)。

圖片2.png

補(bǔ)?。≒atches），其實(shí)就是大模型在處理視頻和圖像數(shù)據(jù)時(shí)，將視覺數(shù)據(jù)分解成小塊或小部分的一種方法。通過將視頻壓縮到一個(gè)低維度的潛在空間，把空間的標(biāo)識(shí)分解成為多個(gè)補(bǔ)丁，以此來讓模型更好地處理和生成高質(zhì)量的視頻和圖像內(nèi)容。這種方法的優(yōu)勢(shì)在于能夠允許模型處理不同分辨率、持續(xù)時(shí)間和寬高比的視覺數(shù)據(jù)，為視頻和圖像生成提供了更大的靈活性和能力。

圖片3.png

視覺編碼過程

而“擴(kuò)散變換器”則是一種結(jié)合了擴(kuò)散模型和變換器架構(gòu)的技術(shù)，能夠通過利用變換器處理數(shù)據(jù)間復(fù)雜關(guān)系的能力，以及擴(kuò)散模型逐步精煉數(shù)據(jù)的策略，來生成或預(yù)測(cè)視頻和圖像中的“干凈”補(bǔ)丁，逐步從包含噪聲的數(shù)據(jù)中恢復(fù)出干凈的數(shù)據(jù)，來生成圖像或視頻。

我們舉個(gè)簡(jiǎn)單的例子，假如我們現(xiàn)在有一張狗狗的照片，我們可以一步步給這張照片增加噪點(diǎn)，讓它變得越來越模糊，最終會(huì)變成一堆雜亂的噪點(diǎn)。如果我們把這個(gè)過程倒過來，對(duì)于一堆雜亂無章的噪點(diǎn)，我們同樣可以一步步去除噪點(diǎn)，把它還原成目標(biāo)圖片，而擴(kuò)散模型的關(guān)鍵就在于學(xué)會(huì)逆向去除噪點(diǎn)。

圖片4.png

事實(shí)上，此前大火的Midjourney和Stable Diffusion的圖像和視頻生成器就同樣基于擴(kuò)散模型，不過不同的是Sora能夠通過讓模型一次預(yù)測(cè)多幀畫面，確保了即使被攝體在離開視線后仍然能保持不變，也使其展示出了對(duì)影視拍攝語法的全新自發(fā)理解，不僅可以跟隨對(duì)象移動(dòng)鏡頭，還可以在移動(dòng)鏡頭轉(zhuǎn)換角度的時(shí)候，仍然能夠保持畫面的合理與完整。

Sora另一個(gè)很強(qiáng)的地方在于，它“繼承”了OpenAI對(duì)文本的理解能力，能夠根據(jù)提示詞生成高質(zhì)量的圖片和視頻，并且能夠?qū)σ曨l進(jìn)行向前或向后的擴(kuò)展，例如，在這個(gè)官網(wǎng)展示的這個(gè)視頻中，Sora能夠基于同一個(gè)視頻開頭進(jìn)行拓展，延伸出不一樣的結(jié)尾，或從不同的開頭引入，最終得到同一個(gè)結(jié)尾。

圖片5.png

三個(gè)視頻開頭最終都會(huì)走向同一個(gè)結(jié)尾

不過事實(shí)上，OpenAI的野心遠(yuǎn)不止于此，Sora不僅是一個(gè)創(chuàng)造性的工具，它實(shí)際上還是一個(gè)基于數(shù)據(jù)的復(fù)雜模擬系統(tǒng)，能夠模擬現(xiàn)實(shí)或想象中的世界。它通過學(xué)習(xí)如何正確地渲染場(chǎng)景、模擬物理行為、進(jìn)行長(zhǎng)期推理和理解場(chǎng)景的含義，從而創(chuàng)建出逼真的 3D 場(chǎng)景和動(dòng)畫。

這就使其能夠創(chuàng)造出很多現(xiàn)實(shí)中不存在的視頻，例如在下面這個(gè)視頻中，提示詞為“兩艘海盜船在一杯咖啡中航行時(shí)相互爭(zhēng)斗的逼真特寫視頻”。這樣的要求不僅需要Sora生成一個(gè)逼真的3D模型，還需要讓這些模型根據(jù)物理規(guī)則動(dòng)畫化，并模擬液體的動(dòng)力學(xué)，還要使用高級(jí)渲染技術(shù)來實(shí)現(xiàn)照片級(jí)的真實(shí)感，即使場(chǎng)景的語義在現(xiàn)實(shí)世界中并不存在，但引擎仍然能實(shí)現(xiàn)我們期望的正確物理規(guī)則。

這一點(diǎn)雖然目前Sora仍有缺陷，但確是一個(gè)很有前景的目標(biāo)，通過建立這樣一個(gè)復(fù)雜的模擬系統(tǒng)，我們就能夠?qū)φ鎸?shí)世界進(jìn)行建模和預(yù)測(cè)，甚至是構(gòu)建起真實(shí)世界的數(shù)字交互。無論Google、OpenAI還是馬斯克的xAI，終極目的都是構(gòu)建起世界模型，就比方說電影《流浪地球2》里面的MOSS，就是一個(gè)強(qiáng)人工智能的化身，能夠通過構(gòu)建真實(shí)世界模型，再加上強(qiáng)大的算力，來推演不同選擇導(dǎo)致的結(jié)果，達(dá)到預(yù)測(cè)的目的，這或許就是很多人眼中AI的終極形態(tài)了吧。

不過無論如何，這些都是后話了。

圖片6.png

Sora真會(huì)砸掉整個(gè)影視行業(yè)的飯碗？

事實(shí)上，人工智能從誕生的那一天起，就常常會(huì)成為很多人幻想中的“假想敵”，而隨著ChatGPT等新工具的發(fā)展，對(duì)于AI的遙遠(yuǎn)恐懼漸漸演變成了近在眼前的對(duì)飯碗的深深擔(dān)憂，在Sora發(fā)布后更是如此。

單就Sora生成視頻的能力來看，首當(dāng)其沖的必然是影視從業(yè)者。畢竟傳統(tǒng)方式制作一段1分鐘的視頻成本非常高，除了場(chǎng)景、燈光、演員，還要提前溝通分鏡、找好角度、考慮好攝像機(jī)與演員的走位等。如果再需要一些特殊因素，例如轉(zhuǎn)瞬即逝的光影、理想的天氣條件等，那就更要賭一賭運(yùn)氣了。

而這一切在Sora這里都不是問題，只要通過簡(jiǎn)單的提示語句，就可以直接生成視頻，而且相較于之前的AI工具，無論是視頻的時(shí)長(zhǎng)、畫面精細(xì)度，還是細(xì)節(jié)的完整性，甚至是多鏡頭拍攝，Sora都可以用“碾壓”來概括，很明顯將會(huì)為相關(guān)從業(yè)者帶來更大影響。

圖片7.png

網(wǎng)友制作的梗圖，好萊塢經(jīng)典標(biāo)識(shí)“HOLLYWOOD”變成了“SORAWOOD”

行業(yè)調(diào)查公司CVL Economics不久前發(fā)布的一項(xiàng)對(duì)好萊塢行業(yè)領(lǐng)袖的調(diào)查顯示，目前憂慮的情緒正籠罩著整個(gè)好萊塢，36%的受訪者表示生成式AI已經(jīng)減少了他們公司的日常工作技能需求，72%的受訪公司都是生成式AI工具的最早采用者。

而在這其中還有75%的受訪者表示，生成式AI工具已經(jīng)促使他們業(yè)務(wù)部門削減與合并相關(guān)的工作崗位。還有人預(yù)計(jì)，未來三年好萊塢總計(jì)會(huì)有超過20萬人的工作崗位會(huì)受到AI沖擊，其中尤其是視覺特效、音效師、畫圖師等后期工作崗位。

圖片8.png

事實(shí)上，受到影響的并不只有影視行業(yè)從業(yè)者。面對(duì)來自Sora的“降維打擊”，AI視頻領(lǐng)域的創(chuàng)業(yè)者中，有的如Runway CEO克里斯托瓦爾·巴倫蘇埃拉一樣，做好了“Game On”的準(zhǔn)備，有的如Pika創(chuàng)始人郭文景一樣，開始籌備對(duì)標(biāo)Sora的新產(chǎn)品，也有人如Stability AI CEO埃馬德·莫斯塔克一樣，不由感慨“阿爾特曼真是一個(gè)魔術(shù)師”，并將Sora視為AI視頻界的GPT-3時(shí)刻。這一次，很多人真的感受到了危機(jī)感。

風(fēng)物長(zhǎng)宜放眼量

雖然Sora確實(shí)很勁爆，但如果因此而過分焦慮也大可不必。一方面由于Sora在其生成的視頻中仍然存在很多經(jīng)典的“靈魂錯(cuò)誤”。例如在很多視頻中，人物、動(dòng)物會(huì)憑空消失、變形或者變出分身；還會(huì)出現(xiàn)一些違背物理常識(shí)的“鬧鬼”畫面，像人吹過的蠟燭沒有變化、穿過籃筐的籃球、懸浮移動(dòng)的椅子等。

Sora生成的視頻中，老人吹蠟燭前后火苗紋絲不動(dòng)，略顯詭異

另一方面也在于，AI在視頻生成的邏輯與人類的創(chuàng)作邏輯是截然不同的，這從根本上決定了Sora并不能真正辨別故事的好壞。畢竟影視是從人的情感出發(fā)，最后也以觸動(dòng)人類情感為目的，也許隨著生成技術(shù)的發(fā)展，其視頻邏輯、質(zhì)量和對(duì)真實(shí)世界的模擬程度會(huì)有更高的提升，但卻不能代替人類在影視制作過程中起到的作用。還有很多人認(rèn)為，越是機(jī)器生成的東西，很多時(shí)候會(huì)愈發(fā)讓我們感受到人類之作的珍貴，例如帶著“鍋氣”的食物很多時(shí)候優(yōu)于預(yù)制菜、凝聚了工人心血的器具雖然精確度不如機(jī)械但卻有更多的“溫度”……這樣的例子可謂俯仰皆是，更何況是在影視這一最能體現(xiàn)人類情感、囊括各種藝術(shù)門類的綜合藝術(shù)呢？

事實(shí)上，除開影視劇作、劇情設(shè)計(jì)等方面的元素，即使僅從視頻呈現(xiàn)的而言，AI生成的內(nèi)容在信息量上并不能與真實(shí)拍攝相比，例如在很多電影場(chǎng)景中，人物的表達(dá)、語氣、表情的背后，不僅是各種細(xì)膩的人類情感，舉手投足之間積累的是半生的經(jīng)歷、情緒與風(fēng)土人情的總和。

這些內(nèi)容雖然看似并不顯眼，但卻時(shí)時(shí)刻刻都在傳達(dá)很多信息，正是這些內(nèi)容才真正組合成了每一個(gè)與眾不同的人，也經(jīng)由各種反應(yīng)、互動(dòng)形成了人物之間情緒的流動(dòng)，也正是這些細(xì)節(jié)的變化，在無聲無息地影響著我們的情緒，為我們帶來感動(dòng)，這是生成式AI很難做到的，或許這才是很多AI生成視頻看起來“沒有靈魂”的根本原因。

幾乎全片都由對(duì)話構(gòu)成的經(jīng)典電影《愛在黎明破曉前》

此外，在影視行業(yè)中使用AI早已不是新鮮事，此前曾在好萊塢橫掃最佳影片、最佳導(dǎo)演等7大獎(jiǎng)項(xiàng)的《瞬息全宇宙》就曾使用Runway的AI視頻工具，去年21世紀(jì)福克斯已經(jīng)與IBM沃森合作，用AI工具為關(guān)于AI主題的恐怖片《摩根》制作預(yù)告片，迪士尼旗下的漫威則完全使用AI制作了《秘密入侵》的開頭動(dòng)畫。

不久前，NVIDIA創(chuàng)始人黃仁勛曾在一次參訪中表示，“在過去的10年、15年中，幾乎每個(gè)人都會(huì)告訴你，學(xué)計(jì)算機(jī)對(duì)孩子來說至關(guān)重要，每個(gè)人都該學(xué)習(xí)如何編程。但事實(shí)上，情況完全相反，我們的工作是創(chuàng)造計(jì)算技術(shù)，使得任何人都不再需要編程，使得編程語言變成人性的，現(xiàn)在世界上每一個(gè)人都是程序員，技術(shù)鴻溝已經(jīng)完全彌合?！?/p>

圖片9.png

而這似乎成為了AI時(shí)代的真實(shí)寫照，無論ChatGPT-4也好、Sora也罷，通過借助日新月異的新技術(shù)，不懂編程語言的人也能夠制作軟件程序，沒有影視相關(guān)技術(shù)背景的人也能夠從容地制作自己的視頻，這無疑將會(huì)進(jìn)一步，激活新的產(chǎn)能，促進(jìn)行業(yè)的發(fā)展，甚至是讓人和人之間產(chǎn)生新的鏈接，這或許才是生成式AI的更大意義。

我們有理由期待，未來必然會(huì)有更多的AI技術(shù)和電影或電視劇制作的結(jié)合與創(chuàng)新，也許會(huì)出現(xiàn)一些我們從未想象過的精彩作品，給我們帶來更多驚喜。

點(diǎn)個(gè)贊6189

發(fā)表評(píng)論注冊(cè)|登錄

熱點(diǎn)資訊

好物推薦