網(wǎng)友將搞怪視頻打上“該視頻由sora生成的標(biāo)簽”

另一方面,雖然Sora并沒有開放使用,但網(wǎng)絡(luò)上卻出現(xiàn)了一大批“培訓(xùn)機(jī)構(gòu)”,利用行業(yè)焦慮和信息不對(duì)稱,打起了收割韭菜的算盤。一個(gè)自稱清華博士的賣課博主,入門AI課達(dá)到了199元一份,光是在視頻號(hào)里,就賣出了520多份。還有人扒出,這門AI課他一年售出了25萬套,銷售額將近5000萬。于是網(wǎng)友們紛紛陰陽怪氣地稱他為:唯一可以與奧特曼平起平坐的AI巨頭。 

圖片1.png

網(wǎng)友制作的梗圖

Sora究竟是什么?

Sora,源自日語“空(そら,發(fā)音為sora)”,不僅指代天空,還象征著無垠的空間和無限的可能性,從而引申出自由的寓意。在OpenAI關(guān)于Sora的介紹中,首頁就可以看到無數(shù)在空中自由飛翔的紙飛機(jī),象征著Sora模型的自主性和創(chuàng)造性,反映出“空”所蘊(yùn)含的自由理念。 

2.gif

Sora介紹頁面

關(guān)于Sora生成的各種視頻我想大伙應(yīng)該都已經(jīng)見得不少了,相信很多人在看完視頻之后都會(huì)有一個(gè)疑問:Sora是如何生成視頻的呢?

在OpenAI放出的技術(shù)報(bào)告中是這樣描述Sora的:Sora是一個(gè)“擴(kuò)散變換器(Diffusion Transformer)”。與傳統(tǒng)的變換器(包括編碼器和解碼器)在處理方式上存在類似之處,但其處理的并不是文本標(biāo)簽,而是被稱為“補(bǔ)丁(Patches)”的視覺數(shù)據(jù)。 

圖片2.png

補(bǔ)?。≒atches),其實(shí)就是大模型在處理視頻和圖像數(shù)據(jù)時(shí),將視覺數(shù)據(jù)分解成小塊或小部分的一種方法。通過將視頻壓縮到一個(gè)低維度的潛在空間,把空間的標(biāo)識(shí)分解成為多個(gè)補(bǔ)丁,以此來讓模型更好地處理和生成高質(zhì)量的視頻和圖像內(nèi)容。這種方法的優(yōu)勢(shì)在于能夠允許模型處理不同分辨率、持續(xù)時(shí)間和寬高比的視覺數(shù)據(jù),為視頻和圖像生成提供了更大的靈活性和能力。 

圖片3.png

視覺編碼過程

而“擴(kuò)散變換器”則是一種結(jié)合了擴(kuò)散模型和變換器架構(gòu)的技術(shù),能夠通過利用變換器處理數(shù)據(jù)間復(fù)雜關(guān)系的能力,以及擴(kuò)散模型逐步精煉數(shù)據(jù)的策略,來生成或預(yù)測(cè)視頻和圖像中的“干凈”補(bǔ)丁,逐步從包含噪聲的數(shù)據(jù)中恢復(fù)出干凈的數(shù)據(jù),來生成圖像或視頻。

我們舉個(gè)簡(jiǎn)單的例子,假如我們現(xiàn)在有一張狗狗的照片,我們可以一步步給這張照片增加噪點(diǎn),讓它變得越來越模糊,最終會(huì)變成一堆雜亂的噪點(diǎn)。如果我們把這個(gè)過程倒過來,對(duì)于一堆雜亂無章的噪點(diǎn),我們同樣可以一步步去除噪點(diǎn),把它還原成目標(biāo)圖片,而擴(kuò)散模型的關(guān)鍵就在于學(xué)會(huì)逆向去除噪點(diǎn)。

圖片4.png

事實(shí)上,此前大火的Midjourney和Stable Diffusion的圖像和視頻生成器就同樣基于擴(kuò)散模型,不過不同的是Sora能夠通過讓模型一次預(yù)測(cè)多幀畫面,確保了即使被攝體在離開視線后仍然能保持不變,也使其展示出了對(duì)影視拍攝語法的全新自發(fā)理解,不僅可以跟隨對(duì)象移動(dòng)鏡頭,還可以在移動(dòng)鏡頭轉(zhuǎn)換角度的時(shí)候,仍然能夠保持畫面的合理與完整。

Sora另一個(gè)很強(qiáng)的地方在于,它“繼承”了OpenAI對(duì)文本的理解能力,能夠根據(jù)提示詞生成高質(zhì)量的圖片和視頻,并且能夠?qū)σ曨l進(jìn)行向前或向后的擴(kuò)展,例如,在這個(gè)官網(wǎng)展示的這個(gè)視頻中,Sora能夠基于同一個(gè)視頻開頭進(jìn)行拓展,延伸出不一樣的結(jié)尾,或從不同的開頭引入,最終得到同一個(gè)結(jié)尾。 

圖片5.png

三個(gè)視頻開頭最終都會(huì)走向同一個(gè)結(jié)尾

不過事實(shí)上,OpenAI的野心遠(yuǎn)不止于此,Sora不僅是一個(gè)創(chuàng)造性的工具,它實(shí)際上還是一個(gè)基于數(shù)據(jù)的復(fù)雜模擬系統(tǒng),能夠模擬現(xiàn)實(shí)或想象中的世界。它通過學(xué)習(xí)如何正確地渲染場(chǎng)景、模擬物理行為、進(jìn)行長(zhǎng)期推理和理解場(chǎng)景的含義,從而創(chuàng)建出逼真的 3D 場(chǎng)景和動(dòng)畫。

這就使其能夠創(chuàng)造出很多現(xiàn)實(shí)中不存在的視頻,例如在下面這個(gè)視頻中,提示詞為“兩艘海盜船在一杯咖啡中航行時(shí)相互爭(zhēng)斗的逼真特寫視頻”。這樣的要求不僅需要Sora生成一個(gè)逼真的3D模型,還需要讓這些模型根據(jù)物理規(guī)則動(dòng)畫化,并模擬液體的動(dòng)力學(xué),還要使用高級(jí)渲染技術(shù)來實(shí)現(xiàn)照片級(jí)的真實(shí)感,即使場(chǎng)景的語義在現(xiàn)實(shí)世界中并不存在,但引擎仍然能實(shí)現(xiàn)我們期望的正確物理規(guī)則。 

4.gif

這一點(diǎn)雖然目前Sora仍有缺陷,但確是一個(gè)很有前景的目標(biāo),通過建立這樣一個(gè)復(fù)雜的模擬系統(tǒng),我們就能夠?qū)φ鎸?shí)世界進(jìn)行建模和預(yù)測(cè),甚至是構(gòu)建起真實(shí)世界的數(shù)字交互。無論Google、OpenAI還是馬斯克的xAI,終極目的都是構(gòu)建起世界模型,就比方說電影《流浪地球2》里面的MOSS,就是一個(gè)強(qiáng)人工智能的化身,能夠通過構(gòu)建真實(shí)世界模型,再加上強(qiáng)大的算力,來推演不同選擇導(dǎo)致的結(jié)果,達(dá)到預(yù)測(cè)的目的,這或許就是很多人眼中AI的終極形態(tài)了吧。

不過無論如何,這些都是后話了。

圖片6.png

Sora真會(huì)砸掉整個(gè)影視行業(yè)的飯碗?

事實(shí)上,人工智能從誕生的那一天起,就常常會(huì)成為很多人幻想中的“假想敵”,而隨著ChatGPT等新工具的發(fā)展,對(duì)于AI的遙遠(yuǎn)恐懼漸漸演變成了近在眼前的對(duì)飯碗的深深擔(dān)憂,在Sora發(fā)布后更是如此。

單就Sora生成視頻的能力來看,首當(dāng)其沖的必然是影視從業(yè)者。畢竟傳統(tǒng)方式制作一段1分鐘的視頻成本非常高,除了場(chǎng)景、燈光、演員,還要提前溝通分鏡、找好角度、考慮好攝像機(jī)與演員的走位等。如果再需要一些特殊因素,例如轉(zhuǎn)瞬即逝的光影、理想的天氣條件等,那就更要賭一賭運(yùn)氣了。

而這一切在Sora這里都不是問題,只要通過簡(jiǎn)單的提示語句,就可以直接生成視頻,而且相較于之前的AI工具,無論是視頻的時(shí)長(zhǎng)、畫面精細(xì)度,還是細(xì)節(jié)的完整性,甚至是多鏡頭拍攝,Sora都可以用“碾壓”來概括,很明顯將會(huì)為相關(guān)從業(yè)者帶來更大影響。 

圖片7.png

網(wǎng)友制作的梗圖,好萊塢經(jīng)典標(biāo)識(shí)“HOLLYWOOD”變成了“SORAWOOD”

行業(yè)調(diào)查公司CVL Economics不久前發(fā)布的一項(xiàng)對(duì)好萊塢行業(yè)領(lǐng)袖的調(diào)查顯示,目前憂慮的情緒正籠罩著整個(gè)好萊塢,36%的受訪者表示生成式AI已經(jīng)減少了他們公司的日常工作技能需求,72%的受訪公司都是生成式AI工具的最早采用者。

而在這其中還有75%的受訪者表示,生成式AI工具已經(jīng)促使他們業(yè)務(wù)部門削減與合并相關(guān)的工作崗位。還有人預(yù)計(jì),未來三年好萊塢總計(jì)會(huì)有超過20萬人的工作崗位會(huì)受到AI沖擊,其中尤其是視覺特效、音效師、畫圖師等后期工作崗位。 

圖片8.png

事實(shí)上,受到影響的并不只有影視行業(yè)從業(yè)者。面對(duì)來自Sora的“降維打擊”,AI視頻領(lǐng)域的創(chuàng)業(yè)者中,有的如Runway CEO克里斯托瓦爾·巴倫蘇埃拉一樣,做好了“Game On”的準(zhǔn)備,有的如Pika創(chuàng)始人郭文景一樣,開始籌備對(duì)標(biāo)Sora的新產(chǎn)品,也有人如Stability AI CEO埃馬德·莫斯塔克一樣,不由感慨“阿爾特曼真是一個(gè)魔術(shù)師”,并將Sora視為AI視頻界的GPT-3時(shí)刻。這一次,很多人真的感受到了危機(jī)感。

風(fēng)物長(zhǎng)宜放眼量

雖然Sora確實(shí)很勁爆,但如果因此而過分焦慮也大可不必。一方面由于Sora在其生成的視頻中仍然存在很多經(jīng)典的“靈魂錯(cuò)誤”。例如在很多視頻中,人物、動(dòng)物會(huì)憑空消失、變形或者變出分身;還會(huì)出現(xiàn)一些違背物理常識(shí)的“鬧鬼”畫面,像人吹過的蠟燭沒有變化、穿過籃筐的籃球、懸浮移動(dòng)的椅子等。 

5.gif

Sora生成的視頻中,老人吹蠟燭前后火苗紋絲不動(dòng),略顯詭異

另一方面也在于,AI在視頻生成的邏輯與人類的創(chuàng)作邏輯是截然不同的,這從根本上決定了Sora并不能真正辨別故事的好壞。畢竟影視是從人的情感出發(fā),最后也以觸動(dòng)人類情感為目的,也許隨著生成技術(shù)的發(fā)展,其視頻邏輯、質(zhì)量和對(duì)真實(shí)世界的模擬程度會(huì)有更高的提升,但卻不能代替人類在影視制作過程中起到的作用。還有很多人認(rèn)為,越是機(jī)器生成的東西,很多時(shí)候會(huì)愈發(fā)讓我們感受到人類之作的珍貴,例如帶著“鍋氣”的食物很多時(shí)候優(yōu)于預(yù)制菜、凝聚了工人心血的器具雖然精確度不如機(jī)械但卻有更多的“溫度”……這樣的例子可謂俯仰皆是,更何況是在影視這一最能體現(xiàn)人類情感、囊括各種藝術(shù)門類的綜合藝術(shù)呢?

事實(shí)上,除開影視劇作、劇情設(shè)計(jì)等方面的元素,即使僅從視頻呈現(xiàn)的而言,AI生成的內(nèi)容在信息量上并不能與真實(shí)拍攝相比,例如在很多電影場(chǎng)景中,人物的表達(dá)、語氣、表情的背后,不僅是各種細(xì)膩的人類情感,舉手投足之間積累的是半生的經(jīng)歷、情緒與風(fēng)土人情的總和。

這些內(nèi)容雖然看似并不顯眼,但卻時(shí)時(shí)刻刻都在傳達(dá)很多信息,正是這些內(nèi)容才真正組合成了每一個(gè)與眾不同的人,也經(jīng)由各種反應(yīng)、互動(dòng)形成了人物之間情緒的流動(dòng),也正是這些細(xì)節(jié)的變化,在無聲無息地影響著我們的情緒,為我們帶來感動(dòng),這是生成式AI很難做到的,或許這才是很多AI生成視頻看起來“沒有靈魂”的根本原因。

20180430114536_JG4mz.jpeg

幾乎全片都由對(duì)話構(gòu)成的經(jīng)典電影《愛在黎明破曉前》

此外,在影視行業(yè)中使用AI早已不是新鮮事,此前曾在好萊塢橫掃最佳影片、最佳導(dǎo)演等7大獎(jiǎng)項(xiàng)的《瞬息全宇宙》就曾使用Runway的AI視頻工具,去年21世紀(jì)福克斯已經(jīng)與IBM沃森合作,用AI工具為關(guān)于AI主題的恐怖片《摩根》制作預(yù)告片,迪士尼旗下的漫威則完全使用AI制作了《秘密入侵》的開頭動(dòng)畫。

不久前,NVIDIA創(chuàng)始人黃仁勛曾在一次參訪中表示,“在過去的10年、15年中,幾乎每個(gè)人都會(huì)告訴你,學(xué)計(jì)算機(jī)對(duì)孩子來說至關(guān)重要,每個(gè)人都該學(xué)習(xí)如何編程。但事實(shí)上,情況完全相反,我們的工作是創(chuàng)造計(jì)算技術(shù),使得任何人都不再需要編程,使得編程語言變成人性的,現(xiàn)在世界上每一個(gè)人都是程序員,技術(shù)鴻溝已經(jīng)完全彌合?!?/p>

圖片9.png

而這似乎成為了AI時(shí)代的真實(shí)寫照,無論ChatGPT-4也好、Sora也罷,通過借助日新月異的新技術(shù),不懂編程語言的人也能夠制作軟件程序,沒有影視相關(guān)技術(shù)背景的人也能夠從容地制作自己的視頻,這無疑將會(huì)進(jìn)一步,激活新的產(chǎn)能,促進(jìn)行業(yè)的發(fā)展,甚至是讓人和人之間產(chǎn)生新的鏈接,這或許才是生成式AI的更大意義。

我們有理由期待,未來必然會(huì)有更多的AI技術(shù)和電影或電視劇制作的結(jié)合與創(chuàng)新,也許會(huì)出現(xiàn)一些我們從未想象過的精彩作品,給我們帶來更多驚喜。

點(diǎn)個(gè)贊6189
分享到:

發(fā)表評(píng)論注冊(cè)|