Sora炸裂科技圈:真神還是焦慮制造機(jī)

0 評(píng)論 1018 瀏覽 2 收藏 14 分鐘

近日,Sora的爆火,掀起了一陣?yán)顺?,不禁讓人發(fā)問(wèn):憑什么出圈的又是Sora,它真有網(wǎng)上說(shuō)的那么神嗎?本文對(duì)其進(jìn)行探討,一起來(lái)看看本文的分析吧。

周鴻祎又口出狂言了。

他說(shuō),“AGI(通用人工智能)的實(shí)現(xiàn)將從10年縮短到1年”,而背后的原因,僅僅是因?yàn)橐粋€(gè)1分鐘的短視頻。

注意看,這個(gè)女人叫小美,她正向我們走來(lái)。雖然身處日本某條熱鬧的大街,小美卻總是不停地回頭張望,似乎在暗示觀眾鏡頭之外隱藏了不為人知的秘密。

▲圖:主角出場(chǎng)

鏡頭拉近,可以清晰看到小美修長(zhǎng)的脖子和優(yōu)美的下頜線,讓整個(gè)畫(huà)面充滿了令人無(wú)法抗拒的神秘和美感。

▲圖:細(xì)節(jié)展示

實(shí)際上,整個(gè)短視頻中,從街景到行人,包括小美,在現(xiàn)實(shí)中根本不存在。這是OpenAI最新產(chǎn)品Sora制作的演示視頻,而正是這個(gè)視頻,讓周鴻祎做出了AGI發(fā)展將會(huì)10倍提速的預(yù)言。

傳統(tǒng)方式制作這樣一段1分鐘的視頻成本非常高。除了需要選址,選演員,提前進(jìn)行分鏡構(gòu)圖,架設(shè)機(jī)位外等,想要碰上如此理想的天氣,還需要賭一賭運(yùn)氣。落日轉(zhuǎn)瞬即逝,一旦失誤就只能第二天重頭來(lái)過(guò)。

拍攝完成后,是非常耗時(shí)的后期制作。不僅要調(diào)整畫(huà)面色調(diào),還要仔細(xì)核對(duì)畫(huà)面中是否有瑕疵,比如眼鏡反射的畫(huà)面會(huì)不會(huì)導(dǎo)致穿幫、路人中是否出現(xiàn)不協(xié)調(diào)元素等等。

但Sora出馬,全部流程就是(字面意義上的)一句話的事。

Sora官網(wǎng)上公布了十幾段“制作”精良的高清演示短片, 從現(xiàn)實(shí)人物到3D動(dòng)畫(huà),所有短片都是通過(guò)一句話生成的。

▲圖:Sora展示視頻

看過(guò)這些短片后,我科技圈的朋友集體表示“炸裂”;大眾圈的朋友表示“AI都到了這種程度了嗎”;而攝影圈的朋友表示,盡管還是能看出和人類(lèi)攝影師有一點(diǎn)點(diǎn)差距,但依然被Sora的效果震撼了,進(jìn)而紛紛開(kāi)始和我討論起失業(yè)以后,除了送外賣(mài)還可以從事什么工作。

但如果我們拋開(kāi)網(wǎng)上鋪天蓋地、對(duì)Sora近乎玄幻的贊譽(yù),跳出官網(wǎng)演示視頻的魅惑就會(huì)發(fā)現(xiàn),Sora本質(zhì)上是生成式AI在視頻領(lǐng)域的一個(gè)應(yīng)用,一個(gè)diffusion transformer模型。

而官方宣傳的Sora所有功能,例如通過(guò)文字或者圖片生成高清短視頻,在此基礎(chǔ)上進(jìn)行擴(kuò)展生成一段更長(zhǎng)的視頻等,其實(shí)很多公司都在做。比較知名的產(chǎn)品包括已經(jīng)商用的Runway,免費(fèi)的Pika,以及還在完善階段的Google Lumiere、Meta Make-A-Video,還有一些知名度稍低的產(chǎn)品如Leonardo,F(xiàn)inalFrame等等。

這里就有一個(gè)很大的疑問(wèn):憑什么出圈的又是Sora,它真有網(wǎng)上說(shuō)的那么神嗎?

一、憑借更逼真的效果

OpenAI再次出圈1月24日,谷歌研究人員公布了一段Lumiere的演示視頻。畫(huà)質(zhì)非常高清,且真實(shí)。

▲圖:由Lumiere生成的游泳海龜視頻

Lumiere除了可以生成真實(shí)圖片外,還可以實(shí)現(xiàn)一鍵換裝、根據(jù)圖片和提示詞生成動(dòng)態(tài)視頻等功能。

▲圖:一鍵換裝

▲圖:通過(guò)圖片生成視頻

2月15日,剛剛過(guò)完情人節(jié)的谷歌在瘋狂星期四又重磅推出了下一代AI產(chǎn)品Gemini 1.5。在此前的演示視頻中,Gemini已經(jīng)展現(xiàn)了其在圖像識(shí)別和多輪對(duì)話中的逆天能力。

演示視頻中,演示人員畫(huà)了一個(gè)類(lèi)似鴨子的輪廓讓Gemini辨認(rèn),Gemini表示它覺(jué)得像個(gè)鳥(niǎo)。

▲圖:Gemini演示

但是當(dāng)演示人員畫(huà)上了波浪后,Gemini表示通過(guò)長(zhǎng)脖子長(zhǎng)嘴又會(huì)游泳這幾個(gè)依據(jù),判斷這是只鴨子。

▲圖:Gemini演示

隨后演示人員拿了個(gè)玩具小鴨子問(wèn)Gemini這個(gè)東西是什么材質(zhì)做的,Gemini表示看起來(lái)可能是橡膠也可能是塑料。而當(dāng)演示人員捏響橡膠鴨子后,Gemini立刻判斷出是用柔軟的橡膠做成的。

▲圖:Gemini演示

就在圈內(nèi)很多人認(rèn)為谷歌將要憑借Lumiere和Gemini拿下今年頭條的時(shí)候,OpenAI僅僅用Sora就輕松獲得了更高的關(guān)注度。

Sora這個(gè)詞很有意思,它在韓語(yǔ)中表示海螺殼,在日語(yǔ)中表示天空,在芬蘭語(yǔ)中表示砂礫。這就很難不讓人想到《海底兩萬(wàn)里》的鸚鵡螺號(hào),《沙丘》,以及“我們的目標(biāo)是星辰大海”的豪情壯志。

而且Sora是一個(gè)比較常見(jiàn)的名字,比Lumiere(法語(yǔ),光)更短、更好讀。

和GPT當(dāng)年的故事如出一轍,Sora也是踩著競(jìng)爭(zhēng)對(duì)手以碾壓式的優(yōu)勢(shì)勝出。相比同類(lèi)產(chǎn)品,Sora能抓住提示詞的精髓,巧妙地生成具有多個(gè)角色和特定動(dòng)作的場(chǎng)景。

有人做過(guò)對(duì)比,使用同樣的提示詞,讓AI生成一個(gè)在花園里、似乎正在追逐什么東西、快樂(lè)奔跑的黃白相間的貓,最終結(jié)果的差距十分明顯。

▲圖:不同AI產(chǎn)品的效果對(duì)比

上面由Sora生成的視頻看起來(lái)非常真實(shí),甚至在奔跑時(shí)候,貓腮幫子上的毛都會(huì)隨著腦袋起伏。而下面通過(guò)Pika, Runway, Leonardo, FinalFrame生成的視頻,貓不僅看起來(lái)不像真的,連動(dòng)作都很詭異。

在生成的視頻時(shí)長(zhǎng)上,Sora也碾壓友商。Sora可以生成1分鐘的視頻,相對(duì)的,Pika是3秒,Runway是4秒,Lumiere是5秒。

最重要的是,Sora有望解決一個(gè)生成式AI的痛點(diǎn),那就是同樣的提示詞通常不會(huì)生成同樣的結(jié)果,例如“黃白相間的貓”這個(gè)提示詞,不同的視頻里會(huì)出現(xiàn)不同模樣的黃白相間的貓。導(dǎo)致的結(jié)果,就是無(wú)法通過(guò)拼接來(lái)創(chuàng)作更長(zhǎng)的視頻。

盡管Sora一出道就秀出了遠(yuǎn)超同行的肌肉,但Sora并沒(méi)有選擇像Pika、Runway一樣,開(kāi)放給大眾使用,而是采取了Google、Meta類(lèi)似的保守策略,先官宣來(lái)吊足大家胃口,然后慢慢內(nèi)測(cè),等待一個(gè)合適的時(shí)機(jī),再向大眾開(kāi)放。

因?yàn)?,有很多關(guān)鍵問(wèn)題,大家都沒(méi)有找到好的解決方案。

二、AI一調(diào)皮,人類(lèi)就頭疼

生成式AI天生就有一個(gè)“不按物理定律出牌”的老毛病,即便是看起來(lái)已經(jīng)非常接近真實(shí)世界的Sora也不例外。這個(gè)問(wèn)題過(guò)于明顯,以至于OpenAI都懶得去遮掩,干脆自己先大方的說(shuō)了出來(lái)。

從內(nèi)測(cè)用戶流出的視頻可以發(fā)現(xiàn),Sora無(wú)視物理法則隨意發(fā)揮的意愿十分高漲,而這種意愿在“必須還原物理世界”的規(guī)則約束下,很容易生成像人類(lèi)做夢(mèng)一樣的場(chǎng)景。有過(guò)做夢(mèng)經(jīng)歷的朋友應(yīng)該會(huì)這樣的體會(huì):明明夢(mèng)是虛幻的,但在夢(mèng)里你的感受又很“真實(shí)”。

下面就是個(gè)很典型的例子。

▲圖:Sora的夢(mèng)境物理

注意看,視頻中的這個(gè)杯子莫名其妙的跳了起來(lái)并側(cè)翻在桌面上,杯中的液體在杯子跳起來(lái)的一瞬間穿透了杯底鋪滿桌面,而最終杯子連同里面剩余的液體一起,融進(jìn)了桌面。

▲圖:融進(jìn)桌面的杯子

這樣的視頻顯然無(wú)法應(yīng)用在正式的場(chǎng)合,大概率只能出現(xiàn)在B站的鬼畜區(qū),告訴你一個(gè)學(xué)了3年動(dòng)畫(huà)的人,是如何因?yàn)橐粋€(gè)畢業(yè)作品被老師轟出門(mén)外的故事。

此外,Sora對(duì)算力有很高的要求。下面這個(gè)視頻演示了低算力和高算力之間的差距能有多可怕。

▲圖:算力差距

而想要高算力,就得花更多的錢(qián)。

以Runway為例,個(gè)人版收費(fèi)模式分3檔,標(biāo)準(zhǔn)版為每月15美元,可以制作一個(gè)125秒的Gen-1視頻,或者44秒的Gen-2視頻,相當(dāng)于每秒1-2.4元人民幣,超出部分需要額外付費(fèi)。Pro版每月35美元,至尊版每月95美元。而用戶如果希望加快視頻的產(chǎn)出效率,也需要額外購(gòu)買(mǎi)“時(shí)間”。

三、能力越大,危險(xiǎn)越大

生成式AI在社會(huì)層面有幾個(gè)老生常談的問(wèn)題。

首先就是造假問(wèn)題。AI生成的視頻越真實(shí),造假就越容易。最直接的解決辦法是將AI生成的內(nèi)容打上一個(gè)特殊的標(biāo)簽,以便于平臺(tái)將其和人工拍攝的視頻進(jìn)行區(qū)分,OpenAI和Google的確也在做這件事。

但水印的問(wèn)題在于,它可以在分享的過(guò)程中會(huì)被人惡意抹除。例如通過(guò)截圖、錄屏的方式獲得視頻副本,不會(huì)帶有任何水印。

其次是版權(quán)問(wèn)題。版權(quán)問(wèn)題比造假更加復(fù)雜,它既是一個(gè)形而上的宏大概念,又和每一個(gè)創(chuàng)作者的個(gè)人利益息息相關(guān)。目前對(duì)版權(quán)的爭(zhēng)論主要集中在AI和人類(lèi)對(duì)齊的過(guò)程中,比如,AI通過(guò)學(xué)習(xí)別的藝術(shù)家的風(fēng)格在此基礎(chǔ)上進(jìn)行的創(chuàng)作,和人類(lèi)以同樣方式進(jìn)行的創(chuàng)作,本質(zhì)上有沒(méi)有區(qū)別?

而更直白的問(wèn)題則是,AI到底是來(lái)幫我賺錢(qián)的,還是來(lái)跟我搶錢(qián)呢?

這些問(wèn)題一個(gè)比一個(gè)難解決,也就意味著Sora們至少在短時(shí)間內(nèi)不會(huì)向公眾開(kāi)放。從某種角度來(lái)看,這或許對(duì)于視頻制作者是一個(gè)好消息,至少有了更多的緩沖時(shí)間,來(lái)思考如何應(yīng)對(duì)接下來(lái)Sora們帶來(lái)的沖擊。

無(wú)論如何,Sora們向公眾開(kāi)放,只是時(shí)間問(wèn)題,至于會(huì)不會(huì)像周鴻祎預(yù)言的那么快,可能還存在疑問(wèn)。但有一點(diǎn)毫無(wú)疑問(wèn):

那時(shí)候的Sora們,將比現(xiàn)在更加強(qiáng)大。

作者:吳狄,編輯:胡展嘉,運(yùn)營(yíng):陳佳慧

來(lái)源公眾號(hào):零態(tài)LT(ID:LingTai_LT),犀利、客觀、獨(dú)到的商業(yè)洞察。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @零態(tài)LT 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash ,基于 CC0 協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!