抖音快手戰火燒到AI

0 評論 1672 瀏覽 3 收藏 17 分鐘

本文主要講述了短視頻平臺抖音和快手在人工智能(AI)視頻生成技術(shù)的競爭日益激烈,雙方都在加大對此領(lǐng)域的研發(fā)投入,期望通過(guò)AI技術(shù)吸引更多創(chuàng )作者并提升用戶(hù)體驗。

“追趕”OpenAI的中國公司們,步子邁得越來(lái)越大了。

6月6日,快手發(fā)布了AI視頻生成模型“可靈”,視頻生成時(shí)長(cháng)直接趕超Sora達到了120秒,且已在快影App中對創(chuàng )作者開(kāi)放邀測。過(guò)去幾天中,一些自稱(chēng)獲得測試資格的博主po出了他們使用“可靈”直出的AI視頻,一直不太高調的快手AI在海內外社交媒體迅速出圈。

在Sora剛剛推出的時(shí)候,其生成的視頻時(shí)長(cháng)和效果被一些創(chuàng )作者認為非常適合短視頻創(chuàng )作,很可能會(huì )給今天的短視頻行業(yè)帶來(lái)顛覆,還引發(fā)了“Sora殺死剪映”的熱議。

如今,Sora尚未對剪映出手,但抖音的老對手快手卻正在借助“可靈”在A(yíng)I視頻生成賽道給快影上提速。對于5月中旬剛剛推銷(xiāo)過(guò)一波AI大模型產(chǎn)品的抖音集團而言,與快手的戰火正在燒向AI。  

一、內容之爭是根本

在Sora對標大戰中,快手發(fā)力AI的戰術(shù)目標,更像是要繞到對手身后圍繞“內容創(chuàng )作者資源”展開(kāi)一場(chǎng)“偷襲”。

說(shuō)到短視頻平臺對AI視頻生成技術(shù)上的關(guān)注,就不得不分析一下AI生成的視頻內容,對于用戶(hù)的價(jià)值,以及這些內容對用戶(hù)的影響心智。

“Sora類(lèi)模型生成的內容最大的問(wèn)題是‘聽(tīng)起來(lái)很酷’?!盇I類(lèi)視頻創(chuàng )作者阿達(化名)告訴虎嗅,粉絲需要的是有新鮮感或者有情緒價(jià)值、內容價(jià)值的視頻,Sora類(lèi)視頻的特點(diǎn)是“逼真”,但只是模仿真實(shí)世界的AI視頻,不管是開(kāi)汽車(chē)還是東京漫步,對于用戶(hù)來(lái)說(shuō)基本上提供不了任何價(jià)值,而新鮮感也會(huì )很快淡化。

“你第一次刷到AI視頻,一個(gè)老虎邁著(zhù)有點(diǎn)畸形的步伐往前走,你可能覺(jué)得有趣。但你刷到第二條類(lèi)似內容時(shí)大概率就不會(huì )停留了?!卑⑦_認為,有那么多有趣的“真”視頻,用戶(hù)為什么要花時(shí)間去看AI生成的“假”視頻。

很多短視頻平臺對AI視頻的態(tài)度亦是如此——從用戶(hù)視角去判斷價(jià)值。

多位AI視頻和數字人內容創(chuàng )作者對虎嗅表示,有些視頻平臺似乎不鼓勵AI合成內容,這類(lèi)視頻分到的流量不多,有的甚至會(huì )被限流。

除此之外,AI內容的真實(shí)、安全性亦是平臺要考慮的問(wèn)題。AI換臉、造假,以及各種深度偽造的詐騙案件屢見(jiàn)不鮮,如果大量逼真的AI合成視頻涌入平臺,很可能會(huì )給視頻平臺帶來(lái)更大的甄別壓力。目前,各大內容平臺都有相關(guān)限制,AI生成內容均會(huì )標注“作品疑似AI合成,請謹慎甄別”。

不過(guò),對于快手來(lái)說(shuō),AI視頻模型的價(jià)值可能并不在用戶(hù)側。

多年以來(lái),快手一直試圖調整自己與抖音在用戶(hù)畫(huà)像上的差異,并適度淡化“下沉”標簽,而這就意味著(zhù)快手需要豐富“內容供給”,擴大內容種類(lèi)、風(fēng)格,而關(guān)鍵資源正是創(chuàng )作者。目前來(lái)看,在快影當中提供AI生成視頻功能,很可能是吸引優(yōu)秀創(chuàng )作者的一個(gè)好方法。

截至發(fā)稿,快影App中顯示的“可靈”內測申請人數已超40000。據虎嗅了解,其中相當多的申請者是創(chuàng )作者和創(chuàng )作團隊。從目前來(lái)看,“可靈”無(wú)疑是給快影做了一波大營(yíng)銷(xiāo)。

此外,AI視頻生成功能還能拉攏更多“新生”的創(chuàng )作者力量。

某MCN機構負責人告訴虎嗅,從過(guò)去一年短視頻平臺的熱點(diǎn)內容看,未來(lái)一段時(shí)間里平臺對高質(zhì)量?jì)热莸呐袛啻蟾艜?huì )聚焦在以下方面:能夠引起廣泛用戶(hù)參與、與文化自信和教育相關(guān)、具有社會(huì )責任感、提供實(shí)用信息、娛樂(lè )性強、能夠激發(fā)UGC創(chuàng )作,以及能夠建立個(gè)人品牌和影響力。

AI視頻生成功能簡(jiǎn)化了視頻制作流程,在“引起廣泛用戶(hù)參與、激發(fā)UGC創(chuàng )作”這兩方面能起到積極作用。對于創(chuàng )作者來(lái)說(shuō),一方面能夠幫助傳統圖文創(chuàng )作者基于已有內容做視頻創(chuàng )作,加速內容遷移。另一方面也可以降低普通用戶(hù)參與視頻創(chuàng )作的門(mén)檻。

在短視頻之爭中,其他短視頻平臺玩家似乎也關(guān)注到了AI視頻的創(chuàng )作者邏輯,正在持續加碼AI視頻模型。

5月中旬召開(kāi)的騰訊云產(chǎn)業(yè)峰會(huì )上,騰訊首次公布了混元的16秒視頻生成能力,并提出2-3個(gè)月內開(kāi)放文生視頻API接口的計劃,以及2024年第三季度視頻生成時(shí)長(cháng)突破30秒的目標(在騰訊云的一次媒體溝通會(huì )中,混元大模型相關(guān)負責人曾表示年內可以達到60秒)。

相比抖音和快手,視頻號的優(yōu)勢是龐大的用戶(hù)規模,眼下的短板之一則是內容供給豐富度,然而視頻號在內容廣度和深度方面仍與抖音和快手存在明顯差距。短視頻和直播平臺的內容質(zhì)量對培養用戶(hù)習慣和增加使用時(shí)長(cháng)至關(guān)重要,同時(shí)龐大的內容庫也是平臺變現的基礎。

如此看來(lái),視頻號遇到的挑戰和機會(huì )似乎與快手暗合,都是要加速吸引站外創(chuàng )作者來(lái)豐富內容生態(tài),并促進(jìn)現有優(yōu)質(zhì)圖文創(chuàng )作者向視頻遷移。

二、AI競賽中的成本思考

過(guò)去一年多時(shí)間里,抖快在A(yíng)I領(lǐng)域的“軍備大賽”有日漸升溫趨勢。

抖音集團關(guān)于A(yíng)I的動(dòng)作和傳聞一直沒(méi)斷過(guò),從10億美元購買(mǎi)GPU,到利用API“扒“ChatGPT數據,再到豆包在國內AI應用榜奪冠,抖音集團一直是AI行業(yè)里低調的明星。反觀(guān)快手,在生成式AI方面的動(dòng)作卻似乎不多,首個(gè)自研大模型“快意”直到2023年底,才加入到第三批網(wǎng)信辦大模型備案。

在A(yíng)I視頻方面,抖音集團雖然沒(méi)有Sora類(lèi)的強大AI視頻生成模型,但也發(fā)布了PixelDance、MagicVideo、AnimateDiff-Lightning等視頻模型,目前抖音集團也有專(zhuān)門(mén)的AIGC產(chǎn)品即夢(mèng)(Dreamina),可以完成一些短視頻生成功能。

除了AI模型和產(chǎn)品方面的研究,抖音集團在基礎設施方面投入巨大。在前面提到的10億美金采購GPU傳聞外,抖音集團旗下的火山引擎,在當下的國產(chǎn)大模型價(jià)格戰中,亦是“打響第一槍”的廠(chǎng)商??焓值脑苹A設施關(guān)注范圍則相對較小,以音視頻和AI領(lǐng)域為主。

在A(yíng)I視頻方面,快手的進(jìn)程也不高調,但并非風(fēng)平浪靜。2024年5月初,快手專(zhuān)家研究員王鑫濤曾在一次學(xué)術(shù)會(huì )議中做過(guò)一次題為《視頻生成的初探及可控性研究》的分享,其中就提到了快手的視頻生成方案Tune-A-Video。技術(shù)tips:Tune-A-Video的關(guān)鍵是“時(shí)空自注意力機制”。這種技術(shù)可以結合空間(圖像)和時(shí)間(視頻幀序列)上的信息,以提高視頻生成和處理的效果。假設視頻內容是一只小狗在草地上跑。時(shí)空自注意力機制的工作過(guò)程是:

空間自注意力會(huì )分析每一幀中小狗身體的各個(gè)部分,例如頭、腿、尾巴之間的關(guān)系。時(shí)間自注意力會(huì )關(guān)注每一幀中小狗的位置和姿勢變化,確保小狗在跑步的過(guò)程中動(dòng)作是連貫的,不會(huì )出現瞬間移動(dòng)或姿勢不連貫的現象。綜合考慮這些信息后,模型能夠生成一個(gè)流暢、自然的跑步小狗的視頻,即使用戶(hù)修改了小狗的顏色或背景場(chǎng)景,生成的視頻仍能保持運動(dòng)的一致性和視覺(jué)上的連貫性。

技術(shù)之爭的背后,一定潛藏著(zhù)對未來(lái)商業(yè)化的謀篇布局。然而AI技術(shù)如何商業(yè)化,目前仍是短視頻以及很多行業(yè)討論的核心問(wèn)題之一。

AI視頻模型要商業(yè)化至少需要解決兩個(gè)問(wèn)題,第一是技術(shù)層面的視頻生成質(zhì)量和效率,第二是成本。

從Runway、Pika等AI公司的3、4秒視頻模型,到OpenAI推出Sora,很多業(yè)內人士也沒(méi)想到技術(shù)發(fā)展會(huì )如此之快。Sora之后,各家AI公司的追趕速度更是令人咋舌。

“AI生成視頻的質(zhì)量可能不會(huì )長(cháng)期困擾行業(yè),但成本問(wèn)題很難解決?!币晃魂P(guān)注AI視頻的投資人告訴虎嗅,視頻模型的算力需求比語(yǔ)言模型大很多,優(yōu)化的難度也更高?!皬腃hatGPT和Sora的開(kāi)放程度就能看出來(lái),ChatGPT可以開(kāi)放給億級用戶(hù),而Sora至今只有少數人試過(guò)?!?/p>

主流猜測認為Sora 模型參數量約為30億,其訓練數據可能包括過(guò)去五年的 YouTube 所有視頻。投資機構Factorial Funds 發(fā)表的一篇博文分析認為,Sora模型的一次訓練大概需要4200~10500塊英偉達H100 GPU 訓練1個(gè)月。

30億參數相比于GPT-4的1.8萬(wàn)億參數,訓練成本會(huì )低很多。然而視頻模型與語(yǔ)言模型相比,更大的開(kāi)支在推理端。

舉個(gè)例子,要生成一個(gè)2分鐘的視頻,在不考慮視頻的連貫性和時(shí)空一致性的情況下,把AI視頻拆成一幀一幀的圖片。

按照某國內AI公司最近公布的AI圖片生成最大折扣價(jià)算,生成1張圖片的價(jià)格最低0.06元,1秒25幀,花費1.5元,120秒的視頻成本為180元。

以快手開(kāi)啟的“可靈“邀測為例,假設“可靈”上線(xiàn)后3天內的內測申請者全部通過(guò),每人每天試驗20分鐘視頻,則每天的測試開(kāi)銷(xiāo)約7200萬(wàn)元??焓?024Q1期內利潤41億元,如果要滿(mǎn)足全部“可靈”測試需求的話(huà),2個(gè)月可能就要面臨虧損了。

這還只是按生成單張圖片計算的價(jià)格,如果要保證這25幀圖片連續一致,價(jià)格會(huì )成倍上漲。一位AI視頻模型開(kāi)發(fā)者告訴虎嗅,AI視頻生成的難點(diǎn)在于保持多個(gè)圖片的一致性,相比于普通的AI圖片生成,算力消耗和成本會(huì )大幅提升。

現階段要大規模實(shí)現AI視頻生成的商業(yè)化落地,推理成本更是天文數字。

Factorial Funds在Sora分析博文中提到,目前TikTok每天上傳的視頻總時(shí)長(cháng)約1700萬(wàn)分鐘,YouTube為4300萬(wàn)分鐘。

假設AI視頻模型真的成為生產(chǎn)力,可能會(huì )滲透到50%的TikTok短視頻和15%的YouTube視頻中,這樣的滲透率之下,峰值算力需求可能達到72萬(wàn)塊H100 GPU。按目前國內的GPU價(jià)格,每天的成本將超過(guò)千億。

不過(guò),這種試算在今天看來(lái)其實(shí)意義不大。AI視頻模型要真的大規模滲透,模型成本和效率可能需要比今天低幾個(gè)數量級。到時(shí)候全球市場(chǎng)上主流GPU的算力如何,使用成本如何也是未知數。

三、抖快之外,創(chuàng )業(yè)公司也在入局

6月6日奇績(jì)創(chuàng )壇2024春季創(chuàng )業(yè)營(yíng)路演上半場(chǎng)的最后一個(gè)項目極佳科技,展示了一款AI視頻生成大模型“視界、一粟YiSu”。極佳科技的視頻展示

這款模型生成視頻的原生時(shí)長(cháng)為16秒,最長(cháng)可達1分鐘,據極佳科技介紹,該模型對算力需求不高,已經(jīng)可以實(shí)現“端側”運行,相關(guān)應用接近Sora效果。

項目介紹結束,現場(chǎng)數百位投資人罕見(jiàn)地爆發(fā)了喝彩和掌聲,資本對AI視頻生成技術(shù)的關(guān)注仍在持續發(fā)酵。

在天使輪的極佳科技路演同天,AI視頻生成技術(shù)的主力生數科技和Pika,先后宣布了最新融資,兩家公司融資額不相上下,生數科技宣布獲得數億元人民幣,Pika則籌集到8000萬(wàn)美元。

AI視頻模型公司的研究大多集中在提高視頻質(zhì)量和降低推理成本。多數研發(fā)AI視頻生成模型的團隊均表示已經(jīng)在工程方面有所突破,算力需求正在下降。生數科技CEO唐家渝則表示,“生數科技的團隊已經(jīng)積累了完整高效的工程化經(jīng)驗,擁有在大規模GPU集群上實(shí)現高效兼容、低成本的模型訓練經(jīng)驗?!蹦壳吧鷶悼萍己颓迦A大學(xué)聯(lián)合開(kāi)發(fā)的模型Vidu視頻生成時(shí)長(cháng)已達到32秒。

在抖快這樣的短視頻巨頭的競爭中,獨立AI公司的優(yōu)勢在于早期的技術(shù)積累和更“輕快”的開(kāi)發(fā)模式。

然而這些公司目前的融資規模和當前的市場(chǎng)體量匹配度并不高,如果AI視頻模型真要落在短視頻這樣的ToC賽道的話(huà),獨立AI公司在沒(méi)有巨大技術(shù)突破的情況下,很可能會(huì )傾向于“擇木而棲”。

巨頭們對于這些AI公司的態(tài)度也在逐漸曖昧。

細看生數科技的這輪融資,其中新增了百度。雖然生數科技的早期投資人中有百度風(fēng)投的身影,但百度風(fēng)投與百度之間其實(shí)只是VC和LP的關(guān)系,而百度在過(guò)去一年多里對模型公司“親自”出手,只有生數科技這一次。

雖然百度在剛剛推出文心大模型后不久,就提出過(guò)一些Text2Video的相關(guān)模型和技術(shù),并演示了AI文生視頻功能,但后續一直沒(méi)有正式發(fā)布相關(guān)模型或產(chǎn)品。

目前,包括硅谷巨頭在內的多數平臺型大公司在A(yíng)I視頻模型方面均沒(méi)有公布過(guò)大額投入。

作者|齊健
編輯|苗正卿
本文由人人都是產(chǎn)品經(jīng)理作者【虎嗅】,微信公眾號:【虎嗅APP】,原創(chuàng )/授權 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒(méi)評論,等你發(fā)揮!