詳解開(kāi)源閉源之爭,十家大模型廠(chǎng)商的商戰策略

0 評論 2119 瀏覽 4 收藏 21 分鐘

和操作系統一樣,大模型也有開(kāi)源閉源的爭議。有的大模型原則開(kāi)源造福人類(lèi),更多則是選擇閉源商業(yè)化;在大模型開(kāi)閉源之爭背后,有著(zhù)幾大核心問(wèn)題。????

大模型市場(chǎng)已形成了“開(kāi)源派”和“閉源派”。而當下,在大模型競爭進(jìn)入市場(chǎng)爭奪的白熱化階段后,企業(yè)在開(kāi)閉源上的交鋒也更為激烈。

實(shí)際上,大模型開(kāi)源和傳統軟件開(kāi)源不是一回事。在開(kāi)源的定義、治理、社區性質(zhì)、貢獻路徑和企業(yè)的開(kāi)源策略上,都在發(fā)生巨大變化。

01 大模型企業(yè)開(kāi)閉源策略各異

今年大模型的開(kāi)閉源更為熱鬧,在閉源的企業(yè),有開(kāi)源的呼聲;在開(kāi)源的企業(yè),有閉源的動(dòng)作。

百度內部對大模型開(kāi)源、閉源的討論非常熱烈。大家都在思考,什么樣的方式能取得更多的競爭優(yōu)勢。

在BATH幾家大廠(chǎng)中,百度、華為選擇閉源路線(xiàn),阿里、騰訊則推出了開(kāi)源大模型。

百度對于開(kāi)閉源大模型的爭論,部分也來(lái)自阿里云等企業(yè)今年在開(kāi)源上的聲勢和市場(chǎng)動(dòng)作。

到目前為止,雖然百度文心一言仍堅持閉源路線(xiàn),但百度智能云部門(mén),在其平臺上提供了大量性能很強的第三方開(kāi)源大模型。百度通過(guò)閉源文心一言,也通過(guò)開(kāi)源大模型使用的算力、工具和服務(wù),來(lái)實(shí)現商業(yè)上的收益。

在開(kāi)源上,今年阿里云的動(dòng)作極為密集。

5月在北京舉辦的AI峰會(huì )上,阿里云CTO周靖人表態(tài),開(kāi)源是阿里云的戰略,阿里云形成的是一個(gè)開(kāi)源和閉源的整體體系。阿里云已開(kāi)源了參數從5億到千億的數款模型,打法也更為專(zhuān)業(yè)。

業(yè)界認為,阿里云大力推廣開(kāi)源,一方面是為了加快市場(chǎng)份額的爭奪;另一方面作為云計算企業(yè),它可以采用“羊毛出在豬身上”的商業(yè)模式,在算力、工具和服務(wù)上獲得收益。周靖人在策略會(huì )上尤其強調“百煉”平臺的服務(wù)。而開(kāi)源還能為其引流,有些客戶(hù)可能升級為閉源用戶(hù)。

與其他大模型企業(yè)相比,騰訊開(kāi)源大模型較晚,今年5月對外開(kāi)源了混元文生圖大模型?;煸嚓P(guān)人士告訴數智前線(xiàn),由于市場(chǎng)上已有很多開(kāi)源的大語(yǔ)言模型,因此騰訊這次選擇開(kāi)源文生圖,應該是第一個(gè)中文原生的開(kāi)源DiT模型,未來(lái)還會(huì )嘗試參數量更大的模型。由于剛開(kāi)源幾周,商業(yè)化影響仍待觀(guān)察。

華為云2023年在推出盤(pán)古大模型3.0時(shí),就表態(tài)采用閉源路線(xiàn)。過(guò)去一年,它的重心是在各行業(yè)進(jìn)行聯(lián)創(chuàng ),落地大模型,并將技術(shù)回饋盤(pán)古,不斷迭代,未參與業(yè)界開(kāi)閉源討論。華為云在上周也剛剛官宣盤(pán)古5.0多模態(tài)大模型,發(fā)布期間也未涉及開(kāi)源問(wèn)題。同時(shí),華為云于去年上線(xiàn)“百模千態(tài)”專(zhuān)區,提供第三方開(kāi)源大模型。

最近在項目訂單上活躍的智譜,是國內最早開(kāi)源大模型的企業(yè)。因為智譜由清華技術(shù)成果轉化而來(lái),2022年,它就將開(kāi)發(fā)的雙語(yǔ)千億模型GLM-130B開(kāi)源,“當時(shí)全國懂大模型的研究員加起來(lái)也不過(guò)百來(lái)人”。智譜CEO張鵬稱(chēng),開(kāi)源讓大家知道智譜在做什么,同時(shí)可以讓更多人參與推動(dòng)大模型。此后在2023年3月,智譜將GLM6b開(kāi)源,該模型在Hugging Face上的下載量超過(guò)1600萬(wàn)。

雖然張鵬認為開(kāi)源的初心并不是要去贏(yíng)得市場(chǎng)或追求商業(yè)利益,但ChatGPT爆火后,智譜的GLM開(kāi)源大模型獲得大量關(guān)注,也讓這家2019年才成立的公司,在融資和商業(yè)化上受益頗多。張鵬也稱(chēng),開(kāi)源和商業(yè)化是整個(gè)生態(tài)版圖里很重要的兩塊,這兩塊是有連接的,可以說(shuō)開(kāi)源充當著(zhù)商業(yè)化的橋梁。

王小川的百川公司,去年作為創(chuàng )業(yè)的明星公司,發(fā)布了Baichuan-7B、13B開(kāi)源可商用大模型,在業(yè)界引發(fā)關(guān)注。當時(shí)有應用開(kāi)發(fā)商告訴數智前線(xiàn),測試后,他們從Meta的Llmma轉向百川,因為中文效果更好。

百川開(kāi)源時(shí),國內大模型開(kāi)源的還很少。此后,越來(lái)越多的大模型公司,包括大廠(chǎng),開(kāi)始開(kāi)源。百川聯(lián)合創(chuàng )始人謝劍告訴數智前線(xiàn),未來(lái)還會(huì )開(kāi)源,但不會(huì )開(kāi)源特別大參數的模型,因為很多人用不起來(lái)。

最近快手的文生視頻大模型“可靈”很火爆,不少應用企業(yè)“祈盼”可靈開(kāi)源。但快手相關(guān)人士表示,暫不考慮開(kāi)源,而會(huì )逐步開(kāi)放一些東西在業(yè)界討論。

而昆侖萬(wàn)維最近開(kāi)源了一個(gè)稀疏大型語(yǔ)言模型Skywork-MoE,為應對大規模密集型大語(yǔ)言模型帶來(lái)的挑戰。昆侖萬(wàn)維兼天工智能首席科學(xué)家顏水成告訴數智前線(xiàn),開(kāi)源大模型幫助學(xué)界進(jìn)行探索性工作,而公司也推出音樂(lè )、游戲等垂類(lèi)模型,將采用閉源商業(yè)模式。

李開(kāi)復的創(chuàng )業(yè)公司零一萬(wàn)物,是這波大模型獨角獸中最后一家開(kāi)源的企業(yè)。公司開(kāi)源負責人林旅強非常坦率,認為開(kāi)源和閉源是商業(yè)設計問(wèn)題。零一萬(wàn)物也采取了開(kāi)源、閉源并進(jìn)的模式。開(kāi)源在一定程度上扮演了商業(yè)拓展角色。同時(shí),今年零一萬(wàn)物發(fā)布千億參數模型Yi-Large,一些使用了開(kāi)源模型的客戶(hù)有望轉化到該閉源模型上。

02 開(kāi)源大模型與開(kāi)源軟件有三大區別

雖然大模型開(kāi)源如火如荼,但業(yè)界一直在詬病它的透明度,質(zhì)疑為什么好多信息,企業(yè)不公開(kāi)。

實(shí)際上,大模型開(kāi)源和傳統軟件開(kāi)源不是一回事。

紅帽中國首席架構師張家駒告訴數智前線(xiàn),軟件開(kāi)源是指源代碼開(kāi)源,拿到源代碼,我們就“知其然也知其所以然”,也可以在源代碼基礎上,去修改或增加新功能。

但大模型是一個(gè)黑盒子,里面有很多至今無(wú)法解釋的現象,所以對大模型的開(kāi)源,業(yè)界提出了更多維度,有的說(shuō)需要四部分——權重、數據集、代碼和訓練過(guò)程;也有的說(shuō)需要五部分,還包括了框架。即使是這些定義,業(yè)界也有不同意見(jiàn):為什么會(huì )有這樣的定義?這更像是從傳統開(kāi)源軟件的思路來(lái)考慮的。

有趣的是,只有極少數公司或機構的大模型,同時(shí)開(kāi)源了上述四部分或五部分,比如IBM剛剛開(kāi)源出來(lái)的Granite大語(yǔ)言模型;也有像智源研究院、馬斯克旗下大模型公司xAI ,開(kāi)源了權重和數據集。比如,根據智源人工智能研究院副院長(cháng)兼總工程師林詠華的介紹,今年6月,智源最新開(kāi)源數據集分為兩類(lèi),一類(lèi)是通用開(kāi)源指令微調數據集,一類(lèi)是行業(yè)垂類(lèi)數據集,涵蓋18個(gè)行業(yè)。

“現在業(yè)界的共識是,至少將權重再加上一些推理代碼開(kāi)源?!绷阋蝗f(wàn)物林旅強說(shuō),只有這兩部分開(kāi)源,其他人才可以將開(kāi)源大模型使用起來(lái)。由此,開(kāi)源大模型現在的定義,有點(diǎn)像微軟提過(guò)的“免費軟件”。所以,谷歌等公司在其官網(wǎng)上稱(chēng)是開(kāi)源權重(open weight),而不是開(kāi)源大模型。

為什么在開(kāi)源大模型中,權重如此重要?

有業(yè)界人士將權重打比方為“一大堆數字”,一個(gè)13B的模型,就有130億個(gè)數。這些數字與模型如何處理輸入的數據、如何做出預測和生成文本等相關(guān),代表了一個(gè)大模型的智慧。

而在大模型中,代碼分為預訓練代碼、微調代碼和推理代碼。預訓練代碼是大模型公司的核心;對于微調代碼,市場(chǎng)上已有很多公開(kāi)方法,而大模型要被用起來(lái),需要推理代碼。至于訓練過(guò)程和數據集,往往也是大模型廠(chǎng)商的核心所在。

與傳統軟件不同,在大模型開(kāi)源上,企業(yè)的態(tài)度有了微妙的變化?,F在大模型的成本太過(guò)高昂,訓練一個(gè)千億級參數模型,要幾千萬(wàn)甚至上億,因此,很多公司在開(kāi)源問(wèn)題上變得保守。這是一個(gè)現實(shí)問(wèn)題,每家公司的開(kāi)源,必然服務(wù)于自己的商業(yè)戰略。而且,即便將這些核心都開(kāi)源出來(lái),大多數工程師和企業(yè)也沒(méi)有那么多資源去復現。

業(yè)內人士認為,開(kāi)源大模型和開(kāi)源軟件有三個(gè)核心區別:

一是透明度完全不一樣。開(kāi)源軟件的代碼能說(shuō)明一切,從而可以形成一套治理體系;大模型當下還是一個(gè)黑盒子,內部機理還是未知的。

二是大模型社區的性質(zhì)發(fā)生了變化。之前開(kāi)源社區講求全球工程師來(lái)貢獻;但因為算力等資源限制,在大模型社區里,或許90%以上的工程師,無(wú)法直接為大模型貢獻,因此很多社區變成了單向模式,大家只是使用大模型。在HuggingFace上,Meta的Llmma開(kāi)源大模型,已經(jīng)有幾千個(gè)變種,但彼此之間沒(méi)有太多交互,也很難將創(chuàng )新合并。

其三是大模型企業(yè)開(kāi)源策略發(fā)生變化。中國信通院知識產(chǎn)權與創(chuàng )新發(fā)展中心產(chǎn)業(yè)發(fā)展研究部主任張俊霞說(shuō),因為大模型的訓練投入特別大,這導致企業(yè)在開(kāi)源策略的選擇上,特別是在一些許可或信息披露上,都有很大不同?!斑@個(gè)問(wèn)題現在不管是國內還是國際社區,都在非常激烈地討論?!?/p>

不過(guò),近期,一些動(dòng)態(tài)正在發(fā)生。

比如,紅帽在社區貢獻上有了嘗試動(dòng)作。一方面IBM開(kāi)源了Granite模型;另一方面,“訓練過(guò)程”在另外一個(gè)開(kāi)源項目InstructLab中。由IBM出資建設了一個(gè)平臺。每過(guò)一段時(shí)間,就把大家“集”來(lái)的數據放在上面“訓”,形成模型的迭代。同時(shí),用戶(hù)也可以選擇保留自己的數據,訓練分叉的模型?!翱蛻?hù)不用‘躺平’,可以用他們的場(chǎng)景、經(jīng)驗參與到調試當中,不斷在變化之中調優(yōu)?!奔t帽大中華區資深市場(chǎng)總監趙文斌告訴數智前線(xiàn)。

而張俊霞認為,大模型時(shí)代,對開(kāi)源的定義以及未來(lái)的治理,不管是從項目層面、企業(yè)層面還是從國家層面,也都會(huì )發(fā)生一些翻天覆地的變化。

03 “開(kāi)源的目的不是一定要超越閉源”

除了如何定義開(kāi)源大模型,開(kāi)源派和閉源派,在開(kāi)閉源大模型孰強孰弱和安全性上,有著(zhù)交鋒。

如果在當下這個(gè)時(shí)間點(diǎn),OpenAI等的閉源模型比較強?!暗灰馕吨?zhù)閉源會(huì )持續遙遙領(lǐng)先?!绷阋蝗f(wàn)物林旅強說(shuō),未來(lái)當算力平民化,再加上互聯(lián)網(wǎng)協(xié)作精神,可能5年、10年,開(kāi)源大模型就會(huì )變得更強。

不過(guò),智源研究院智能評測組負責人楊熙從評測角度看,單純把開(kāi)源模型和閉源模型放在一起來(lái)比較,可能有失公允。因為閉源大模型可能是一套體系,比如包含了檢索增強等技術(shù),而開(kāi)源模型是一個(gè)單體模型,拿“多對一”,肯定不合理。

而紅帽張家駒認為,開(kāi)源的目標不是說(shuō)一定要超過(guò)閉源?!凹幢阒叭蚬こ處熀狭ψ鯨inux,目標也不是要超過(guò)閉源?!遍_(kāi)源的價(jià)值是更加公開(kāi)透明,技術(shù)上更加平權,不會(huì )讓其成為少數人牟利的手段?!案鼮殛P(guān)鍵的是,對于人工智能來(lái)說(shuō),如果未來(lái)走向AGI,開(kāi)源讓AI的發(fā)展走向,更符合全人類(lèi)的利益,這一點(diǎn)的價(jià)值要遠高于在某一方面去超越閉源?!?/p>

而開(kāi)源和閉源大模型誰(shuí)更安全,業(yè)界也有著(zhù)爭議。開(kāi)源派認為,在閉源環(huán)境當中,大家不知道有沒(méi)有人監督它。開(kāi)源的好處是一旦出現一些安全問(wèn)題,整個(gè)社區會(huì )來(lái)共同檢查。

但也有人士認為“開(kāi)源也會(huì )帶來(lái)各種意想不到的問(wèn)題”。比如,開(kāi)源可能將大模型交到了“恐怖分子”手里?!芭e個(gè)例子,開(kāi)源大模型的數據集,如果別人加了一些數據,訓練出大模型去干了違法的事?!币患掖竽P推髽I(yè)開(kāi)源負責人對數智前線(xiàn)說(shuō),雖然他們也有開(kāi)源大模型。另外,現在各國都強調數據主權,數據開(kāi)源后怎么追蹤也是問(wèn)題?!八試夜膭铋_(kāi)源,但不是無(wú)限制的開(kāi)源?!?/p>

對于這些觀(guān)點(diǎn)交鋒,智源研究院楊熙稱(chēng),開(kāi)源、閉源其實(shí)都存在透明性、合規性、安全性的問(wèn)題,也涉及治理問(wèn)題。

信通院張俊霞提出,關(guān)于治理,其實(shí)大模型是一個(gè)技術(shù)性非常強的領(lǐng)域,所以“技術(shù)的問(wèn)題,一定要依賴(lài)技術(shù)”。她看到,谷歌發(fā)布了一款開(kāi)源工具M(jìn)odel Explorer,幫助人們理解大模型技術(shù)的內部工作機制;IBM、微軟也發(fā)布了關(guān)于開(kāi)源大模型或人工智能的倫理和解決手段,非常值得學(xué)習參考;今年1月,騰訊發(fā)布了安全治理框架,涉及一個(gè)模型整個(gè)生命周期里每個(gè)階段的安全技術(shù)、問(wèn)題和管理等。

楊熙則強調,開(kāi)源其實(shí)對模型內在機理的刻畫(huà)和理解,非常有幫助?!霸谖铱磥?lái),開(kāi)源和閉源是一個(gè)硬幣的兩面?!敝亲V楊熙稱(chēng),開(kāi)源可能促進(jìn)我們更多的探索性和基礎性工作;閉源更多促進(jìn)產(chǎn)品化和商業(yè)化,推動(dòng)大模型走進(jìn)每個(gè)人的生活。這兩件事其實(shí)不應該是之爭,而是和諧共存。

“現在,什么樣的框架最適合從行業(yè)監管角度,既不太過(guò)于增加企業(yè)的負擔,又能夠實(shí)現行業(yè)事前、事中、事后的一個(gè)完整的監管,其實(shí)全球還沒(méi)有一個(gè)統一的答案,仍然在探索過(guò)程中?!睆埧∠颊f(shuō)。

04 開(kāi)源閉源,商業(yè)化應用如何選擇

在開(kāi)閉源的選擇上,智譜張鵬認為,如果只是想做一些實(shí)驗和嘗試,可以選擇開(kāi)源模型,但如果想要在上面做商業(yè)化應用,大部分人還是會(huì )選擇商業(yè)化版本,因為有保障,能夠提供更好的服務(wù)。

這代表了業(yè)界、尤其是ToB行業(yè)很多人士的觀(guān)點(diǎn)。

紅帽張家駒則認為,無(wú)論是開(kāi)源、閉源,需要優(yōu)先考慮客戶(hù)是否需要本地部署大模型。無(wú)論國內外,不少客戶(hù)都有自主可控的需求。如果采用公有云上的模型,比如OpenAI,客戶(hù)要考慮數據暴露信息的問(wèn)題?!斑@是個(gè)很重要的問(wèn)題?!?/p>

值得注意的是,閉源大模型是否能部署到本地,需要獲得允許。開(kāi)源大模型同樣需要依據一些協(xié)議以及合規性。從技術(shù)角度來(lái)講,很多開(kāi)源部署到本地是可行的。而開(kāi)源可以方便地進(jìn)行微調,打造行業(yè)大模型,這是其優(yōu)勢。

除了本地化部署之外,也有企業(yè)需要調用公有云上的大模型?!按竽P偷男枨笠欢ㄊ情_(kāi)放混合的?!睆埣荫x說(shuō)。

大模型應用開(kāi)發(fā)商北京可為是最早在市場(chǎng)監督管理領(lǐng)域,打造、落地行政執法垂直大模型的企業(yè)。公司聯(lián)合創(chuàng )始人曾明告訴數智前線(xiàn),他們在開(kāi)閉源大模型中,最終選擇了開(kāi)源大模型。一方面,行政執法是比較知識化的應用,去年他們在測試驗證中就發(fā)現,當時(shí)的開(kāi)源模型在解決主要場(chǎng)景上,已經(jīng)符合要求;另一方面,成本是重要的因素之一。同時(shí),這類(lèi)垂直大模型屬于政務(wù)應用,客戶(hù)對數據安全要求極高,不能觸碰紅線(xiàn),需要私有化部署,而開(kāi)源模型在這方面更為靈活方便。

“在選擇開(kāi)源大模型的過(guò)程中,我們做了很多驗證,做的最苦的也最有意思的,就是這個(gè)過(guò)程?!痹髡f(shuō),他們不斷對不同模型驗證,對自己的訓練策略驗證?!澳阋檀竽P?,去還原人類(lèi)推理和思考的過(guò)程。所謂的夠用與不夠用,就看推理的結果是不是能達到要求?!?/p>

此外,不少業(yè)界人士認為,目前企業(yè)開(kāi)源的大模型通常是中低版本的,而閉源的模型性能更強,更適合比較高要求的應用,如當下大模型企業(yè)與標桿客戶(hù)聯(lián)合共創(chuàng )的類(lèi)型。而大多數普通應用場(chǎng)景,開(kāi)源已能滿(mǎn)足要求。

大模型時(shí)代,無(wú)論對開(kāi)源的定義、治理還是社區運營(yíng)、商業(yè)化,目前都處于快速演變之中。上述問(wèn)題仍在激烈的碰撞和演進(jìn)中。

文|趙艷秋????????????????????????????????????,編|?;???

本文由人人都是產(chǎn)品經(jīng)理作者【數智前線(xiàn)】,微信公眾號:【數智前線(xiàn)】,原創(chuàng )/授權 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒(méi)評論,等你發(fā)揮!