一個(gè)大模型是如何被煉出來(lái)的

0 評論 1265 瀏覽 4 收藏 7 分鐘

大家日常都會(huì )接觸到不少大模型和AI工具,有考慮過(guò)他們是如何做的嗎?知道原理,對于我們使用大模型和調整方法很有幫助。

在大語(yǔ)言模型(Large Language Model,LLM)中,無(wú)監督學(xué)習、有監督學(xué)習和強化學(xué)習是機器學(xué)習的三個(gè)組成部分,也是訓練一個(gè)大模型的三個(gè)基礎階段。他們各自扮演著(zhù)不同的角色,并應用于不同的訓練階段和任務(wù)中。

第一步:無(wú)監督學(xué)習階段

無(wú)監督學(xué)習也就是模型的預訓練階段,簡(jiǎn)單來(lái)說(shuō)就是給模型投喂大量大量的文本,進(jìn)行無(wú)監督學(xué)習的預訓練,這樣我們就會(huì )得到一個(gè)能夠進(jìn)行文本生成的基座。

在預訓練中,需要大量的文本作為原料,讓模型從中學(xué)習,比如gpt-3這個(gè)基座模型的訓練數據,就有非常多的互聯(lián)網(wǎng)文本語(yǔ)料庫,包含有新聞、圖書(shū)和文獻、科學(xué)論文、特定領(lǐng)域的數據集、社交媒體和論壇等等。訓練數據的整體規模有三千億的Token(具體什么是token我們將在下一個(gè)帖子中詳細解釋。先簡(jiǎn)單來(lái)理解的話(huà)就是基本文本單位)。

此時(shí)預訓練的結束之后我們會(huì )得到一 個(gè)基座模型,而這個(gè)基座模型并不擅長(cháng)對話(huà),你給他一個(gè)問(wèn)題,他可能模仿上文,幫你繼續生成更多的問(wèn)題,但并不回答你的問(wèn)題。這時(shí)我們開(kāi)始進(jìn)行第二步有監督學(xué)習

第二步:有監督學(xué)習階段

有了大量的訓練文本之后,我們就要采用“有監督學(xué)習”的方式,也就是通過(guò)一些人類(lèi)撰寫(xiě)的高質(zhì)量對話(huà)數據,對基座模型進(jìn)行監督微調。

微調就是在已有模型上做進(jìn)一步的訓練,這個(gè)階段呢,我們需要給基座模型看更多的對話(huà)數據,包括單輪的對話(huà)數據還有多輪對話(huà)的數據等,目的呢就是為了訓練一個(gè)擅長(cháng)對話(huà)的AI助手。

微調的成本相比預訓練要低很多,因為需要的訓練數據的規模相比較小,訓練時(shí)長(cháng)更短,在這一階段里,模型不需要從海量文本中學(xué)習了,而是從一些人類(lèi)寫(xiě)的專(zhuān)業(yè)且高質(zhì)量的對話(huà)里學(xué)習(在這個(gè)階段就產(chǎn)生了一個(gè)職業(yè)叫做AI訓練師或者數據標注員,這個(gè)我們后邊的帖子在慢慢細聊),這相當于既給了模型問(wèn)題,也給了模型我們人類(lèi)中意的回答,屬于監督學(xué)習了。

這個(gè)過(guò)程被叫做監督微調(Supervised Fine-Tuning)簡(jiǎn)稱(chēng):SFT。

完成后會(huì )得到一個(gè)SFT模型。

第三步:強化學(xué)習階段

在強化學(xué)習階段,模型進(jìn)一步優(yōu)化以提升在實(shí)際應用中的表現,從而模型能夠自主的學(xué)習。

這個(gè)階段主要包含一下兩個(gè)步驟:

a. 人類(lèi)反饋強化學(xué)習(Reinforcement Learning from Human Feedback, RLHF)

這個(gè)部分包含:人類(lèi)評價(jià)、獎勵模型(Reward Model)、策略?xún)?yōu)化

b. 反饋和調整

通過(guò)多次迭代的反饋和調整,模型逐漸學(xué)會(huì )生成更高質(zhì)量的響應。這一過(guò)程通常涉及反復的生成、評估、調整和優(yōu)化。

這些都相對比較好理解,但我重點(diǎn)要說(shuō)的是獎勵模型(Reward Model)

要讓一個(gè)模型,能乖乖當一個(gè)樂(lè )于助人的AI助手,我們可以讓模型對問(wèn)題做出回答,然后讓人類(lèi)評測人員去給回答打分,打分的標準主要是基于3H原則(幫助性、真實(shí)性、無(wú)害性)

  • 幫助性-helpful:模型的輸出應該對用戶(hù)有實(shí)際幫助,能夠解決用戶(hù)的問(wèn)題或滿(mǎn)足用戶(hù)的需求。
  • 真實(shí)性-honest:模型的輸出應該真實(shí)可靠,不應捏造事實(shí)或誤導用戶(hù)。
  • 無(wú)害性-harmless:判斷模型的輸出是否適當、是否包含偏見(jiàn)有害性信息等內容

如果打分高的話(huà),模型能學(xué)習到要再接再厲,如果打分低的話(huà),模型就學(xué)習到要予以改進(jìn)。

但是靠人類(lèi)給回答一個(gè)個(gè)打分,成本極高、效率極低。所以我們要訓練出另一個(gè)模型,讓模型給模型打分。在這一步里,需要訓練一個(gè)reward獎勵模型。他是從回答以及回答對應的評分里進(jìn)行學(xué)習的。

模型得到評分數據的方式是:我們會(huì )使用不同模型構造同一問(wèn)題下不同的回答,然后讓人類(lèi)標注員對回答質(zhì)量進(jìn)行比較排序,還有部分情況下是由人工補充滿(mǎn)分的答案。讓模型知道哪個(gè)答案是最好的。

雖然還是免不了要借助人類(lèi)的勞動(dòng)。但一旦有了足夠的排序數據,就可以把數據用在訓練獎勵模型上。讓獎勵模型學(xué)習預測回答的評分。

獎勵模型訓練出來(lái)后,就可以用在強化學(xué)習上了,強化學(xué)習里,大模型的最初參數來(lái)自之前得到的SFT模型,但會(huì )隨著(zhù)訓練被更新,獎勵模型的參數則不會(huì )再被更新,他的任務(wù)就是對模型生成的內容打分,經(jīng)過(guò)一輪又一輪迭代后,模型會(huì )不斷優(yōu)化策略,回答的質(zhì)量也就會(huì )進(jìn)一步提升。

最后這樣一個(gè)大模型就在不斷學(xué)習中煉成了。??

本文由 @貝琳_belin 原創(chuàng )發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉載

題圖來(lái)自Unsplash,基于CC0協(xié)議

該文觀(guān)點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)

更多精彩內容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒(méi)評論,等你發(fā)揮!