
清空記錄
歷史記錄
取消
清空記錄
歷史記錄




簡(jiǎn)單來(lái)說(shuō),模型蒸餾就是讓大模型把自己的本事,用 “蒸餾濃縮” 的辦法教給小模型。這樣既能保證有一定的準(zhǔn)確性,還能大大降低運(yùn)算需要花的錢(qián)。
大模型就像一個(gè)知識(shí)非常淵博的全能的神,什么都懂,但是想要讓他發(fā)揮作用可不容易。培養(yǎng)他要花很多時(shí)間和金錢(qián),讓他來(lái)工作的成本也很高,不僅要給他準(zhǔn)備好昂貴的設(shè)備(部署模型的硬件基礎(chǔ)設(shè)施,甚至數(shù)據(jù)中心),他工作的時(shí)候花費(fèi)也不少(推理成本高)。
小模型就像一個(gè)小助理,知道的東西沒(méi)那么多,不過(guò)好處是它要求不高,不需要太多資源就能運(yùn)行(部署成本低,推理成本低)。小模型想要變得和大模型一樣厲害不太現(xiàn)實(shí)。不過(guò)我們可以讓大模型教小模型一些基本的解題方法,讓小模型能像大模型一樣思考問(wèn)題。這個(gè)把解題能力從大神仙轉(zhuǎn)移到小助理的過(guò)程,就是模型蒸餾。
就拿 DeepSeek 發(fā)布的六個(gè)蒸餾模型來(lái)說(shuō),耗子巨大的DeepSeek R1 就是那個(gè) “全能神”。這個(gè)全能神模型把知識(shí)教給不同大小的小模型,這些小模型就是小助理。每個(gè)小助理都從全能神身上學(xué)到了一些本事。
因?yàn)槊總€(gè)小模型一開(kāi)始的 “基礎(chǔ)” 不一樣,所以學(xué)到的東西也不一樣。總的來(lái)說(shuō),小模型的 “腦子” 越大(權(quán)重?cái)?shù) / 參數(shù)量越多),能力就越強(qiáng),也就越接近老師的水平。
那么,模型蒸餾到底是怎么操作的呢?簡(jiǎn)單講,就是大模型先做一遍,小模型跟著學(xué)。不過(guò)大模型不會(huì)直接告訴小模型準(zhǔn)確答案,而是給出解題的思路(也就是軟標(biāo)簽)。比如說(shuō),給大模型看一張老虎的照片,大模型不會(huì)直接說(shuō) “這是老虎”,而是給出一組概率,告訴小模型這張圖可能是什么。大模型這么做,是為了讓小模型能舉一反三。要是只告訴小模型 “這是老虎”,小模型就不知道貓和老虎有什么區(qū)別。通過(guò)這種有概率的軟標(biāo)簽,小模型就能知道大模型是怎么判斷和區(qū)分的了。
接下來(lái),要給小模型定一個(gè)學(xué)習(xí)的標(biāo)準(zhǔn)(綜合損失函數(shù))。大模型雖然厲害,但小模型學(xué)習(xí)的時(shí)候,不會(huì)完全照抄大模型的思路。它會(huì)結(jié)合自己原來(lái)數(shù)據(jù)里的明確標(biāo)簽(比如貓就是貓,狗就是狗),再參考大模型的答案,最后做出自己的判斷。所以,小模型既要參考大模型給的 “學(xué)習(xí)筆記”(軟標(biāo)簽),又要結(jié)合原來(lái)數(shù)據(jù)里的 “媽媽的判斷”(硬標(biāo)簽)。
在實(shí)際操作中,用 “蒸餾損失” 來(lái)看看小模型和大模型的答案差多少,用 “真實(shí)監(jiān)督損失” 來(lái)看看小模型對(duì)簡(jiǎn)單問(wèn)題的判斷準(zhǔn)不準(zhǔn)。然后再定一個(gè)平衡系數(shù)(α),來(lái)調(diào)整這兩種損失,讓效果達(dá)到最好。說(shuō)直白點(diǎn),小模型要盡量學(xué)大模型的做法,蒸餾損失越小越好,但也不能學(xué)傻了,連簡(jiǎn)單的對(duì)錯(cuò)都分不清。
標(biāo)準(zhǔn)定好了,就可以正式開(kāi)始讓小模型學(xué)習(xí)了。
第一步,把同樣的訓(xùn)練數(shù)據(jù)分別輸入到小模型和大模型里;
第二步,根據(jù)硬標(biāo)簽和軟標(biāo)簽,對(duì)比它們的結(jié)果,再結(jié)合權(quán)重,算出小模型最后的損失值;
第三步,更新小模型的參數(shù),讓損失值變得更小。
不斷重復(fù)這三個(gè)步驟,就像反復(fù)做練習(xí)題一樣,每做一輪,就看看小模型和大模型答案的差距,然后及時(shí)改正。經(jīng)過(guò)很多輪之后,小模型學(xué)到的知識(shí)就會(huì)越來(lái)越多、越來(lái)越扎實(shí)。
最后,小模型就能在保留自身輕便優(yōu)勢(shì)的同時(shí),盡量復(fù)制大模型的智慧。這樣一來(lái),小助理就可以自己 “工作” 了,不需要全能神在旁邊指導(dǎo)了。
