123,123

直面大模型“大成本”挑戰(zhàn)，如何提高算力效率？

2024年06月03日 15:57　來(lái)源：中國(guó)新聞網(wǎng)

　　中新網(wǎng)北京6月3日電 (記者夏賓)近年來(lái)，為了追求大模型的智慧能力，各國(guó)公司不停加碼投入，4月，Meta宣布追加10億美元投資，用于其AI芯片研發(fā)和AI數(shù)據(jù)中心建設(shè)；亞馬遜為了建設(shè)新數(shù)據(jù)中心投入110億美元。但在大模型擴(kuò)張的背后，算力代價(jià)、能源代價(jià)同樣巨大。

　　有業(yè)界技術(shù)團(tuán)隊(duì)測(cè)算，若要對(duì)一個(gè)5000億參數(shù)規(guī)模的單體大模型進(jìn)行充分訓(xùn)練，所需算力基礎(chǔ)設(shè)施約在10億美元規(guī)模，每年消耗的電費(fèi)在5.3億元人民幣。無(wú)論對(duì)于哪個(gè)機(jī)構(gòu)、企業(yè)，這都是天文數(shù)字和巨大代價(jià)，中國(guó)也不例外。

　　知名科學(xué)雜志《Nature》此前發(fā)表了一篇關(guān)于大模型未來(lái)發(fā)展之路的文章，《In Al, is bigger always better?》(人工智能，越大型越好？)。爭(zhēng)議的出現(xiàn)，意味著AI發(fā)展方向出現(xiàn)了分歧。

　　如今，“大”不再是模型的唯一追求，計(jì)算效率和算力開(kāi)銷兩大問(wèn)題成為新的行業(yè)焦點(diǎn)。

　　對(duì)大模型推理成本的優(yōu)化，可通過(guò)很多技術(shù)手段實(shí)現(xiàn)。首先是模型本身，模型結(jié)構(gòu)、訓(xùn)練方法都可以持續(xù)改進(jìn)，包括業(yè)界很關(guān)注的MoE(混合專家模型)，就是優(yōu)化推理成本很好的解決方案。其次是工程上的優(yōu)化。大模型的調(diào)用量越大，優(yōu)化推理成本的空間也越大。以前的模型都是單機(jī)推理，大模型用的是分布式推理。所以如果能把各種各樣底層算力用得更好，推理成本就會(huì)大大降低。

　　MoE大模型的盛行，實(shí)際上對(duì)應(yīng)的正是模型能力和算力開(kāi)銷兩大問(wèn)題的解決。這也是為何眾多大模型廠商如OpenAI、谷歌、Mistral AI、浪潮信息等陸續(xù)基于MoE架構(gòu)升級(jí)自家大模型產(chǎn)品的原因。

　　從浪潮信息發(fā)布的“源2.0-M32”開(kāi)源大模型來(lái)看，其基于“源2.0”系列大模型已有工作基礎(chǔ)，創(chuàng)新提出和采用了“基于注意力機(jī)制的門(mén)控網(wǎng)絡(luò)”技術(shù)，構(gòu)建包含32個(gè)專家(Expert)的混合專家模型(MoE)，并大幅提升了模型算力效率，模型運(yùn)行時(shí)激活參數(shù)為37億，在業(yè)界主流基準(zhǔn)評(píng)測(cè)中性能全面對(duì)標(biāo)700億參數(shù)的LLaMA3開(kāi)源大模型。

　　浪潮信息人工智能首席科學(xué)家吳韶華在接受中新網(wǎng)記者采訪時(shí)說(shuō)，我們一直在想如何以更低的算力消耗，提高整個(gè)大模型的應(yīng)用效果，能讓企業(yè)、機(jī)構(gòu)以更小的算力代價(jià)去獲得更高的模型能力�！斑@可能是中國(guó)發(fā)展自己的AI大模型比較行之有效的路徑�！�

　　他直言，大模型推進(jìn)速度越來(lái)越快，必須強(qiáng)調(diào)模型算力效率�！按蠹铱梢韵胂�，效率越高就意味著在單位算力投入相等的情況下獲得的精度回報(bào)越高，它對(duì)于訓(xùn)練和應(yīng)用都非常有利。”

　　“現(xiàn)實(shí)的算力是有限的，我們一再反復(fù)強(qiáng)調(diào)模算效率，試圖針對(duì)當(dāng)前算力情況闖出一條自己覺(jué)得比較好的路子。在固定每個(gè)Token算力不變的情況下，通過(guò)擴(kuò)展專家數(shù)量可以獲得更大參數(shù)量的模型，進(jìn)而獲得更高精度�！眳巧厝A說(shuō)。

　　他進(jìn)一步稱，整體來(lái)看，盡管當(dāng)前模型的能力提升非常之快，但之前大家更多關(guān)注單個(gè)維度問(wèn)題，即平均精度的提升。但大模型進(jìn)入快速落地時(shí)代，就不得不考慮更多維度的問(wèn)題，包括模算效率、精度、算力開(kāi)銷等。

　　中國(guó)工程院院士鄭緯民曾做過(guò)這樣的計(jì)算，在大模型訓(xùn)練過(guò)程中，70%開(kāi)銷要花在算力上；推理過(guò)程中95%的花費(fèi)也是在算力上。

　　為解決大模型訓(xùn)練的算力不足問(wèn)題，鄭緯民建議，在推動(dòng)智能計(jì)算中心建設(shè)同時(shí)也可以利用已有超算系統(tǒng)的空余算力。

　　鄭緯民表示，現(xiàn)有14個(gè)國(guó)家掛牌的超算系統(tǒng)，每臺(tái)機(jī)器的建設(shè)成本都很高，成本在10億元至20億元，甚至更高。這些超算系統(tǒng)已經(jīng)為中國(guó)的國(guó)民經(jīng)濟(jì)發(fā)展作出巨大貢獻(xiàn)，但有些系統(tǒng)還有空余算力，這些空余算力也可被用來(lái)做大模型訓(xùn)練，且經(jīng)過(guò)優(yōu)化甚至可降低大模型訓(xùn)練成本。

　　對(duì)于近期中國(guó)企業(yè)的一輪大模型降價(jià)，零一萬(wàn)物CEO李開(kāi)復(fù)表示，未來(lái)整個(gè)行業(yè)的推理成本每年降低十倍是可以期待的，且這個(gè)趨勢(shì)是必然的，如此會(huì)有更多人用上大模型，這是非常利好的消息。(完)

編輯：孫婷婷