螞蟻集團(tuán)NextEvo全面開(kāi)源AI Infra技術(shù) 可實(shí)現(xiàn)大模型訓(xùn)練“自動(dòng)駕駛”
-
收藏
0
近日,螞蟻集團(tuán)AI創(chuàng)新研發(fā)部門(mén)NextEvo全面開(kāi)源AI Infra技術(shù),可幫助大模型千卡訓(xùn)練有效時(shí)間占比超過(guò)95%,能實(shí)現(xiàn)訓(xùn)練時(shí)“自動(dòng)駕駛”,這推動(dòng)了AI研發(fā)效率。

(圖:螞蟻集團(tuán)的自動(dòng)化分布式深度學(xué)習(xí)系統(tǒng)DLRover現(xiàn)已全面開(kāi)源)
該技術(shù)框架名為DLRover,目標(biāo)在于大規(guī)模分布式訓(xùn)練的智能化。目前很多企業(yè)的訓(xùn)練作業(yè)都是跑在混合部署的集群中,運(yùn)行環(huán)境復(fù)雜多變,不管多么“崎嶇的地形”,DLRover都可以“輕松行駛”。
2023 年大模型技術(shù)的發(fā)展,帶來(lái)了工程實(shí)踐的爆發(fā),如何管理數(shù)據(jù),提高訓(xùn)練和推理效率,最大化利用現(xiàn)有算力,成了關(guān)鍵一環(huán)。
完成一個(gè)千億參數(shù)級(jí)別的大模型,如GPT-3,用一張卡訓(xùn)練一次要耗時(shí)32年,那么訓(xùn)練時(shí)的算力利用尤為重要。方法之一是把能用的算力用得更好,比如進(jìn)一步壓榨已購(gòu)買(mǎi)GPU的性能;二是把以前利用不了的算力用起來(lái),比如CPU、內(nèi)存等,這就需要通過(guò)異構(gòu)計(jì)算平臺(tái)來(lái)解決。
最新集成進(jìn)DLRover的是Flash Checkpoint(FCP)方案。模型訓(xùn)練時(shí),一般要打Checkpoint(檢查點(diǎn)),以便中斷時(shí)能恢復(fù)到最近狀態(tài),目前常規(guī)的做法,存在著耗時(shí)長(zhǎng)、高頻打點(diǎn)易降低訓(xùn)練可用時(shí)間、低頻打點(diǎn)恢復(fù)時(shí)丟失過(guò)多等缺點(diǎn)。新方案FCP應(yīng)用在千卡千億參數(shù)模型訓(xùn)練后,Checkpoint 導(dǎo)致的訓(xùn)練浪費(fèi)時(shí)間降低約5倍,其中持久化時(shí)間降低約70倍,有效訓(xùn)練時(shí)間從90%提升至95%。
同時(shí)集成進(jìn)去的,還有三項(xiàng)新的優(yōu)化器(Optimizer)技術(shù)。優(yōu)化器作為機(jī)器學(xué)習(xí)的核心組件,用于更新神經(jīng)網(wǎng)絡(luò)參數(shù)以最小化損失函數(shù)。其中,螞蟻的AGD(Auto-switchable optimizer with Gradient Difference of adjacent steps)優(yōu)化器,在大模型預(yù)訓(xùn)練任務(wù)中,相比傳統(tǒng)的AdamW技術(shù)加速 1.5 倍,AGD已在螞蟻內(nèi)部多個(gè)場(chǎng)景使用并取得顯著效果,相關(guān)論文已被 NeurIPS '23收錄。

(圖:在大模型預(yù)訓(xùn)練任務(wù)中,AGD相比AdamW可以加速1.5 倍)
作為自動(dòng)化分布式深度學(xué)習(xí)系統(tǒng),DLRover的“自動(dòng)駕駛”功能模塊還包括:Atorch,一種PyTorch分布式訓(xùn)練擴(kuò)展庫(kù),在千億參數(shù)模型千卡級(jí)別規(guī)模下,訓(xùn)練的算力利用率可達(dá)60%,幫助開(kāi)發(fā)者進(jìn)一步壓榨硬件算力。
DLRover以 “ML for System” 的理念來(lái)提升分布式訓(xùn)練的智能度,旨在通過(guò)一個(gè)系統(tǒng),讓開(kāi)發(fā)者完全擺脫資源配置的束縛,專(zhuān)注于模型訓(xùn)練本身。在沒(méi)有任何資源配置輸入的情況下,DLRover 仍然可以為每個(gè)訓(xùn)練作業(yè)提供最佳資源配置。
據(jù)了解,螞蟻集團(tuán)在人工智能領(lǐng)域持續(xù)進(jìn)行技術(shù)投入,最近,螞蟻集團(tuán)在內(nèi)部成立了AI創(chuàng)新研發(fā)部門(mén)NextEvo,承擔(dān)了螞蟻AI的所有核心技術(shù)研發(fā),包含百靈大模型的所有研發(fā)工作,涉及AI算法、AI工程、NLP、AIGC等核心技術(shù),并在布局多模態(tài)大模型、數(shù)字人等領(lǐng)域的技術(shù)研發(fā)和產(chǎn)品創(chuàng)新。
同時(shí),螞蟻集團(tuán)還加速開(kāi)源節(jié)奏,填補(bǔ)了國(guó)內(nèi)相關(guān)技術(shù)空白,推動(dòng)人工智能行業(yè)快速發(fā)展。
DLRover開(kāi)源地址:https://github.com/intelligent-machine-learning/dlrover
免責(zé)聲明:本網(wǎng)站所有文章僅作為資訊傳播使用,既不代表任何觀點(diǎn)導(dǎo)向,也不構(gòu)成任何投資建議。】
猜你喜歡
螞蟻集團(tuán)2024年研發(fā)投入234.5億:重投AI普惠,三大AI管家用戶超1.3億
重投AI普惠,三大AI管家用戶超1.3億螞蟻國(guó)際、螞蟻數(shù)科雙雙表態(tài)!螞蟻集團(tuán)“雙線競(jìng)速”香港穩(wěn)定幣
雙線布局!螞蟻國(guó)際、螞蟻數(shù)科均將申請(qǐng)香港穩(wěn)定幣牌照六大金融科技公司營(yíng)收619億元背后:AI賦能助貸,行業(yè)穩(wěn)健增長(zhǎng)
解讀金融科技公司年報(bào):行業(yè)穩(wěn)健前行,頭部公司深度“擁抱”AI20多個(gè)“金融+AI”場(chǎng)景即將發(fā)布!深圳金融+AI生態(tài)體系建設(shè)正啟航
在科技浪潮奔涌向前的時(shí)代,金融與AI的深度融合正以前所未有的態(tài)勢(shì)重塑著金融行業(yè)的格局。8億用戶的智能診療革命:螞蟻用AI重構(gòu)“機(jī)構(gòu)—醫(yī)生—患者”全鏈路
AI醫(yī)療再進(jìn)化!螞蟻集團(tuán)發(fā)布醫(yī)療大模型一體機(jī)
派財(cái)經(jīng)
共1019篇文章
聚焦數(shù)字經(jīng)濟(jì)融媒體平臺(tái)。