在高速網(wǎng)絡(luò)設(shè)備中插入輕量級(jí)的優(yōu)化代碼,使得KAUST領(lǐng)導(dǎo)的合作將并行化計(jì)算系統(tǒng)的機(jī)器學(xué)習(xí)速度提高了五倍。這種 "網(wǎng)內(nèi)聚合 "技術(shù)是與英特爾、微軟和華盛頓大學(xué)的研究人員和系統(tǒng)架構(gòu)師共同開發(fā)的,它可以利用現(xiàn)成的可編程網(wǎng)絡(luò)硬件提供顯著的速度提升。
人工智能(AI)之所以能夠擁有如此強(qiáng)大的 "理解 "和與世界互動(dòng)的能力,其根本的好處是機(jī)器學(xué)習(xí)步驟,即使用大量標(biāo)記的訓(xùn)練數(shù)據(jù)集來訓(xùn)練模型。訓(xùn)練AI的數(shù)據(jù)越多,當(dāng)暴露于新的輸入時(shí),模型就可能表現(xiàn)得越好。
最近人工智能應(yīng)用的爆發(fā)主要是由于更好的機(jī)器學(xué)習(xí)和使用更大的模型和更多樣化的數(shù)據(jù)集。然而,執(zhí)行機(jī)器學(xué)習(xí)計(jì)算是一項(xiàng)艱巨的任務(wù),并越來越依賴于并行運(yùn)行學(xué)習(xí)算法的大型計(jì)算機(jī)陣列。
"如何大規(guī)模地訓(xùn)練深度學(xué)習(xí)模型是一個(gè)非常具有挑戰(zhàn)性的問題,"KAUST研究團(tuán)隊(duì)的Marco Canini說。"人工智能模型可能由數(shù)十億個(gè)參數(shù)組成,我們可以使用數(shù)百個(gè)處理器,這些處理器需要高效地并行工作。在這樣的系統(tǒng)中,增量模型更新過程中處理器之間的通信很容易成為主要的性能瓶頸。"
該團(tuán)隊(duì)在英特爾旗下的Barefoot Networks公司開發(fā)的新網(wǎng)絡(luò)技術(shù)中找到了潛在的解決方案。
"我們使用Barefoot Networks新的可編程數(shù)據(jù)平面網(wǎng)絡(luò)硬件來卸載分布式機(jī)器學(xué)習(xí)訓(xùn)練過程中執(zhí)行的部分工作,"后來加入英特爾Barefoot Networks團(tuán)隊(duì)的KAUST校友Amedeo Sapio解釋道。"使用這種新的可編程網(wǎng)絡(luò)硬件,而不僅僅是網(wǎng)絡(luò)來移動(dòng)數(shù)據(jù),意味著我們可以沿著網(wǎng)絡(luò)路徑進(jìn)行計(jì)算。"
該團(tuán)隊(duì)的SwitchML平臺(tái)的關(guān)鍵創(chuàng)新在于,在機(jī)器學(xué)習(xí)過程的模型更新階段,允許網(wǎng)絡(luò)硬件在每個(gè)同步步驟中執(zhí)行數(shù)據(jù)聚合任務(wù)。這不僅卸載了部分計(jì)算負(fù)載,還大大降低了數(shù)據(jù)傳輸量。
"雖然可編程開關(guān)數(shù)據(jù)機(jī)可以非??焖俚剡M(jìn)行操作,但它能做的操作是有限的,"Canini說。"因此,我們的解決方案必須對(duì)硬件足夠簡(jiǎn)單,但又必須足夠靈活,以解決板載內(nèi)存容量有限等挑戰(zhàn)。SwitchML通過共同設(shè)計(jì)通信網(wǎng)絡(luò)和分布式訓(xùn)練算法來解決這一挑戰(zhàn),與最先進(jìn)的方法相比,實(shí)現(xiàn)了高達(dá)5.5倍的速度提升。"
(舉報(bào))