站長之家(ChinaZ.com) 5月23日消息:Meta 公司的 AI 工作負(fù)載無處不在,為諸多應(yīng)用提供基礎(chǔ)支持,如內(nèi)容理解、動態(tài)信息流、生成式 AI 和廣告排名等。得益于其與 Python 的無縫集成、急切模式編程和簡明的 API,PyTorch 可以運(yùn)行這些工作負(fù)載。
其中,DLRMs 對于提升 Meta 產(chǎn)品和服務(wù)的用戶體驗至關(guān)重要。硬件系統(tǒng)必須在模型的規(guī)模和復(fù)雜性不斷增長的情況下,提供越來越多的內(nèi)存和計算資源,同時保持效率。
然而,當(dāng)處理 Meta 在規(guī)模上獨(dú)特的推薦工作負(fù)載時,GPU 并不總是最佳選擇。為了解決這個問題,Meta 團(tuán)隊開發(fā)了一套名為「Meta 訓(xùn)練和推理加速器」(MTIA)的專用集成電路(ASIC)??紤]到下一代推薦模型的需求,第一代 ASIC 已經(jīng)納入 PyTorch 中,以開發(fā)完全優(yōu)化的排名系統(tǒng)。為了讓開發(fā)人員保持高效,他們不斷維護(hù)對 PyTorch 2.0 的支持,該版本極大地提高了 PyTorch 的編譯器級性能。
研究人員將 MTIA 與 NNPI 加速器和圖形處理單元進(jìn)行了比較。結(jié)果顯示,MTIA 在低復(fù)雜性模型的小規(guī)模和批處理上進(jìn)行了有效管理。MTIA 通過積極優(yōu)化其軟件棧,實現(xiàn)了類似的性能水平。與此同時,它利用 GPU 的軟件棧在中高復(fù)雜性模型上運(yùn)行更大規(guī)模、更優(yōu)化的形式。
為了優(yōu)化 Meta 工作負(fù)載的性能,團(tuán)隊正在努力尋找計算能力、內(nèi)存容量和互連帶寬之間的平衡點(diǎn),以開發(fā)更好、更高效的解決方案。
(舉報)