近日的特斯拉AI日活動(dòng)上,特斯拉公布了最新的AI訓(xùn)練芯片“D1”,規(guī)模龐大,令人稱奇。
該芯片采用臺(tái)積電7nm工藝制造,核心面積達(dá)645平方毫米,僅次于NVIDIA Ampere架構(gòu)的超級(jí)計(jì)算核心A100(826平方毫米)、AMD CDNA2架構(gòu)的下代計(jì)算核心Arcturus(750平方毫米左右),集成了多達(dá)500億個(gè)晶體管,相當(dāng)于Intel Ponte Vecchio計(jì)算芯片的一半。
其內(nèi)部走線,長(zhǎng)度超過11英里,也就是大約18公里。
它集成了四個(gè)64位超標(biāo)量CPU核心,擁有多達(dá)354個(gè)訓(xùn)練節(jié)點(diǎn),特別用于8×8乘法,支持FP32、BFP64、CFP8、INT16、INT8等各種數(shù)據(jù)指令格式,都是AI訓(xùn)練相關(guān)的。
特斯拉稱,D1芯片的FP32單精度浮點(diǎn)計(jì)算性能達(dá)22.6TFlops(每秒22.6萬(wàn)億次),BF16/CFP8計(jì)算性能則可達(dá)362TFlops(每秒362萬(wàn)億次)。
為了支撐AI訓(xùn)練的擴(kuò)展性,它的互連帶寬非常驚人,最高可達(dá)10TB/s,由多達(dá)576個(gè)通道組成,每個(gè)通道的帶寬都有112Gbps。
而實(shí)現(xiàn)這一切,熱設(shè)計(jì)功耗僅為400W。
特斯拉D1芯片可通過DIP(Dojo接口處理器)進(jìn)行互連,25顆組成一個(gè)訓(xùn)練單元(Training Tile),而且多個(gè)訓(xùn)練單元可以繼續(xù)互連,單個(gè)對(duì)外帶寬高達(dá)36TB/s,每個(gè)方向都是9TB/s。
如此龐然大物,耗電量和發(fā)熱都是相當(dāng)可怕的,電流達(dá)18000A,覆蓋一個(gè)長(zhǎng)方體散熱方案,散熱能力高達(dá)15kW。
最新資訊
Copyright (C) 1999-20120 www.manadcn.cn, All Rights Reserved
版權(quán)所有 環(huán)球快報(bào)網(wǎng) | 聯(lián)系我們:265 073 543 9@qq.com