AI pieredzes mērogošana ar Meta MTIA mikroshēmām
Katru dienu miljardiem cilvēku dažādās Meta platformās mijiedarbojas ar daudziem AI darbinātiem līdzekļiem, sākot no personalizētiem satura ieteikumiem līdz moderniem AI asistentiem. Pamatproblēma Meta un patiešām nozarei ir šo sarežģīto AI modeļu izvietošana un nepārtraukta uzlabošana globālā mērogā, vienlaikus saglabājot optimālu izmaksu efektivitāti. Šo prasīgo infrastruktūras uzdevumu Meta risina ar stratēģiskām investīcijām elastīgos, nepārtraukti attīstītos risinājumos, kuru centrā ir to pielāgotās AI mikroshēmas: Meta Apmācības un secinājumu paātrinātāja (MTIA) saime.
Lai gan Meta ir apņēmusies veidot daudzveidīgu silīcija portfeli, kas izmanto gan iekšējos, gan ārējos risinājumus, MTIA mikroshēmas, kas izstrādātas ciešā sadarbībā ar Broadcom, ir neaizstājama Meta AI infrastruktūras stratēģijas sastāvdaļa. Šie vietēji izstrādātie paātrinātāji ir būtiski, lai rentabli darbinātu AI pieredzi, kas sasniedz miljardus lietotāju, nepārtraukti pielāgojoties strauji mainīgajai AI modeļu ainavai.
Meta MTIA mikroshēmu iteratīvā attīstība
AI modeļu ainava atrodas nepārtrauktā mainībā, attīstoties tādā tempā, kas bieži vien pārsniedz tradicionālos mikroshēmu izstrādes ciklus. Atzīstot, ka mikroshēmu dizaini, kas balstīti uz prognozētajām darba slodzēm, var kļūt novecojuši līdz brīdim, kad aparatūra sasniedz ražošanu, Meta ir pieņēmusi inovatīvu "ātruma stratēģiju" MTIA. Ilgu, spekulatīvu izstrādes periodu vietā Meta izmanto iteratīvu pieeju, kurā katra MTIA paaudze balstās uz iepriekšējo. Tas ietver modulāru mikroshēmu komponentu (chiplets) izmantošanu, jaunāko atziņu par AI darba slodzēm iekļaušanu un jaunu aparatūras tehnoloģiju izvietošanu ievērojami īsākos termiņos. Šis ciešāks atgriezeniskās saites cikls nodrošina, ka Meta pielāgotais silīcijs joprojām cieši atbilst AI modeļu dinamiskajām prasībām, veicinot jaunu sasniegumu ātrāku ieviešanu.
Meta jau ir detalizēti aprakstījusi pirmās divas paaudzes, MTIA 100 un MTIA 200, akadēmiskajos darbos. Balstoties uz šo pamatu, Meta ir paātrinājusi izstrādi, lai ieviestu četras jaunas secīgas paaudzes: MTIA 300, 400, 450 un 500. Šīs mikroshēmas jau ir ražošanā vai ir paredzētas masveida izvietošanai 2026. un 2027. gadā. Šī straujā secība ir ļāvusi Meta ievērojami paplašināt MTIA darba slodzes pārklājumu, pārejot no sākotnējās ranžēšanas un ieteikumu (R&R) secinājumu veidošanas uz R&R apmācību, vispārējām ģeneratīvās AI (GenAI) darba slodzēm un ļoti optimizētiem GenAI secinājumiem.
MTIA 300: AI darba slodžu pamatu likšana
MTIA 300 iezīmēja būtisku soli Meta pielāgotā silīcija ceļā. Sākotnēji optimizēta R&R modeļiem, kas bija Meta dominējošās darba slodzes pirms GenAI uzplūda, tās arhitektūras pamatelementi izveidoja stabilu pamatu nākamajām mikroshēmām. MTIA 300 galvenās atšķirīgās iezīmes ietver integrētus NIC mikroshēmu komponentus (chiplets), īpašus ziņojumu dzinējus saziņas kolektīvu izkraušanai un gandrīz atmiņas skaitļošanas iespējas, kas paredzētas uz samazinājumiem balstītiem kolektīviem. Šie zemas latentuma, liela joslas platuma sakaru komponenti izrādījās noderīgi, lai nodrošinātu efektīvus GenAI secinājumus un apmācību nākamajās paaudzēs.
MTIA 300 sastāv no viena skaitļošanas mikroshēmas komponenta (compute chiplet), diviem tīkla mikroshēmu komponentiem (network chiplets) un vairākām liela joslas platuma atmiņas (HBM) stertām (stacks). Katrs skaitļošanas mikroshēmas komponents ietver apstrādes elementu (PE) režģi, kas stratēģiski izveidots ar liekiem PE, lai uzlabotu iznākumu. Katrs PE ir sarežģīta vienība, kas satur divus RISC-V vektoru kodolus, Dot Product Engine matricas reizināšanai, Special Function Unit aktivizācijām un elementāru operācijām, Reduction Engine uzkrāšanai un starp-PE saziņai, kā arī DMA dzinēju efektīvai datu pārvietošanai vietējā pagaidu atmiņā (scratch memory). Šis sarežģītais dizains uzsvēra Meta apņēmību radīt ļoti efektīvu un rentablu risinājumu saviem galvenajiem AI uzdevumiem.
MTIA 400: Konkurētspējīgas GenAI veiktspējas sasniegšana
Ar nepieredzēto ģeneratīvās AI pieaugumu, Meta strauji attīstīja MTIA 300 par MTIA 400, lai nodrošinātu stabilu atbalstu GenAI darba slodzēm, līdzās esošajām R&R iespējām. MTIA 400 ir ievērojams lēciens, piedāvājot par 400% augstāku FP8 FLOPS un par 51% palielinātu HBM joslas platumu salīdzinājumā ar priekšgājēju. Kamēr MTIA 300 koncentrējās uz izmaksu efektivitāti, MTIA 400 tika izstrādāta, lai nodrošinātu neapstrādātu veiktspēju, kas konkurētu ar vadošajiem komerciālajiem AI paātrinātājiem.
Tas tiek panākts, apvienojot divus skaitļošanas mikroshēmu komponentus, lai efektīvi dubultotu skaitļošanas blīvumu, un atbalstot uzlabotas MX8 un MX4 versijas, kas ir būtiski zemas precizitātes formāti efektīvai GenAI secinājumu veidošanai. Viens statīvs, kas aprīkots ar 72 MTIA 400 ierīcēm, savienots, izmantojot komutētu pamatplāksni (switched backplane), veido jaudīgu mērogošanas domēnu (scale-up domain). Šīs sistēmas atbalsta progresīvi ar gaisu dzesēti šķidruma dzesēšanas (AALC) statīvi, kas atvieglo ātru izvietošanu pat mantotajos datu centros, demonstrējot Meta praktisko pieeju AI infrastruktūras mērogošanai globālā mērogā.
MTIA 450 un 500: Specializētas GenAI secinājumiem
Paredzot turpmāku eksponenciālu GenAI secinājumu pieprasījuma pieaugumu, Meta vēl vairāk uzlaboja MTIA 400, kas noveda pie MTIA 450 un vēlāk arī MTIA 500 izstrādes. Šīs paaudzes ir īpaši optimizētas unikālajām GenAI secinājumu problēmām, koncentrējoties uz kritiskiem atmiņas un skaitļošanas sasniegumiem.
MTIA 450 panāca ievērojamus uzlabojumus, veicot šādus pasākumus:
- HBM joslas platuma dubultošana no iepriekšējās versijas, kas ir ļoti svarīgi, lai paātrinātu dekodēšanas fāzi GenAI modeļos.
- MX4 FLOPS palielināšana par 75%, paātrinot ekspertu sajaukumu (MoE) un barošanas tīkla (FFN) aprēķinus, kas bieži sastopami lielos valodu modeļos.
- Aparatūras paātrinājuma ieviešana, lai padarītu uzmanības un FFN aprēķinus efektīvākus, mazinot vājās vietas, kas saistītas ar Softmax un FlashAttention.
- Inovācijas zemas precizitātes datu tipos, pārsniedzot FP8/MX8, lai nodrošinātu 6 reizes lielākus MX4 FLOPS nekā FP16/BF16, ar pielāgotām datu tipu inovācijām, kas saglabā modeļa kvalitāti un palielina FLOPS ar minimālu mikroshēmas laukuma ietekmi.
MTIA 500, balstoties uz 450. veiksmi, vēl vairāk palielināja HBM joslas platumu par papildu 50% un ieviesa vairāk jauninājumu zemas precizitātes datu tipos, pastiprinot Meta apņēmību paplašināt GenAI secinājumu veiktspējas robežas. Šī nerimstošā tieksme pēc uzlabojumiem nodrošina, ka Meta AI pieredze saglabājas visprogresīvākā.
Kumulatīvie sasniegumi šajās paaudzēs ir acīmredzami. No MTIA 300 līdz MTIA 500 HBM joslas platums ir pieaudzis par iespaidīgām 4,5 reizēm, savukārt skaitļošanas FLOPS ir palielinājušies pārsteidzošas 25 reizes (no MTIA 300 MX8 līdz MTIA 500 MX4). Šī straujā paātrināšanās divu gadu laikā ir apliecinājums Meta ātruma stratēģijai un tās spējai nepārtraukti uzlabot savu pielāgoto silīciju. Šī evolūcija ir galvenā aģentūras AI operacionalizēšanā un citu sarežģītu modeļu mērogošanā.
Šeit ir galveno specifikāciju sadalījums visā MTIA saimē:
| Funkcija | MTIA 300 | MTIA 400 | MTIA 450 | MTIA 500 |
|---|---|---|---|---|
| Skaitļošanas matrica | 1 | 2 | 2 | 2 |
| HBM stertu skaits | 4 | 4 | 8 | 8 |
| HBM joslas platums (GB/s)* | 100 | 151 | 302 | 453 |
| MX8 FLOPS (TFLOPS) | 100 | 400 | 400 | 400 |
| MX4 FLOPS (TFLOPS) | N/A | 200 | 350 | 500 |
| Mērogošanas domēna izmērs | 18 ierīces** | 72 ierīces | 72 ierīces | 72 ierīces |
| Galvenā optimizācija | R&R apmācība, zema latentuma saziņa | Vispārējā GenAI, konkurētspējīga neapstrādāta veiktspēja. | GenAI secinājumi, HBM, pielāgota zema precizitāte. | GenAI secinājumi, HBM, pielāgota zema precizitāte. |
*Daži piegādātāji ziņo par divvirzienu joslas platumu. Reiziniet tabulā norādīto vērtību ar divi, lai iegūtu atbilstošo divvirzienu joslas platumu. **MTIA 300 ir konfigurēta ar mērogošanas (scale-out) tīklu ar augstāku joslas platumu (200 GB/s) tā salīdzinoši mazā mērogošanas (scale-up) domēna izmēra un mērķa R&R darba slodžu dēļ.
Šīs specifikācijas izceļ dramatiskos uzlabojumus atmiņas joslas platumā un skaitļošanas jaudā, demonstrējot, kā katra MTIA paaudze ir rūpīgi izstrādāta, lai risinātu pašreizējo un nākotnes AI lietojumprogrammu, īpaši resursietilpīgo GenAI modeļu, visaktuālākās prasības.
Meta nerimstošā pielāgotu silīcija risinājumu meklēšana ar MTIA saimes starpniecību uzsver tās apņemšanos nodrošināt visprogresīvāko AI pieredzi miljardiem lietotāju visā pasaulē. Apvienojot iekšējas inovācijas ar stratēģiskām partnerībām, Meta turpina no jauna definēt mērogojamas un rentablas AI infrastruktūras iespējas.
Sākotnējais avots
https://ai.meta.com/blog/meta-mtia-scale-ai-chips-for-billions/Bieži uzdotie jautājumi
What are Meta MTIA chips and what is their purpose?
How many generations of MTIA chips has Meta developed in recent years?
What is Meta's 'velocity strategy' for AI chip development?
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
What are the key performance advancements from MTIA 300 to MTIA 500?
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
Esiet informēti
Saņemiet jaunākās AI ziņas savā e-pastā.
