הרחבת חוויות AI עם שבבי MTIA של Meta
בכל יום, מיליארדי אנשים ברחבי הפלטפורמות המגוונות של Meta מקיימים אינטראקציה עם שלל תכונות מונעות בינה מלאכותית, החל מהמלצות תוכן מותאמות אישית ועד עוזרי AI מתקדמים. האתגר הבסיסי עבור Meta, ואכן עבור התעשייה כולה, טמון בפריסה ושיפור מתמיד של מודלי AI מתוחכמים אלה בקנה מידה גלובלי, כל זאת תוך שמירה על יעילות עלות אופטימלית. משימת תשתית תובענית זו נענית על ידי ההשקעה האסטרטגית של Meta בפתרונות גמישים, המתפתחים ללא הרף, ומרכזם הם שבבי ה-AI המעוצבים בהתאמה אישית: משפחת Meta Training and Inference Accelerator (MTIA).
בעוד ש-Meta מחויבת לפורטפוליו סיליקון מגוון הממנף פתרונות פנימיים וחיצוניים כאחד, שבבי MTIA, שפותחו בשיתוף פעולה הדוק עם Broadcom, הם מרכיב הכרחי באסטרטגיית תשתית ה-AI של Meta. מאיצים תוצרת בית אלה חיוניים להנעת חוויות ה-AI המגיעות למיליארדים באופן חסכוני, תוך התאמה מתמדת לנוף המודלים של AI המתפתח במהירות.
ההתפתחות האיטרטיבית של שבבי MTIA של Meta
נוף מודלי ה-AI נמצא במצב של שינוי מתמיד, ומתפתח בקצב שלעיתים קרובות עולה על מחזורי פיתוח שבבים מסורתיים. בהכרה בכך שתכנוני שבבים המבוססים על עומסי עבודה צפויים עלולים להתיישן עד שהחומרה תגיע לייצור, Meta אימצה "אסטרטגיית מהירות" חדשנית עבור MTIA. במקום תקופות פיתוח ארוכות וספקולטיביות, Meta מאמצת גישה איטרטיבית שבה כל דור של MTIA בונה על קודמו. זה כרוך בשימוש בצ'יפלטים מודולריים, שילוב תובנות חדשות של עומסי עבודה של AI ופריסת טכנולוגיות חומרה חדשות בקצב קצר באופן משמעותי. לולאת משוב הדוקה זו מבטיחה שהסיליקון המותאם אישית של Meta יישאר מיושר באופן הדוק עם הדרישות הדינמיות של מודלי AI, מה שמקדם אימוץ מהיר יותר של התקדמות חדשה.
Meta כבר פירטה את שני הדורות הראשונים, MTIA 100 ו-MTIA 200, במאמרים אקדמיים. בהתבסס על יסוד זה, Meta האיצה את הפיתוח כדי להציג ארבעה דורות עוקבים חדשים: MTIA 300, 400, 450 ו-500. שבבים אלו כבר נמצאים בייצור או מיועדים לפריסה המונית בשנים 2026 ו-2027. רצף מהיר זה איפשר ל-Meta להרחיב באופן משמעותי את כיסוי עומסי העבודה של MTIA, תוך מעבר מהסקת דירוג והמלצות (R&R) ראשונית לאימון R&R, עומסי עבודה כלליים של בינה מלאכותית יוצרת (GenAI), והסקת GenAI ממוטבת במיוחד.
MTIA 300: הנחת היסודות לעומסי עבודה של AI
ה-MTIA 300 סימן צעד מכריע במסע הסיליקון המותאם אישית של Meta. הוא עבר אופטימיזציה ראשונית למודלי R&R, שהיו עומסי העבודה הדומיננטיים של Meta לפני הזינוק של GenAI, ואבני הבניין הארכיטקטוניות שלו הקימו בסיס איתן לשבבים הבאים. תכונות מבדלות מרכזיות של MTIA 300 כוללות צ'יפלטים של NIC משולבים, מנועי הודעות ייעודיים לפריקת קולקטיבי תקשורת, ויכולות מחשוב קרוב לזיכרון המיועדות לקולקטיבי מבוססי הפחתה. רכיבי תקשורת אלו, בעלי חביון נמוך ורוחב פס גבוה, הוכיחו את עצמם כחיוניים באפשרות הסקת GenAI ואימון יעילים בדורות הבאים.
ה-MTIA 300 מורכב מצ'יפלט מחשוב אחד, שני צ'יפלטים רשתיים וכמה ערימות זיכרון ברוחב פס גבוה (HBM). כל צ'יפלט מחשוב כולל רשת של יחידות עיבוד (PEs), שתוכננו אסטרטגית עם PEs יתירים כדי לשפר את התפוקה. כל PE היא יחידה מתוחכמת המכילה שתי ליבות וקטוריות של RISC-V, מנוע מכפלה וקטורית (Dot Product Engine) לכפל מטריצות, יחידת פונקציות מיוחדות לפעולות הפעלה (activations) ופעולות אלמנטריות, מנוע הפחתה (Reduction Engine) לצבירה ותקשורת בין PEs, ומנוע DMA לתנועת נתונים יעילה בתוך זיכרון עבודה מקומי (scratch memory). תכנון מורכב זה הדגיש את מחויבותה של Meta ליצירת פתרון יעיל וחסכוני ביותר עבור משימות ה-AI הליבה שלה.
MTIA 400: השגת ביצועי GenAI תחרותיים
עם הזינוק חסר התקדים בבינה מלאכותית יוצרת (Generative AI), Meta פיתחה במהירות את ה-MTIA 300 ל-MTIA 400 כדי לספק תמיכה חזקה לעומסי עבודה של GenAI לצד יכולות ה-R&R הקיימות שלה. ה-MTIA 400 מייצג קפיצת מדרגה משמעותית, ומציע 400% יותר FP8 FLOPS ועלייה של 51% ברוחב הפס של HBM בהשוואה לקודמו. בעוד שה-MTIA 300 התמקד ביעילות עלות, ה-MTIA 400 תוכנן לספק ביצועים גולמיים תחרותיים למאיצי AI מסחריים מובילים.
הוא משיג זאת על ידי שילוב שני צ'יפלטים של מחשוב כדי להכפיל ביעילות את צפיפות המחשוב ועל ידי תמיכה בגרסאות משופרות של MX8 ו-MX4, פורמטים חיוניים בדיוק נמוך להסקת GenAI יעילה. ארון שרתים בודד המצויד ב-72 התקני MTIA 400, המחוברים באמצעות backplane ממותג, יוצר תחום scale-up עוצמתי. מערכות אלו נתמכות על ידי ארונות קירור נוזלי מתקדם בעזרת אוויר (AALC), המאפשרים פריסה מהירה גם במרכזי נתונים מדור קודם, ומדגימים את הגישה הפרקטית של Meta להרחבת תשתית ה-AI שלה ברחבי העולם.
MTIA 450 ו-500: מותאמים במיוחד להסקת GenAI
בציפייה לגידול האקספוננציאלי המתמשך בביקוש להסקת GenAI, Meta שיכללה עוד יותר את ה-MTIA 400, מה שהוביל לפיתוח MTIA 450 ולאחר מכן MTIA 500. דורות אלו מותאמים במיוחד לאתגרים הייחודיים של הסקת GenAI, ומתמקדים בהתקדמות קריטית בזיכרון ובמחשוב.
MTIA 450 עשה צעדים משמעותיים על ידי:
- הכפלת רוחב הפס של HBM מהגרסה הקודמת, מה שחיוני להאצת שלב הפיענוח במודלי GenAI.
- הגדלת MX4 FLOPS ב-75%, האצה של חישובי רשתות הזנה קדימה (FFN) של מומחים מעורבים (MoE) הנפוצים במודלי שפה גדולים.
- הצגת האצת חומרה כדי להפוך חישובי קשב (attention) ו-FFN ליעילים יותר, תוך הקלה על צווארי בקבוק הקשורים ל-Softmax ו-FlashAttention.
- חדשנות בסוגי נתונים בדיוק נמוך, תוך מעבר מ-FP8/MX8 כדי לספק פי 6 את ה-MX4 FLOPS של FP16/BF16, עם חידושי סוגי נתונים מותאמים אישית המשמרים את איכות המודל ומגבירים את ה-FLOPS עם השפעה מינימלית על שטח השבב.
MTIA 500, בבנייה על ההצלחה של 450, הגדיל עוד יותר את רוחב הפס של HBM ב-50% נוספים והציג חידושים נוספים בסוגי נתונים בדיוק נמוך, מה שמחזק את מחויבותה של Meta לדחוף את גבולות ביצועי הסקת GenAI. דחף בלתי פוסק זה לשיפור מבטיח שחוויות ה-AI של Meta יישארו בחזית הטכנולוגיה.
ההתקדמות המצטברת בכל הדורות הללו בולטת. מ-MTIA 300 ועד MTIA 500, רוחב הפס של HBM גדל פי 4.5 מרשים, בעוד ש-FLOPS המחשוב ראו עלייה מדהימה פי 25 (מ-MX8 של MTIA 300 ל-MX4 של MTIA 500). האצה מהירה זו בתוך שנתיים היא עדות לאסטרטגיית המהירות של Meta וליכולתה לשפר ללא הרף את הסיליקון המותאם אישית שלה. התפתחות זו היא מרכזית להפעלת AI סוכנים ומודלים מורכבים אחרים בקנה מידה.
להלן פירוט המפרטים העיקריים של משפחת MTIA:
| Feature | MTIA 300 | MTIA 400 | MTIA 450 | MTIA 500 |
|---|---|---|---|---|
| Compute Die | 1 | 2 | 2 | 2 |
| HBM Stacks | 4 | 4 | 8 | 8 |
| HBM Bandwidth (GB/s)* | 100 | 151 | 302 | 453 |
| MX8 FLOPS (TFLOPS) | 100 | 400 | 400 | 400 |
| MX4 FLOPS (TFLOPS) | N/A | 200 | 350 | 500 |
| Scale-up Domain Size | 18 devices** | 72 devices | 72 devices | 72 devices |
| Key Optimization | R&R training, low-latency communication | General GenAI, competitive raw perf. | GenAI inference, HBM, custom low-prec. | GenAI inference, HBM, custom low-prec. |
*חלק מהספקים מדווחים על רוחב פס דו-כיווני. הכפל את הערך בטבלה בשניים כדי לקבל את רוחב הפס הדו-כיווני המקביל. **MTIA 300 מוגדר עם רשת scale-out בעלת רוחב פס גבוה יותר (200 GB/s) בשל גודל תחום ה-scale-up הקטן יחסית שלו ועומסי העבודה המיועדים ל-R&R.
מפרטים אלו מדגישים את השיפורים הדרמטיים ברוחב הפס של הזיכרון ובעוצמת המחשוב, ומדגימים כיצד כל דור של MTIA מתוכנן בקפידה כדי לענות על הדרישות הדחופות ביותר של יישומי AI עכשוויים ועתידיים, ובמיוחד מודלי GenAI עתירי משאבים.
חתירתה הבלתי פוסקת של Meta לפתרונות סיליקון מותאמים אישית באמצעות משפחת MTIA מדגישה את מחויבותה לספק חוויות AI חדשניות למיליארדי משתמשים ברחבי העולם. על ידי שילוב חדשנות פנימית עם שותפויות אסטרטגיות, Meta ממשיכה להגדיר מחדש את האפשרויות של תשתית AI ניתנת להרחבה וחסכונית.
שאלות נפוצות
What are Meta MTIA chips and what is their purpose?
How many generations of MTIA chips has Meta developed in recent years?
What is Meta's 'velocity strategy' for AI chip development?
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
What are the key performance advancements from MTIA 300 to MTIA 500?
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
הישארו מעודכנים
קבלו את חדשות ה-AI האחרונות לתיבת הדוא״ל.
