Code Velocity
בינה מלאכותית ארגונית

שבבי MTIA של Meta מרחיבים את קנה המידה של AI למיליארדים

·7 דקות קריאה·Meta·מקור מקורי
שתף
שבבי AI מסוג Meta MTIA על לוח שרת בארון שרתים במרכז נתונים

הרחבת חוויות AI עם שבבי MTIA של Meta

בכל יום, מיליארדי אנשים ברחבי הפלטפורמות המגוונות של Meta מקיימים אינטראקציה עם שלל תכונות מונעות בינה מלאכותית, החל מהמלצות תוכן מותאמות אישית ועד עוזרי AI מתקדמים. האתגר הבסיסי עבור Meta, ואכן עבור התעשייה כולה, טמון בפריסה ושיפור מתמיד של מודלי AI מתוחכמים אלה בקנה מידה גלובלי, כל זאת תוך שמירה על יעילות עלות אופטימלית. משימת תשתית תובענית זו נענית על ידי ההשקעה האסטרטגית של Meta בפתרונות גמישים, המתפתחים ללא הרף, ומרכזם הם שבבי ה-AI המעוצבים בהתאמה אישית: משפחת Meta Training and Inference Accelerator (MTIA).

בעוד ש-Meta מחויבת לפורטפוליו סיליקון מגוון הממנף פתרונות פנימיים וחיצוניים כאחד, שבבי MTIA, שפותחו בשיתוף פעולה הדוק עם Broadcom, הם מרכיב הכרחי באסטרטגיית תשתית ה-AI של Meta. מאיצים תוצרת בית אלה חיוניים להנעת חוויות ה-AI המגיעות למיליארדים באופן חסכוני, תוך התאמה מתמדת לנוף המודלים של AI המתפתח במהירות.

ההתפתחות האיטרטיבית של שבבי MTIA של Meta

נוף מודלי ה-AI נמצא במצב של שינוי מתמיד, ומתפתח בקצב שלעיתים קרובות עולה על מחזורי פיתוח שבבים מסורתיים. בהכרה בכך שתכנוני שבבים המבוססים על עומסי עבודה צפויים עלולים להתיישן עד שהחומרה תגיע לייצור, Meta אימצה "אסטרטגיית מהירות" חדשנית עבור MTIA. במקום תקופות פיתוח ארוכות וספקולטיביות, Meta מאמצת גישה איטרטיבית שבה כל דור של MTIA בונה על קודמו. זה כרוך בשימוש בצ'יפלטים מודולריים, שילוב תובנות חדשות של עומסי עבודה של AI ופריסת טכנולוגיות חומרה חדשות בקצב קצר באופן משמעותי. לולאת משוב הדוקה זו מבטיחה שהסיליקון המותאם אישית של Meta יישאר מיושר באופן הדוק עם הדרישות הדינמיות של מודלי AI, מה שמקדם אימוץ מהיר יותר של התקדמות חדשה.

Meta כבר פירטה את שני הדורות הראשונים, MTIA 100 ו-MTIA 200, במאמרים אקדמיים. בהתבסס על יסוד זה, Meta האיצה את הפיתוח כדי להציג ארבעה דורות עוקבים חדשים: MTIA 300, 400, 450 ו-500. שבבים אלו כבר נמצאים בייצור או מיועדים לפריסה המונית בשנים 2026 ו-2027. רצף מהיר זה איפשר ל-Meta להרחיב באופן משמעותי את כיסוי עומסי העבודה של MTIA, תוך מעבר מהסקת דירוג והמלצות (R&R) ראשונית לאימון R&R, עומסי עבודה כלליים של בינה מלאכותית יוצרת (GenAI), והסקת GenAI ממוטבת במיוחד.

MTIA 300: הנחת היסודות לעומסי עבודה של AI

ה-MTIA 300 סימן צעד מכריע במסע הסיליקון המותאם אישית של Meta. הוא עבר אופטימיזציה ראשונית למודלי R&R, שהיו עומסי העבודה הדומיננטיים של Meta לפני הזינוק של GenAI, ואבני הבניין הארכיטקטוניות שלו הקימו בסיס איתן לשבבים הבאים. תכונות מבדלות מרכזיות של MTIA 300 כוללות צ'יפלטים של NIC משולבים, מנועי הודעות ייעודיים לפריקת קולקטיבי תקשורת, ויכולות מחשוב קרוב לזיכרון המיועדות לקולקטיבי מבוססי הפחתה. רכיבי תקשורת אלו, בעלי חביון נמוך ורוחב פס גבוה, הוכיחו את עצמם כחיוניים באפשרות הסקת GenAI ואימון יעילים בדורות הבאים.

ה-MTIA 300 מורכב מצ'יפלט מחשוב אחד, שני צ'יפלטים רשתיים וכמה ערימות זיכרון ברוחב פס גבוה (HBM). כל צ'יפלט מחשוב כולל רשת של יחידות עיבוד (PEs), שתוכננו אסטרטגית עם PEs יתירים כדי לשפר את התפוקה. כל PE היא יחידה מתוחכמת המכילה שתי ליבות וקטוריות של RISC-V, מנוע מכפלה וקטורית (Dot Product Engine) לכפל מטריצות, יחידת פונקציות מיוחדות לפעולות הפעלה (activations) ופעולות אלמנטריות, מנוע הפחתה (Reduction Engine) לצבירה ותקשורת בין PEs, ומנוע DMA לתנועת נתונים יעילה בתוך זיכרון עבודה מקומי (scratch memory). תכנון מורכב זה הדגיש את מחויבותה של Meta ליצירת פתרון יעיל וחסכוני ביותר עבור משימות ה-AI הליבה שלה.

MTIA 400: השגת ביצועי GenAI תחרותיים

עם הזינוק חסר התקדים בבינה מלאכותית יוצרת (Generative AI), Meta פיתחה במהירות את ה-MTIA 300 ל-MTIA 400 כדי לספק תמיכה חזקה לעומסי עבודה של GenAI לצד יכולות ה-R&R הקיימות שלה. ה-MTIA 400 מייצג קפיצת מדרגה משמעותית, ומציע 400% יותר FP8 FLOPS ועלייה של 51% ברוחב הפס של HBM בהשוואה לקודמו. בעוד שה-MTIA 300 התמקד ביעילות עלות, ה-MTIA 400 תוכנן לספק ביצועים גולמיים תחרותיים למאיצי AI מסחריים מובילים.

הוא משיג זאת על ידי שילוב שני צ'יפלטים של מחשוב כדי להכפיל ביעילות את צפיפות המחשוב ועל ידי תמיכה בגרסאות משופרות של MX8 ו-MX4, פורמטים חיוניים בדיוק נמוך להסקת GenAI יעילה. ארון שרתים בודד המצויד ב-72 התקני MTIA 400, המחוברים באמצעות backplane ממותג, יוצר תחום scale-up עוצמתי. מערכות אלו נתמכות על ידי ארונות קירור נוזלי מתקדם בעזרת אוויר (AALC), המאפשרים פריסה מהירה גם במרכזי נתונים מדור קודם, ומדגימים את הגישה הפרקטית של Meta להרחבת תשתית ה-AI שלה ברחבי העולם.

MTIA 450 ו-500: מותאמים במיוחד להסקת GenAI

בציפייה לגידול האקספוננציאלי המתמשך בביקוש להסקת GenAI, Meta שיכללה עוד יותר את ה-MTIA 400, מה שהוביל לפיתוח MTIA 450 ולאחר מכן MTIA 500. דורות אלו מותאמים במיוחד לאתגרים הייחודיים של הסקת GenAI, ומתמקדים בהתקדמות קריטית בזיכרון ובמחשוב.

MTIA 450 עשה צעדים משמעותיים על ידי:

  1. הכפלת רוחב הפס של HBM מהגרסה הקודמת, מה שחיוני להאצת שלב הפיענוח במודלי GenAI.
  2. הגדלת MX4 FLOPS ב-75%, האצה של חישובי רשתות הזנה קדימה (FFN) של מומחים מעורבים (MoE) הנפוצים במודלי שפה גדולים.
  3. הצגת האצת חומרה כדי להפוך חישובי קשב (attention) ו-FFN ליעילים יותר, תוך הקלה על צווארי בקבוק הקשורים ל-Softmax ו-FlashAttention.
  4. חדשנות בסוגי נתונים בדיוק נמוך, תוך מעבר מ-FP8/MX8 כדי לספק פי 6 את ה-MX4 FLOPS של FP16/BF16, עם חידושי סוגי נתונים מותאמים אישית המשמרים את איכות המודל ומגבירים את ה-FLOPS עם השפעה מינימלית על שטח השבב.

MTIA 500, בבנייה על ההצלחה של 450, הגדיל עוד יותר את רוחב הפס של HBM ב-50% נוספים והציג חידושים נוספים בסוגי נתונים בדיוק נמוך, מה שמחזק את מחויבותה של Meta לדחוף את גבולות ביצועי הסקת GenAI. דחף בלתי פוסק זה לשיפור מבטיח שחוויות ה-AI של Meta יישארו בחזית הטכנולוגיה.

ההתקדמות המצטברת בכל הדורות הללו בולטת. מ-MTIA 300 ועד MTIA 500, רוחב הפס של HBM גדל פי 4.5 מרשים, בעוד ש-FLOPS המחשוב ראו עלייה מדהימה פי 25 (מ-MX8 של MTIA 300 ל-MX4 של MTIA 500). האצה מהירה זו בתוך שנתיים היא עדות לאסטרטגיית המהירות של Meta וליכולתה לשפר ללא הרף את הסיליקון המותאם אישית שלה. התפתחות זו היא מרכזית להפעלת AI סוכנים ומודלים מורכבים אחרים בקנה מידה.

להלן פירוט המפרטים העיקריים של משפחת MTIA:

FeatureMTIA 300MTIA 400MTIA 450MTIA 500
Compute Die1222
HBM Stacks4488
HBM Bandwidth (GB/s)*100151302453
MX8 FLOPS (TFLOPS)100400400400
MX4 FLOPS (TFLOPS)N/A200350500
Scale-up Domain Size18 devices**72 devices72 devices72 devices
Key OptimizationR&R training, low-latency communicationGeneral GenAI, competitive raw perf.GenAI inference, HBM, custom low-prec.GenAI inference, HBM, custom low-prec.

*חלק מהספקים מדווחים על רוחב פס דו-כיווני. הכפל את הערך בטבלה בשניים כדי לקבל את רוחב הפס הדו-כיווני המקביל. **MTIA 300 מוגדר עם רשת scale-out בעלת רוחב פס גבוה יותר (200 GB/s) בשל גודל תחום ה-scale-up הקטן יחסית שלו ועומסי העבודה המיועדים ל-R&R.

מפרטים אלו מדגישים את השיפורים הדרמטיים ברוחב הפס של הזיכרון ובעוצמת המחשוב, ומדגימים כיצד כל דור של MTIA מתוכנן בקפידה כדי לענות על הדרישות הדחופות ביותר של יישומי AI עכשוויים ועתידיים, ובמיוחד מודלי GenAI עתירי משאבים.

חתירתה הבלתי פוסקת של Meta לפתרונות סיליקון מותאמים אישית באמצעות משפחת MTIA מדגישה את מחויבותה לספק חוויות AI חדשניות למיליארדי משתמשים ברחבי העולם. על ידי שילוב חדשנות פנימית עם שותפויות אסטרטגיות, Meta ממשיכה להגדיר מחדש את האפשרויות של תשתית AI ניתנת להרחבה וחסכונית.

שאלות נפוצות

What are Meta MTIA chips and what is their purpose?
Meta Training and Inference Accelerator (MTIA) chips are custom-designed AI accelerators developed by Meta in partnership with Broadcom. Their primary purpose is to power the vast array of AI-driven experiences across Meta's platforms for billions of users. This includes everything from personalized recommendations (R&R) to advanced Generative AI (GenAI) assistants. By developing its own silicon, Meta aims to cost-effectively scale AI workloads, maintain flexibility, and optimize performance for its specific infrastructure needs, ensuring continuous innovation in AI hardware development.
How many generations of MTIA chips has Meta developed in recent years?
Meta has rapidly accelerated MTIA development, introducing four successive generations in under two years: MTIA 300, MTIA 400, MTIA 450, and MTIA 500. These chips have either already been deployed or are scheduled for mass deployment in 2026 or 2027. This rapid iteration showcases Meta's 'velocity strategy,' designed to keep pace with the extraordinarily fast evolution of AI models and ensure their hardware remains aligned with current and future workload demands, expanding beyond initial R&R tasks to encompass general GenAI and specialized GenAI inference.
What is Meta's 'velocity strategy' for AI chip development?
Meta's 'velocity strategy' is an iterative approach to AI chip development that contrasts with traditional, longer chip design cycles. Recognizing that AI models evolve faster than typical hardware development, Meta designs each MTIA generation to build on the last using modular chiplets. This strategy incorporates the latest AI workload insights and hardware technologies, enabling deployment on a shorter cadence. This tighter feedback loop ensures Meta's custom hardware remains closely aligned with evolving AI models, facilitating faster adoption of new technologies and maintaining optimal performance and cost-efficiency.
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
As GenAI surged, MTIA chips evolved significantly to support these demanding workloads. MTIA 400 enhanced support for GenAI with 400% higher FP8 FLOPS and increased HBM bandwidth. MTIA 450 specifically optimized for GenAI inference by doubling HBM bandwidth, increasing MX4 FLOPS by 75%, introducing hardware acceleration for attention and FFN computations, and innovating with custom low-precision data types. MTIA 500 further improved on this, increasing HBM bandwidth by an additional 50% and introducing more low-precision innovations, directly addressing the compute and memory demands of complex GenAI models.
What are the key performance advancements from MTIA 300 to MTIA 500?
The MTIA chip family has seen remarkable advancements from the 300 series to the 500 series in less than two years. The HBM bandwidth has increased by 4.5 times, significantly boosting memory access speed crucial for large AI models. The compute FLOPS (Floating Point Operations Per Second) have seen an astounding 25-fold increase, particularly from MTIA 300's MX8 to MTIA 500's MX4 formats. These dramatic improvements underscore Meta's ability to rapidly enhance its custom silicon's raw processing power and data handling capabilities to meet the escalating demands of advanced AI models.
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
High-Bandwidth Memory (HBM) is critically important for Generative AI (GenAI) inference performance because GenAI models, especially large language models (LLMs), typically have massive parameter counts and require extensive memory bandwidth to efficiently retrieve and process these parameters during inference. The decoder step in GenAI inference, which generates tokens sequentially, is often bottlenecked by memory access rather than raw compute. Doubling or significantly increasing HBM bandwidth, as seen in MTIA 450 and 500, directly translates to faster token generation, lower latency, and higher throughput, making the AI experiences more responsive and efficient for users.

הישארו מעודכנים

קבלו את חדשות ה-AI האחרונות לתיבת הדוא״ל.

שתף