توسعه تجربیات هوش مصنوعی با تراشههای MTIA متا
هر روز، میلیاردها نفر در سراسر پلتفرمهای متنوع متا با مجموعهای از ویژگیهای مبتنی بر هوش مصنوعی، از توصیههای محتوای شخصیسازیشده گرفته تا دستیاران هوش مصنوعی پیشرفته، تعامل دارند. چالش اصلی برای متا و در واقع برای صنعت، در استقرار و بهبود مستمر این مدلهای پیچیده هوش مصنوعی در مقیاس جهانی، ضمن حفظ کارایی هزینه بهینه، نهفته است. این وظیفه زیرساختی پرتقاضا با سرمایهگذاری استراتژیک متا در راهحلهای انعطافپذیر و در حال تکامل مداوم، که محور اصلی آنها تراشههای هوش مصنوعی سفارشیسازی شدهاش: خانواده Meta Training and Inference Accelerator (MTIA) هستند، برآورده میشود.
در حالی که متا به سبد متنوعی از سیلیکون متعهد است که از راهحلهای داخلی و خارجی بهره میبرد، تراشههای MTIA که با همکاری نزدیک با Broadcom توسعه یافتهاند، جزء لاینفک استراتژی زیرساخت هوش مصنوعی متا هستند. این شتابدهندههای بومی برای تامین انرژی مقرونبهصرفه تجربیات هوش مصنوعی که به میلیاردها نفر میرسد، و انطباق مداوم با چشمانداز سریع در حال تحول مدلهای هوش مصنوعی، حیاتی هستند.
تکامل تکرار شونده تراشههای MTIA متا
چشمانداز مدلهای هوش مصنوعی در حال تغییر دائمی است و با سرعتی تکامل مییابد که اغلب از چرخههای سنتی توسعه تراشه پیشی میگیرد. متا با درک این موضوع که طراحی تراشهها بر اساس بارهای کاری پیشبینیشده ممکن است تا زمان رسیدن سختافزار به تولید منسوخ شوند، یک "استراتژی سرعت" نوآورانه را برای MTIA در پیش گرفته است. به جای دورههای توسعه طولانی و گمانهزنی، متا رویکردی تکرار شونده را اتخاذ میکند که در آن هر نسل MTIA بر اساس نسل قبلی ساخته میشود. این شامل استفاده از چیپلتهای ماژولار، ادغام آخرین بینشها در مورد بارهای کاری هوش مصنوعی و استقرار فناوریهای سختافزاری جدید در یک ریتم به طور قابل توجهی کوتاهتر است. این حلقه بازخورد محکمتر تضمین میکند که سیلیکون سفارشی متا با نیازهای پویا مدلهای هوش مصنوعی همسو باقی میماند و پذیرش سریعتر پیشرفتهای جدید را تقویت میکند.
متا قبلاً دو نسل اول، MTIA 100 و MTIA 200 را در مقالات آکادمیک شرح داده است. بر اساس این پایه، متا توسعه را تسریع بخشیده تا چهار نسل متوالی جدید را معرفی کند: MTIA 300، 400، 450 و 500. این تراشهها یا در حال تولید هستند یا برای استقرار انبوه در سالهای 2026 و 2027 برنامهریزی شدهاند. این توالی سریع به متا اجازه داده است تا پوشش بارهای کاری MTIA را به طور قابل توجهی گسترش دهد، از استنتاج اولیه رتبهبندی و توصیه (R&R) به آموزش R&R، بارهای کاری عمومی هوش مصنوعی مولد (GenAI) و استنتاج GenAI بسیار بهینه شده منتقل شود.
MTIA 300: پایه و اساس بارهای کاری هوش مصنوعی را میگذارد
MTIA 300 گامی محوری در مسیر سیلیکون سفارشی متا بود. این تراشه که در ابتدا برای مدلهای R&R بهینه شده بود (که قبل از رونق GenAI، بارهای کاری غالب متا بودند)، بلوکهای ساختاری معماری آن، پایهای محکم برای تراشههای بعدی ایجاد کرد. ویژگیهای متمایز کننده MTIA 300 شامل چیپلتهای NIC یکپارچه، موتورهای پیام اختصاصی برای تخلیه مجموعههای ارتباطی، و قابلیتهای محاسباتی نزدیک به حافظه است که برای مجموعههای مبتنی بر کاهش طراحی شدهاند. این اجزای ارتباطی با تأخیر کم و پهنای باند بالا در فعالسازی استنتاج و آموزش کارآمد GenAI در نسلهای بعدی، نقش مهمی ایفا کردند.
MTIA 300 شامل یک چیپلت محاسباتی، دو چیپلت شبکه و چندین پشته حافظه با پهنای باند بالا (HBM) است. هر چیپلت محاسباتی دارای شبکهای از عناصر پردازشی (PEs) است که به صورت استراتژیک با PEs اضافی برای افزایش بازدهی طراحی شدهاند. هر PE یک واحد پیچیده است که شامل دو هسته برداری RISC-V، یک موتور ضرب نقطهای برای ضرب ماتریس، یک واحد عملکرد ویژه برای فعالسازیها و عملیات عنصر به عنصر، یک موتور کاهش برای انباشت و ارتباط بین PEs، و یک موتور DMA برای حرکت کارآمد داده در حافظه موقت محلی است. این طراحی پیچیده بر تعهد متا به ایجاد یک راهحل بسیار کارآمد و مقرونبهصرفه برای وظایف اصلی هوش مصنوعی خود تأکید میکند.
MTIA 400: دستیابی به عملکرد رقابتی GenAI
با افزایش بیسابقه هوش مصنوعی مولد، متا به سرعت MTIA 300 را به MTIA 400 تکامل داد تا پشتیبانی قوی از بارهای کاری GenAI را در کنار قابلیتهای موجود R&R خود فراهم کند. MTIA 400 نشاندهنده یک جهش قابل توجه است که 400% FP8 FLOPS بالاتر و 51% افزایش در پهنای باند HBM را در مقایسه با نسل قبلی خود ارائه میدهد. در حالی که MTIA 300 بر کارایی هزینه متمرکز بود، MTIA 400 برای ارائه عملکرد خام رقابتی با شتابدهندههای هوش مصنوعی تجاری پیشرو طراحی شد.
این امر با ترکیب دو چیپلت محاسباتی برای دو برابر کردن مؤثر چگالی محاسباتی و با پشتیبانی از نسخههای پیشرفته MX8 و MX4، فرمتهای حیاتی با دقت پایین برای استنتاج کارآمد GenAI، حاصل میشود. یک رک واحد مجهز به 72 دستگاه MTIA 400، که از طریق یک بکپلین سوئیچشده به هم متصل شدهاند، یک دامنه قدرتمند مقیاسپذیری را تشکیل میدهد. این سیستمها توسط رکهای پیشرفته خنککننده مایع با کمک هوا (AALC) پشتیبانی میشوند که استقرار سریع را حتی در مراکز داده قدیمی تسهیل میکند و رویکرد عملی متا را برای مقیاسگذاری زیرساخت هوش مصنوعی خود در سطح جهانی به نمایش میگذارد.
MTIA 450 و 500: تخصصیشده برای استنتاج GenAI
متا با پیشبینی رشد تصاعدی مداوم در تقاضای استنتاج GenAI، MTIA 400 را بیشتر اصلاح کرد که منجر به توسعه MTIA 450 و متعاقباً MTIA 500 شد. این نسلها به طور خاص برای چالشهای منحصر به فرد استنتاج GenAI، با تمرکز بر پیشرفتهای حیاتی در حافظه و محاسبات، بهینه شدهاند.
MTIA 450 با انجام موارد زیر گامهای بلندی برداشت:
- دو برابر کردن پهنای باند HBM نسبت به نسخه قبلی، که برای تسریع مرحله رمزگشایی در مدلهای GenAI حیاتی است.
- افزایش 75 درصدی MX4 FLOPS، تسریع محاسبات شبکه پیشخور (FFN) ترکیب متخصصین (MoE) که در مدلهای زبانی بزرگ رایج هستند.
- معرفی شتابدهنده سختافزاری برای کارآمدتر کردن محاسبات توجه و FFN، و رفع تنگناهای مرتبط با Softmax و FlashAttention.
- نوآوری در انواع داده با دقت پایین، فراتر رفتن از FP8/MX8 برای ارائه 6 برابر MX4 FLOPS نسبت به FP16/BF16، با نوآوریهای سفارشی در نوع داده که کیفیت مدل را حفظ کرده و FLOPS را با حداقل تأثیر بر مساحت تراشه افزایش میدهد.
MTIA 500، با تکیه بر موفقیت 450، پهنای باند HBM را 50% دیگر افزایش داد و نوآوریهای بیشتری در انواع داده با دقت پایین معرفی کرد، که تعهد متا به پیشبرد مرزهای عملکرد استنتاج GenAI را تقویت میکند. این تلاش بیوقفه برای بهبود تضمین میکند که تجربیات هوش مصنوعی متا در خط مقدم باقی بمانند.
پیشرفتهای تجمعی در این نسلها بسیار چشمگیر است. از MTIA 300 تا MTIA 500، پهنای باند HBM 4.5 برابر افزایش یافته است، در حالی که FLOPS محاسباتی 25 برابر افزایش خیرهکنندهای داشته است (از MX8 در MTIA 300 به MX4 در MTIA 500). این شتاب سریع در عرض دو سال گواهی بر استراتژی سرعت متا و توانایی آن در ارتقای مستمر سیلیکون سفارشی خود است. این تکامل برای عملیاتی کردن هوش مصنوعی عاملگرا و سایر مدلهای پیچیده در مقیاس وسیع، محوری است.
در اینجا تفکیکی از مشخصات کلیدی در خانواده MTIA آورده شده است:
| ویژگی | MTIA 300 | MTIA 400 | MTIA 450 | MTIA 500 |
|---|---|---|---|---|
| هسته محاسباتی | 1 | 2 | 2 | 2 |
| پشتههای HBM | 4 | 4 | 8 | 8 |
| پهنای باند HBM (GB/s)* | 100 | 151 | 302 | 453 |
| MX8 FLOPS (TFLOPS) | 100 | 400 | 400 | 400 |
| MX4 FLOPS (TFLOPS) | N/A | 200 | 350 | 500 |
| اندازه دامنه مقیاسپذیری | 18 دستگاه** | 72 دستگاه | 72 دستگاه | 72 دستگاه |
| بهینهسازی کلیدی | آموزش R&R، ارتباطات با تأخیر کم | GenAI عمومی، عملکرد خام رقابتی | استنتاج GenAI، HBM، دقت پایین سفارشی | استنتاج GenAI، HBM، دقت پایین سفارشی |
*برخی از فروشندگان پهنای باند دوطرفه را گزارش میدهند. برای به دست آوردن پهنای باند دوطرفه مربوطه، مقدار موجود در جدول را در دو ضرب کنید. **MTIA 300 به دلیل اندازه دامنه مقیاسپذیری نسبتاً کوچک و بارهای کاری هدف R&R، با یک شبکه مقیاسپذیر با پهنای باند بالاتر (200 گیگابایت بر ثانیه) پیکربندی شده است.
تلاش بیوقفه متا برای یافتن راهحلهای سیلیکونی سفارشی از طریق خانواده MTIA، تعهد این شرکت به ارائه تجربیات پیشرفته هوش مصنوعی به میلیاردها کاربر در سراسر جهان را نشان میدهد. متا با ترکیب نوآوری داخلی با همکاریهای استراتژیک، همچنان به بازتعریف امکانات زیرساخت هوش مصنوعی مقیاسپذیر و مقرونبهصرفه ادامه میدهد.
سوالات متداول
What are Meta MTIA chips and what is their purpose?
How many generations of MTIA chips has Meta developed in recent years?
What is Meta's 'velocity strategy' for AI chip development?
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
What are the key performance advancements from MTIA 300 to MTIA 500?
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
بهروز بمانید
آخرین اخبار هوش مصنوعی را در ایمیل خود دریافت کنید.
