Code Velocity
კორპორაციული AI

Meta MTIA ჩიპები AI-ს მილიარდობით მომხმარებლისთვის სკალირებს

·7 წუთი კითხვა·Meta·ორიგინალი წყარო
გაზიარება
Meta MTIA AI ჩიპები სერვერის დაფაზე მონაცემთა ცენტრის თაროში

AI გამოცდილების სკალირება Meta-ს MTIA ჩიპებით

ყოველდღიურად, მილიარდობით ადამიანი Meta-ს მრავალფეროვან პლატფორმებზე ურთიერთქმედებს ხელოვნური ინტელექტის მრავალფეროვან ფუნქციებთან, პერსონალიზებული კონტენტის რეკომენდაციებიდან დაწყებული, მოწინავე AI ასისტენტებით დამთავრებული. Meta-ს, ისევე როგორც ინდუსტრიის მთავარი გამოწვევა, მდგომარეობს ამ დახვეწილი AI მოდელების გლობალურ მასშტაბზე განთავსებასა და უწყვეტ გაუმჯობესებაში, ოპტიმალური ხარჯთეფექტურობის შენარჩუნებით. ამ მოთხოვნად ინფრასტრუქტურულ ამოცანას Meta-ს სტრატეგიული ინვესტიცია აკმაყოფილებს მოქნილ, მუდმივად განვითარებად გადაწყვეტილებებში, რომელთა ცენტრალური ნაწილია მისი სპეციალურად შემუშავებული AI ჩიპები: Meta Training and Inference Accelerator (MTIA) ოჯახი.

მიუხედავად იმისა, რომ Meta მზადაა შეინარჩუნოს მრავალფეროვანი სილიციუმის პორტფელი, რომელიც იყენებს როგორც შიდა, ასევე გარე გადაწყვეტილებებს, MTIA ჩიპები, შემუშავებული Broadcom-თან მჭიდრო პარტნიორობით, Meta-ს AI ინფრასტრუქტურის სტრატეგიის განუყოფელი კომპონენტია. ეს შიდა აქსელერატორები გადამწყვეტია მილიარდობით მომხმარებლისთვის AI გამოცდილების ხარჯთეფექტური უზრუნველსაყოფად, მუდმივად ადაპტირდება AI მოდელების სწრაფად განვითარებად ლანდშაფტთან.

Meta-ს MTIA ჩიპების იტერაციული ევოლუცია

AI მოდელების ლანდშაფტი მუდმივი ცვლილებების მდგომარეობაშია, ვითარდება ისეთი ტემპით, რომელიც ხშირად აჭარბებს ჩიპების განვითარების ტრადიციულ ციკლებს. იმის გაცნობიერებით, რომ ჩიპების დიზაინი, რომელიც ეფუძნება პროგნოზირებულ დატვირთვებს, შეიძლება მოძველდეს აპარატურის წარმოებაში შესვლის დროისთვის, Meta-მ MTIA-სთვის ინოვაციური "სიჩქარის სტრატეგია" დანერგა. ხანგრძლივი, სპეკულაციური განვითარების პერიოდების ნაცვლად, Meta იყენებს იტერაციულ მიდგომას, სადაც MTIA-ს თითოეული თაობა წინა თაობაზეა აგებული. ეს მოიცავს მოდულური ჩიპლეტების გამოყენებას, AI დატვირთვის უახლესი შეხედულებების ინკორპორირებას და ახალი აპარატურული ტექნოლოგიების განთავსებას მნიშვნელოვნად მოკლე ვადებში. ეს უფრო მჭიდრო უკუკავშირი უზრუნველყოფს, რომ Meta-ს მორგებული სილიციუმი მჭიდროდ იყოს შეთანხმებული AI მოდელების დინამიურ მოთხოვნებთან, რაც ხელს უწყობს ახალი მიღწევების უფრო სწრაფად მიღებას.

Meta-მ უკვე დეტალურად აღწერა პირველი ორი თაობა, MTIA 100 და MTIA 200, აკადემიურ ნაშრომებში. ამ საფუძველზე დაყრდნობით, Meta-მ დააჩქარა განვითარება, რათა წარმოადგინა ოთხი ახალი თანმიმდევრული თაობა: MTIA 300, 400, 450 და 500. ეს ჩიპები ან უკვე წარმოებაშია, ან დაგეგმილია მათი მასობრივი განთავსება 2026 და 2027 წლებში. ამ სწრაფმა თანმიმდევრობამ Meta-ს საშუალება მისცა მნიშვნელოვნად გაეფართოებინა MTIA-ს დატვირთვის დაფარვა, გადავიდა საწყისი რანჟირებისა და რეკომენდაციის (R&R) ინფერენსიდან R&R ტრენინგზე, ზოგად გენერაციულ AI (GenAI) დატვირთვებზე და მაღალოპტიმიზებულ GenAI ინფერენსზე.

MTIA 300: AI დატვირთვების საფუძვლის ჩაყრა

MTIA 300-მა გარდამტეხი ნაბიჯი იყო Meta-ს მორგებული სილიციუმის გზაზე. თავდაპირველად ოპტიმიზირებული R&R მოდელებისთვის, რომლებიც Meta-ს დომინანტური დატვირთვები იყო GenAI-ის ბუმამდე, მისმა არქიტექტურულმა სამშენებლო ბლოკებმა მტკიცე საფუძველი შექმნა შემდგომი ჩიპებისთვის. MTIA 300-ის ძირითადი განმასხვავებელი მახასიათებლები მოიცავს ინტეგრირებულ NIC ჩიპლეტებს, საკომუნიკაციო კოლექტივების განტვირთვისთვის განკუთვნილ შეტყობინებების ძრავებს და მეხსიერებასთან ახლოს მდებარე გამოთვლით შესაძლებლობებს, რომლებიც შექმნილია შემცირებაზე დაფუძნებული კოლექტივებისთვის. ეს დაბალი ლატენტურობის, მაღალი გამტარუნარიანობის საკომუნიკაციო კომპონენტები გადამწყვეტი აღმოჩნდა GenAI ინფერენსისა და ტრენინგის ეფექტური განსახორციელებლად შემდგომ თაობებში.

MTIA 300 შედგება ერთი გამოთვლითი ჩიპლეტისგან, ორი ქსელური ჩიპლეტისგან და რამდენიმე მაღალი გამტარუნარიანობის მეხსიერების (HBM) სტეკისგან. თითოეული გამოთვლითი ჩიპლეტი შეიცავს დამუშავების ელემენტების (PEs) ქსელს, სტრატეგიულად შექმნილს ზედმეტი PE-ებით, მოსავლიანობის გასაუმჯობესებლად. თითოეული PE არის დახვეწილი ერთეული, რომელიც შეიცავს ორ RISC-V ვექტორულ ბირთვს, წერტილოვანი ნამრავლის ძრავას მატრიცის გამრავლებისთვის, სპეციალურ ფუნქციურ ერთეულს აქტივაციებისა და ელემენტარული ოპერაციებისთვის, შემცირების ძრავას აკუმულაციისა და PE-ებს შორის კომუნიკაციისთვის და DMA ძრავას ადგილობრივ სკრეჩ მეხსიერებაში მონაცემთა ეფექტური გადაადგილებისთვის. ეს რთული დიზაინი ხაზს უსვამდა Meta-ს ვალდებულებას შექმნას მაღალეფექტური და ხარჯთეფექტური გადაწყვეტა მისი ძირითადი AI ამოცანებისთვის.

MTIA 400: კონკურენტუნარიანი GenAI მუშაობის მიღწევა

გენერაციული ხელოვნური ინტელექტის უპრეცედენტო ზრდასთან ერთად, Meta-მ სწრაფად განავითარა MTIA 300 MTIA 400-ად, რათა უზრუნველყო GenAI დატვირთვების მტკიცე მხარდაჭერა მისი არსებული R&R შესაძლებლობების პარალელურად. MTIA 400 წარმოადგენს მნიშვნელოვან ნახტომს, რომელიც გთავაზობთ 400%-ით მეტ FP8 FLOPS-ს და HBM გამტარუნარიანობის 51%-იან ზრდას მის წინამორბედთან შედარებით. მიუხედავად იმისა, რომ MTIA 300 ფოკუსირებული იყო ხარჯთეფექტურობაზე, MTIA 400 შეიქმნა იმისთვის, რომ მიეწოდებინა ნედლი შესრულება, რომელიც კონკურენტუნარიანი იქნებოდა წამყვან კომერციულ AI აქსელერატორებთან.

ამის მიღწევა ხდება ორი გამოთვლითი ჩიპლეტის გაერთიანებით, რათა ეფექტურად გაორმაგდეს გამოთვლითი სიმკვრივე და MX8 და MX4-ის გაუმჯობესებული ვერსიების მხარდაჭერით, რაც გადამწყვეტი დაბალი სიზუსტის ფორმატებია GenAI ეფექტური ინფერენსისთვის. ერთი თარო, რომელიც აღჭურვილია 72 MTIA 400 მოწყობილობით, გადამრთველი უკანა პანელის მეშვეობით დაკავშირებული, ქმნის მძლავრ გაფართოების დომენს. ამ სისტემებს მხარს უჭერს მოწინავე ჰაერით გაგრილებული თხევადი გაგრილების (AALC) თაროები, რაც ხელს უწყობს სწრაფ განთავსებას ძველ მონაცემთა ცენტრებშიც კი, რაც აჩვენებს Meta-ს პრაქტიკულ მიდგომას მისი AI ინფრასტრუქტურის გლობალური მასშტაბით გაფართოების მიმართ.

MTIA 450 და 500: სპეციალიზირებული GenAI ინფერენსისთვის

GenAI ინფერენსის მოთხოვნის უწყვეტი ექსპონენციალური ზრდის გათვალისწინებით, Meta-მ კიდევ უფრო დახვეწა MTIA 400, რამაც გამოიწვია MTIA 450-ის და შემდგომში MTIA 500-ის განვითარება. ეს თაობები სპეციალურად ოპტიმიზირებულია GenAI ინფერენსის უნიკალური გამოწვევებისთვის, აქცენტს აკეთებს მეხსიერებისა და გამოთვლების კრიტიკულ მიღწევებზე.

MTIA 450-მა მნიშვნელოვანი წინსვლა მოახდინა:

  1. HBM გამტარუნარიანობის გაორმაგება წინა ვერსიასთან შედარებით, რაც გადამწყვეტია GenAI მოდელებში დეკოდირების ფაზის დასაჩქარებლად.
  2. MX4 FLOPS-ის 75%-ით გაზრდა, რაც აჩქარებს ექსპერტთა შერევის (MoE) პირდაპირი კავშირის ქსელის (FFN) გამოთვლებს, რომლებიც ხშირია დიდ ენობრივ მოდელებში.
  3. აპარატურული აჩქარების დანერგვა, რათა ყურადღებისა და FFN გამოთვლები უფრო ეფექტური გახდეს, შემცირდეს Softmax-თან და FlashAttention-თან დაკავშირებული შეფერხებები.
  4. დაბალი სიზუსტის მონაცემთა ტიპების ინოვაცია, FP8/MX8-ის მიღმა გასვლა, რათა მიწოდებული იქნას FP16/BF16-ის MX4 FLOPS-ის 6-ჯერ მეტი, მორგებული მონაცემთა ტიპის ინოვაციებით, რომლებიც ინარჩუნებენ მოდელის ხარისხს და ზრდიან FLOPS-ს ჩიპის ფართობზე მინიმალური ზემოქმედებით.

MTIA 500, 450-ის წარმატებაზე დაყრდნობით, კიდევ 50%-ით გაზარდა HBM გამტარუნარიანობა და დანერგა მეტი ინოვაცია დაბალი სიზუსტის მონაცემთა ტიპებში, რაც აძლიერებს Meta-ს ვალდებულებას, გააფართოოს GenAI ინფერენსის მუშაობის საზღვრები. გაუმჯობესებისკენ სწრაფვის ეს დაუღალავი სურვილი უზრუნველყოფს, რომ Meta-ს AI გამოცდილება დარჩეს წინა პლანზე.

ამ თაობებში დაგროვილი მიღწევები მკვეთრია. MTIA 300-დან MTIA 500-მდე, HBM გამტარუნარიანობა გაიზარდა შთამბეჭდავი 4.5-ჯერ, ხოლო გამოთვლითი FLOPS გაიზარდა განუზომლად, 25-ჯერ (MTIA 300-ის MX8-დან MTIA 500-ის MX4-მდე). ეს სწრაფი აჩქარება ორ წელიწადში არის Meta-ს სიჩქარის სტრატეგიისა და მისი მორგებული სილიციუმის მუდმივად გაუმჯობესების უნარის დასტური. ეს ევოლუცია ცენტრალურია აგენტური AI-ის ოპერაციონალიზაციისთვის და სხვა კომპლექსური მოდელების მასშტაბირებისთვის.

აქ მოცემულია ძირითადი სპეციფიკაციები MTIA ოჯახის მასშტაბით:

მახასიათებელიMTIA 300MTIA 400MTIA 450MTIA 500
გამოთვლითი კუბი1222
HBM სტეკები4488
HBM გამტარუნარიანობა (GB/წმ)*100151302453
MX8 FLOPS (TFLOPS)100400400400
MX4 FLOPS (TFLOPS)N/A200350500
მასშტაბირების დომენის ზომა18 მოწყობილობა**72 მოწყობილობა72 მოწყობილობა72 მოწყობილობა
ძირითადი ოპტიმიზაციაR&R ტრენინგი, დაბალი ლატენტურობის კომუნიკაციაზოგადი GenAI, კონკურენტუნარიანი ნედლი მუშაობაGenAI ინფერენსი, HBM, მორგებული დაბალი სიზუსტეGenAI ინფერენსი, HBM, მორგებული დაბალი სიზუსტე

*ზოგიერთი ვენდორი იუწყება ორმხრივი გამტარუნარიანობის შესახებ. ცხრილში მოცემული მნიშვნელობა გაამრავლეთ ორზე, რათა მიიღოთ შესაბამისი ორმხრივი გამტარუნარიანობა. **MTIA 300 კონფიგურირებულია მასშტაბირებადი ქსელით, უფრო მაღალი გამტარუნარიანობით (200 GB/წმ), მისი შედარებით მცირე მასშტაბირების დომენის ზომისა და სამიზნე R&R დატვირთვების გამო.

ეს სპეციფიკაციები ხაზს უსვამს მეხსიერების გამტარუნარიანობისა და გამოთვლითი სიმძლავრის დრამატულ გაუმჯობესებებს, რაც აჩვენებს, თუ როგორ არის MTIA-ს თითოეული თაობა ზედმიწევნით შემუშავებული, რათა დააკმაყოფილოს მიმდინარე და მომავალი AI აპლიკაციების, განსაკუთრებით რესურსმომხმარებელი GenAI მოდელების ყველაზე აქტუალური მოთხოვნები.

Meta-ს დაუღალავი სწრაფვა მორგებული სილიციუმის გადაწყვეტილებებისკენ MTIA ოჯახის მეშვეობით ხაზს უსვამს მის ვალდებულებას, მიაწოდოს უახლესი AI გამოცდილება მილიარდობით მომხმარებელს მთელს მსოფლიოში. შიდა ინოვაციების სტრატეგიულ პარტნიორობასთან შერწყმით, Meta აგრძელებს მასშტაბირებადი და ხარჯთეფექტური AI ინფრასტრუქტურის შესაძლებლობების გადააზრებას.

ორიგინალი წყარო

https://ai.meta.com/blog/meta-mtia-scale-ai-chips-for-billions/

ხშირად დასმული კითხვები

What are Meta MTIA chips and what is their purpose?
Meta Training and Inference Accelerator (MTIA) chips are custom-designed AI accelerators developed by Meta in partnership with Broadcom. Their primary purpose is to power the vast array of AI-driven experiences across Meta's platforms for billions of users. This includes everything from personalized recommendations (R&R) to advanced Generative AI (GenAI) assistants. By developing its own silicon, Meta aims to cost-effectively scale AI workloads, maintain flexibility, and optimize performance for its specific infrastructure needs, ensuring continuous innovation in AI hardware development.
How many generations of MTIA chips has Meta developed in recent years?
Meta has rapidly accelerated MTIA development, introducing four successive generations in under two years: MTIA 300, MTIA 400, MTIA 450, and MTIA 500. These chips have either already been deployed or are scheduled for mass deployment in 2026 or 2027. This rapid iteration showcases Meta's 'velocity strategy,' designed to keep pace with the extraordinarily fast evolution of AI models and ensure their hardware remains aligned with current and future workload demands, expanding beyond initial R&R tasks to encompass general GenAI and specialized GenAI inference.
What is Meta's 'velocity strategy' for AI chip development?
Meta's 'velocity strategy' is an iterative approach to AI chip development that contrasts with traditional, longer chip design cycles. Recognizing that AI models evolve faster than typical hardware development, Meta designs each MTIA generation to build on the last using modular chiplets. This strategy incorporates the latest AI workload insights and hardware technologies, enabling deployment on a shorter cadence. This tighter feedback loop ensures Meta's custom hardware remains closely aligned with evolving AI models, facilitating faster adoption of new technologies and maintaining optimal performance and cost-efficiency.
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
As GenAI surged, MTIA chips evolved significantly to support these demanding workloads. MTIA 400 enhanced support for GenAI with 400% higher FP8 FLOPS and increased HBM bandwidth. MTIA 450 specifically optimized for GenAI inference by doubling HBM bandwidth, increasing MX4 FLOPS by 75%, introducing hardware acceleration for attention and FFN computations, and innovating with custom low-precision data types. MTIA 500 further improved on this, increasing HBM bandwidth by an additional 50% and introducing more low-precision innovations, directly addressing the compute and memory demands of complex GenAI models.
What are the key performance advancements from MTIA 300 to MTIA 500?
The MTIA chip family has seen remarkable advancements from the 300 series to the 500 series in less than two years. The HBM bandwidth has increased by 4.5 times, significantly boosting memory access speed crucial for large AI models. The compute FLOPS (Floating Point Operations Per Second) have seen an astounding 25-fold increase, particularly from MTIA 300's MX8 to MTIA 500's MX4 formats. These dramatic improvements underscore Meta's ability to rapidly enhance its custom silicon's raw processing power and data handling capabilities to meet the escalating demands of advanced AI models.
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
High-Bandwidth Memory (HBM) is critically important for Generative AI (GenAI) inference performance because GenAI models, especially large language models (LLMs), typically have massive parameter counts and require extensive memory bandwidth to efficiently retrieve and process these parameters during inference. The decoder step in GenAI inference, which generates tokens sequentially, is often bottlenecked by memory access rather than raw compute. Doubling or significantly increasing HBM bandwidth, as seen in MTIA 450 and 500, directly translates to faster token generation, lower latency, and higher throughput, making the AI experiences more responsive and efficient for users.

იყავით ინფორმირებული

მიიღეთ უახლესი AI სიახლეები ელფოსტაზე.

გაზიარება