Code Velocity
IA Empresarial

Chips MTIA da Meta Escaliam IA para Bilhões

·7 min de leitura·Meta·Fonte original
Compartilhar
Chips de IA MTIA da Meta em uma placa de servidor em um rack de data center

title: "Chips MTIA da Meta Escaliam IA para Bilhões" slug: "meta-mtia-scale-ai-chips-for-billions" date: "2026-03-14" lang: "pt" source: "https://ai.meta.com/blog/meta-mtia-scale-ai-chips-for-billions/" category: "IA Empresarial" keywords:

  • Meta
  • MTIA
  • chips de IA
  • GenAI
  • hardware de inferência
  • silício personalizado
  • data centers
  • Llama
  • largura de banda HBM
  • tipos de dados de baixa precisão
  • infraestrutura de IA
  • cargas de trabalho R&R meta_description: "Os chips de IA MTIA da Meta estão em rápida evolução, com quatro gerações em dois anos, para escalar eficientemente as experiências de GenAI e R&R para bilhões de usuários." image: "/images/articles/meta-mtia-scale-ai-chips-for-billions.png" image_alt: "Chips de IA MTIA da Meta em uma placa de servidor em um rack de data center" quality_score: 94 content_score: 93 seo_score: 95 companies:
  • Meta schema_type: "NewsArticle" reading_time: 7 faq:
  • question: "O que são os chips MTIA da Meta e qual é o seu propósito?" answer: "Os chips Meta Training and Inference Accelerator (MTIA) são aceleradores de IA projetados sob medida, desenvolvidos pela Meta em parceria com a Broadcom. Seu propósito principal é impulsionar a vasta gama de experiências baseadas em IA nas plataformas da Meta para bilhões de usuários. Isso inclui desde recomendações personalizadas (R&R) até assistentes avançados de IA Generativa (GenAI). Ao desenvolver seu próprio silício, a Meta visa escalar as cargas de trabalho de IA de forma econômica, manter a flexibilidade e otimizar o desempenho para suas necessidades de infraestrutura específicas, garantindo a inovação contínua no desenvolvimento de hardware de IA."
  • question: "Quantas gerações de chips MTIA a Meta desenvolveu nos últimos anos?" answer: "A Meta acelerou rapidamente o desenvolvimento do MTIA, introduzindo quatro gerações sucessivas em menos de dois anos: MTIA 300, MTIA 400, MTIA 450 e MTIA 500. Esses chips já foram implantados ou estão programados para implantação em massa em 2026 ou 2027. Essa rápida iteração demonstra a 'estratégia de velocidade' da Meta, projetada para acompanhar a evolução extraordinariamente rápida dos modelos de IA e garantir que seu hardware permaneça alinhado com as demandas atuais e futuras de cargas de trabalho, expandindo-se além das tarefas iniciais de R&R para abranger inferência GenAI geral e GenAI especializada."
  • question: "Qual é a 'estratégia de velocidade' da Meta para o desenvolvimento de chips de IA?" answer: "A 'estratégia de velocidade' da Meta é uma abordagem iterativa para o desenvolvimento de chips de IA que contrasta com os ciclos de design de chips tradicionais e mais longos. Reconhecendo que os modelos de IA evoluem mais rapidamente do que o desenvolvimento de hardware típico, a Meta projeta cada geração de MTIA para se basear na anterior usando 'chiplets' modulares. Essa estratégia incorpora os insights mais recentes sobre cargas de trabalho de IA e tecnologias de hardware, permitindo a implantação em um ritmo mais curto. Esse 'feedback loop' mais ajustado garante que o hardware personalizado da Meta permaneça alinhado com os modelos de IA em evolução, facilitando a adoção mais rápida de novas tecnologias e mantendo o desempenho e a eficiência de custos ideais."
  • question: "Como os chips MTIA mais recentes (400, 450, 500) suportam cargas de trabalho de IA Generativa?" answer: "À medida que a GenAI cresceu, os chips MTIA evoluíram significativamente para suportar essas cargas de trabalho exigentes. O MTIA 400 aprimorou o suporte para GenAI com 400% mais FLOPS FP8 e aumento da largura de banda HBM. O MTIA 450 otimizou especificamente para inferência GenAI, dobrando a largura de banda HBM, aumentando os FLOPS MX4 em 75%, introduzindo aceleração de hardware para computações de atenção e FFN, e inovando com tipos de dados personalizados de baixa precisão. O MTIA 500 aprimorou ainda mais, aumentando a largura de banda HBM em 50% adicionais e introduzindo mais inovações de baixa precisão, abordando diretamente as demandas de computação e memória de modelos GenAI complexos."
  • question: "Quais são os principais avanços de desempenho do MTIA 300 para o MTIA 500?" answer: "A família de chips MTIA registrou avanços notáveis da série 300 para a série 500 em menos de dois anos. A largura de banda HBM aumentou 4,5 vezes, impulsionando significativamente a velocidade de acesso à memória, crucial para grandes modelos de IA. Os FLOPS (Floating Point Operations Per Second) de computação tiveram um aumento surpreendente de 25 vezes, particularmente dos formatos MX8 do MTIA 300 para os formatos MX4 do MTIA 500. Essas melhorias dramáticas ressaltam a capacidade da Meta de aprimorar rapidamente o poder de processamento bruto e as capacidades de manipulação de dados de seu silício personalizado para atender às crescentes demandas de modelos de IA avançados."
  • question: "Por que a Memória de Alta Largura de Banda (HBM) é importante para o desempenho da inferência GenAI?" answer: "A Memória de Alta Largura de Banda (HBM) é criticamente importante para o desempenho da inferência de IA Generativa (GenAI) porque os modelos GenAI, especialmente os grandes modelos de linguagem (LLMs), geralmente possuem contagens massivas de parâmetros e exigem uma largura de banda de memória extensa para recuperar e processar eficientemente esses parâmetros durante a inferência. A etapa do decodificador na inferência GenAI, que gera tokens sequencialmente, é frequentemente gargalo devido ao acesso à memória, e não à computação bruta. Dobrar ou aumentar significativamente a largura de banda HBM, como visto nos MTIA 450 e 500, traduz-se diretamente em geração de tokens mais rápida, menor latência e maior rendimento, tornando as experiências de IA mais responsivas e eficientes para os usuários."

## Escalando Experiências de IA com os Chips MTIA da Meta

Todos os dias, bilhões de pessoas em diversas plataformas da Meta interagem com uma miríade de recursos impulsionados por IA, desde recomendações de conteúdo personalizadas até assistentes de IA avançados. O desafio subjacente para a Meta, e de fato para a indústria, reside em implantar e aprimorar continuamente esses modelos de IA sofisticados em escala global, tudo isso mantendo a eficiência de custos ideal. Essa tarefa de infraestrutura exigente é atendida pelo investimento estratégico da Meta em soluções flexíveis e em constante evolução, sendo os chips de IA projetados sob medida, a família Meta Training and Inference Accelerator (MTIA), o centro de tudo.

Embora comprometida com um portfólio de silício diversificado que alavanca soluções internas e externas, os chips MTIA, desenvolvidos em estreita parceria com a Broadcom, são um componente indispensável da [estratégia de infraestrutura de IA da Meta](/pt/scaling-ai-for-everyone). Esses aceleradores desenvolvidos internamente são cruciais para alimentar de forma econômica as experiências de IA que atingem bilhões, adaptando-se constantemente ao cenário de modelos de IA em rápida evolução.

## A Evolução Iterativa dos Chips MTIA da Meta

O cenário dos modelos de IA está em fluxo perpétuo, evoluindo em um ritmo que frequentemente supera os ciclos de desenvolvimento de chips tradicionais. Reconhecendo que os designs de chips baseados em cargas de trabalho projetadas podem se tornar obsoletos no momento em que o hardware atinge a produção, a Meta adotou uma "estratégia de velocidade" inovadora para o MTIA. Em vez de longos períodos de desenvolvimento especulativo, a Meta adota uma abordagem iterativa onde cada geração de MTIA se baseia na anterior. Isso envolve o uso de 'chiplets' modulares, incorporando os insights mais recentes sobre cargas de trabalho de IA e implantando novas tecnologias de hardware em um ritmo significativamente mais curto. Esse 'feedback loop' mais ajustado garante que o silício personalizado da Meta permaneça alinhado com as demandas dinâmicas dos modelos de IA, promovendo uma adoção mais rápida de novos avanços.

A Meta já detalhou as duas primeiras gerações, MTIA 100 e MTIA 200, em artigos acadêmicos. Com base nessa fundação, a Meta acelerou o desenvolvimento para introduzir quatro novas gerações sucessivas: MTIA 300, 400, 450 e 500. Esses chips já estão em produção ou programados para implantação em massa em 2026 e 2027. Essa rápida sucessão permitiu à Meta expandir significativamente a cobertura de cargas de trabalho do MTIA, passando da inferência inicial de ranking e recomendação (R&R) para o treinamento de R&R, cargas de trabalho gerais de IA Generativa (GenAI) e inferência GenAI altamente otimizada.

## MTIA 300: Lançando as Bases para Cargas de Trabalho de IA

O MTIA 300 marcou um passo crucial na jornada de silício personalizado da Meta. Inicialmente otimizado para modelos R&R, que eram as cargas de trabalho dominantes da Meta antes do boom da GenAI, seus blocos de construção arquitetônicos estabeleceram uma base robusta para chips subsequentes. As principais características distintivas do MTIA 300 incluem 'chiplets' NIC integrados, mecanismos de mensagens dedicados para descarregar coletivos de comunicação e capacidades de computação quase-memória projetadas para coletivos baseados em redução. Esses componentes de comunicação de baixa latência e alta largura de banda se mostraram instrumentais para permitir inferência e treinamento GenAI eficientes nas gerações seguintes.

O MTIA 300 compreende um 'chiplet' de computação, dois 'chiplets' de rede e várias pilhas de Memória de Alta Largura de Banda (HBM). Cada 'chiplet' de computação possui uma grade de elementos de processamento (PEs), estrategicamente projetado com PEs redundantes para melhorar o rendimento. Cada PE é uma unidade sofisticada contendo dois núcleos vetoriais RISC-V, um 'Dot Product Engine' para multiplicação de matrizes, uma 'Special Function Unit' para ativações e operações elemento a elemento, um 'Reduction Engine' para acumulação e comunicação inter-PE, e um motor DMA para movimento eficiente de dados dentro da memória 'scratch' local. Esse design intrincado ressaltou o compromisso da Meta em criar uma solução altamente eficiente e econômica para suas tarefas centrais de IA.

## MTIA 400: Alcançando Desempenho GenAI Competitivo

Com o aumento sem precedentes na IA Generativa, a Meta evoluiu rapidamente o MTIA 300 para o MTIA 400 para fornecer suporte robusto para cargas de trabalho GenAI juntamente com suas capacidades R&R existentes. O MTIA 400 representa um salto significativo, oferecendo 400% mais FLOPS FP8 e um aumento de 51% na largura de banda HBM em comparação com seu predecessor. Enquanto o MTIA 300 focou na eficiência de custos, o MTIA 400 foi projetado para entregar desempenho bruto competitivo com os principais aceleradores de IA comerciais.

Ele atinge isso combinando dois 'chiplets' de computação para efetivamente dobrar a densidade de computação e suportando versões aprimoradas de MX8 e MX4, formatos cruciais de baixa precisão para inferência GenAI eficiente. Um único rack equipado com 72 dispositivos MTIA 400, interconectados via um 'backplane' comutado, forma um poderoso domínio de 'scale-up'. Esses sistemas são suportados por racks avançados de resfriamento líquido assistido por ar (AALC), facilitando a implantação rápida mesmo em 'data centers' legados, mostrando a abordagem prática da Meta para escalar sua infraestrutura de IA globalmente.

## MTIA 450 e 500: Especializados para Inferência GenAI

Antecipando o crescimento exponencial contínuo na demanda por inferência GenAI, a Meta aprimorou ainda mais o MTIA 400, levando ao desenvolvimento do MTIA 450 e, subsequentemente, do MTIA 500. Essas gerações são especificamente otimizadas para os desafios únicos da inferência GenAI, focando em avanços críticos em memória e computação.

O **MTIA 450** fez avanços significativos ao:
1.  **Dobrar a largura de banda HBM** em relação à versão anterior, o que é crucial para acelerar a fase de decodificação em modelos GenAI.
2.  **Aumentar os FLOPS MX4 em 75%**, acelerando as computações de rede neural 'feed-forward' (FFN) de 'mixture-of-experts' (MoE) comuns em grandes modelos de linguagem.
3.  **Introduzir aceleração de hardware** para tornar as computações de atenção e FFN mais eficientes, aliviando gargalos associados a Softmax e FlashAttention.
4.  **Inovar em tipos de dados de baixa precisão**, indo além de FP8/MX8 para entregar 6x os FLOPS MX4 de FP16/BF16, com inovações personalizadas de tipo de dado que preservam a qualidade do modelo e aumentam os FLOPS com impacto mínimo na área do chip.

O **MTIA 500**, construindo sobre o sucesso do 450, aumentou ainda mais a largura de banda HBM em 50% adicionais e introduziu mais inovações em tipos de dados de baixa precisão, reforçando o compromisso da Meta em ultrapassar os limites do desempenho da inferência GenAI. Essa busca incessante por melhoria garante que as experiências de IA da Meta permaneçam na vanguarda.

Os avanços cumulativos nessas gerações são notáveis. Do MTIA 300 ao MTIA 500, a largura de banda HBM aumentou em impressionantes 4,5x, enquanto os FLOPS de computação tiveram um aumento surpreendente de 25x (dos MX8 do MTIA 300 para os MX4 do MTIA 500). Essa rápida aceleração em dois anos é um testemunho da estratégia de velocidade da Meta e de sua capacidade de aprimorar continuamente seu silício personalizado. Essa evolução é central para [operacionalizar a IA agêntica](/pt/operationalizing-agentic-ai-part-1-a-stakeholders-guide) e outros modelos complexos em escala.

Aqui está um resumo das principais especificações da família MTIA:

| Característica              | MTIA 300                                 | MTIA 400                                 | MTIA 450                                 | MTIA 500                                 |
| :-------------------------- | :--------------------------------------- | :--------------------------------------- | :--------------------------------------- | :--------------------------------------- |
| **Die de Computação**       | 1                                        | 2                                        | 2                                        | 2                                        |
| **Pilhas HBM**              | 4                                        | 4                                        | 8                                        | 8                                        |
| **Largura de Banda HBM (GB/s)\*** | 100                                      | 151                                      | 302                                      | 453                                      |
| **FLOPS MX8 (TFLOPS)**      | 100                                      | 400                                      | 400                                      | 400                                      |
| **FLOPS MX4 (TFLOPS)**      | N/A                                      | 200                                      | 350                                      | 500                                      |
| **Tamanho do Domínio de Scale-up** | 18 devices**                             | 72 devices                               | 72 devices                               | 72 devices                               |
| **Otimização Chave**        | Treinamento R&R, comunicação de baixa latência | GenAI geral, desempenho bruto competitivo | Inferência GenAI, HBM, baixa precisão personalizada | Inferência GenAI, HBM, baixa precisão personalizada |

\*Alguns fornecedores relatam largura de banda bidirecional. Multiplique o valor na tabela por dois para obter a largura de banda bidirecional correspondente.
\*\*O MTIA 300 é configurado com uma rede 'scale-out' com maior largura de banda (200 GB/s) devido ao seu tamanho de domínio 'scale-up' relativamente pequeno e às cargas de trabalho R&R alvo.

Essas especificações destacam as melhorias dramáticas na largura de banda da memória e no poder de computação, demonstrando como cada geração de MTIA é meticulosamente projetada para atender às demandas mais urgentes das aplicações de IA atuais e futuras, particularmente os modelos GenAI intensivos em recursos.

A busca incessante da Meta por soluções de silício personalizado através da família MTIA ressalta seu compromisso em entregar experiências de IA de ponta a bilhões de usuários em todo o mundo. Ao combinar inovação interna com parcerias estratégicas, a Meta continua a redefinir as possibilidades de infraestrutura de IA escalável e econômica.

Perguntas Frequentes

What are Meta MTIA chips and what is their purpose?
Meta Training and Inference Accelerator (MTIA) chips are custom-designed AI accelerators developed by Meta in partnership with Broadcom. Their primary purpose is to power the vast array of AI-driven experiences across Meta's platforms for billions of users. This includes everything from personalized recommendations (R&R) to advanced Generative AI (GenAI) assistants. By developing its own silicon, Meta aims to cost-effectively scale AI workloads, maintain flexibility, and optimize performance for its specific infrastructure needs, ensuring continuous innovation in AI hardware development.
How many generations of MTIA chips has Meta developed in recent years?
Meta has rapidly accelerated MTIA development, introducing four successive generations in under two years: MTIA 300, MTIA 400, MTIA 450, and MTIA 500. These chips have either already been deployed or are scheduled for mass deployment in 2026 or 2027. This rapid iteration showcases Meta's 'velocity strategy,' designed to keep pace with the extraordinarily fast evolution of AI models and ensure their hardware remains aligned with current and future workload demands, expanding beyond initial R&R tasks to encompass general GenAI and specialized GenAI inference.
What is Meta's 'velocity strategy' for AI chip development?
Meta's 'velocity strategy' is an iterative approach to AI chip development that contrasts with traditional, longer chip design cycles. Recognizing that AI models evolve faster than typical hardware development, Meta designs each MTIA generation to build on the last using modular chiplets. This strategy incorporates the latest AI workload insights and hardware technologies, enabling deployment on a shorter cadence. This tighter feedback loop ensures Meta's custom hardware remains closely aligned with evolving AI models, facilitating faster adoption of new technologies and maintaining optimal performance and cost-efficiency.
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
As GenAI surged, MTIA chips evolved significantly to support these demanding workloads. MTIA 400 enhanced support for GenAI with 400% higher FP8 FLOPS and increased HBM bandwidth. MTIA 450 specifically optimized for GenAI inference by doubling HBM bandwidth, increasing MX4 FLOPS by 75%, introducing hardware acceleration for attention and FFN computations, and innovating with custom low-precision data types. MTIA 500 further improved on this, increasing HBM bandwidth by an additional 50% and introducing more low-precision innovations, directly addressing the compute and memory demands of complex GenAI models.
What are the key performance advancements from MTIA 300 to MTIA 500?
The MTIA chip family has seen remarkable advancements from the 300 series to the 500 series in less than two years. The HBM bandwidth has increased by 4.5 times, significantly boosting memory access speed crucial for large AI models. The compute FLOPS (Floating Point Operations Per Second) have seen an astounding 25-fold increase, particularly from MTIA 300's MX8 to MTIA 500's MX4 formats. These dramatic improvements underscore Meta's ability to rapidly enhance its custom silicon's raw processing power and data handling capabilities to meet the escalating demands of advanced AI models.
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
High-Bandwidth Memory (HBM) is critically important for Generative AI (GenAI) inference performance because GenAI models, especially large language models (LLMs), typically have massive parameter counts and require extensive memory bandwidth to efficiently retrieve and process these parameters during inference. The decoder step in GenAI inference, which generates tokens sequentially, is often bottlenecked by memory access rather than raw compute. Doubling or significantly increasing HBM bandwidth, as seen in MTIA 450 and 500, directly translates to faster token generation, lower latency, and higher throughput, making the AI experiences more responsive and efficient for users.

Fique Atualizado

Receba as últimas novidades de IA no seu e-mail.

Compartilhar