A Meta revelou novos detalhes sobre sua próxima geração de aceleradores de IA, projetados para otimizar os modelos de recomendação que alimentam o Facebook e o Instagram. No evento Hot Chips 2024, a empresa apresentou o Meta Training and Inference Accelerator (MTIA), sua solução interna de inferência de IA, que agora conta com núcleos RISC-V e memória LPDDR5 para melhorar o desempenho e a eficiência de seus sistemas de recomendação.
Lançado inicialmente em 2023, o MTIA foi atualizado em abril de 2024, dobrando a capacidade de computação e largura de banda de memória da versão anterior. A nova geração promete um desempenho ainda maior, com a Meta buscando melhorar a eficiência por TCO (custo total de propriedade) e por watt, além de otimizar o uso em vários serviços da empresa, como Facebook e Instagram.
Desafios com GPUs e Expansão de Memória
Durante a apresentação, a Meta detalhou os desafios enfrentados ao utilizar GPUs para seus motores de recomendação, destacando que o desempenho máximo nem sempre se traduz em eficiência real. A demanda crescente por IA generativa e a limitação de capacidade de grandes implantações agravam esses problemas, impulsionando o desenvolvimento da próxima geração do MTIA.
A nova versão do chip apresenta um aumento significativo no desempenho com a tecnologia GEN-O-GEN, que eleva as operações GEMM em 3,5x, alcançando 177 TFLOPS em BF16. Além disso, a quantização de tensores baseada em hardware melhora a precisão, e otimizações no suporte ao PyTorch Eager Mode reduzem drasticamente o tempo de inicialização dos trabalhos.
O chip MTIA é construído com o processo de 5nm da TSMC e opera a 1,35 GHz, oferecendo 354 TOPS (INT8) e 177 TOPS (FP16) em desempenho GEMM. Equipado com 128 GB de memória LPDDR5 e uma largura de banda de 204,8 GB/s, o chip opera com um TDP de 90 watts.
RISC-V e Suporte para Expansão de Memória
Os elementos de processamento do MTIA são baseados em núcleos RISC-V, com extensões escalares e vetoriais, e o módulo acelerador inclui CPUs duplas. Durante a apresentação no Hot Chips 2024, a ServeTheHome observou uma expansão de memória conectada ao switch PCIe e aos CPUs. Quando questionada se a tecnologia envolvia CXL, a Meta respondeu que a expansão é uma opção, mas ainda não está sendo utilizada.