Applied Machine Learning at Facebook: A Datacenter Infrastructure Perspective
O aprendizado de máquina está no centro de muitos produtos e serviços essenciais no Facebook. Este documento descreve a infraestrutura de hardware e software que suporta o aprendizado de máquina em escala global. As cargas de trabalho de aprendizado de máquina do Facebook são extremamente diversas: os serviços exigem muitos tipos diferentes de modelos na prática. Essa diversidade tem implicações em todas as camadas da pilha do sistema. Além disso, uma fração considerável de todos os dados armazenados no Facebook flui por meio de pipelines de aprendizado de máquina, apresentando desafios significativos na entrega de dados para fluxos de treinamento distribuídos de alto desempenho. Os requisitos computacionais também são intensos, aproveitando plataformas de GPU e CPU para treinamento e capacidade de CPU abundante para inferência em tempo real. Abordar esses e outros desafios emergentes continua exigindo diversos esforços que abrangem algoritmos de aprendizado de máquina, software e design de hardware.