Con la función TMO, Meta ahorra RAM en los servidores

Probada durante un año en servidores de centros de datos, la función TMO (Transparent Memory Offloading) integrada en el kernel de Linux ha permitido ahorrar entre un 20 y un 32 % de RAM por servidor.

En una publicación de blog, los administradores de sistemas de Meta (la empresa matriz de Facebook) mencionaron la función TMO, un acrónimo de Transparent Memory Offloading. Esto está integrado en el kernel de Linux y funciona midiendo la pérdida de procesamiento en tiempo real debido a la falta de recursos de la CPU, analizando la memoria y la E/S. Guiado por estos resultados, el TMO ajusta automáticamente la cantidad de memoria para descargar a otros recursos como compresión de memoria o SSD.

En el documento, el equipo señala: «Las tecnologías alternativas como las SSD NVMe ofrecen una mayor capacidad de almacenamiento que la DRAM a una fracción del costo y el rendimiento». Porque es una cuestión de costo lo que llevó a Meta a interesarse por esta función. La ecuación es simple, Facebook, que tiene casi 3 mil millones de usuarios activos mensuales y varios millones de servidores repartidos en 21 sitios en todo el mundo, cada uno con 128 GB de RAM, o 256 Po de RAM (basado en una hipótesis baja). de una flota de 2 millones de servidores). A $ 4 por GB (DDR4 ECC RAM), la factura total de memoria asciende a $ 1 mil millones.

20-32% de ahorro de RAM

Por lo tanto, los ingenieros de Meta ejecutaron la función durante un año en los centros de datos y encontraron un ahorro del 20 al 32 % en la memoria total. Explican a través de un gráfico, la fracción de costo de los diferentes tipos de memoria que se utilizan en los servidores. La firma estima que «el costo de DRAM está aumentando al 33% de nuestro gasto en infraestructura». Agrega: «El consumo de energía de la DRAM sigue una tendencia similar y se espera que alcance el 38 % de la potencia de nuestra infraestructura de servidores». En el gráfico, podemos ver que “los SSD NVMe contribuyen con menos del 3 % del costo del servidor (alrededor de 3 veces menos que la memoria comprimida en nuestra generación actual de servidores)”.

A medida que los servidores evolucionen, el costo de la DRAM representará hasta el 33 % del servidor. (Crédito de la foto: Meta)

Todavía en la fase experimental, TMO implica acciones manuales, particularmente «en la descarga de back-end entre la memoria comprimida y el intercambio compatible con SSD», subraya el equipo de Meta. También reconocen la posibilidad de desarrollar herramientas para automatizar procesos. Pero prefieren centrarse en una modificación del kernel capaz de manejar «una jerarquía de back-end de descarga (por ejemplo, usar automáticamente zswap para memoria caliente y SSD para memoria fría o menos comprimible), así como integrar NVMe y CXL (Compute Express Link usado en HPC) dispositivos en la jerarquía de memoria en el futuro)». Entre los límites de TMO, los ingenieros de Meta señalan en particular una degradación del rendimiento. Pero las ganancias en términos de ahorro de energía y memoria superan con creces las desventajas. Los equipos de Meta han funcionó bien, pero los más antiguos recuerdan la memoria expandida en MS-DOS y la memoria virtual que toma prestado parte del espacio disponible en un disco duro o mejor, una unidad flash NVMe para hacer una copia de seguridad de la RAM.Finalmente, tenga en cuenta que la puesta en marcha Liquid tiene agregó virtualización de RAM a su plataforma, además de GPU, DPU y recursos SSD NVMe, para proporcionar RAM adicional a los servidores que la necesitan temporalmente. Los usos son principalmente en HPC en la actualidad.

Salir de la versión móvil