Ciencia en tus manos

Linkedin prueba la escalabilidad de los clústeres de Hadoop Yarn de 10,000 nodos

No hay comentarios Share:

Frente a ralentizaciones que se acercan a los 10,000 nodos en un clúster de Hadoop Yarn, el equipo de TI de Linkedin ha desarrollado una herramienta de simulación para ayudarlo a predecir el desempeño de su administrador de recursos. El marco DynoYarn está disponible en GitHub para la comunidad Yarn.

Para gestionar su big data y aprendizaje automático, Linkedin confía en Hadoop. Pero año tras año, la red social profesional ha tenido que duplicar el tamaño de sus clusters para hacer frente al crecimiento exponencial del volumen de datos a procesar. Su clúster más grande ahora tiene alrededor de 10,000 nodos y escalar Hadoop Yarn se había convertido en una de las tareas más difíciles de administrar en su infraestructura, explica la red social en una publicación. UEl equipo de ingenieros de TI de Linkedin explica en detalle el contexto de las ralentizaciones que observó a medida que se acercaba a los 10.000 nodos, así como las soluciones que se han desarrollado para intentar remediarlas. Además, uno de los elementos importantes para evaluar la escalabilidad de Yarn es la capacidad de predecir el desempeño del administrador de recursos. Para monitorear proactivamente la degradación del rendimiento que probablemente ocurra, Linkedin ha desarrollado una herramienta llamada DynoYarn que, asegura en su publicación, predice de manera confiable el rendimiento de los clústeres de Yarn de tamaño arbitrario. Esta herramienta acaba de ser de código abierto.

Como se describe en GitHub, DynoYarn proporciona un marco para escalar un clúster de Yarn a pedido y ejecutar cargas de trabajo de Yarn simuladas para probar la escala. La herramienta «puede simular el rendimiento de un cluster Yarn de 10,000 nodos en un cluster Hadoop de 100 nodos», se especifica. El marco se creó, por un lado, para evaluar las actualizaciones de las características de Yarn y las versiones de Hadoop sobre el rendimiento del administrador de recursos, por otro lado, para pronosticar el rendimiento del administrador de recursos en grandes clústeres de Yarn.

Similar al dinamómetro

En su post, los ingenieros de Linkedin explican que DynoYarn es similar a Dynamometer, la herramienta de prueba escrita por el equipo técnico de la red social para evaluar el rendimiento futuro de NameNode en HDFS. DynoYarn tiene dos componentes: un controlador para montar un clúster de Yarn simulado y una carga de trabajo para reproducir en este clúster. Ambos se implementan como aplicaciones Yarn, por lo que necesita un clúster Hadoop en funcionamiento para ejecutar la simulación. «De hecho, estamos ejecutando un clúster de Yarn dentro de un clúster de Yarn pero con menos limitaciones de recursos», afirma la publicación. El controlador y la carga de trabajo se pueden configurar para montar un clúster y reproducir cargas de tamaños arbitrarios, lo que significa que DynoYarn puede simular una amplia variedad de escenarios: uno puede reproducir problemas de rendimiento encontrados en producción o predecir el rendimiento del sistema. administrador de recursos sobre cargas de trabajo futuras y clústeres.

DynoYarn le permite simular las cargas de trabajo proyectadas para evaluar los cambios inducidos en el rendimiento del administrador de recursos a medida que los clústeres de producción se escalan gradualmente.

Más allá de estas predicciones sobre el aumento de los clústeres, Linkedin utiliza DynoYarn para evaluar el impacto de funciones importantes antes de ponerlas en producción y para garantizar la paridad de rendimiento al actualizar los clústeres a versiones. más alto. «Por ejemplo, usamos DynoYarn para comparar el desempeño del administrador de recursos al actualizar nuestros clústeres de la versión 2.7 de Hadoop a la versión 2.10», dice el equipo de ingeniería de TI, agregando la nota de crédito. también se usa para hacer pruebas A / B sobre la optimización del administrador de recursos, como se informa en la publicación. Dado el interés que presenta la herramienta para ayudar a su TI a establecer su hoja de ruta sobre Yarn e implementar actualizaciones, la red social la ha abierto en beneficio de la comunidad de Yarn.

Migrar a Azure

En su publicación, el equipo técnico de Linkedin también describe a Robin, un servicio interno que permite que los clústeres escalen horizontalmente más allá de los 10,000 nodos. Esto se presenta como un equilibrador de carga que distribuye dinámicamente las aplicaciones Yarn para multiplicar los clústeres de Hadoop. En el nivel más alto, Robin proporciona una API Rest simple que devuelve un clúster de Yarn para una tarea determinada.

Comprado por Microsoft en 2016, Linkedin se encuentra actualmente en proceso de migración a Azure. La red social está estudiando en particular la mejor forma de gestionar y escalar su clúster de Yarn en la nube. Nuevamente, hay una serie de desafíos al mover los 10,000 o más nodos del clúster de Hadoop Yarn en las instalaciones a la nube, lo que incluye tener en cuenta los «vecinos ruidosos», la planificación que tiene en cuenta el uso de discos para reducir los costos y el almacenamiento en caché de trabajos. .

También te puede gustar