Pinterest pone su IDE de Big Data Querybook en código abierto

hace 3 años

L

Pinterest, una red social convencional para compartir imágenes, es utilizada por empresas con fines de marketing. Su equipo de ingeniería analítica acaba de poner en GitHub la interfaz colaborativa que utiliza para solicitar y visualizar su big data.

Con 300 mil millones de marcadores que fijan imágenes o productos, la red social principal Pinterest es una fuente de descubrimiento de ideas e inspiración para 450 millones de usuarios mensuales cuyas áreas de interés mapea. Las empresas lo utilizan con fines de marketing para generar interés en sus productos y aumentar las ventas. En este universo que agita una abundante base de información, las herramientas de consulta y análisis cobran especial importancia. Uno de ellos, Querybook, acaba de convertirse en código abierto gracias a la propia red social. Es una solución de acceso a big data utilizada en modo colaborativo por sus equipos de ingeniería.

La herramienta es accesible en GitHub, donde se presenta como un IDE para descubrir, crear y compartir consultas, tablas y análisis de datos. Toma la forma de una interfaz de consulta de big data que combina tablas de metadatos coubicadas y una interfaz de portátil. “El punto de partida común para cualquier análisis en Pinterest es una consulta ad hoc que se ejecuta en un motor SparkSQL, Hive, Presto o cualquier motor compatible con Sqlalchemy”, explica en un post en Medium el equipo de ingeniería a cargo de la plataforma analítica de Pinterest. "Creamos Querybook para proporcionar una interfaz de usuario sencilla y receptiva para realizar dichos análisis". Los científicos de datos, los desarrolladores y los analistas comerciales pueden usarlo para descubrir los datos correctos, redactar sus consultas y compartir sus hallazgos.

Índice
  1. 7.000 solicitudes diarias en promedio
  2. Visualizaciones actualizadas en tiempo real

7.000 solicitudes diarias en promedio

El desarrollo de la herramienta se inició en 2017 como un proyecto interno. Hasta entonces, la solución externa utilizada para estas tareas no satisfizo al equipo de TI de Pinterest, que recurrió a otras herramientas como Evernote o el cuaderno Jupyter, este último requiere conocimientos de Python / R y no permite la integración. tablas de metadatos. “Nuestro equipo decidió que la interfaz de Querybook sería un documento en el que los usuarios podrían redactar sus consultas y escribir análisis en un solo lugar con el poder de los metadatos coubicados y la simplicidad de una aplicación para tomar notas”, relata los ingenieros de TI de Pinterest. Entregada internamente en 2018, la herramienta procesa un promedio de 7.000 solicitudes diarias generadas por 500 usuarios.

La herramienta se abre en su interfaz DataDoc compuesta por celdas de tres tipos: texto, consulta o gráfico, lo que permite, respectivamente, anotar ideas en un formato rico, redactar y ejecutar consultas y, finalmente, crear visualizaciones. de los resultados obtenidos. DataDoc permite a los usuarios colaborar en torno al documento, al igual que Google Docs.

Visualizaciones actualizadas en tiempo real

Hay varios modos de visualización disponibles: representaciones temporales, gráficos de sector, nubes de puntos, etc. Puede transformar fácilmente un DataDoc en un tablero cuyas visualizaciones estarán vinculadas a los resultados de las consultas y cuyas actualizaciones se pueden programar de forma regular. El equipo de TI sugiere utilizar el lenguaje de construcción de modelos Jinja inspirado en Django para crear rápidamente un DataDoc actualizado en tiempo real. Si bien advierte que esto no reemplaza herramientas como Airflow y Superset. “A menudo, los ingenieros de Pinterest utilizan Querybook como un primer paso en la redacción de consultas antes de crear flujos de trabajo y cuadros de mando a escala de producción”, dijo.

Finalmente, Querybook también permite automatizaciones. Cada consulta se analiza para extraer los metadatos (comandos y referencias de tabla) para actualizar el esquema de datos y el ranking de los resultados, y establecer una tabla de las consultas más frecuentes. En su publicación, los ingenieros de TI de Pinterest siguen una guía paso a paso para usar Querybook y describen su arquitectura.

Si quieres conocer otros artículos parecidos a Pinterest pone su IDE de Big Data Querybook en código abierto puedes visitar la categoría Otros.

Otras noticias que te pueden interesar

Subir