Databricks asegura de forma nativa su acceso a la nube y automatiza sus implementaciones

hace 4 años

Les outils d

Databricks & # 39; La plataforma de gestión de datos ha ampliado sus funciones de seguridad y administración para usuarios y espacios de trabajo. También proporciona capacidades de automatización para la producción de proyectos analíticos y de aprendizaje automático.

Plataformas unificadas de procesamiento y análisis de datos, como Databricks & # 39; La solución de colaboración en la nube es cada vez más utilizada por las empresas para sus proyectos analíticos y de aprendizaje automático. Si bien los desafíos de seguridad son fáciles de resolver para pequeños conjuntos de datos y equipos, se vuelven más complejos cuando necesita poner en producción múltiples aplicaciones y escalarlas, más aún en entornos de nubes múltiples. "En muchos casos, nuestros clientes tienen miles de personas que usan nuestro producto a través de diferentes unidades de negocios para una variedad de casos de uso diferentes, todo lo cual implica acceder a varias clasificaciones de datos, privados, confidenciales o públicos". , explica en su blog la editorial californiana fundada en 2013 por los creadores de Apache Spark, Delta Lake y MLflow. Entre sus desarrollos más recientes, Databricks ha fortalecido su seguridad, ha ampliado sus funciones de administración de usuarios y ha agregado capacidades de automatización.

Recordemos que Databricks & # 39; La plataforma Unified Data Analytics consiste en una capa de almacenamiento (Delta Lake) para hacer que los lagos de datos sean más confiables, que proporciona canalizaciones de datos basadas en Spark, portátiles colaborativos, entornos de aprendizaje automático, MLFLow para administrar el ciclo de vida de los modelos ML, así como la administración , servicios de seguridad e integración con ecosistemas CI / CD (integración y entrega continua).

Índice
  1. Controles de seguridad nativos en la nube
  2. Una visibilidad sobre el consumo de recursos en la nube.
  3. Automatizar los datos y el ciclo de vida de ML

Controles de seguridad nativos en la nube

Alojado en Microsoft Azure o AWS, Databricks & # 39; La solución permite a las empresas centralizar todos sus datos y el acceso de los usuarios que los utilizan, en una única plataforma, con una seguridad que se basa en los controles proporcionados por las nubes. público, estos están diseñados de forma nativa para implementarse a escala. "En lugar de replicar o reconstruir lo que se ha hecho localmente, estamos aprovechando las reglas de seguridad y los recursos que ofrece la nube", explicó Nicolas Maillard, director de ingeniería de campo de Databricks France. Por lo tanto, la plataforma se integra con la gestión de acceso e identidad nativa (IAM) y utiliza los servicios clave de cifrado de datos.

Databricks aprovecha los servicios de seguridad de Microsoft Azure y Amazon Web Services. (Crédito: Databricks)

El mes pasado, el editor con sede en San Francisco agregó claves de cifrado revocables propiedad del cliente y el uso de redes privadas a sus grupos de Databricks en la nube. "Los clientes pueden gestionar sus claves de cifrado, crearlas, revocarlas, distribuirlas, las llevamos de forma nativa en la nube", subraya Nicolas Maillard. Las empresas también pueden implementar redes Azure Private Link o AWS privateLink. El tráfico entre usuarios de la plataforma, portátiles y clústeres que procesan solicitudes se encripta y transmite a través de la red privada del proveedor de la nube donde se implementa la plataforma, inaccesible desde el mundo exterior.

Una visibilidad sobre el consumo de recursos en la nube.

Databricks también ha actualizado las herramientas de administración de su plataforma. "Hoy, con la llegada de muchos clientes y la extensión de la plataforma a los clientes existentes, estamos viendo aparecer nuevos usos, como la creación de áreas de trabajo para separar lógicamente los equipos", explica el Director de Ingeniería de Campo. Estas áreas de trabajo pueden relacionarse con diferentes áreas geográficas o diferentes nubes. También puede ayudar a comprender qué tipos de datos y recursos se están consumiendo. "Es realmente un concepto de administración y gobernanza en el sentido funcional del asunto y nos hemos esforzado aquí para dar una transparencia total sobre lo que está sucediendo", dijo Nicolas Maillard.

Hasta entonces, se definieron inicialmente varios entornos. "Ahora lo hemos hecho extremadamente simple, con solo unos pocos clics, para poder crear otras áreas de trabajo virtuales, otros entornos, de una manera completamente natural, a medida que se utilizan las plataformas. Esto permite la capacidad de vincularlos a nociones de grupos de consumo de recursos en la nube para tener una comprensión granular de quién consume qué y poder reasignarlo a proyectos o grupos en la empresa ". También es posible vincular temporalmente a los usuarios a grupos y permitir que los usuarios trabajen en varios proyectos, extrayendo ellos de proyectos una vez que se completa su intervención.

Automatizar los datos y el ciclo de vida de ML

En la fase de producción de proyectos analíticos y de aprendizaje automático, Databricks también ha fortalecido sus capacidades de automatización. "Cuando hay cientos de proyectos, o muchos más, y espacios de trabajo en el lugar al mismo tiempo, ¿cómo se construye un sistema escalable y repetible, para poder implementar todas estas aplicaciones y modelos de ML en casi todas partes sin tener que regrese cada vez por configuración manual. Databricks se ha comprometido a hacer API primero desde el principio ", dijo Nicolas Maillard. "Todo lo que se ve en nuestra aplicación es una API en la que ofrecemos un servicio web". Ahora se utilizan herramientas de entrega continua de CI / CD (Terraform, Jenkins, MLflow ...) para que los equipos de desarrollo puedan automatizar el ciclo de vida de los datos y el aprendizaje automático, desde el soporte para git hasta la infraestructura y el monitoreo de aplicaciones.

Databricks, especialista en Spark, se unió originalmente a las empresas a través de esto. Desde entonces, se ha abierto ampliamente a la ingeniería de datos y la automatización de ML y aplicaciones, temas a los que el editor dedicará un cierto número de sesiones durante su evento virtual Spark + AI Summit, organizado del 22 al 26 de junio próximo.

Si quieres conocer otros artículos parecidos a Databricks asegura de forma nativa su acceso a la nube y automatiza sus implementaciones puedes visitar la categoría Otros.

Otras noticias que te pueden interesar

Subir