AWS Glue es un servicio serverless usado principalmente en ETLs dentro de Spin. Las capacidades y recursos proporcionadas por el servicio permiten ejecutar código basado principalmente en python para soportar cargas de datos sin preocuparse por la administración del mismo. Al Igual que las lambdas, este servicio es facturado con base en el uso y caracteristicas seleccionadas como base para la ejecución de un script. No posee las limitaciones de Lambda sobre ejecuciones superiores a 15 minutos, ni tampoco esta atado por la memoria efímera de la misma.

AWS Glue

A diferencia de lambda, las ejecuciones en glue están limitadas y no poseen muchas formas de invocación, excepto vía API por medio de otros productos de AWS:

  • Lambda

  • Step Function

  • Airflow (MWAA)

  • EventBridge

Casos de uso

Es la herramienta base en el equipo de datos para realizar operaciones de datos de cualquier tipo.Todos los ETLs actuales son manejados a través de AWS Glue. Los proyectos siempre requieren manejar un volumen grande de información y AWS Glue cumple a la perfección con la tarea. El autoescalamiento hace posible trabajar con datas de miles de GB sin preocupación alguna por la capacidad.

Estándares SPIN

Por el enfoque a datos python es actualmente el lenguaje oficial para programar ETLs en Glue, no obstante Scala es una opción a considerar.

Al igual que las lambdas, si e necesita un valor sensible como apikeys, certificados etc, AWS Glue deberá leerlos del parameter store de AWS (SSM - Simple System Manager).