Skip to end of metadata
Go to start of metadata

You are viewing an old version of this content. View the current version.

Compare with Current Restore this Version View Version History

Version 1 Current »

Introducción

 

CloudWatch es una herramienta nativa de AWS para monitorear métricas de performance, análisis de estado y detección de errores.

Todos los servicios que corren en AWS escriben en logs sus conexiones, tiempos de respuesta y excepciones. Estos registros de interpretan y convierten en paneles de control y alarmas.

Descripción

 

El monitoreo consta de dos partes: un set de paneles de control con métricas e información relevante en tiempo real y un set de alarmas para algunas de estas métricas. Si bien los umbrales se configuran en base a los estándares de monitoreo de Spin y las pruebas en entorno de QA, el mantenimiento queda a cargo del equipo de soporte y debe ser ajustado de manera de generar eventos solo cuando sea requerido. Un monitoreo pasivo puede significar un riesgo, pero un monitoreo agresivo termina por generar acostumbramiento a las alarmas.

A continuación, se detallan los registros de servicios:

·      /giftcard-service

·      /mobile-giftcard-service

·      /incomm-gateway-service

Objetivo

 

El propósito de la implementación de los monitores que se detallan en este documento es el de dotar al equipo de soporte con las herramientas necesarias para garantizar la disponibilidad del servicio y, en caso de ser necesario, agilizar la solución de problemas.

 

Paneles de control

 

Tiempo de respuesta

Lista de transacciones

Códigos de retorno

Tasa de transacciones por hora

Detalle de transacciones

Errores mobile-giftcard-service

Errores giftcard-service

Transmisiones en la última hora 

Conexiones a MongoDB

Alarmas

 

Las alarmas requeridas quedan cubiertas por las ya implementadas por Spin para el monitoreo de los componentes de infraestructura (jobs, streamers, queues,etc).

Se implementaron dos alarmas complementarias que cubren puntos débiles: una para medir el tiempo de respuesta de Incomm y una para medir el flujo de consultas total.

Tiempo de respuesta

Nombre: incomm-response-time

Tipo Alarma: métrica

Límite: value > 1 para 1 puntos de datos dentro de 15 minutos

Espacio de nombres: incomm-response-time

Nombre de la métrica: value

Estadística: Suma

Período: 15 minutos

Puntos de datos para la alarma: 1 de 1

Tratamiento de datos faltantes: Tratar los datos que faltan como faltantes

Percentiles con pocas muestras: evaluate

ARN: arn:aws:cloudwatch:us-east-1:549923646310:alarm:incomm-response-time

 

Flujo Entrante

Nombre: incomingBytes-mobile-giftcard-service

Tipo: Alarma métrica

Límite: IncomingBytes <= 0 para 1 puntos de datos dentro de 30 minutos

Espacio de nombres: AWS/Logs

Nombre de la métrica: IncomingBytes

LogGroupName: /aws/eks/qa-eks-master-cluster/mobile-giftcard-service

Estadística: Suma

Período: 1800

Puntos de datos para la alarma: 1 de 1

Tratamiento de datos faltantes: Tratar los datos que faltan como faltantes

Percentiles con pocas muestras: evaluate

ARN: arn:aws:cloudwatch:us-east-1:549923646310:alarm:incomingBytes-mobile-giftcard-service

 

Nombre: incomingBytes-giftcard-service

Tipo: Alarma métrica

Límite: IncomingBytes <= 0 para 1 puntos de datos dentro de 30 minutos

Espacio de nombres: AWS/Logs

Nombre de la métrica: IncomingBytes

LogGroupName: /aws/eks/qa-eks-master-cluster/giftcard-service

Estadística: Suma

Período: 1800

Puntos de datos para la alarma: 1 de 1

Tratamiento de datos faltantes: Tratar los datos que faltan como faltantes

Percentiles con pocas muestras: evaluate

ARN: arn:aws:cloudwatch:us-east-1:549923646310:alarm:incomingBytes-giftcard-service