馃敟 PILAR 5 (EXCELENCIA OPERACIONAL)

Pilar 5 (Excelencia Operacional)

驴En qu茅 consiste el pilar 5 “Excelencia Operacional” de AWS?

El pilar de excelencia operacional incluye las practicas y procedimientos operacionales utilizados para manejar las cargas de trabajo en producci贸n.

Esto incluye como los cambios planificados son ejecutados, asi como respuestas a eventos operacionales no esperados.

La ejecuci贸n de cambios y las respuestas deben ser automatizadas. Todos los procesos y procedimientos de excelencia operacional deben estar documentados, probados y regularmente revisados.

Principios de Dise帽o

  • Realizar operaciones con c贸digo.
  • Alinear procesos de operaciones a los objetivos del negocio.
  • Realizar cambios regulares, peque帽os e incrementales.
  • Probar las respuestas de eventos no esperados (chaos monkey).

Elementos del Principio de Dise帽o

  • Preparaci贸n.
  • Operaci贸n.
  • Respuesta.

驴C贸mo se lleva acabo la preparaci贸n?

  • La preparaci贸n efectiva es requerida para conducir la excelencia operacional.
  • Los checklists permitir谩n asegurarse que las cargas de trabajo est谩n listas para producci贸n, operaci贸n y prevenir promoci贸n no intencionada sin efectiva preparaci贸n.
  • Las cargas de trabajo consisten de gu铆as de operaciones que los equipos de operations pueden referir para realizar tareas diarias.
  • Las gu铆as deben contener indicaciones para los eventos de operaci贸n inesperados.
  • Las gu铆as deben incluir planes de respuesta, as铆 como caminos para escalar y notificaciones a los interesados.

驴Cu谩les son las mejores pr谩cticas para la preparaci贸n?

Existen varios m茅todos y caracter铆sticas que pueden ser utilizadas para para tener lista el soporte operacional, y la habilidad de preparar para la operaci贸n normal del d铆a a d铆a, as铆 como los eventos operacionales inesperados.

CloudFormation puede ser utilizado para asegurarse que los ambientes contienen todos los recursos cuando se despliega a producci贸n, y que la configuraci贸n del ambiente esta basada en un las mejores pr谩cticas que han sido probadas, lo que reduce la oportunidad de error humano.

AutoScaling permite responder a las cargas de trabajo cuando los eventos relacionados al negocio afectan las necesidades operacionales.

Servicios como AWS Config con las caracter铆sticas de las reglas de AWS Config crean mecanismos para monitorear autom谩ticamente y responder a cambios en las cargas de trabajo de AWS y sus ambientes.

Tambi茅n es importante utilizar caracter铆sticas como tags para asegurarse que todos los recursos en una carga de trabajo puede ser f谩cilmente identificados cuando sea necesario durante operaciones y respuestas.

驴Cu谩les preguntas ayudan a determinar si se lleva acabo una correcta preparaci贸n?

  • 驴Cu谩les son las mejores pr谩cticas para las operaciones de la nube que se est谩n utilizando?
  • 驴C贸mo se esta haciendo el manejo de la configuraci贸n para sus cargas de trabajo?

Mejores practicas para la Preparaci贸n

Este seguro que la documentaci贸n no se vuelva viciada u obsoleta conforme los procedimientos cambian. Sin dise帽os de la aplicaci贸n, configuraci贸n del ambiente, configuraci贸n de los recursos, planes de respuesta, planes de mitigaci贸n, la documentaci贸n no esta completa. Si la documentaci贸n no esta actualizada y probada regularmente, no sera 煤til cuando operaciones inesperadas ocurran. Si las cargas de trabajo no son revisadas antes de ir a producci贸n, las operaciones ser谩n afectadas cuando errores no detectados ocurran. Si los recursos no son documentados, cuando los eventos operacionales ocurran, determinar cuanto tomara en responder sera dif铆cil mientra que los recursos correctos son identificados.

Las operaciones deben ser estandarizadas y manejables en una rutina base. El foco debe ser la automatizaci贸n, peque帽os cambios frecuentes, verificaci贸n regular de la calidad de pruebas y mecanismos definidos de monitoreo, auditor铆a, roll backs, y revisi贸n de cambios. Los cambios no deben ser largos y espor谩dicos, no deben requerir que se apague el sistema, no deben requerir ejecuci贸n manual. Un amplio rango de errores y m茅tricas que est谩n basadas en indicadores operacionales para cargas de trabajo deben ser recolectadas y revisadas para asegurarse de la operaci贸n continua.

En AWS se puede utilizar integraci贸n continua para despliegues en pipelines. El proceso de despliegue sea manual o automatizado, debe ser probado y estar basado en peque帽os cambios incrementales, y versiones monitoreadas. Usted debe ser capaz de revertir cambios que han sido introducidos por errores operaciones sin causar impactos operacionales.

驴Preguntas para determinar las mejores pr谩cticas para operaciones?

Como se esta evolucionando con las cargas de trabajo mientras de minimizan los impactos de un cambio.

Como se mantienen las cargas de trabajo para garantizar que se esta operando como se desea.

Las operaciones de rutinas as铆 como las respuestas a eventos no planeados deben ser automatizadas.

Los procesos manuales de despliegue, liberaci贸n, cambios y rollbacks deben ser evitados.

La liberaci贸n (releases) no debe ser largos bloques de son realizados infrecuentemente.

Los rollbacks son mas dif铆ciles en grandes cambios, el no tener un plan de contingencia para los rollbacks detendr谩 la ejecuci贸n de las operaciones.

Alinee el monitoreo con las necesidades del negocio, de tal manera que las respuestas sea efectivas y se mantenga la continuidad del negocio.

El monitoreo general y no centralizado, con respuestas que son manuales causara impacto en las operaciones durante eventos inesperados.

Respuestas

Las respuestas a eventos operacionales inesperados deben ser automatizadas (no solo para alertas, sino tambi茅n para mitigar, remediar, restaurar y recuperar).

Las alertas deben ser en tiempo y no deben invocar escaladas cuando no son adecuadas a mitigan el impacto de un evento operacional.

La garant铆a de calidad de los mecanismos debe estar en su lugar, para autom谩ticamente recuperar despliegues fallidos.

En AWS hay varios mecanismos para asegurarse que alertas y notificaciones en respuesta a eventos operaciones no planeados existan as铆 como respuestas automatizadas:

Preguntas enfocadas en consideraciones de operaciones para la excelencia operacional:

  • 驴C贸mo responde a eventos operacionales no planeados?
  • 驴C贸mo maneja el escalamiento para responder a eventos operacionales no planeados?

Preparaci贸n

AWS provee un inventario detallado de todos los recursos de configuraci贸n de AWS, y continuamente almacena los cambios de la configuraci贸n.

AWS Service Catalog ayuda a crear un grupo de servicios estandarizado de ofertas que est谩n alineadas a las mejores practicas.

El dise帽o de las cargas de trabajo que utiliza automatizaci贸n con servicios como AutoScaling, y Amazon SQS, son buenos m茅todos para asegurarse de la operaci贸n continua en caso de eventos de operaci贸n inesperados.

Servicios de AWS para el manejo de Operaciones

  • AWS Code Commit
  • AWS Code Deploy
  • AWS Code Pipeline

Utilice AWS SDK’s a una librer铆a de terceros para automatizar los cambios operacionales. Utilice CloudTrail para auditar y monitorear los cambios realizados al tambi茅n de de AWS.

Respuestas

Tome ventaja de todos las caracter铆sticas de Amazon CloudWatch para respuestas efectivas y automatizadas. Las alarmas pueden ser definidas con una tolerancia para alertar y notificar, y los eventos pueden disparar notificaciones y respuestas autom谩ticas.