Buscamos um(a) DevOps Engineer / SRE para atuar na operação e evolução de nossa plataforma, com foco em automação, confiabilidade e entrega contínua em ambiente AWS. A pessoa nessa posição lidera iniciativas de automação, observabilidade e resiliência.
Importante: É fundamental que o candidato seja capaz de instrumentar e garantir melhores práticas na utilização do Datadog.
Responsabilidades:
- Monitorar continuamente a saúde dos sistemas, criando alertas eficazes e garantindo cobertura proativa de incidentes.
- Evoluir a observabilidade através da instrumentação de métricas de infraestrutura, aplicações e customizações, além de apoiar o troubleshooting ponta a ponta.
- Projetar e implementar soluções de observabilidade, integrando logs, métricas, traces e eventos.
- Criar e gerenciar dashboards informativos para visualização de dados críticos.
- Desenvolver logs estruturados e implementar infraestrutura de tracing para melhor rastreamento de eventos.
- Instrumentar APM (Application Performance Monitoring) com dashboards que forneçam insights valiosos sobre a performance das aplicações.
- Criar e gerenciar alertas para monitoramento eficaz e identificação precoce de problemas.
- Conduzir práticas de engenharia do caos, criando e executando hipóteses para testar a resiliência do sistema.
Requisitos para este desafio:
- Experiência sólida com AWS, incluindo serviços de containers e Kubernetes.
- Habilidades em automação de processos e infraestrutura.
- Familiaridade com ferramentas de monitoramento e observabilidade distribuída, como Datadog.
- Conhecimento em práticas de DevOps e CI/CD.
- Capacidade de trabalhar de forma colaborativa em um ambiente dinâmico e ágil.
Diferenciais:
- Experiência prévia em cargos de SRE ou DevOps.
- Familiaridade com metodologias ágeis e práticas de melhoria contínua.