Sobre Creai
En Creai, nos especializamos en aprovechar el poder de la inteligencia artificial y el aprendizaje automático para transformar negocios. Nuestra misión es ayudar a los clientes a reducir costos, aumentar la eficiencia y desbloquear nuevas oportunidades mediante soluciones de IA de vanguardia.
Descripción del Puesto
Como DevOps / Cybersecurity Engineer, serás el guardián de nuestra infraestructura SaaS, responsable del diseño, implementación y mantenimiento de todos los sistemas que sustentan nuestros productos de IA. En este rol de ownership completo, tendrás la responsabilidad integral de la infraestructura cloud, pipelines CI/CD, monitoreo de sistemas, seguridad de aplicaciones y compliance, sirviendo como el experto técnico que habilita a ambos equipos (AI Virtual Agent y Admin Backoffice) para entregar productos de clase mundial.
Serás el arquitecto de la confiabilidad, escalabilidad y seguridad de nuestra plataforma, diseñando sistemas que soporten tanto aplicaciones de IA intensivas en cómputo como interfaces administrativas con altos estándares de disponibilidad. Tu expertise será fundamental para mantener la excelencia operacional mientras escalamos rápidamente nuestras capacidades y base de usuarios.
Este Puesto Exige
Infraestructura y DevOps:
* Arquitectura Cloud Completa: Diseñar, implementar y mantener infraestructura escalable en AWS/Azure, incluyendo instancias de cómputo, balanceadores de carga, bases de datos, soluciones de almacenamiento y redes, optimizada tanto para cargas de trabajo de IA como para aplicaciones web empresariales.
* CI/CD y Automatización: Desarrollar y mantener pipelines robustos de integración y despliegue continuo usando GitHub Actions, incluyendo pruebas automatizadas, compilaciones, despliegues blue-green, y estrategias de rollback para múltiples ambientes (desarrollo, staging, producción).
* Containerización y Orquestación: Implementar y gestionar contenedores Docker y clusters Kubernetes, incluyendo mallas de servicios, auto-escalamiento, gestión de recursos y patrones de despliegue para aplicaciones con diferentes perfiles de carga (inferencia LLM vs. aplicaciones web).
* Infraestructura como Código: Desarrollar y mantener toda la infraestructura como código usando Terraform, CloudFormation o herramientas similares, asegurando reproducibilidad, versionado y capacidades de recuperación ante desastres.
* Monitoreo y Observabilidad: Implementar sistemas comprehensivos de registro de eventos, métricas y alertas usando herramientas como DataDog, New Relic, Grafana o similares, incluyendo monitoreo de rendimiento de aplicaciones, monitoreo de infraestructura y seguimiento de métricas de negocio.
Seguridad y Compliance:
* Seguridad por Diseño: Implementar prácticas de seguridad en todos los niveles de la infraestructura, incluyendo seguridad de red, cifrado en reposo/en tránsito, gestión segura de secretos, y escaneo automatizado de vulnerabilidades.
* Seguridad Específica para LLMs: Realizar pruebas de penetración especializadas en aplicaciones de IA, incluyendo prompt injection attacks, jailbreaking attempts, data poisoning scenarios, y validación de guardrails de seguridad en modelos de lenguaje.
* Revisión de Código y Validación: Colaborar con los equipos de desarrollo para realizar revisiones de seguridad de código, especialmente en implementaciones de IA, validando prácticas seguras de prompt engineering, manejo de datos sensibles, y integración de modelos.
* Gestión de Identidad y Acceso: Diseñar e implementar sistemas robustos de autenticación y autorización, incluyendo SSO, control de acceso basado en roles, autenticación de múltiples factores, e integración con sistemas de identidad empresariales.
* Compliance y Auditoría: Establecer frameworks de cumplimiento para estándares como SOC2, GDPR, y otras regulaciones relevantes, incluyendo rastros de auditoría, gobernanza de datos, y documentación de controles de seguridad.
* Respuesta a Incidentes: Desarrollar y mantener planes de respuesta a incidentes de seguridad, incluyendo procedimientos de respuesta a brechas, capacidades forenses, y monitoreo continuo de seguridad.
* Pruebas de Penetración y Gestión de Vulnerabilidades: Coordinar y ejecutar evaluaciones de seguridad regulares, escaneos de vulnerabilidades, y remediación de problemas de seguridad identificados, con enfoque especial en vectores de ataque únicos de aplicaciones de IA.
Soporte y Escalabilidad:
* Optimización de Rendimiento: Monitorear y optimizar el rendimiento de sistemas, incluyendo ajuste de bases de datos, estrategias de caché, configuración de CDN, y asignación de recursos para diferentes tipos de cargas de trabajo.
* Recuperación ante Desastres y Continuidad del Negocio: Diseñar e implementar estrategias de respaldo, recuperación ante desastres, y continuidad del negocio, incluyendo planificación de RTO/RPO y pruebas regulares de procedimientos de recuperación.
* Planificación de Capacidad: Analizar patrones de uso, predecir necesidades de crecimiento, y planificar la escalabilidad de recursos para soportar el crecimiento del negocio y picos de demanda.
* Experiencia del Desarrollador: Crear herramientas de autoservicio y documentación para desarrolladores, incluyendo entornos de desarrollo, herramientas de depuración, y automatización que acelere el desarrollo y despliegue.
* Soporte de Guardia: Participar en rotación de guardia con los Tech Area Leaders para resolver incidentes críticos y mantener alta disponibilidad de los sistemas.
Requisitos Indispensables
* Experiencia en DevOps: Mínimo 4 años de experiencia en roles de DevOps, SRE o Cloud Engineering, con historial demostrado de gestión de infraestructura de producción para aplicaciones web o SaaS.
* Expertise en Cloud: Dominio profundo de al menos una plataforma cloud principal (AWS o Azure), incluyendo compute, storage, networking, databases, y servicios managed, con certificaciones relevantes preferred.
* CI/CD y Automation: Experiencia extensa con pipelines CI/CD, automation tools, y scripting (Bash, Python, PowerShell), incluyendo testing automation y deployment strategies avanzadas.
* Containerización: Experiencia práctica con Docker y Kubernetes en producción, incluyendo cluster management, service discovery, load balancing, y troubleshooting de containers en escala.
* Security Engineering: Conocimiento sólido de security best practices, network security, encryption, vulnerability management, y experience implementando security controls en entornos cloud.
* Infrastructure as Code: Experiencia con herramientas IaC como Terraform, CloudFormation, o similares, incluyendo state management, module development, y governance de infraestructura.
* Monitoreo y Observabilidad: Experiencia implementando y manteniendo stacks de monitoreo completos, incluyendo metrics collection, alerting, log aggregation, y dashboard development.
* Resolución de Problemas: Habilidades excepcionales de troubleshooting y debugging en sistemas distribuidos, incluyendo network issues, performance problems, y service outages.
* Comunicación en Español e Inglés: Capacidad para comunicarse de manera efectiva en ambos idiomas, especialmente para documentation técnica y incident communication.
Requisitos Deseables
* Experiencia con AI/ML Infrastructure: Conocimiento de requirements específicos para ML workloads, incluyendo GPU compute, model serving, vector databases, y optimization para inference latency.
* Advanced Security: Experiencia con security frameworks avanzados, compliance automation (SOC2, ISO27001), security orchestration, y threat detection/response tools.
* Database Administration: Conocimiento de database management y optimization, incluyendo relational databases (PostgreSQL, MySQL) y NoSQL solutions, especialmente para aplicaciones de alta escala.
* Cost Optimization: Experiencia con cloud cost management, resource optimization, y FinOps practices para mantener eficiencia económica en infrastructure spending.
* Disaster Recovery Expertise: Experiencia diseñando e implementando disaster recovery solutions comprehensivas, incluyendo multi-region deployments y business continuity planning.
* Automation y Scripting Avanzado: Habilidades avanzadas en automation, incluyendo configuration management (Ansible, Chef), workflow automation, y development de internal tools.
Beneficios
* Trabajo 100% remoto con horario alineado a CST.
* ️ PTO ilimitado: Confiamos en que gestionarás tu tiempo de manera efectiva.
* Presupuesto anual para desarrollo: Acceso a cursos, certificaciones y conferencias.
* ️ Presupuesto para equipamiento: Configura tu espacio de trabajo remoto ideal.
* Bonos semestrales por desempeño: Reconocemos y recompensamos tu impacto con incentivos económicos.
* ???? Beneficio de salud: Acceso a cobertura médica privada o subsidios para seguro médico.
* Oportunidades de crecimiento: Plan de carrera y mentoría con expertos en IA y tecnología.
* Ambiente de startup dinámico y flexible: Autonomía para tomar decisiones y proponer ideas, con un enfoque en resultados en lugar de horas trabajadas.
* ️ Balance vida-trabajo: Cultura que prioriza la flexibilidad y el bienestar, permitiéndote gestionar tu tiempo sin sacrificar tu vida personal.
¡Te invitamos a postularte!
Incluso si no cumples con todos los requisitos, valoramos experiencias y perspectivas diversas. Si te apasiona el reclutamiento y quieres crecer en una empresa enfocada en datos e IA, ¡nos encantaría conocerte!
#J-18808-Ljbffr