Сервіс пошуку роботи №1 в Україні
-
АТБ-маркет
Роздрібна торгівля; більше 1000 співробітників - Дистанційна робота
- Повна зайнятість. Досвід роботи від 5 років.
- Бронювання працівників
Опис вакансії
Запрошуємо приєднатися до нашої команди Провідного фахівця з експлуатації рішень ШІ (Lead MLOps)
Обов’язки:
Перетворити напрацювання DS у надійні сервіси з прогнозованою продуктивністю, прозорим моніторингом і безпечними релізами (центральний та edge-рівні).
Зони відповідальності:
- ML-платформа: реєстр артефактів/моделей, політики версій/доступів, шаблони сервісів;
- CI/CD для моделей: data/model tests, canary/blue-green/shadow, rollback, feature-flags;
- Observability: якість/дрейф/стабільність, p95 latency/ресурси, інциденти, фідбек-петлі у тренування;
- Безпека: secrets/IAM/RBAC, аудит інференсу, керування конфігами, мережеві політики/ingress;
- Edge-сценарії: синхронізація моделей/кешів, стійкість до збоїв/відключень, телеметрія;
- Capacity-планування CPU/GPU, error-budgets для пікових вікон (вечори/п'ятниця);
- Автоматизований реплей inference-логів для аудиту/донавчання; zero-downtime оновлення;
OKR приклади:
- Uptime ML-сервісів 99.5%; p95 latency <150 мс на критичних шляхах;
- TtM моделі від approve до продакшну <30 хв; 95% релізів — без простоїв;
- Автоматичне виявлення дрейфу даних/моделей із частотою перевірки 24 год;
Вимоги (must-have):
- 5+ років у MLOps/SRE/DevOps; промислова експлуатація ML-сервісів on-prem;
- Глибоке розуміння життєвого циклу моделей, ризиків і спостережуваності;
- Впевнене володіння Kubernetes/OpenShift, Helm, Argo CD/Workflows, Terraform/Ansible, GitLab CI;
- Продакшн-досвід з MLflow Registry/Serving, NVIDIA Triton, ONNX Runtime, FastAPI/gRPC, KServe або Seldon Core;
- Моніторинг/логування: Prometheus/Grafana/Loki, Alertmanager, Evidently/whylogs, OpenTelemetry;
- Безпека/конфіги: Vault/Sealed Secrets, Keycloak (IAM), CNI-політики, ingress (Traefik/Kong/Nginx);
- Автоматизація тестів даних/моделей, інцидент-менеджмент, runbooks.
Буде плюсом:
- Edge-інференс у ритейлі (POS/SCO/відео/планограми); GPU-профілювання, TensorRT/quantization/batch-policy;
- Мультиверсійні моделі з швидким roll-forward/back; cost-/energy-aware планування;
- Практика cost-aware планування ресурсів і energy-ефективності;
Технічний стек (on-prem):
- Інфраструктура/оркестрація: Kubernetes/OpenShift, Docker/Containerd, Helm, Argo CD/Workflows, Terraform, Ansible, GitLab CI.
- Serving: MLflow (Registry/Serving), NVIDIA Triton, ONNX Runtime, FastAPI/gRPC, KServe/Seldon Core або Ray Serve.
- Observability: Prometheus, Grafana, Loki, Alertmanager, OpenTelemetry; ML-якість — Evidently/whylogs.
- Безпека: HashiCorp Vault/Sealed Secrets, Keycloak (IAM), CNI-політики, ingress-контролери.
Компанія пропонує:
- дистанційний або гібридний формат роботи;
- працевлаштування на умовах гіг-контракту або в штат (є можливість бронювання);
- оплачувану щорічну відпустку 24 календарних дня, оплачуваний лікарняний;
- регулярну виплату заробітної плати без затримок та в обумовлених обсягах, регулярний перегляд заробітної плати;
- можливість професійного та кар'єрного росту;
- курси підвищення кваліфікації.
Контактна особа: Катерина, тел. (t.me/KaterynaB_HR)
Схожі вакансії
-
Team Lead (Crypto, Facebook, Google)
MediaTraf, Дистанційно -
Програміст, AI Developer, ШІ-розробник
Перший, ломбард, ПТ, Дистанційно -
AI Content Creator, SMM Specialist
CloudGeometry, Дистанційно -
Project Manager (App, API, IoT, AI, AgriTech)
GrowDirector, Дистанційно -
Lead Data Scientist (навчання аналітиків, ML Delivery)
АТБ-маркет, Дистанційно