На днях наткнулся на вакансию от EUROPEAN DYNAMICS. Ищут системного администратора / инженера в Греции.

Если коротко о компании, то это крупный европейский IT-интегратор, динозавр с 1100+ сотрудниками, который плотно сидит на госконтрактах по всему Евросоюзу. Проекты на сотни миллионов евро, бюрократия, высокие требования к безопасности и стабильности. В общем, все серьезно.

Давайте представим диалог где-то в их афинском офисе. Назовем персонажей Димитрис (руководитель отдела) и Елена (HR).

Димитрис: Елена, у нас опять проблема. Янис уходит. Нам срочно нужен еще один человек, который будет следить за серверами. Чтобы все работало как часы, бэкапы делались, доступ контролировался. И самое главное – чтобы был на связи по ночам и в выходные, если что-то упадет. Мы не можем себе позволить простой, клиенты из Еврокомиссии этого не поймут.

Елена: Поняла. Опыт от 5 лет, Linux, виртуализация… что-то еще?

Димитрис: Да, чтобы понимал в мониторинге, в безопасности. Чтобы мог руками быстро поднять упавший сервис. Нам нужен надежный человек, который будет тушить пожары.

Вот она, классическая боль большой и не очень поворотливой компании. Они ищут не инженера для развития, а “пожарного” для существующей инфраструктуры. Человека, чья основная задача — сидеть и ждать, когда что-то сломается, а потом героически это чинить. И за это геройство они готовы платить зарплату, медстраховку и даже курсы языков. Мило, но неэффективно.

А что, если посмотреть на эту задачу не как на позицию для человека, а как на процесс, который можно автоматизировать с помощью ИИ?

Современный подход к этой проблеме называется AIOps — Artificial Intelligence for IT Operations. Это не один волшебный продукт, а концепция, где рутинные задачи по мониторингу, диагностике и устранению неисправностей передаются умным алгоритмам. Вместо того чтобы нанимать человека для круглосуточного бдения над дашбордами, компания могла бы построить систему, которая делает это сама.

Как бы это выглядело на практике?

Шаг 1: Централизация данных. Вместо того чтобы человек бегал по логам разных систем, все метрики, логи и трейсы собираются в единое озеро данных. Для этого есть инструменты вроде Splunk, Datadog или ELK Stack. Это фундамент.

Шаг 2: Внедрение ИИ-аналитики. На собранных данных мы натравливаем модели машинного обучения. Тот же Datadog или Dynatrace умеют делать это из коробки. Система изучает “нормальное” поведение инфраструктуры. Она понимает, какая нагрузка на сервер является типичной для утра понедельника, а какая — для ночи субботы. Любое отклонение от нормы — это аномалия. ИИ заметит ее за минуты до того, как проблема станет критической и о ней узнают пользователи.

Шаг 3: Автоматизация реагирования. Это самое интересное. Вместо ночного звонка уставшему сисадмину, система сама может предпринять действия.
Простой пример: ИИ замечает, что на одном из веб-серверов аномально растет потребление памяти.
– Раньше: Мониторинг шлет алерт -> дежурный админ просыпается -> подключается -> анализирует логи -> перезапускает сервис. Потеря времени: 15-30 минут.
– С AIOps: ИИ-аналитик фиксирует аномалию -> сопоставляет ее с базой знаний и видит, что в 95% случаев это решается перезапуском сервиса -> автоматически запускает плейбук в Ansible, который безопасно перезапускает нужный сервис -> проблема решена за 30 секунд. Человек просто получает утром отчет о проделанной работе.

Как побороть недоверие? Руководители вроде Димитриса скажут: “Я не доверю машине перезапускать прод! А вдруг она ошибется?”. И это нормальный страх. Внедрять нужно постепенно.
– Режим советника. Сначала ИИ ничего не делает сам. Он только анализирует и присылает алерты с рекомендациями: “Обнаружена аномалия X, рекомендую выполнить действие Y. Вероятность успеха 95%”. Инженер смотрит, соглашается и нажимает кнопку “Выполнить”.
– Постепенная автоматизация. Начинаем с самых безопасных и частых операций. Перезапуск некритичного сервиса, очистка временных файлов. Когда команда видит, что это работает, доверие растет.
– Прозрачность. Все действия ИИ должны логироваться и быть абсолютно понятными для инженеров.

А как проверить, что ИИ работает лучше человека? Очень просто, по метрикам, которые любит любой менеджер.
1. MTTR (Mean Time to Resolution) — среднее время решения инцидента. Сравните, сколько времени уходило на починку типовой проблемы у человека, и сколько уходит у автоматизированной системы. Разница будет в десятки раз.
2. Количество инцидентов. AIOps позволяет не только быстро чинить, но и предсказывать проблемы. Система заранее скажет: “Внимание, через 3 часа на диске Z закончится место с вероятностью 80%”. Человек успеет отреагировать до того, как случится авария.
3. Стоимость владения. Посчитайте зарплату, налоги, бонусы, страховку, расходы на онбординг и обучение сисадмина на 3 года вперед. Сравните это со стоимостью лицензий на софт и работой инженера, который будет эту систему настраивать и поддерживать. Цифры могут вас удивить.

Вместо того чтобы искать еще одного “героя”, который будет бороться с рутиной и выгорать на ночных дежурствах, EUROPEAN DYNAMICS могли бы инвестировать в построение неутомимой, самообучающейся и сверхбыстрой системы. А людей, тех самых опытных инженеров, направить на более творческие и сложные задачи: на развитие инфраструктуры, а не на ее бесконечный ремонт. Ведь именно в этом и заключается настоящее инженерное искусство.

Вакансия отсюда: https://www.linkedin.com/jobs/view/4410037116/