Как мониторить сервера для себя?

Публичный пост

13 мая 2021 7043

У меня есть 3 небольших виртуалки в облаках, на которых крутятся пара пет-проджектов, один VPS для более серьезных штук и дома raspberry pi.

Хочу как-то централизованно мониторить всё это дело, чтобы вручную не ходить по SSH, не читать логи машин и контейнеров в less и смотреть метрики вручную.

Посоветуйте, как не очень всрато организовать мониторинг в одном месте, при условии, что я не настоящий девопс.

Смотрел в сторону ELK, в сторону Grafana/Loki/Prometheus, в сторону rsyslog, но так и не понял, что же мне подойдёт и не будет слишком enterprise.

Чуть более конкретно: 5 машин, десяток докер-контейнеров, ещё 2-3 веб-сайта на чистом nginx+php/flask (могу и докеризовать их).
Нужно смотреть все логи (системные и приложений) и метрики (cpu/mem/io/uptime) в одном месте.

И в идеале ещё и логи домашнего роутера (mikrotik, умеет в rsyslog слать).

Связанные посты

🛠️ Делаем мониторинг для своего сервера за вечер

Проект: Sensorpad — мониторинг процессов, серверов и дата-пайплайнов

49 комментариев 👇

Nikita Kulikov Head of Mobile 13 мая 2021

Я использую это, запускается одной командой:
https://github.com/stefanprodan/dockprom

Из коробки мониторит все Docker-контейнеры и хост

Выглядит как-то так, можно в одно место запихивать разные VPS и мониторить на одном дашборде

Развернуть 1 комментарий

Nikita Kulikov 13 мая 2021

выклянчу лайки и замотивирую себя
Если этот комент наберет 10 плюсиков, обещаю до конца следующей недели запилить пост "Мониторинг: быстро, дешево и просто. На примере Minecraft-сервера"

Развернуть 1 комментарий

Dima Ponomarev 19 мая 2021

@LionZXY, Чем больше плюсов, тем быстрее пилить придется!

Развернуть 1 комментарий

Денис Волков 19 мая 2021

@LionZXY, судя по количеству плюсов, пост уже должен быть на подходе! :D

Развернуть 1 комментарий

Nikita Kulikov 19 мая 2021

@mcloSRrge3Rp8zubnchickkk, пощадите, мне бы к своему дедлайну успеть : D
Лучше накидайте вопросов, пожалуйста, чтобы я точно на них в статье ответил

Развернуть 1 комментарий

Mkl 19 мая 2021

@LionZXY, Как эдак попроще автоматизировать домашний мониторинг?

Развернуть 1 комментарий

Nikita Kulikov 19 мая 2021

@Mykola, А что не так с вариантом что я кинул выше? Что кроме этого хотелось бы услышать?

Развернуть 1 комментарий

Александр Константинов 27 июля 2021

@LionZXY, как не пропустить пост?

Развернуть 1 комментарий

Влад Никитин 27 июля 2021

@Baf, пост выше, в связанных.

Развернуть 1 комментарий

Алексей Найден 13 мая 2021 автор

@LionZXY, спасибо, выглядит классно. Но если я правильно понимаю, это всё ставится на одну машину и работает на ней же. Я бы хотел с нескольких машин собирать.

Развернуть 1 комментарий

Nikita Kulikov 13 мая 2021

@anaiden, можно прикрутить и несколько серверов, правда это на голову сложнее (не одна команда и надо въезжать как это работает)

Развернуть 1 комментарий

Nikita Kulikov 13 мая 2021

@anaiden, выше - просто собранные контейнеры настроенные для мониторинга. Основой всего этого великолепия служит prometheus, к которому можно подключать клиентов сколько угодно

Развернуть 1 комментарий

Алексей Ларионов 14 мая 2021

@anaiden, если у вас несколько серверов и на них докер, то можно свормом раскатить на все ноды(node-exporter, cadvisor, etc)

что-то типа такого:

version: '3.6'

volumes:
    prometheus_storage: {}
    grafana_storage: {}

networks:
  monitor-net:

services:

  prometheus:
    image: $CI_REGISTRY_IMAGE/prometheus:dev
    volumes:
      - prometheus_storage:/prometheus
    command:
      - '--config.file=/etc/prometheus/prometheus.yml'
      - '--storage.tsdb.path=/prometheus'
      - '--web.console.libraries=/usr/share/prometheus/console_libraries'
      - '--web.console.templates=/usr/share/prometheus/consoles'
    ports:
      - 9090:9090
    depends_on:
      - cadvisor
    networks:
      - monitor-net
    deploy:
      placement:
        constraints:
          - node.labels.mysql == true

  node-exporter:
    image: prom/node-exporter
    volumes:
      - /proc:/host/proc:ro
      - /sys:/host/sys:ro
      - /:/rootfs:ro
    command:
      - '--path.procfs=/host/proc'
      - '--path.sysfs=/host/sys'
      - '--collector.filesystem.ignored-mount-points'
      - "^/(sys|proc|dev|host|etc|rootfs/var/lib/docker/containers|rootfs/var/lib/docker/overlay2|rootfs/run/docker/netns|rootfs/var/lib/docker/aufs)($$|/)"
    ports:
      - 9100:9100
    networks:
      - monitor-net
    deploy:
      mode: global

  alertmanager:
    image: $CI_REGISTRY_IMAGE/alertmanager:latest
    ports:
      - 9093:9093
    networks:
      - monitor-net
    command:
      - '--config.file=/etc/alertmanager/config.yml'
      - '--storage.path=/alertmanager'
    deploy:
      placement:
        constraints:
          - node.labels.mysql == true

  cadvisor:
    image: google/cadvisor
    volumes:
      - /:/rootfs:ro
      - /var/run:/var/run:rw
      - /sys:/sys:ro
      - /var/lib/docker/:/var/lib/docker:ro
    ports:
      - 8080:8080
    networks:
      - monitor-net
    deploy:
      mode: global

  grafana:
    image: $CI_REGISTRY_IMAGE/grafana:dev
    depends_on:
      - prometheus
    ports:
      - 3000:3000
    volumes:
      - grafana_storage:/var/lib/grafana
    environment:
      GF_SECURITY_ADMIN_PASSWORD: admin
      GF_USERS_ALLOW_SIGN_UP: 'false'
      GF_AUTH_PROXY_ENABLED: "true"
      GF_AUTH_PROXY_HEADER_NAME: "X-WEBAUTH-USER"
      GF_AUTH_PROXY_HEADER_PROPERTY: "username"
    networks:
      - monitor-net
    deploy:
      placement:
        constraints:
          - node.labels.mysql == true

Развернуть 1 комментарий

Павел Сысолятин 14 мая 2021

@LionZXY, Вместо Prometeus наверное подойдёт https://victoriametrics.com/, которая поменьше ресурсов требует

Развернуть 1 комментарий

💀 Юзер Удалился 14 мая 2021

@LionZXY, а как его запустить с Windows контейнерами?

Развернуть 1 комментарий

🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Ivan Goncharov Staff Engineer 13 мая 2021

Если не хочется конфигурировать, что-то тяжелое и централизованное (для пет-проджектов это всегда оверкилл) есть netdata: https://github.com/netdata/netdata

Легковесная, zero-configuration, не требуется центральный сервер из коробки есть много чего. Единственное на счет просмотра логов не уверен (раньше точно не было, но может плагин завезли какой), но метрик (+алертинг по ним) там из коробки сильно больше чем даже нужно.

Развернуть 1 комментарий

Ivan Goncharov 14 мая 2021

@ivanvg,
+1 проект не требующий централизованной инфраструктуры, но уже про логи: https://github.com/sevdokimov/log-viewer

Развернуть 1 комментарий

Siarhei Krukau Бэкендщик 14 мая 2021

Смотрел в сторону ELK, в сторону Grafana/Loki/Prometheus, в сторону rsyslog, но так и не понял, что же мне подойдёт и не будет слишком enterprise.

ИМХО это неплохой выбор. Докину ещё InfluxDB. Все три стека, в принципе, одной степени энтерпрайзности, и довольно высокой. Самому, конечно, настраивать и поддерживать это всё я бы не рекомендовал.

Но!

Grafana Cloud предлагает абсолютно бесплатно:

10К таймсерий в проме
50 гиг логов
14-дневный ретеншн
Команду до трёх человек

И это здорово! Это абсолютно managed решение и оно не требует никаких телодвижений. Зарегался, получил токены, можно слать данные. Я рекомендую, сам использую для хобби в похожих условиях, только у меня JVM-стек.

Из удобств: туда можно абсолютно легально завести метрики вообще со всего, что у тебя есть. Все проекты, сколько бы у них ни было ресурсов, можно держать в одном месте и коррелировать. Grafana создана для этого. В отличие от той же netdata, которая хороша, но больше как-то предназначена для мониторинга на местах, на конкретных серверах (там есть ре-стриминг, но его ещё настраивать надо всюду).

Из недостатков: если твои проекты крутятся за NAT и у них нет внешнего IP, Prometheus, использующий pull-подход, не сможет забрать метрики. Решается либо выбором стека с push-подходом (Influx, но тут я не знаю бесплатных managed решний для хобби) либо использованием специального push gateway.

Grafana, Influx, Kibana - это уровень дешбордов и алертов. Данные в них можно закидывать из кучи источников. Grafana Cloud Agent, Telegraf, node / process / docker -exporter - это агенты которые будут собирать и экспортировать разные метрики. Их десятки, выбор зависит от стека, pull / push, форматов, задач, требований. Нужно выбирать конкретно, но выбирать всегда есть из чего.

В добавок ещё сами приложения могут экспортировать специфичные для языка (типа количество сборок мусора) или бизнеса (завершённые транзакции) метрики. Например для Flask нагуглилось https://pypi.org/project/prometheus-flask-exporter - это экспортер метрик из Python / Flask в формате прома.

Развернуть 1 комментарий

🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Rail Hamdeew Программист 13 мая 2021

Логи из Docker-контейнеров можно отправлять в Google Cloud. Как раз недавно писал об этом пост

Для мониторинга доступных ресурсов можно использовать старый добрый Zabbix. К нему есть уйма плагинов для снятия необходимых метрик.

Для мониторинга доступности я использую сервис Monitorus. Стоит копейки, умеет слать смс или сообщения в телегу в случае недоступности хоста.

Также ваш хостинг провайдер может предоставлять панель с метриками виртуальной машины. Возможно вам будет достаточно и этих данных)

Развернуть 1 комментарий

Alex Zaitsev Maker 23 мая 2021

Пишу по выходным систему для мониторинга https://sensorpad.io

Надеюсь, соберусь мыслями и напишу большой пост в клуб про это, но пока можете поиграться, если не лень.

Кстати, вот как Sensorpad мониторит сам себя:

Развернуть 1 комментарий

🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Alex Zaitsev Maker 13 мая 2021

если нужно собирать логи: papertrail

Развернуть 1 комментарий

💀 Юзер Удалился None 15 мая 2021

Селхостед альтернатива Datadog и NewRelic - https://github.com/SigNoz/signoz

Развернуть 1 комментарий

Игорь Шупта DevOps Engineer 15 мая 2021

Неплохой вариант - Check_MK. Прост в установке и добовлении хостов в мониторинг, интеграция с Opsgenie для получения уведомлений, умеет в логвотч и инциденты по ошибкам в логах.

Развернуть 1 комментарий

🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Nick Gashkov Техлид 20 мая 2021

Здесь уже говорили про бесплатную Grafana Cloud — тоже ее использую, топ решение для небольших пет проектов.

Еще бы посоветовал посмотреть на их плагин для синтетического мониторинга, позволяет спать еще спокойнее, когда знаешь, что сервер не валяется не только по своим метрикам, но и нормально доступен из внешнего интернета — https://grafana.com/grafana/plugins/grafana-synthetic-monitoring-app/

Развернуть 1 комментарий