Последние пару недель ковырялся с AI-агентами на Raspberry Pi 5.
И довольно быстро понял странную вещь.
Большинство агентных фреймворков просто огромные.
Ставишь агент, а он тянет за собой:
• Python стек
• несколько сервисов
• иногда векторную базу
• orchestration
• кучу зависимостей
На сервере это нормально.
Но на Raspberry Pi всё это ощущается как пушка для стрельбы по мухам.
А задачи у меня были очень простые
Я хотел иметь маленького агента, которому можно написать в Telegram что-то вроде:
что там по статусу системы
или
покажи логи tailscale
или
прочитай /etc/hostname
или
запусти небольшой кусок кода
То есть по сути небольшой assistant для своего сервера.
И тут появилась мысль
Почему вообще всё должно идти через LLM?
Во многих agent-frameworks модель становится центральной частью системы.
Даже простые вещи проходят через неё.
Из-за этого:
• задержки
• галлюцинации
• лишние вычисления
На Raspberry Pi это ощущается особенно сильно.
Попробовал другой подход
Сделал маленький runtime с простой логикой:
сначала deterministic routing, потом LLM.
То есть:
1. если запрос совпадает со skill, то выполняем сразу
2. если нет, то модель помогает понять, что хотел пользователь
LLM в этой схеме это скорее классификатор, а не исполнитель.
Пример
Пишу агенту:
что там по статусу системы
Ответ:
Hostname: raspberry
CPU: 0.0%
Memory: 2.1 GiB used / 7.9 GiB total
Disk: 864.2 GiB free / 916.3 GiB total
Uptime: 1d 22h
Temperature: 51.8C
LLM здесь используется только для того, чтобы сопоставить текст запроса с нужным skill.
Само выполнение происходит детерминированно.
Интересное наблюдение
Замерил latency на Raspberry Pi 5.
Для одного и того же запроса:
• локальная модель через Ollama отвечала примерно 40+ секунд
• тот же запрос через gpt-4o-mini отвечала около 3 секунд
Сам skill при этом выполняется примерно за 150 ms.
То есть основная задержка, это именно LLM-часть.
Из-за этого deterministic routing начинает реально иметь смысл.
Зачем вообще это делал
Честно говоря, просто хотелось маленький инструмент.
Типа как:
• tmux
• caddy
• restic
Небольшая штука, которая делает одну задачу.
Без огромного AI-комбайна вокруг.
Если кому интересно поковыряться:
https://github.com/evgenii-engineer/openLight
Буду рад фидбеку.
Особенно если кто-то тоже запускал AI-агентов на Raspberry Pi или другом edge-железе. Интересно, какие подходы у вас оказались рабочими.


Пост писал Claude или у меня слишком чувствительный детектор?