OpenLumara: минималистичный AI-агент для локальных моделей без хайпа

Когда в твоём чате очередной AI-агент съедает 8k контекста на системном промпте, а потом ещё столько же на skill.md — это повод задуматься. OpenLumara появилась как антитеза модным “всеядным” агентам вроде OpenClaw, где security и token efficiency явно не были в приоритете.

Чем OpenLumara не похож на других

Автор (розоволосая девушка в Discord, если верить описанию) сделала три принципиальных выбора:

Модульность как философия. Даже memory и shell access — это опциональные модули. В минимальной конфигурации агент вообще не загружает лишний код.
Security by default. Чёрные списки URL, sandboxed Docker для shell, маскировка sensitive data — всё нативно, без надежды на “а моделька же умная, она не будет вредничать”.
Локальные модели — first-class citizen. Никаких предположений, что у тебя под капотом GPT-4 Turbo с параллельными запросами.

На практике это выглядит так:

# Запускаем только coder module в CLI-режиме
openlumara --coder --cli

# Или собираем кастомный набор модулей
openlumara --modules coder,notes,http_whitelist=api.github.com

Как устроена token efficiency

Главный pain point большинства агентов — монструозные системные промпты. OpenLumara решает это через:

Динамическую загрузку инструкций только для активных модулей
Отказ от skill.md в пользу нативной поддержки toolcalls
Оптимизированные шаблоны для common tasks (например, работа с кодом через symbol-based editing)

В результате базовый промпт укладывается в 4k tokens, а в режиме “только coding” — меньше 1k. Для локальных моделей с их скромными контекстами это критично.

Security без компромиссов

Вот что мне особенно понравилось в архитектуре:

HTTP-модуль с HTTPS-only режимом и domain filtering
Docker-based sandboxing для shell-команд
Чистые конфиги — пароли и API-ключи подменяются на *** до передачи модели
Защита от prompt injection через код, а не через “а давайте попросим модель быть внимательной”

Автор прямо пишет: “I’m not a fan of relying on an LLM’s intelligence to do security-critical stuff”. После десятков агентов, где curl | bash считается нормальной практикой, такой подход радует.

Для кого это вообще?

Если ты:

Держишь локальную модельку на llama.cpp и устал от агентов, рассчитанных на GPT-4
Хочешь кастомизировать агента под конкретные задачи без переплаты токенами
Не готов trade-off’ить security ради “удобного API”

…то стоит попробовать. Особенно в связке с koboldcpp или тем же esobold.

Но если ждёте готового ChatGPT-alike с красивыми картинками — это не ваш выбор. Здесь всё по-деловому: модули, консоль и явный контроль над каждым аспектом работы.

Лично мне нравится, как проект балансирует между pragmatism и attention to detail. Никакого over-engineering, но и никаких “ну это же опенсорс, сами фиксите”. Даже в демо-видео видно, как агент аккуратно спрашивает подтверждение перед выполнением потенциально опасных операций.

Что хотелось бы увидеть в будущем: возможно, более детальную документацию по написанию кастомных модулей. Сейчас это требует погружения в исходники, хотя архитектура выглядит продуманной.

Источник: https://www.reddit.com/gallery/1txxgpq