Ваши AI-агенты работают. Приходит счет за GPU: $47K за месяц. CTO спрашивает: “Какой агент сколько съел?” Вы открываете LangSmith — там красивые графики по токенам, но ни слова о реальной стоимости в GPU-часах. Вот что не так с токен-центричным мониторингом и как это исправить.
Токены ≠ стоимость
Все инструменты observability — LangSmith, Arize, Helicone — считают одно и то же: prompt tokens, completion tokens, latency. Но токены — это прокси-метрика, которая не отражает реальных затрат:
- 1000 токенов на Llama-70B = 14x дороже, чем на Mistral-7B
- Один агент может крутиться на дорогих H100 ($7/час), другой — на дешевых L4 ($0.80/час)
- Ваши GPU резервируются 24/7, независимо от нагрузки
На практике это приводит к слепым зонам:
- Нельзя сравнить агенты по реальной стоимости
- Невозможно выставить жесткие бюджетные лимиты
- Риск “сбежавшего” агента, который сожрет весь кластер
GPU-aware контроль
Мы развернули 50 агентов на собственном GPU-флоте и быстро осознали: нужен слой контроля на уровне инфраструктуры. Решение — легковесный прокси между агентами и LLM-бекендами (vLLM/Ollama/TGI), который:
- Идентифицирует агентов по HTTP-заголовкам (без изменения кода):
X-VibOps-Agent-Id: pricing-agent-v2
X-VibOps-Team: supply-chain
- Считает стоимость в GPU-часах, а не токенах:
Agent Model GPU-hrs Cost
supply-chain-optimizer llama-70b 651h $4,559
pricing-agent-v2 mistral-7b 181h $218
- Применяет политики:
# Бюджетный лимит
"Set $1,500/month limit on marketing-content-writer"
# Ограничение моделей
"RH agents can only use Mistral models"
Технически это работает через цепочку из 8 шагов с оверхедом <5ms, включая проверку бюджета, маршрутизацию и асинхронный логгинг в PostgreSQL.
Сценарии использования
Финансовый контроль:
- Видите, что supply-chain-optimizer съедает 54% бюджета
- Устанавливаете hard limit в $2K/месяц — при превышении агент получает 429
Миграция моделей:
llama-3.1-70b
├── supply-chain-optimizer $4,559/mo
└── pricing-agent-v2 $2,150/mo
Сразу видно: переход на Mistral-7B сэкономит $7K (92%)
Превентивный контроль:
- Блокируете запуск Llama-70B для HR-агентов через glob-правила
- Настраиваете алерты при достижении 80% бюджета
Где это не панацея
Такой подход не заменяет LangSmith для:
- Трассировки reasoning chains
- Сравнения версий промптов
- Оценки качества ответов
Но дает то, чего нет в observability-тулзах — финансовый контроль на уровне инфраструктуры.
Как попробовать
Решение открыто под MIT:
pip install git+https://github.com/VibOpsai/vibops-mcp.git
Или через Claude Code:
claude mcp add vibops vibops-mcp \
-e VIBOPS_URL=https://your-instance \
-e VIBOPS_TOKEN=your-token
Для тех, кто устал объяснять финансистам, почему “в этом месяце опять дорого” — это must-have инструмент. Особенно когда агентов больше 10 и они крутятся на разных моделях.
Источник: https://dev.to/david_amara_e9b61428737e0/per-agent-gpu-cost-what-langsmith-cant-tell-you-52fo