Per-agent GPU cost: что LangSmith вам не покажет

Ваши AI-агенты работают. Приходит счет за GPU: $47K за месяц. CTO спрашивает: “Какой агент сколько съел?” Вы открываете LangSmith — там красивые графики по токенам, но ни слова о реальной стоимости в GPU-часах. Вот что не так с токен-центричным мониторингом и как это исправить.

Токены ≠ стоимость

Все инструменты observability — LangSmith, Arize, Helicone — считают одно и то же: prompt tokens, completion tokens, latency. Но токены — это прокси-метрика, которая не отражает реальных затрат:

1000 токенов на Llama-70B = 14x дороже, чем на Mistral-7B
Один агент может крутиться на дорогих H100 ($7/час), другой — на дешевых L4 ($0.80/час)
Ваши GPU резервируются 24/7, независимо от нагрузки

На практике это приводит к слепым зонам:

Нельзя сравнить агенты по реальной стоимости
Невозможно выставить жесткие бюджетные лимиты
Риск “сбежавшего” агента, который сожрет весь кластер

GPU-aware контроль

Мы развернули 50 агентов на собственном GPU-флоте и быстро осознали: нужен слой контроля на уровне инфраструктуры. Решение — легковесный прокси между агентами и LLM-бекендами (vLLM/Ollama/TGI), который:

Идентифицирует агентов по HTTP-заголовкам (без изменения кода):

X-VibOps-Agent-Id: pricing-agent-v2
X-VibOps-Team: supply-chain

Считает стоимость в GPU-часах, а не токенах:

Agent                   Model       GPU-hrs   Cost
supply-chain-optimizer  llama-70b   651h      $4,559
pricing-agent-v2        mistral-7b  181h      $218

Применяет политики:

# Бюджетный лимит
"Set $1,500/month limit on marketing-content-writer"

# Ограничение моделей
"RH agents can only use Mistral models"

Технически это работает через цепочку из 8 шагов с оверхедом <5ms, включая проверку бюджета, маршрутизацию и асинхронный логгинг в PostgreSQL.

Сценарии использования

Финансовый контроль:

Видите, что supply-chain-optimizer съедает 54% бюджета
Устанавливаете hard limit в $2K/месяц — при превышении агент получает 429

Миграция моделей:

llama-3.1-70b
├── supply-chain-optimizer   $4,559/mo
└── pricing-agent-v2         $2,150/mo

Сразу видно: переход на Mistral-7B сэкономит $7K (92%)

Превентивный контроль:

Блокируете запуск Llama-70B для HR-агентов через glob-правила
Настраиваете алерты при достижении 80% бюджета

Где это не панацея

Такой подход не заменяет LangSmith для:

Трассировки reasoning chains
Сравнения версий промптов
Оценки качества ответов

Но дает то, чего нет в observability-тулзах — финансовый контроль на уровне инфраструктуры.

Как попробовать

Решение открыто под MIT:

pip install git+https://github.com/VibOpsai/vibops-mcp.git

Или через Claude Code:

claude mcp add vibops vibops-mcp \
  -e VIBOPS_URL=https://your-instance \
  -e VIBOPS_TOKEN=your-token

Для тех, кто устал объяснять финансистам, почему “в этом месяце опять дорого” — это must-have инструмент. Особенно когда агентов больше 10 и они крутятся на разных моделях.

Источник: https://dev.to/david_amara_e9b61428737e0/per-agent-gpu-cost-what-langsmith-cant-tell-you-52fo