Per-agent GPU cost: что LangSmith вам не покажет

#ai-cost#llm-ops#gpu-optimization#finops

Ваши AI-агенты работают. Приходит счет за GPU: $47K за месяц. CTO спрашивает: “Какой агент сколько съел?” Вы открываете LangSmith — там красивые графики по токенам, но ни слова о реальной стоимости в GPU-часах. Вот что не так с токен-центричным мониторингом и как это исправить.

Токены ≠ стоимость

Все инструменты observability — LangSmith, Arize, Helicone — считают одно и то же: prompt tokens, completion tokens, latency. Но токены — это прокси-метрика, которая не отражает реальных затрат:

На практике это приводит к слепым зонам:

GPU-aware контроль

Мы развернули 50 агентов на собственном GPU-флоте и быстро осознали: нужен слой контроля на уровне инфраструктуры. Решение — легковесный прокси между агентами и LLM-бекендами (vLLM/Ollama/TGI), который:

  1. Идентифицирует агентов по HTTP-заголовкам (без изменения кода):
X-VibOps-Agent-Id: pricing-agent-v2
X-VibOps-Team: supply-chain
  1. Считает стоимость в GPU-часах, а не токенах:
Agent                   Model       GPU-hrs   Cost
supply-chain-optimizer  llama-70b   651h      $4,559
pricing-agent-v2        mistral-7b  181h      $218
  1. Применяет политики:
# Бюджетный лимит
"Set $1,500/month limit on marketing-content-writer"

# Ограничение моделей
"RH agents can only use Mistral models"

Технически это работает через цепочку из 8 шагов с оверхедом <5ms, включая проверку бюджета, маршрутизацию и асинхронный логгинг в PostgreSQL.

Сценарии использования

Финансовый контроль:

Миграция моделей:

llama-3.1-70b
├── supply-chain-optimizer   $4,559/mo
└── pricing-agent-v2         $2,150/mo

Сразу видно: переход на Mistral-7B сэкономит $7K (92%)

Превентивный контроль:

Где это не панацея

Такой подход не заменяет LangSmith для:

Но дает то, чего нет в observability-тулзах — финансовый контроль на уровне инфраструктуры.

Как попробовать

Решение открыто под MIT:

pip install git+https://github.com/VibOpsai/vibops-mcp.git

Или через Claude Code:

claude mcp add vibops vibops-mcp \
  -e VIBOPS_URL=https://your-instance \
  -e VIBOPS_TOKEN=your-token

Для тех, кто устал объяснять финансистам, почему “в этом месяце опять дорого” — это must-have инструмент. Особенно когда агентов больше 10 и они крутятся на разных моделях.


Источник: https://dev.to/david_amara_e9b61428737e0/per-agent-gpu-cost-what-langsmith-cant-tell-you-52fo