Ваш AI Agent больше не нуждается в Firecrawl

#ai#cloudflare#markdown#web-scraping

TL;DR: Cloudflare представила Markdown for Agents — технологию, которая позволяет AI-агентам получать контент в формате markdown напрямую с сайтов, минуя этап конвертации HTML. Это значительно упрощает архитектуру и снижает затраты на обработку данных.

Введение

С развитием AI-агентов, которые активно взаимодействуют с веб-контентом, возникла проблема эффективного извлечения и обработки данных. Традиционно для этого использовались инструменты вроде Firecrawl или Crawl4AI, которые конвертируют HTML в markdown. Однако такой подход имеет свои недостатки: высокие затраты на токены, сложность архитектуры и потенциальные ошибки конвертации. Cloudflare предлагает решение этой проблемы с помощью технологии Markdown for Agents.

Основная часть

Проблема текущего подхода

Текущий процесс работы AI-агента с веб-контентом выглядит следующим образом:

  1. Агент запрашивает HTML с сайта.
  2. Получает “суп” из тегов <div>, стилей и скриптов.
  3. Конвертирует HTML в markdown с помощью сторонних инструментов.
  4. Передает результат в LLM (Large Language Model).

Этот процесс не только затратен по ресурсам, но и чреват ошибками, особенно при сложной структуре сайта.

Решение от Cloudflare

Cloudflare предлагает более простой и эффективный способ получения контента. AI-агент отправляет запрос с заголовком Accept: text/markdown, и если сайт поддерживает эту технологию, то он возвращает контент в формате markdown напрямую.

Пример запроса:

curl https://example.com/some-page -H "Accept: text/markdown"

Преимущества Markdown for Agents

Практическое применение

Для интеграции Markdown for Agents в ваш AI-агент достаточно обновить логику запросов. Вот пример функции на TypeScript:

async function fetchContent(url: string): Promise<string> {
  const response = await fetch(url, {
    headers: { 'Accept': 'text/markdown, text/html;q=0.9' }
  });

  const contentType = response.headers.get('content-type');

  if (contentType?.includes('text/markdown')) {
    // Direct markdown — no conversion needed
    const tokens = response.headers.get('x-markdown-tokens');
    console.log(`Got markdown directly. Estimated tokens: ${tokens}`);
    return response.text();
  }

  // Fallback to your existing conversion pipeline
  return convertHtmlToMarkdown(await response.text());
}

Эта функция сначала пытается получить контент в markdown, а в случае неудачи использует традиционный метод конвертации HTML.

Заключение

Markdown for Agents от Cloudflare — это значительный шаг вперед в развитии AI-агентов. Технология не только упрощает процесс получения и обработки данных, но и снижает затраты на ресурсы. В ближайшем будущем использование markdown для взаимодействия с веб-контентом станет стандартом, что сделает AI-агентов более эффективными и доступными.

Если вы уже используете AI-агентов, обязательно попробуйте интегрировать Markdown for Agents в ваш стек. Это не только улучшит производительность, но и упростит вашу архитектуру.


Источник: https://dev.to/nicoeft/your-ai-agent-doesnt-need-firecrawl-anymore-3gio