TL;DR: Cloudflare представила Markdown for Agents — технологию, которая позволяет AI-агентам получать контент в формате markdown напрямую с сайтов, минуя этап конвертации HTML. Это значительно упрощает архитектуру и снижает затраты на обработку данных.
Введение
С развитием AI-агентов, которые активно взаимодействуют с веб-контентом, возникла проблема эффективного извлечения и обработки данных. Традиционно для этого использовались инструменты вроде Firecrawl или Crawl4AI, которые конвертируют HTML в markdown. Однако такой подход имеет свои недостатки: высокие затраты на токены, сложность архитектуры и потенциальные ошибки конвертации. Cloudflare предлагает решение этой проблемы с помощью технологии Markdown for Agents.
Основная часть
Проблема текущего подхода
Текущий процесс работы AI-агента с веб-контентом выглядит следующим образом:
- Агент запрашивает HTML с сайта.
- Получает “суп” из тегов
<div>, стилей и скриптов. - Конвертирует HTML в markdown с помощью сторонних инструментов.
- Передает результат в LLM (Large Language Model).
Этот процесс не только затратен по ресурсам, но и чреват ошибками, особенно при сложной структуре сайта.
Решение от Cloudflare
Cloudflare предлагает более простой и эффективный способ получения контента. AI-агент отправляет запрос с заголовком Accept: text/markdown, и если сайт поддерживает эту технологию, то он возвращает контент в формате markdown напрямую.
Пример запроса:
curl https://example.com/some-page -H "Accept: text/markdown"
Преимущества Markdown for Agents
- Снижение затрат на токены: Контент в markdown занимает значительно меньше токенов по сравнению с HTML. Например, страница продукта на Amazon сократилась с 896,000 до 8,000 токенов.
- Упрощение архитектуры: Исключение этапа конвертации HTML упрощает архитектуру агента и повышает его надежность.
- Скорость обработки: Прямое получение markdown ускоряет процесс обработки данных.
Практическое применение
Для интеграции Markdown for Agents в ваш AI-агент достаточно обновить логику запросов. Вот пример функции на TypeScript:
async function fetchContent(url: string): Promise<string> {
const response = await fetch(url, {
headers: { 'Accept': 'text/markdown, text/html;q=0.9' }
});
const contentType = response.headers.get('content-type');
if (contentType?.includes('text/markdown')) {
// Direct markdown — no conversion needed
const tokens = response.headers.get('x-markdown-tokens');
console.log(`Got markdown directly. Estimated tokens: ${tokens}`);
return response.text();
}
// Fallback to your existing conversion pipeline
return convertHtmlToMarkdown(await response.text());
}
Эта функция сначала пытается получить контент в markdown, а в случае неудачи использует традиционный метод конвертации HTML.
Заключение
Markdown for Agents от Cloudflare — это значительный шаг вперед в развитии AI-агентов. Технология не только упрощает процесс получения и обработки данных, но и снижает затраты на ресурсы. В ближайшем будущем использование markdown для взаимодействия с веб-контентом станет стандартом, что сделает AI-агентов более эффективными и доступными.
Если вы уже используете AI-агентов, обязательно попробуйте интегрировать Markdown for Agents в ваш стек. Это не только улучшит производительность, но и упростит вашу архитектуру.
Источник: https://dev.to/nicoeft/your-ai-agent-doesnt-need-firecrawl-anymore-3gio