- Регистрация
- 23 Авг 2023
- Сообщения
- 4,163
- Реакции
- 0
- Баллы
- 36
Ofline
LLM.txt. Нужен или нет? Польза или вред?
Ноль. Именно столько раз GPTBot, ClaudeBot и PerplexityBot обратились к файлу llms.txt на тысяче доменов за месяц. Не «мало». Не «редко». Ноль. Эти цифры – не из теоретической статьи, а из аудита CDN-логов, который провёл Флавио Лонгато, LLM Optimization / SEO Strategist в Adobe. И они рушат красивую историю о «новом стандарте для AI-SEO».
Я Пётр Гришечкин, эксперт в области SEO. Последние 15 лет я проектирую системы кратного роста трафика для крупнейших сайтов. И последнее время пишу всякие околоSEO статьи – заходите в мой канал.
Сегодня разберём, стоит ли тратить время на llms.txt, что реально показывают серверные логи и куда направить усилия, чтобы AI-системы действительно видели ваш контент.
Что такое llms.txt и откуда он взялся
Что такое llms.txt и откуда он взялся
llms.txt – это предлагаемый (подчеркну: именно предлагаемый, а не принятый) стандарт. Файл в формате Markdown, который размещается в корне сайта по аналогии с robots.txt. Внутри – список важных страниц с кратким описанием каждой.
Идея проста: дать нейросетям «чистый» контент без HTML-мусора. Вместо того чтобы парсить сложную вёрстку с навигацией, сайдбарами, попапами и рекламой, LLM-бот получает аккуратный Markdown с указанием, что на сайте важно, а что – нет.
Автор концепции – Джереми Ховард из Answer.AI.
Вот как выглядит типичный llms.txt:
Код:
# Example Corp
> Краткое описание компании и сайта
## Docs
- [API Reference](https://example.com/docs/api): Полная документация REST API
- [Getting Started](https://example.com/docs/start): Руководство для новых пользователей
## Blog
- [Release Notes v3.0](https://example.com/blog/v3): Основные изменения в новой версии
Выглядит логично и аккуратно. Проблема только одна: никто из тех, для кого этот файл создан, его не читает.
Данные вместо гипотез: аудит 1000 доменов
Теория – это одно. Серверные логи – другое. Флавио Лонгато провёл аудит CDN-логов за 30 дней на 1000 доменах Adobe Experience Manager. Результаты, его же словами, – брутальные.
Сводная таблица обращений к llms.txt
Бот | Обращения к llms.txt | Комментарий |
|---|---|---|
GPTBot | 0 | Полное отсутствие |
ClaudeBot | 0 | Полное отсутствие |
PerplexityBot | 0 | Полное отсутствие |
Google Desktop Crawler | ~95% всех хитов | Google проверяет всё подряд, это не «поддержка» |
BingBot | 7 запросов | Только на одном домене из тысячи |
OpenAIBotSearch | 10 запросов | Минимальная активность |
SEO-инструменты (Semrush и др.) | Значительная доля | Не имеют отношения к LLM |
Разберём эти цифры детально, потому что дьявол – в интерпретации.
Google Desktop Crawler – 95% хитов
На первый взгляд может показаться: «Ого, Google активно использует llms.txt!» Нет. Google Desktop Crawler обходит всё, что находит на сайте. Каждый новый файл, каждый путь, каждый URL. Если вы положите в корень файл
banana.txt, Googlebot его тоже скачает. Это не поддержка стандарта – это стандартное поведение краулера.SEO-инструменты – заметная доля
Semrush, Ahrefs и аналогичные сервисы добавили проверку наличия llms.txt в свои аудиты. Логика понятна: если клиенты спрашивают – нужно показать галочку. Но это создаёт ложное впечатление, что файл «работает», хотя его проверяют не AI-системы, а инструменты для вебмастеров.
LLM-боты – ноль
Тысяча доменов. Тридцать дней. Ноль обращений от нейросетей. GPTBot – ноль. ClaudeBot – ноль. PerplexityBot – ноль.
Этого достаточно, чтобы перейти от хайпа к фактам.
Почему LLM-боты игнорируют llms.txt
Почему LLM-боты игнорируют llms.txt
Здесь важно понять техническую сторону. LLM-системы работают не так, как поисковые краулеры.
Как получают данные поисковые краулеры
Googlebot, BingBot и подобные обходят сайт по ссылкам, скачивают HTML, индексируют контент. Они уважают robots.txt, следуют sitemap.xml, проверяют новые файлы в корне. Это их работа – находить и каталогизировать всё.
Как получают данные LLM-системы
Большие языковые модели обучаются на массивных датасетах, собранных заранее. Common Crawl, лицензированные базы данных, партнёрские соглашения с издателями. Когда ChatGPT или Claude отвечают на вопрос, они не ходят в реальном времени на ваш сайт проверять llms.txt.
Есть исключения: Perplexity и поисковые режимы ChatGPT действительно обращаются к сайтам в момент генерации ответа. Но даже они используют стандартный HTML-парсинг, а не специализированный Markdown-файл.
Ни один крупный игрок не подтвердил поддержку
Ни OpenAI, ни Google, ни Anthropic, ни Яндекс не заявляли о поддержке llms.txt. Нет документации. Нет анонсов. Нет даже намёков в официальных гайдлайнах для вебмастеров.
Инженер Google в публичном обсуждении сравнил llms.txt с мета-тегом
keywordsтехнологией, которая когда-то казалась важной, но уже много лет полностью игнорируется поисковыми системами.Польза или вред? Честная оценка
Раз мы заявили этот вопрос в заголовке давайте ответим прямо.
Что llms.txt НЕ даёт
Не улучшает позиции в AI-ответах. Ни одна AI-система не использует этот файл для ранжирования.
Не заменяет Schema.org. Структурированные данные (микроразметка в формате JSON-LD) это проверенный инструмент. llms.txt нет.
Не ускоряет индексацию. LLM-ботам он не нужен, а для поисковых краулеров есть sitemap.xml.
Не решает проблему «грязного» HTML. Если ваш HTML плохой, лучше исправить HTML, а не создать параллельный файл.
Что llms.txt может дать (теоретически)
Минимальный вред. Файл не ломает ничего. Он просто лежит в корне. Если у вас есть CI/CD-пайплайн, генерирующий его автоматически, то накладные расходы близки к нулю.
Страховка на будущее. Возможно (только возможно), какие-то AI-системы начнут его поддерживать. Но строить стратегию на «возможно» это сомнительный ход.
Документация для себя. Иногда полезно иметь Markdown-карту ключевых страниц. Но для этого не нужен «стандарт».
Вердикт
llms.txt не вреден сам по себе. Он просто бесполезен. Время, потраченное на его создание и поддержку, лучше инвестировать в то, что реально работает.
Что реально влияет на AI-видимость сайта
Что реально влияет на AI-видимость сайта
Вместо очередного Markdown-файла в корне, есть конкретные задачи, которые напрямую влияют на то, как AI-системы воспринимают ваш контент.
Чистый семантический HTML
Это основа основ, но удивительно много сайтов до сих пор грешат div-супом.
Плохо:
Код:
<div class="article-wrapper">
<div class="title-block">
<div class="heading">Как настроить сервер</div>
</div>
<div class="content-block">
<div class="paragraph">Текст статьи...</div>
</div>
</div>
Хорошо:
Код:
<article>
<h1>Как настроить сервер</h1>
<p>Текст статьи...</p>
</article>
AI-системы (и поисковые, и генеративные) парсят HTML. Чем чище структура тем точнее интерпретация. Используйте
<article>, <section>, <nav>, <aside>, <header>, <footer>. Это не красота ради красоты – это семантическая разметка, которую машины понимают.Schema.org и JSON-LD
Структурированные данные – это то, что реально поддерживается Google, Bing и AI-системами, которые строят ответы на базе поисковых индексов.
Пример JSON-LD для технической статьи:
Ключевые типы Schema.org:
TechArticle – для технических гайдов и туториалов
HowTo – для пошаговых инструкций
FAQPage – для FAQ-блоков (Google активно использует для featured snippets и AI Overviews)
SoftwareApplication – для страниц продуктов
APIReference – для документации API
Мета-данные, которые AI-системы читают
Вот что стоит проверить на каждой странице:
Код:
<head>
<title>Точный, конкретный заголовок до 60 символов</title>
<meta name="description" content="Конкретное описание содержимого страницы, 140-180 символов">
<meta name="robots" content="index, follow">
<link rel="canonical" href="https://example.com/current-page">
</head>
Для работы с AI-ботами конкретно можно использовать robots meta-теги:
Код:
<!-- Разрешить или запретить использование контента для обучения AI -->
<meta name="robots" content="noai, noimageai">
Это реально поддерживается – Google задокументировал директивы для управления использованием контента AI-системами.
Работа с визуальным контентом – настоящее «слепое пятно»
Вот где действительно не хватает инструментов и стандартов. Картинки без alt-текстов, видео без описаний и транскриптов – это настоящий пробел для AI-систем.
Реальные задачи, которые ждут решения:
Семантические описания изображений. Не простоalt="фото", а полноценное описание:alt="Схема архитектуры микросервисов: API Gateway, три сервиса, Redis-кеш и PostgreSQL".
Транскрипция видео с временными метками. AI не смотрит видео. Если рядом с плеером нет текстовой версии контента – для нейросети этого контента не существует.
Связка визуального и текстового контента. Используйте<figure>и<figcaption>:
Код:
<figure>
<img src="architecture.svg"
alt="Схема архитектуры: запрос проходит через Nginx, попадает в Node.js-сервер, далее в Redis и PostgreSQL">
<figcaption>
Архитектура обработки запросов. Nginx выступает reverse proxy,
Node.js обрабатывает бизнес-логику, Redis кеширует частые запросы.
</figcaption>
</figure>
Это было бы по-настоящему полезно для AI-видимости. Не ещё один файл в корне сайта, а качественная работа с контентом, который уже есть.
Альтернативы llms.txt, о которых не говорят
Помимо базовых вещей (чистый HTML, Schema.org, alt-тексты) есть несколько подходов, которые обсуждаются значительно реже, чем модный llms.txt.
.well-known/llm.txt
Существует конвенция Well-Known URIs стандартизированные пути вида
/.well-known/ для размещения машиночитаемых файлов. Если уж и делать файл для LLM – логичнее было бы разместить его по пути /.well-known/llm.txt, как это сделано для security.txt (/.well-known/security.txt). Но пока это тоже лишь обсуждение.Кастомные HTTP-заголовки
Идея: передавать метаинформацию о странице прямо в HTTP-ответе через заголовки. Например:
Код:
X-Content-Summary: Руководство по настройке PostgreSQL для высоких нагрузок
X-Content-Type: tutorial
X-Content-Language: ru
Преимущество: не нужно парсить HTML, информация доступна сразу при первом запросе. Недостаток: ни один AI-бот это не поддерживает, и неясно, будет ли.
robots.txt + специфичные директивы для AI-ботов
Это уже работает. Вы можете управлять доступом AI-краулеров через robots.txt:
Код:
User-agent: GPTBot
Allow: /docs/
Disallow: /private/
User-agent: ClaudeBot
Allow: /
Disallow: /admin/
User-agent: PerplexityBot
Allow: /blog/
Disallow: /drafts/
OpenAI, Anthropic и Perplexity официально документируют своих ботов и заявляют, что уважают robots.txt.
Sitemap.xml – уже готовый инструмент
Sitemap.xml делает ровно то, что обещает llms.txt: даёт машине список важных страниц с метаданными. При этом sitemap.xml это признанный стандарт, который поддерживают все поисковые системы и многие AI-краулеры.
Код:
<url>
<loc>https://example.com/docs/api</loc>
<lastmod>2025-06-01</lastmod>
<changefreq>weekly</changefreq>
<priority>0.9</priority>
</url>
Если вы хотите направить AI-ботов на важные страницы – начните с качественного sitemap.xml.
Почему все пишут про llms.txt, если он бесполезен
Почему все пишут про llms.txt, если он бесполезен
Этот вопрос стоит задать открыто. Вот три причины.
Первая: кликабельный заголовок. «Новый стандарт для AI-SEO» – это гарантированные просмотры. Тема на пике хайпа. GEO-продвижению (Generative Engine Optimization – оптимизация для генеративных поисковых систем) нет и года, а оно уже обросло домыслами.
Вторая: проще пересказать, чем проверить. Написать статью «Как создать llms.txt для вашего сайта» можно за час. Проанализировать CDN-логи на тысяче доменов – это недели работы. Большинство авторов выбирает первый вариант.
Третья: SEO-инструменты подливают масла в огонь. Когда Semrush или Screaming Frog добавляют проверку llms.txt в аудит, владельцы сайтов видят предупреждение «файл отсутствует» и бегут его создавать. Замкнутый круг: инструменты проверяют, потому что спрашивают → спрашивают, потому что инструменты проверяют.
Чеклист для разработчика
Вместо создания llms.txt, пройдитесь по этому списку. Каждый пункт имеет подтверждённое влияние на то, как AI-системы обрабатывают ваш контент.
Базовый уровень
[ ] HTML использует семантические теги:<article>,<section>,<nav>,<main>,<aside>
[ ] Заголовки выстроены иерархически: один<h1>, логичная вложенность<h2>→<h3>
[ ] У всех изображений есть осмысленныеalt-тексты (не «image1.jpg», а описание содержимого)
[ ] На каждой странице есть уникальный<title>и<meta description>
[ ] Установлен canonical URL на каждой странице
[ ] sitemap.xml актуален и включает все важные страницы
Продвинутый уровень
[ ] JSON-LD разметка для ключевых типов контента (Article, TechArticle, HowTo, FAQPage)
[ ] Видео сопровождается текстовым транскриптом на странице
[ ] robots.txt содержит правила для AI-ботов (GPTBot, ClaudeBot, PerplexityBot)
[ ] Скорость загрузки страницы в пределах «хорошо» по Core Web Vitals (быстрый сайт краулится чаще и полнее)
[ ] Хлебные крошки размечены через BreadcrumbList в JSON-LD
[ ] Internal linking (внутренняя перелинковка). Ключевые страницы доступны не дальше 3 кликов от главной
Уровень «опережая рынок»
[ ] Контент отвечает на конкретные вопросы (AI-системы предпочитают прямые ответы)
[ ] Используются структурированные списки и таблицы – их проще парсить, чем абзацы текста
[ ] Страница содержит авторскую информацию (имя, должность, ссылки на профили) – это работает на E-E-A-T
[ ] Мета-тегnoai/noimageaiвыставлен на страницах, которые вы не хотите видеть в AI-ответах
По опыту, прохождение базового уровня уже даёт заметный прирост в том, как AI-системы цитируют и представляют ваш контент. Продвинутый и «опережающий» уровни – это то, что отличает сайт, попадающий в AI-ответы, от сайта, который остаётся едва видимым.
Стоит ли всё-таки создать llms.txt?
Стоит ли всё-таки создать llms.txt?
Короткий ответ: если вам нечем заняться – создавайте. Вреда не будет.
Длинный ответ: из-за волны хайпа есть ненулевая вероятность, что кто-то из крупных AI-провайдеров начнёт поддерживать этот файл. Подготовить его несложно это 15–30 минут для типичного сайта. Но ставить на это стратегию AI-продвижения ошибка.
Если вы решили создать файл «на всякий случай», вот минимально разумный подход:
Генерируйте его автоматически из sitemap.xml или CMS
Не поддерживайте вручную – это первое, что устареет и забудется
Не тратьте на это больше часа
Не включайте в KPI и не отчитывайтесь перед руководством как за «AI-оптимизацию»
Вывод
llms.txt – идея, не подтверждённая данными. Аудит CDN-логов на тысяче доменов за 30 дней показал ноль обращений от LLM-ботов. Ни OpenAI, ни Google, ни Anthropic не заявляли о поддержке. Инженер Google прямо сравнил файл с мета-тегом keywords.
Файл не вреден, но и не полезен. Время, которое вы потратите на его создание и продвижение идеи внутри команды, лучше вложить в конкретные вещи:
Чистый семантический HTML
Schema.org через JSON-LD
Качественные alt-тексты и транскрипции
robots.txt с правилами для AI-ботов
Контент, отвечающий на конкретные вопросы
Больше разборов на стыке SEO и разработки – в моём канале.
FAQ
Может ли llms.txt навредить сайту, если его создать?
Нет. Файл полностью безопасен. Это обычный Markdown в корне сайта. Он не влияет на индексацию поисковыми системами, не конфликтует с robots.txt и не создаёт дублирования контента. Единственный «вред» – потраченное время, если вы занимаетесь им вместо реально полезных задач.
Как проверить, какие AI-боты заходят на мой сайт?
Проще всего – через серверные логи (access.log в Nginx или Apache). Ищите user-agent строки:
GPTBot, ClaudeBot, PerplexityBot, ChatGPT-User, Bytespider, CCBot. Если у вас CDN (Cloudflare, Fastly, CloudFront) – аналитика ботов часто доступна в панели управления. Некоторые WAF-системы тоже умеют фильтровать и считать запросы по типу бота.Если AI-продвижение (GEO) только появляется, не рано ли его игнорировать?
Игнорировать GEO не нужно. Нужно фокусироваться на том, что работает. Чистый HTML, качественная Schema.org-разметка, контент в формате «вопрос – прямой ответ» (Как faq в конце статьи) – всё это улучшает ваши шансы попасть в AI-ответы. Просто не путайте настоящую AI-оптимизацию с расхайпленным фуфлом.
Есть ли аналог llms.txt. но рабочий?
Ближайший аналог – это комбинация robots.txt (для управления AI-ботами) + sitemap.xml (для указания важных страниц) + JSON-LD (для передачи структурированных данных). Эта тройка покрывает все задачи, которые llms.txt пытается решить, и при этом имеет подтверждённую поддержку.