AI LLM.txt – нужен или нет? Польза или вред? Разбор на реальных данных

AI

Команда форума
Редактор
Регистрация
23 Авг 2023
Сообщения
4,163
Реакции
0
Баллы
36
Ofline
LLM.txt. Нужен или нет? Польза или вред?

LLM.txt. Нужен или нет? Польза или вред?

Ноль. Именно столько раз GPTBot, ClaudeBot и PerplexityBot обратились к файлу llms.txt на тысяче доменов за месяц. Не «мало». Не «редко». Ноль. Эти цифры – не из теоретической статьи, а из аудита CDN-логов, который провёл Флавио Лонгато, LLM Optimization / SEO Strategist в Adobe. И они рушат красивую историю о «новом стандарте для AI-SEO».

Я Пётр Гришечкин, эксперт в области SEO. Последние 15 лет я проектирую системы кратного роста трафика для крупнейших сайтов. И последнее время пишу всякие околоSEO статьи – заходите в мой канал.

Сегодня разберём, стоит ли тратить время на llms.txt, что реально показывают серверные логи и куда направить усилия, чтобы AI-системы действительно видели ваш контент.

Что такое llms.txt и откуда он взялся​

Что такое llms.txt и откуда он взялся

Что такое llms.txt и откуда он взялся

llms.txt – это предлагаемый (подчеркну: именно предлагаемый, а не принятый) стандарт. Файл в формате Markdown, который размещается в корне сайта по аналогии с robots.txt. Внутри – список важных страниц с кратким описанием каждой.

Идея проста: дать нейросетям «чистый» контент без HTML-мусора. Вместо того чтобы парсить сложную вёрстку с навигацией, сайдбарами, попапами и рекламой, LLM-бот получает аккуратный Markdown с указанием, что на сайте важно, а что – нет.

Автор концепции – Джереми Ховард из Answer.AI.

Вот как выглядит типичный llms.txt:

Код:
# Example Corp

> Краткое описание компании и сайта

## Docs

- [API Reference](https://example.com/docs/api): Полная документация REST API
- [Getting Started](https://example.com/docs/start): Руководство для новых пользователей

## Blog

- [Release Notes v3.0](https://example.com/blog/v3): Основные изменения в новой версии

Выглядит логично и аккуратно. Проблема только одна: никто из тех, для кого этот файл создан, его не читает.

Данные вместо гипотез: аудит 1000 доменов​


Теория – это одно. Серверные логи – другое. Флавио Лонгато провёл аудит CDN-логов за 30 дней на 1000 доменах Adobe Experience Manager. Результаты, его же словами, – брутальные.

Сводная таблица обращений к llms.txt​


Бот​

Обращения к llms.txt​

Комментарий​

GPTBot​

0​

Полное отсутствие​

ClaudeBot​

0​

Полное отсутствие​

PerplexityBot​

0​

Полное отсутствие​

Google Desktop Crawler​

~95% всех хитов​

Google проверяет всё подряд, это не «поддержка»​

BingBot​

7 запросов​

Только на одном домене из тысячи​

OpenAIBotSearch​

10 запросов​

Минимальная активность​

SEO-инструменты (Semrush и др.)​

Значительная доля​

Не имеют отношения к LLM​

Разберём эти цифры детально, потому что дьявол – в интерпретации.

Google Desktop Crawler – 95% хитов​


На первый взгляд может показаться: «Ого, Google активно использует llms.txt!» Нет. Google Desktop Crawler обходит всё, что находит на сайте. Каждый новый файл, каждый путь, каждый URL. Если вы положите в корень файл banana.txt, Googlebot его тоже скачает. Это не поддержка стандарта – это стандартное поведение краулера.

SEO-инструменты – заметная доля​


Semrush, Ahrefs и аналогичные сервисы добавили проверку наличия llms.txt в свои аудиты. Логика понятна: если клиенты спрашивают – нужно показать галочку. Но это создаёт ложное впечатление, что файл «работает», хотя его проверяют не AI-системы, а инструменты для вебмастеров.

LLM-боты – ноль​


Тысяча доменов. Тридцать дней. Ноль обращений от нейросетей. GPTBot – ноль. ClaudeBot – ноль. PerplexityBot – ноль.

Этого достаточно, чтобы перейти от хайпа к фактам.

Почему LLM-боты игнорируют llms.txt​

Почему LLM-боты игнорируют llms.txt

Почему LLM-боты игнорируют llms.txt

Здесь важно понять техническую сторону. LLM-системы работают не так, как поисковые краулеры.

Как получают данные поисковые краулеры​


Googlebot, BingBot и подобные обходят сайт по ссылкам, скачивают HTML, индексируют контент. Они уважают robots.txt, следуют sitemap.xml, проверяют новые файлы в корне. Это их работа – находить и каталогизировать всё.

Как получают данные LLM-системы​


Большие языковые модели обучаются на массивных датасетах, собранных заранее. Common Crawl, лицензированные базы данных, партнёрские соглашения с издателями. Когда ChatGPT или Claude отвечают на вопрос, они не ходят в реальном времени на ваш сайт проверять llms.txt.

Есть исключения: Perplexity и поисковые режимы ChatGPT действительно обращаются к сайтам в момент генерации ответа. Но даже они используют стандартный HTML-парсинг, а не специализированный Markdown-файл.

Ни один крупный игрок не подтвердил поддержку​


Ни OpenAI, ни Google, ни Anthropic, ни Яндекс не заявляли о поддержке llms.txt. Нет документации. Нет анонсов. Нет даже намёков в официальных гайдлайнах для вебмастеров.

Инженер Google в публичном обсуждении сравнил llms.txt с мета-тегом keywordsтехнологией, которая когда-то казалась важной, но уже много лет полностью игнорируется поисковыми системами.

Польза или вред? Честная оценка​


Раз мы заявили этот вопрос в заголовке давайте ответим прямо.

Что llms.txt НЕ даёт​


  • Не улучшает позиции в AI-ответах. Ни одна AI-система не использует этот файл для ранжирования.


  • Не заменяет Schema.org. Структурированные данные (микроразметка в формате JSON-LD) это проверенный инструмент. llms.txt нет.


  • Не ускоряет индексацию. LLM-ботам он не нужен, а для поисковых краулеров есть sitemap.xml.


  • Не решает проблему «грязного» HTML. Если ваш HTML плохой, лучше исправить HTML, а не создать параллельный файл.

Что llms.txt может дать (теоретически)​


  • Минимальный вред. Файл не ломает ничего. Он просто лежит в корне. Если у вас есть CI/CD-пайплайн, генерирующий его автоматически, то накладные расходы близки к нулю.


  • Страховка на будущее. Возможно (только возможно), какие-то AI-системы начнут его поддерживать. Но строить стратегию на «возможно» это сомнительный ход.


  • Документация для себя. Иногда полезно иметь Markdown-карту ключевых страниц. Но для этого не нужен «стандарт».

Вердикт​


llms.txt не вреден сам по себе. Он просто бесполезен. Время, потраченное на его создание и поддержку, лучше инвестировать в то, что реально работает.

Что реально влияет на AI-видимость сайта​

Что реально влияет на AI-видимость сайта

Что реально влияет на AI-видимость сайта

Вместо очередного Markdown-файла в корне, есть конкретные задачи, которые напрямую влияют на то, как AI-системы воспринимают ваш контент.

Чистый семантический HTML​


Это основа основ, но удивительно много сайтов до сих пор грешат div-супом.

Плохо:

Код:
<div class="article-wrapper">
  <div class="title-block">
    <div class="heading">Как настроить сервер</div>
  </div>
  <div class="content-block">
    <div class="paragraph">Текст статьи...</div>
  </div>
</div>

Хорошо:

Код:
<article>
  <h1>Как настроить сервер</h1>
  <p>Текст статьи...</p>
</article>

AI-системы (и поисковые, и генеративные) парсят HTML. Чем чище структура тем точнее интерпретация. Используйте <article>, <section>, <nav>, <aside>, <header>, <footer>. Это не красота ради красоты – это семантическая разметка, которую машины понимают.

Schema.org и JSON-LD​


Структурированные данные – это то, что реально поддерживается Google, Bing и AI-системами, которые строят ответы на базе поисковых индексов.

Пример JSON-LD для технической статьи:

Ключевые типы Schema.org:


  • TechArticle – для технических гайдов и туториалов


  • HowTo – для пошаговых инструкций


  • FAQPage – для FAQ-блоков (Google активно использует для featured snippets и AI Overviews)


  • SoftwareApplication – для страниц продуктов


  • APIReference – для документации API

Мета-данные, которые AI-системы читают​


Вот что стоит проверить на каждой странице:

Код:
<head>
  <title>Точный, конкретный заголовок до 60 символов</title>
  <meta name="description" content="Конкретное описание содержимого страницы, 140-180 символов">
  <meta name="robots" content="index, follow">
  <link rel="canonical" href="https://example.com/current-page">
</head>

Для работы с AI-ботами конкретно можно использовать robots meta-теги:

Код:
<!-- Разрешить или запретить использование контента для обучения AI -->
<meta name="robots" content="noai, noimageai">

Это реально поддерживается – Google задокументировал директивы для управления использованием контента AI-системами.

Работа с визуальным контентом – настоящее «слепое пятно»​


Вот где действительно не хватает инструментов и стандартов. Картинки без alt-текстов, видео без описаний и транскриптов – это настоящий пробел для AI-систем.

Реальные задачи, которые ждут решения:


  1. Семантические описания изображений. Не просто alt="фото", а полноценное описание: alt="Схема архитектуры микросервисов: API Gateway, три сервиса, Redis-кеш и PostgreSQL".


  2. Транскрипция видео с временными метками. AI не смотрит видео. Если рядом с плеером нет текстовой версии контента – для нейросети этого контента не существует.


  3. Связка визуального и текстового контента. Используйте <figure> и <figcaption>:

Код:
<figure>
  <img src="architecture.svg"
       alt="Схема архитектуры: запрос проходит через Nginx, попадает в Node.js-сервер, далее в Redis и PostgreSQL">
  <figcaption>
    Архитектура обработки запросов. Nginx выступает reverse proxy,
    Node.js обрабатывает бизнес-логику, Redis кеширует частые запросы.
  </figcaption>
</figure>

Это было бы по-настоящему полезно для AI-видимости. Не ещё один файл в корне сайта, а качественная работа с контентом, который уже есть.

Альтернативы llms.txt, о которых не говорят​


Помимо базовых вещей (чистый HTML, Schema.org, alt-тексты) есть несколько подходов, которые обсуждаются значительно реже, чем модный llms.txt.

.well-known/llm.txt​


Существует конвенция Well-Known URIs стандартизированные пути вида /.well-known/ для размещения машиночитаемых файлов. Если уж и делать файл для LLM – логичнее было бы разместить его по пути /.well-known/llm.txt, как это сделано для security.txt (/.well-known/security.txt). Но пока это тоже лишь обсуждение.

Кастомные HTTP-заголовки​


Идея: передавать метаинформацию о странице прямо в HTTP-ответе через заголовки. Например:

Код:
X-Content-Summary: Руководство по настройке PostgreSQL для высоких нагрузок
X-Content-Type: tutorial
X-Content-Language: ru

Преимущество: не нужно парсить HTML, информация доступна сразу при первом запросе. Недостаток: ни один AI-бот это не поддерживает, и неясно, будет ли.

robots.txt + специфичные директивы для AI-ботов​


Это уже работает. Вы можете управлять доступом AI-краулеров через robots.txt:

Код:
User-agent: GPTBot
Allow: /docs/
Disallow: /private/

User-agent: ClaudeBot
Allow: /
Disallow: /admin/

User-agent: PerplexityBot
Allow: /blog/
Disallow: /drafts/

OpenAI, Anthropic и Perplexity официально документируют своих ботов и заявляют, что уважают robots.txt.

Sitemap.xml – уже готовый инструмент​


Sitemap.xml делает ровно то, что обещает llms.txt: даёт машине список важных страниц с метаданными. При этом sitemap.xml это признанный стандарт, который поддерживают все поисковые системы и многие AI-краулеры.

Код:
<url>
  <loc>https://example.com/docs/api</loc>
  <lastmod>2025-06-01</lastmod>
  <changefreq>weekly</changefreq>
  <priority>0.9</priority>
</url>

Если вы хотите направить AI-ботов на важные страницы – начните с качественного sitemap.xml.

Почему все пишут про llms.txt, если он бесполезен​

Почему все пишут про llms.txt, если он бесполезен

Почему все пишут про llms.txt, если он бесполезен

Этот вопрос стоит задать открыто. Вот три причины.

Первая: кликабельный заголовок. «Новый стандарт для AI-SEO» – это гарантированные просмотры. Тема на пике хайпа. GEO-продвижению (Generative Engine Optimization – оптимизация для генеративных поисковых систем) нет и года, а оно уже обросло домыслами.

Вторая: проще пересказать, чем проверить. Написать статью «Как создать llms.txt для вашего сайта» можно за час. Проанализировать CDN-логи на тысяче доменов – это недели работы. Большинство авторов выбирает первый вариант.

Третья: SEO-инструменты подливают масла в огонь. Когда Semrush или Screaming Frog добавляют проверку llms.txt в аудит, владельцы сайтов видят предупреждение «файл отсутствует» и бегут его создавать. Замкнутый круг: инструменты проверяют, потому что спрашивают → спрашивают, потому что инструменты проверяют.

Чеклист для разработчика​


Вместо создания llms.txt, пройдитесь по этому списку. Каждый пункт имеет подтверждённое влияние на то, как AI-системы обрабатывают ваш контент.

Базовый уровень​


  • [ ] HTML использует семантические теги: <article>, <section>, <nav>, <main>, <aside>


  • [ ] Заголовки выстроены иерархически: один <h1>, логичная вложенность <h2><h3>


  • [ ] У всех изображений есть осмысленные alt-тексты (не «image1.jpg», а описание содержимого)


  • [ ] На каждой странице есть уникальный <title> и <meta description>


  • [ ] Установлен canonical URL на каждой странице


  • [ ] sitemap.xml актуален и включает все важные страницы

Продвинутый уровень​


  • [ ] JSON-LD разметка для ключевых типов контента (Article, TechArticle, HowTo, FAQPage)


  • [ ] Видео сопровождается текстовым транскриптом на странице


  • [ ] robots.txt содержит правила для AI-ботов (GPTBot, ClaudeBot, PerplexityBot)


  • [ ] Скорость загрузки страницы в пределах «хорошо» по Core Web Vitals (быстрый сайт краулится чаще и полнее)


  • [ ] Хлебные крошки размечены через BreadcrumbList в JSON-LD


  • [ ] Internal linking (внутренняя перелинковка). Ключевые страницы доступны не дальше 3 кликов от главной

Уровень «опережая рынок»​


  • [ ] Контент отвечает на конкретные вопросы (AI-системы предпочитают прямые ответы)


  • [ ] Используются структурированные списки и таблицы – их проще парсить, чем абзацы текста


  • [ ] Страница содержит авторскую информацию (имя, должность, ссылки на профили) – это работает на E-E-A-T


  • [ ] Мета-тег noai / noimageai выставлен на страницах, которые вы не хотите видеть в AI-ответах

По опыту, прохождение базового уровня уже даёт заметный прирост в том, как AI-системы цитируют и представляют ваш контент. Продвинутый и «опережающий» уровни – это то, что отличает сайт, попадающий в AI-ответы, от сайта, который остаётся едва видимым.

Стоит ли всё-таки создать llms.txt?​

Стоит ли всё-таки создать llms.txt?

Стоит ли всё-таки создать llms.txt?

Короткий ответ: если вам нечем заняться – создавайте. Вреда не будет.

Длинный ответ: из-за волны хайпа есть ненулевая вероятность, что кто-то из крупных AI-провайдеров начнёт поддерживать этот файл. Подготовить его несложно это 15–30 минут для типичного сайта. Но ставить на это стратегию AI-продвижения ошибка.

Если вы решили создать файл «на всякий случай», вот минимально разумный подход:


  1. Генерируйте его автоматически из sitemap.xml или CMS


  2. Не поддерживайте вручную – это первое, что устареет и забудется


  3. Не тратьте на это больше часа


  4. Не включайте в KPI и не отчитывайтесь перед руководством как за «AI-оптимизацию»

Вывод​


llms.txt – идея, не подтверждённая данными. Аудит CDN-логов на тысяче доменов за 30 дней показал ноль обращений от LLM-ботов. Ни OpenAI, ни Google, ни Anthropic не заявляли о поддержке. Инженер Google прямо сравнил файл с мета-тегом keywords.

Файл не вреден, но и не полезен. Время, которое вы потратите на его создание и продвижение идеи внутри команды, лучше вложить в конкретные вещи:


  • Чистый семантический HTML


  • Schema.org через JSON-LD


  • Качественные alt-тексты и транскрипции


  • robots.txt с правилами для AI-ботов


  • Контент, отвечающий на конкретные вопросы

Больше разборов на стыке SEO и разработки – в моём канале.

FAQ​


Может ли llms.txt навредить сайту, если его создать?

Нет. Файл полностью безопасен. Это обычный Markdown в корне сайта. Он не влияет на индексацию поисковыми системами, не конфликтует с robots.txt и не создаёт дублирования контента. Единственный «вред» – потраченное время, если вы занимаетесь им вместо реально полезных задач.

Как проверить, какие AI-боты заходят на мой сайт?

Проще всего – через серверные логи (access.log в Nginx или Apache). Ищите user-agent строки: GPTBot, ClaudeBot, PerplexityBot, ChatGPT-User, Bytespider, CCBot. Если у вас CDN (Cloudflare, Fastly, CloudFront) – аналитика ботов часто доступна в панели управления. Некоторые WAF-системы тоже умеют фильтровать и считать запросы по типу бота.

Если AI-продвижение (GEO) только появляется, не рано ли его игнорировать?

Игнорировать GEO не нужно. Нужно фокусироваться на том, что работает. Чистый HTML, качественная Schema.org-разметка, контент в формате «вопрос – прямой ответ» (Как faq в конце статьи) – всё это улучшает ваши шансы попасть в AI-ответы. Просто не путайте настоящую AI-оптимизацию с расхайпленным фуфлом.

Есть ли аналог llms.txt. но рабочий?

Ближайший аналог – это комбинация robots.txt (для управления AI-ботами) + sitemap.xml (для указания важных страниц) + JSON-LD (для передачи структурированных данных). Эта тройка покрывает все задачи, которые llms.txt пытается решить, и при этом имеет подтверждённую поддержку.
 
Назад
Сверху Снизу
Яндекс.Метрика Рейтинг@Mail.ru