• Разработка

Правильное заполнение robots.txt в 2026 году: настройка файла для управления индексацией

Файл robots.txt — это текстовый документ, размещенный в корневом каталоге сайта. Он сообщает поисковым краулерам правила обхода и доступа к разделам ресурса через директивы User-agent, Disallow и Allow.

Технические требования:

  • Доступен по адресу: https://example.com/robots.txt.
  • Кодировка: UTF-8 без BOM.
  • Имя файла: только строчными буквами.
  • Объем: до 500 KiB (все, что выше, краулеры могут игнорировать).

Важное уточнение: robots.txt управляет краулингом, но не гарантирует исключение страниц из индекса. Если на заблокированную страницу ведут внешние ссылки, она может появиться в выдаче. Для надежного удаления из индекса используйте тег noindex, заголовок X-Robots-Tag или HTTP-коды 401/403/404.

Основные директивы и параметры

User-agent Указывает, к каким ботам применяется группа правил. Можно обращаться ко всем сразу (*) или к конкретным. Каждая группа правил описывается до следующей строки User-agent. Комментарии начинаются с символа #.

Disallow и Allow

  • Disallow: Запрещает доступ к заданному пути. Чувствителен к регистру. Запись Disallow: / закрывает весь сайт.
  • Allow: Разрешает доступ к путям внутри запрещенных директорий.
  • Специфичность: Google и Bing применяют правило более длинного совпадения. Если Allow длиннее Disallow, робот выберет Allow.

Спецсимволы и параметры:

  • * (wildcard): Любая последовательность символов. Пример: Disallow: /*?utm_.
  • $ (конец строки): Обозначает точное окончание пути. Пример: Disallow: /*.pdf$.
  • Clean-param (для Яндекса): Используется для нормализации URL с параметрами (сортировки, фильтры).

Область действия

Файл действует строго в пределах одного протокола (http или https), одного хоста и одного порта.

  • https://example.com/robots.txt не управляет роботами на https://www.example.com или поддомене shop.example.com.
  • Для каждого поддомена необходимо создавать отдельный файл robots.txt.
  • Для склейки зеркал используйте 301-редиректы на уровне сервера.

Пошаговый процесс внедрения

  1. Сбор данных: Подготовьте список всех URL (из карты сайта, логов сервера и CMS).
  2. Сегментация: Выделите страницы, которые нужно закрыть (админки, корзины, поиск, фильтры).
  3. Создание: Сформируйте черновик. Укажите путь к Sitemap в конце файла вне групп User-agent.
  4. Валидация: Проверьте файл в Google Search Console и Яндекс.Вебмастере.
  5. Эмуляция: Запустите обход через Screaming Frog под разными User-agent.
  6. Деплой: Загрузите файл в корень сайта и убедитесь, что сервер отдает код 200 OK.

Мониторинг: Следите за логами и панелями вебмастеров в течение 14 дней.

Блокировка ИИ-ботов

В 2026 году актуально закрывать контент от краулеров нейросетей. Это делается через стандартную директиву Disallow для конкретных User-agent. Однако robots.txt — публичный файл. Для серьезной защиты данных используйте серверные правила и ограничение частоты запросов.

Типичные ошибки и их решение

  • Размещение: Файл не в корне или отдает 404 — сайт открыт для всех.
  • Блокировка CSS/JS: Препятствует рендерингу. Всегда разрешайте доступ к ресурсам, влияющим на отображение.
  • Конфликт с Sitemap: Если в карте сайта есть URL, запрещенные в robots.txt, вебмастера выдадут предупреждение.
  • Регистр путей: Указывайте пути в точном соответствии с тем, как они отдаются сервером.
  • Noindex в файле: Директива noindex внутри robots.txt больше не поддерживается Google.

Готовые шаблоны для CMS

WordPress / WooCommerce:

Plaintext

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /?s=

Disallow: /search/

Allow: /wp-admin/admin-ajax.php

Allow: /wp-content/uploads/

Sitemap: https://example.com/sitemap_index.xml

1C-Bitrix:

Plaintext

User-agent: *

Disallow: /bitrix/

Disallow: /personal/

Disallow: /*?action=

Allow: /bitrix/js/

Sitemap: https://example.com/sitemap.xml

Кириллица (IDN домены): Для путей используйте percent-encoding (например, /корзина -> /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0). Для самих доменов в строке Sitemap используйте Punycode (например, xn--…).

Заключение и чек-лист

Robots.txt — это регулятор нагрузки и бюджета обхода. Он помогает поисковику тратить ресурсы на то, что приносит прибыль.

Полезные инструменты:

Для эффективной настройки и контроля файла robots.txt в 2026 году специалисты используют стек проверенных инструментов. 

Основную диагностику рекомендуется проводить в панелях для вебмастеров: Google Search Console предоставляет специализированный инструмент проверки, позволяющий в реальном времени протестировать доступность конкретных URL, а Яндекс Вебмастер предлагает глубокий анализ синтаксиса, учитывающий уникальные директивы вроде Clean-param.

Для проверки соответствия файла международным стандартам незаменим ресурс robotstxt.com, работающий на базе актуальной спецификации RFC 9309. Если же требуется провести массовый аудит сайта и эмулировать поведение различных роботов на тысячах страниц, лучшим решением остается Screaming Frog SEO Spider.

Итоговый чек-лист:

  • Файл в корне, имя строчными буквами, кодировка UTF-8.
  • Размер менее 500 KiB.
  • CSS, JS и важные изображения открыты.
  • Sitemap указан в конце файла.
  • Изменения протестированы в Google Search Console и Яндекс Вебмастере.
  • Настроены отдельные правила для Googlebot, Yandex и ИИ-ботов (при необходимости).

Правильная конфигурация robots.txt — это фундамент технического здоровья сайта, который гарантирует, что ресурсы поисковых систем будут расходоваться на индексацию действительно важных страниц. Регулярный аудит с помощью этих инструментов позволит избежать досадных ошибок и обеспечит вашему проекту стабильную видимость в условиях постоянно меняющихся алгоритмов.

Хотите узнать, как попасть в топ и кратно увеличить (х10, х20) количество заявок с сайта?
Тройной удар по ОП: увеличиваем позиции, трафик и продажи

    В прошлом году наши клиенты получили 107 650 заявок из Яндекс и Google через SEO

    Получите рекомендации по росту трафика, конверсии и количеству лидов