Файл robots.txt — это текстовый документ, размещенный в корневом каталоге сайта. Он сообщает поисковым краулерам правила обхода и доступа к разделам ресурса через директивы User-agent, Disallow и Allow.
Технические требования:
- Доступен по адресу: https://example.com/robots.txt.
- Кодировка: UTF-8 без BOM.
- Имя файла: только строчными буквами.
- Объем: до 500 KiB (все, что выше, краулеры могут игнорировать).
Важное уточнение: robots.txt управляет краулингом, но не гарантирует исключение страниц из индекса. Если на заблокированную страницу ведут внешние ссылки, она может появиться в выдаче. Для надежного удаления из индекса используйте тег noindex, заголовок X-Robots-Tag или HTTP-коды 401/403/404.
Основные директивы и параметры
User-agent Указывает, к каким ботам применяется группа правил. Можно обращаться ко всем сразу (*) или к конкретным. Каждая группа правил описывается до следующей строки User-agent. Комментарии начинаются с символа #.
Disallow и Allow
- Disallow: Запрещает доступ к заданному пути. Чувствителен к регистру. Запись Disallow: / закрывает весь сайт.
- Allow: Разрешает доступ к путям внутри запрещенных директорий.
- Специфичность: Google и Bing применяют правило более длинного совпадения. Если Allow длиннее Disallow, робот выберет Allow.
Спецсимволы и параметры:
- * (wildcard): Любая последовательность символов. Пример: Disallow: /*?utm_.
- $ (конец строки): Обозначает точное окончание пути. Пример: Disallow: /*.pdf$.
- Clean-param (для Яндекса): Используется для нормализации URL с параметрами (сортировки, фильтры).
Область действия
Файл действует строго в пределах одного протокола (http или https), одного хоста и одного порта.
- https://example.com/robots.txt не управляет роботами на https://www.example.com или поддомене shop.example.com.
- Для каждого поддомена необходимо создавать отдельный файл robots.txt.
- Для склейки зеркал используйте 301-редиректы на уровне сервера.
Пошаговый процесс внедрения
- Сбор данных: Подготовьте список всех URL (из карты сайта, логов сервера и CMS).
- Сегментация: Выделите страницы, которые нужно закрыть (админки, корзины, поиск, фильтры).
- Создание: Сформируйте черновик. Укажите путь к Sitemap в конце файла вне групп User-agent.
- Валидация: Проверьте файл в Google Search Console и Яндекс.Вебмастере.
- Эмуляция: Запустите обход через Screaming Frog под разными User-agent.
- Деплой: Загрузите файл в корень сайта и убедитесь, что сервер отдает код 200 OK.
Мониторинг: Следите за логами и панелями вебмастеров в течение 14 дней.

Блокировка ИИ-ботов
В 2026 году актуально закрывать контент от краулеров нейросетей. Это делается через стандартную директиву Disallow для конкретных User-agent. Однако robots.txt — публичный файл. Для серьезной защиты данных используйте серверные правила и ограничение частоты запросов.
Типичные ошибки и их решение
- Размещение: Файл не в корне или отдает 404 — сайт открыт для всех.
- Блокировка CSS/JS: Препятствует рендерингу. Всегда разрешайте доступ к ресурсам, влияющим на отображение.
- Конфликт с Sitemap: Если в карте сайта есть URL, запрещенные в robots.txt, вебмастера выдадут предупреждение.
- Регистр путей: Указывайте пути в точном соответствии с тем, как они отдаются сервером.
- Noindex в файле: Директива noindex внутри robots.txt больше не поддерживается Google.
Готовые шаблоны для CMS
WordPress / WooCommerce:
Plaintext
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /?s=
Disallow: /search/
Allow: /wp-admin/admin-ajax.php
Allow: /wp-content/uploads/
Sitemap: https://example.com/sitemap_index.xml
1C-Bitrix:
Plaintext
User-agent: *
Disallow: /bitrix/
Disallow: /personal/
Disallow: /*?action=
Allow: /bitrix/js/
Sitemap: https://example.com/sitemap.xml
Кириллица (IDN домены): Для путей используйте percent-encoding (например, /корзина -> /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0). Для самих доменов в строке Sitemap используйте Punycode (например, xn--…).
Заключение и чек-лист
Robots.txt — это регулятор нагрузки и бюджета обхода. Он помогает поисковику тратить ресурсы на то, что приносит прибыль.
Полезные инструменты:
Для эффективной настройки и контроля файла robots.txt в 2026 году специалисты используют стек проверенных инструментов.
Основную диагностику рекомендуется проводить в панелях для вебмастеров: Google Search Console предоставляет специализированный инструмент проверки, позволяющий в реальном времени протестировать доступность конкретных URL, а Яндекс Вебмастер предлагает глубокий анализ синтаксиса, учитывающий уникальные директивы вроде Clean-param.
Для проверки соответствия файла международным стандартам незаменим ресурс robotstxt.com, работающий на базе актуальной спецификации RFC 9309. Если же требуется провести массовый аудит сайта и эмулировать поведение различных роботов на тысячах страниц, лучшим решением остается Screaming Frog SEO Spider.
Итоговый чек-лист:
- Файл в корне, имя строчными буквами, кодировка UTF-8.
- Размер менее 500 KiB.
- CSS, JS и важные изображения открыты.
- Sitemap указан в конце файла.
- Изменения протестированы в Google Search Console и Яндекс Вебмастере.
- Настроены отдельные правила для Googlebot, Yandex и ИИ-ботов (при необходимости).
Правильная конфигурация robots.txt — это фундамент технического здоровья сайта, который гарантирует, что ресурсы поисковых систем будут расходоваться на индексацию действительно важных страниц. Регулярный аудит с помощью этих инструментов позволит избежать досадных ошибок и обеспечит вашему проекту стабильную видимость в условиях постоянно меняющихся алгоритмов.
