#2 · Технические основы

Файл robots.txt существует

Что это, почему влияет на SEO, как проверить и исправить. Параметр #2из 150 в нашем чек-листе аудита.

Что это

Файл robots.txt — текстовый файл в корне домена, который сообщает поисковым роботам, какие страницы и разделы сайта можно сканировать, а какие — нет. Он доступен по URL вида https://example.com/robots.txt. Роботы Яндекса и Google обращаются к нему при каждом визите на сайт — до того, как начать обход страниц.

Почему это важно для SEO

Отсутствие файла robots.txt — не нейтральная ситуация. Яндекс.Бот и Googlebot при запросе несуществующего файла получают ответ 404, после чего считают, что ограничений нет, и сканируют сайт полностью. Звучит безобидно, но на практике это означает бесконтрольный краулинг: служебные страницы, дубли, корзины, фильтры, личные кабинеты — всё попадает в очередь на обработку. Краулинговый бюджет тратится на мусор вместо приоритетных страниц.

По данным аудитов реальных интернет-магазинов, до 30–40% сканируемых страниц без robots.txt — это дубли и служебные URL, которые никогда не должны были попасть в индекс. Для Яндекса это прямо влияет на ИКС: сайт с большой долей некачественных страниц в индексе получает меньший авторитет. Для Google это удар по Core Web Vitals в масштабе краулинга и лишняя нагрузка, которая мешает своевременной переиндексации важных страниц. Также Яндекс.Нейро и AI Overviews от Google при формировании ответов ориентируются на качество индексируемого контента — мусорные страницы снижают релевантность сайта как источника.

Как проверить вручную

  1. Прямой запрос в браузере. Перейди по адресу https://ваш-домен.ru/robots.txt. Если файл существует — увидишь текстовый контент с директивами. Если нет — страница 404 или редирект.
  1. Проверка через Яндекс.Вебмастер. Войди в кабинет, выбери сайт → раздел «Индексирование» → «Анализ robots.txt». Сервис покажет, видит ли файл Яндекс, и разберёт директивы построчно с пояснениями.
  1. Google Search Console. Инструмент проверки URL (Inspect URL) косвенно показывает, блокируется ли страница robots.txt. Для прямой проверки файла используй старый инструмент Google: https://www.google.com/webmasters/tools/robots-testing-tool — он пока работает для верификации.
  1. Screaming Frog. Запусти краулер → меню ModeList или стандартный обход. В колонке Robots.txt для каждой страницы будет указано, заблокирована она или нет. Если файл отсутствует — Screaming Frog сразу выведет предупреждение в разделе Reports → Directives.

Как исправить

Создай файл robots.txt в корне сайта. Минимально рабочая версия, которая открывает сайт для обоих роботов и указывает sitemap:

User-agent: *
Disallow:

Sitemap: https://example.com/sitemap.xml

Если нужно закрыть служебные разделы (типовой случай для интернет-магазина):

User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /search/
Disallow: /*?sort=
Disallow: /*?utm_

Sitemap: https://example.com/sitemap.xml

WordPress

Файл создаётся автоматически при включённой видимости для поисковиков. Проверь: Настройки → Чтение → убедись, что галка "Попросить поисковые системы не индексировать сайт" снята. Для ручного редактирования используй плагин Yoast SEO → Инструменты → Редактор файлов.

Tilda

Раздел Настройки сайта → SEO → robots.txt. Вставь содержимое напрямую в поле. Tilda разместит файл автоматически.

1C-Bitrix

Файл лежит физически в корне сервера: /var/www/html/robots.txt. Редактируй через FTP/SSH или через Настройки → Поисковая оптимизация → robots.txt в административной панели.

Webflow

Project Settings → SEO → Robot.txt — вставь директивы в текстовое поле и опубликуй проект.

Типичные ошибки

  • Файл есть, но закрывает весь сайт. Классика после разработки: Disallow: / в продакшене. Яндекс и Google перестают индексировать сайт, трафик падает до нуля. Проверяй после каждого деплоя.
  • Неправильный MIME-тип. Файл должен отдаваться как text/plain. Если сервер возвращает text/html, часть роботов игнорирует содержимое. Проверяй заголовки через curl -I https://example.com/robots.txt.
  • Файл на поддомене не создан. robots.txt нужен для каждого поддомена отдельно: blog.example.com/robots.txt — отдельный файл, не наследует корневой.
  • Закрыты CSS и JS. Директивы вида Disallow: *.js мешают Googlebot корректно рендерить страницы, что ломает оценку Core Web Vitals и внешнего вида в индексе.
  • Забытый `Sitemap`. Без строки Sitemap: роботы не получают подсказку о структуре сайта — приходится ждать, пока они сами найдут все страницы через ссылки.

Влияние на разные типы сайтов

Для интернет-магазинов наличие корректного robots.txt критично: тысячи URL с фильтрами, сортировками и параметрами UTM мгновенно раздувают индекс мусором. Без закрытия этих разделов краулинговый бюджет расходуется на параметрические дубли, а карточки товаров переиндексируются с задержкой в недели.

Для контентных сайтов и SaaS основная задача — закрыть личные кабинеты, API-эндпоинты и страницы пагинации с пустым контентом. Лендингам с 1–5 страницами robots.txt нужен как минимум для указания Sitemap и предотвращения индексации технических страниц (например, thank-you после формы, которая не несёт SEO-ценности).

Проверить этот параметр на вашем сайте

Бесплатно. Без регистрации. Проверим этот и ещё 49 параметров за 60 секунд.

Получить SEO-аудит →