robots.txtтехничкаиндексацияошибки

robots.txt: 10 ошибок, которые блокируют ваш сайт от поисковиков

Один лишний слэш в robots.txt — и весь ваш сайт выпадает из индекса. Разбор 10 ошибок, которые я регулярно встречаю на проектах клиентов.

Что такое robots.txt

robots.txt — текстовый файл в корне сайта, который сообщает поисковым роботам, какие страницы можно индексировать, а какие нет.

Расположен по адресу: https://yoursite.com/robots.txt

Это первый файл, который проверяет любой бот при заходе на сайт. Ошибки в нём могут привести к полному выпадению сайта из индекса.

10 самых частых ошибок

1. Disallow: / — закрыт весь сайт

User-agent: *
Disallow: /

Эта пара строк говорит «запретить всем ботам всё». Часто остаётся с момента разработки — когда сайт ещё не готов к публикации. После запуска забывают убрать.

Как проверить: открыть https://yoursite.com/robots.txt и посмотреть, нет ли Disallow: / без дополнительных правил.

Как починить: заменить на Disallow: (пустое значение = разрешено всё) или удалить эту строку.

2. Запрет CSS и JavaScript

Disallow: /css/
Disallow: /js/

Раньше делалось «для безопасности», теперь — антипаттерн. Google и Яндекс должны видеть CSS и JS, чтобы понимать, как страница выглядит для пользователя. Без этого нет mobile-friendly оценки и страдают позиции.

Как починить: разрешить:

Allow: /css/
Allow: /js/

3. Регистрозависимость

Disallow: /Admin/

Если на сайте реальный путь /admin/ (с маленькой), правило не сработает. Поисковики чувствительны к регистру.

Как починить: прописать оба варианта или единый стандарт для всех URL сайта.

4. Нет директивы Sitemap

Многие забывают указать sitemap в robots.txt. Без этого поисковики могут не найти карту сайта.

Как починить: в конце файла добавить:

Sitemap: https://yoursite.com/sitemap.xml

5. Запрет важных разделов «на всякий случай»

Disallow: /blog/?
Disallow: /search/

Часто закрывают параметры (?) и поиск, но при этом ломают индексацию легитимных страниц с параметрами. Например, страница пагинации блога ?page=2 — её надо индексировать.

Как починить: прописывать точные правила:

Disallow: /search/
Disallow: /*?utm_*

6. Дубли User-agent

User-agent: *
Disallow: /admin/

User-agent: *
Allow: /

Когда правила для одного бота прописаны дважды, поведение непредсказуемо. Робот может читать только первый блок или объединить — зависит от поисковика.

Как починить: один блок на каждого User-agent.

7. Конфликт между Allow и Disallow

Disallow: /products/
Allow: /products/popular/

Старые поисковики обрабатывали по приоритету «более длинного пути», новые — по порядку. Лучше избегать таких конфликтов вообще.

8. Кириллица в URL без percent-encoding

Disallow: /категория/

Кириллица должна быть закодирована в URL (percent-encoding):

Disallow: /%D0%BA%D0%B0%D1%82%D0%B5%D0%B3%D0%BE%D1%80%D0%B8%D1%8F/

Иначе правило не работает.

9. Файл лежит не в корне

robots.txt должен быть строго в корне домена: https://yoursite.com/robots.txt

Не в:

  • /static/robots.txt
  • /seo/robots.txt
  • /files/robots.txt

Если файл лежит не там, поисковик просто не найдёт правила и будет индексировать всё.

10. Disallow на /sitemap.xml

Disallow: /sitemap.xml

Парадокс: запретили sitemap, который сами потом указали в Sitemap-директиве. Сайт «дезориентирует» поисковика.

Как починить: удалить эту строку. Sitemap должен быть доступен для индексации.

Бонусные ошибки

Crawl-delay в чрезмерных значениях

Crawl-delay: 30

Crawl-delay в 30 секунд замедляет индексацию настолько, что Google может потерять интерес к сайту. Норма: 0-2 секунды (или вообще не указывать).

Закрыт мобильный поддомен

User-agent: Googlebot-Mobile
Disallow: /m/

Если у вас есть мобильная версия на поддомене — она тоже должна быть открыта для индексации (или сделана через адаптив).

Корректный пример robots.txt

User-agent: *
Disallow: /admin/
Disallow: /api/
Disallow: /*?utm_*
Disallow: /search/

User-agent: Yandex
Disallow: /admin/
Disallow: /api/
Disallow: /*?utm_*
Disallow: /search/
Clean-param: utm_source&utm_medium&utm_campaign

Sitemap: https://yoursite.com/sitemap.xml

Это базовый шаблон под обычный сайт. Crawl-delay не указываем (по умолчанию = оптимально).

Чек-лист проверки

  • [ ] Файл лежит в корне домена
  • [ ] Нет Disallow: / без других правил
  • [ ] CSS и JS не закрыты
  • [ ] Sitemap указан в директиве Sitemap
  • [ ] Crawl-delay не > 5
  • [ ] Нет дублей User-agent
  • [ ] Регистр URL правильный
  • [ ] Кириллица закодирована
  • [ ] robots.txt и Sitemap не запрещены друг для друга

Проверить можно через Я.Вебмастер → Инструменты → Проверка robots.txt и Google Search Console аналогично.

Итог

robots.txt — это 5 строк, которые могут или сэкономить вам миллионы рублей органического трафика, или закрыть весь сайт от поисковиков. Стоит проверить раз в полгода и сразу после любого редизайна / переезда.

Бесплатный SEO-аудит с проверкой robots.txt →

Получить SEO-аудит своего сайта

Бесплатно. Без регистрации. Топ-проблемы и план роста позиций за 60 секунд.

Проверить сайт →