Что такое robots.txt
robots.txt — текстовый файл в корне сайта, который сообщает поисковым роботам, какие страницы можно индексировать, а какие нет.
Расположен по адресу: https://yoursite.com/robots.txt
Это первый файл, который проверяет любой бот при заходе на сайт. Ошибки в нём могут привести к полному выпадению сайта из индекса.
10 самых частых ошибок
1. Disallow: / — закрыт весь сайт
User-agent: *
Disallow: /Эта пара строк говорит «запретить всем ботам всё». Часто остаётся с момента разработки — когда сайт ещё не готов к публикации. После запуска забывают убрать.
Как проверить: открыть https://yoursite.com/robots.txt и посмотреть, нет ли Disallow: / без дополнительных правил.
Как починить: заменить на Disallow: (пустое значение = разрешено всё) или удалить эту строку.
2. Запрет CSS и JavaScript
Disallow: /css/
Disallow: /js/Раньше делалось «для безопасности», теперь — антипаттерн. Google и Яндекс должны видеть CSS и JS, чтобы понимать, как страница выглядит для пользователя. Без этого нет mobile-friendly оценки и страдают позиции.
Как починить: разрешить:
Allow: /css/
Allow: /js/3. Регистрозависимость
Disallow: /Admin/Если на сайте реальный путь /admin/ (с маленькой), правило не сработает. Поисковики чувствительны к регистру.
Как починить: прописать оба варианта или единый стандарт для всех URL сайта.
4. Нет директивы Sitemap
Многие забывают указать sitemap в robots.txt. Без этого поисковики могут не найти карту сайта.
Как починить: в конце файла добавить:
Sitemap: https://yoursite.com/sitemap.xml5. Запрет важных разделов «на всякий случай»
Disallow: /blog/?
Disallow: /search/Часто закрывают параметры (?) и поиск, но при этом ломают индексацию легитимных страниц с параметрами. Например, страница пагинации блога ?page=2 — её надо индексировать.
Как починить: прописывать точные правила:
Disallow: /search/
Disallow: /*?utm_*6. Дубли User-agent
User-agent: *
Disallow: /admin/
User-agent: *
Allow: /Когда правила для одного бота прописаны дважды, поведение непредсказуемо. Робот может читать только первый блок или объединить — зависит от поисковика.
Как починить: один блок на каждого User-agent.
7. Конфликт между Allow и Disallow
Disallow: /products/
Allow: /products/popular/Старые поисковики обрабатывали по приоритету «более длинного пути», новые — по порядку. Лучше избегать таких конфликтов вообще.
8. Кириллица в URL без percent-encoding
Disallow: /категория/Кириллица должна быть закодирована в URL (percent-encoding):
Disallow: /%D0%BA%D0%B0%D1%82%D0%B5%D0%B3%D0%BE%D1%80%D0%B8%D1%8F/Иначе правило не работает.
9. Файл лежит не в корне
robots.txt должен быть строго в корне домена: https://yoursite.com/robots.txt
Не в:
/static/robots.txt/seo/robots.txt/files/robots.txt
Если файл лежит не там, поисковик просто не найдёт правила и будет индексировать всё.
10. Disallow на /sitemap.xml
Disallow: /sitemap.xmlПарадокс: запретили sitemap, который сами потом указали в Sitemap-директиве. Сайт «дезориентирует» поисковика.
Как починить: удалить эту строку. Sitemap должен быть доступен для индексации.
Бонусные ошибки
Crawl-delay в чрезмерных значениях
Crawl-delay: 30Crawl-delay в 30 секунд замедляет индексацию настолько, что Google может потерять интерес к сайту. Норма: 0-2 секунды (или вообще не указывать).
Закрыт мобильный поддомен
User-agent: Googlebot-Mobile
Disallow: /m/Если у вас есть мобильная версия на поддомене — она тоже должна быть открыта для индексации (или сделана через адаптив).
Корректный пример robots.txt
User-agent: *
Disallow: /admin/
Disallow: /api/
Disallow: /*?utm_*
Disallow: /search/
User-agent: Yandex
Disallow: /admin/
Disallow: /api/
Disallow: /*?utm_*
Disallow: /search/
Clean-param: utm_source&utm_medium&utm_campaign
Sitemap: https://yoursite.com/sitemap.xmlЭто базовый шаблон под обычный сайт. Crawl-delay не указываем (по умолчанию = оптимально).
Чек-лист проверки
- [ ] Файл лежит в корне домена
- [ ] Нет
Disallow: /без других правил - [ ] CSS и JS не закрыты
- [ ] Sitemap указан в директиве Sitemap
- [ ] Crawl-delay не > 5
- [ ] Нет дублей User-agent
- [ ] Регистр URL правильный
- [ ] Кириллица закодирована
- [ ] robots.txt и Sitemap не запрещены друг для друга
Проверить можно через Я.Вебмастер → Инструменты → Проверка robots.txt и Google Search Console аналогично.
Итог
robots.txt — это 5 строк, которые могут или сэкономить вам миллионы рублей органического трафика, или закрыть весь сайт от поисковиков. Стоит проверить раз в полгода и сразу после любого редизайна / переезда.