Что это
Объём обхода краулером (crawl budget) — это количество страниц сайта, которое поисковый робот (Googlebot или Яндекс.Бот) готов обойти за единицу времени. Формируется двумя факторами: лимитом сканирования (сколько запросов бот может делать без перегрузки сервера) и спросом на обход (насколько страницы полезны и актуальны с точки зрения поисковика). Чем эффективнее расходуется бюджет, тем быстрее новые и обновлённые страницы попадают в индекс.
Почему это важно для SEO
На небольших сайтах до 1 000 страниц вопрос бюджета обхода почти не стоит — боты всё равно обойдут весь сайт за пару дней. Но если у вас интернет-магазин с 50 000+ SKU, агрегатор или новостной портал, некорректный расход бюджета приводит к тому, что робот тратит квоту на дублирующиеся, параметрические и служебные URL, а приоритетные карточки товаров или свежие статьи неделями ждут индексации. Google прямо указывает в документации: сайты с «засорёнными» URL-пространствами получают меньший эффективный crawl budget.
Яндекс реагирует аналогично: низкий ИКС и высокая доля «мусорных» страниц снижают частоту визитов Яндекс.Бота. Если добавить, что Яндекс.Нейро и Google AI Overviews приоритизируют контент, регулярно переиндексируемый, потери от раздутого URL-пространства конвертируются в прямое выпадение из нейросетевых ответов.
Как проверить вручную
- Google Search Console → Настройки → Статистика сканирования. Смотрите график «Запросы сканирования в день» и раздел «Ответы по типам». Большая доля ответов 3xx, 4xx или
noindex-страниц — сигнал, что бот тратит квоту впустую.
- Яндекс.Вебмастер → Индексирование → Страницы в поиске vs Страницы на сайте. Если разрыв больше 20–30% без очевидной причины (закрытые разделы, личный кабинет), проблема, скорее всего, в нерациональном расходе бюджета.
- Screaming Frog → Mode: Spider → вкладка Response Codes. Запустите краулер, отфильтруйте
noindex,canonicalна внешний URL, параметрические дубли (?sort=,?page=,?utm_). В отчёте сравните количество уникальных индексируемых страниц с реальным объёмом сайта. Отдельно смотрите вкладку Directives — сколько страниц заблокировано в robots.txt, но всё равно обходится ботом (такие страницы пожирают бюджет, но Google не индексирует содержимое).
- Файл robots.txt + лог сервера. Выгрузите access-логи и отфильтруйте строки с
GooglebotилиYandexBot. Посчитайте соотношение запросов к полезным страницам vs мусорным URL. Это самый точный способ оценить реальный расход.
Как исправить
Шаг 1. Закройте мусорные URL в robots.txt
User-agent: *
Disallow: /search/
Disallow: /cart/
Disallow: /checkout/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?utm_Важно: не закрывайте URL, которые уже есть в индексе — сначала добейтесь их исключения, потом блокируйте.
Шаг 2. Настройте canonical для параметрических страниц
<link rel="canonical" href="https://example.ru/catalog/obuv/" />Шаг 3. Укажите `noindex` для пагинации (если страницы не несут самостоятельной ценности)
<meta name="robots" content="noindex, follow" />CMS-специфика:
- WordPress: плагин Yoast SEO → «Дополнительно» позволяет массово ставить noindex на архивы, теги, авторские страницы.
- Tilda: метатеги прописываются вручную в настройках каждой страницы; параметрические URL лучше блокировать через robots.txt на уровне хостинга.
- 1C-Bitrix: в модуле «Поиск» → «Настройки» отключите индексирование результатов поиска; в
.htaccessдобавьте редиректы с UTM на чистые URL. - Webflow: файл robots.txt доступен в настройках проекта → SEO; canonical прописывается через Page Settings каждой страницы.
Шаг 4. Актуализируйте sitemap.xml — включите только 200 OK + индексируемые страницы. Проверьте в PageSpeed Insights или через Google Search Console, нет ли в sitemap заблокированных URL.
Типичные ошибки
- Блокировка в robots.txt без удаления из sitemap. Бот видит URL в карте сайта, пытается зайти, получает блок — тратит бюджет на «холостой» запрос.
- Canonical ведёт на себя же, но страница закрыта в robots.txt. Google не может прочитать canonical на заблокированной странице и трактует её как уникальную.
- Пагинация полностью открыта без canonical или noindex. На сайте с 500 товарами может генерироваться 200+ страниц пагинации, каждая из которых обходится роботом вместо карточек.
- Использование `noindex` вместо блокировки в robots.txt для тяжёлых страниц. Бот всё равно скачивает страницу, тратит бюджет и пропускную способность сервера.
- Отсутствие мониторинга после изменений. После правок robots.txt или canonical нужно 2–4 недели следить за статистикой сканирования в GSC и Я.Вебмастере — без этого легко не заметить регресс.
Влияние на разные типы сайтов
Для интернет-магазинов объём обхода — критический параметр. Фасетная навигация, UTM-метки, страницы сортировки и фильтрации способны раздуть URL-пространство в 10–50 раз по сравнению с реальным числом товаров. В результате новые SKU индексируются с задержкой 2–4 недели вместо 1–3 дней, что напрямую теряет трафик на актуальный ассортимент.
Контентные сайты и SaaS страдают иначе: профили пользователей, теги, результаты внутреннего поиска, версии страниц с GET-параметрами. Лендинги и небольшие корпоративные сайты (до 200 страниц) с проблемой сталкиваются редко, но даже там стоит проверить, не утекает ли бюджет на дубли по www/без www или http/https.