#101 · Архитектура сайта

Объём обхода краулером

Что это, почему влияет на SEO, как проверить и исправить. Параметр #101из 150 в нашем чек-листе аудита.

Что это

Объём обхода краулером (crawl budget) — это количество страниц сайта, которое поисковый робот (Googlebot или Яндекс.Бот) готов обойти за единицу времени. Формируется двумя факторами: лимитом сканирования (сколько запросов бот может делать без перегрузки сервера) и спросом на обход (насколько страницы полезны и актуальны с точки зрения поисковика). Чем эффективнее расходуется бюджет, тем быстрее новые и обновлённые страницы попадают в индекс.

Почему это важно для SEO

На небольших сайтах до 1 000 страниц вопрос бюджета обхода почти не стоит — боты всё равно обойдут весь сайт за пару дней. Но если у вас интернет-магазин с 50 000+ SKU, агрегатор или новостной портал, некорректный расход бюджета приводит к тому, что робот тратит квоту на дублирующиеся, параметрические и служебные URL, а приоритетные карточки товаров или свежие статьи неделями ждут индексации. Google прямо указывает в документации: сайты с «засорёнными» URL-пространствами получают меньший эффективный crawl budget.

Яндекс реагирует аналогично: низкий ИКС и высокая доля «мусорных» страниц снижают частоту визитов Яндекс.Бота. Если добавить, что Яндекс.Нейро и Google AI Overviews приоритизируют контент, регулярно переиндексируемый, потери от раздутого URL-пространства конвертируются в прямое выпадение из нейросетевых ответов.

Как проверить вручную

  1. Google Search Console → Настройки → Статистика сканирования. Смотрите график «Запросы сканирования в день» и раздел «Ответы по типам». Большая доля ответов 3xx, 4xx или noindex-страниц — сигнал, что бот тратит квоту впустую.
  1. Яндекс.Вебмастер → Индексирование → Страницы в поиске vs Страницы на сайте. Если разрыв больше 20–30% без очевидной причины (закрытые разделы, личный кабинет), проблема, скорее всего, в нерациональном расходе бюджета.
  1. Screaming Frog → Mode: Spider → вкладка Response Codes. Запустите краулер, отфильтруйте noindex, canonical на внешний URL, параметрические дубли (?sort=, ?page=, ?utm_). В отчёте сравните количество уникальных индексируемых страниц с реальным объёмом сайта. Отдельно смотрите вкладку Directives — сколько страниц заблокировано в robots.txt, но всё равно обходится ботом (такие страницы пожирают бюджет, но Google не индексирует содержимое).
  1. Файл robots.txt + лог сервера. Выгрузите access-логи и отфильтруйте строки с Googlebot или YandexBot. Посчитайте соотношение запросов к полезным страницам vs мусорным URL. Это самый точный способ оценить реальный расход.

Как исправить

Шаг 1. Закройте мусорные URL в robots.txt

User-agent: *
Disallow: /search/
Disallow: /cart/
Disallow: /checkout/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?utm_

Важно: не закрывайте URL, которые уже есть в индексе — сначала добейтесь их исключения, потом блокируйте.

Шаг 2. Настройте canonical для параметрических страниц

<link rel="canonical" href="https://example.ru/catalog/obuv/" />

Шаг 3. Укажите `noindex` для пагинации (если страницы не несут самостоятельной ценности)

<meta name="robots" content="noindex, follow" />

CMS-специфика:

  • WordPress: плагин Yoast SEO → «Дополнительно» позволяет массово ставить noindex на архивы, теги, авторские страницы.
  • Tilda: метатеги прописываются вручную в настройках каждой страницы; параметрические URL лучше блокировать через robots.txt на уровне хостинга.
  • 1C-Bitrix: в модуле «Поиск» → «Настройки» отключите индексирование результатов поиска; в .htaccess добавьте редиректы с UTM на чистые URL.
  • Webflow: файл robots.txt доступен в настройках проекта → SEO; canonical прописывается через Page Settings каждой страницы.

Шаг 4. Актуализируйте sitemap.xml — включите только 200 OK + индексируемые страницы. Проверьте в PageSpeed Insights или через Google Search Console, нет ли в sitemap заблокированных URL.

Типичные ошибки

  • Блокировка в robots.txt без удаления из sitemap. Бот видит URL в карте сайта, пытается зайти, получает блок — тратит бюджет на «холостой» запрос.
  • Canonical ведёт на себя же, но страница закрыта в robots.txt. Google не может прочитать canonical на заблокированной странице и трактует её как уникальную.
  • Пагинация полностью открыта без canonical или noindex. На сайте с 500 товарами может генерироваться 200+ страниц пагинации, каждая из которых обходится роботом вместо карточек.
  • Использование `noindex` вместо блокировки в robots.txt для тяжёлых страниц. Бот всё равно скачивает страницу, тратит бюджет и пропускную способность сервера.
  • Отсутствие мониторинга после изменений. После правок robots.txt или canonical нужно 2–4 недели следить за статистикой сканирования в GSC и Я.Вебмастере — без этого легко не заметить регресс.

Влияние на разные типы сайтов

Для интернет-магазинов объём обхода — критический параметр. Фасетная навигация, UTM-метки, страницы сортировки и фильтрации способны раздуть URL-пространство в 10–50 раз по сравнению с реальным числом товаров. В результате новые SKU индексируются с задержкой 2–4 недели вместо 1–3 дней, что напрямую теряет трафик на актуальный ассортимент.

Контентные сайты и SaaS страдают иначе: профили пользователей, теги, результаты внутреннего поиска, версии страниц с GET-параметрами. Лендинги и небольшие корпоративные сайты (до 200 страниц) с проблемой сталкиваются редко, но даже там стоит проверить, не утекает ли бюджет на дубли по www/без www или http/https.

Проверить этот параметр на вашем сайте

Бесплатно. Без регистрации. Проверим этот и ещё 49 параметров за 60 секунд.

Получить SEO-аудит →