#116 · Технические основы

Sitemap vs реальный сайт

Что это, почему влияет на SEO, как проверить и исправить. Параметр #116из 150 в нашем чек-листе аудита.

Что это

Sitemap XML — это файл-манифест, в котором вы явно перечисляете URL-адреса сайта для поисковых роботов. «Несоответствие sitemap и реального сайта» — ситуация, когда список URL в файле расходится с тем, что фактически существует и доступно на сайте. Проверка с ID ent-crawl-sitemap-mismatch фиксирует именно этот разрыв: страницы есть в sitemap, но их нет на сайте, или наоборот — страницы существуют, но в sitemap не попали.

---

Почему это важно для SEO

Поисковый робот использует sitemap как приоритетную очередь обхода. Если в файле указаны URL с редиректами, удалёнными страницами или ответами 404 — Googlebot и Яндекс.Бот тратят краулинговый бюджет впустую. Google прямо указывает: crawl budget особенно критичен для сайтов от 1 000 страниц. На крупном интернет-магазине с 50 000 SKU «мёртвые» URL в sitemap могут задержать индексацию новых карточек товаров на недели.

Обратная проблема не менее опасна: важные страницы отсутствуют в sitemap. Для Яндекса это означает, что Яндекс.Нейро и другие алгоритмы получают неполный сигнал о структуре сайта, а новые страницы могут ждать индексации дольше обычного. В Google страницы без упоминания в sitemap и без внутренних ссылок имеют риск вообще не попасть в индекс — особенно если они «тонкие» по контенту. Исследования показывают, что корректный sitemap сокращает время до первой индексации новой страницы в среднем на 30–50%.

---

Как проверить вручную

  1. Скачайте sitemap и спарсите реальный сайт. Откройте https://example.ru/sitemap.xml. Если файл сжат — sitemap.xml.gz. Загрузите его в Screaming Frog: Mode → List → Upload → from Sitemap. Параллельно запустите краулинг сайта в обычном режиме. Сравните два списка URL.
  1. Проверьте статусы ответа URL из sitemap. В Screaming Frog перейдите в раздел Sitemaps → In Sitemap. Отфильтруйте статусы 3xx, 4xx, 5xx — это «мусор» в sitemap. Любой не-200 статус в sitemap — проблема.
  1. Используйте Яндекс.Вебмастер и Google Search Console. В Я.Вебмастере: Индексирование → Файлы Sitemap — смотрите количество отправленных и проиндексированных URL, разрыв >10% — тревожный сигнал. В GSC: Индексирование → Файлы Sitemap → кнопка «Просмотреть проиндексированные страницы» — сравните с реальным числом страниц сайта.
  1. Проверьте noindex-страницы в sitemap. В Screaming Frog: Directives → Noindex — если страница одновременно в sitemap и имеет noindex, это прямое противоречие.

---

Как исправить

Шаг 1. Удалите из sitemap все URL со статусом не-200, с тегом noindex, с атрибутом canonical на другой URL.

Шаг 2. Добавьте в sitemap важные страницы, которые в нём отсутствуют.

Шаг 3. Настройте автогенерацию sitemap — он должен обновляться при каждом изменении структуры сайта.

Базовый фрагмент валидного sitemap:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.ru/catalog/</loc>
    <lastmod>2025-01-15</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.8</priority>
  </url>
</urlset>

WordPress. Плагин Yoast SEO или Rank Math генерируют sitemap автоматически. В Yoast: SEO → Общее → Функции → XML Sitemap. Убедитесь, что в настройках исключены страницы с noindex.

Tilda. Sitemap генерируется автоматически в Настройки сайта → SEO → Карта сайта. Вручную добавить или исключить URL нельзя — обходите через 301-редиректы или скрытие страниц.

1C-Bitrix. Компонент bitrix:sitemap в настройках главного модуля. Путь: Настройки → Настройки продукта → Поисковые системы → Карта сайта. Настройте расписание автообновления через агенты.

Webflow. Project Settings → SEO → Sitemap — включите генерацию. Страницы с noindex автоматически исключаются с версии 2023 года — проверьте, что у вас актуальная версия.

---

Типичные ошибки

  • Статичный sitemap. Файл создали один раз при запуске сайта и забыли. Через полгода в нём сотни несуществующих URL после редизайна или удаления товаров.
  • Редиректы в sitemap. URL ведёт на 301 редирект вместо конечного адреса. Робот тратит лишний запрос и получает путаный сигнал.
  • Дублирование с параметрами. В sitemap попадают example.ru/catalog/?sort=price и example.ru/catalog/?sort=name — фильтры без canonical. Раздувают файл и дробят вес страницы.
  • noindex + sitemap одновременно. Классическое противоречие: вы просите роботов игнорировать страницу и одновременно зовёте их на неё.
  • Слишком большой файл без разбивки. Лимит — 50 000 URL и 50 МБ на один файл. Для крупных сайтов используйте sitemap index с вложенными файлами по разделам.

---

Влияние на разные типы сайтов

Для интернет-магазинов несоответствие sitemap критично: карточки товаров появляются и исчезают постоянно. Устаревший sitemap с удалёнными товарами создаёт сотни 404 в очереди краулера, а новые SKU попадают в индекс с задержкой. На сайтах с сезонным ассортиментом — например, одежда — это прямые потери трафика в пиковый период.

Контентные сайты и блоги страдают от другой крайности: авторы публикуют статьи, но sitemap не обновляется автоматически, и новые материалы неделями ждут индексации. SaaS-сайты и лендинги обычно небольшие, но и здесь ошибка встречается: страницы A/B-тестов, временные лендинги с noindex или staging-URL случайно попадают в продакшн-sitemap и создают нежелательные сигналы для поисковиков.

Проверить этот параметр на вашем сайте

Бесплатно. Без регистрации. Проверим этот и ещё 49 параметров за 60 секунд.

Получить SEO-аудит →