дубликаталогтехникаcanonical

Дубли в каталоге товаров: как их обнаружить и почистить

Дубли в каталоге — главная техническая проблема агрегаторов. 30-50% URL могут быть дублями, тратя crawl budget. Разбираю, как чистить.

Что такое дубль в каталоге

Дубль — это страница с тем же или почти тем же контентом, доступная по разным URL.

Примеры из каталога:

  • /catalog/bmw/x5/ и /catalog/bmw/x5 (со слэшем и без)
  • /catalog/bmw/x5/ и /catalog/?brand=bmw&model=x5 (категория и фильтр)
  • /catalog/bmw/x5/ и /catalog/cross/bmw-x5/ (через теги)
  • /catalog/bmw/x5/?utm_source=ya (с UTM)
  • /catalog/bmw/x5/?sort=price (с сортировкой)
  • /catalog/bmw/x5/page/1/ (page 1 пагинации)

Все эти URL ведут на тот же товар. Поисковики могут проиндексировать все, разделить ссылочный вес и каннибализировать ранжирование.

Сколько дублей у типичного агрегатора

Из аудитов наших проектов:

Размер каталогаУникальных URLДублей в индексе (обычно)
50-200 карточек200-500100-300
200-10001000-3000500-2000
1000-50005000-150005000-30000
5000+15 000-50 00030 000-150 000

То есть дублей часто больше, чем уникальных страниц. И каждый — это потраченный crawl budget, который не достаётся реальным карточкам.

Типы дублей и как их находить

Тип 1. URL-варианты (technical duplicates)

  • HTTP и HTTPS параллельно
  • WWW и без WWW
  • Слэш в конце и без
  • Регистр (lowercase / uppercase в части URL)

Как найти: ручная проверка + GSC «Покрытие → Исключенные».

Как починить: 301-редирект с не-канонической версии на каноническую. Один раз настраивается на nginx/cloudflare/Vercel и работает всегда.

Тип 2. Параметры (parameter duplicates)

  • UTM-метки (?utm_source=ya)
  • Сортировка (?sort=price-asc)
  • Сессионные параметры (?sessionid=abc)
  • Фильтры (часть открыта, часть закрыта)

Как найти: Я.Вебмастер → Страницы в поиске + GSC → Покрытие → Дубли.

Как починить:

  • В robots.txt для Яндекса: Clean-param: utm_source&utm_campaign&sort
  • На странице: <link rel="canonical" href="https://example.com/category/" />
  • В Google Search Console больше нельзя задать через UI (отменено в 2022) — только через canonical

Тип 3. Близкие копии (content duplicates)

  • Один товар в нескольких категориях
  • Похожие описания на разных карточках (например, шаблонные)
  • Перевод на другой регион без существенных изменений

Как найти: Screaming Frog (десктоп-краулер) → отчёт по дублям title/description; Я.Вебмастер → Дубли страниц.

Как починить:

  • Канонизировать одну версию через canonical
  • Уникализировать описания на остальных
  • Если дубль не нужен — 301 редирект и удаление

Тип 4. Pagination duplicates (псевдо-дубли)

  • /catalog/bmw/ и /catalog/bmw/page/1/ — одно и то же

Как починить: 301-редирект с /page/1/ на основную, либо canonical.

Главные инструменты для поиска дублей

1. Google Search Console (бесплатно)

Раздел «Покрытие индексирования» → «Страница не индексируется» → подкатегория «Дубликат, отправленный URL не выбран как канонический».

Тут видны страницы, которые Google видит как дубли и не индексирует.

2. Яндекс.Вебмастер (бесплатно)

«Индексирование → Дубли» — показывает группы дублей с указанием канонической версии.

3. Screaming Frog SEO Spider (бесплатно до 500 URL, далее $209/год)

Десктоп-краулер. Обходит сайт, показывает дубли:

  • По title
  • По meta description
  • По H1
  • По хешу контента

Самый детальный инструмент.

4. Site command в Google

site:example.com/catalog/

Показывает все проиндексированные URL раздела. Можно глазами увидеть очевидные дубли.

Алгоритм очистки от дублей

  1. Аудит через GSC + Я.Вебмастер + Screaming Frog → собираем список дублей
  2. Классификация по типам (URL-варианты, параметры, контентные)
  3. Выбор канонической версии для каждой группы
  4. Реализация исправления через 301/canonical/Clean-param/noindex
  5. Через 2-4 недели — повторный аудит и проверка переиндексации

Когда какой метод использовать

МетодКогда
301-редиректURL-вариант больше не нужен, не должен существовать
CanonicalURL нужен пользователю, но не должен ранжироваться отдельно
Clean-param (Яндекс)Параметры (UTM, сортировка) — для Яндекса проще
robots.txt DisallowТехнические URL, которые не должны попадать в индекс вообще
noindex + followСтраница полезна юзеру, но индексировать не нужно (например, корзина)

Пример: чистка дублей из каталога авто

Из реального аудита carto-auto:

Найдено дублей:

  • 24 модели BMW × 6 стран = 144 потенциальных дубля «модель в стране»

Решение:

  • Каноническая карточка модели — /catalog/bmw/x5/ (одна на все страны)
  • Страновые версии — <link rel="canonical" href="/catalog/bmw/x5/" />
  • Уникализация: страновая версия содержит сезонные особенности импорта + цены в этой стране + типичные комплектации — это делает её не точным дублем, и canonical работает корректно

Чего НЕ делать

  • Не использовать meta keywords для решения дублей — не работает
  • Не делать canonical на главную — каноническая страница должна быть похожей, не главной
  • Не игнорировать дубли — даже мелкие через год становятся проблемой
  • Не блокировать через robots.txt вместо canonical — это разные инструменты для разных задач

Чек-лист

  • [ ] Настроен один стандарт URL (slash, www, регистр) с 301-редиректом
  • [ ] Clean-param в robots.txt для UTM и сортировки (Яндекс)
  • [ ] Canonical на параметрах сортировки/фильтров
  • [ ] Аудит через GSC + Я.Вебмастер раз в квартал
  • [ ] Screaming Frog проход после каждого редизайна или большого изменения

Итог

Дубли — техническая проблема №1 в SEO-агрегаторах. Чистка даёт быстрый эффект: +10-25% к органике за 2-3 месяца без других изменений.

Прогнать аудит на дубли →

Получить SEO-аудит своего сайта

Бесплатно. Без регистрации. Топ-проблемы и план роста позиций за 60 секунд.

Проверить сайт →