дубликаталогтехникаcanonical

Дубли в каталоге товаров: как их обнаружить и почистить

Дубли в каталоге — главная техническая проблема агрегаторов. 30-50% URL могут быть дублями, тратя crawl budget. Разбираю, как чистить.

Коновалов Д.13 июня 2026 г.7 мин чтения

Что такое дубль в каталоге

Дубль — это страница с тем же или почти тем же контентом, доступная по разным URL.

Примеры из каталога:

/catalog/bmw/x5/ и /catalog/bmw/x5 (со слэшем и без)
/catalog/bmw/x5/ и /catalog/?brand=bmw&model=x5 (категория и фильтр)
/catalog/bmw/x5/ и /catalog/cross/bmw-x5/ (через теги)
/catalog/bmw/x5/?utm_source=ya (с UTM)
/catalog/bmw/x5/?sort=price (с сортировкой)
/catalog/bmw/x5/page/1/ (page 1 пагинации)

Все эти URL ведут на тот же товар. Поисковики могут проиндексировать все, разделить ссылочный вес и каннибализировать ранжирование.

Сколько дублей у типичного агрегатора

Из аудитов наших проектов:

Размер каталога	Уникальных URL	Дублей в индексе (обычно)
50-200 карточек	200-500	100-300
200-1000	1000-3000	500-2000
1000-5000	5000-15000	5000-30000
5000+	15 000-50 000	30 000-150 000

То есть дублей часто больше, чем уникальных страниц. И каждый — это потраченный crawl budget, который не достаётся реальным карточкам.

Типы дублей и как их находить

Тип 1. URL-варианты (technical duplicates)

HTTP и HTTPS параллельно
WWW и без WWW
Слэш в конце и без
Регистр (lowercase / uppercase в части URL)

Как найти: ручная проверка + GSC «Покрытие → Исключенные».

Как починить: 301-редирект с не-канонической версии на каноническую. Один раз настраивается на nginx/cloudflare/Vercel и работает всегда.

Тип 2. Параметры (parameter duplicates)

UTM-метки (?utm_source=ya)
Сортировка (?sort=price-asc)
Сессионные параметры (?sessionid=abc)
Фильтры (часть открыта, часть закрыта)

Как найти: Я.Вебмастер → Страницы в поиске + GSC → Покрытие → Дубли.

Как починить:

В robots.txt для Яндекса: Clean-param: utm_source&utm_campaign&sort
На странице: <link rel="canonical" href="https://example.com/category/" />
В Google Search Console больше нельзя задать через UI (отменено в 2022) — только через canonical

Тип 3. Близкие копии (content duplicates)

Один товар в нескольких категориях
Похожие описания на разных карточках (например, шаблонные)
Перевод на другой регион без существенных изменений

Как найти: Screaming Frog (десктоп-краулер) → отчёт по дублям title/description; Я.Вебмастер → Дубли страниц.

Как починить:

Канонизировать одну версию через canonical
Уникализировать описания на остальных
Если дубль не нужен — 301 редирект и удаление

Тип 4. Pagination duplicates (псевдо-дубли)

/catalog/bmw/ и /catalog/bmw/page/1/ — одно и то же

Как починить: 301-редирект с /page/1/ на основную, либо canonical.

Главные инструменты для поиска дублей

1. Google Search Console (бесплатно)

Раздел «Покрытие индексирования» → «Страница не индексируется» → подкатегория «Дубликат, отправленный URL не выбран как канонический».

Тут видны страницы, которые Google видит как дубли и не индексирует.

2. Яндекс.Вебмастер (бесплатно)

«Индексирование → Дубли» — показывает группы дублей с указанием канонической версии.

3. Screaming Frog SEO Spider (бесплатно до 500 URL, далее $209/год)

Десктоп-краулер. Обходит сайт, показывает дубли:

По title
По meta description
По H1
По хешу контента

Самый детальный инструмент.

4. Site command в Google

site:example.com/catalog/

Показывает все проиндексированные URL раздела. Можно глазами увидеть очевидные дубли.

Алгоритм очистки от дублей

Аудит через GSC + Я.Вебмастер + Screaming Frog → собираем список дублей
Классификация по типам (URL-варианты, параметры, контентные)
Выбор канонической версии для каждой группы
Реализация исправления через 301/canonical/Clean-param/noindex
Через 2-4 недели — повторный аудит и проверка переиндексации

Когда какой метод использовать

Метод	Когда
301-редирект	URL-вариант больше не нужен, не должен существовать
Canonical	URL нужен пользователю, но не должен ранжироваться отдельно
Clean-param (Яндекс)	Параметры (UTM, сортировка) — для Яндекса проще
robots.txt Disallow	Технические URL, которые не должны попадать в индекс вообще
noindex + follow	Страница полезна юзеру, но индексировать не нужно (например, корзина)

Пример: чистка дублей из каталога авто

Из реального аудита carto-auto:

Найдено дублей:

24 модели BMW × 6 стран = 144 потенциальных дубля «модель в стране»

Решение:

Каноническая карточка модели — /catalog/bmw/x5/ (одна на все страны)
Страновые версии — <link rel="canonical" href="/catalog/bmw/x5/" />
Уникализация: страновая версия содержит сезонные особенности импорта + цены в этой стране + типичные комплектации — это делает её не точным дублем, и canonical работает корректно

Чего НЕ делать

❌ Не использовать meta keywords для решения дублей — не работает
❌ Не делать canonical на главную — каноническая страница должна быть похожей, не главной
❌ Не игнорировать дубли — даже мелкие через год становятся проблемой
❌ Не блокировать через robots.txt вместо canonical — это разные инструменты для разных задач

Чек-лист

[ ] Настроен один стандарт URL (slash, www, регистр) с 301-редиректом
[ ] Clean-param в robots.txt для UTM и сортировки (Яндекс)
[ ] Canonical на параметрах сортировки/фильтров
[ ] Аудит через GSC + Я.Вебмастер раз в квартал
[ ] Screaming Frog проход после каждого редизайна или большого изменения

Итог

Дубли — техническая проблема №1 в SEO-агрегаторах. Чистка даёт быстрый эффект: +10-25% к органике за 2-3 месяца без других изменений.

Прогнать аудит на дубли →

Получить SEO-аудит своего сайта

Бесплатно. Без регистрации. Топ-проблемы и план роста позиций за 60 секунд.

Проверить сайт →