Что такое дубли контента
Дубли контента (duplicate content) — это:
- Идентичный или
- Очень похожий
контент на двух или более URL.
Дубли бывают:
- Внутренние — на вашем сайте (две страницы одного сайта)
- Внешние — другие сайты скопировали ваш или вы — их
Опасны ли дубли
Миф: «Дубли = бан Google»
Нет. Google официально: > «We don't have a duplicate content penalty.»
(Мы не наказываем за дубли.)
Реальность
- Google не банит, но выбирает один URL для ранжирования
- Если неправильно выбрал → теряете трафик
- Если много дублей → размывается ссылочный вес и crawl budget
- На крупных сайтах = ощутимое падение
Опасные сценарии
- Каннибализация: ваши 2 страницы конкурируют, Google выбирает «худшую»
- Кража контента: чужой сайт перепечатал ваш — Google может ранжировать его выше
- Технические дубли (с/без www, http/https, trailing slash) → размытие ссылок
- Параметрические дубли (UTM, фильтры, сортировка) → раздувание индекса
- Шаблонные дубли на категориях (например, e-commerce) → soft 404 от Google
Типы внутренних дублей
1. Полные дубли URL
Один и тот же контент по разным URL:
https://example.com/pagehttps://www.example.com/pagehttps://example.com/page/http://example.com/pagehttps://example.com/page?utm_source=fb
Решение: 301-редирект на канонический + canonical-тег.
2. Парциальные дубли
Категория с пагинацией:
/catalog//catalog/?page=2/catalog/?sort=price
Решение: canonical на первую страницу / на общий URL.
3. Фасетные навигации (e-commerce)
Фильтры создают URL:
/catalog/?color=red/catalog/?color=red&size=m/catalog/?size=m&color=red
Решение: robots.txt + canonical + параметры в GSC.
4. Шаблонные дубли категорий
«Купить велосипед в Москве», «Купить велосипед в СПб», «Купить велосипед в Уфе» — один шаблон с заменой города.
Решение: уникализация (статистика по городу, локальные кейсы, фото).
5. Версии: AMP, мобильная, печатная
/page(десктоп)/m/page(мобильная)/amp/page(AMP)/page?print=1
Решение: canonical + correct rel="alternate".
6. Дубли по поиску внутри сайта
/search?q=телефон создаёт страницу для каждого запроса.
Решение: robots.txt запрещает /search/, либо noindex.
Типы внешних дублей
1. Чужие сайты скопировали ваш
Решения:
- DMCA-жалоба в Google (для US)
- Жалоба хостеру плагиатора
- Доказательство первоисточника (Я.Вебмастер «Оригинальные тексты»)
- Если вы старше и авторитетнее — Google обычно вас выберет
2. Вы скопировали чужой
Не делайте. Соберите свой контент с уникальным углом.
3. Синдикация (легально)
Один автор публикуется на нескольких площадках.
Решение: rel="canonical" с площадки-копии на оригинал.
4. Парсинг с автоматических агрегаторов
Цены с маркетплейсов перепечатываются.
Решение: генерировать уникальный текст + Schema.Product с unique attributes.
Как находить дубли
1. Google Search Console
Coverage → разделы:
- Duplicate without user-selected canonical — Google выбрал URL сам
- Duplicate, Google chose different canonical — Google проигнорировал ваш canonical
- Alternate page with proper canonical — нормальные дубли
2. Screaming Frog
Crawl → Reports → Duplicate Content.
Покажет:
- Дубликаты title
- Дубликаты meta description
- Дубликаты H1
- Полные content-дубли
3. Siteliner
siteliner.com — бесплатный сервис для проверки внутренних дублей.
Бесплатно: до 250 страниц.
4. Поиск по сайту
site:example.com "уникальная фраза из статьи" — если показывает 2+ URL, дубли.
5. Copyscape
copyscape.com — для внешних дублей.
Платно от $0.05 за поиск.
6. Я.Вебмастер
Индексирование → Страницы в поиске → колонка статус «дубль».
Как фиксить дубли
Стратегия 1. Канонизация
Главный инструмент. На странице-дубле:
<link rel="canonical" href="https://example.com/main-page" />Все ссылки и сигналы идут на canonical.
Стратегия 2. 301 редирект
Если страница-дубль не нужна — 301 на основную.
Используется для технических дублей (http→https, www→non-www).
Стратегия 3. noindex
Для страниц, которые должны быть доступны людям, но не нужны в индексе (например, страницы поиска).
<meta name="robots" content="noindex">Стратегия 4. robots.txt
Блокирует обход целыми разделами:
Disallow: /search/
Disallow: /admin/
Disallow: /?utm_*Внимание: robots.txt не убирает из индекса — только запрещает обход. Для удаления нужен noindex.
Стратегия 5. URL Parameters в GSC
«Crawl → URL Parameters» (если ещё доступно) — указать, какие параметры дают дубли.
Стратегия 6. Уникализация
Для шаблонных дублей — добавить уникальный контент:
- Локальные данные (для городов)
- Уникальные фото
- Реальные отзывы
- Локальные кейсы
Типичные ошибки
❌ Все дубли — проблема
Часть дублей нормальна (alternate, mobile/desktop). Не паникуйте.
❌ Только canonical
Без правильной перелинковки canonical может игнорироваться. Все внутренние ссылки должны вести на canonical-URL.
❌ noindex + robots.txt одновременно
Google не сможет прочитать noindex, потому что заблокирован → страница остаётся в индексе.
❌ Шаблонные тексты «{город}» × 100
Google детектирует как массовый дубль → soft 404.
❌ Игнор внешних дублей
Если кто-то скопировал ваш контент и ранжируется выше — нужно действовать.
Чек-лист работы с дублями
- [ ] Coverage GSC проверен (дубли отмечены)
- [ ] Screaming Frog crawl сделан
- [ ] Технические дубли (www/non-www, http/https) → 301
- [ ] Canonical на всех версиях
- [ ] Параметры в robots.txt или noindex
- [ ] Фильтры/сортировка → canonical
- [ ] Шаблонные категории уникализированы
- [ ] Внешние дубли мониторятся (Copyscape, Google Alerts)
- [ ] Sitemap содержит только canonical URLs
Реальный пример
E-commerce сайт с проблемой:
- 50 000 проиндексированных URL по данным GSC
- Реальных товаров: 5 000
- 45 000 дублей от UTM, фильтров, сортировки
После работы:
- 50% URL → noindex или canonical
- 30% → robots.txt блокирует
- 20% — настоящие товары в индексе
Через 3 месяца:
- Crawl budget на реальные товары вырос в 4 раза
- Позиции по категориям +15-30%
- Органический трафик +35%
Итог
Дубли не убивают сайт сами по себе, но при большом объёме тормозят рост и размывают сигналы. Регулярный аудит и системная канонизация — обязательны для среднего и крупного сайта.