Образовательный центр
интернет профессий
Навигация по статье
Как появляются Какой вред наносят Как найти дублиКак убрать дублиСоветы вместо заключения
Что это?

Дубли страниц: в чем опасность, как найти и удалить

3343
6

К рамкам технической оптимизации относится поиск, выявление и удаление копий. Дубли — это страницы, которые обладают идентичным или частично совпадающим контентом, но доступ к ним можно получить по разным целевым. 

Как выглядит страница-дубль 

Если такие разделы существуют на сайте, то системы поиска будут неправильно их ранжировать, а значит такой материал нужно как можно раньше выявить, а после удалить. 

Как появляются 

Бывают «полные» и «частичные» дубликаты или иногда их называют «явные» и «неявные». Первые полностью совпадают по всем показателям, а вторые совпадают лишь частично. Зачастую дубли страниц возникают на сайте из-за особенности работы CMS, некорректной настройки 301-редирект или ошибок в файле «robots.txt». Также копии могут появиться по следующим причинам:

  • Доступ к сервису через префикс «www» или без него. Если не указать главную версию проекта, то произойдет конфликт с выбором главного зеркала сайта. А значит, что машины будут воспринимать ресурс с «www» и без него в качестве двух разных площадок. Зачастую такие случаи решают при помощи Google Search Console или Яндекс.Вебмастер. 
  • С протоколами http и https. Здесь происходит примерно такая же ситуация, как с «www». Если вовремя не настроить какая целевая будет главной, то произойдет появление зеркал. Это снижает уникальность контента, а также снижает позиции площадки в выдаче. 
  • Целевая может оканчиваться на слэш, а может быть без него. В таких ситуация создается полный дубликат. Поисковики индексируют оба раздела, которые наполнены идентичным контентом. По итогу вносят сайт в бан или понижают его вы выдаче по запросам. Какой вариант предпочтительнее (со слэшом или без него) решает веб-мастер: если больше проиндексировано материала без слэша, то лучше все страницы подвести под единое правило. 
  • Копии по ссылкам: http://site.com/index, http://site.com/index/, http://site.com/index.php, http://site.com/index.php/, а также другие похожие варианты. Одна из этих ссылок должна быть главной по умолчанию. 
  • Структура сайта изменилась, но сохранились старые страницы. Здесь ссылки  могут не совпадать совершенно, но контент, мета-данные, товар остались таким же, как на новых. Это приводит к полному дубляжу материала. 
  • Ошибки, которые возникают при нарушении иерархии адреса. По примеру https://site.com/category/tovar/ и https://site.com/tover/category/. Дублируется часто полностью мета, контент, параметры. 
  • Страницы с utm-метками и параметрами «gclid». Метки нужны для передачи дополнительной информации в системы контекстной рекламы или статистики. Обычно они не должны индексироваться поисковиками, но бывают ситуации, когда удается встретить полный дубликат с utm-метками. 
  • Пагинация сайта, а также дубликаты, которые создаются фильтрами. В таких ситуациях выводится товарный ассортимент на странице «категория». При этом сам раздел меняет свой урл-адрес, но SEO-тексты, заголовки, мета-информация, весь прочий контент сохраняется. То есть происходит частичное копирование данных. 
  • Создание отдельных страниц для взаимодействия с блоками под комментарии, характеристики или отзывы. При выборе «оставить комментарий» или какого-либо тега с характеристиками происходит добавление параметра в адресную строку, но контент не меняется, то есть происходит частичное копирование. 
  • Версии для PDF-печати. Страницы для печатей копируют SEO-данные. Это приводит к снижению уникальности или даже бану. Также относятся к категории частичных дублей. 

Какой вред наносят 

Когда на платформе существует два идентичных макета, то системы не понимают что именно нужно выдавать по запросу, поэтому система ранжирования часто работает неправильно, а значит проект начнет со временем терять свои позиции в выдаче. Важно находить и удалять копии, а иначе можно столкнуться с рядом проблем:

  • Понижение рейтинга площадки в целом, а не только его некоторых разделы.

Например, на проекте «site.com/catalog/phone» расположено большое количество товаров, вся необходимая информация, контент о них, включая мета-данные. В эту же страницу вкладывают деньги для продвижения и рекламы. По итогу она попадает в топ выдачи, а значит системы индексируют ее хорошо. Однако в какой-то момент ЦМС создает аналог «site.com/phone». Данная страница ранжируется плохо, привлекает мало пользователей, никаких действий для ее продвижения не ведется. После роботы для поиска по запросам видят, что происходит ухудшение просмотров, и значит начинают исключать из выдачи дубликат и оригинал. Роботы внимательнее относятся к остальному материалу и, если ситуация повторяется, то понижают рейтинг сервиса. 

  • Скачки в выдаче, так как поисковики все время меняют релевантность между одинаковыми материалами. 

Это достаточно плохо для целевой. Во-первых, по ней начнут меньше переходить посетителей. Во-вторых, если вторая целевая частично дублирует материал, то на ее обнаружение уйдет больше времени, но когда ее найдут, то выяснить, какая из двух приносит больше трафика и что будет с посетителями с другой похожей страницей неясно, а значит выбрать что лучше и что нужно удалить будет сложнее. В-третьих, даже после удаления дубля, может быть так, что вернуть прежние показатели будет невозможно или очень трудно. 

  • Снижение уникальности работ на площадке. 

Большинство маркетологов, контентщиков, аналитиков знает, что чем ниже уникальность работ, тем неохотнее системы выдают платформу в выдаче по запросам. При этом те ресурсы, которые предоставляют уникальную информацию и контент по ключевым словам почти всегда попадают в первые строки выдачи. 

  • Снижение позиций ключевых слов или фраз.

Похожая система со снижением уникальности. Ключевые слова и фразы просто перестают восприниматься поисковыми системами, так как материал с одинаковыми ключевиками встречаются на большом количестве страниц и внедрены они в неуникальный текст. 

  • Увеличение времени на индексацию. 

На сканирование каждого ресурса у поисковых роботов есть краулинговый бюджет. Если дубликатов много, то робот может просто не добраться до нужной страницы. Такая проблема очень велика для крупных интернет-магазинов и холдингов, у которых тысячи или десятки тысяч разделов с похожим материалов, товарами или разделами. 

  • Бан от поисковых систем. 

Здесь стоит отметить, что копии — это не повод наложения санкций со стороны поисковиков, но вот их большое количество воспринимается последними как намеренное решение, чтобы увеличить количество позиций в выдаче. 

  • Проблемы для веб-мастера. 

Чем дольше откладывается работа по нахождению и устранению дублей, тем больше их накопится, а риск негативных последствий для ресурса также растет. 

Стоит отметить, что полные копии с точки зрения SEO несут критическую и резкую опасность. Роботы воспринимают их враждебно, при этом не имеет значения, какой запрос был задан. Они вызывают потерю по ранжированию или даже наложению фильтра пессимизирующего всю площадку. 

Частичные дубликаты не приводят к полной потери ранжирования резко или заметно для менеджеров, но делают это поступательно медленно, так, что владелец ресурса может этого до определенного момента даже не замечать. Это говорит о том, что найти их сложнее, а вред от них даже куда выше, чем от полных дублей. 

Как найти дубли

Существует несколько способов обнаружения дублей. Чаще всего для этих целей используют:

  • Мониторинг сайта через оператора «site». Часто используют для анализа проектов конкурентов. Чтобы проверить дубли страниц на сайте и провести анализа своей платформы онлайн в поисковой строке нужно ввести команду «site:site.com/catalog». Здесь можно увидеть перечень адресов всего проекта, включая те, которые дублируются. Также, если нужно проверить дубляж определенных страниц, для этого стоит в поисковой строке в ссылке добавить нужный запрос и проверить нет ли одинакового материала. Например, «site:site.com/catalog/белый телефон». 
  • Программы-парсеры: Screaming Frog, Xenu, PromoPult. Например, для работы с программой Screaming Frog вбивают ссылку, которая ведет на сайт, после запускают сканирование, где приложение собирает информацию о площадке. После запускают вкладку «Page Title→Duplicate» и происходит вывод страниц, которые нужно проанализировать вручную.  
  • Онлайн-платформы. Чтобы провести поиск дублей страниц сайта онлайн, можно использовать ApollonGuru. Работа с этим сервисом крайне простая, даже интуитивно понятная. В поле «Поиск дублей» вносят ссылки тех разделов, которые надо проверить. Сервис проводит анализ и выдает результат. Если напротив ссылки появляется значение «200», то их нужно брать в работу, так как они имеют полный или частичный скопированный материал. 
  • Google Webmaster: «Вид в поиске» → «Оптимизация HTML» или Google Webmaster: «Сканирование» → «Оптимизация HTML». Здесь инструменты помогают найти целевые с одинаковым Title и Description. Для работы с Вебмастером нужно указать ссылку сайта, открыть раздел «Вид в поиске» и выбрать «Оптимизация HTML». Инструмент «Параметры URL» позволяет задать параметры, которые нужно индексировать, сканировать. После анализа платформы, нужно выявить копии, а после заняться удалением. 
  • Яндекс.Вебмастер: «Индексирование» → «Страницы в поиске». Вебмастер от Яндекса работает похожим образом. Программа предоставляет также функции индексирования, сканирования проекта или отдельных макетов. 
  • Ручной поиск. Опытные веб-мастера способны уже предположить, где могут быть дубли, а также выявить большинство из них вручную. При этом они могут использовать дополнительные приложения, самописные программы и многое другое. 

Как убрать дубли

Можно бороться с дублирующим материалом разными способами. Самыми популярными остаются те, которые вызывают большинство дубликатов: настройка 301 редирект, создание канонической страницы, директива Disallow в robots.txt.

301 редирект

Неплохое решение для случаев с рефф-метками и ошибками в иерархии адресов. 

Если же CMS позволяет, то редиректы можно настраивать вручную даже без помощи программиста, например, UMI предоставляет такую возможность. Однако большинство площадок требуют вмешательства программиста с опытом работы в этой сфере. 

Настраивают 301 редирект в файле htaccess. Например, для отдельной страницы используют: Redirect 301 %old_url% %new_url%

%old_url% — это старая ссылка страницы без домена

%new_url% — это новый адрес, где указывают домен. 

При этом нужно запомнить, что поисковые системы не удаляют из индексации страницу, с которой происходит редирект, но и не добавляют в индекс страницу, которая получила редирект. 

Каноническая страница

Использовать тег «rel-canonical» стоит. Он дает поисковикам понять, что перед ней именно та каноническая страница, которую нужно обрабатывать и выдавать. 

Чтобы дать понять, что перед поисковиком такая страница, нужно на все копии добавить тег с ссылкой оригинальной страницы:

<link rel= “canonical” href= “http://www.site.com/original-page.html”&gt;

Этот тег хорошо понимают машины. Кроме того, важно помнить, что добавлять такие теги можно и на посадочные страницы, которые являются основными для сайта с точки зрения SEO. 

Чтобы на всех страницах прописать каноничность, то стоит использовать плагины. Например, для WordPress используют YoastSEO или AllinOneSEOPack.

С Bitrix ситуация сложнее. Для этой CMS нужно использовать язык программирования PHP в соответствующих файлах. 

Директива Disallow в robots.txt.

Используют для борьбы со служебными страницами, которые частично или полностью дублируют контент посадочных. Часто сюда попадают адреса со слэшами и другими частями URL-адресов, которые создают копии. 

Работает это следующим образом: Если на сайте есть копии, можно запретить их индексировать с помощью условия Disallow, который вписывают в файл «robots.txt». Например, в robots.txt прописать «Disallow:/tovar/whitephone/», после этого роботы поисковых систем не будут индексировать раздел с таким адресом.  

Советы вместо заключения

  • Старайтесь всегда создавать уникальный URL-адрес для каждой целевой.
  • Указывайте, какая из страниц пагинации, фильтрации является целевой и рекламируйте ее.
  • Выявляйте, какая из целевых приносит больше трафика, делайте ее главной, а копию или копии удаляйте. 
  • Если нет опыта поиска дубликатов и разбираться в том, как убрать дубли страниц на сайте нет времени, то можно нанять на работу сотрудников, которые разбираются в сфере, а значит смогут сделают работу за вас. 
Хотите тоже написать статью для читателей Yagla? Если вам есть что рассказать про маркетинг, аналитику, бизнес, управление, карьеру для новичков, маркетологов и предпринимателей. Тогда заведите себе блог на Yagla прямо сейчас и пишите статьи. Это бесплатно и просто
Наталия Пастушенко
3343
6
5