Борьба с дублями страниц. Как избавиться от дублей страниц Правильная работа с дублями страниц

  • Дата: 22.07.2021

Дубли - это страницы на одном и том же домене с идентичным или очень похожим содержимым. Чаще всего появляются из-за особенностей работы CMS, ошибок в директивах robots.txt или в настройке 301 редиректов.

В чем опасность дублей

1. Неправильная идентификация релевантной страницы поисковым роботом. Допустим, у вас одна и та же страница доступна по двум URL:

Https://site.ru/kepki/

Https://site.ru/catalog/kepki/

Вы вкладывали деньги в продвижение страницы https://site.ru/kepki/. Теперь на нее ссылаются тематические ресурсы, и она заняла позиции в топ-10. Но в какой-то момент робот исключает ее из индекса и взамен добавляет https://site.ru/catalog/kepki/. Естественно, эта страница ранжируется хуже и привлекает меньше трафика.

2. Увеличение времени, необходимого на переобход сайта роботами. На сканирование каждого сайта роботам выделяется ограниченное время. Если много дублей, робот может так и не добраться до основного контента, из-за чего индексация затянется. Эта проблема особенно актуальна для сайтов с тысячами страниц.

3. Наложение санкций со стороны поисковых систем. Сами по себе дубли не являются поводом к пессимизации сайта - до тех пор, пока поисковые алгоритмы не посчитают, что вы создаете дубли намеренно с целью манипуляции выдачей.

4. Проблемы для вебмастера. Если работу над устранением дублей откладывать в долгий ящик, их может накопиться такое количество, что вебмастеру чисто физически будет сложно обработать отчеты, систематизировать причины дублей и внести корректировки. Большой объем работы повышает риск ошибок.

Дубли условно делятся на две группы: явные и неявные.

Явные дубли (страница доступна по двум или более URL)

Вариантов таких дублей много, но все они похожи по своей сути. Вот самые распространенные.

1. URL со слешем в конце и без него

Https://site.ru/list/

Https://site.ru/list

Что делать: настроить ответ сервера «HTTP 301 Moved Permanently» (301-й редирект).

Как это сделать:

    • найти в корневой папке сайта файл.htaccess и открыть (если его нет - создать в формате TXT, назвать.htaccess и поместить в корень сайта);
    • прописать в файле команды для редиректа с URL со слешем на URL без слеша:

RewriteCond %{REQUEST_FILENAME} !-d
RewriteCond %{REQUEST_URI} ^(.+)/$
RewriteRule ^(.+)/$ /$1

    • обратная операция:

RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_URI} !(.*)/$
RewriteRule ^(.*[^/])$ $1/

    • если файл создается с нуля, все редиректы необходимо прописывать внутри таких строк:



Настройка 301 редиректа с помощью.htaccess подходит только для сайтов на Apache. Для nginx и других серверов редирект настраивается другими способами.

Какой URL предпочтителен: со слешем или без? Чисто технически - никакой разницы. Смотрите по ситуации: если проиндексировано больше страниц со слешем, оставляйте этот вариант, и наоборот.

2. URL с WWW и без WWW

Https://www.site.ru/1

Https://site.ru/1

Что делать: указать на главное зеркало сайта в панели для вебмастеров.

Как это сделать в Яндексе:

    • перейти в Яндекс.Вебмастер
    • выбрать в Панели сайт, с которого будет идти перенаправление (чаще всего перенаправляют на URL без WWW);
    • перейти в раздел «Индексирование / Переезд сайта», убрать галочку напротив пункта «Добавить WWW» и сохранить изменения.

В течение 1,5-2 недель Яндекс склеит зеркала, переиндексирует страницы, и в поиске появятся только URL без WWW.

Важно! Ранее для указания на главное зеркало в файле robots.txt необходимо было прописывать директиву Host. Но она больше не поддерживается. Некоторые вебмастера «для подстраховки» до сих пор указывают эту директиву и для еще большей уверенности настраивают 301 редирект - в этом нет необходимости, достаточно настроить склейку в Вебмастере.

Как склеить зеркала в Google:

    • перейти в Google Search Console и добавить 2 версии сайта - с WWW и без WWW;

    • выбрать в Search Console сайт, с которого будет идти перенаправление;
    • кликнуть по значку шестеренки в верхнем правом углу, выбрать пункт «Настройки сайта» и выбрать основной домен.

Как и в случае с Яндексом, дополнительные манипуляции с 301 редиректами не нужны, хотя реализовать склейку можно и с его помощью.

Что нужно сделать:

    • выгрузите список проиндексированных URL из Яндекс.Вебмастера;
    • загрузите этот список в инструмент от SeoPult - списком или с помощью XLS-файла (подробная инструкция по использованию инструмента);

    • запустите анализ и скачайте результат.

В этом примере страницы пагинации проиндексированы Яндексом, а Google - нет. Причина в том, что они закрыты от индексации в robots.txt только для бота Yandex. Решение - настроить канонизацию для страниц пагинации.

Используя парсер от SeoPult, вы поймете, дублируются страницы в обоих поисковиках или только в одном. Это позволит подобрать оптимальные инструменты решения проблемы.

Если у вас нет времени или опыта на то, чтобы разобраться с дублями, закажите аудит - помимо наличия дублей вы получите массу полезной информации о своем ресурсе: наличие ошибок в HTML-коде, заголовках, мета-тегах, структуре, внутренней перелинковке, юзабилити, оптимизации контента и т. д. В итоге у вас на руках будут готовые рекомендации, выполнив которые, вы сделаете сайт более привлекательным для посетителей и повысите его позиции в поиске.

Дубли страниц на сайтах или блогах , откуда они берутся и какие проблемы могут создать.
Именно об этом поговорим в этом посте, постараемся разобраться с этим явлением и найти пути минимизации тех потенциальных неприятностей, которые могут принести нам дубли страниц на сайте.

Итак, продолжим.

Что такое дубли страниц?

Дубли страниц на каком-либо веб-ресурсе означает доступ к одной и той же информации по разным адресам. Такие страницы еще называют внутренними дублями сайта.

Если тексты на страница совершенно идентичны, то такие дубли называют полными или четкими. При частичном совпадении дубли называют неполными или нечеткими .

Неполные дубли – это страницы категорий, страницы перечня товаров и тому подобные страницы, содержащие анонсы материалов сайта.

Полные дубли страниц – это версии для печати, версии страниц с разными расширениями, страницы архивов, поиска на сайте, страницы с комментариями так далее.

Источники дублей страниц.

На данный момент большинство дублей страниц порождаются при использовании современных CMS – системами управления контентом, еще их называют движками сайтов.

Это и WordPress, и Joomla, и DLE и другие популярные CMS. Это явление серьезно напрягает оптимизаторов сайтов и вебмастеров и доставляет им дополнительные хлопоты.

В интернет-магазинах дубли могут появиться при показе товаров с сортировкой по различным реквизитам (производителю товара, назначению товара, дате изготовления, цене и т.п.).

Также надо вспомнить о пресловутой приставке WWW и определиться, использовать ли ее в имени домена при создании, развитии, продвижении и раскрутке сайта.

Как видим, источники возникновения дублей могут быть различными, я перечислил только основные, но все они хорошо известны специалистам.

Дубли страниц, негативны.

Несмотря на то, что многие на появление дублей не обращают особого внимания, это явление может создать серьезные проблемы при продвижении сайтов .

Поисковая система может расценить дубли как спам и, вследствие этого, серьезно понизить позиции как этих страниц, так и сайта в целом.

При продвижении сайта ссылками может возникнуть следующая ситуация. В какой-то момент поисковая система расценит как наиболее релевантную страницу-дубль , а не ту, которую Вы продвигаете ссылками и все ваши усилия и затраты будут напрасными.

Но есть люди, которые стараются использовать дубли для наращивания веса на нужные страницы, главную, например, или любую другую.

Методы борьбы с дублями страниц

Как же избежать дублей или как свести на нет негативные моменты при их появлении?
И вообще стоит ли с этим как-то бороться или же все отдать на милость поисковым системам. Пусть сами разбираются, раз они такие умные.

Использование robots.txt

Robots.txt – это файл, размещающийся в корневом каталоге нашего сайта и содержащий директивы для поисковых роботов.

В этих директивах мы указываем какие страницы на нашем сайте индексировать, а какие нет. Также можем указать имя основного домена сайта и файл, содержащий карту сайта.

Для запрещения индексации страниц используется директива Disallow . Именно ее используют вебмастера, для того, чтобы закрыть от индексации дубли страниц, да и не только дубли, а любую другую информацию, не относящуюся непосредственно к содержанию страниц. Например:

Disallow: /search/ — закрываем страницы поиска по сайту
Disallow: /*? — закрываем страницы, содержащие знак вопроса “?”
Disallow: /20* — закрываем страницы архива

Использование файла.htaccess

Файл.htaccess (без расширения) тоже размещается в корневом каталоге сайта. Для борьбы с дублями в этом файле настраивают использование 301 редиректа .
Этот способ хорошо помогает сохранить показатели сайта при смене CMS сайта или изменении его структуры. В результате получается корректная переадресация без потери ссылочной массы. При этом вес страницы по старому адресу будет передаваться странице по новому адресу.
301 редирект применяют и при определении основного домена сайта – с WWW или без WWW.

Использование тега REL = “CANNONICAL”

При помощи этого тега вебмастер указывает поисковику первоисточник, то есть ту страницу, которая должна быть проиндексирована и принимать участие в ранжировании поисковых систем. Страницу принято называть канонической. Запись в HTML-коде будет выглядеть следующим образом:

При использовании CMS WordPress это можно сделать в настройках такого полезного плагина как All in One Seo Pack .

Дополнительные меры борьбы с дублями для CMS WordPress

Применив все вышеперечисленные методы борьбы с дублями страниц на своем блоге у меня все время было чувство, что я сделал не все, что можно. Поэтому покопавшись в интернете, посоветовавшись с профессионалами, решил сделать еще кое-что. Сейчас я это опишу.

Я решил устранить дубли, которые создаются на блоге, при использовании якорей, я о них рассказал в статье «Якоря HTML». На блогах под управлением CMS WordPress якоря образуются при применении тега «#more» и при использовании комментариев . Целесообразность их применения довольно спорная, а вот дубли они плодят явно.
Теперь как я устранил эту проблему.

Сначала займемся тегом #more.

Нашел файл, где он формируется. Вернее мне подсказали.
Это../wp-includes/post-template.php
Затем нашел фрагмент программы:

ID}\» class= \»more-link\»>$more_link_text», $more_link_text);

Фрагмент, отмеченный красным цветом убрал

#more-{$post->ID}\» class=

И получил в итоге строку вот такого вида.

$output .= apply_filters(‘the_content_more_link’, ‘ $more_link_text», $more_link_text);

Убираем якоря комментариев #comment

Теперь перейдем к комментариям. Это уже сам додумал.
Тоже определился с файлом ../wp-includes/comment-template.php
Находим нужный фрагмент программного кода

return apply_filters(‘get_comment_link’, $link . ‘#comment-‘ . $comment->comment_ID , $comment, $args);}

Аналогично фрагмент, отмеченный красным убрал. Очень аккуратно, внимательно, вплоть до каждой точки.

. ‘#comment-‘ . $comment->comment_ID

Получаем в итоге следующую строку программного кода.

return apply_filters(‘get_comment_link’, $link, $comment, $args);
}

Естественно все это проделывал, предварительно скопировав указанные программные файлы к себе на компьютер, чтобы в случае неудачи легко восстановить состояние до изменений.

В результате этих изменений при нажатии на текст «Прочитать остальную часть записи…» у меня формируется страница с каноническим адресом и без добавки к адресу хвоста в виде «#more-….». Также при клике на комментарии у меня формируется нормальный канонический адрес без приставки в виде «#comment-…».

Тем самым количество дублей страниц на сайте несколько уменьшилось. Но что там еще сформирует наш WordPress сейчас сказать не могу. будем отслеживать проблему дальше.

И в заключение предлагаю Вашему вниманию очень неплохое и познавательное видео по этой теме. настоятельно рекомендую посмотреть.

Всем здоровья и успехов. До следующих встреч.

Полезные Материалы:

Дубли страниц - одна из множества причин понижения позиций в поисковой выдаче и даже попадания под фильтр. Чтобы этого не допустить, нужно предупредить попадание их в индекс поисковых систем.

Определить наличие дублей на сайте и избавиться от них можно различными способами, но серьезность проблемы в том, что дубли не всегда бывают бесполезными страницами, просто они не должны находиться в индексе.

Эту проблему мы сейчас и будем решать, только для начала выясним, что такое дубли и как они возникают.

Что такое дубли страниц

Дубли страниц - это копия контента канонической (основной) страницы, но с другим url. Здесь важно отметить, что они могут быть как полными, так и частичными.

Полное дублирование является точной копией, но со своим адресом, отличие которого может проявляться в слеше, аббревиатуре www, подмене параметров index.php?, page=1, page/1 и др.

Частичное дублирование проявляется в неполном копировании контента и связанно со структурой сайта, когда индексируются анонсы каталога статей, архивы, контент из сайдбара, страницы пагинации и прочие сквозные элементы ресурса, содержащиеся на канонической странице. Это присуще большинству CMS и интернет-магазинов, в которых наличие каталога является неотъемлемой частью структуры.

О последствиях возникновения дублей мы уже говорили, а происходит это вследствие распределения ссылочной массы между дубликатами, подмены страниц в индексе, потери уникальности контента и пр.

Как найти дубли страниц на сайте

Для поиска дублей можно использовать следующие методы:

  • поисковая строка Google. С помощью конструкции site:myblog.ru, где myblog.ru - ваш url, выявляются страницы из основного индекса. Чтобы увидеть дубли, нужно перейти на последнюю страницу поисковой выдачи и кликнуть по строке «показать скрытые результаты»;
  • команда «Расширенный поиск» в Яндексе. Указав в специальном окне адрес своего сайта и вписывая в кавычках одно из предложений проиндексированной статьи, подвергающейся проверке, мы должны получить только один результат. Если их больше - это дубли;
  • панель инструментов для веб-мастеров в ПС;
  • вручную , подставляя в адресную строку слеш, www, html, asp, php, буквы верхнего и нижнего регистров. Во всех случаях переадресация должна происходить на страницу с основным адресом;
  • специальные программы и сервисы : Xenu, MegaIndex и др.

Удаление дублей страниц

Способов устранения дублей также есть несколько. Каждый из них имеет свое воздействие и последствия , поэтому говорить о наиболее эффективном не приходится. Следует помнить, что физическое уничтожение проиндексированного дубликата не является выходом: поисковики о нем все равно будут помнить. Поэтому лучший метод борьбы с дублями - предотвращение их появления с помощью правильных настроек работы сайта.

Вот некоторые из способов устранения дублей:

  • Настройка Robots.txt . Это позволит закрыть от индексации определенные страницы. Но если роботы Яндекса восприимчивы к данному файлу, то Google захватывает даже закрытые ним страницы, не особо учитывая его рекомендаций. Кроме того, с помощью Robots.txt удалить проиндексированные дубли очень сложно;
  • 301 редирект . Он способствует склеиванию дублей с канонической страницей. Метод действующий, но не всегда полезный. Его нельзя применять в случае, когда дубликаты должны оставаться самостоятельными страницами, но не должны подвергаться индексации;
  • Присвоение 404 ошибки проиндексированным дублям. Метод очень хорош для их удаления, но потребует некоторого времени прежде, чем проявится эффект.

Когда же ничего склеивать и удалять ничего нельзя, а терять вес страницы и получать наказание от поисковиков не хочется, то используется атрибут rel canonical href .

Атрибут rel canonical на борьбе с дублями

Начну с примера. В интернет-магазине есть две страницы с карточками товаров идентичного содержания, но на одной товары расположены в алфавитном порядке, а на другой по стоимости. Обе нужны и перенаправление не допускается. При этом для поисковиков это явный дубль.

В этом случае рационально использование тега link rel canonical , указывающего на каноническую страницу, которая индексируется, но при этом не основная страница остается доступной пользователям.

Делается это следующим образом: в блоке head кода страниц-дубликатов указывается ссылка «link rel=”canonical” href=”http://site.ru/osnovnaya stranitsa”/» , где stranitsa — адрес канонической страницы.

С таким подходом пользователь может беспрепятственно посещать любую страницу сайта, а вот робот, прочитав в коде атрибут rel canonical, отправится индексировать только ту, адрес которой указан в ссылке.

Данный атрибут может быть полезен и для страниц с пагинацией . В этом случае создают страницу «Показать все» (этакую «портянку») и принимают за каноническую, а страницы пагинации отправляют робота на нее через rel canonical.

Таким образом, выбор метода борьбы с дублированием страниц зависит от характера их возникновения и необходимости присутствия на сайте.


Борьба с дублями страниц

Владелец может и не подозревать, что на его сайте некоторые страницы имеют копии – чаще всего так и бывает. Страницы открываются, с их содержимым все в порядке, но если только обратить внимание на , то можно заметить, что при одном и том же контенте адреса разные. Что это значит? Для живых пользователей ровным счетом ничего, так как им интересна информация на страницах, а вот бездушные поисковые машины воспринимают такое явление совершенно по-другому – для них это совершенно разные страницы с одинаковым контентом.

Вредны ли дубли страниц? Итак, если рядовой пользователь даже не сможет заметить наличие дублей на вашем сайте, то поисковики это сразу определят. Какой реакции от них ждать? Так как по сути копии видят как разные страницы, то контент на них перестает быть уникальным. А это уже негативным образом сказывается на ранжировании.

Также наличие дублей размывает , который оптимизатор пытался сосредоточить на целевой странице. Из-за дублей, он может оказаться совсем не на той странице, на которую его хотели перенести. То есть эффект от внутренней перелинковки и внешних ссылок может многократно снизиться.

В подавляющем большинстве случаев в возникновении дублей виноваты – из-за неправильных настроек и отсутствия должного внимания оптимизатора генерируются четкие копии. Этим грешат многие CMS, например, Joomla. Для решения проблемы трудно подобрать универсальный рецепт, но можно попробовать воспользоваться одним из плагинов для удаления копий.

Возникновение же нечетких дублей, в которых содержимое не полностью идентично, обычно происходит по вине вебмастера. Такие страницы часто встречаются на сайтах интернет-магазинов, где страницы с карточками товаров отличаются лишь несколькими предложениями с описанием, а весь остальной контент, состоящий из сквозных блоков и прочих элементов, одинаковый.

Многие специалисты утверждают, что небольшое количество дублей не повредит сайту, но если их больше 40-50%, то ресурс при продвижении могут ждать серьезные трудности. В любом случае, даже если копий не так много, стоит заняться их устранением, так вы гарантированно избавитесь от проблем с дублями.

Поиск страниц-копий Существует несколько способов поиска дублированных страниц, но для начала стоит обратиться к нескольким поисковикам и посмотреть, как они видят ваш сайт – нужно лишь сравнить количество страниц в индексе каждого. Сделать это довольно просто, не прибегая ни к каким дополнительным средствам: в «Яндексе» или Google достаточно в строку поиска ввести host:yoursite.ru и посмотреть на количество результатов.




Если после такой простой проверки количество будет сильно отличаться, в 10-20 раз, то это с некоторой долей вероятности может говорить о содержании дублей в одной из них. Страницы-копии могут быть и не виноваты в такой разнице, но тем не менее это дает повод для дальнейшего более тщательного поиска. Если же сайт небольшой, то можно вручную посчитать количество реальных страниц и потом сравнить с показателями из поисковых систем.

Искать дублированные страницы можно по URL в выдаче поисковика. Если у них должны быть ЧПУ, то страницы с URL из непонятных символов, вроде «index.php?s=0f6b2903d», будут сразу выбиваться из общего списка.

Еще один способ определения наличия дублей средствами поисковых систем – это поиск по фрагментам текста. Процедура такой проверки проста: надо ввести фрагмент текста из 10-15 слов с каждой страницы в строку поиска, а затем проанализировать результат. Если в выдаче будет две и более страниц, то копии есть, если же результат будет всего один, то дублей у данной страницы нет, и можно не волноваться.

Логично, что если сайт состоит из большого количества страниц, то такая проверка может превратиться в невыполнимую рутину для оптимизатора. Чтобы минимизировать временные затраты, можно воспользоваться специальными программами. Один из таких инструментов, который наверняка знаком опытным специалистам, – программа Xenu`s Link Sleuth .


Чтобы проверить сайт, необходимо открыть новый проект, выбрав в меню «File» «Check URL», ввести адрес и нажать «OK». После этого программа начнет обработку всех URL сайта. По окончании проверки нужно экспортировать полученные данные в любой удобный редактор и начать поиски дублей.

Кроме вышеперечисленных способов в инструментарии панелей «Яндекс.Вебмастер» и Google Webmaster Tools есть средства для проверки индексации страниц, которыми можно воспользоваться для поиска дублей.

Методы решения проблемы После того как все дубли будут найдены, потребуется их устранение. Это тоже можно сделать несколькими способами, но для каждого конкретного случая нужен свой метод, не исключено, что придется использовать их все.

  • Страницы-копии можно удалять вручную, но такой способ скорее подойдет только для тех дублей, которые и были созданы ручным способом по неосмотрительности вебмастера.
  • Редирект 301 отлично подходит для склеивания страниц-копий, URL которых отличаются наличием и отсутствием www.
  • Решение проблемы с дублями с помощью тега canonical можно применять для нечетких копий. Например, для категорий товаров в интернет-магазине, которые имеют дубли, отличающиеся сортировкой по различным параметрам. Также canonical подойдет для версий страниц для печати и в других подобных случаях. Применяется он довольно просто – для всех копий указывается атрибут rel=”canonical”, а для основной страницы, которая наиболее релевантна, – нет. Код должен выглядеть примерно так: link rel="canonical" href="http://yoursite.ru/stranica-kopiya"/, и стоять в пределах тега head.
  • В борьбе с дублями может помочь настройка файла robots.txt. Директива Disallow позволит закрыть доступ к дублям для поисковых роботов. Подробнее о синтаксисе этого файла вы можете прочитать в нашей рассылки.

Всем привет! В прошлой статье мы затронули важную тему — поиск дублей страниц сайта . Как показали комментарии и несколько пришедших мне на почту писем, эта тема актуальна. Дублированный контент на наших блогах, технические огрехи CMS и различные косяки шаблонов не дают нашим ресурсам полной свободы в поисковых системах. Поэтому нам приходится с ними серьезно бороться. В этой статье мы узнаем как можно убрать дубли страниц любого сайта, примеры этого руководства покажут как от них можно избавиться простым способом. От нас просто требуется использовать полученные знания и следить за последующими изменениями в индексах поисковиков.

Моя история борьбы с дублями

Перед тем, как мы займемся рассмотрением способов устранения дубликатов, я расскажу свою историю борьбы с дублями.

Два года назад (25 мая 2012 года) я получил в свое распоряжение учебный блог на курсах se0-специалиста. Он мне был дан для того, чтобы во время учебы практиковать полученные знания. В итоге за два месяца практики я успел наплодить пару страниц, десяток постов, кучу меток и вагон дублей. К этому составу в индекс Google в последующие полгода, когда учебный блог стал моим личным сайтом, прибавились и другие дубликаты. Это получилось по вине replytocom из-за растущего число комментариев. А вот в базе данных Яндекса количество проиндексированных страниц росло постепенно.

В начале 2013 года я заметил конкретное проседание позиций моего блога в Гугле. Тогда то я и задумался, почему так происходит. В итоге докопался до того, что обнаружил большое число дублей в этом поисковике. Конечно, я стал искать варианты их устранения. Но мои поиски информации ни к чему не привели — толковых мануалов в сети по удалению дублей страниц я не обнаружил. Но зато смог увидеть одну заметку на одном блоге о том, как можно с помощью файла robots.txt удалить дубликаты из индекса.

Первым делом я написал кучу запрещающих директив для Яндекса и Гугла по запрету сканирования определенных дублированных страниц. Потом, в середине лета 2013 года использовал один метод удаления дублей из индекса Goоgle (о нем Вы узнаете в этой статье). К тому времени в индексе этой поисковой системы накопилось более 6 000 дублей! И это имея на своем блоге всего пятерку страниц и более 120-ти постов…

После того, как я реализовал свой метод удаления дублей, число их стало стремительно уменьшаться. В начале этого года я использовал еще один вариант удаления дубликатов для ускорения процесса (о нем Вы тоже узнаете). И сейчас на моем блоге число страниц в индексе Гугла приближается к идеальному — на сегодняшний день в базе данных находится около 600 страниц. Это в 10 раз меньше, чем было раньше!

Как убрать дубли страниц — основные методы

Существует несколько различных способов борьбы с дублями. Одни варианты позволяют запретить появление новых дубликатов, другие могут избавиться от старых. Конечно, самый лучший вариант — это ручной. Но для его реализации нужно отлично разбираться в CMS своего сайта и знать работу алгоритмов поисковой системы . Но и другие методы тоже хороши и не требуют специализированных знаний. О них мы сейчас и поговорим.

Данный способ считается самым эффективным, но и самым требовательным к знанию программирования. Дело в том, что здесь прописываются нужные правила в файле.htaccess (находиться в корне директории сайта). И если они прописываются с ошибкой, то можно не только не решить поставленную задачу удаления дублей, но и вообще убрать весь сайт из Интернета.

Как же решается задачка удаления дублей с помощью 301-го редиректа? В основу его лежит понятие переадресации поисковых роботов с одной страницы (с дубля) на другую (оригинальную). То есть робот приходит на дубликат какой-то страницы и и с помощью редиректа появляется на нужном нам оригинальном документе сайта. Его то он и начинает изучать, пропуская дубль вне поля своего зрения.

Со временем после прописки всех вариантов этого редиректа, склеиваются одинаковые страницы и дубли со временем выпадает с индекса. Поэтому этот вариант отлично чистит уже проиндексированные ранее дубли страниц. Если Вы решите воспользоваться этим методом, то обязательно перед пропиской правил в файле.htaccess, изучите синтаксис создания редиректов. Например, рекомендую для изучения руководство по 301-му редиректу от Саши Алаева .

Создание канонической страницы

Данный способ используется для указания поисковой системе того документа из всего множества его дублей, который должен быть в основном индексе. То есть такая страница считается оригинальной и участвует в поисковой выдаче.

Для ее создания необходимо на всех страницах дублей прописать код с урлом оригинального документа:

Конечно, прописывать все это вручную тяжковато. Для этого существуют различные плагины. Например, для своего блога, который работает на движке ВордПресс, я указал этот код с помощью плагина «All in One SEO Pack». Делается это очень просто — ставиться соответствующая галочка в настройках плагина:

К сожалению, вариант с канонической страницей не удаляет дубли страниц, а только предотвращает их дальнейшее появление. Для того, чтобы избавиться от уже проиндексированных дубликатов, можно использовать следующий способ.

Директива Disallow в robots.txt

Файл robots.txt является инструкцией для поисковых систем, в которой им даются указания, как нужно индексировать наш сайт. Без этого файла поисковый робот может дотянуться практически до всех документов нашего ресурса. Но такая вольность поискового паука нам не нужна — не все страницы мы желаем видеть в индексе. Особенно это кассается дублей, которые появляются благодаря не соврешнеству шаблона сайта или наших ошибок.

Вот поэтому то и создан такой файл, в котором прописываются различные директивы запрета и допуска индексации поисковым системам. Запретить сканирование дублей страниц можно с помощью директивы Disallow:

При создании директивы тоже нужно правильно составлять запрет. Ведь если ошибиться при заполнении правил, то на выходе может получиться совсем не та блокировка страниц. Тем самым мы можем ограничить доступ к нужным страницам и дать просочиться другим дублям. Но все же здесь ошибки не так страшны, как при составлении правил редиректа в.htaccess.

Запрет на индексацию с помощью Disallow действует для всех роботов. Но не для всех эти запреты позволяют поисковой системе убирать из индекса запрещенные страницы. Например, Яндекс со временем удаляет блокированные в robots.txt дубли страниц.

А вот Google не будет очищать свой индекс от ненужного хлама, который указал веб-мастер. К тому же директива Disallow не является гарантом этой блокировки. Если на запрещенные в инструкции страницы идут внешние ссылки, то они со временем появятся в базе данных Гугла.

Избавляемся от дублей, проиндексированных в Яндексе и Google

Итак, с различными методами разобрались, пришло время узнать пошаговый план удаления дубликатов в Яндексе и Гугле. Перед тем, как проводить зачистку, необходимо найти все дубли страниц — об этом я писал в прошлой статье. Нужно перед глазами видеть, какие элементы адресов страниц отражены в дублях. Например, если это страницы с древовидными комментариями или с пагинацией, то мы фиксируем содержащие в их адресах слова «replytocom» и «page»:

Замечу, что для случая с replytocom можно взять не это словосочетание, а просто вопросительный знак. Ведь он всегда присутствует в адресе страниц древовидных комментариев. Но тогда нужно помнить о том, что уже в урлах оригинальных новых страниц не должно быть символа «?», иначе и эти станицы уйдут под запрет.

Чистим Яндекс

Для удаления дублей в Яндексе создаем правила блокировки дубликатов с помощью директивы Disallow. Для этого совершаем следующие действия:

  1. Открываем в Яндекс Вебмастере специальный инструмент «Анализ robot.txt».
  2. Вносим в поле директив новые правила блокировки дублей страниц.
  3. В поле «список URL» вносим примеры адресов дубликатов по новым директивам.
  4. Нажимаем кнопку «Проверить» и анализируем полученные результаты.

Если мы все верно сделали, то данный инструмент покажет о наличии блокировки по новым правилам. В специальном поле «Результаты проверки URL» мы должны увидеть красную надпись о запрете:

После проверки мы должны отправить созданные директивы по дублям в настоящий файл robots.txt и переписать его в директории нашего сайта. А далее нам просто нужно подождать, пока Яндекс автоматически не выгребет из своего индекса наши дубли.

Чистим Google

С Гуглом не все так просто. Запретные директивы в robots.txt не удаляют дубли в индексе этой поисковой системы. Поэтому нам придется все делать своими силами. Благо для этого есть отличный сервис Google вебмастер . А конкретно нас интересует его инструмент «Параметры URL».

Именно благодаря этому инструменту, Google позволяет владельцу сайта сообщить поисковику сведения о том, как ему нужно обрабатывать те или иные параметры в урле. Нас интересует возможность показать Гуглу те параметры адресов, страницы которых являются дублями. И именно их мы хотим удалить из индекса. Вот что нам нужно для этого сделать (для примера добавим параметр на удаление дублей с replytocom):

  1. Открываем в сервисе Гугла инструмент «Параметры URL» из раздела меню «Сканирование».
  2. Нажимаем кнопку «Добавление параметра», заполняем форму и сохраняем новый параметр:

В итоге у нас получается прописанное правило для пересмотра Гуглом своего индекса на наличие дублированных страниц. Таким образом дальше мы прописываем следующие параметры для других дубликатов, от которых хотим избавиться. Например, вот так выглядит часть моего списка с прописанными правилами для Гугла, чтобы он подкорректировал свой индекс:

На этом наша работа по чистке Гугла завершена, а мой пост подошел к концу. Надеюсь, эта статья принесет Вам практическую пользу и позволит Вам избавиться от дублей страниц Ваших ресурсов.

С уважением, Ваш Максим Довженко

P.S. Друзья, если нужно сделать видео по этой теме, то напишите мне в комментарии к этой статье.