Полезные советы

Как убрать дубли из поиска Google и Яндекс

Дубли страниц очень плохо влияют на вашу выдачу в поисковых системах. Многие вебмастера пишут на своих блогах как от них избавиться, а мы в этой статье рассмотрим, что делать если эти самые злосчастные дубли уже проиндексировались поисковиками и портят жизнь вашему сайту.

Как обнаружить дубли на сайте

Дубли на сайте я ищу с помощью панели вебмастера от Google. Заходим в «Параметры URL» и там отобразятся нежелательные переменные которые дублируют ваши страницы.

Как убрать дубли из поиска

Как удалить дубли страниц из поиска

Для этого дублям станиц, которые находятся в индексе нам надо присвоить ошибку 404 и при очередном обходе роботом он увидит, что данной странице ошибка, он это отметит и если через некоторое время это не измениться поисковик выкинет эту страницу-дубль из индекса.

Этот код необходимо вставить в function.php  следующий код:

add_filter('template_redirect','Redirect404');
function Redirect404()
{
$p=strpos($_SERVER['REQUEST_URI'],'/'.'attachment'.'/');
if($p!==FALSE) {

  @header("HTTP/1.0 404 Not Found");
  die();
}

if ( isset( $_GET['replytocom'] ) ) {

  @header("HTTP/1.0 404 Not Found");
  die();
}

if ( isset( $_GET['attachment_id'] ) ) {

  @header("HTTP/1.0 404 Not Found");
  die();
}
}

Что бы дополнительно присвоить 404 ошибку любой другой странице, то добавьте в предыдущий код в function.php в этот код:

if ( isset( $_GET['здесь текст url'] ) ) {

  @header("HTTP/1.0 404 Not Found");
  die();
}

По данному примеру добавляем все ненужные Вам ссылки.

Сессии в адресе страниц

Данный способ можно применить и к другим CMS  и у многих создают адреса страниц вида:
clubwp.ru/forums/?PHPSESSID=93adac36813a153a8d0bdaac8a0df33c.
Эта переменная обозначает сессию для пользователя, но её умудряются подхватить и проиндексировать поисковые системы. Таким образом  одну и туже страницу может дублироваться до бесконечности:

http://clubwp.ru/forums/
http://clubwp.ru/forums/?PHPSESSID=93adac36813a153a8d0bdaac8a0df33c
http://clubwp.ru/forums/?PHPSESSID=04a747a432a95a0da0b795dc1bdl9 f9e

и т.п.

Вдобавок запрета сессий в файле robots.txt рекомендуется произвести редирект с сессионных ссылок на неподвижные.
Осуществить все это следует данным способом:

1. В файле .htaccess записываем данный код:

RewriteEngine On
RewriteCond %{QUERY_STRING} PHPSESSID
RewriteRule .* redirect.php [L]

2. В корень сайта закидываем или создаем новый файл redirect.php с таким содержимым:

<?php $redirect_addr=substr($_SERVER['REQUEST_URI'],0,strpos($_SERVER['REQUEST_URI'],'PHPSESSID')-1); header('Location: http://'.$_SERVER['HTTP_HOST'].$redirect_addr); exit(); ?>

А если у Вас PHPSESSID  поисковики уже проиндексировали их, то можно этим страницам присвоить 404 ошибку, что бы исключить их из поиска. Для этого в файл redirect.php надо прописать другой код:

<?php header("HTTP/1.0 404 Not Found"); ?>

Очень важно: После это изменения надо отслеживать работу сайта, возможно некорректное работа всего функционала сайта. Мною было замечено, что не работала капча.

Cо временем эти страницы будут исчезать из поиска.

В данной статье я раскрыл решения особо популярных проблем, затрудняющих тактичную индексацию интернет-сайта.

 

<p>А если&nbsp; надпись предупреждает: &quot; В настоящее время у робота Googlebot не возникает проблем при сканировании вашего сайта, поэтому настраивать параметры URL не требуется. Обратите внимание: поскольку неверная настройка параметров может привести к удалению страниц сайта из индекса Google, не рекомендуется использовать этот инструмент без необходимости.&quot;&nbsp; &nbsp; И на странице больше ничего нет?</p>
Попай
  • Попай
    Попай
  • 07.05.2017
<p>:) Ждите когда появиться, потом будете мучиться, что бы убрать их.</p>
<p>Уже. 22 страницы на сайте, 125 страниц проиндексировано.&nbsp; Я вот&nbsp; думаю, может часть в ручную повыкидывать?</p>
Попай
  • Попай
    Попай
  • 07.05.2017
<p>
Уже. 22 страницы на сайте, 125 страниц проиндексировано.&nbsp; Я вот&nbsp; думаю, может часть в ручную повыкидывать?
</p><p>Пока страниц мало их можно поудалять вручную. А когда будет больше, замучаетесь.</p>
<p>Хороший материал. Раньше как-то не обращала внимание на то, почему возникают ошибки при сканировании. </p><p>Множество дублей может создавать древовидная система комментирования, включенная на сайте. При такой системе создается столько дублей одной страницы, сколько было ответов на комментарий первого уровня.</p>
<p>Для начала их нужно найти.Для этого нужно прописать команду host:вашсайт.ru.Вам покажет истинное количество дублей.А затем скачать программу Xenu.Она вам и отредактирует все страницы.</p>
<p>Заметила у себя дубли только тогда, когда в Sape сайт добавила. Система нашла страницы, о существовании которых я и не знала. Вот теперь думаю, стоит ли избавляться от таких страниц, если сайт сделан под Sape и всё равно на его будущее...</p>
<p>@vivat, Что с дублями, что и с сапой лучше не шутить.</p>
<p>Если закрыть теги в noindex, nofollow и удалить страницы дублей из sitemap то робот сможет попасть на эти страницы и добавить в индекс?</p>
Попай
  • Попай
    Попай
  • 07.05.2017
<p>
Если закрыть теги в noindex, nofollow и удалить страницы дублей из sitemap то робот сможет попасть на эти страницы и добавить в индекс?
</p><p>Да, особенно гугл</p>
<p>Спасибо, воспользовался данным методом, на сайте добавлено 47 статей, а в гугле проиндексированов 112, много дублей. Надеюсь, что больше половины из них закроется и позиции начнут расти.</p>
<p>Благодарю. Полезная статья. После проверки сайта, оказалось дублей больше чем реальных статей. Попробую на своём сайте</p>
<p>&quot;скачать программу <b>Xenu</b>.Она вам и отредактирует все страницы.&quot; - это плагин для вордпресс?</p>
<p>
&quot;скачать программу <b>Xenu</b>.Она вам и отредактирует все страницы.&quot; - это плагин для вордпресс?
</p><p>Нет, Xenu - это отдельная программа, которая сканирует любой сайт на мета теги и различные ошибки.</p>
<p>Удалить - это пол беды</p><p>главное - понять откуда лезут и предотвратить это. </p><p>потому что просто удалять это не выход.</p>
  • Wsk
  • 07.05.2017
<p>+1 за <b>Xenu.</b></p><p>На данный момент достаточно много плагинов контролирующих дубли страниц, как правило просто так они не создаются, и решить можно просто, вспомнить какие изменения вносились в сайт.</p>
<p>Добавлю свои несколько копеек, если не против.. Я вижу, что года идут, а пользователи до сих пор не понимают той истины, что файл robots.txt НЕ поможет при дублях. Потом что поисковик НЕ получит команду, что это индексировать не нужно. </p><p><br /></p><p>ОН просто получит ЗАПРЕТ вообще. Как таковой.</p><p><br /></p><p>Запомните - чтобы убрать все дубли на сайте, стоит в первую очередь воспользоваться бесплатным крошечным плагином <b>noindex</b> - можно скачать прямо из админки. Он на всех страницах (пагинации), группах, тегах - ставит атрибут noindex - и поисковые системы это НЕ индексируют. При этом к тем страницам ДОЛЖЕН быть открытый доступ в файле robots.txt</p><p><br /></p><p><i>А почти все поголовно ставят громоздкие seo-плагины, типа yoast и all seo pack..... </i></p>
<p>alexei_karpenko, стало даже интересно.. это что за плагин такой? можно ссылку в студию? в репо по запросу <b>noindex </b>ничего интересного не находится.</p>
<p>
стало даже интересно.. это что за плагин такой? можно ссылку в студию? в репо по запросу <b>noindex </b>ничего интересного не находится.
</p><p><br /></p><p>Все верно, это моя ошибка. На самом деле плагин именуется как <b>Duplicate Content Cure</b> - он бесплатный, и крошечный. Вы просто его устанавливаете и можете вручную проверить атрибут noindex в исходных кодах страницы. Плюс к этому правильно настроенный robots.txt - дублей НЕ будет! Шучу =) Будут но не более 2% от всего количества страниц. Представили Google уже не раз говорили, о том, что дубли НЕ критичный, но желательно их отсутствие... ссылку не дам ибо не помню =)</p>
<p>alexei_karpenko, посмотрел...</p><p>смущает только </p><p><b>Compatible up to:</b> 4.2.7</p><p><b>Last Updated: </b>8 months ago</p><p><b>Active Installs:</b>5,000+</p><p><br /></p><p>0 отзывов, 0 тикетов в суппорте...</p><p><br /></p><p>но спасибо за наводку.</p>