Как убрать дубли из поиска Google и Яндекс

Как убрать дубли из поиска Google и Яндекс


Дубли страниц очень плохо влияют на вашу выдачу в поисковых системах. Многие вебмастера пишут на своих блогах как от них избавиться, а мы в этой статье рассмотрим, что делать если эти самые злосчастные дубли уже проиндексировались поисковиками и портят жизнь вашему сайту.

Как обнаружить дубли на сайте

Дубли на сайте я ищу с помощью панели вебмастера от Google. Заходим в «Параметры URL» и там отобразятся нежелательные переменные которые дублируют ваши страницы.

Как убрать дубли из поиска

Как удалить дубли страниц из поиска

Для этого дублям станиц, которые находятся в индексе нам надо присвоить ошибку 404 и при очередном обходе роботом он увидит, что данной странице ошибка, он это отметит и если через некоторое время это не измениться поисковик выкинет эту страницу-дубль из индекса.

Этот код необходимо вставить в function.php  следующий код:

add_filter('template_redirect','Redirect404');
function Redirect404()
{
$p=strpos($_SERVER['REQUEST_URI'],'/'.'attachment'.'/');
if($p!==FALSE) {

  @header("HTTP/1.0 404 Not Found");
  die();
}

if ( isset( $_GET['replytocom'] ) ) {

  @header("HTTP/1.0 404 Not Found");
  die();
}

if ( isset( $_GET['attachment_id'] ) ) {
  @header("HTTP/1.0 404 Not Found");
  die();
}
}

Что бы дополнительно присвоить 404 ошибку любой другой странице, то добавьте в предыдущий код в function.php в этот код:

if ( isset( $_GET['здесь текст url'] ) ) {
  @header("HTTP/1.0 404 Not Found");
  die();
}

По данному примеру добавляем все ненужные Вам ссылки.

Сессии в адресе страниц

Данный способ можно применить и к другим CMS  и у многих создают адреса страниц вида:
clubwp.ru/forums/?PHPSESSID=93adac36813a153a8d0bdaac8a0df33c.
Эта переменная обозначает сессию для пользователя, но её умудряются подхватить и проиндексировать поисковые системы. Таким образом  одну и туже страницу может дублироваться до бесконечности:



http://clubwp.ru/forums/
http://clubwp.ru/forums/?PHPSESSID=93adac36813a153a8d0bdaac8a0df33c
http://clubwp.ru/forums/?PHPSESSID=04a747a432a95a0da0b795dc1bdl9 f9e

и т.п.

Вдобавок запрета сессий в файле robots.txt рекомендуется произвести редирект с сессионных ссылок на неподвижные.
Осуществить все это следует данным способом:

1. В файле .htaccess записываем данный код:

RewriteEngine On
RewriteCond %{QUERY_STRING} PHPSESSID
RewriteRule .* redirect.php [L]

2. В корень сайта закидываем или создаем новый файл redirect.php с таким содержимым:

<?php $redirect_addr=substr($_SERVER['REQUEST_URI'],0,strpos($_SERVER['REQUEST_URI'],'PHPSESSID')-1); header('Location: http://'.$_SERVER['HTTP_HOST'].$redirect_addr); exit(); ?>

А если у Вас PHPSESSID  поисковики уже проиндексировали их, то можно этим страницам присвоить 404 ошибку, что бы исключить их из поиска. Для этого в файл redirect.php надо прописать другой код:

<?php header("HTTP/1.0 404 Not Found"); ?>

Очень важно: После это изменения надо отслеживать работу сайта, возможно некорректное работа всего функционала сайта. Мною было замечено, что не работала капча.

Cо временем эти страницы будут исчезать из поиска.

В данной статье я раскрыл решения особо популярных проблем, затрудняющих тактичную индексацию интернет-сайта.

 


Понравилась статья? Поделись с друзьями:
Комментариев: 20
  1. А если  надпись предупреждает: " В настоящее время у робота Googlebot не возникает проблем при сканировании вашего сайта, поэтому настраивать параметры URL не требуется. Обратите внимание: поскольку неверная настройка параметров может привести к удалению страниц сайта из индекса Google, не рекомендуется использовать этот инструмент без необходимости."    И на странице больше ничего нет?

  2. Garri (автор)

    :) Ждите когда появиться, потом будете мучиться, что бы убрать их.

  3. Уже. 22 страницы на сайте, 125 страниц проиндексировано.  Я вот  думаю, может часть в ручную повыкидывать?

  4. Garri (автор)

    Уже. 22 страницы на сайте, 125 страниц проиндексировано.  Я вот  думаю, может часть в ручную повыкидывать?

    Пока страниц мало их можно поудалять вручную. А когда будет больше, замучаетесь.

  5. Хороший материал. Раньше как-то не обращала внимание на то, почему возникают ошибки при сканировании.

    Множество дублей может создавать древовидная система комментирования, включенная на сайте. При такой системе создается столько дублей одной страницы, сколько было ответов на комментарий первого уровня.

  6. Для начала их нужно найти.Для этого нужно прописать команду host:вашсайт.ru.Вам покажет истинное количество дублей.А затем скачать программу Xenu.Она вам и отредактирует все страницы.

  7. Заметила у себя дубли только тогда, когда в Sape сайт добавила. Система нашла страницы, о существовании которых я и не знала. Вот теперь думаю, стоит ли избавляться от таких страниц, если сайт сделан под Sape и всё равно на его будущее...

  8. Mvuser

    @vivat, Что с дублями, что и с сапой лучше не шутить.

  9. Если закрыть теги в noindex, nofollow и удалить страницы дублей из sitemap то робот сможет попасть на эти страницы и добавить в индекс?

  10. Garri (автор)

    Если закрыть теги в noindex, nofollow и удалить страницы дублей из sitemap то робот сможет попасть на эти страницы и добавить в индекс?

    Да, особенно гугл

  11. Спасибо, воспользовался данным методом, на сайте добавлено 47 статей, а в гугле проиндексированов 112, много дублей. Надеюсь, что больше половины из них закроется и позиции начнут расти.

  12. Благодарю. Полезная статья. После проверки сайта, оказалось дублей больше чем реальных статей. Попробую на своём сайте

  13. "скачать программу Xenu.Она вам и отредактирует все страницы." — это плагин для вордпресс?

  14. Mvuser

    "скачать программу Xenu.Она вам и отредактирует все страницы." — это плагин для вордпресс?

    Нет, Xenu — это отдельная программа, которая сканирует любой сайт на мета теги и различные ошибки.

  15. Fishka

    Удалить — это пол беды

    главное — понять откуда лезут и предотвратить это.

    потому что просто удалять это не выход.

  16. +1 за Xenu.

    На данный момент достаточно много плагинов контролирующих дубли страниц, как правило просто так они не создаются, и решить можно просто, вспомнить какие изменения вносились в сайт.

  17. alexei_karpenko

    Добавлю свои несколько копеек, если не против... Я вижу, что года идут, а пользователи до сих пор не понимают той истины, что файл robots.txt НЕ поможет при дублях. Потом что поисковик НЕ получит команду, что это индексировать не нужно.


    ОН просто получит ЗАПРЕТ вообще. Как таковой.


    Запомните — чтобы убрать все дубли на сайте, стоит в первую очередь воспользоваться бесплатным крошечным плагином noindex — можно скачать прямо из админки. Он на всех страницах (пагинации), группах, тегах — ставит атрибут noindex — и поисковые системы это НЕ индексируют. При этом к тем страницам ДОЛЖЕН быть открытый доступ в файле robots.txt


    А почти все поголовно ставят громоздкие seo-плагины, типа yoast и all seo pack...

  18. Fishka

    alexei_karpenko, стало даже интересно... это что за плагин такой? можно ссылку в студию? в репо по запросу noindex ничего интересного не находится.

  19. alexei_karpenko

    стало даже интересно... это что за плагин такой? можно ссылку в студию? в репо по запросу noindex ничего интересного не находится.


    Все верно, это моя ошибка. На самом деле плагин именуется как Duplicate Content Cure — он бесплатный, и крошечный. Вы просто его устанавливаете и можете вручную проверить атрибут noindex в исходных кодах страницы. Плюс к этому правильно настроенный robots.txt — дублей НЕ будет! Шучу =) Будут но не более 2% от всего количества страниц. Представили Google уже не раз говорили, о том, что дубли НЕ критичный, но желательно их отсутствие... ссылку не дам ибо не помню =)

  20. Fishka

    alexei_karpenko, посмотрел...

    смущает только

    Compatible up to: 4.2.7

    Last Updated: 8 months ago

    Active Installs:5,000+


    0 отзывов, 0 тикетов в суппорте...


    но спасибо за наводку.

Добавить комментарий
Screenshot.png
Общаясь и проявляя активность в Клубе по WordPress

можно зарабатывать монеты и получить доступ в закрытый раздел