Правильный robots.txt для wordpress

Share on Pinterest
Share with your friends










Отправить
5
Всего

robots.txt для wordpress

Правильный robots.txt для wordpress указывает поисковым роботам на правила индексации вашего блога, т.е. что индексировать, а на что закрывать «глаза».Ведь именно этот файл проверяют в первую очередь поисковые машины, заходя на ваш сайт.

О том что такое robots.txt в сети можно найти очень много информации, в т.ч. как этот файл правильно прописать, но все эти статьи либо некорректные либо скопированные друг у друга.

На досуге наткнулся я на пост «Дублированный контент и параметр replytocom», перепроверил файл robots.txt, оказалось, что он требует корректировки.

В свою очередь, спешу поделиться с Вами, дорогие читатели, с правильным robots.txt для wordpress от Студии-ГОСТ.

Где находится файл robots.txt?

Файл размещается в корневой директории сайта. Например:

http://clubwp.ru/robots.txt

Настройки robots.txt

1. User-Agent

Это имя поискового робота, к которому применяются нижеследующие правила вплоть до конца абзаца(не допускается пустое значение)

2. Allow и Disallow

Разрешает и, соответственно, запрещает индексацию указанных разделов блога. Allow воспринимают только Гугл и Яндекс, остальные поисковики его не видят.
Сначала нужно использовать директиву Allow, а только после нее Disallow. Также между ними не ставятся пустые строки – иначе так робот поймет, что инструкция закончилась. После директивы User-Agent также не допускаются пустые строки.

3. Host

Указывает какое зеркало сайта считать главным для избежания попадания под фильтр. Сайт доступен по нескольким адресам минимум с www и без www, и для избежания полного дублирования страниц.

4. Sitemap

Указывает роботу наличие и адрес карты сайта в формате XML

Правильный robots.txt для wordpress

User-agent: *  
Allow: */uploads  
Disallow: /cgi-bin  
Disallow: /wp-  
Disallow: */feed
Disallow: /search
Disallow: /xmlrpc.php  
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback
Disallow: /*?*
          
Host: clubwp.ru
Sitemap: http://clubwp.ru/sitemap.xml

Директивы Host(главное зеркало сайта) и Sitemap(путь к карте сайта) являются межсекционными и поэтому будут учитываться роботом в любом месте в файле robots.txt. Следовательно, не надо дублировать секцию полностью, ради указания директивы Host для Яндекса.

Проверка robots.txt в инструментах Яндекс и Google

Работоспособность своего файла robots.txt вы всегда можете проверить в вебмастерских разделах поисковиков. При редактировании своего файла я всегда проверяю его на корректность.

Вебмастер яндекс

robots.txt для wordpress

У яндекса (webmaster.yandex.ru) раздел находится в «Настройки индексирования->Анализ Robots.txt«.

Вебмастер google

robots.txt для wordpress

У google (google.com/webmasters) раздел «Состояние->Заблокированные URL«.

Напоследок хочу напомнить, что изменения в robots.txt на уже рабочем блоге будут заметны только спустя 1-3 месяца.

PS Если кто еще знает как можно улучшить Robots.txt пишите в комментариях.

Источник: wordpress и robots.txt

Share on Pinterest
Share with your friends










Отправить
5
Всего


Похожие записи

Комментарии к “Правильный robots.txt для wordpress”
  1. il brutto 06.10.2016
  2. Garri 06.10.2016
  3. il brutto 06.10.2016
  4. Garri 06.10.2016

Напишите ответ