• ДОБРО ПОЖАЛОВАТЬ В КЛУБ ПО WORDPRESS

    Мы активно растущий клуб по WordPress и нам нужна помощь каждого человека, в том числе и Ваша! Не стесняйтесь и станьте частью большого сообщества.
    Мы делимся новостями, отытом и полезными советами! Пройдите простую регистрацию, чтобы пользоваться всеми возможностями нашего клуба.

    Присоединяйтесь к нам, вам обязательно понравится - Присоединится

Правильный robots.txt для wordpress

Правильный robots.txt для wordpress указывает поисковым роботам на правила индексации вашего блога, т.е. что индексировать, а на что закрывать «глаза».Ведь именно этот файл проверяют в первую очередь поисковые машины, заходя на ваш сайт.

О том что такое robots.txt в сети можно найти очень много информации, в т.ч. как этот файл правильно прописать, но все эти статьи либо некорректные либо скопированные друг у друга.

На досуге наткнулся я на пост «Дублированный контент и параметр replytocom», перепроверил файл robots.txt, оказалось, что он требует корректировки.

В свою очередь, спешу поделиться с Вами, дорогие читатели, с правильным robots.txt для wordpress от Студии-ГОСТ.


Где находится файл robots.txt?
Файл размещается в корневой директории сайта. На примере нашего клуба:

http://clubwp.ru/robots.txt

Настройки robots.txt
1. User-Agent
Это имя поискового робота, к которому применяются нижеследующие правила вплоть до конца абзаца(не допускается пустое значение)
2. Allow и Disallow
Разрешает и, соответственно, запрещает индексацию указанных разделов блога. Allow воспринимают только Гугл и Яндекс, остальные поисковики его не видят.
Сначала нужно использовать директиву Allow, а только после нее Disallow. Также между ними не ставятся пустые строки – иначе так робот поймет, что инструкция закончилась. После директивы User-Agent также не допускаются пустые строки.
3. Host
Указывает какое зеркало сайта считать главным для избежания попадания под фильтр. Сайт доступен по нескольким адресам минимум с www и без www, и для избежания полного дублирования страниц.
4. Sitemap
Указывает роботу наличие и адрес карты сайта в формате XML

Правильный robots.txt для wordpress
Код:
User-agent: *
Allow: */uploads
Disallow: /cgi-bin
Disallow: /wp-
Disallow: */feed
Disallow: /search
Disallow: /xmlrpc.php
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback
Disallow: /*?*

Host: clubwp.ru
Sitemap: http://clubwp.ru/sitemap.xml
Директивы Host(главное зеркало сайта) и Sitemap(путь к карте сайта) являются межсекционными и поэтому будут учитываться роботом в любом месте в файле robots.txt. Следовательно, не надо дублировать секцию полностью, ради указания директивы Host для Яндекса.

Проверка robots.txt в инструментах Яндекс и Google
Работоспособность своего файла robots.txt вы всегда можете проверить в вебмастерских разделах поисковиков. При редактировании своего файла я всегда проверяю его на корректность.

I. Вебмастер яндекс
У Яндекса (Для просмотра ссылки Войди или Зарегистрируйся) раздел находится в "Инструменты->Анализ Robots.txt".

II. Вебмастер google
У Google (Для просмотра ссылки Войди или Зарегистрируйся) раздел "Сканирование->Инструмент проверки файла robots.txt".

Напоследок хочу напомнить, что изменения в robots.txt на уже рабочем блоге будут заметны только спустя 1-3 месяца.

PS Если кто еще знает как можно улучшить Robots.txt пишите в комментариях.
 

Комментарии

ura

ПРОВЕРЕННЫЙ

ura

ПРОВЕРЕННЫЙ
Сообщения
4
Добрый день всем.
С этим роботом немного не согласен, хотя тоже неплохой.
Если у вас нет цели индексировать ВСЕ загруженные медиафайлы, то "Allow: */uploads" не нужен, или его нужно переписать под ваши нужды.

И еще вопрос администраторам сайта, если я что-то недопонимаю:
для чего в роботе "https://clubwp.ru/robots.txt" нужны отдельно 2 строки:
Disallow: /?
Disallow: ?
и "Crawl-delay:" до сих пор работает что-ли?

Вообще делаю последнее время без Host:* и Sitemap:*
прекрасно работает
Хотя сам Sitemap немного корректирует индексацию
 

Попай

АДМИНИСТРАТОР

Попай

АДМИНИСТРАТОР
Сообщения
3,247
для чего в роботе "https://clubwp.ru/robots.txt" нужны отдельно 2 строки:
Disallow: /?
Disallow: ?
Скорей всего это неточность. Уже точно не помню Disallow: ? дописывался позже по необходимости, а то есть Disallow: /? не обратил внимание.
и "Crawl-delay:" до сих пор работает что-ли?
Тоже добавлялся давно когда была сильная нагрузка от поисковиков. Сейчас этот параметр не работает, все это настраивается в Яндекс.Вермастер.
Вообще делаю последнее время без Host:* и Sitemap:*
прекрасно работает
Возможно. У меня эти переменные "хлеба не просят", пускай висят по старой памяти, думаю лишнего в этом ничего не будет.
 

Последние ресурсы

Топ поддержки


Сверху