Правильный robots txt для wordpress!

Привет всем, сейчас предоставлю правильный robots txt для wordpress. Если вы не никак не можете его настроить, то мой совет будет как раз кстати и вы не попадете под АГС!

Файл robots.txt может запретить индексировать сайт, а может и запретить. Он нужен для того, чтобы поисковики не смогли проиндексировать ненужные страницы (админ панель, скрытые страницы) и они не попали в выдачу.




Внимание: если его не правильно настроить - можно без проблем попасть под фильтр АГС (примеры видел) и вот тогда он уже вам не понадобиться :). Сейчас мы с вами создадим правильный робот тхт, но сперва посмотрите на свой.

Вбейте в браузере: ваш-сайт.ru/robot.txt Если видна вот такая картинка:

То это очень плохо! У такого блога всё открыто, будет дубль контента и т.д.

 

Лежит этот файл в главной категории вашего сайта, создать его очень просто - создаете простой txt и переименовываете в robot, в него копируете код ниже и радуетесь жизнью.

 

Предлагаю в наглую скопировать у меня: http://seonotes.com.ua/robots.txt

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /*/?replytocom=*
Disallow: */comment-page-*
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /tag
Disallow: /sidebar/
Disallow: /xmlrpc.php
Disallow: /page/
Disallow: /images/

User-agent: Googlebot
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /*/?replytocom=*
Disallow: */comment-page-*
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /tag
Disallow: /sidebar/
Disallow: /xmlrpc.php
Disallow: /page/
Disallow: /images/

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /*/?replytocom=*
Disallow: */comment-page-*
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /tag
Disallow: /sidebar/
Disallow: /xmlrpc.php
Disallow: /page/
Disallow: /images/

Host: seonotes.com.ua
Sitemap: http://seonotes.com.ua/sitemap.xml
Sitemap: http://seonotes.com.ua/sitemap.xml.gz

Для внимательных расскажу - Disallow запрещает к индексированию файл или отдельный каталог.

 

Host - адрес вашего сайта. ВНИМАНИЕ!!! Заранее определитесь, будет ли ваш сайт доступен по www.ваш-сайт.ru или просто  ваш-сайт.ru, если будет доступен так и так - это грубейшая ошибка вашего сайта.

 

В будущем всегда оставляйте ссылки на свой блог только с тем вариантом (с www или без) который вы указали в роботе, ибо все ваши старания будут на смарку. Для нас 1 сайт, но для поисковиков его 2-ва, вот таки дела, в отдельном случае может и 4-е варианта быть.

 

Как узнать что в индексе?

Я надеюсь ваш сайт уже в Яндекс.Вебмастере, нет - регистрируйтесь сейчас же! Заходим во вкладку "Страниц в поиске":

 

Как видите, у меня в индексе есть "Туристический кроссворд", его можно бы и закрыть, тогда я бы вписал в robots.txt для wordpress -
Disallow: /kross<
Кстати интересно то, что Google индексирует намного больше хлама чем Яндекс, сравните:

Кто знает как от этого избавиться?

Смысл понятен? Если найдете страницы, которые не нужно индексировать - вписываете и дело с концом.

 

Дубль страниц

Многие страницы нашего блога повторяются, точнее не страницы а контент. К примеру на главной есть анонсы постов, этот же текст есть на странице категории, он есть на странице тегов и непосредственно в самом посте.

 

Представляете, что ваш анонс на блоге повторяется аж 4-е раза! Главную и страницу поста мы закрывать не будет, но вот страницы категорий и тегов - закрыть обязательно. Перейдите в настройку плагина "SEO все в одном" и поставьте нужные галочки:

 

За дубль и за доступность www и без него - поисковики жестоко наказывают, кстати это еще не всё, есть что рассказать.

Если нужно закрыть определённую страницу на сайте, скачайте плагин "Robots Meta" и тогда при редактировании постов и страниц появится вот такой вот виджетик:

Очень удобно!

Один раз сделайте и забудьте об этом файле, положите его в главную категорию вашего сайта через FTP.

На этом все дорогие друзья, теперь вы знаете как составить правильный robots txt для wordpress, если я что-то не правильно сказал - пишите в комментариях, если будет вопрос - отвечу.

 

На десерт: Что такое лиды? Как настроить тугую струю клиентов. Посмотрите обязательно!

27 thoughts on “Правильный robots txt для wordpress!

  1. У меня хоть и другой движок, но кое-что напишу. Я по совету одной тётеньки написал себе такой роботс, где всё запрещено, кроме карты сайта, главной страницы и страниц, оканчивающихся на .html, то есть нормальных страниц сайта.
    Кучу хлама, проиндексированного Гуглом, нужно удалять в гугловских Инструментах для вебмастеров. Там же можно выставить настройки, запрещающие индексацию Гуглом определённых типов страниц.

    1. Кстати заметил, что не у меня одного такая проблема, у многих топовых блогеров кол-во индексированного гуглом и яндексом разная. Причем на много.

      В вебмастере заметил только форуму удаления URL, но запаришься в ручную это всё удалять 🙂

      1. Во-во, я парился в своё время. Также в Вебмастере есть раздел «Конфигурация — Параметры URL». Там можно запретить к индексации адреса, содержащие определённые фразы: showComment, search, archive и любые другие.

      2. Правда, похоже на то, что Гугл пытается индексировать даже то, что запрещено к индексации.

  2. У меня сайт попал под агс, скорее всего из за дублей..возьму ваш роботс..посмотрим что будет

    1. Меняйте сейчас же! Из под АГС не выйдете точно, но трафик с Гугла можно улучшить. У вас много чего открыто + дубли страниц. Попробуйте поставить нормальный код и написать в Яндекс.

  3. Этот роботс уже выложили все кому не лень, но ни в одном не видел закрытие от индексации главного!
    Ссылка с more дает адрес заканчивающийся #more-111, а вот ссылка с заглавия превьюшки — без этого! Вот и самый большой источник дубляжа!
    Нет ни одного копастера статьи про роботс, который знает об этой проблеме и пытается ее решить!
    Причем в некоторых темах такого нет, решено на уровне шаблона темы пример http://abcwatch.ru/
    Смотрите сами, тему не помню, наверное она есть внизу.

    1. У меня частенько выскакивали левые страницы с только изображением. Лечиться очень просто — при добавлении картинки нужно указывать ссылку на изображение, так не будет дубляжа картинки.

      Не всегда понятно, почему Яндекс показывает более-менее реальную картинку, а Гугл запредельную. Это не только у меня.

  4. У меня несколько вопросов:
    1.Как согласуются картинки на сайте  с авторскими правами авторов?Или достаточно ссылки на источник?
    2.У меня точно есть карта сайта,а в поиске google не выдает,что делать?
    3.У меня,как я посмотрел,robots.txt неправильный,как практически внести исправления?
    Урок отличный!Заранее благодарен за ответ!

    1. 1) По картинкам поиск очень тугой сейчас, желательно уникальные картинки, но не заморачивайтесь этим.
      2) Вручную добавить в ЯндексВебмастере и в GoogleВебмастере
      3) Скачать со своего сайта, отредактировать встроенным блокнотом и загрузить назад

  5. Михаил! Мне говорят, что на мой сайт ругается Яндекс. А как мне узнать за что ругается и как исправиться? Заранее благодарен.

  6. Я только начинаю делать первый сайт.Возьму на заметку. Спасибо!

  7. Добрый день, Михаил!
    А почему Disallow: /images/ ?
    Мы запрещаем индексировать картинки?

    1. Эта папка только вручную создается и как правило в неё кладут различные картинки, иконки, которые не нужно давать поисковикам (с продажников, с страниц воронки т.д.)
      А картинки, которые мы загружаем через форму при редактировании статьей совсем в другом месте.

      1. Добрый день, Михаил.
        Скажите, вот эта директива закроет сайдбар:
        Disallow: /sidebar/
        если у меня там похожие записи в виде ссылок, значит они не будут индексироваться и влиять на оптимизацию ?

  8. А как же рекомендации мастеров своего дела (различные школы и т,д,)?
    Скопирую и обязательно заменю. Вот так всё просто,доступно и полезно.
    Как говориться:»Век живи,век учись…»

  9. После изменения robots.txt нужно грузить его куда-то или поисковики сами обнаружат? Как быть с ранее проиндексированными страницами? Где можно взять волшебный плагин «SEO все в одном»?

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *