Правильный robots txt для wordpress!

Правильный robots txt для wordpress!

Привет всем, сейчас предоставлю правильный robots txt для wordpress. Если вы не никак не можете его настроить, то мой совет будет как раз кстати и вы не попадете под АГС!

Файл robots.txt может запретить индексировать сайт, а может и запретить. Он нужен для того, чтобы поисковики не смогли проиндексировать ненужные страницы (админ панель, скрытые страницы) и они не попали в выдачу.




Внимание: если его не правильно настроить - можно без проблем попасть под фильтр АГС (примеры видел) и вот тогда он уже вам не понадобиться :). Сейчас мы с вами создадим правильный робот тхт, но сперва посмотрите на свой.

Вбейте в браузере: ваш-сайт.ru/robot.txt Если видна вот такая картинка:

То это очень плохо! У такого блога всё открыто, будет дубль контента и т.д.

 

Лежит этот файл в главной категории вашего сайта, создать его очень просто - создаете простой txt и переименовываете в robot, в него копируете код ниже и радуетесь жизнью.

 

Предлагаю в наглую скопировать у меня: //seonotes.com.ua/robots.txt

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /*/?replytocom=*
Disallow: */comment-page-*
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /tag
Disallow: /sidebar/
Disallow: /xmlrpc.php
Disallow: /page/
Disallow: /images/

User-agent: Googlebot
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /*/?replytocom=*
Disallow: */comment-page-*
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /tag
Disallow: /sidebar/
Disallow: /xmlrpc.php
Disallow: /page/
Disallow: /images/

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /*/?replytocom=*
Disallow: */comment-page-*
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /tag
Disallow: /sidebar/
Disallow: /xmlrpc.php
Disallow: /page/
Disallow: /images/

Host: seonotes.com.ua
Sitemap: //seonotes.com.ua/sitemap.xml
Sitemap: //seonotes.com.ua/sitemap.xml.gz

Для внимательных расскажу - Disallow запрещает к индексированию файл или отдельный каталог.

 

Host - адрес вашего сайта. ВНИМАНИЕ!!! Заранее определитесь, будет ли ваш сайт доступен по www.ваш-сайт.ru или просто  ваш-сайт.ru, если будет доступен так и так - это грубейшая ошибка вашего сайта.

 

В будущем всегда оставляйте ссылки на свой блог только с тем вариантом (с www или без) который вы указали в роботе, ибо все ваши старания будут на смарку. Для нас 1 сайт, но для поисковиков его 2-ва, вот таки дела, в отдельном случае может и 4-е варианта быть.

 

Как узнать что в индексе?

Я надеюсь ваш сайт уже в Яндекс.Вебмастере, нет - регистрируйтесь сейчас же! Заходим во вкладку "Страниц в поиске":

 

Как видите, у меня в индексе есть "Туристический кроссворд", его можно бы и закрыть, тогда я бы вписал в robots.txt для wordpress -
Disallow: /kross<
Кстати интересно то, что Google индексирует намного больше хлама чем Яндекс, сравните:

Кто знает как от этого избавиться?

Смысл понятен? Если найдете страницы, которые не нужно индексировать - вписываете и дело с концом.

 

Дубль страниц

Многие страницы нашего блога повторяются, точнее не страницы а контент. К примеру на главной есть анонсы постов, этот же текст есть на странице категории, он есть на странице тегов и непосредственно в самом посте.

 

Представляете, что ваш анонс на блоге повторяется аж 4-е раза! Главную и страницу поста мы закрывать не будет, но вот страницы категорий и тегов - закрыть обязательно. Перейдите в настройку плагина "SEO все в одном" и поставьте нужные галочки:

 

За дубль и за доступность www и без него - поисковики жестоко наказывают, кстати это еще не всё, есть что рассказать.

Если нужно закрыть определённую страницу на сайте, скачайте плагин "Robots Meta" и тогда при редактировании постов и страниц появится вот такой вот виджетик:

Очень удобно!

Один раз сделайте и забудьте об этом файле, положите его в главную категорию вашего сайта через FTP.

На этом все дорогие друзья, теперь вы знаете как составить правильный robots txt для wordpress, если я что-то не правильно сказал - пишите в комментариях, если будет вопрос - отвечу.

 

На десерт: Что такое лиды? Как настроить тугую струю клиентов. Посмотрите обязательно!

25 thoughts on “Правильный robots txt для wordpress!

  1. У меня хоть и другой движок, но кое-что напишу. Я по совету одной тётеньки написал себе такой роботс, где всё запрещено, кроме карты сайта, главной страницы и страниц, оканчивающихся на .html, то есть нормальных страниц сайта.
    Кучу хлама, проиндексированного Гуглом, нужно удалять в гугловских Инструментах для вебмастеров. Там же можно выставить настройки, запрещающие индексацию Гуглом определённых типов страниц.

    1. Кстати заметил, что не у меня одного такая проблема, у многих топовых блогеров кол-во индексированного гуглом и яндексом разная. Причем на много.

      В вебмастере заметил только форуму удаления URL, но запаришься в ручную это всё удалять 🙂

      1. Во-во, я парился в своё время. Также в Вебмастере есть раздел «Конфигурация — Параметры URL». Там можно запретить к индексации адреса, содержащие определённые фразы: showComment, search, archive и любые другие.

      2. Правда, похоже на то, что Гугл пытается индексировать даже то, что запрещено к индексации.

  2. У меня сайт попал под агс, скорее всего из за дублей..возьму ваш роботс..посмотрим что будет

    1. Меняйте сейчас же! Из под АГС не выйдете точно, но трафик с Гугла можно улучшить. У вас много чего открыто + дубли страниц. Попробуйте поставить нормальный код и написать в Яндекс.

  3. Этот роботс уже выложили все кому не лень, но ни в одном не видел закрытие от индексации главного!
    Ссылка с more дает адрес заканчивающийся #more-111, а вот ссылка с заглавия превьюшки — без этого! Вот и самый большой источник дубляжа!
    Нет ни одного копастера статьи про роботс, который знает об этой проблеме и пытается ее решить!
    Причем в некоторых темах такого нет, решено на уровне шаблона темы пример http://abcwatch.ru/
    Смотрите сами, тему не помню, наверное она есть внизу.

    1. У меня частенько выскакивали левые страницы с только изображением. Лечиться очень просто — при добавлении картинки нужно указывать ссылку на изображение, так не будет дубляжа картинки.

      Не всегда понятно, почему Яндекс показывает более-менее реальную картинку, а Гугл запредельную. Это не только у меня.

  4. У меня несколько вопросов:
    1.Как согласуются картинки на сайте  с авторскими правами авторов?Или достаточно ссылки на источник?
    2.У меня точно есть карта сайта,а в поиске google не выдает,что делать?
    3.У меня,как я посмотрел,robots.txt неправильный,как практически внести исправления?
    Урок отличный!Заранее благодарен за ответ!

    1. 1) По картинкам поиск очень тугой сейчас, желательно уникальные картинки, но не заморачивайтесь этим.
      2) Вручную добавить в ЯндексВебмастере и в GoogleВебмастере
      3) Скачать со своего сайта, отредактировать встроенным блокнотом и загрузить назад

  5. Михаил! Мне говорят, что на мой сайт ругается Яндекс. А как мне узнать за что ругается и как исправиться? Заранее благодарен.

  6. Я только начинаю делать первый сайт.Возьму на заметку. Спасибо!

  7. Добрый день, Михаил!
    А почему Disallow: /images/ ?
    Мы запрещаем индексировать картинки?

    1. Эта папка только вручную создается и как правило в неё кладут различные картинки, иконки, которые не нужно давать поисковикам (с продажников, с страниц воронки т.д.)
      А картинки, которые мы загружаем через форму при редактировании статьей совсем в другом месте.

      1. Добрый день, Михаил.
        Скажите, вот эта директива закроет сайдбар:
        Disallow: /sidebar/
        если у меня там похожие записи в виде ссылок, значит они не будут индексироваться и влиять на оптимизацию ?

  8. А как же рекомендации мастеров своего дела (различные школы и т,д,)?
    Скопирую и обязательно заменю. Вот так всё просто,доступно и полезно.
    Как говориться:»Век живи,век учись…»

  9. После изменения robots.txt нужно грузить его куда-то или поисковики сами обнаружат? Как быть с ранее проиндексированными страницами? Где можно взять волшебный плагин «SEO все в одном»?

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *