Привет всем, сейчас предоставлю правильный robots txt для wordpress. Если вы не никак не можете его настроить, то мой совет будет как раз кстати и вы не попадете под АГС!
Файл robots.txt может запретить индексировать сайт, а может и запретить. Он нужен для того, чтобы поисковики не смогли проиндексировать ненужные страницы (админ панель, скрытые страницы) и они не попали в выдачу.
Внимание: если его не правильно настроить - можно без проблем попасть под фильтр АГС (примеры видел) и вот тогда он уже вам не понадобиться :). Сейчас мы с вами создадим правильный робот тхт, но сперва посмотрите на свой.
Вбейте в браузере: ваш-сайт.ru/robot.txt Если видна вот такая картинка:
То это очень плохо! У такого блога всё открыто, будет дубль контента и т.д.
Лежит этот файл в главной категории вашего сайта, создать его очень просто - создаете простой txt и переименовываете в robot, в него копируете код ниже и радуетесь жизнью.
Предлагаю в наглую скопировать у меня: //seonotes.com.ua/robots.txt
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /*/?replytocom=*
Disallow: */comment-page-*
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /tag
Disallow: /sidebar/
Disallow: /xmlrpc.php
Disallow: /page/
Disallow: /images/User-agent: Googlebot
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /*/?replytocom=*
Disallow: */comment-page-*
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /tag
Disallow: /sidebar/
Disallow: /xmlrpc.php
Disallow: /page/
Disallow: /images/User-agent: *
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /*/?replytocom=*
Disallow: */comment-page-*
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /tag
Disallow: /sidebar/
Disallow: /xmlrpc.php
Disallow: /page/
Disallow: /images/Host: seonotes.com.ua
Sitemap: //seonotes.com.ua/sitemap.xml
Sitemap: //seonotes.com.ua/sitemap.xml.gz
Для внимательных расскажу - Disallow запрещает к индексированию файл или отдельный каталог.
Host - адрес вашего сайта. ВНИМАНИЕ!!! Заранее определитесь, будет ли ваш сайт доступен по www.ваш-сайт.ru или просто ваш-сайт.ru, если будет доступен так и так - это грубейшая ошибка вашего сайта.
В будущем всегда оставляйте ссылки на свой блог только с тем вариантом (с www или без) который вы указали в роботе, ибо все ваши старания будут на смарку. Для нас 1 сайт, но для поисковиков его 2-ва, вот таки дела, в отдельном случае может и 4-е варианта быть.
Как узнать что в индексе?
Я надеюсь ваш сайт уже в Яндекс.Вебмастере, нет - регистрируйтесь сейчас же! Заходим во вкладку "Страниц в поиске":
Как видите, у меня в индексе есть "Туристический кроссворд", его можно бы и закрыть, тогда я бы вписал в robots.txt для wordpress -
Disallow: /kross<
Кстати интересно то, что Google индексирует намного больше хлама чем Яндекс, сравните:
Кто знает как от этого избавиться?
Смысл понятен? Если найдете страницы, которые не нужно индексировать - вписываете и дело с концом.
Дубль страниц
Многие страницы нашего блога повторяются, точнее не страницы а контент. К примеру на главной есть анонсы постов, этот же текст есть на странице категории, он есть на странице тегов и непосредственно в самом посте.
Представляете, что ваш анонс на блоге повторяется аж 4-е раза! Главную и страницу поста мы закрывать не будет, но вот страницы категорий и тегов - закрыть обязательно. Перейдите в настройку плагина "SEO все в одном" и поставьте нужные галочки:
За дубль и за доступность www и без него - поисковики жестоко наказывают, кстати это еще не всё, есть что рассказать.
Если нужно закрыть определённую страницу на сайте, скачайте плагин "Robots Meta" и тогда при редактировании постов и страниц появится вот такой вот виджетик:
Очень удобно!
Один раз сделайте и забудьте об этом файле, положите его в главную категорию вашего сайта через FTP.
На этом все дорогие друзья, теперь вы знаете как составить правильный robots txt для wordpress, если я что-то не правильно сказал - пишите в комментариях, если будет вопрос - отвечу.
На десерт: Что такое лиды? Как настроить тугую струю клиентов. Посмотрите обязательно!
У меня хоть и другой движок, но кое-что напишу. Я по совету одной тётеньки написал себе такой роботс, где всё запрещено, кроме карты сайта, главной страницы и страниц, оканчивающихся на .html, то есть нормальных страниц сайта.
Кучу хлама, проиндексированного Гуглом, нужно удалять в гугловских Инструментах для вебмастеров. Там же можно выставить настройки, запрещающие индексацию Гуглом определённых типов страниц.
Кстати заметил, что не у меня одного такая проблема, у многих топовых блогеров кол-во индексированного гуглом и яндексом разная. Причем на много.
В вебмастере заметил только форуму удаления URL, но запаришься в ручную это всё удалять 🙂
Во-во, я парился в своё время. Также в Вебмастере есть раздел “Конфигурация – Параметры URL”. Там можно запретить к индексации адреса, содержащие определённые фразы: showComment, search, archive и любые другие.
Правда, похоже на то, что Гугл пытается индексировать даже то, что запрещено к индексации.
Мне так же не понятно, ибо у топовых блогеров спрашивал – они хз 🙂
У меня сайт попал под агс, скорее всего из за дублей..возьму ваш роботс..посмотрим что будет
Меняйте сейчас же! Из под АГС не выйдете точно, но трафик с Гугла можно улучшить. У вас много чего открыто + дубли страниц. Попробуйте поставить нормальный код и написать в Яндекс.
Этот роботс уже выложили все кому не лень, но ни в одном не видел закрытие от индексации главного!http://abcwatch.ru/
Ссылка с more дает адрес заканчивающийся #more-111, а вот ссылка с заглавия превьюшки – без этого! Вот и самый большой источник дубляжа!
Нет ни одного копастера статьи про роботс, который знает об этой проблеме и пытается ее решить!
Причем в некоторых темах такого нет, решено на уровне шаблона темы пример
Смотрите сами, тему не помню, наверное она есть внизу.
У меня частенько выскакивали левые страницы с только изображением. Лечиться очень просто – при добавлении картинки нужно указывать ссылку на изображение, так не будет дубляжа картинки.
Не всегда понятно, почему Яндекс показывает более-менее реальную картинку, а Гугл запредельную. Это не только у меня.
robots содрал,посмотрим что будет. заранее спасибо.
У меня несколько вопросов:
1.Как согласуются картинки на сайте с авторскими правами авторов?Или достаточно ссылки на источник?
2.У меня точно есть карта сайта,а в поиске google не выдает,что делать?
3.У меня,как я посмотрел,robots.txt неправильный,как практически внести исправления?
Урок отличный!Заранее благодарен за ответ!
1) По картинкам поиск очень тугой сейчас, желательно уникальные картинки, но не заморачивайтесь этим.
2) Вручную добавить в ЯндексВебмастере и в GoogleВебмастере
3) Скачать со своего сайта, отредактировать встроенным блокнотом и загрузить назад
Спасибо! у меня этот файл вообще отсутствовал, по крайней мере я не нашла… записала по вашему образцу)
Михаил! Мне говорят, что на мой сайт ругается Яндекс. А как мне узнать за что ругается и как исправиться? Заранее благодарен.
Зарегистрируйтесь в Яндекс.Вебмастере и пусть он посмотрит ваш сайт, возможно вирус завелся, возможно еще что-то.
Я только начинаю делать первый сайт.Возьму на заметку. Спасибо!
Добрый день, Михаил!
А почему Disallow: /images/ ?
Мы запрещаем индексировать картинки?
Эта папка только вручную создается и как правило в неё кладут различные картинки, иконки, которые не нужно давать поисковикам (с продажников, с страниц воронки т.д.)
А картинки, которые мы загружаем через форму при редактировании статьей совсем в другом месте.
Добрый день, Михаил.
Скажите, вот эта директива закроет сайдбар:
Disallow: /sidebar/
если у меня там похожие записи в виде ссылок, значит они не будут индексироваться и влиять на оптимизацию ?
Да
Хорошая статья
Спасибо большое. Понятно обьясняете.
А как же рекомендации мастеров своего дела (различные школы и т,д,)?
Скопирую и обязательно заменю. Вот так всё просто,доступно и полезно.
Как говориться:”Век живи,век учись…”
После изменения robots.txt нужно грузить его куда-то или поисковики сами обнаружат? Как быть с ранее проиндексированными страницами? Где можно взять волшебный плагин «SEO все в одном»?
Нужно его заменить, а поисковики сами переиндексируют. Введите в поиск и скачайте его.
Тоже делаю сайт. Полезная информация. Спасибо