Как создать правильный robots.txt для WordPress и не только

Рад приветствовать на блоге!

В статье Вы узнаете о том, как создать правильный robots.txt для WordPress блога, зачем он вообще нужен, и как сделать правильный robots.txt. Обычно новички, то есть свежие блоггеры делают одну и ту же очень грубую ошибку, забывают или просто создают robots.txt не правильно, это потом негативно отражается на их блоге. Читайте далее, как создать правильный robots…

ЗАЧЕМ ВООБЩЕ НУЖЕН ПРАВИЛЬНЫЙ ФАЙЛ ROBOTS.TXT НА WORDPRESS БЛОГЕ

Движок WordPress, является очень удобным инструментом для ведения бизнеса, записей своих мыслей, мнений и осуществления каких-то проектов. Пользуясь им нужно всего лишь знать примерно 20% HTML и где-то 10% CSS. Так вот каким бы движок WordPress не был удобным и простым (Как создать блог для жизни), все же он имеет массу недостатков, например, дубликат контента.

Если правильно не закрыть дублирующийся контент от поисковых роботов, то это может закончиться плачевно для Вашего WordPress блога, ну, и как Вы понимаете для бизнеса тоже. Поэтому советую внимательно читать дальше, и Вы создадите хороший robots.txt, а главное сделаем все правильно. Так как он уже подтвердил свой авторитет у многих успешных блоггеров.

  • Александр Борисов
  • Александр Бобрин
  • Вебмастер Максим
  • Devaka
  • KtoNaNovenkogo

Вот к примеру: Вы публикуете новую статью, она же появляется сразу на нескольких страницах. На главной станице, RSS-ленте, в рубриках, архивах в поиске и т.д. хоть эти страницы и с разными адресами, но, с одинаковым контентом, то есть текстом. Такой контент называется дублированным и блог может попасть под фильтры АГС поисковых систем (страницы блога выкинут из поиска) или вообще получите БАН, тогда можно и не мечтать о посетителях.

Почему так? Да потому, что это то же самое, если бы Вы взяли контент с другого сайта и он будет уже не уникален на блоге.

Что бы такого ни произошло, нужно составить правильный robots.txt для WordPress и запретить поисковикам индексировать часть контента. Нужно закрыть не только часть контента! В корне лежит много служебных каталогов, которые нужно запретить от индекса.

КАК СОСТАВИТЬ ПРАВИЛЬНЫЙ ROBOTS.TXT ДЛЯ WORDPRESS

Как составить правильный robots.txt

Для начала узнаем основные правила – как он правильно пишется, то есть узнаем директивы.

Первая директива – user agent:

С помощью директивы выше мы укажем какому, поисковому роботу предназначены правила, которые укажем далее.

Приведу пример: Вы запрещаете индексировать свой сайт или блог поисковой системе Яндекс, тогда следует написать такое правило:

User-agent: Yandex

Или Вы хотите дать запрет всем поисковикам, тогда нужно написать:

User-agent: *

Особенно следует указать правила в нашем правильном robots.txt для WordPress Яндексу, так как поисковая система достаточно капризная и с нее идет само больше трафика. Для остальных поисковых систем мы будем писать так:

User-agent: *

Дальше идет директивы disallow и Allow:

Allow – разрешаем индексацию элементов, которые там указаны.

Disallow – наоборот запрещает индексацию указанных элементов.

Каждый robots.txt, должен иметь директиву Disallow (обновление за 02.05.2015 — правила изменились, читайте здесь как и что нужно для правильной работы). Далее читайте внимательно, иначе ничего у вас не получиться!

Правильный robots.txt

ПРАВИЛЬНЫЙ РОБОТС, НАПИШЕМ ТАК

User-agent: Yandex

Disallow:

Так мы разрешим Яндексу индексировать полностью весь сайт или блог.

А теперь вот так:

User-agent: Yandex

Disallow: /

Теперь мы запретили индексировать весь блог.

Правильный robots.txt

ПОСМОТРИМ ПРИМЕР СОСТАВЛЕНИЯ ROBOTS
User-agent: *

Disallow:

User-agent: Yandex

Disallow: /

Тут мы с Вами разрешили всем роботам индексировать блог, а вот Яндексу наоборот запретили.

Теперь Вы должны знать, что именно в WordPress блоге нужно закрывать от индексации, все файлы и папки, которые делают дубль страниц и остальной мусор!

СЛУЖЕБНЫЕ И СИСТЕМНЫЕ ФАЙЛЫ В ROBOTS.TXT
— wp-login.php

— wp-register.php

— wp-content/

— wp-admin/

— wp-includes/

Ставлю ударение на папке wp-content, все файлы в ней надо обязательно закрыть, только разрешить индексировать папку uploads, в ней лежат изображения Вашего блога, которые нужно, чтобы поисковики индексировали, если поставить запрет на эту папку, то Ваши изображения на блоге не будут проиндексированы, а это Вам надо?

Правильный robots.txt

закроем каталоги в папке по отдельности

Disallow: /wp-content/themes

Disallow: /wp-content/plugins

Disallow: /wp-content/languages

Disallow: /wp-content/cache

Если вдруг в папке wp-content есть еще какие-то каталоги, то закройте их обязательно, оставьте доступной только папку “uploads”.

Ладно, надеюсь, я понятно все объяснил, Вы все поняли, и эта статья написана не напрасно. Поэтому дальше не буду описывать все последующие функции файла, а просто выложу свой, который использую на блоге. Жмите здесь для просмотра.

Эти правила рекомендуют вставлять в robots.txt разработчики движка wordpress

# Google Image

User-agent: Googlebot-Image

Disallow:

Allow: /*

# Internet Archiver Wayback Machine

User-agent: ia_archiver

Disallow: /

# digg mirror

User-agent: duggmirror

Disallow: /
МОИ РЕКОМЕНДАЦИИ по СОСТАВЛЕНИю ПРАВИЛЬНОГО РОбОТС

Для того чтобы закрепить полученные знания нужно вам создать текстовый файл под названием robots.txt.

Правильный robots.txt

Внимание: не забудьте поменять следующие строчки:

Sitemap: https://www.advdk.com/sitemap.xml;

Sitemap: http:// www.advdk.com/sitemap.xml.gz ;

Host: www.advdk.com.

www.advdk.com поменяйте на свой адрес сайта.

После того как Вы все сделали, поместите файл robots.txt в корне Вашего блога.

Смотрите видео «дублирование контента»

ЕЩЕ НЕМНОГО ПРО ДУБЛИ КОНТЕНТА

Откройте главную страницу Вашего сайта, там вы увидите ленту. Нажмите на заголовок статьи, и Вы перешли на страницу mysite.com/…/…html, то есть та часть на главной странице является дублем, так на главной она тоже есть.

Запретить поисковикам индексировать главную страницу мы не можем, вот именно поэтому выводите на главную страницу как можно меньше текста. Примерно 200-400 символов.

Правильный robots.txt

Пишите приветствие, короткий анонс статьи и ставьте картинку

Для примера зайдите ко мне на главную страницу и посмотрите (анонсы к статьям).

Для вывода подобных анонсов используется тег <! —more—>.

Чтобы узнать подробнее о правильном написании статьи – читайте в следующей записи.

Если говорить простым понятным русским языком, то просто напишите свое приветствие, короткий анонс Вашей статьи и ставьте тег <! —more—>.

Как составить правильный robots.txt

После того как Вы поставили тег <! —more—>, пишите дальше свой пост.

Все то, что написано перед тегом <! —more—>, будет на главной странице блога

Посмотрите видео

Буду заканчивать. Надеюсь, эта статья Вам понравилась и принесла пользу. Оставляйте свои комментарии и подписывайтесь на [urlspan]обновления моего блога[/urlspan], чтобы ничего не пропустить.

С уважением, Алексей Кобзарев



Интересный и полезный контент

38 thoughts on “Как создать правильный robots.txt для WordPress и не только

  1. Александр Иванович

    Алексей!
    Отличная статья. Самое главное написана доходчиво и простым языком.
    А это очень важно для новичков.
    По поводу дублирования контента:
    Рубрики и архивы ведь можно запретить индексировать в плагине Сео всё в одном. Или я не прав?

    1. Алексей Кобзарев Автор записи

      Да, Вы правы! Но лучше лишний рас перестраховаться.

  2. Александр Иванович

    Алексей!
    Прошу прощения, что вопрос не по теме.
    Я заметил, что у тебя на блоге есть запрет на копирование. Ты это сделал с помощью плагина или по другому.
    Дело в том, что я хотел установить подобный плагин у себя на сайте, но прочитал, что это не приветствуется поисковиками.Это действительно так?

    1. Алексей Кобзарев Автор записи

      Плагин я не использовал. Стараюсь пользоваться только необходимыми плагинами для wordpress блога, так как они замедляют работу блога.
      Александр используйте лучше специальный код, на который поисковики не обращают внимания:



      Вставьте его перед закрывающимся тегом

      1. Александр

        Приветствую! Статья полезная, действительно многие не задумываются по поводу файла robots.txt. Не совсем понял о каком запрете на копирование идет речь — попробовал прямо на этой странице — все прекрасно копируется, хоть текст кусками, хоть вся страница целиком… Или я как-то неправильно копирую? 🙂

  3. Александр Иванович

    Алексей!
    У меня вопрос.
    Как быстро поисковики индексируют написанную тобой статью?

    1. Алексей Кобзарев Автор записи

      Максимум один день, а бывает, что уже через несколько часов проверяю страницу, а она уже проиндексирована и добавлена в поисковую выдачу.
      Вы наверное переживаете насчет того кода «запрет на копирования контента»? Добавьте его к себе на сайт, напишите новую статью и через несколько часов, а лучше через день, проверьте ее здесь http://webmaster.yandex.ua/addurl.xml. Если возникнут проблемы, то просто удалите код.

      1. Александр Иванович

        Алексей!
        Я совершенно не переживаю по поводу кода «Запрет на копирование контента»
        У меня вот уже более двух месяцев переживание по другой причине.
        А главное я пока не могу найти концов у этой проблемы.
        Дело в том, что у меня на другом сайте, да и на этом, но в меньшей степени, происходят чудеса.
        Поисковики Яндекса заходят регулярно, но статьи не индексируют.
        Мало того, каждый заход сопровождается выкидыванием из поиска уже проиндексированных статей.
        Написал о проблеме Платону — жду ответа

        1. Алексей Кобзарев Автор записи

          Пишите сюда http://www.advdk.com/ob-avtore/kontaktnye-dannye поищем в чем причина вместе.

        2. Александр Иванович

          Алексей!
          Прошу прощения, что долго молчал, но на то были веские причины.
          Буквально на другой день после моего последнего комментария – 6.09 умер мой родной брат, после чего моё здоровье ухудшилось (инсульт двухмесячной давности дал о себе знать.) Дети запретили мне даже подходить к компьютеру.
          Сейчас здоровье налаживается

        3. Алексей Кобзарев Автор записи

          Рад за Вас! Кстати если проблемы со здоровьем, то возле компьютера лучше проводить меньше времени. Дети правы!

        4. Александр Иванович

          Алексей!
          Хочу поблагодарить тебя за помощь, предложенную тобой, но она не понадобилась.
          Проблема моя решилась (друзья помогли пока я болел).
          У меня просто немного не правильно был настроен плагин All in One SEO Pack
          Это ещё раз доказывает, что к настройкам нужно подходить ответственно. Мелочей здесь не бывает!

  4. Марина

    Хорошая статья! Жаль, что она не попалась мне раньше. Ох, и намучилась я в свое время с robot. txt. Вы по образованию програмист или это призвание?

    1. Алексей Кобзарев Автор записи

      Я научился всему этому сам с помощью ВидеоКурсов и ВидеоУроков, поэтому и презентую их на блоге.

  5. Руслан

    Правильный файл роботс.тхт это очень хорошо и если его правильно настроить то о дублях страниц можно просто забыть. Я лично несколько раз пытался настроить файл роботс.тхт и теперь у меня это не плохо получается ив индексе нет ничего лишнего, то есть я все правильно сделал.

    1. Александр Иванович

      Руслан!
      Ты прав!00%.
      Чтобы не иметь проблем, важно настроить robots.txt, причём правильно. И не только robots.txt!

  6. Станислав

    Спасибо,что-то новое взял на заметку! Очень подробно и доступно.

    1. Алексей Кобзарев Автор записи

      Пожалуйста! О правильном файле robots.txt, желательно все знать в мельчайших подробностях.

  7. check it out now

    Жаль, что в Интернете мало находила таких содержательных материалов

  8. Ольга

    Спасибо за пример robots.txt. Ваш как минимум длиннее моего в два раза.
    Поискала и сама нашла Ваш robots.А ничего, что у Вас две внешние ссылки?
    Вы ведете свой форум?

    1. Алексей Кобзарев Автор записи

      Не то чтобы веду, создал, но нет времени на ведение.

      Одна ссылка на поддомен (форум), а вторая? Я бывает забываю закрывать не нужные ссылки, поэтому мне очень важен ответ.

  9. Виталий

    Алексей,
    спасибо за предыдущий ответ по h3,
    теперь вот возник вопрос по robots.txt:
    Почему при проверке файла robots.txt веб-инструментом Гугл, самостоятельно добавляется строчка: Crawl-delay: 10, а потом пишет предупреждение, указывая на эту запись?
    Вставлял разные robots.txt и всегда без строчки Crawl-delay: 10,
    но она всегда сама появляется и веб-инструмент указывает, что это предупреждение.

    Как это исправить, чтобы эта строчка не выводилась?

    Спасибо за помощь!

    1. Алексей Кобзарев Автор записи

      Что-то не так прописано. Скопируйте мой и не парьтесь: http://advdk.com/robots.txt. Поменяйте только Host и sitemap.

    2. Алексей Кобзарев Автор записи

      Эта строка не учитывается роботом Googlebot, поэтому показывает ошибку. Можете оставить ее для других поисковых систем. Цифра 10, это интервал в секундах посещения роботов, то есть вы говорите роботам, когда и сколько раз можно приходить к вам на блог. Я эту строку к себе пока не добавляю, может позже, если будут проблемы с нагрузкой.

  10. Виталий

    Уверен и в Вашем у меня возникнет такая проблема. Сейчас поставлю Ваш, потом отпишусь. Спасибо за помощь! 🙂

  11. Виталий

    Алексей,

    смотрите, результат тот же, и в Вашем файле появилась эта строка:
    http://interior-designing.ru/robots.txt

    Кроме того, мне кажется я нашёл у Вас две опечатки:
    Disallow: /3013/ — возможно должно быть /2013/
    Disallow /?s — возможно должно быть Disallow: /?s

    Есть мысли как мне избавиться от этого Crawl-delay: 10? 🙁

    Спасибо за помощь!

    1. Алексей Кобзарев Автор записи

      Еще хотел вам сказать, что Crawl-delay – директива файла robots.txt для снижения нагрузки на сервер. Ничего плохого в ней нет.

  12. Виталий

    А где и как удалить?
    Когда я открываю файл через фтп, там этой строчки нет, эта строчка видна только когда смотришь страницу файла.
    Видна на всех, какие я уже не менял (включая и Ваш). Инструменты вебмастера гугл тоже видят эту строчку и постоянно выдают ПРЕДУПРЕЖДЕНИЕ. Какое-то волшебство, строчки нет, а её видно (((

    Что это может быть?

    1. Алексей Кобзарев Автор записи

      Даже не знаю, что это может быть. Попробуйте связаться с техподдержкой google, но вряд ли они ответят на такую мелочь. Еще раз говорю, что это не страшно, робот просто не будет обращать внимания на строку.

  13. Виталий

    Да, согласен, что в ней ничего плохого нет, но гугол постоянно указывает на неё как на предупреждение, потому что она написана неправильно надо:
    Crawl-Delay: 10#
    Если бы так было написано, я бы даже и не думал ничего, а так уже некорректный файл и не знаю, как быть, только когда robots.txt вообще удаляю с корневой папки, эта строка пропадает, но все равно на сайте видно robots.txt.

    Хотя реально его на сайте нет….. Чудо какое-то.

    Вот сейчас файл уберу, а Вы посмотрите, он будет в таком «урезанном» виде, но без той строчки……

    1. Алексей Кобзарев Автор записи

      Не занимайтесь ерундой. Напишите в файл то, что вам нужно, все остальное удалите и сохраните его. Это может быть глюк браузера или в системе збой, вы только отнимаете у себя время.

  14. Виталий

    Спасибо за советы и желание помочь, буду искать причину, а пока буду без файла вообще, лучше чем с неправильным.

    Спасибо ещё раз и удачи! 🙂

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *