Как правильно составить robots. txt

Приветствую всех читателей блога seversantana.ru. Как правильно составить robots.txt, для чего он нужен, и что это такое? Давайте попробуем прояснить ситуацию.
robots.txt — текстовый файл составляемый для роботов поисковых систем. В нем задаются параметры индексирования сайта. Эти параметры можно прописать как для всех роботов сразу, так и для каждой поисковой системы в отдельности.
Как правильно составить robots. txt

Поисковые роботы («веб-пауки») это специальные программы являющиеся составной частью поисковой системы предназначенные для сканирования веб-страниц и занесения информации об этих страницах в базу данных поисковой системы. Далее, поисковик согласно никому не ведомым алгоритмам определяет значимость полученной информации, и заносит её (либо нет) в свой индекс определяя ранжирование.

Помимо всевозможных «веб-пауков» по интернету еще гуляют и роботы-«дятлы», периодически «простукивая» индексированные сайты, проверяя их на доступность. Вот для всего этого «зверья» и предназначен текстовый файл robots.txt.

Предназначение robots.txt указать поисковым роботам какие страницы сайта и данные нужно индексировать, а какие нет. Делается это при помощи составления директив (указаний). Работа поисковых роботов зашедших на сайт начинается с закачки robots.txt.

Как ведут себя поисковые роботы при отсутствии robots.txt? При его отсутствии или неправильном месторасположении, когда робот просто не может его найти, он сканирует весь сайт без ограничений.

Помимо robots.txt запрет на индексацию можно осуществлять при помощи парольной защиты файлов на сервере или используя метатеги с директивами по индексированию.

Плохо это или хорошо? Ну и, пусть сканирует и индексирует все подряд. Какая разница есть robots.txt или нет? Начнем с того, что составить директивы для robots.txt и создать его даже впервые в жизни, не такое уж трудоемкое дело. Зачем отдавать на индексацию служебные файлы или добровольно создавать внутренние дубли?

Дубли (дублирование контента) это одинаковый контент доступный по разным URL адресам. А наличие дублей отрицательно сказывается на ранжировании наших страниц в выдаче поисковых систем.

Составление директив в robots.txt для поисковых роботов не является полным руководством к действию. Это всего лишь рекомендации. Все зависит от того, какой робот зашел на сайт и как настроены его поисковые алгоритмы. Некоторые роботы будут в упор не видеть наши запреты. И даже «прочитав» директиву на полный запрет индексации сайта не сядут на задницу, как робот на картинке, прикрепленной к моей статье. А просто возьмут и проиндексируют то, что им надо.

Но так как нас интересует в основном выдача в Гугл и Яндексе для этих поисковых систем в первую очередь и предназначен наш robots.txt.Как я говорил выше robots.txt можно создать универсальный для всех поисковых систем, а можно прописать отдельные директивы (указания) специально для определенных роботов.

к оглавлению ↑

Создание и составление robots.txt

Создаем robots.txt

Создать текстовый файл robots.txt несложно, делается это при помощи любого текстового редактора. Но я бы рекомендовал привыкать работать с текстовым редактором Notepad++. Самую новую версию бесплатного редактора вы можете скачать с официального сайта.

Открываем редактор, в левом верхнем углу жмем на «Файл», в выпадающем списке кликаем на «Новый». В окне появится чистый пустой файл без содержания. После этого снова жмем на «Файл», и кликаем на строку «Сохранить как…».

Откроется следующее окно в котором надо выбрать место на компьютере где мы хотим сохранить файл. Например, на рабочем столе. И прописываем в строке «Имя файла» — robots.txt. И жмем на «Сохранить». Все, файл robots.txt создан. Правда, пока без содержания. Теперь займемся составлением директив для поисковых роботов.

к оглавлению ↑

Используемые директивы при составлении robots.txt

User-agent

В качестве примера составим самый простой в мире robots.txt в двух вариантах. С полным запретом на индексацию всего сайта, и с разрешающей директивой индексации всего подряд.

Полный запрет на индексацию всего сайта

User-agent: *

Disallow: /

Индексация сайта с отсутствием каких-либо запретов

User-agent: *

Disallow:

User-agent и варианты параметров

User-agent: *

Параметр * говорит о том, что директивы прописаны для всех поисковых роботов.

User-agent: Yandex

Такое заполнение User-agent подсказывает роботам Яндекса, что нижеследующие за этой строкой директивы прописаны для них. И они будут сканировать сайт согласно этим директивам. При этом если в robots.txt также прописана общая директива для всех роботов User-agent: *, указания в ней будут проигнорированы поисковыми роботами Яндекса.

То же самое и касается всех роботов других поисковых систем.

Составим директиву для роботов Гугл User-agent: Google, то и они соответственно выполнят указания прописанные ниже этой строки, игнорируя директивы, составленные под строкой User-agent: *

Disallow и ее заполнение

Основная директива при составлении robots.txt переводится как запрет или запретить.

Disallow:

Пустая директива, означающая отсутствие запретов на индексацию страниц сайта.

Disallow: /

Директива со слешом означает полный запрет на индексацию.

Disallow: / CGI-BIN / — запрет на индексацию каталога со скриптами и всех его подкаталогов. Слеш вначале означает что это корневой каталог сайта. Слеш в конце говорит о том, что от индексации закрывается именно каталог, а не файл.

Allow

В отличие от Disallow является разрешающей директивой.
Рассмотрим в качестве примера следующее:

Allow: /cgi-bin

Разрешает скачивать страницы для индексации начинающиеся с cgi-bin.

Спецсимволы * и $

В Allow и Disallow с помощью спецсимволов *’ и ‘$’ можно задавать определенные регулярные выражения при указании путей для директив.

Спецсимвол ‘*’

Спецсимвол ‘*’ означает любую (в том числе пустую) последовательность символов. Примеры:

User-agent: Yandex
Disallow: /cgi-bin/*.aspx # запрещает ‘/cgi-bin/example.aspx’
# и ‘/cgi-bin/private/test.aspx’
Disallow: /*private # запрещает не только ‘/private’,
# но и ‘/cgi-bin/private’

Спецсимвол $
По умолчанию к концу каждого правила, описанного в robots.txt, приписывается ‘*’, например:

User-agent: Yandex
Disallow: /cgi-bin* # блокирует доступ к страницам
# начинающимся с ‘/cgi-bin’
Disallow: /cgi-bin # то же самое

Чтобы отменить ‘*’ на конце правила, можно использовать спецсимвол ‘$’, например:

User-agent: Yandex
Disallow: /example$ # запрещает ‘/example’,
# но не запрещает ‘/example.html’

, тогда как

User-agent: Yandex
Disallow: /example # запрещает и ‘/example’,
# и ‘/example.html’

Имейте в виду, что «$» не запрещает явно проставленные «*» на конце, то есть:

User-agent: Yandex
Disallow: /example$ # запрещает только ‘/example’
Disallow: /example*$ # так же, как ‘Disallow: /example’
# запрещает и /example.html и /example

Sitemap

Эту директиву можно использовать если на вашем ресурсе используется карта сайта в формате xml.

Созданная карта сайта в формате xml скармливается поисковым роботам через robots.txt для более быстрой индексации страниц сайта.

Действительно ли это так? Среди веб-мастеров по этому вопросу был и будет нескончаемый холивар, как и по поводу пользы или бесполезности robots.txt.

Составляется директория следующим образом.

Sitemap: http://yoursite.ru/sitemap.xml

Host

Директива, прописываемая в robots.txt для поисковых роботов Яндекса. Роботы других поисковых систем с этой директивой незнакомы и не понимают ее. Указываем эту директиву при наличии зеркал сайта. Робот, называемый зеркальщиком сформирует их в общую группу, и в поиске будет участвовать только главное зеркало, которое мы указали в директиве Host.

Яндекс говорит о том, что не гарантирует выбора им в качестве главного зеркала, согласно заполненной нами директиве Host. Но принимая решение, учитывает ее с высоким приоритетом. Правильно составленная директива Host выглядит так:

Host: www.myhost.ru

Или без www:

Host:myhost.ru

Зависит от того, какое зеркало вы считаете главным.При составлении robots.txt директива Host прописывается после User-agent, Disallow и Allow.В одном robots.txt есть место только для одной директивы Host. Если прописать несколько учитываться будет первая.

Crawl-delay

Используется при сильной загруженности сервера. Выставляется в секундах минимальный период во времени после окончания закачки одной страницы и начала скачивания другой. Яндекс говорит о том, что использование этой директивы дает больше свободы роботу, и позволяет ему ускорить обход сайта.

Составляя robots.txt так же как и в случае с директорией Host, прописываем Crawl-delay после User-agent, Disallow и Allow.
Пример:

Crawl-delay: 4.5
к оглавлению ↑

Мой robots.txt для seversantana.ru работающем на WordPress

Прежде чем составить robots.txt и закинуть его не сервер, надо разобрать каждую строку, и понять какая из них, и за что отвечает. Для каждой CMS в интернете можно найти нейтральные универсальные решения. Как вариант можно закинуть один из таких robots.txt. А уже позже глубже вникнув в тему делать какие-либо изменения, если появится желание. Для блога seversantana.ru robots.txt выглядит следующим образом:

User-agent: *
Disallow: /*?
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /wp-feed
Disallow: /sidebar/
Disallow: /highslide

User-agent: Yandex
Disallow: /*?
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /wp-feed
Disallow: /sidebar/
Disallow: /highslide
Host: seversantana.ru
Sitemap: //seversantana.ru/sitemap.xml.gz
Sitemap: //seversantana.ru/sitemap.xml

User-agent: Googlebot-Image
Allow: /wp-content/uploads/

User-agent: YandexImages
Allow: /wp-content/uploads/

Для тех, кто не в курсе, подскажу, что посмотреть как выглядит чужой роботс.тхт совсем несложно. Для этого достаточно добавить к адресу главной страницы интересуемого ресурса /robots.txt. При этом неважно на каком движке работает сайт.


Оцените статью:
Очень плохоПлохоСреднеХорошоОтлично (голосов: 1, в среднем: 5,00 из 5)
Загрузка...


Рекомендую почитать:

            

Подпишись на обновления блога!

Введите ваш email:


Мой канал о трейдинге в Телеграме
Новые комментарии на блоге
Вверх
© 2017    seversantana.ru | Все права защищены                   Измененная Тема Web Factory от Goodwin