Общаемся с роботами
Революция, о которой так долго говорили фантасты, наконец-то свершилась. Но как-то незаметно и совсем не эффектно. Роботы повсюду – от запылившихся тамагочи в ящике стола до шикарных трансформеров (пока только в кино). Но основная их часть, которая занимается работой монотонной и промежуточной, нам незаметна вовсе, и в том числе – роботы поисковых систем.
Но, несмотря на их кажущуюся невидимость, нужно находить с ними общий язык, чтобы не удивляться потом: «Почему Яндекс меня «не видит»?».
Немного о том, что представляют собой поисковые роботы. Носящие множество интересных названий, - «паук», «червь», - они выполняют множество различных функций. «Спайдер» индексирует страницы, отправляя после этого «краулеру», который проходит по всем ссылкам на полученной страницы. В целом же, основными функциями роботов являются индексация сайтов, проверка кодов, обновлений, проверка на «чистоту» сайта, проверка его зеркал.
Основные способы общения с поисковыми роботами разных систем – мета-тэг 〈robots〉 и файл robots.txt. Оба они содержат инструкции действий касательно данной страницы. И тэг, и файл могут полностью запретить индексацию страницы, а также указать основное зеркало сайта. Но на этом их общие функции заканчиваются.
Мета-тэг 〈robots〉 имеет следующий вид:
〈meta name="robots" content="команды" /〉 〈/robots〉
Команды, которые могут выполняться роботами согласно этому тегу, преимущественно разрешение/запрет:
- индексации страницы (indexnoindex);
- прохода по размещенным ссылкам (followno follow);
- индексации вышеперечисленного (allnone). При этом одновременное использование противоречащих друг другу инструкций возбраняется.
Файл robots.txt обязателен для внесения в общий код страницы, причем один и в корневой директории, а не отдельный для каждой страницы. Выглядит он следующим образом:
User-agent:
Disallow:
Первая команда обращается к конкретному роботу, а вторая показывает, какую директорию запрещено индексировать. Даже если вы открываете доступ ко всему, поместить этот файл необходимо, поставив для user-agent символ *, а disallow оставив пустым. Первую команду необходимо прописывать отдельно для каждого отдельно взятого робота, а вот запрещенное содержимое может перечисляться в одной:
User-agent:*
Disallow: /css/
Dissalow: /images/
Кроме того, в файле обязательно присутствует директива Host, которая указывает на основное зеркало вашего сайта, без http:// и лишних слешей.
Согласно сайту robotstxt.org.ru, основные ошибки, которые совершаются при заполнении данного файла, это:
- неправильная расстановка инструкций по местам;
- употребление заглавных букв в инструкциях, названиях директив и файлов и собственно названии файла;
- перечисление всех файлов в закрытой директории. Достаточно закрыть саму директорию, роботы не настолько дотошны;
- отсутствие слешей в указываемой директории.
Ранее использование команды Allow в файле запрещалось, однако теперь при помощи ее можно, наоборот, открывать доступ к сайту и отдельным директивам. Это может быть полезным, если, к примеру, вы хотите закрыть всю папку, кроме одного файла. В целом, составление мета-тэга 〈robots〉 и файла robots.txt достаточно простая задача – главное выполнять все по инструкции, и тогда с поисковыми роботами очень легко подружиться. А для оптимизатора это особенно важно.
Публикации по теме:
SEO для начинающих или А как это, собственно, работает?
SEO: мифические и не очень чудовища
Этика SEO
Для добавления комментария надо зарегистрироваться и авторизоваться.
Добавить комментарий можно после авторизации через Loginza.