Главная > Публикации > Общаемся с роботами

Общаемся с роботами

Революция, о которой так долго говорили фантасты, наконец-то свершилась. Но как-то незаметно и совсем не эффектно. Роботы повсюду – от запылившихся тамагочи в ящике стола до шикарных трансформеров (пока только в кино). Но основная их часть, которая занимается работой монотонной и промежуточной, нам незаметна вовсе, и в том числе – роботы поисковых систем.

Но, несмотря на их кажущуюся невидимость, нужно находить с ними общий язык, чтобы не удивляться потом: «Почему Яндекс меня «не видит»?».

Немного о том, что представляют собой поисковые роботы. Носящие множество интересных названий, - «паук», «червь», - они выполняют множество различных функций. «Спайдер» индексирует страницы, отправляя после этого «краулеру», который проходит по всем ссылкам на полученной страницы. В целом же, основными функциями роботов являются индексация сайтов, проверка кодов, обновлений, проверка на «чистоту» сайта, проверка его зеркал.

Основные способы общения с поисковыми роботами разных систем – мета-тэг ⟨robots⟩ и файл robots.txt. Оба они содержат инструкции действий касательно данной страницы. И тэг, и файл могут полностью запретить индексацию страницы, а также указать основное зеркало сайта. Но на этом их общие функции заканчиваются.

Мета-тэг ⟨robots⟩ имеет следующий вид:

⟨meta name="robots" content="команды" /⟩ ⟨/robots⟩

Команды, которые могут выполняться роботами согласно этому тегу, преимущественно разрешение/запрет:

индексации страницы (indexnoindex);
прохода по размещенным ссылкам (followno follow);
индексации вышеперечисленного (allnone). При этом одновременное использование противоречащих друг другу инструкций возбраняется.

Файл robots.txt обязателен для внесения в общий код страницы, причем один и в корневой директории, а не отдельный для каждой страницы. Выглядит он следующим образом:

User-agent:
Disallow:

Первая команда обращается к конкретному роботу, а вторая показывает, какую директорию запрещено индексировать. Даже если вы открываете доступ ко всему, поместить этот файл необходимо, поставив для user-agent символ *, а disallow оставив пустым. Первую команду необходимо прописывать отдельно для каждого отдельно взятого робота, а вот запрещенное содержимое может перечисляться в одной:

User-agent:*
Disallow: /css/
Dissalow: /images/

Кроме того, в файле обязательно присутствует директива Host, которая указывает на основное зеркало вашего сайта, без http:// и лишних слешей.

Согласно сайту robotstxt.org.ru, основные ошибки, которые совершаются при заполнении данного файла, это:

неправильная расстановка инструкций по местам;
употребление заглавных букв в инструкциях, названиях директив и файлов и собственно названии файла;
перечисление всех файлов в закрытой директории. Достаточно закрыть саму директорию, роботы не настолько дотошны;
отсутствие слешей в указываемой директории.

Ранее использование команды Allow в файле запрещалось, однако теперь при помощи ее можно, наоборот, открывать доступ к сайту и отдельным директивам. Это может быть полезным, если, к примеру, вы хотите закрыть всю папку, кроме одного файла. В целом, составление мета-тэга ⟨robots⟩ и файла robots.txt достаточно простая задача – главное выполнять все по инструкции, и тогда с поисковыми роботами очень легко подружиться. А для оптимизатора это особенно важно.

Тэги: robots, поисковое продвижение, поисковые роботы

Публикации по теме:
SEO для начинающих или А как это, собственно, работает?
SEO: мифические и не очень чудовища
Этика SEO

Если вы заметили ошибку в тексте новости, пожалуйста, выделите её и нажмите Ctrl+Enter