Управление индексацией сайта. Механизмы запрещения индексации

Обычно, если поисковая система индексирует контент сайта - это хорошо. Чем больше страниц проиндексировано, тем выше шанс подняться в выдаче.

Однако, бывают ситуации, когда по тем или иным причинам, не желательно, чтобы поисковый робот ползал по определенным страницам или частям страниц, а так же переходил по определенным ссылкам. Из данной статьи, вы узнаете, как можно указать поисковым роботам, игнорировать определенный веб мастером контент.
Для чего нужен файл robots.txt?

У вас есть свой сайт и в корневом каталоге этого сайта (директории www или httpdocs на сервере) нет файла robots.txt? Зайдите в панель просмотра ошибок сервера и внимательно проанализируйте ошибки "404 - Страница не найдена". Держу пари, что вы найдете среди страниц, к которым пытались обратиться, и нашего знакомого robots.txt. Кто и когда пытался прочитать этот файл?

Файл robots.txt был придуман для того, чтобы можно было сказать поисковому роботу, какие страницы сайта не следует индексировать.

Файл robots.txt состоит из одной или более записей, разделенных одной или более пустых линий. Каждая запись имеет формат:
<имя_поля>:<необязательные_пробелы><значение><необязательные_пробелы>
Значение имени поля чувствительно к регистру.

В файл robots.txt можно включать комментарии в формате командных оболочек UNIX систем: символ # означает, что остаток строки - это комментарий и не анализируется поисковым роботом.

Каждая запись начинается с одной или более строк User-Agent, за которыми следует одна или более строки Disallow (описано ниже). Все остальные строки игнорируются.
User-agent
Значением этого поля является имя поискового робота, для которого применяются следующие поля Disallow.
Можно перечислить подряд несколько полей User-agent. Тогда следующие за ними поля Disallow будут применены для всех роботов (смотри пример 3 внизу)
Необходимо присутствие, как минимум одного такого поля.
Если значение этого поля - '*', то такое поле описывает правила для всех роботов, которые не перечислены в других записях. В файле robots.txt можно иметь только одно поле с User-agent равным '*'.
Disallow
Значение этого поля - часть URL, которое не должно быть посещено поисковиком. URL может быть полным или относительным; любой адрес, начинающийся с этого значения, не будет индексироваться поисковым роботом.
Например, Disallow: /about запрещает страницы /about.html и /about/index.html , тогда как Disallow: /about/ запрещает /about/index.html и не запрещает /about.html
Пустое значение разрешает индексацию всех страниц данного сайта.
Как минимум одна строка Disallow должна присутствовать для каждой записи.

Присутствие на сайте пустого файла robots.txt не имеет какого-либо особого значения. Такой файл рассматривается так же, как отсутствие robots.txt, то есть все страницы сайта могут посещаться поисковыми роботами.

Примеры использования файла robots.txt

В следующем примере, ни один из роботов не должен посещать URL, начинающиеся с /maps/map1/ или с /temporary/, или /checkout.php
# robots.txt for http://www.ex.ru/

User-agent: *
Disallow: /maps/map1/ # This is a comment
Disallow: /temporary/ # it is just temporary file location
Disallow: /checkout.php

В следующем примере, ни один из роботов не должен посещать URL, начинающиеся с /maps/map1/ за исключением робота Яндекса
# robots.txt for http://www.ex.ru/

User-agent: *
Disallow: /maps/map1/ # This is a comment

#Yandex can visit everything
User-agent: Yandex
Disallow:

В следующем примере, ни Яндекс ни Googlebot не должны индексировать страницу /checkout.php
# robots.txt for http://www.ex.ru/

User-agent: Yandex
User-agent: Googlebot
Disallow: /checkout.php

Если вы хотите, чтобы ваш сайт не индексировался совсем, то используйте следующий формат
# robots.txt for http://www.ex.ru/

User-agent: *
Disallow: /

Наиболее полный список активных поисковых роботов вы можете посмотреть на http://www.robotstxt.org/wc/active.html

Запомните, что символы регулярных выражений не поддерживаются в путях Disallow. То есть:
Disallow: /tmp/t* не запрещает все файлы в директории /tmp/, начинающиеся с символа 't'.
Попытка использовать символы регулярных выражений, это одна из самых распространенных ошибок при написании файла robots.txt
Yandex. От сих до сих - не сканируй. (Тег noindex).

Наш родной Яндекс облегчил жизнь веб мастерам и дал возможность указать часть веб страницы, которую не нужно индексировать роботу Яндекс.

Для этого нужно заключить текст, не подлежащий индексированию, между тегами <noindex> и </noindex>.

Это очень удобно, когда, например, вы хотите на своей странице привести пример, как не надо обманывать поисковых роботов.
Например:
<noindex>
<H1>Продаю розовую собачку</H1>
Розовая собачка, очень розовая собачка. Розовая собачка на любой вкус.
Розовая собачка. Покупайте розовую собачку.
Розовая собачка. Только здесь и сейчас - розовые собачки
Розовая собачка.
</noindex>

Ясно, что такой текст будет сильно оптимизирован по слову "розовая собачка". Однако, это является нарушением и попыткой обмануть поисковую систему. И теги <noindex> в данном случае говорят Яндексу не индексировать этот участок текста. Другими словами, поисковик не будет накладывать на такую страницу никаких санкций, так как все противоправные приемы спрятаны от поискового робота при помощи тега <noindex>.

К сожалению, теги <noindex> не являются стандартными. Это "изобретение" Яндекса. Иногда, такого же инструмента очень не хватает для Google.
Googlebot, ты туда не ходи. Ты сюда ходи. (Атрибут nofollow)

У Google есть своя фишка, с помощью которой можно указать его роботу по каким ссылкам он не должен переходить.

Предположим, что по тем или иным причинам, вы не желаете, чтобы Googlebot следовал (follow) по определенной ссылке со страницы. Для этого можно в атрибуте rel тега <a> указать значение nofollow. По ссылкам с таким атрибутом, Googlebot не ходит.
Пример:
<a href="http://адрес_страницы_которая_не_должна_быть_проиндексирована_google" rel="nofollow">это ссылка</a>

Это решение тоже не переносимо, то есть работает только для робота Google. Однако, знать об этом все же стоит. Очень удобно использовать атрибут nofollow при оптимизации страниц для получения большего Page Rank от Google.

Выводы

Мы рассмотрели основные способы, которые можно использовать для управления индексированием вашего сайта различными поисковыми роботами. Единственное универсальное решение - это использование файла robots.txt. Все остальные способы не универсальны. Они применимы лишь для определенных поисковых систем (не исключено, что многие из них войдут в будущем в стандарты HTML), но знать о них необходимо.

Вообще, если необходимо оптимизировать сайт для определенного поисковика, то внимательно читайте правила работы поискового робота. Там вы найдете самую точную и достоверную информацию об особенностях работы этого поисковика. Особенно обращайте внимание на пункты, нарушение которых карается баном. Старайтесь не нарушать эти правила. В противном случае, оправдаться будет очень не легко.

Еще статьи на тему: SEO Поисковые системы

Следующая сатья>>

S-PRO студия веб дизайна