5.3. Правила индексирования, не описываемые в конфигурационном файле

5.3.1. Исключение частей HTML-файлов из индексирования

Часто встречаются ситуации, когда необходимо исключить из индексирования не весь документ целиком, а только его часть. Добиться этого можно, немного подправив HTML-код страницы. Весь текст, размещенный между тегами <NOINDEX> и </NOINDEX>, будет исключен из индексирования. Использование этих тегов никак не отразится на внешнем виде Web-страницы, т.к. они не являются стандартными для языка HTML и будут просто проигнорированы браузером.

5.3.2. Файл robots.txt

При индексировании документов по протоколу HTTP Яndex.Server 3.4 поддерживает стандарт исключений для роботов. В соответствии с этим стандартом, правила, управляющие поведением поискового робота, должны располагаться в файле /robots.txt, лежащем в корне Web-сервера.

Детальное описание спецификации файла можно прочитать, например, по адресу: http://www.citforum.ru/internet/search/rbtspec.shtml.

В простейшем виде (разрешено все, кроме директории скриптов) файл robots.txt выглядит следующим образом:

  User-Agent: *
  Disallow: /cgi-bin/

Если нужно, чтобы Яndex.Server 3.4 при индексировании вашего сайта не учитывал общие правила для поисковых роботов, модифицируйте robots.txt, добавив специальное правило для User-Agent, заданного при конфигурировании HTTP-запросов. Например, в следующем примере директория скриптов закрывается от всех роботов, кроме робота MyYandexServer, которому открыто все

  User-Agent: *
  Disallow: /cgi-bin/
  
  User-Agent: MyYandexServer
  Disallow:

При написании robots.txt обратите внимание на следующие часто встречающиеся ошибки.

Строка с полем User-Agent является обязательной и должна предшествовать строкам с полем Disallow. Так, приведенный ниже файл robots.txt не запрещает ничего:

  Disallow: /cgi-bin
  Disallow: /forum

Пустые строки в файле robots.txt являются значимыми, они разделяют записи, относящиеся к разным роботам. Например, в следующем фрагменте файла robots.txt строка "Disallow: /forum" игнорируется, поскольку перед ней нет строки с полем User-Agent.

  User-Agent: *
  Disallow: /cgi-bin
  
  Disallow: /forum

Строка с полем Disallow может запретить индексирование документов только с одним префиксом. Для запрета нескольких префиксов нужно написать несколько строк. Например, нижеприведенный файл запрещает индексирование документов, начинающихся с "/cgi-bin /forum", которых, скорее всего, не существует (а не документов с префиксами "/cgi-bin" и "/forum").

  User-Agent: *
  Disallow: /cgi-bin /forum

В строках с полем Disallow записываются неабсолютные, а относительные префиксы. То есть файл:

  User-Agent: *
  Disalow: www.myhost.ru/cgi-bin
запрещает, например, индексирование документа http://www.myhost.ru/www.myhost.ru/cgi-bin/counter.cgi, но НЕ запрещает индексирование документа http://www.myhost.ru/cgi-bin/counter.cgi

В строках с полем Disallow указываются именно префиксы, а не что-нибудь еще. Так, файл:

  User-Agent: *
  Disallow: *
запрещает индексирование документов, начинающихся с символа * (которых в природе не существует), и сильно отличается от файла:
  User-Agent: *
  Disallow: /
который запрещает индексирование всего сайта.

5.3.3. Мета тег robots

При индексировании html-документов Яndex.Server 3.4 учитывает содержимое мета тега robots, что позволяет запретить роботу индексировать какую-то страницу или следовать по ссылкам, содержащимся на ней.

Значение этого тега может состоять из следующих директив, разделенных запятыми:

ДирективаНазначение
indexстраница может быть проиндексирована
noindexстраница не должна индексироваться
followследовать по ссылкам, содержащимся на странице
nofollowне следовать по ссылкам, содержащимся на странице
allindex,follow (по умолчанию)
nonenoindex,nofollow

Пример 1. Не индексировать страницу, но собрать с нее все ссылки на другие страницы:

  <meta name="robots" content="noindex,follow">

Пример 2. Проиндексировать страницу, но не следовать по ссылкам, расположенным на ней:

  <meta name="robots" content="index,nofollow">

Пример 3. Не индексировать страницу и не следовать по ссылкам, расположенным на ней:

  <meta name="robots" content="noindex,nofollow">

Мета тег robots имеет более высокий приоритет, чем настройки индексатора или директивы управления, заданные в файле robots.txt. Т.е., если например директивы управления в файле robots.txt разрешают индексировать все файлы в каталоге, то блокирующий мета тег <meta name="robots" content="noindex,nofollow"> может запретить индексирование страницы, находящейся в этом каталоге.

Важно: Нельзя указывать повторяющиеся или конфликтующие директивы, например:

  <meta name="robots" content="index,noindex,nofollow,follow,follow">

Если вы не хотите учитывать мета тег robots, задайте в настройках индексатора директиву Options со значением IgnoreMetaRobots.

Copyright © 1997 – 2005 «Яндекс»