Часто встречаются ситуации, когда необходимо исключить из индексирования не весь документ целиком, а только его часть. Добиться этого можно, немного подправив HTML-код страницы. Весь текст, размещенный между тегами <NOINDEX> и </NOINDEX>, будет исключен из индексирования. Использование этих тегов никак не отразится на внешнем виде Web-страницы, т.к. они не являются стандартными для языка HTML и будут просто проигнорированы браузером.
При индексировании документов по протоколу HTTP Яndex.Server 3.4 поддерживает стандарт исключений для роботов. В соответствии с этим стандартом, правила, управляющие поведением поискового робота, должны располагаться в файле /robots.txt, лежащем в корне Web-сервера.
Детальное описание спецификации файла можно прочитать, например, по адресу: http://www.citforum.ru/internet/search/rbtspec.shtml.
В простейшем виде (разрешено все, кроме директории скриптов) файл robots.txt выглядит следующим образом:
User-Agent: * Disallow: /cgi-bin/
Если нужно, чтобы Яndex.Server 3.4 при индексировании вашего сайта не учитывал общие правила для поисковых роботов, модифицируйте robots.txt, добавив специальное правило для User-Agent, заданного при конфигурировании HTTP-запросов. Например, в следующем примере директория скриптов закрывается от всех роботов, кроме робота MyYandexServer, которому открыто все
User-Agent: * Disallow: /cgi-bin/ User-Agent: MyYandexServer Disallow:
При написании robots.txt обратите внимание на следующие часто встречающиеся ошибки.
Строка с полем User-Agent является обязательной и должна предшествовать строкам с полем Disallow. Так, приведенный ниже файл robots.txt не запрещает ничего:
Disallow: /cgi-bin Disallow: /forum
Пустые строки в файле robots.txt являются значимыми, они разделяют записи, относящиеся к разным роботам. Например, в следующем фрагменте файла robots.txt строка "Disallow: /forum" игнорируется, поскольку перед ней нет строки с полем User-Agent.
User-Agent: * Disallow: /cgi-bin Disallow: /forum
Строка с полем Disallow может запретить индексирование документов только с одним префиксом. Для запрета нескольких префиксов нужно написать несколько строк. Например, нижеприведенный файл запрещает индексирование документов, начинающихся с "/cgi-bin /forum", которых, скорее всего, не существует (а не документов с префиксами "/cgi-bin" и "/forum").
User-Agent: * Disallow: /cgi-bin /forum
В строках с полем Disallow записываются неабсолютные, а относительные префиксы. То есть файл:
User-Agent: * Disalow: www.myhost.ru/cgi-binзапрещает, например, индексирование документа http://www.myhost.ru/www.myhost.ru/cgi-bin/counter.cgi, но НЕ запрещает индексирование документа http://www.myhost.ru/cgi-bin/counter.cgi
В строках с полем Disallow указываются именно префиксы, а не что-нибудь еще. Так, файл:
User-Agent: * Disallow: *запрещает индексирование документов, начинающихся с символа * (которых в природе не существует), и сильно отличается от файла:
User-Agent: * Disallow: /который запрещает индексирование всего сайта.
При индексировании html-документов Яndex.Server 3.4 учитывает содержимое мета тега robots, что позволяет запретить роботу индексировать какую-то страницу или следовать по ссылкам, содержащимся на ней.
Значение этого тега может состоять из следующих директив, разделенных запятыми:
| Директива | Назначение |
|---|---|
| index | страница может быть проиндексирована |
| noindex | страница не должна индексироваться |
| follow | следовать по ссылкам, содержащимся на странице |
| nofollow | не следовать по ссылкам, содержащимся на странице |
| all | index,follow (по умолчанию) |
| none | noindex,nofollow |
Пример 1. Не индексировать страницу, но собрать с нее все ссылки на другие страницы:
<meta name="robots" content="noindex,follow">
Пример 2. Проиндексировать страницу, но не следовать по ссылкам, расположенным на ней:
<meta name="robots" content="index,nofollow">
Пример 3. Не индексировать страницу и не следовать по ссылкам, расположенным на ней:
<meta name="robots" content="noindex,nofollow">
Мета тег robots имеет более высокий приоритет, чем настройки индексатора или директивы управления, заданные в файле robots.txt. Т.е., если например директивы управления в файле robots.txt разрешают индексировать все файлы в каталоге, то блокирующий мета тег <meta name="robots" content="noindex,nofollow"> может запретить индексирование страницы, находящейся в этом каталоге.
Важно: Нельзя указывать повторяющиеся или конфликтующие директивы, например:
<meta name="robots" content="index,noindex,nofollow,follow,follow">
Если вы не хотите учитывать мета тег robots, задайте в настройках индексатора директиву Options со значением IgnoreMetaRobots.
| Пред. | Начало | След. |
| Директивы конфигурационного файла | Уровень выше | Конфигурация HTTP-запросов |