5.2. Директивы конфигурационного файла

5.2.1. Общие директивы

В этом разделе описаны директивы, относящиеся к процессу индексирования в целом. Если какая-либо директива отсутствует в конфигурационном файле, для соответствующих параметров будут использованы указанные значения по умолчанию.

IndexLog

Путь к файлу протокола индексирования, абсолютный или относительно WorkDir.

Значение по умолчанию: стандартный поток вывода

IndexDir

Директория, в которой будут размещены вновь созданные индексные файлы. Должен быть указан абсолютный путь или путь относительно WorkDir. Если директория отсутствует, будет сделана попытка ее создать. Если в указанной директории находятся рабочие индексные файлы, созданные при предыдущем индексировании ("старый индекс"), они будут учтены при построении нового индекса, в соответствии с аргументами других директив конфигурационного файла, и заменены новым индексом перед окончанием работы индексатора. В противном случае индекс будет создан заново, а ключи, относящиеся к режиму обновления индекса, проигнорированы.

Значение по умолчанию: ./workindex

Пример:

  IndexDir myindex

TempDir

Директория, в которой будут храниться промежуточные данные, необходимые индексатору, в том числе вновь создаваемые индексные файлы. Должен быть указан абсолютный путь или путь относительно WorkDir. Если директория отсутствует, будет сделана попытка ее создать. Аргументы директив TempDir и IndexDir должны быть различны. После окончания сеанса индексирования индексатор удаляет временные файлы, созданные им в указанной директории, а вновь созданный индекс перемещает в директорию, заданную в IndexDir.

Значение по умолчанию: ./newindex

Пример:

  TempDir /var/tmp/yandex

StopWordFile

Путь к файлу, содержащему список стоп-слов. Слова, указанные в этом списке и их формы по умолчанию не будут заноситься в индекс. Применение стоп-слов может значительно уменьшить размер индексного файла. Список стоп-слов должен быть набран в кодировке Windows-1251. В состав поставки включен файл stopword.lst, в котором приведен список некоторых часто встречающихся слов. Файл можно редактировать.

Значение по умолчанию: не задан

Пример:

  StopWordFile my_stopword.lst

GlobalOptions

Директива может иметь несколько аргументов, задающих тот или иной параметр индексирования. Внутри каждой группы аргументов, указанных ниже, нужно выбрать один.

Использование старого индекса

Update

Если в директории, заданной в IndexDir, существует индекс, созданный при предыдущем индексировании, то при новом индексировании документы из существующего индекса будут проверены на предмет обновления или удаления в соответствии с параметрами, заданными для областей индексирования в директивах Options.

Skip

Если в директории, заданной в IndexDir, существует индекс, созданный при предыдущем индексировании, то при новом индексировании документы из существующего индекса будут перенесены в новый без всяких проверок. В этом случае сначала будет создан новый индекс в соответствии с текущей конфигурацией индексатора, а затем, на заключительном этапе индексирования, новый индекс будет объединен с существующим. Документы из существующего старого индекса, URL которых встречается среди URL документов нового индекса, будут удалены.

Reindex

Если в директории, заданной в IndexDir, существует индекс, созданный при предыдущем индексировании, то при новом индексировании этот индекс будет удален. Новый индекс будет создан в соответствии с текущей конфигурацией индексатора.

Значение по умолчанию: Update

Сохранение документных архивов

StoreArchive

При индексировании текст документов сохраняется без элементов форматирования. Эта информация используется во время поиска при получении отрывков текста документа, содержащих найденные слова. Архив с сохраненными текстами может иметь размер до 30-40% от суммарного размера индексируемых документов.

DiscardArchive

Не сохранять текст индексируемых документов. Используется для уменьшения объема индексных файлов и увеличения скорости индексирования в случае, если показывать фрагменты текста с найденными словами не требуется.

Значение по умолчанию: StoreArchive

Сохранение точных словоформ

StoreWordForms

Задает режим индексирования с учетом точных словоформ. Задание этого ключа ведет к добавлению в индекс информации о точных формах встречающихся в документах слов, что позволяет в языке запросов использовать оператор ! поиска по точной словоформе. При этом размер индекса увеличивается примерно в 2 раза.

DiscardWordForms

Точные словоформы не учитываются в индексе.

Значение по умолчанию: DiscardWordForms

Сохранение стоп-слов

StoreStopWords

Задает режим игнорирования директивы StopWordFile. Все стоп-слова попадают в индекс, что позволяет использовать поисковый оператор + (плюс) для поиска слов из списка стоп-слов поискового сервера.

DiscardStopWords

Стоп-слова из файла, указанного в директиве StopWordFile, не учитываются в индексе.

Значение по умолчанию: DiscardStopWords

Сохранение даты индексирования

StoreIndexingDate

Для каждого индексируемого документа создается поисковый документный атрибут с именем idate, типом DATE и значением даты и времени последнего индексирования документа. Поисковые атрибуты обсуждаются в разделе Форматы документов, зоны и атрибуты.

DiscardIndexingDate

Поисковый документный атрибут idate не создается.

Значение по умолчанию: StoreIndexingDate

PortionDocCount

Определяет максимальное число проиндексированных документов в хранящейся в памяти порции индекса. Чем больше это число, тем быстрее происходит индексирование, но объем памяти, требуемый индексатору, возрастает. При достижении максимального размера порция индекса записывается на диск в директорию, указанную в директиве TempDir, и в памяти создается новая порция. Все временные порции индекса сливаются в итоговый индекс на заключительном этапе индексирования.

Значение по умолчанию: 250

Debug

Выдача тестовой информации. Директива бывает полезна при отладке и тонкой настройке конфигурации. Директива имеет любое число аргументов из перечисленных ниже.

limits

печать серийного номера программы и лицензионных ограничений

config

печать конфигурации

excluded

печать информации об исключаемых из индексирования документах

info

печать информации о добавлении, изменении и удалении документов

moreinfo

печать информации о способах получения URL'a и содержимого документа

warning

печать информации об ошибках, из-за которых документ не был проиндексирован

verbose

печать всей информации, перечисленной выше

backup

Копирование содержимого индексируемых документов в файл backup, расположенный в директории, указанной в директиве TempDir. Если при запуске индексатора файл с таким именем уже существует, он будет удален. Копируются только документы, получаемые через HTTP-соединение или из внешнего источника данных.

Значение по умолчанию: не задан

Пример:

  Debug config, info, warning

DocProperty

Директива имеет один или несколько аргументов, каждый из которых задает имя документного поискового атрибута, значение которого должно быть сохранено в архиве документов. Документные поисковые атрибуты обсуждаются в разделе Форматы документов, зоны и атрибуты. Имена и критерии, определяющие эти атрибуты, задаются в конфигурации парсера документного формата, а значения определяются во время индексирования документа. Значение каждого документного атрибута, указанного в данной директиве, может быть получено на странице с результатами поиска с помощью функции DocProperty, которой надо передать название свойства, совпадающее с одним из аргументов данной директивы. Дополнительно к атрибутам, указанным в данной директиве, в архиве документов автоматически сохраняются и другие свойства документа (см. подробности в разделе Особые названия зон и атрибутов), которые тоже могут быть получены при формировании страницы с результатами найденного с помощью функции DocProperty.

Если задан аргумент StoreArchive директивы GlobalOptions, в документном архиве также сохраняется весь текст документа.

Суммарный объем значений атрибутов, указанных в данной директиве, заголовка, аннотации и URL документа не может превышать 8 Кб.

Groups

Директива имеет один или несколько аргументов, каждый из которых задает имя документного поискового атрибута, из которого должен быть автоматически создан группировочный атрибут.

Группировочные атрибуты обсуждаются в разделе Группировочные атрибуты. Они являются целыми числами и дают возможность сгруппировать или отсортировать найденные документы по тем или иным критериям, не зависящим от текста документа.

Документные поисковые атрибуты обсуждаются в разделе Форматы документов, зоны и атрибуты. Значения этих атрибутов могут определяться во время индексирования документа в соответствии с настройками парсера документного формата (см. раздел Конфигурирование зон и атрибутов). Дополнительно, поисковые документные атрибуты типа LITERAL могут быть заданы в директиве Options конфигурационного файла индексатора (см. подраздел Набор атрибутов документа).

В обоих случаях, если в данной директиве указаны имена поисковых атрибутов, определенные в настройках парсера или в директиве Options, то автоматически будут созданы группировочные атрибуты с теми же именами. Значения поисковых атрибутов, определенных в настройках парсера, должны быть целыми числами или последовательностью целых чисел. В этом случае такими же будут и значения группировочных атрибутов. Для литеральных поисковых атрибутов из директивы Options значения группировочных атрибутов будут генерироваться автоматически. В этом случае будут также автоматически созданы файлы соответствия имен имя_атрибута.c2n.

В каждом аргументе директивы сразу после имени атрибута через двоеточие может быть указано одно из чисел 1,2,3,4, имеющее смысл максимального числа байт, которое может занимать значение данного атрибута. Указание меньшего числа уменьшает размер базы группировочных атрибутов. Значение по умолчанию - 4.

5.2.2. Директивы, определяющие области индексирования

Области индексирования определены в разделе Области индексирования. Здесь описаны директивы, определяющие области индексирования и задающие их свойства. Индексатор начинает свою работу с получения начального списка URL документов, подлежащих индексированию. Поэтому необходимо, чтобы список начальных URL был явно задан в ключе StartUrls или чтобы присутствовала хотя бы одна из секций IndexedArea или DataSource.

StartUrls

Один или несколько URL документов, с которых индексатор начинает индексирование. Указывать начальный префикс http:// не обязательно. Если в секциях IndexedArea и директиве DefaultAreaOptions не указано по-другому, будет реализовано следующее поведение по умолчанию. URL других документов, кроме указанных, будут получены в результате распознавания гипертекстовых ссылок в тексте уже проиндексированных документов. Будут проиндексированы только документы из тех же веб-директорий, в которых лежат указанные начальные URL, и документы из поддиректорий этих директорий. Содержимое документов будет получено по протоколу HTTP, кодировка документов будет распознана автоматически. При переиндексировании будут повторно индексироваться только новые и изменившиеся документы, а недоступные (удаленные) документы будут удалены из индекса.

Значение по умолчанию: не задан

Пример 1:

  StartUrls www.host.name/
Будут проиндексированы все документы сайта http://www.host.name, на которые можно перейти с главной страницы по гипертекстовым ссылкам за один или несколько "кликов". Данная конфигурация полностью эквивалентна следующей (см. Секция IndexedArea):
      <IndexedArea>
          HttpPrefix www.host.name/
      </IndexedArea>
      

Пример 2:

  StartUrls www.host.name/docs/doc.html
Будут проиндексированы все документы в директории http://www.host.name/docs/, на которые можно перейти с документа http://www.host.name/docs/doc.html. Документы, URL-ы которых начинаются не с http://www.host.name/docs/, проиндексированы не будут.

Пример 3:

  StartUrls http://www.host.name/news/, www.host.name/conference/conf.html
Будут проиндексированы документы, URL-ы которых начинаются с http://www.host.name/news/ или с http://www.host.name/conference/, и на которые можно перейти за один или несколько "кликов" хотя бы с одной из страниц http://www.host.name/news/ или http://www.host.name/conference/conf.html.

Disallow

Задает регулярное выражение. Все документы, URL которых содержит подстроку, удовлетворяющую этому регулярному выражению, будут исключены из индексирования.

Значение по умолчанию: не задан

Примеры:

      ! Исключать из индексирования файлы _index.html,
      ! _index.htm, default.html и default.htm
      Disallow /(_index|default)[.]htm[l]?
  
      ! Исключать из индексирования скрипт /lists/showfolder.asp, если
      ! первым в списке cgi-параметров идет параметр с именем fid
      Disallow /lists/showfolder.asp[?]fid=.*
      

Allow

Задает регулярное выражение. Будут проиндексированы только те документы, URL которых содержит подстроку, удовлетворяющую этому регулярному выражению.

Значение по умолчанию: не задан

Примеры:

      ! проиндексировать файлы только из архивов за 1990-1999 годы и
      ! из каталога archives
      Allow /(199[0-9]|archive)/
  
      ! проиндексировать файлы только из тех каталогов, имя
      ! которых состоит из 4-х цифр
      Allow /([0-9]{4})/
      

DefaultHttpPrefix

Задает префикс URL по умолчанию, относительно которого может быть задан аргумент директивы HttpPrefix в секциях IndexedArea. Дает возможность задавать относительные URL в секциях IndexedArea.

Значение по умолчанию: http://127.0.0.1/

Пример:

  DefaultHttpPrefix myhost.ru

DefaultAreaOptions

Задает значение по умолчанию, которое будет использоваться в директиве Options в секциях IndexedArea и DataSource. Это же значение задает способ индексирования при использовании директивы StartUrls, если определяемые ею веб-директории не входят в дерево директорий, определенное в секциях IndexedArea. Аргументы этой директивы описаны в разделе Директива Options

Значение по умолчанию: use_content_type update

Пример:

  DefaultAreaOptions windows-1251

5.2.2.1. Секция IndexedArea

Конфигурационный файл может включать несколько секций IndexedArea, каждая из которых задает область индексирования. Каждая секция может включать не более одной из директив HttpPrefix, FilePrefix и Options, и должна включать хотя бы одну из первых двух директив.

Cекция IndexedArea может иметь атрибут inherited. Значение атрибута равное no, отменяет наследование значений директив и поисковых атрибутов.

Пример:

  <IndexedArea>
  	HttpPrefix http://myhost/mysite/theme1/
  	Options Set group=theme1
  </IndexedArea>
  <IndexedArea>
  	HttpPrefix http://myhost/mysite/theme1/theme2/
  	Options Set group=theme2
  </IndexedArea>

В приведенной конфигурации, вторая секция наследует значение

  theme1
поискового атрибута
  group
от предыдущей области индексирования.

Чтобы этого не происходило, используйте:

  <IndexedArea inherited="no">
  	HttpPrefix http://myhost/mysite/theme1/theme2/
  	Options Set group=theme2
  </IndexedArea>

HttpPrefix

Префикс URL документов, абсолютный или относительно пути, заданного в DefaultHttpPrefix. Все документы, имеющие данный префикс, индексируются по правилам, указанным в Options. Если указан относительный путь, изменение директивы DefaultHttpPrefix при переиндексировании не вызывает переиндексирования данной области индексирования.

Пример:

      <IndexedArea>
          HttpPrefix /
      </IndexedArea>
      

FilePrefix

Локальный путь, соответствующий значению HttpPrefix. Используется, если требуется получать содержимое документов с помощью чтения файлов. Должен быть указан абсолютный путь или путь относительно WorkDir. Если директива HttpPrefix не задана, в качестве префикса URL используется этот же путь, преобразованный к протоколу file.

Значение по умолчанию: не задан

Пример:

      <IndexedArea>
          FilePrefix C:\Inetpub\wwwroot
      </IndexedArea>
      

Options

Параметры индексирования документов в данной области индексирования. Параметры индексирования сначала наследуются от области индексирования верхнего уровня, если такая есть, или от значения директивы DefaultAreaOptions, или от значения по умолчанию, а затем дополняются параметрами, указанными в данной директиве. Аргументы этой директивы описаны в разделе Директива Options

Значение по умолчанию: не задан

Пример:

      <IndexedArea>
          HttpPrefix /
          FilePrefix C:\Inetpub\wwwroot
          Options windows-1251
      </IndexedArea>
      

5.2.2.2. Секция DataSource

Конфигурационный файл может включать несколько секций DataSource, каждая из которых описывает внешний источник данных. Каждая секция должна включать обязательные директивы Name и Module. Также могут присутствовать необязательные директивы Config и Options.

Name

Задает произвольное имя источника данных, уникально идентифицирующее этот источник данных. Может состоять только из латинских букв [a-zA-Z], чисел [0-9] и символа подчеркивания '_'.

Пример:

  Name mybase

Module

Задает локальный путь к модулю связи с источником данных, абсолютный или относительно WorkDir.

Пример:

  Module ../bin/mysql.dll

Config

Задает строку инициализации, которая будет передана источнику данных при его инициализации. Формат этой строки определяется документацией к модулю связи с источником данных. Для модулей связи с базами данных, поставляемых вместе с Яndex.Server 3.4, эта директива является обязательной и определяет путь к файлу конфигурации модуля связи с источником данных, формат которого описан в документации к модулю связи. См. Индексирование данных через интерфейс OLEDB (Windows) и Индексирование баз данных MySQL (Unix)

Значение по умолчанию: не задан

Пример:

  Config mysql.cfg

Options

Параметры индексирования документов из источника данных. Параметры индексирования сначала наследуются значения директивы DefaultAreaOptions, или от значения по умолчанию, а затем дополняются параметрами, указанными в данной директиве. Аргументы этой директивы описаны в разделе Директива Options

Значение по умолчанию: не задан

Пример:

  Options windows-1251

Пример:

  <DataSource>
      Name   zakladki
      Module oledb.dll
      Config sqldb.ini
  <DataSource>

5.2.2.3. Директива Options

В этом разделе описаны аргументы директивы Options, которая может встречаться в секциях IndexedArea и DataSource, а также директивы DefaultAreaOptions из главной секции конфигурационного файла индексатора. С помощью аргументов директивы Options можно задать следующие параметры областей индексирования.

Режим получения URL документа

FindLinks

Получать URL документов с помощью распознавания гипертекстовых ссылок в тексте уже проиндексированных документов. Этот аргумент используется только в секции IndexedArea.

FindDir

Получать URL документов считыванием оглавлений файловых директорий локальной сети. Этот аргумент используется только в секции IndexedArea.

NoUrlCaseFold

Считать URL документов регистро-зависимыми, в соответствии со стандартом.

UrlCaseFold

Получать URL документов регистро-независимыми, например, при индексировании документов с веб-серверов под Windows.

IndexFollow

Индексировать документы и распознавать гипертекстовые ссылки для получения URL-ов новых документов.

IndexNofollow

Индексировать документы, но не распознавать гипертекстовые ссылки для получения URL-ов новых документов.

NoindexFollow

Не индексировать документы, но просматривать их и распознавать находящиеся в них гипертекстовые ссылки для получения URL-ов новых документов.

Режим использования мета тега robots

AllowMetaRobots

Учитывать при индексировании содержимое мета тега robots. Подробнее об этом написано в разделе Мета тег robots.

IgnoreMetaRobots

Игнорировать мета тег robots.

Значение по умолчанию: AllowMetaRobots

Режим получения содержимого документа

GetFile

получать содержимое документов с помощью чтения файлов, доступных в локальной сети, с использованием протоколов операционной системы. Этот аргумент используется только в секции IndexedArea.

GetHttp

получать содержимое документов с помощью HTTP-протокола, посылая заголовки по умолчанию. Этот аргумент используется только в секции IndexedArea.

GetHttp:configid

получать содержимое документов с помощью HTTP-протокола, посылая заголовки, сконфигурированные в конфигурации, имеющей идентификатор configid. Идентификатор configid либо задает локальный путь к файлу с конфигурацией HTTP-запросов, абсолютный или относительно WorkDir, либо определяет значение атрибута name секции HttpOptions в текущем конфигурационном файле. Этот аргумент используется только в секции IndexedArea.

Режим обновления индекса

При первом индексировании все документы считаются новыми. Рассмотрим повторное индексирование с использованием существующего индекса. Имеющиеся в нем документы будем называть старыми, остальные индексируемые документы - новыми. Старые документы можно разделить на три группы - изменившиеся, неизменившиеся и недоступные. Изменившимся считается документ, текущее время модификации которого больше, чем время модификации во время предыдущего индексирования. Недоступными считаются документы, если попытка получить их содержимое по URL, известному от предыдущего индексирования, заканчивается неудачей. Остальные документы считаются неизменившимися. Старые документы можно удалять из индекса, переиндексировать или оставлять в индексе без переиндексирования. Следующая таблица представляет значения аргументов, задающие каждый из этих режимов.

Тип документаИндексироватьНе индексировать, оставитьНе индексировать, удалить
Новыйindnewskipnew 
Изменившийсяindmodskipmodremmod
Неизменившийсяindoldskipoldremold
Недоступный skipmissremmiss

Для удобства, наиболее часто встречающиеся режимы обновления индекса можно задать с помощью следующих аргументов.

Update

Убирать из индекса данные о недоступных документах и индексировать заново новые и изменившиеся документы, не индексировать неизменившиеся документы. Эквивалентен заданию indnew, indmod, skipold, remmiss.

Reindex

Убирать из индекса недоступные документы и индексировать заново все существующие, независимо от того, изменились ли они со времени предыдущего индексирования. Эквивалентен заданию indnew, indmod, indold, remmiss.

Noremove

Индексировать документы в данной области индексирования, но не убирать из индекса недоступные документы. Этот флаг полезен при индексировании временно недоступных документов. Эквивалентен заданию indnew, indmod, skipold, skipmiss.

Addonly

Убирать из индекса удаленные документы и индексировать заново только новые документы, проиндексированные ранее документы не переиндексировать, даже если время их изменения увеличилось. Эквивалентен заданию indnew, skipmod, skipold, remmiss.

Noindex

Не индексировать документы из данной области индексирования, убирать из индекса все ранее проиндексированные документы из этой области. Эквивалентен заданию skipnew, remmod, remold, remmiss.

Skip

Не индексировать документы из данной области индексирования, но сохранить в индексе ранее проиндексированные документы из этой области. Эквивалентен заданию skipnew, skipmod, skipold, skipmiss.

Значение по умолчанию: Update

При получении содержимого документов через HTTP-соединение можно использовать следующие аргументы.

SkipDisconnected

Не удалять из индекса документы, принадлежащие Веб-серверу, с которым не удалось установить HTTP-соединение. Это более слабый вариант noremove, действующий только для недоступных Веб-серверов.

RemoveDisconnected

Удалять из индекса документы, принадлежащие Веб-серверу, с которым не удалось установить HTTP-соединение.

Reconnect

В случае обрыва HTTP-соединения с Веб-сервером пытаться установить его для каждого последующего документа.

ReconnectOnce

В случае обрыва HTTP-соединения с Веб-сервером считать все оставшиеся документы Веб-сервера недоступными.

Значение по умолчанию: RemoveDisconnected, Reconnect

Кодировка символов, используемая в документах

recognize

Всегда распознавать кодировку символов автоматически.

use_content_type

В случае документов, получаемых по протоколу HTTP, считать кодировкой документа значение, указанное в заголовке Content-Type. Если заголовок отсутствует или в нем не указана кодировка, распознавать кодировку с помощью анализа текста документа.

КодировкаОбозначение
WinCyrillicwindows-1251, cp1251
MacCyrillicMacCyrillic, MacRussian
DOSCyrillicIBM855 или cp855
DOSCyrillicRussianIBM866, cp866
ISOLatinCyrillicISO-8859-5, iso-ir-144
WinLatin1windows-1252, cp1252
WinLatin2windows-1250, cp1250
KOI8RKOI8-R, csKOI8R
ISO8859_2iso-2, iso_8859-2
UTF8utf8, utf-8

Значение по умолчанию: recognize

Обнаружение границ предложений и абзацев на основе пунктуации

AllowPunctBreaks

Разрешить распознавание границ предложений и абзацев по знакам пунктуации - точкам, пробелам, переводам строк и т.п.

IgnorePunctBreaks

Границами предложений и абзацев считать только теги, разбивающие абзац в языке разметки или заданные в конфигурации парсера. Никакие естественные границы (например, точка+пробел+Большая_буква или два перевода строки и абзацный отступ внутри тега <pre> в HTML) не разбивают предложений и абзацев. Однако следует учитывать, что максимальная длина предложения ограничена, поэтому слишком длинные предложения все равно будут разбиты на несколько частей.

Значение по умолчанию: AllowPunctBreaks

Набор атрибутов документа

Set имя=значение

включить область индексирования в раздел

Unset имя=значение

исключить область индексирования из раздела

Указанные аргументы позволяют задать поисковые документные атрибуты типа LITERAL, дополнительно к атрибутам, назначаемым парсером документного формата во время индексирования документа. Использование данных аргументов позволяет включить документы в определенные тематические разделы на основании структуры веб-директорий, в которых находятся документы. Альтернативно, во время индексирования документы могут получить поисковые документные атрибуты в соответствии с их содержанием. См. обсуждение в разделе Форматы документов, зоны и атрибуты.

Строка имя=значение не должна включать пробелы. Чтобы удалить для данной области индексирования все унаследованные атрибуты, используйте атрибут inherited секции IndexedArea.

Пример:

  <IndexedArea inherited="no">

5.2.3. Директивы, определяющие формат документов

5.2.3.1. Секция DocFormat

Конфигурационный файл может включать несколько секций DocFormat, каждая из которых описывает один из форматов подлежащих индексированию документов и используемый для его интерпретации парсер (анализатор содержимого документа). Более подробную информацию о документных форматах можно найти в разделе Форматы документов, зоны и атрибуты.

Каждая секция DocFormat должна включать обязательную директиву MimeType. Также могут присутствовать необязательные директивы Extensions, Module, Symbol и Config. Если в директиве MimeType указано значение, не перечисленное в списке медиа-типов таблицы Значения директив секции DocFormat по умолчанию, директивы Module и Symbol являются обязательными.

MimeType

Задает произвольное имя документного формата, уникально идентифицирующее этот формат. Обычно в качестве идентификатора формата используется т.н. медиа-тип, значения которого специфицированы для большого количества форматов. Медиа-типы, поддерживаемые по умолчанию, для которых не обязательно задавать директивы Module и Symbol, перечислены в таблице Значения директив секции DocFormat по умолчанию.

Extensions

Задает суффиксы (расширения) файлов данного формата. Если для получения содержимого документа используется файловая система, документы в файлах с заданными расширениями будут считаться имеющими медиа-тип, указанный в директиве MimeType. Тем не менее, если для получения содержимого документа используется веб-сервер, возвращающий заголовок Content-type, в качестве медиа-типа используется значение этого заголовка. Если директива задана с пустым значением, все файлы считаются принадлежащими данному медиа-типу, а все предыдущие секции DocFormat игнорируются. Если директива отсутствует, для медиа-типов, перечисленных в таблице Значения директив секции DocFormat по умолчанию, используются указанные там расширения, а для всех других медиа-типов по умолчанию используется пустое значение.

Module

Задает либо имя файла с библиотекой парсера, либо полный путь к этой библиотеке. Если задано имя файла, полный путь к библиотеке парсера будет определен операционной системой. Для некоторых медиа-типов имеются значения по умолчанию, перечисленные в таблице Значения директив секции DocFormat по умолчанию, для остальных значений директивы MimeType данная директива должна быть задана.

Symbol

Задает имя символа, который должен быть загружен из библиотеки парсера. Значения по умолчанию перечислены в таблице Значения директив секции DocFormat по умолчанию.

Config

Задает локальный путь к конфигурационному файлу парсера для данного формата, абсолютный или относительно WorkDir. Форматы конфигурационных файлов описаны в документации к соответствующим парсерам. Например, настройка анализатора формата HTML описана в разделе Конфигурация HTML-парсера, а анализатор формата text/plain не является настраиваемым и для него значение данной директивы игнорируется. Если директива Config отсутствует, будет использована стандартная конфигурация парсера, описанная в документации к соответствующему парсеру.

Пример:

  <DocFormat>
      MimeType   text/html
      Extensions .htm, .html, .asp
      Config     attr.cfg
  </DocFormat>

5.2.3.2. Значения директив секции DocFormat по умолчанию

медиа-тип/подтип (MimeType)cуффиксы имен файлов (Extensions)библиотека парсера (Module)загружаемый символ (Symbol)
WindowsUnix
text/plain.txtypplain.dlllibypplain.soTXT_PARSER_LIB
text/html.html .htm .shtmlyphtml.dlllibyphtml.soHTML_PARSER_LIB
text/xml.xmlypxml.dlllibypxml.soXML_PARSER_LIB
text/rtf.rtfyprtf.dlllibyprtf.soRTF_PARSER_LIB
application/pdf.pdfyppdf.dlllibyppdf.soPDF_PARSER_LIB
application/msword.docypword.dlllibypword.soMSWORD_PARSER_LIB
application/x-shockwave-flash.swfypflash.dlllibypflash.soFLASH_PARSER_LIB_FNAME
application/vnd.ms-excel.xslypexcel.dlllibypexcel.soEXCEL_PARSER_LIB_FNAME
application/vnd.ms-powerpoint.pptypppt.dlllibypppt.soPPT_PARSER_LIB_FNAME
audio/mpeg.mp3ypmp3.dlllibypmp3.soMP3_PARSER_LIB

5.2.4. Примеры настройки индексатора

Пример 5-1. Настройка при обходе сайта по дереву каталогов

  ! Имя каталога с индексными файлами
  IndexDir myworkindex
  
  ! Имя каталога для временных файлов
  TempDir mynewindex
  
  ! Индексируемый каталог
  <IndexedArea>
      HttpPrefix www.company.ru
      FilePrefix /path/to/www.company.ru/data
  </IndexedArea>
  
  ! Выводить информацию о настройках индексатора и индексируемых документах
  Debug config, info

Пример 5-2. Настройка при обходе сайта по ссылкам

  ! Имя каталога с индексными файлами
  IndexDir myworkindex
  
  ! Имя каталога для временных файлов
  TempDir mynewindex
  
  ! Начальная ссылка
  StartUrls www.company.ru/
  
  ! Выводить информацию о настройках индексатора и индексируемых документах
  Debug config, info

Copyright © 1997 – 2005 «Яндекс»