В этом разделе описаны директивы, относящиеся к процессу индексирования в целом. Если какая-либо директива отсутствует в конфигурационном файле, для соответствующих параметров будут использованы указанные значения по умолчанию.
Путь к файлу протокола индексирования, абсолютный или относительно WorkDir.
Значение по умолчанию: стандартный поток вывода
Директория, в которой будут размещены вновь созданные индексные файлы. Должен быть указан абсолютный путь или путь относительно WorkDir. Если директория отсутствует, будет сделана попытка ее создать. Если в указанной директории находятся рабочие индексные файлы, созданные при предыдущем индексировании ("старый индекс"), они будут учтены при построении нового индекса, в соответствии с аргументами других директив конфигурационного файла, и заменены новым индексом перед окончанием работы индексатора. В противном случае индекс будет создан заново, а ключи, относящиеся к режиму обновления индекса, проигнорированы.
Значение по умолчанию: ./workindex
Пример:
IndexDir myindex
Директория, в которой будут храниться промежуточные данные, необходимые индексатору, в том числе вновь создаваемые индексные файлы. Должен быть указан абсолютный путь или путь относительно WorkDir. Если директория отсутствует, будет сделана попытка ее создать. Аргументы директив TempDir и IndexDir должны быть различны. После окончания сеанса индексирования индексатор удаляет временные файлы, созданные им в указанной директории, а вновь созданный индекс перемещает в директорию, заданную в IndexDir.
Значение по умолчанию: ./newindex
Пример:
TempDir /var/tmp/yandex
Путь к файлу, содержащему список стоп-слов. Слова, указанные в этом списке и их формы по умолчанию не будут заноситься в индекс. Применение стоп-слов может значительно уменьшить размер индексного файла. Список стоп-слов должен быть набран в кодировке Windows-1251. В состав поставки включен файл stopword.lst, в котором приведен список некоторых часто встречающихся слов. Файл можно редактировать.
Значение по умолчанию: не задан
Пример:
StopWordFile my_stopword.lst
Директива может иметь несколько аргументов, задающих тот или иной параметр индексирования. Внутри каждой группы аргументов, указанных ниже, нужно выбрать один.
Использование старого индекса
Если в директории, заданной в IndexDir, существует индекс, созданный при предыдущем индексировании, то при новом индексировании документы из существующего индекса будут проверены на предмет обновления или удаления в соответствии с параметрами, заданными для областей индексирования в директивах Options.
Если в директории, заданной в IndexDir, существует индекс, созданный при предыдущем индексировании, то при новом индексировании документы из существующего индекса будут перенесены в новый без всяких проверок. В этом случае сначала будет создан новый индекс в соответствии с текущей конфигурацией индексатора, а затем, на заключительном этапе индексирования, новый индекс будет объединен с существующим. Документы из существующего старого индекса, URL которых встречается среди URL документов нового индекса, будут удалены.
Если в директории, заданной в IndexDir, существует индекс, созданный при предыдущем индексировании, то при новом индексировании этот индекс будет удален. Новый индекс будет создан в соответствии с текущей конфигурацией индексатора.
Значение по умолчанию: Update
Сохранение документных архивов
При индексировании текст документов сохраняется без элементов форматирования. Эта информация используется во время поиска при получении отрывков текста документа, содержащих найденные слова. Архив с сохраненными текстами может иметь размер до 30-40% от суммарного размера индексируемых документов.
Не сохранять текст индексируемых документов. Используется для уменьшения объема индексных файлов и увеличения скорости индексирования в случае, если показывать фрагменты текста с найденными словами не требуется.
Значение по умолчанию: StoreArchive
Сохранение точных словоформ
Задает режим индексирования с учетом точных словоформ. Задание этого ключа ведет к добавлению в индекс информации о точных формах встречающихся в документах слов, что позволяет в языке запросов использовать оператор ! поиска по точной словоформе. При этом размер индекса увеличивается примерно в 2 раза.
Точные словоформы не учитываются в индексе.
Значение по умолчанию: DiscardWordForms
Сохранение стоп-слов
Задает режим игнорирования директивы StopWordFile. Все стоп-слова попадают в индекс, что позволяет использовать поисковый оператор + (плюс) для поиска слов из списка стоп-слов поискового сервера.
Стоп-слова из файла, указанного в директиве StopWordFile, не учитываются в индексе.
Значение по умолчанию: DiscardStopWords
Сохранение даты индексирования
Для каждого индексируемого документа создается поисковый документный атрибут с именем idate, типом DATE и значением даты и времени последнего индексирования документа. Поисковые атрибуты обсуждаются в разделе Форматы документов, зоны и атрибуты.
Поисковый документный атрибут idate не создается.
Значение по умолчанию: StoreIndexingDate
Определяет максимальное число проиндексированных документов в хранящейся в памяти порции индекса. Чем больше это число, тем быстрее происходит индексирование, но объем памяти, требуемый индексатору, возрастает. При достижении максимального размера порция индекса записывается на диск в директорию, указанную в директиве TempDir, и в памяти создается новая порция. Все временные порции индекса сливаются в итоговый индекс на заключительном этапе индексирования.
Значение по умолчанию: 250
Выдача тестовой информации. Директива бывает полезна при отладке и тонкой настройке конфигурации. Директива имеет любое число аргументов из перечисленных ниже.
печать серийного номера программы и лицензионных ограничений
печать конфигурации
печать информации об исключаемых из индексирования документах
печать информации о добавлении, изменении и удалении документов
печать информации о способах получения URL'a и содержимого документа
печать информации об ошибках, из-за которых документ не был проиндексирован
печать всей информации, перечисленной выше
Копирование содержимого индексируемых документов в файл backup, расположенный в директории, указанной в директиве TempDir. Если при запуске индексатора файл с таким именем уже существует, он будет удален. Копируются только документы, получаемые через HTTP-соединение или из внешнего источника данных.
Значение по умолчанию: не задан
Пример:
Debug config, info, warning
Директива имеет один или несколько аргументов, каждый из которых задает имя документного поискового атрибута, значение которого должно быть сохранено в архиве документов. Документные поисковые атрибуты обсуждаются в разделе Форматы документов, зоны и атрибуты. Имена и критерии, определяющие эти атрибуты, задаются в конфигурации парсера документного формата, а значения определяются во время индексирования документа. Значение каждого документного атрибута, указанного в данной директиве, может быть получено на странице с результатами поиска с помощью функции DocProperty, которой надо передать название свойства, совпадающее с одним из аргументов данной директивы. Дополнительно к атрибутам, указанным в данной директиве, в архиве документов автоматически сохраняются и другие свойства документа (см. подробности в разделе Особые названия зон и атрибутов), которые тоже могут быть получены при формировании страницы с результатами найденного с помощью функции DocProperty.
Если задан аргумент StoreArchive директивы GlobalOptions, в документном архиве также сохраняется весь текст документа.
Суммарный объем значений атрибутов, указанных в данной директиве, заголовка, аннотации и URL документа не может превышать 8 Кб.
Директива имеет один или несколько аргументов, каждый из которых задает имя документного поискового атрибута, из которого должен быть автоматически создан группировочный атрибут.
Группировочные атрибуты обсуждаются в разделе Группировочные атрибуты. Они являются целыми числами и дают возможность сгруппировать или отсортировать найденные документы по тем или иным критериям, не зависящим от текста документа.
Документные поисковые атрибуты обсуждаются в разделе Форматы документов, зоны и атрибуты. Значения этих атрибутов могут определяться во время индексирования документа в соответствии с настройками парсера документного формата (см. раздел Конфигурирование зон и атрибутов). Дополнительно, поисковые документные атрибуты типа LITERAL могут быть заданы в директиве Options конфигурационного файла индексатора (см. подраздел Набор атрибутов документа).
В обоих случаях, если в данной директиве указаны имена поисковых атрибутов, определенные в настройках парсера или в директиве Options, то автоматически будут созданы группировочные атрибуты с теми же именами. Значения поисковых атрибутов, определенных в настройках парсера, должны быть целыми числами или последовательностью целых чисел. В этом случае такими же будут и значения группировочных атрибутов. Для литеральных поисковых атрибутов из директивы Options значения группировочных атрибутов будут генерироваться автоматически. В этом случае будут также автоматически созданы файлы соответствия имен имя_атрибута.c2n.
В каждом аргументе директивы сразу после имени атрибута через двоеточие может быть указано одно из чисел 1,2,3,4, имеющее смысл максимального числа байт, которое может занимать значение данного атрибута. Указание меньшего числа уменьшает размер базы группировочных атрибутов. Значение по умолчанию - 4.
Области индексирования определены в разделе Области индексирования. Здесь описаны директивы, определяющие области индексирования и задающие их свойства. Индексатор начинает свою работу с получения начального списка URL документов, подлежащих индексированию. Поэтому необходимо, чтобы список начальных URL был явно задан в ключе StartUrls или чтобы присутствовала хотя бы одна из секций IndexedArea или DataSource.
Один или несколько URL документов, с которых индексатор начинает индексирование. Указывать начальный префикс http:// не обязательно. Если в секциях IndexedArea и директиве DefaultAreaOptions не указано по-другому, будет реализовано следующее поведение по умолчанию. URL других документов, кроме указанных, будут получены в результате распознавания гипертекстовых ссылок в тексте уже проиндексированных документов. Будут проиндексированы только документы из тех же веб-директорий, в которых лежат указанные начальные URL, и документы из поддиректорий этих директорий. Содержимое документов будет получено по протоколу HTTP, кодировка документов будет распознана автоматически. При переиндексировании будут повторно индексироваться только новые и изменившиеся документы, а недоступные (удаленные) документы будут удалены из индекса.
Значение по умолчанию: не задан
Пример 1:
StartUrls www.host.name/Будут проиндексированы все документы сайта http://www.host.name, на которые можно перейти с главной страницы по гипертекстовым ссылкам за один или несколько "кликов". Данная конфигурация полностью эквивалентна следующей (см. Секция IndexedArea):
<IndexedArea>
HttpPrefix www.host.name/
</IndexedArea>
Пример 2:
StartUrls www.host.name/docs/doc.htmlБудут проиндексированы все документы в директории http://www.host.name/docs/, на которые можно перейти с документа http://www.host.name/docs/doc.html. Документы, URL-ы которых начинаются не с http://www.host.name/docs/, проиндексированы не будут.
Пример 3:
StartUrls http://www.host.name/news/, www.host.name/conference/conf.htmlБудут проиндексированы документы, URL-ы которых начинаются с http://www.host.name/news/ или с http://www.host.name/conference/, и на которые можно перейти за один или несколько "кликов" хотя бы с одной из страниц http://www.host.name/news/ или http://www.host.name/conference/conf.html.
Задает регулярное выражение. Все документы, URL которых содержит подстроку, удовлетворяющую этому регулярному выражению, будут исключены из индексирования.
Значение по умолчанию: не задан
Примеры:
! Исключать из индексирования файлы _index.html,
! _index.htm, default.html и default.htm
Disallow /(_index|default)[.]htm[l]?
! Исключать из индексирования скрипт /lists/showfolder.asp, если
! первым в списке cgi-параметров идет параметр с именем fid
Disallow /lists/showfolder.asp[?]fid=.*
Задает регулярное выражение. Будут проиндексированы только те документы, URL которых содержит подстроку, удовлетворяющую этому регулярному выражению.
Значение по умолчанию: не задан
Примеры:
! проиндексировать файлы только из архивов за 1990-1999 годы и
! из каталога archives
Allow /(199[0-9]|archive)/
! проиндексировать файлы только из тех каталогов, имя
! которых состоит из 4-х цифр
Allow /([0-9]{4})/
Задает префикс URL по умолчанию, относительно которого может быть задан аргумент директивы HttpPrefix в секциях IndexedArea. Дает возможность задавать относительные URL в секциях IndexedArea.
Значение по умолчанию: http://127.0.0.1/
Пример:
DefaultHttpPrefix myhost.ru
Задает значение по умолчанию, которое будет использоваться в директиве Options в секциях IndexedArea и DataSource. Это же значение задает способ индексирования при использовании директивы StartUrls, если определяемые ею веб-директории не входят в дерево директорий, определенное в секциях IndexedArea. Аргументы этой директивы описаны в разделе Директива Options
Значение по умолчанию: use_content_type update
Пример:
DefaultAreaOptions windows-1251
Конфигурационный файл может включать несколько секций IndexedArea, каждая из которых задает область индексирования. Каждая секция может включать не более одной из директив HttpPrefix, FilePrefix и Options, и должна включать хотя бы одну из первых двух директив.
Cекция IndexedArea может иметь атрибут inherited. Значение атрибута равное no, отменяет наследование значений директив и поисковых атрибутов.
Пример:
<IndexedArea> HttpPrefix http://myhost/mysite/theme1/ Options Set group=theme1 </IndexedArea> <IndexedArea> HttpPrefix http://myhost/mysite/theme1/theme2/ Options Set group=theme2 </IndexedArea>
В приведенной конфигурации, вторая секция наследует значение
theme1поискового атрибута
groupот предыдущей области индексирования.
Чтобы этого не происходило, используйте:
<IndexedArea inherited="no"> HttpPrefix http://myhost/mysite/theme1/theme2/ Options Set group=theme2 </IndexedArea>
Префикс URL документов, абсолютный или относительно пути, заданного в DefaultHttpPrefix. Все документы, имеющие данный префикс, индексируются по правилам, указанным в Options. Если указан относительный путь, изменение директивы DefaultHttpPrefix при переиндексировании не вызывает переиндексирования данной области индексирования.
Пример:
<IndexedArea>
HttpPrefix /
</IndexedArea>
Локальный путь, соответствующий значению HttpPrefix. Используется, если требуется получать содержимое документов с помощью чтения файлов. Должен быть указан абсолютный путь или путь относительно WorkDir. Если директива HttpPrefix не задана, в качестве префикса URL используется этот же путь, преобразованный к протоколу file.
Значение по умолчанию: не задан
Пример:
<IndexedArea>
FilePrefix C:\Inetpub\wwwroot
</IndexedArea>
Параметры индексирования документов в данной области индексирования. Параметры индексирования сначала наследуются от области индексирования верхнего уровня, если такая есть, или от значения директивы DefaultAreaOptions, или от значения по умолчанию, а затем дополняются параметрами, указанными в данной директиве. Аргументы этой директивы описаны в разделе Директива Options
Значение по умолчанию: не задан
Пример:
<IndexedArea>
HttpPrefix /
FilePrefix C:\Inetpub\wwwroot
Options windows-1251
</IndexedArea>
Конфигурационный файл может включать несколько секций DataSource, каждая из которых описывает внешний источник данных. Каждая секция должна включать обязательные директивы Name и Module. Также могут присутствовать необязательные директивы Config и Options.
Задает произвольное имя источника данных, уникально идентифицирующее этот источник данных. Может состоять только из латинских букв [a-zA-Z], чисел [0-9] и символа подчеркивания '_'.
Пример:
Name mybase
Задает локальный путь к модулю связи с источником данных, абсолютный или относительно WorkDir.
Пример:
Module ../bin/mysql.dll
Задает строку инициализации, которая будет передана источнику данных при его инициализации. Формат этой строки определяется документацией к модулю связи с источником данных. Для модулей связи с базами данных, поставляемых вместе с Яndex.Server 3.4, эта директива является обязательной и определяет путь к файлу конфигурации модуля связи с источником данных, формат которого описан в документации к модулю связи. См. Индексирование данных через интерфейс OLEDB (Windows) и Индексирование баз данных MySQL (Unix)
Значение по умолчанию: не задан
Пример:
Config mysql.cfg
Параметры индексирования документов из источника данных. Параметры индексирования сначала наследуются значения директивы DefaultAreaOptions, или от значения по умолчанию, а затем дополняются параметрами, указанными в данной директиве. Аргументы этой директивы описаны в разделе Директива Options
Значение по умолчанию: не задан
Пример:
Options windows-1251
Пример:
<DataSource>
Name zakladki
Module oledb.dll
Config sqldb.ini
<DataSource>В этом разделе описаны аргументы директивы Options, которая может встречаться в секциях IndexedArea и DataSource, а также директивы DefaultAreaOptions из главной секции конфигурационного файла индексатора. С помощью аргументов директивы Options можно задать следующие параметры областей индексирования.
Получать URL документов с помощью распознавания гипертекстовых ссылок в тексте уже проиндексированных документов. Этот аргумент используется только в секции IndexedArea.
Получать URL документов считыванием оглавлений файловых директорий локальной сети. Этот аргумент используется только в секции IndexedArea.
Считать URL документов регистро-зависимыми, в соответствии со стандартом.
Получать URL документов регистро-независимыми, например, при индексировании документов с веб-серверов под Windows.
Индексировать документы и распознавать гипертекстовые ссылки для получения URL-ов новых документов.
Индексировать документы, но не распознавать гипертекстовые ссылки для получения URL-ов новых документов.
Не индексировать документы, но просматривать их и распознавать находящиеся в них гипертекстовые ссылки для получения URL-ов новых документов.
Учитывать при индексировании содержимое мета тега robots. Подробнее об этом написано в разделе Мета тег robots.
Игнорировать мета тег robots.
Значение по умолчанию: AllowMetaRobots
получать содержимое документов с помощью чтения файлов, доступных в локальной сети, с использованием протоколов операционной системы. Этот аргумент используется только в секции IndexedArea.
получать содержимое документов с помощью HTTP-протокола, посылая заголовки по умолчанию. Этот аргумент используется только в секции IndexedArea.
получать содержимое документов с помощью HTTP-протокола, посылая заголовки, сконфигурированные в конфигурации, имеющей идентификатор configid. Идентификатор configid либо задает локальный путь к файлу с конфигурацией HTTP-запросов, абсолютный или относительно WorkDir, либо определяет значение атрибута name секции HttpOptions в текущем конфигурационном файле. Этот аргумент используется только в секции IndexedArea.
При первом индексировании все документы считаются новыми. Рассмотрим повторное индексирование с использованием существующего индекса. Имеющиеся в нем документы будем называть старыми, остальные индексируемые документы - новыми. Старые документы можно разделить на три группы - изменившиеся, неизменившиеся и недоступные. Изменившимся считается документ, текущее время модификации которого больше, чем время модификации во время предыдущего индексирования. Недоступными считаются документы, если попытка получить их содержимое по URL, известному от предыдущего индексирования, заканчивается неудачей. Остальные документы считаются неизменившимися. Старые документы можно удалять из индекса, переиндексировать или оставлять в индексе без переиндексирования. Следующая таблица представляет значения аргументов, задающие каждый из этих режимов.
| Тип документа | Индексировать | Не индексировать, оставить | Не индексировать, удалить |
|---|---|---|---|
| Новый | indnew | skipnew | |
| Изменившийся | indmod | skipmod | remmod |
| Неизменившийся | indold | skipold | remold |
| Недоступный | skipmiss | remmiss |
Для удобства, наиболее часто встречающиеся режимы обновления индекса можно задать с помощью следующих аргументов.
Убирать из индекса данные о недоступных документах и индексировать заново новые и изменившиеся документы, не индексировать неизменившиеся документы. Эквивалентен заданию indnew, indmod, skipold, remmiss.
Убирать из индекса недоступные документы и индексировать заново все существующие, независимо от того, изменились ли они со времени предыдущего индексирования. Эквивалентен заданию indnew, indmod, indold, remmiss.
Индексировать документы в данной области индексирования, но не убирать из индекса недоступные документы. Этот флаг полезен при индексировании временно недоступных документов. Эквивалентен заданию indnew, indmod, skipold, skipmiss.
Убирать из индекса удаленные документы и индексировать заново только новые документы, проиндексированные ранее документы не переиндексировать, даже если время их изменения увеличилось. Эквивалентен заданию indnew, skipmod, skipold, remmiss.
Не индексировать документы из данной области индексирования, убирать из индекса все ранее проиндексированные документы из этой области. Эквивалентен заданию skipnew, remmod, remold, remmiss.
Не индексировать документы из данной области индексирования, но сохранить в индексе ранее проиндексированные документы из этой области. Эквивалентен заданию skipnew, skipmod, skipold, skipmiss.
Значение по умолчанию: Update
При получении содержимого документов через HTTP-соединение можно использовать следующие аргументы.
Не удалять из индекса документы, принадлежащие Веб-серверу, с которым не удалось установить HTTP-соединение. Это более слабый вариант noremove, действующий только для недоступных Веб-серверов.
Удалять из индекса документы, принадлежащие Веб-серверу, с которым не удалось установить HTTP-соединение.
В случае обрыва HTTP-соединения с Веб-сервером пытаться установить его для каждого последующего документа.
В случае обрыва HTTP-соединения с Веб-сервером считать все оставшиеся документы Веб-сервера недоступными.
Значение по умолчанию: RemoveDisconnected, Reconnect
Всегда распознавать кодировку символов автоматически.
В случае документов, получаемых по протоколу HTTP, считать кодировкой документа значение, указанное в заголовке Content-Type. Если заголовок отсутствует или в нем не указана кодировка, распознавать кодировку с помощью анализа текста документа.
| Кодировка | Обозначение |
|---|---|
| WinCyrillic | windows-1251, cp1251 |
| MacCyrillic | MacCyrillic, MacRussian |
| DOSCyrillic | IBM855 или cp855 |
| DOSCyrillicRussian | IBM866, cp866 |
| ISOLatinCyrillic | ISO-8859-5, iso-ir-144 |
| WinLatin1 | windows-1252, cp1252 |
| WinLatin2 | windows-1250, cp1250 |
| KOI8R | KOI8-R, csKOI8R |
| ISO8859_2 | iso-2, iso_8859-2 |
| UTF8 | utf8, utf-8 |
Значение по умолчанию: recognize
Разрешить распознавание границ предложений и абзацев по знакам пунктуации - точкам, пробелам, переводам строк и т.п.
Границами предложений и абзацев считать только теги, разбивающие абзац в языке разметки или заданные в конфигурации парсера. Никакие естественные границы (например, точка+пробел+Большая_буква или два перевода строки и абзацный отступ внутри тега <pre> в HTML) не разбивают предложений и абзацев. Однако следует учитывать, что максимальная длина предложения ограничена, поэтому слишком длинные предложения все равно будут разбиты на несколько частей.
Значение по умолчанию: AllowPunctBreaks
включить область индексирования в раздел
исключить область индексирования из раздела
Указанные аргументы позволяют задать поисковые документные атрибуты типа LITERAL, дополнительно к атрибутам, назначаемым парсером документного формата во время индексирования документа. Использование данных аргументов позволяет включить документы в определенные тематические разделы на основании структуры веб-директорий, в которых находятся документы. Альтернативно, во время индексирования документы могут получить поисковые документные атрибуты в соответствии с их содержанием. См. обсуждение в разделе Форматы документов, зоны и атрибуты.
Строка имя=значение не должна включать пробелы. Чтобы удалить для данной области индексирования все унаследованные атрибуты, используйте атрибут inherited секции IndexedArea.
Пример:
<IndexedArea inherited="no">
Конфигурационный файл может включать несколько секций DocFormat, каждая из которых описывает один из форматов подлежащих индексированию документов и используемый для его интерпретации парсер (анализатор содержимого документа). Более подробную информацию о документных форматах можно найти в разделе Форматы документов, зоны и атрибуты.
Каждая секция DocFormat должна включать обязательную директиву MimeType. Также могут присутствовать необязательные директивы Extensions, Module, Symbol и Config. Если в директиве MimeType указано значение, не перечисленное в списке медиа-типов таблицы Значения директив секции DocFormat по умолчанию, директивы Module и Symbol являются обязательными.
Задает произвольное имя документного формата, уникально идентифицирующее этот формат. Обычно в качестве идентификатора формата используется т.н. медиа-тип, значения которого специфицированы для большого количества форматов. Медиа-типы, поддерживаемые по умолчанию, для которых не обязательно задавать директивы Module и Symbol, перечислены в таблице Значения директив секции DocFormat по умолчанию.
Задает суффиксы (расширения) файлов данного формата. Если для получения содержимого документа используется файловая система, документы в файлах с заданными расширениями будут считаться имеющими медиа-тип, указанный в директиве MimeType. Тем не менее, если для получения содержимого документа используется веб-сервер, возвращающий заголовок Content-type, в качестве медиа-типа используется значение этого заголовка. Если директива задана с пустым значением, все файлы считаются принадлежащими данному медиа-типу, а все предыдущие секции DocFormat игнорируются. Если директива отсутствует, для медиа-типов, перечисленных в таблице Значения директив секции DocFormat по умолчанию, используются указанные там расширения, а для всех других медиа-типов по умолчанию используется пустое значение.
Задает либо имя файла с библиотекой парсера, либо полный путь к этой библиотеке. Если задано имя файла, полный путь к библиотеке парсера будет определен операционной системой. Для некоторых медиа-типов имеются значения по умолчанию, перечисленные в таблице Значения директив секции DocFormat по умолчанию, для остальных значений директивы MimeType данная директива должна быть задана.
Задает имя символа, который должен быть загружен из библиотеки парсера. Значения по умолчанию перечислены в таблице Значения директив секции DocFormat по умолчанию.
Задает локальный путь к конфигурационному файлу парсера для данного формата, абсолютный или относительно WorkDir. Форматы конфигурационных файлов описаны в документации к соответствующим парсерам. Например, настройка анализатора формата HTML описана в разделе Конфигурация HTML-парсера, а анализатор формата text/plain не является настраиваемым и для него значение данной директивы игнорируется. Если директива Config отсутствует, будет использована стандартная конфигурация парсера, описанная в документации к соответствующему парсеру.
Пример:
<DocFormat>
MimeType text/html
Extensions .htm, .html, .asp
Config attr.cfg
</DocFormat>| медиа-тип/подтип (MimeType) | cуффиксы имен файлов (Extensions) | библиотека парсера (Module) | загружаемый символ (Symbol) | |
|---|---|---|---|---|
| Windows | Unix | |||
| text/plain | .txt | ypplain.dll | libypplain.so | TXT_PARSER_LIB |
| text/html | .html .htm .shtml | yphtml.dll | libyphtml.so | HTML_PARSER_LIB |
| text/xml | .xml | ypxml.dll | libypxml.so | XML_PARSER_LIB |
| text/rtf | .rtf | yprtf.dll | libyprtf.so | RTF_PARSER_LIB |
| application/pdf | yppdf.dll | libyppdf.so | PDF_PARSER_LIB | |
| application/msword | .doc | ypword.dll | libypword.so | MSWORD_PARSER_LIB |
| application/x-shockwave-flash | .swf | ypflash.dll | libypflash.so | FLASH_PARSER_LIB_FNAME |
| application/vnd.ms-excel | .xsl | ypexcel.dll | libypexcel.so | EXCEL_PARSER_LIB_FNAME |
| application/vnd.ms-powerpoint | .ppt | ypppt.dll | libypppt.so | PPT_PARSER_LIB_FNAME |
| audio/mpeg | .mp3 | ypmp3.dll | libypmp3.so | MP3_PARSER_LIB |
Пример 5-1. Настройка при обходе сайта по дереву каталогов
! Имя каталога с индексными файлами
IndexDir myworkindex
! Имя каталога для временных файлов
TempDir mynewindex
! Индексируемый каталог
<IndexedArea>
HttpPrefix www.company.ru
FilePrefix /path/to/www.company.ru/data
</IndexedArea>
! Выводить информацию о настройках индексатора и индексируемых документах
Debug config, info| Пред. | Начало | След. |
| Настройка и использование индексатора | Уровень выше | Правила индексирования, не описываемые в конфигурационном файле |