CNSearch - Индексатор
Само по себе, индексирование - процесс не быстрый, и скорость может изменяться от 30Kb до 250Kb в секунду, в зависимости от объема индекса и мощности компьютера. Индексатор не должен запускаться слишком часто, а частота запуска зависит от частоты обновления сайта. Для статических (не изменяющихся сайтов) достаточно одного запуска индексатора.
Во время индексации индексатор создает 3 файла:
- files.cns - описание всех документов, занесенных в поисковый индекс.
- index.cns - собственно, сам поисковый индекс.
- docs.cns - списки соответствий.
Кроме того, индексатор может создавать файл статистики - stats.log, который вы, например, можете обработать сразу после индексации сервера, и занести информацию в свою базу данных
Возможны два режима индексации:
- По HTTP - это стандартный режим работы индексатора. Для запуска индексации по HTTP обязательно должна быть установлена директива URL.
- С диска - индексатор будет обходить файлы на локальном диске вашего компьютера, и вам не потребуется даже подключения к интернету. Установить соответствие между файлами на диске, и файлами на вашем сайте вы можете с помощью директив AFrom и ATo. Для запуска индексации с диска обязательно должны быть установлены директивы URL и Extentions.
Индексатор запускается следующим образом:
Windows | Unix,Linux |
---|---|
C:\searchctl.exe имя_задания | ./searchctl имя_задания |
Работа с файлом search.conf
Все настройки индексатора задаются в файле search.conf. Файл имеет следующую структуру:
[Job имя_задания] [Действие1] Параметр1 Значение1 Параметр2 Значение2 Параметр3 Значение3 [Действие2] Параметр1 Значение1 Параметр2 Значение2 Параметр3 Значение3 |
- Параметр Job задает имя задания. Имя задания указывается при запуске файла searchctl.
- Параметры Действие1 и Действие2 указывают действия, которые будет выполнятся во время выполнения задания. В данной версии возможны только два действия: Index - индексировать и Run - запустить внешнее приложение.
- Далее для каждого действия указываются параметры и их значения - по одному в строке. Параметр и значение разделяются пробелами или символами табуляции.
Конфигурационный файл не может иметь пустых строк и комментариев.
Действие Index
Действие Index - индексировать сайт. Данное действие запускает систему индексирования. Системе должен быть передан как минимум один параметр, при индексации по HTTP, и как минимум два параметра при индексации с диска.
Теперь более подробно о параметрах:
URL <url>
URL url
Адрес, начиная с http://... при индексации по HTTP, либо локальный путь при индексации с диска.
Пример:
Для HTTP: URL http://www.novgorod.ru/frisbee/ Для диска (Windows): URL c:/pub/home/frisbee/ Для диска (Unix): URL /pub/home/frisbee/
Extentions <ext>
Extentions ext1,ext2,ext3
Задает список расширений индексируемых файлов. Используется при только индексации с диска, при индексации по HTTP игнорируется. Расширения перечисляются через "," (запятую).
Пример:
Extentions htm,html,shtml,shtm
CharSet <cset>
CharSet cset
Задает способ определения кодировки индексируемых страниц. Может принимать следующие значения:
- ByMetaTag - определять кодировку по META тегу (по умолчанию)
- ByHTTPHeader - определять кодировку по HTTP заголовку, если кодировка не может быть определена по HTTP заголовку, то производится попытка определения по META тегу. Если и это не удается, то система считает что кодировка - windows-1251.
- win-1251 - Не определять кодировку. Кодировка win-1251
- koi8-r - Не определять кодировку. Кодировка koi8-r
Пример:
CharSet ByHTTPHeader
MaxFiles <num>
MaxFiles num
Задает максимальное количество индексируемых файлов. По умолчанию 10000. (Равноценно глубине обхода, так как обход осуществляется в ширину). Будьте внимательные изменяя это значение, так как некоторые сервера содержат бесконечное количество ссылок (например http://news.novgorod.ru/)
Пример:
MaxFiles 50
Statistic <stat>
Statistic stat
Задает способ сохранения отчета. Отчет создается по окончанию действия Index и сохраняется в файл stats.log. Может принимать следующие значения:
- No - не сохранять отчет
- Append - добавлять к существующему файлу (по умолчанию)
- Overwrite - заменять существующий файл
Статистика сохраняется в файл stats.log.
Например:
Statistic Append
Exclude <excl>
Exclude excl1,excl2,excl3
Задает список исключаемых слов. Адреса, в которых есть хотя-бы одно из исключаемых слов не добавляются в очередь индексации. Слова перечисляются через "," (запятую)
Пример:
Exclude editpost.php?,reply.php?,admin/
AddOption <opt>
AddOption opt
Задает способ индексации. Используется ТОЛЬКО при индексации по HTTP. Может принимать следующие значения:
- Page - индексировать только текущую страницу.
- SubPages - Индексировать все страницы, которые содержат в своем адресе адрес стартовой.
- Server - Индексировать весь сервер.
Пример:
AddOption SubPages
Language <lng>
Задает язык. Если этот параметр задан, то в HTTP заголовок добавляется поле Accept-Language. Эта переменная может влиять на содержимое страницы на некоторых сайтах.
Пример:
Language ru
AFrom <path>
AFrom pathЗадает подстроку, которая заменится в URL'е на строку заданную в параметре ATo.
Пример:
AFrom /home/dir/mysite/ ATo http://search.codenet.ru/
ATo <url>
ATo urlЗадает подстроку, на которую заменится в URL'е AFrom. Используется совместно с AFrom.
Пример:
AFrom http://127.0.0.1/ ATo http://www.codenet.ru/
или
AFrom c:/documents/www/www.codenet.ru/ ATo http://www.codenet.ru/
StartWord <word>
StartWord word
Задает стартовое слово. Описание страницы будет составлено из слов следующих за стартовым. Таким образом можно исключить из описания элементы меню и т.д. Стартовое слово ОБЯЗАТЕЛЬНО должно присутствовать на странице.
Пример:
StartWord about
MetaDescription <yesno>
MetaDescription yesno
Задает способ создания описания к странице. Описание может быть показано пользователю при выводе результатов поиска с помощью специального символа %E. Может принимать значения "Yes" или "No". По умолчаню - "No". Если Yes - то производится попытка взять описание из тега <META name="description... Если тег не найден, или если параметр установлен в "No", то описание составляется из первых слов документа (см. startword)
Пример:
MetaDescription Yes
MetaRobots <yesno>
MetaRobots yesno
Если данный параметр установлен в "No", то тег <META name="robots"... игнорируется, иначе тег обрабатывается на наличие значений NOINDEX, NOFOLLOW, NONE. Более подробно читайте в разделе Использование META-тегов "Robots". Значение по умолчанию - "Yes"
Пример:
MetaRobots No
UseRobotsTxt <yesno>
UseRobotsTxt <yesno>
Если данный параметр установлен в "Yes", то правила индексирования берутся из файла robots.txt, находящегося в корневом каталоге сервера. Значение по умолчанию - "No". Более подробно об использовании файла robots.txt вы можете прочитать в разделе "Стандарт исключений для роботов". Робота зовут "CNSearch".
Пример:
UseRobotsTxt yes
Работа через прокси-сервер
С версии 0.91 появилась возможность работы через прокси-сервер. Для этого было введено 4 новых директивы ProxyServer, ProxyPort, ProxyLogin и ProxyPassword
ProxyServer <serv>
ProxyServer server
Задает прокси-сервер. По умолчанию, индексатор использует прямое подключение. Используется совместно с ProxyPort.
Пример:
ProxyServer proxy.domain.ru
ProxyPort <port>
ProxyPort port
Задает порт прокси-сервера. Используется совместно с ProxyServer.
Пример:
ProxyPort 8080
ProxyLogin <login>
ProxyLogin login
Задает логин для подключения к прокси-серверу. Используется только в том случае, если прокси-сервер требует авторизацию. Используется совместно с ProxyPassword.
Пример:
ProxyLogin alex
ProxyPassword <password>
ProxyPassword password
Задает пароль для подключения к прокси-серверу. Используется только в том случае, если прокси-сервер требует авторизацию. Используется совместно с ProxyLogin.
Пример:
ProxyPassword qwerty
[Runner] - Запустить внешнее приложение.
Runner используется для запуска внешних приложений. Внешнее приложение может, например, обработать лог-файл, и занести его содержимое в базу данных или скопировать индексные файлы и т.п.
Filename <file>
Filename file
Задает имя запускаемого файла.
Пример:
Filename /home/alex/parser.pl
Params <prm>
Задает параметры командной строки для файла указанного в Filename.
Пример:
Params --user=root --password=jfiekf
Оставить комментарий
Комментарии
как запускать индексатор ?? я скачал нажимаю ничего не происходит