Справочник функций

Ваш аккаунт

Войти через: 
Забыли пароль?
Регистрация
Информацию о новых материалах можно получать и без регистрации:

Последние темы форума

Показать новые сообщения »

Почтовая рассылка

Подписчиков: 11639
Последний выпуск: 19.06.2015

CNSearch - Индексатор

Само по себе, индексирование - процесс не быстрый, и скорость может изменяться от 30Kb до 250Kb в секунду, в зависимости от объема индекса и мощности компьютера. Индексатор не должен запускаться слишком часто, а частота запуска зависит от частоты обновления сайта. Для статических (не изменяющихся сайтов) достаточно одного запуска индексатора.

Во время индексации индексатор создает 3 файла:

  • files.cns - описание всех документов, занесенных в поисковый индекс.
  • index.cns - собственно, сам поисковый индекс.
  • docs.cns - списки соответствий.

Кроме того, индексатор может создавать файл статистики - stats.log, который вы, например, можете обработать сразу после индексации сервера, и занести информацию в свою базу данных

Возможны два режима индексации:

  • По HTTP - это стандартный режим работы индексатора. Для запуска индексации по HTTP обязательно должна быть установлена директива URL.
  • С диска - индексатор будет обходить файлы на локальном диске вашего компьютера, и вам не потребуется даже подключения к интернету. Установить соответствие между файлами на диске, и файлами на вашем сайте вы можете с помощью директив AFrom и ATo. Для запуска индексации с диска обязательно должны быть установлены директивы URL и Extentions.

Индексатор запускается следующим образом:

WindowsUnix,Linux

C:\searchctl.exe имя_задания

./searchctl имя_задания

Работа с файлом search.conf

Все настройки индексатора задаются в файле search.conf. Файл имеет следующую структуру:


[Job имя_задания]
[Действие1]
Параметр1	Значение1
Параметр2	Значение2
Параметр3	Значение3
[Действие2]
Параметр1	Значение1
Параметр2	Значение2
Параметр3	Значение3
  • Параметр Job задает имя задания. Имя задания указывается при запуске файла searchctl.
  • Параметры Действие1 и Действие2 указывают действия, которые будет выполнятся во время выполнения задания. В данной версии возможны только два действия: Index - индексировать и Run - запустить внешнее приложение.
  • Далее для каждого действия указываются параметры и их значения - по одному в строке. Параметр и значение разделяются пробелами или символами табуляции.

Конфигурационный файл не может иметь пустых строк и комментариев.


Действие Index

Действие Index - индексировать сайт. Данное действие запускает систему индексирования. Системе должен быть передан как минимум один параметр, при индексации по HTTP, и как минимум два параметра при индексации с диска.

Теперь более подробно о параметрах:


URL <url>

URL	url

Адрес, начиная с http://... при индексации по HTTP, либо локальный путь при индексации с диска.

Пример:

Для HTTP:
URL	http://www.novgorod.ru/frisbee/

Для диска (Windows): 
URL	c:/pub/home/frisbee/

Для диска (Unix): 
URL	/pub/home/frisbee/

Extentions <ext>

Extentions ext1,ext2,ext3

Задает список расширений индексируемых файлов. Используется при только индексации с диска, при индексации по HTTP игнорируется. Расширения перечисляются через "," (запятую).

Пример:

Extentions htm,html,shtml,shtm

CharSet <cset>

CharSet cset

Задает способ определения кодировки индексируемых страниц. Может принимать следующие значения:

  • ByMetaTag - определять кодировку по META тегу (по умолчанию)
  • ByHTTPHeader - определять кодировку по HTTP заголовку, если кодировка не может быть определена по HTTP заголовку, то производится попытка определения по META тегу. Если и это не удается, то система считает что кодировка - windows-1251.
  • win-1251 - Не определять кодировку. Кодировка win-1251
  • koi8-r - Не определять кодировку. Кодировка koi8-r

Пример:

CharSet ByHTTPHeader

MaxFiles <num>

MaxFiles num

Задает максимальное количество индексируемых файлов. По умолчанию 10000. (Равноценно глубине обхода, так как обход осуществляется в ширину). Будьте внимательные изменяя это значение, так как некоторые сервера содержат бесконечное количество ссылок (например http://news.novgorod.ru/)

Пример:

MaxFiles 50

Statistic <stat>

Statistic stat

Задает способ сохранения отчета. Отчет создается по окончанию действия Index и сохраняется в файл stats.log. Может принимать следующие значения:

  • No - не сохранять отчет
  • Append - добавлять к существующему файлу (по умолчанию)
  • Overwrite - заменять существующий файл

Статистика сохраняется в файл stats.log.

Например:

Statistic Append

Exclude <excl>

Exclude excl1,excl2,excl3

Задает список исключаемых слов. Адреса, в которых есть хотя-бы одно из исключаемых слов не добавляются в очередь индексации. Слова перечисляются через "," (запятую)

Пример:

Exclude editpost.php?,reply.php?,admin/

AddOption <opt>

AddOption opt

Задает способ индексации. Используется ТОЛЬКО при индексации по HTTP. Может принимать следующие значения:

  • Page - индексировать только текущую страницу.
  • SubPages - Индексировать все страницы, которые содержат в своем адресе адрес стартовой.
  • Server - Индексировать весь сервер.

Пример:

AddOption SubPages

Language <lng>

Задает язык. Если этот параметр задан, то в HTTP заголовок добавляется поле Accept-Language. Эта переменная может влиять на содержимое страницы на некоторых сайтах.

Пример:

Language ru

AFrom <path>

AFrom path
Задает подстроку, которая заменится в URL'е на строку заданную в параметре ATo.

Пример:

AFrom  /home/dir/mysite/
ATo    http://search.codenet.ru/

ATo <url>

ATo url
Задает подстроку, на которую заменится в URL'е AFrom. Используется совместно с AFrom.

Пример:

AFrom http://127.0.0.1/
ATo   http://www.codenet.ru/

или

AFrom c:/documents/www/www.codenet.ru/
ATo   http://www.codenet.ru/

StartWord <word>

StartWord word

Задает стартовое слово. Описание страницы будет составлено из слов следующих за стартовым. Таким образом можно исключить из описания элементы меню и т.д. Стартовое слово ОБЯЗАТЕЛЬНО должно присутствовать на странице.

Пример:

StartWord about

MetaDescription <yesno>

MetaDescription yesno

Задает способ создания описания к странице. Описание может быть показано пользователю при выводе результатов поиска с помощью специального символа %E. Может принимать значения "Yes" или "No". По умолчаню - "No". Если Yes - то производится попытка взять описание из тега <META name="description... Если тег не найден, или если параметр установлен в "No", то описание составляется из первых слов документа (см. startword)

Пример:

MetaDescription Yes

MetaRobots <yesno>

MetaRobots yesno

Если данный параметр установлен в "No", то тег &ltMETA name="robots"... игнорируется, иначе тег обрабатывается на наличие значений NOINDEX, NOFOLLOW, NONE. Более подробно читайте в разделе Использование META-тегов "Robots". Значение по умолчанию - "Yes"

Пример:

MetaRobots No

UseRobotsTxt <yesno>

UseRobotsTxt <yesno>

Если данный параметр установлен в "Yes", то правила индексирования берутся из файла robots.txt, находящегося в корневом каталоге сервера. Значение по умолчанию - "No". Более подробно об использовании файла robots.txt вы можете прочитать в разделе "Стандарт исключений для роботов". Робота зовут "CNSearch".

Пример:

UseRobotsTxt yes

Работа через прокси-сервер

С версии 0.91 появилась возможность работы через прокси-сервер. Для этого было введено 4 новых директивы ProxyServer, ProxyPort, ProxyLogin и ProxyPassword


ProxyServer <serv>

ProxyServer server

Задает прокси-сервер. По умолчанию, индексатор использует прямое подключение. Используется совместно с ProxyPort.

Пример:

ProxyServer proxy.domain.ru

ProxyPort <port>

ProxyPort port

Задает порт прокси-сервера. Используется совместно с ProxyServer.

Пример:

ProxyPort 8080

ProxyLogin <login>

ProxyLogin login

Задает логин для подключения к прокси-серверу. Используется только в том случае, если прокси-сервер требует авторизацию. Используется совместно с ProxyPassword.

Пример:

ProxyLogin alex

ProxyPassword <password>

ProxyPassword password

Задает пароль для подключения к прокси-серверу. Используется только в том случае, если прокси-сервер требует авторизацию. Используется совместно с ProxyLogin.

Пример:

ProxyPassword qwerty

[Runner] - Запустить внешнее приложение.

Runner используется для запуска внешних приложений. Внешнее приложение может, например, обработать лог-файл, и занести его содержимое в базу данных или скопировать индексные файлы и т.п.


Filename <file>

Filename file

Задает имя запускаемого файла.

Пример:

Filename /home/alex/parser.pl

Params <prm>

Задает параметры командной строки для файла указанного в Filename.

Пример:

Params --user=root --password=jfiekf
Наверх

Назад | Оглавление | Далее

Оставить комментарий

Комментарий:
можно использовать BB-коды
Максимальная длина комментария - 4000 символов.
 

Комментарии

1.
92K
29 декабря 2013 года
Aidos Zhauynbai
0 / / 29.12.2013
Мне нравитсяМне не нравится
29 декабря 2013, 02:07:54
поомогите я ниче не понял
как запускать индексатор ?? я скачал нажимаю ничего не происходит
2.
Аноним
Мне нравитсяМне не нравится
1 сентября 2004, 14:41:21
3.
Аноним
Мне нравитсяМне не нравится
1 сентября 2004, 11:46:10
А кто-нибудь ставил на свой локальный веб-сайт этот поисковик?
Реклама на сайте | Обмен ссылками | Ссылки | Экспорт (RSS) | Контакты
Добавить статью | Добавить исходник | Добавить хостинг-провайдера | Добавить сайт в каталог