Справочник функций

Ваш аккаунт

Войти через: 
Забыли пароль?
Регистрация
Информацию о новых материалах можно получать и без регистрации:

Почтовая рассылка

Подписчиков: -1
Последний выпуск: 19.06.2015

Алгоритм поиска подстроки Кнута-Морриса-Прата

- RU.ALGORITHMS (2:5061/49.16) ------------------------------- RU.ALGORITHMS - 
 Msg  : 29 из  64 
 From : Aleksey Smirnov                     2:5015/107.32  Чтв 18 Hоя 99 20:42 
 To   : Konstantin  Osipov                                 Суб 20 Hоя 99 17:00 
 Subj : Алгоритм поиска  подстроки Кнута-Морриса-Прата 
------------------------------------------------------------------------------ 
Hi, Konstantin! 

Replying to a message  of Konstantin Osipov to All: 

 KO> Опишите пожалyйста  алгоритм сопоставления с образцом 
 KO> Кнyта-Морриса-Прата. 

Вот кусок из книги А.  Шеня "Программирование: теоремы  и
задачи" (раздается на http://www.mccme.ru ): 

=== cut === 

     10.3.  Вспомогательные утверждения 

     Для произвольного  слова X рассмотрим все его  начала, однов- 
ременно  являющиеся его  концами, и выберем из них  самое длинное. 
(Hе считая, конечно, самого  слова X.) Будем обозначать  его n(X). 

     Примеры:  n(aba)=a, n(abab)=ab, n(ababa)=aba,  n(abc) =  пус- 
тое слово. 

     10.3.1.  Доказать, что все слова n(X),  n(n(X)), n(n(n(X))) 
и т.д. являются началами  слова X. 

     Решение.   Каждое из них (согласно  определению) является на- 
чалом предыдущего. 

     По той  же причине все они являются  концами слова X. 

     10.3.2.  Доказать, что последовательность  предыдущей  задачи 
обрывается (на пустом слове). 

     Решение.  Каждое слово короче предыдущего. 

     Задача.   Доказать, что любое слово,  одновременно являющееся 
началом и концом слова  X (кроме самого X)   входит  в  последова- 
тельность n(X), n(n(X)),... 

     Решение.  Пусть слово Y есть одновременно  начало и конец  X. 
Слово  n(X)  - самое  длинное из таких слов, так  что Y не длиннее 
n(X). Оба эти слова являются  началами X, поэтому более   короткое 
из них является началом  более длинного: Y есть начало  n(X). Ана- 
логично, Y есть конец  n(X). Рассуждая по индукции,  можно предпо- 
лагать, что утверждение задачи  верно для всех слов короче   X,  в 
частности,  для слова  n(X). Так что слово Y,  являющееся концом и 
началом  n(X), либо равно  n(X), либо входит в последовательность 
n(n(X)), n(n(n(X))), ...,  что и требовалось доказать. 

     10.4.  Алгоритм Кнута - Морриса  - Пратта 

     Алгоритм  Кнута - Морриса - Пратта  (КМП)  получает  на   вход 
слово 

         X = x[1]x[2]...x[n] 

и просматривает его слева  направо буква за буквой,  заполняя  при 
этом массив натуральных чисел  l[1]..l[n], так что 

      l[i]  = длина слова n(x[1]...x[i]) 

(функция  n  определена  в предыдущем пункте). Словами:  l[i] есть 
длина наибольшего начала слова  x[1]..x[i], одновременно являюще- 
гося его концом. 

     10.4.1.   Какое  отношение  все  это имеет к поиску подслова? 
Другими словами, как использовать  алгоритм КМП  для  определения 
того, является ли слово  A подсловом слова B? 

     Решение.   Применим алгоритм КМП к  слову A#B, где # - специ- 
альная буква, не встречающаяся  ни в A, ни в B.  Слово A  является 
подсловом слова B тогда  и только тогда, когда среди  чисел в мас- 
сиве l будет число, равное  длине слова A. 

     10.4.2.  Описать алгоритм заполнения таблицы  l[1]..l[n]. 

     Решение.   Предположим, что первые  i значений l[1]..l[i] уже 
найдены. Мы читаем очередную  букву слова (т.е. x[i+1])  и  должны 
вычислить l[i+1]. 

     1                                                    i   i+1 
    -------------------------------------------------------- 
    |             уже прочитанная часть X                  |    | 
    -------------------------------------------------------- 
    \-----------Z-----------/     \------------Z------------/ 


Другими словами, нас интересуют  начала Z слова x[1]..x[i+1],  од- 
новременно являющиеся его  концами - из них нам  надо выбрать  са- 
мое длинное. Откуда берутся  эти начала? Каждое из них  получается 
из  некоторого слова  Z' приписыванием буквы x[i+1].  Слово Z' яв- 
ляется началом и концом  слова x[1]..x[i]. Однако не  любое слово, 
являющееся началом и концом  слова x[1]..x[i],  годится   -  надо, 
чтобы за ним следовала  буква x[i+1]. 

     Получаем  такой рецепт отыскания слова  Z. Рассмотрим все на- 
чала слова x[1]..x[i], являющиеся  одновременно его  концами.   Из 
них  выберем  подходящие  - те, за которыми идет  буква x[i+1]. Из 
подходящих выберем самое длинное.  Приписав в его  конец   x[i+1], 
получим искомое слово Z. 

     Теперь  пора воспользоваться сделанными  нами приготовлениями 
и  вспомнить,  что  все слова, являющиеся одновременно  началами и 
концами данного слова, можно  получить повторными применениями   к 
нему функции n из предыдущего  раздела. Вот что получается: 

    i:=1; l[1]:=  0; 
    {таблица l[1]..l[i]  заполнена правильно} 
    while i  <> n do begin 
    | len :=  l[i] 
    | {len  - длина начала слова x[1]..x[i],  которое  является 
    |     его концом; все более  длинные начала оказались 
    |     неподходящими} 
    | while  (x[len+1] <> x[i+1]) and  (len > 0) do begin 
    | | {начало  оказалось неподходящим, применяем  к нему n} 
    | | len  := l[len]; 
    | end; 
    | {нашли  подходящее или убедились в  отсутствии} 
    | if x[len+1]  = x[i+1] do begin 
    | | {x[1]..x[len]  - самое длинное подходящее  начало} 
    | | l[i+1]  := len+1; 
    | end else  begin 
    | | {подходящих  нет} 
    | | l[i+1]  := 0; 
    | end; 
    | i :=  i+1; 
    end; 

=== cut === 

Bye, Aleksey 

--- FleetStreet 1.25.1.3 
 * Origin: No, no!  Windows isn't a virus! Viruses  usually do so (2:5015/107.32) 

Оставить комментарий

Комментарий:
можно использовать BB-коды
Максимальная длина комментария - 4000 символов.
 

Комментарии

1.
Аноним
Мне нравитсяМне не нравится
3 апреля 2006, 07:44:27
ну))) теперь я знаю как это назваца!

на самом деле, когда только начинаешь программить например не на Декльфях,а на паскале тока, то именно до таких вещей и доходишь...а вот написать парсер строки типа eregi на асме - это пилотажь действительно.
Реклама на сайте | Обмен ссылками | Ссылки | Экспорт (RSS) | Контакты
Добавить статью | Добавить исходник | Добавить хостинг-провайдера | Добавить сайт в каталог