CodeNet / Приложения / Алгоритмы / Сжатие и кодирование / Моделирование при сжатии текстовых данных

Моделирование при сжатии текстовых данных - Контекстуально-смешанные модели.

Смешанные стратегии используются вместе с моделями разного порядка. Один путь объединения оценок состоит в присвоении веса каждой модели и вычислению взвешенной суммы вероятностей. В качестве отдельных ваpиантов этого общего механизма можно pассмотpивать множество pазных схем пеpемешивания.

Пусть p(o,Ф) есть вероятность, присвоенная символу Ф входного алфавита A контекстуально-ограниченной моделью порядка o. Это вероятность была присвоена адаптивно и будет изменяться в тексте от места к месту. Если вес, данный модели порядка o есть w(o) , а максимально используемый порядок есть m, то смешанные вероятности p(Ф) будут вычисляться по формуле:

            m
           ---¬
    p(Ф) =  >   w(o) p(o,Ф).
           ----                   
          o = -1

Сумма весов должна pавняться 1. Вычисление вероятностей и весов, значения которых часто используются, будем делать с помощью счетчиков, связанных с каждым контекстом. Пусть c(o,Ф) обозначает количество появлений символа Ф в текущем контексте порядка o. Обозначим через C(o) общее количество просмотров контекста. Тогда

           ---¬
    C(o) =  >   c(o,Ф).
           ----                   
          Ф из A

Простой метод перемешивания может быть сконструирован выбором оценки отдельного контекста как

             c(o,Ф)
    p(o,Ф) = ------ .	
              C(o)

Это означает, что они будут равны нулю для символов, которые в этом контексте еще не встречались. Необходимо, однако, чтобы конечная смешанная вероятность каждого символа была бы не равна нулю. Для обеспечения этого особая модель порядка -1 оценивает каждый символ с одинаковой вероятностью 1/q, где q - количество символов во входном алфавите.

Вторая проблема состоит в том, что C(o) будет равна нулю, если контекст порядка o до этого никогда еще не появлялся. Для моделей степеней 0,1,2,...,m существует некоторый наибольший порядок l

Назад | Оглавление | Вперед

Ваш аккаунт

Последние темы форума

Почтовая рассылка

Моделирование при сжатии текстовых данных - Контекстуально-смешанные модели.

Оставить комментарий

Комментарий: можно использовать BB-коды Максимальная длина комментария - 4000 символов.	CodeNet ВКонтакте Facebook Twitter Google Яндекс Чтобы оставить комментарий, необходимо авторизоваться. Можно ввести логин и пароль, или авторизоваться через социальные сети.