Вход на хостинг
IT-новости
20.04.2016 iPhone 2017 года поместят в водонепроницаемый корпус из стекла
Линейка iPhone в новом году серьезно поменяется. В этом уверен аналитический исследователь Мин Чи Ку......
30.07.2015 Ищем уникальный контент для сайта
Ищем уникальный контент для сайта Без уникального контента Ваш сайт обречен на то, что его страницы......
Предварительное обучение фильтра наборами заранее отсортированных на спам и легальную почту сообщений позволит задействовать байесовый анализатор значительно раньше, а также еще больше повысить точность срабатывания. Команды, «скармливающие» фильтру такие сообщения, представлены ниже:
# sa-learn --spam ~serg/sa/spams
Learned tokens from 20 message(s) (20 message(s) examined)
# sa-learn --ham ~serg/sa/hams
Learned tokens from 5 message(s) (5 message(s) examined)
Последним параметром указывается либо файл (в формате mailbox), либо каталог, содержащий примеры писем (например, в формате msg). Нужно заметить, что обучение может выполняться довольно долго (у меня обработка 25 сообщений заняла почти минуту).
Вполне естественно, что Spamassassin, как и любой другой антиспамовый фильтр, будет пропускать часть спама (всегда найдутся грамотно составленные сообщения, успешно проходящие через большинство правил). Сбор таких писем в отдельную папку и периодическая передача их Spamassassin в режиме обучения позволят в будущем повысить точность срабатывания за счет более высокого балла, присваиваемого письму статистическим анализатором.
После обучения вы можете просмотреть дамп базы:
# sa-learn --dump
0.000 0 3 0 non-token data: bayes db version
0.000 0 2792 0 non-token data: nspam
0.000 0 623 0 non-token data: nham
0.000 0 131028 0 non-token data: ntokens
0.000 0 1010692073 0 non-token data: oldest atime
0.000 0 1129590682 0 non-token data: newest atime
0.000 0 1129530349 0 non-token data: last journal sync atime
0.000 0 0 0 non-token data: last expiry atime