Спам - Движущая сила эволюции?

Автор статьи: Ильдар Кутыев
Сайт Автора: Нет
E-mail Автора: Kutiev@mail.ru
Дата публикации: 25.03.2005

Трудно найти хорошие слова для “мусорной почты” или попросту спама. Этого гадкого, противного, навязчивого спама, который сотнями писем проникает в почтовые ящики невинных пользователей и судя по всему в ближайшее время может стать угрозой существования самой электронной почты. Шутка ли сказать, по итогам 1 полугодия 2004 г. непрошеная корреспонденция в русскоязычной части Сети составила от 70 до 80% всего объема почтовых отправлений. Аналогичная с Рунетом ситуация складывается и в остальных частях киберпространства. Да только за одно это спамеров нужно было бы…

Хотя, стоп! Нынче в моде позитивное мышление и оптимистический взгляд на вещи, которому учат на многочисленных психологических тренингах и семинарах. Так, может, стоит попытаться применить подобный подход и к проблеме спама, дабы не расшатывать и без того взвинченные нервы, обнаруживая в собственном электронном почтовом ящике пару десятков непрошеных писем, среди которых благородными крупинками теряется одно-два давно ожидаемых послания от старинного друга или делового партнера. Итак, выдохнуть, отбросить эмоции и… Если успокоиться и подойти к проблеме трезво и взвешенно, то окажется, что в какой-то мере именно спам стимулирует прогресс в области развития информационных технологий и побуждает ученых искать решения для проблем, в течение многих десятилетий считавшихся чисто теоретическими.

Следуя призыву смотреть в корень, можно выяснить, что организация борьбы с непрошеной корреспонденцией упирается в ответ на один очень простой вопрос: “А что такое спам?”. Казалось бы, глупо спрашивать о столь очевидном предмете. Любой пользователь электронной почтовой службы, только лишь взглянув на текст послания, с легкостью сумеет отличить рекламное письмо от корреспонденции, действительно имеющей важное для него значение. Удивительно другое – отличить может каждый, а вот сформулировать необходимые и достаточные условия идентификации спамерского послания, увы, не получится. Именно в эту проблему и упирается большинство антиспамерских программ и фильтров, которые зачастую могут пропускать непрошеную корреспонденцию в ящик и, наоборот, отбрасывать, приняв за спам, давно ожидаемое пользователем письмо. Причем последняя ситуация представляется большинству пользователей гораздо более серьезной, нежели проникновение в ящик пары-другой непрошеных писем, но никакой уверенности в том, что подобное не произошло, нет: разработчики почтовых фильтров предпочитают приводить некие усредненные цифры “вероятности ошибок фильтрации”, априори предполагая наличие случаев ошибочной идентификации в процессе работы программы.

Однако же стоит, наверное, вернуться к вопросу о том, что такое спам. Считается, что одними из первых по-настоящему серьезных спамеров были Лоренс Сантер (Laurence Canter) и Марта Сейгель (Martha Seigel), додумавшиеся в 1994 г. до первых массовых рассылок, рекламировавших юридические услуги для эмигрантов. Именно их можно считать зачинателями спамерских войн: несколько подрастерявшиеся от очевидной наглости сетевых дельцов программисты стали создавать почтовые фильтры, призванные оградить ящики пользователей от непрошеной корреспонденции. Поскольку “сладкая парочка” на тот момент была единственной серьезной спамерской командой на всей планете, то для разработчиков антиспамерской защиты не представляло труда идентифицировать рекламные письма, приходившие с адресов провайдера, который обслуживал Сантера и Сейгель, и отбрасывать их из общего потока корреспонденции, поступавшей в ящик пользователя. Однако аферисты вскоре раскусили тактику работы фильтров и стали периодически менять провайдера, вводя тем самым в заблуждение программы, призванные защитить честных пользователей от нечестной рекламы. Началась мировая сетевая война со спамом, продолжающаяся и по сей день. Причем победу в “великой битве” поочередно одерживают то дельцы от рекламы, то защитники чистоты электронной почты.

За время, минувшее с 1994 г., антиспамерское программное обеспечение стало совершеннее, однако на всякое противодействие каждый раз находится все более изощренное действие. К примеру, когда программы-фильтры научились сортировать почту, выделяя из ее потока письма с одинаковыми фрагментами текста, спамеры стали разбавлять свои рекламные послания набором случайных символов. Когда создатели программ-фильтров разработали алгоритм, позволивший выделять среди набора случайных символов базовые лингвистические конструкции, спамеры научились составлять понятные человеку “неправильные” фразы или разбавлять осмысленный текст “вставками”, сбивавшими с толку компьютер. Когда была освоена сортировка писем по ключевым словам, спамеры придумали намеренно писать слова с грамматическими ошибками и нарушениями правил пунктуации. Ну и так далее…

Кстати, одним из любимых приемов “спамерской войны” последнего времени стало использование для рассылки электронной корреспонденции компьютеров ни в чем не повинных пользователей, имеющих широкополосное подключение к Сети. Механизм прост: машину жертвы предварительно заражают троянской программой, которая превращает компьютер в “спамерскую почтовую станцию”, а после этого тысячи писем с адреса ничего не подозревающей жертвы рассылаются по всему миру. Самое удивительное, что с недавних пор подобные зараженные компьютеры стали предметом… торга. Дело в том, что сам по себе спамер, как правило, не обладает какими-то особыми техническими навыками или знаниями, и тут уж на помощь “дельцу сетевой экономики” приходят программисты-вирусописатели. Именно благодаря знаниям и усилиям последних происходит превращение добропорядочного пользователя в пособника спамеров. Причем зараженная и подготовленная к рассылке спама машина становится элементом виртуальной сети, в которую программисты-плохиши объединяют сотни компьютеров других пострадавших пользователей. Ну а после этого весь “конгломерат” передается в распоряжение распространителей непрошеной почты, причем, что вполне очевидно, не “за просто так”. Несколько часов пользования “троянской почтовой службой” обходятся заказчику в сумму от 50 до 100 долларов, за которые бесчестный “рекламист” получает возможность разослать несколько миллионов копий своих гнусных посланий…

Однако вернемся к теме борьбы со спамом, а не методикам его распространения. В конце концов, создатели антиспамерского программного обеспечения пришли к совершенно очевидному выводу: для эффективной борьбы со спамом требуется, чтобы машина мыслила как человек. Иными словами, нужно заставить работать компьютер так же, как работает серое вещество в черепной коробке: анализируя текст сообщения, человеческий мозг исходит из общего контекста письма из собственного прошлого опыта, из стиля изложения и еще множества деталей, соотнесение которых друг с другом дает возможность со стопроцентной уверенностью отнести письмо к спаму или, наоборот, классифицировать его как нужное. В общем, всего-навсего требуется разработать почтовый фильтр с элементами искусственного интеллекта.

Одна из попыток такого подхода уже реализована учеными из Мельбурнского университета в Австралии. Программисты Мэтью Салливан (Matthew Sullivan) и Гай Ди Маттина (Guy Di Mattina) совместно с математиком доктором Кевином Гейтсом (Dr Kevin Gates) разработали программный комплекс под названием Support Vector Machine, который способен сортировать почту со скоростью до 90 писем в секунду с вероятностью появления однократной ошибки на каждые 25 тысяч рассортированных писем. Принципы, на основе которых функционирует Support Vector Machine, до недавнего времени были чисто теоретическими разработками, а о серьезности и глубине подхода свидетельствует описание системы, в котором, между прочим, утверждается, что фильтр работает на основе “нелинейных гиперплоскостей в Гильбертовом пространстве с использованием преобразований Лагранжа”. Желающие разобраться в подробностях использованной методики могут справиться о “теоретическом фундаменте” проекта по адресу www.kernel-machines.org.

Опуская мелкие технические подробности, можно сказать, что Support Vector Machine представляет анализируемые данные в виде многомерного массива информации, после чего проводится анализ соотношений показателей сразу по всему множеству координат, описывающих исследуемое сообщение. Совокупность этих показателей позволяет создать своеобразный “слепок” сообщения, который с большой степенью вероятности характеризует содержимое письма. Иными словами, если говорить упрощенно и представлять массив данных в виде привычных нам трехмерных фигур, то, например, все сообщения, близкие к параллелепипеду, будут “хорошими”, а все приближающиеся к кубу – “плохими”. Или наоборот… Несмотря на сложность и запутанность, предложенный австралийцами метод обработки данных легко алгоритмизируется и отлично подходит для реализации на современных вычислительных машинах, а потому имеет все шансы к тому, чтобы “начать большую самостоятельную жизнь”. Некоторые специалисты вообще склонны считать новый алгоритм самым совершенным из всех когда-либо ранее предложенных для фильтрации электронной почты.

С другой стороны, совсем недавно в Сети появились сообщения о создании антиспамерской программы, базирующейся на тех же принципах, которые используются при расшифровке генома человека и изучении строения ДНК. В основу “биологического фильтра” положен алгоритм Teiresias, разработанный специалистами IBM специально для поиска повторяющихся фрагментов в цепочках ДНК и аминокислот.

Новая технология фильтрации получила название “Чжун-Квэй” по имени талисмана, который, согласно древнекитайскому учению фэн-шуй, предохраняет жилище от злых духов. Разработчики утверждают, что их детище позволяет обнаружить и извлечь из потока писем до 97% входящего спама, при этом коэффициент допущения ошибок не превышает 0,016%, то есть лишь одно из каждых 6250 “правильных” писем может быть ошибочно отнесено к категории спама.

Сама методика обнаружения спама состоит в том, что вместо последовательности символов, из которых состоит цепочка ДНК, анализу подвергается электронная корреспонденция.

Для начала экспериментаторами проводилось “обучение” фильтра. С этой целью использовался массив писем, заведомо относящихся к числу непрошеных (в ходе испытаний было исследовано 65 тыс. электронных писем). Каждое послание рассматривалось в качестве последовательности символов, аналогично тому, как это делается при исследовании ДНК.

В результате было обнаружено около 6 млн постоянно встречающихся фрагментов, каждый из которых представляет собой алфавитно-цифровую последовательность, встречавшуюся более чем в одном письме.

После этого аналогичная работа была проведена в отношении писем, не принадлежащих к категории спама, и фрагменты, обнаруженные в обеих категориях, исключены из списка. Как следствие, фильтр получил в свое распоряжение несколько миллионов признаков (цифробуквенных последовательностей) встречавшихся как минимум 2 раза в спамерских письмах.

По завершении процесса “учебы” новый алгоритм был использован для анализа входящей электронной почты, содержавшей вперемешку спам, важные деловые письма и частную переписку пользователей. В ходе фильтрации каждому письму присваивался индекс, величина которого характеризовала количество фрагментов спама, выявленных в нем. В итоге “Чжун-Квэй” смог корректно идентифицировать 64 665 писем из 66 697 предложенных, продемонстрировав почти 97-процентную эффективность выявления спама.

По мнению Джастина Мейсона (Justin Mason), разработчика одной из популярных антиспамерских программ с открытым исходным кодом SpamAssasin, новый алгоритм выглядит весьма многообещающе. В интервью, данном им журналу New Scientist, этот “главнокомандующий” антиспамерского сопротивления признался, что его особенно воодушевляет не сам по себе алгоритм, а тот факт, что проведенный специалистами IBM опыт смог продемонстрировать возможности использования принципов биоинформатики для борьбы со спамом.

Что касается IBM, то компания планирует использовать алгоритм “Чжун-Квэй” в новом фильтре спама под названием SpamGuru. Как обещают инженеры-программисты, SpamGuru будет автоматически поддерживать “белые” и “черные” списки, конфигурируемые пользователями, а также даст возможность менять уровень фильтрации. Более того, по некоторым сведениям, IBM собирается использовать элементы технологии SpamGuru в своем продукте Lotus Workplace Messaging 2.0, который появится на рынке уже до конца 2004 г. Тем не менее официальное решение о включении SpamGuru в состав Lotus пока не принято.

Впрочем, можно предположить, что особо тянуть с апробированием новой технологии в IBM не будут, ведь спам приводит к многомиллионным убыткам и засоряет Сеть бессмысленным трафиком. Именно связанные со спамом экономические убытки и заставляют все напряженнее работать ученых, инженеров и программистов над созданием все более совершенных и надежных антиспамерских средств. Причем спамеры заботятся о том, чтобы борцы за чистоту почты не застаивались в своих исканиях. К примеру, с недавних пор при составлении непрошеной почты все чаще стала использоваться графика. Причина понятна: лингвистические фильтры учатся распознавать письменную речь, но еще не сильны в разглядывании картинок. Возможно, что именно неуемная жажда наживы со стороны сетевых дельцов подтолкнет к развитию фундаментальные исследования в области распознавания образов. И как знать, может быть, спам станет тем стимулом, который наконец-то приведет к созданию искусственного интеллекта, о скором появлении коего ученые твердят начиная с 50-х годов прошлого века. Однако, как известно, в то время еще не существовало спама…


Список похожих статей