Автор – Андрей Кухар,
Технологии больших данных (Big Data) продолжают оставаться на пике интереса у ИТ-общественности. Хотя уже появились первые «кейсы» практической эксплуатации концепции, теоретизирование и поиски новых потенциальных возможностей продолжаются. Сегодня мы расскажем еще о двух интересных применениях концепции больших данных: прогнозировании войн/конфликтов и обнаружении кибератак.
Вооруженные конфликты в новую эпоху
Когда утихнет гражданская война в Сирии? Произойдет ли вооруженное столкновение на Корейском полуострове? Эти и подобные им вопросы могут поставить в тупик даже лучшие человеческие умы. Однако в скором времени у них появится действенное подспорье в решении таких задач, поскольку стала доступна крупнейшая база данных происходящих в мире событий. И ее применение может сделать прогнозирование конфликтов таким же обычным явлением, как прогнозирование погоды.
База называется GDELT (Global Data on Events, Location and Tone, вольный перевод — «глобальные сведения о событиях, местах действия и тональности»). Она ведется еще с 1979 г. и в настоящее время содержит порядка четверти миллиарда событий, доступных для свободного доступа ученым и исследователям. БД каждый день пополняется на 100 тыс. записей.
В настоящее время данные поступают из медийных источников, среди которых AfricaNews, Agence France-Presse, Associated Press Online, Associated Press Worldstream, BBC Monitoring, Christian Science Monitor, Facts on File, Foreign Broadcast Information Service, United Press International и Washington Post. Публикуемая в них информация охватывает события во всех странах мира. В работу берутся все новости за исключением спортивных, развлекательных и сугубо экономических.
Система с открытыми исходными текстами TABARI автоматически извлекает информацию из новостных статей, затем посредством методов обработки естественных языков кодирует их. К примеру, если в отчете фигурирует фраза «Суданские студенты столкнулись с полицией в египетской столице», будет сгенерирован соответствующий код для базы: «SUDEDU fought COP». Далее ПО находит в тексте ближайшее упоминание города или района, в данном случае это Каир, и дополняет запись о событии сведениями о широте и долготе. Наконец, TABARI может распознавать различные выражения о том, кто, кому, что и где сделал. Это позволяет исключить дублирования одной и той же информации, проходящей в нескольких отчетах.
Война и большие данные
По словам Калева Литару, размер и масштаб делают данные GDELT уникальными, ведь никто и никогда не создавал глобальную событийную базу, охватывающую столь продолжительный период
«Размер и масштаб делают эти данные уникальными, — убежден один из участников проекта, стипендиат-исследователь из Иллинойсского университета в Урбане-Шампейне (University of Illinois at Urbana-Champaign) Калев Литару (Kalev Leetaru). — Ведь никто и никогда не создавал глобальную событийную базу, охватывающую столь продолжительный период». Впрочем, он и его коллега из Пенсильванского университета Пол Шродт (Paul Schrodt) не собираются останавливаться на достигнутом и работают над охватом сведений вплоть до 1800 г. Кроме того, они планируют дополнить базу новыми атрибутами, включая информацию о количестве убитых и раненых.
Джэй Йонамин (Jay Yonamine), занимающий должность ученого в сфере данных в чикагской страховой компании Allstate Insurance, успевший активно поработать с базой, назвал ее «достижением». В качестве составляющей своей докторской работы он использовал самообучающийся алгоритм, часто эксплуатируемый для построения финансовых прогнозов, для прогнозирования развития конфликта в Афганистане, вспыхнувшем в 2001 г.
Война и большие данные
Карта Афганистана, показывающая число конфликтов в регионах страны в период с 2001 по 2012 г.
Он использовал алгоритм для данных о конфликте до 2008 г. — применил статистическую модель к наборам записей за данный период и экстраполировал этот шаблон. В итоге было выявлено распространение насильственных действий в 317 районах страны помесячно с 2008 по 2012 гг. Система позволила построить корректные прогнозы того, в каких регионах возникнут вспышки насилия в 47 из 48 месяцев. Конечно, усовершенствование статистических моделей позволит добиться улучшения результатов. По словам Джэя Йонамина, обновляемая ежедневно прогнозная модель могла бы использоваться, к примеру, афганскими компаниями для выбора безопасного маршрута перевозки грузов.
Важно, что извлечение информации производится автоматически. Как подчеркивает Калев Литару, протест — очень человеческая вещь, и чтобы увидеть закономерность, нужно его как-то измерить. Система могла бы также выявлять тенденции, к примеру, ухудшение настроений в регионе до того, как ситуация выйдет из под контроля. «Человеку проблематично вникнуть во все, что происходит в Египте, и сделать правильные выводы и прогнозы», — сообщил исследователь, указывая на эскалацию акций протеста, приведших к отставке президента Египта Хосни Мубарака в начале 2011 г.
«Я очень оптимистично настроен по отношению к большим данным, — говорит Нилс Видманн (Nils Weidmann) из Констанцского университета (University of Konstanz). — Лучший предсказатель насилия — совершенное ранее насилие. Но нам нужно предсказывать потенциальное насилие, вот где главный вызов». По его словам, исследователи не смогут делать действительно полезные предсказания событий, пока не будет доступна возможность извлечения данных из социальных сетей и других неформальных источников. Основные медийные ресурсы освещают события лишь после того как они состоялись. «Используя большие данные, мы должны идти дальше», — отметил он.
Война и большие данные
Карта мира на основе данных GDELT, демонстрирующая основные зоны позитивных и негативных событий
Однако применение прогнозных механизмов к записям в социальных сетях и твит-сообщениям может быть чревато ошибками, ведь в этой среде недостоверная информация — привычное дело. Яркая тому иллюстрация: когда на взломанном twitter-эккаунте Associated Press появилось сообщение о взрыве в Белом доме (Вашингтон), рухнули рынки ценных бумаг, хотя событие не было подтверждено. Поэтому можно сказать, что до некоторой степени не имеет значения, произошло ли на самом деле описываемое событие. «Информация не обязательно должна быть достоверной для того чтобы повлечь за собой какие-то события», — уверен Джэй Йонамин. И это тоже нужно учитывать.
По мере повышения качества данных в GDELT и охватыемого периода, по всей видимости, сфера ее применения будет расширяться. К примеру, финансовый мир все активнее полагается на анализ больших объемов информации. Такие данные могут поступать из неожиданных источников, таких, как однократные запросы значений терминов, которые пользователи вводят в поисковых машинах. Недавно Google открыла доступ к записям того, что чаще всего ищут люди и как их запросы меняются со временем. К примеру, с 2004 по 2011 гг. наблюдалось повышение числа запросов со словами «долг», «Доу-Джонс» и «безработица». Такие данные в будущем могут использоваться для выявления ранних признаков финансовых кризисов.
Конечно, все идет к тому, что в перспективе посредством больших данных ученые смогут предсказывать развитие конфликтов, однако выбор решений и действий всегда будет сложным. Здесь без человека не обойтись.
Охраняем цифровое
Используя обширные объемы данных, производимые системами информационной защиты, специалисты по безопасности могут получать в свое распоряжение сведения, которые необходимы для раннего обнаружения и предотвращения кибератак.
«Времена изменились, — констатирует Мишель Квон (Mischel Kwon), бывший директор американской Группы реагирования на критические ситуации в компьютерных сетях (US-CERT, Computer Emergency Response Team), в настоящее время работающая консультантом по безопасности. — Теперь мы не можем позволить себе дожидаться появления предупреждений антивируса или допускать прохождения вредоносным ПО брандмауэра». Недавно она провела семинар, в рамках которого собрала государственных экспертов по ИТ-безопасности, представляющих такие серьезные организации, как Департамент внутренней безопасности (Department of Homeland Security), Североатлантический союз (НАТО) и др. Каждый из них столкнулся в своей работе с возможностью использования больших данных для обнаружения кибератак.
Война и большие данные
Мишель Квон: «Времена изменились. Теперь мы не можем позволить себе дожидаться появления предупреждений антивируса или допускать прохождения вредоносным ПО брандмауэра»
Начать стоит с того, что работать с информацией, описывающей атаки, проблематично, указал глава Deloitte & Touche Дж. Р. Рейган (J. R. Reagan). «Мы собираем огромные объемы данных о событиях, и их размеры начинают превосходить человеческие способности обработки», — отметил он. По его словам, одним из важнейших достижений в области кибербезопасности выступает возможность визуализации данных, позволяющая выявлять закономерности, которые иначе не могли быть обнаружены. «Мы можем воспринимать графическую информацию почти в 60 тыс. раз быстрее, чем читать текст, — пояснил Рейган. — Как результат, теперь мы способны видеть точку атаки». Правильно визуализируя событийную информацию, специалисты по безопасности могут обнаруживать закономерности в тех или иных событиях, ведущих к атакам, и, следовательно, способны определять начало атаки. Это важно, ведь если событие уже состоялось, уже поздно что-то предпринимать. После боя кулаками не машут.
Как рассказала выступающая, событийные данные из всевозможных систем, используемых на предприятиях, — это именно те сведения, которые могут дать аналитикам по безопасности указание о том, что атака только начинается. Однако с тем чтобы создавать полезные визуализации, требуются большие объемы информации. «Речь может идти вплоть до миллиардов событий за день», — сообщила Мишель Квон. Как результат, для их хранения необходимо порядка 24 ТБ дискового пространства ежедневно. Зато их можно подвергать обработке и выявлять закономерности практически в режиме реального времени. Модели растут и изменяются очень быстро.
Сама процедура визуализации таких данные нетривиальна, отметил Кертис Левинсон (Curtis Levinson), американский советник по кибербезопасности НАТО: «Какие события достоверные, а какие — фоновой шум? — вот в чем вопрос». Сложность с хранением событийных данных состоит еще и в том, что эту информацию необходимо совместно использовать, следовательно, требуется ее очистка от персональных сведений. И только после этого исследователи могут работать с ними и создавать полезные представления.
Естественно, лишь сохранять данные, даже хорошо представляемые, недостаточно. Чтобы их эксплуатировать для раннего пресечения атак также нужно делиться ими с теми людьми и организациями, которые могут оказывать реальное сопротивление киберзлоумышленникам. А это непросто.
Еще одна проблема — данных настолько много, что управлять ими проблематично. Хотя стоимость хранения информации продолжает снижаться, а требуемые для обработки вычислительные мощности существенно возросли, это все еще задача не из легких. Но здесь есть и положительная сторона: чем больше данных аккумулируется, тем легче их использовать для визуализации и тем точнее и своевременнее обнаружение атак.
Конечно, в настоящее время исследователи находятся только в начале пути. Так, визуализация моделей атак и сред только начинает прорабатываться. Но это не значит, что защитным организациям нужно просто ждать. Вовсе нет. Как пояснила г-жа Квон, нужно перестать мыслить в понятиях предупреждений брандмауэров и антивирусов: «Следует обратиться к данным, посмотреть, как они получаются, как их можно использовать для того чтобы превратить группу исследователей-наблюдателей в группу реагирования и противодействия».
Область использования больших данных для защиты информации, на которую есть посягатели, только зарождается, но акценты уже переместились от средств обнаружения вредоносного ПО к прогнозной аналитике, и все идет к тому, что в будущем наработки в данной сфере дадут возможность обеспечить защиту от всех типов атак.
http://ko.com.ua/vojna_i_bolshie_dannye_79300