Как преодолеть ограничения анализа формальных понятий?
На очередном семинаре исследовательской группы GAMES новый сотрудник группы Алексей Бузмаков (PhD) представил диссертационную работу, посвященную анализу формальных понятий для анализа (mining) структурированных данных.
В начале своего выступления автор отметил, что объем информации в современном мире постоянно увеличивается. Исследователи и ученые сталкиваются с проблемой выделения необходимых знаний из обширного массива данных. Для отбора данных сегодня применяются разные методы, в том числе анализ формальных понятий. В рамках диссертации Алексей Бузмаков изучил сложности, которые возникают при применении анализа формальных понятий. Автор выделил две основные проблемы. Во-первых, данные хранятся в разных форматах и при приведении к единому формату часть информации теряется. Во-вторых, чаще всего методы обработки данных ориентированы только на один формат. Таким образом, метод анализа формальных понятий можно считать математическим формализмом.
Автор рассказал о способах, которые помогают преодолеть ограничения анализа формальных понятий. Алексей рассмотрел узорные структуры (pattern structures – «решетки замкнутых описаний») характеристик объекта: на их основе продемонстрировал несколько практических примеров успешного применения анализа формальных понятий.
Так, при анализе текстов о лекарственных средствах для определения влияния медицинских препаратов друг на друга Алексей Бузмаков выделил синтаксические конструкции (по уровню связей между лекарствами). Это позволило обработать огромный массив данных и создать единую базу, которая учитывает реакции одних препаратов на другие. Хотя на данный момент опубликовано большое количество статей, в которых описывается подобное воздействие, единой базы данных до сих пор не существовало.
Кроме того, в статье «The representation of sequential patterns and their projections within Formal Concept Analysis» Алексей Бузмаков с соавторами проанализировали траектории госпитализации пациентов, у которых были обнаружены злокачественные новообразования (рак). С помощью авторского метода анализа данных все этапы болезни каждого пациента были обработаны по географическому признаку. Результаты исследования помогут определить оптимальное место для открытия новой больницы, а также понять, какое медицинское оборудование будет необходимо.