авторефераты диссертаций БЕСПЛАТНАЯ РОССИЙСКАЯ БИБЛИОТЕКА - WWW.DISLIB.RU

АВТОРЕФЕРАТЫ, ДИССЕРТАЦИИ, МОНОГРАФИИ, НАУЧНЫЕ СТАТЬИ, КНИГИ

 
<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:   || 2 | 3 | 4 |

Создание компьютерной системы интеллектуального анализафармакологических данных

-- [ Страница 1 ] --

На правах рукописи

МАКСИН

Михаил Владиславович

СОЗДАНИЕ КОМПЬЮТЕРНОЙ СИСТЕМЫ
ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА
ФАРМАКОЛОГИЧЕСКИХ ДАННЫХ

Специальность 05.25.05

ИНФОРМАЦИОННЫЕ СИСТЕМЫ И ПРОЦЕССЫ,
ПРАВОВЫЕ АСПЕКТЫ ИНФОРМАТИКИ

АВТОРЕФЕРАТ
ДИССЕРТАЦИИ НА СОИСКАНИЕ УЧЕНОЙ СТЕПЕНИ
КАНДИДАТА ТЕХНИЧЕСКИХ НАУК

Москва 2006

Работа выполнена
во Всероссийском институте научной и технической информации РАН

Научный руководитель:

доктор технических наук, профессор Финн Виктор Константинович

Официальные оппоненты:

доктор технических наук, профессор Еремеев Александр Павлович

кандидат технических наук Шапкин Александр Владимирович

Ведущая организация:

Институт системного анализа РАН

Защита состоится « » ______________ 2006 г. в ______ часов на заседании диссертационного совета Д 002.026.01 при Всероссийском институте научной и технической информации РАН по адресу: 125190, Москва, ул. Усиевича, д. 20.

С диссертацией можно ознакомиться в библиотеке Всероссийского института научной и технической информации РАН.

Автореферат разослан « » ________________ 2006 г.

Ученый секретарь диссертационного совета
доктор биологических наук,
профессор М.А.Каменская

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

По данным Национальной токсикологической программы США (U.S. National Toxicology Program, NTP), в настоящее время зарегистрировано около 100,000 химических веществ, используемых в производстве, и ежегодно в этот список добавляется около 1,000 соединений. Влияние на человеческий организм известно лишь для 15% из них, хотя человек может быть подвержен их воздействию во время производства, использования продуктов и утилизации отходов, и все они, так или иначе, становятся частью окружающей нас среды - воздуха, воды и почвы. Ещё меньше известно о канцерогенности этих веществ, так как экспериментальные исследования в данной области являются весьма дорогостоящими и времяёмкими: стандартный тест на канцерогенность одного химического вещества в рамках NTP включает в себя 2 года биопроб на грызунах и стоит около 2 миллионов долларов. Компьютерные системы анализа контрпродуктивных свойств химических соединений, предоставляющие прогноз этих свойств, позволили бы значительно сократить время и стоимость таких исследований. Особое место среди этих систем занимают системы интеллектуального анализа данных (ИАД), характеризующиеся способностью использовать существующие знания и приводить обоснование сделанного прогноза.

В настоящее время повышенный интерес вызывают методы ИАД, интегрирующие познавательные (логико-комбинаторные) процедуры со статистическими (вычислительными) процедурами. Такие интегрированные методы позволяют учитывать в анализе как структурные, так и числовые характеристики изучаемых объектов (т.е. проводить анализ гибридных данных), а также подкрепить сравнительно молодой, но чрезвычайно перспективный аппарат формального логического анализа многолетним опытом разработок в области статистического анализа. При этом числовые характеристики и числовые модели, отражающие «физику» изучаемых явлений и процессов (как, например, энергия активации в задаче «структура химического соединения – проявляемая активность») могут являться важным элементом настройки интеллектуальной системы анализа на конкретную предметную область.

Целью диссертационных исследований являлось создание интегрированной системы интеллектуального анализа гибридных данных, и её апробация в прогнозировании контрпродуктивных свойств некоторых классов химических соединений.

Выбор данной цели привёл к постановке следующих задач:

  1. Разработка архитектуры интегрированной системы интеллектуального анализа гибридных данных, с учётом следующих технических требований:
  • возможность распараллеливания вычислительно-сложных этапов работы системы с целью снижения времени работы и требований к аппаратному обеспечению
  • возможность работы в условиях, когда не все данные могут быть размещены в оперативной памяти – для масштабируемости системы в зависимости от объёма анализируемых данных
  • возможность сохранения результатов работы системы (в том числе и промежуточных)
  1. Исследование возможных путей учёта числовых характеристик в рамках логико-комбинаторного анализа
  2. Систематизация числовых характеристик химических соединений, релевантных решаемым задачам прогноза, а также методов вычислений этих характеристик
  3. Апробация системы в решении задач прогнозирования контрпродуктивных свойств выделенного класса химических соединений

Актуальность работы определяется тем, что для изучения объекта необходимо использование содержательных его моделей и моделей процессов, в которых он участвует, а численные модели исторически являются наиболее широким классом таких моделей. Гибридное (структурно-числовое) описание объекта является более информативным, а интегрированные методы должны сделать анализ более полным и точным. Разработанная интеллектуальная система позволяет обогащать имеющиеся данные о контрпродуктивных свойствах химических соединений числовыми характеристиками этих соединений (которые вычисляются автоматически или предоставляются экспертом), а затем проводить анализ с целью выявления причин наличия таких свойств и прогнозирования. Архитектура же, в которой выполнена система, делают её легко расширяемой в смысле используемых методов анализа и легко масштабируемой в смысле применимости для решения практических задач разного объёма данных.

Разработанная в диссертации система прогнозирования контрпродуктивных свойств химических соединений является интеллектуальной системой типа ДСМ (ИнтС-ДСМ) [1].

Интеллектуальные системы типа ДСМ основаны на ДСМ-методе автоматического порождения гипотез (АПГ), реализующим автоматизированные правдоподобные рассуждения (порождение гипотез о причинах свойств, вывод по аналогии, процедуры объяснения начального состояния БД) [2].

ИнтС-ДСМ представляет собой интерактивную систему, в которой на базе развитого логико-комбинаторного обеспечения, реализующего ДСМ-метод АПГ, осуществляется интеллектуальный анализ данных из БД с неполной информацией (БДНИ). ИнтС-ДСМ применяются для прогнозирования свойств структурированных объектов в БДНИ для задач фармакологии, медицины, технической диагностики и социологии.

В процессе работы над диссертацией автором получены следующие научные результаты:

  1. Разработана архитектура интегрированной (совместно использующей вычислительные и когнитивные процедуры) системы типа ДСМ интеллектуального анализа гибридных (структурно-числовых) данных
  2. Предложенная архитектура реализована в экспериментальной версии интеллектуальной системы прогнозирования контрпродуктивных свойств химических соединений
  3. Задачи анализа гибридных данных сведены к классу задач, решаемых ДСМ-методом
  4. Спроектирована и реализована расширяемая, масштабируемая и распараллеливаемая версия ДСМ-решателя, включая модель данных и алгоритмы работы на разных этапах.
  5. Реализован модуль для квантовомеханического расчёта числовых характеристик класса химических соединений

При разработке ИнтС-ДСМ использовались:

    • принципы гибридного представления химических соединений, предложенные в статьях Маневича С.И. [3,4];
    • модель канцерогенности полиароматических углеводородов (ПАУ), разработанная в НИИ экологии человека и гигиены окружающей среды [3];
    • версия решателя задач для ИнтС-ДСМ, представленная в диссертации Панкратова Д.В. [5];
    • версия ФКСП-кодировщика структур химических соединений, разработанная в ходе диссертационных исследований Добрыниным Д.А. [6];

Следующие особенности работы определяют ее научную новизну:

  1. Разработана архитектура интегрированной системы интеллектуального анализа гибридных данных, которая делает возможным расширение новыми методами и стратегиями анализа
  2. Разработан распараллеливаемый алгоритм поуровневого построения решётки ДСМ-гипотез, оптимизированный для применения в задачах с трудоёмкими операциями нахождения сходства
  3. Создана интеллектуальная система прогнозирования контрпродуктивных свойств химических соединений, совместно использующая логико-комбинаторные и численные методы для анализа структурно-числовых данных

Практическая значимость работы заключается в создании интеллектуальной партнерской системы для анализа экспериментальных данных, которая:

  1. Позволяет осуществлять внеэкспериментальный прогноз контрпродуктивных свойств химических соединений с учётом их структурных и числовых характеристик
  2. Реализует важные элементы ДСМ-рассуждения – итерационное применение правил правдоподобного вывода (шага ДСМ-рассуждения) и стратегии ДСМ-рассуждения
  3. Позволяет использовать статистический (вычислительный) анализ в сочетании с ДСМ-анализом
  4. Предоставляет интерфейс доступа к данным, позволяющий работать с данными безотносительно того, где эти данные фактически находятся (в оперативной памяти, на диске, в базе данных и т.д.)
  5. Является основой для создания ДСМ-систем ИАД промышленного масштаба

По теме диссертации в настоящее время опубликовано 7 статей и 2 тезисов докладов.

Апробация работы

Результаты диссертационной работы были доложены на следующих конференциях:

  1. Международный форум "Информационные технологии и общество - 2003", Турция, Кемер, 20 - 27 сентября 2003г.
  2. II съезд токсикологов России. Москва 10-13 ноября 2003 г.

Структура работы. Диссертация состоит из введения, трёх глав, заключения, списка литературы и приложения.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во Введении обосновывается актуальность темы диссертации, определяется цель и предмет работы, формулируются основные результаты исследований и их практическая значимость, и даётся краткая характеристика содержания.

Глава I содержит обзор существующих методов и инструментов интеллектуального анализа данных в области прогнозирования канцерогенности химических соединений. Раздел 1.1 даёт определения основным терминам, используемым в задачах анализа данных.

Извлечение знаний из баз данных (Knowledge Discovery in Databases, KDD), как определяется основателями этого подхода [7], есть нетривиальный процесс обнаружения обоснованных, ранее неизвестных, потенциально полезных и объяснимых закономерностей в данных. Поиск закономерностей в данных (Data Mining, DM) – например, в виде дерева решений, кластеров данных или параметров регрессии – является ключевым этапом процесса KDD. Под методами интеллектуального анализа данных (Intelligent Data Analysis, IDA) [8] понимают методы, способные использовать существующие знания о предметной области или знания о собственно принципах анализа данных. Это определение можно назвать определением интеллектуальности метода ИАД в слабом смысле, по сравнению с определением, данным в [1].

Раздел 1.2 характеризует задачи, цели и инструменты интеллектуального анализа данных. Среди задач ИАД выделяют следующие:

  • Классифицирование – отнесение объекта (элемента данных) к одной из заранее определённых категорий. Автоматизация этого вида анализа состоит в использовании машиной запрограммированного алгоритма классифицирования, а «интеллектуализация» – в автоматическом порождении классификатора на основе примеров объектов из различных категорий.
  • Регрессия – определение значения некоторой числовой характеристики объекта.
  • Кластеризация – выделение группы категорий, или кластеров, для описания данных – относится к направлению неконтролируемого обучения (unsupervised learning).
  • Характеризация – нахождение минимального описания группы объектов
  • Моделирование зависимостей – нахождение моделей, отражающих зависимости между данными об одном объекте

Помимо задачи анализа, важным фактором при выборе инструмента является цель анализа. Выделяют две цели анализа данных – прогноз и описание. В первом случае речь идёт о необходимости предсказать будущие или неизвестные значения на основе имеющихся, во втором – о нахождении закономерностей, характеризующих данные в форме, поддающейся интерпретации. В научных исследованиях целью анализа данных является описание данных.

Конкретные инструменты, а точнее, программы для ИАД рассматриваются в свете 3х аспектов – структуры входных данных (язык примеров и язык существующих знаний), структура искомой модели данных (язык гипотез) и собственно алгоритм анализа (обучения).

Язык примеров – это форма представления обучающих примеров (данных), существенно используемая алгоритмом обучения. Раздел 1.2.1 приводит описание различных языков примеров, среди которых есть числовые векторы, пропозициональные и языки логических фактов. Язык гипотез служит для представления результатов обучения – модели данных. В разделе 1.2.2 приводится краткий обзор используемых языков гипотез, таких как числовые функции, деревья решений, решающие правила, языки различных сужений логики 1го порядка, а также языки ДСМ-логик [9], расширяющие логику 1го порядка. Раздел 1.2.3 содержит классификацию алгоритмов машинного обучения, в рамках концепции «обучение как поиск» (learning as search) [10]. В задачах MO пространство поиска (гипотез) задаётся не явным перечислением возможных состояний, а через начальное состояние (начальную гипотезу) и оператор перехода (порождения гипотез), определяемого текущим множеством обучающих примеров и имеющимися на данный момент знаниями. Конечное же состояние считается достигнутым, когда все возможные гипотезы рассмотрены и сформирован набор гипотез, удовлетворяющих некоторому критерию отбора гипотез.

Раздел 1.2.3.1 проводит классификацию по способу формирования текущего набора обучающих примеров. Фактически наличие такого отбора делает алгоритм эвристическим, так как при этом некоторое число гипотез «насильно» исключается из рассмотрения. Стратегия «разделяй и властвуй» лежит в основе почти всех методов построения деревьев решений (ID3 [11], SRT [12]). Стратегия «покрытие» используется во многих методах построения решающих правил (CN2 [13], AQ [14], GOLEM [15]).

Раздел 1.2.3.2 классифицирует алгоритмы по способам порождения гипотез, среди которых можно выделить 4 основных подхода. Наиболее часто встречается подход «сверху вниз» (top-down), или «от общего – к частному» (general-to-specific), при котором в качестве начальной гипотезы выбирается наиболее общая гипотеза, покрывающая как положительные, так и отрицательные примеры (решающие правила – FOIL [16], деревья решений - ID3 [11], SRT [12]). Двойственным к подходу «сверху вниз» является подход «снизу-вверх» (bottom-up) - AQ [14], GOLEM [15], PROGOL [17]. Подход, комбинирующий два вышеупомянутых, реализован в алгоритме CANDIDATE-ELIMINATION [17] обучения понятиям в рамках концепции Version Space [10]. И, наконец, возможен вариант (как, например, в CN2 [13]) порождения гипотез не на базе конкретных примеров, а на основе предопределённой их структуры (например, каждый объект описывается кортежем 4х атрибутов с заданным доменом для каждого из атрибутов) - в этом случае примеры служат исключительно для проверки критерия отбора гипотез, например, статистической значимости.

Раздел 1.2.3.3 приводит некоторые критерии отбора гипотез, которые выражают некие «субъективные» представления о природе задачи или об искомом решении, и, по сути, являются элементом индуктивной склонности (inductive bias) [18] алгоритма. Наиболее часто встречается критерии, следующие принципу «бритвы Оккама» (Occam’s razor), т.е. простоты гипотезы. Более содержательными примерами являются различные условия, расширяющие прямой метод сходства в ДСМ-системах [19].

Раздел 1.3 рассматривает некоторые задачи интеллектуального анализа данных в науках о жизни, удовлетворяющие условиям применимости систем типа ДСМ [20].

Раздел 1.3.1 посвящен задаче исследования канцерогенности веществ (токсикологии). Целая галерея методов машинного обучения в применении к этой задаче была представлена в рамках открытых проектов Predictive-Toxicology Evaluation (PTE) [21] 1993-1997 гг. и 1998-1999 гг. Массив содержал около 400 веществ, как органического, так и неорганического происхождения. Для каждого из соединений, помимо структурной формулы, имелись дополнительные экспериментальные данные, представленные значениями 189 атрибутов. Для обучающих соединений был также известен уровень канцерогенности.

Алгоритм SRT (Structural Regression Tree) [12] был создан как попытка соединить подходы статистического построения регрессионных деревьев и индуктивного логического программирования (ИЛП), и тем самым научиться решать задачу «реляционной регрессии» - построение теории для прогнозирования численных величин на основе реляционных данных и, возможно, существующих знаний в данной предметной области. Метод TIPT (Tree Induction for Predictive Toxicology) [22] является приложением известного алгоритма построения деревьев решений C4.5 [23] к предложенной задаче. ИЛП алгоритм PROGOL [17] реализует принцип обратного следования (inverse entailment) для генерализации множества положительных примеров относительно теории. Обучающие примеры задаются в виде дефинитных дизъюнктов.

Прогноз LRD выполнен с помощью алгоритма Distill [24], который представляет собой объединение метода DiVS (Disjunctive Version Space) со стохастическим согласованием. Прогноз OUCL-2 сделан с помощью дерева, построенного системой C4.5. Каждое вещество было описано значениями 417 атрибутов, причём некоторые наборы атрибутов основаны на правилах, построенных ИЛП-системами PROGOL и WARMR (W. Association Rules over Multiple Relations) [25]. Прогноз OAI построен на независимом прогнозе двумя методами - C4.5rules и неким простым байесовским классификатором – и последующем голосовании. Прогноз LEU3 сделан при помощи алгоритма ICL (Inductive Constraint Logic) [26] с использованием теории для мутагенеза, построенной ранее системой PROGOL. Прогноз LEU2 выполнен системой MACCENT (MAximum ENTropy modeling with Clausal Constraints) [27] с использованием ассоциативных правил, найденных методом WARMR.

В целом, анализ построенных моделей показывает, что они скорее выделяют наиболее значимые сопутствующие признаки (в виде результатов краткосрочных тестов, как, например, результат теста на мутагенез бактерий Salmonella, которому придаётся большой вес практически в каждой модели), чем выявляют структурные причины канцерогенеза. Принимая это во внимание, организаторы конкурса PTC 2000-2001 предложили использовать в качестве обучающих только данные, касающиеся химической структуры веществ непосредственно.



Pages:   || 2 | 3 | 4 |
 





 
© 2013 www.dislib.ru - «Авторефераты диссертаций - бесплатно»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.