авторефераты диссертаций БЕСПЛАТНАЯ РОССИЙСКАЯ БИБЛИОТЕКА - WWW.DISLIB.RU

АВТОРЕФЕРАТЫ, ДИССЕРТАЦИИ, МОНОГРАФИИ, НАУЧНЫЕ СТАТЬИ, КНИГИ

 
<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 || 3 | 4 |

Создание компьютерной системы интеллектуального анализафармакологических данных

-- [ Страница 2 ] --

Модель VINITI [28] была получена ДСМ-системой исследования задач «структура-активность» с использованием представления химических соединений в виде ФКСП (фрагментарный код суперпозиции подструктур) [30]. ДСМ-метод автоматического порождения гипотез (АПГ) [29] является логико-комбинаторным методом, основанным на формализации важного класса правдоподобных рассуждений [19] и реализующим синтез познавательных процедур – индукции, аналогии и абдукции. Модели LEU* получены с помощью алгоритма Tilde [31] построения логических деревьев решений, основанного на алгоритме C4.5. Модель WAI1 [32] представляет собой набор семи независимых линейных классификаторов, каждый из которых использует свой набор атрибутов – один из семи, предоставленных различными группами исследователей, принимавшими участие в конкурсе. Соединение считалось канцерогенным, если хотя бы один из классификаторов голосовал за это. Модель GONS для прогноза MR была построена с помощью системы обучения понятиям SubdueCL [33], основанной на системе обнаружения подструктур в структурных данных Subdue. Обе системы используют представление реляционных данных в виде графа для нахождения повторяющихся образцов (в виде подграфов).

Раздел 1.3.2 посвящён задачам ИАД в медицине. Эта область стала одним из главных полигонов испытания и применения методов ИАД с самых ранних этапов их развития. Можно выделить два класса методов ИАД, отвечающих главным аспектам применения таких методов в медицине [34]:

  1. Методы абстракции данных (data abstraction), призванные поддерживать принятие решений посредством извлечения полезных абстракций (обобщений) из «сырых», по большей части числовых, данных.
  2. Методы собственно анализа данных (data mining), предназначенные для извлечения знаний, сокрытых в массивах данных, в понятной «символической» форме.

Основными особенностями применения ИАД в медицине являются следующие:

    • «Добытые» закономерности должны быть выражены в терминах, понятных медицинскому эксперту, и подкреплены конкретными примерами – только при этих условиях они могут быть взяты на вооружение и использоваться в повседневной практике.
    • Цена неправильных прогнозов очень высока, что требует повышенной надежности результатов классифицирования.
    • Наличие неполных и зашумлённых данных, снижающих надёжность прогноза.
    • Для принятия ответственных решений требуется очень детальное описание объектов анализа (состояния пациента и наблюдаемых симптомов), гораздо более детальное, чем обычно предоставляют деревья решений – традиционный инструмент диагностики – после «прореживания» с целью получения дерева большей общности и меньшего размера.
    • Для увеличения шансов получения значимых результатов, такие методы должны уметь взаимодействовать с экспертом, который может «поделиться» существующими знаниями, предоставить необходимые данные и оценить результаты работы [34] (т.е. быть человеко-машинными [29]).

Раздел 1.3.3 подводит итоги сделанного обзора. Отмечаются следующие тенденции в развитии методов анализа данных:

  • Всё более активное использование представления данных в виде отношений – «естественного» представления для реляционных БД – для работы в рамках систем извлечения знаний из баз данных.
  • «Повышение» уровня языка моделей (гипотез), как следствие повышения уровня языка данных (примеров), так и с целью получения более содержательных моделей.
  • Наряду с разработкой чисто «реляционных» алгоритмов, делаются попытки адаптации существующих наработок в области «пропозиционального» анализа к анализу реляционных данных.
  • Возрастает интерес к системам, строящим избыточные модели, которые позволяют эффективно работать в условиях неполных и зашумлённых данных.

Проведённый анализ предъявляемых требований и используемых методов ИАД позволяет описать системы типа ДСМ в терминах их отличительных особенностей.

  • ДСМ-системы являются интеллектуальными в сильном смысле.
  • Системы типа ДСМ выходят за рамки систем анализа данных; реализуя предварительное преобразование данных, они являются системами извлечения знаний.
  • Кроме того, ДСМ-системы обладают способностью подсказывать исследователю вид объектов, которыми необходимо пополнить исходную базу фактов – способность уникальная, не упоминаемая в литературе.
  • Логическая корректность ДСМ-гипотез выступает как альтернатива статистической доверительности, и, в отличие от последней, требовательна не к объему имеющихся данных, а именно к составу.
  • Наличие 4х типов истинностных оценок гипотез позволяет отказаться от правила «исключённого третьего» и увеличить точность и надёжность результатов за счёт распознавания ситуаций противоречивости или недостаточности имеющихся знаний или данных.
  • Модели данных, создаваемые ДСМ-методом, избыточны в том смысле, что один объект-пример может попадать под действие нескольких результирующих гипотез (во многих системах это невозможно из-за требования минимальности описания). Эта избыточность позволяет выполнить последующий прогноз с большей полнотой и надёжностью.
  • ДСМ-системы предоставляют чёткое обоснование сделанного прогноза в терминах подобъектов-«структурных причин», что роднит их с системами обучения, основанными на анализе ситуаций – case-based learning [35].

Проделанный анализ позволяет также наметить некоторые пути развития систем типа ДСМ как средства интеллектуального анализа данных и извлечения знаний из баз данных:

  • Соединение логико-комбинаторного ДСМ-метода и численных статистических методов позволило бы учитывать как структурные, так числовые характеристики исследуемых объектов.
  • ДСМ-метод, не использующий статистических критериев, может быть «введён в заблуждение» шумовыми данными (единичными «выбросами» неправильных данных) и в случае его применения для анализа данных в промышленных масштабах эта проблема должна быть адресована.
  • Необходима интеграция с системами управления базами данных для хранения данных и знаний, а также реализация алгоритмов, способная работать с данными, находящимися не в оперативной памяти компьютера, а во внешней базе данных.
  • Другой аспект систем извлечения знаний из баз данных – распараллеливание алгоритмов – также должен быть изучен (в применении к алгоритмам ДСМ-метода, например, алгоритму нахождения глобальных сходств).

В главе II предлагается подход к проблеме интеллектуального анализа гибридных (структурно-числовых) данных на примере ДСМ-системы прогнозирования контрпродуктивных свойств химических соединений. В разделе 2.1 приводится краткое описание логико-комбинаторного ядра системы - ДСМ-метода автоматического порождения гипотез, и используемых им аппарата квазиаксиоматических теорий (КАТ) [38] и бесконечнозначной логики [37]. Раздел 2.2 описывает специализированную ДСМ-систему прогнозирования контрпродуктивных свойств химических соединений, реализованную в отделении интеллектуальных систем ВИНИТИ и ставшую лауреатом международного конкурса Predictive Toxicology Challenge 2000 в трёх из четырёх категорий. В этой системе для представления химических соединений применялся язык ФКСП (фрагментарный код суперпозиции подструктур) [30], специально разработанный для задачи «структура-активность».

Однако большинство моделей в данной задаче являются числовыми. В качестве примера, Раздел 2.3 приводит числовую модель канцерогенности полиароматических углеводородов (ПАУ), разработанную в НИИ экологии человека и гигиены окружающей среды им. А. Н. Сысина. В этой модели полагается, что контрпродуктивная – канцерогенная или мутагенная – активность ПАУ будет тем выше, чем ниже энергия образования соответствующего ему метаболита, т.е. вещества, получающегося в результате превращений, которые претерпевает исходное вещество в организме. В процессе эксплуатации этой модели были обнаружены соединения, выпадающие из общего ряда. Оказалось, что такие соединения имеют специфическую структуру, и качество результатов значительно повышается, если произвести предварительный отбор соединений по структуре, а уж затем применять регрессионный анализ. Таким образом, возникает задача анализа гибридных – структурно-числовых – данных. Первым шагом в этом направлении становится разработка квантовомеханического модуля, реализующего вышеупомянутую модель. Он использует метод Хюккеля [39] для извлечения из структуры ПАУ числовых характеристик, составляющих числовую компоненту описания объекта.

Раздел 2.4 посвящен следующей проблеме – адаптация ДСМ-метода к анализу многокомпонентных объектов. Описываемый здесь подход является первым приближением (в рамках ДСМ-метода) к проблеме анализа гибридных данных и состоит в попытке использования в анализе так называемых мульти-ДСМ-объектов, т.е. ДСМ-объектов, представляющих собой упорядоченный набор компонентов, каждый из которых в свою очередь представляет собой ДСМ-объект. Операции вложения и нахождения сходства для мульти-ДСМ-объекта определяются естественным образом через соответствующие операции для каждого из компонентов.

Раздел 2.5 посвящен проблеме формализации числовой величины как ДСМ-объекта. Здесь в качестве решения было выбрано введение алгебры интервалов [40].

В разделе 2.6 описываются эксперименты, проведенные с модернизированной ДСМ-системой прогнозирования контрпродуктивных свойств соединений. Первым отличительным результатом применения этой системы явилось то, что полученная система гипотез объясняла все обучающие примеры из тестового массива (т.е. выполнялся критерий достаточности оснований принятия этих гипотез), чего не удавалось достичь, рассматривая только структуру соединений. Кроме того, учёт числовой характеристики соединений сделал прогноз 3-х соединений более полным по числу доопределённых свойств и, таким образом, более точным по описанию свойств соединения в целом. В другой серии экспериментов была сделана попытка доопределить свойства 14-ти ещё не изученных соединений. Для 9-ти из них были получены прогнозы, причём они совпали с прогнозами, сделанными с помощью группы правил, предложенной экспертами в [41].

Раздел 2.7 подводит итоги данного этапа исследований. Наряду с преимуществами выявляется ряд недостатков данного подхода. Среди них отмечается значительное увеличение числа порождаемых гипотез, связанное с тем, что фактически сходство двух числовых ДСМ-объектов не бывает пусто. Указывается также, что система, в которой можно переопределить лишь операцию нахождения сходства (т.е. сходство 2-х объектов), не позволяет использовать статистические методы в полной мере и, таким образом, не вполне отвечает поставленной задаче совместного использования логико-комбинаторных и статистических методов в анализе данных. Дальнейшее развитие системы видится в изменении ее архитектуры в соответствии с новыми требованиями.

Глава III посвящена разработке новой архитектуры ДСМ-систем, предназначенных для анализа гибридных данных, а также реализации на основе этой архитектуры новой версии ДСМ-системы прогнозирования контрпродуктивных свойств химических соединений.

Попытка расширения существующей программной реализации ДСМ-метода [4] - интеллектуальной системы типа ДСМ (ИнтС-ДСМ) прогнозирования контрпродуктивных свойств химических соединений - выявила некоторые архитектурные недостатки данной реализации, которые стали препятствием для развития системы. Главными из них являются следующие:

  • Структуры объектов и их сходств считаются одинаковыми. Однако это не так в случае статистического анализа, где объектами являются числовые векторы, а в качестве их сходства могут выступать всевозможные статистические модели – от кластеров до регрессии и факторов.
  • Отсутствие возможности переопределения процедуры нахождения локального сходства нескольких объектов. Сейчас, при настройке ДСМ-системы на конкретную предметную область, происходит переопределение операции (попарного) сходства, т.е. предоставляется доступ к информации о не более чем двух объектах одновременно. В случае же применения статистических методов, для нахождения существенного сходства часто требуется иметь одновременный доступ к информации обо всех объектах-"родителях" сходства.
  • Необходимость хранить в оперативной памяти компьютера все порождаемые гипотезы. Используемый алгоритм построения решётки понятий следует подходу "добавляй по одному" [36], в котором новые гипотезы порождаются пересечением всех существующих гипотез с новым объектом. При таком построении на каждом шаге необходимо иметь доступ ко всем порождённым гипотезам и нет возможности отложить "законченные" гипотезы в сторону (на диск) и освободить занимаемую ими память для новых гипотез. Как упоминалось, значительное увеличение числа порождаемых гипотез является одной из проблем интегрированной ДСМ-системы (в её текущей реализации), и необходимость экономить оперативную памяти становится актуальной.
  • Программа останавливает свою работу после первого шага применения правил правдоподобного вывода (п.п.в.). В [42] были сформулированы необходимые и достаточные условия появления новых гипотез при добавлении к множеству исходных объектов данного класса нового объекта, приписанного к этому классу. (Этот объект может быть добавлен в систему экспертом или являться результатом классификации на предыдущем шаге). Тем самым была показана целесообразность перехода к последующим шагам применения п.п.в., и дело лишь за его реализацией.
  • Программа не поддерживает дополнительные эмпирические зависимости (ЭЗ) и их комбинации (стратегии) как подключаемые модули, хотя это является важным элементом настройки ДСМ-системы. Ядро системы монолитно, что не позволяет использовать отдельные его элементы для реализации вариаций ДСМ-метода.

Предлагаемая архитектура призвана устранить эти недостатки и максимально облегчить модернизацию построенных на её основе ДСМ-систем. Это должно способствовать быстрому воплощению в программных системах достижений ДСМ-науки и тем самым способствовать её развитию, а также заложить основу для создания ДСМ-систем промышленного масштаба.

Раздел 3.1 посвящен вопросу обобщения понятия сходства для случая, когда структуры изучаемого объекта и искомых гипотез не совпадают. В этом случае предлагается использовать набор функций сходства ={ss, sc, cc}, областью значений которых является C (множество сходств), а областями определения – SS, SC и CC соответственно (где S – множество объектов). При этом функция cc обладает свойствами операции сходства на множестве объектов C, а функции ss и sc – свойствами (квази)коммутативности и (квази)ассоциативности:

(1) ss(si, sj) = ss(sj, si), sc(si, сj) = sc(сj, si),
(2) sc(si, ss (sj, sk)) = sc(ss (si, sj), sk).

Проверка на сходства на пустоту («неинформативность») осуществляется не сравнением с эталонным «пустым» сходством, а более абстрактным образом - посредством специального предиката E(c). При этом должны выполняться следующие условия:

(1) ,

(2) ,

т.е. сходство с пустым сходством всегда пусто.

Отношение вложимости на множестве объектов обобщается до соответствия вложимости сходства в объект I(c, s) такого, что выполняются следующие условия:

(1) , т.е. сходство всегда вложимо в породившие его объекты;

(2) , т.е. пустое сходство вложимо в любой объект.

Раздел 3.2 подробно описывает архитектуру системы, её компоненты и взаимодействие между ними. Все компоненты архитектуры разделяются на структуры данных и алгоритмы. Это отражает то обстоятельство, что ядро системы (т.е. основные алгоритмы) не зависит от деталей данной конкретной предметной области (т.е. основных структур данных). При этом настройка на предметную область происходит с помощью вспомогательных алгоритмов, специфичных для предметной области.

На уровне языка программирования (C++), в качестве механизма настройки и расширения программной системы используется механизм шаблонов (templates), а не более часто употребляемый для этих целей механизм наследования классов (subclassing). Механизм шаблонов является более общим по сравнению с механизмом подклассов: достаточно объединить все методы, требуемые контрактом для некоторого шаблона, в один (абстрактный) класс, и создать экземпляр шаблона с использованием этого класса – и мы получаем класс, обладающий функциональностью исходного шаблона и поддерживающего механизм подклассов.

В целом, для настройки «быстроменяющихся» частей системы (т.е. тех, что могут меняться от запуска к запуску, например, набор искомых эмпирических зависимостей), следует использовать механизм наследования – в противном случае незначительное изменение параметров эксперимента потребует новой версии системы. Настройку же на конкретную предметную область (т.е. подключение структур данных для изучаемых объектов, искомых гипотез, а также вспомогательных алгоритмов) имеет смысл производить с помощью механизма шаблонов – для устранения недостатков механизма наследования, преимущества которого в данном случае всё равно не пользуются.

В разделе 3.2.1 обсуждаются структуры данных. Фундаментальными являются объект и сходство. Система позволяет, во-первых, использовать многокомпонентные описания объектов и сходств и, во-вторых, иметь независимые описания для объектов и для сходств. Всё это возможно, конечно, при условии, что операции нахождения сходства, предикат вхождения сходства в объект и критерий «пустоты» сходства (реализованные во вспомогательных алгоритмах) определены корректно.

К вспомогательным структурам данных относятся структуры представления множеств свойств и множеств идентификаторов объектов. Эти структуры независимы от предметной области и система предоставляет «стандартные решения» для них, но они могут быть легко заменены любым альтернативным решением. Такая необходимость может возникнуть при настройке системы на конкретную задачу в данной предметной области.

Наконец, при разработке библиотеки делались минимальные предположения о контейнерах данных, т.е. о способах хранения данных и доступа к ним. В экспериментальной системе используются контейнеры STL, которые хранят все данные в оперативной памяти. Однако, интерфейс (контракт) между ядром системы и контейнерами, а главное, разработанный алгоритм «поуровневого» построения решетки понятий, который исключает необходимость оперативного доступа одновременно ко всем порождённым гипотезам, позволяют применять контейнеры, использующие оперативную память лишь для кэширования, и хранящие основную массу данных на диске или в базе данных. К разряду контейнеров относится структура, используемая для хранения элементов отношений и , порождаемых в процессе работы системы. Её особенностью является «поуровневое» разбиение, при которой все элементы уровня k (т.е. порождённые с участием ровно k объектов) сгруппированы в отдельный контейнер. Это упрощает организацию эффективного кэширования данных.



Pages:     | 1 || 3 | 4 |
 





 
© 2013 www.dislib.ru - «Авторефераты диссертаций - бесплатно»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.