авторефераты диссертаций БЕСПЛАТНАЯ РОССИЙСКАЯ БИБЛИОТЕКА - WWW.DISLIB.RU

АВТОРЕФЕРАТЫ, ДИССЕРТАЦИИ, МОНОГРАФИИ, НАУЧНЫЕ СТАТЬИ, КНИГИ

 
<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 | 2 || 4 |

Создание компьютерной системы интеллектуального анализафармакологических данных

-- [ Страница 3 ] --

Раздел 3.2.2 посвящен описанию программных компонентов ядра системы.

Обобщатель (Inductor) реализует этап порождения гипотез IIго рода (о причинах наличия свойств в объектах). Процесс состоит в (параллельном) применении Генератора Iго рода для построения отношений, соответствующих решающим предикатам сходства и , с последующим вызовом Управителя Iго рода, который порождает гипотезы, применяя п.п.в. Iго рода к элементам полученных отношений.

Генератор Iго рода (Generator I) строит отношение для решающего предиката сходства (для указанных шага n применения п.п.в., знака и Усилителя x).

Фильтр (Rejecter) выполняет проверку наличия определённой ЭЗ для пары (сходство, свойства). В настоящее время реализованы фильтры (a) простого метода сходства и (4) «запрета на контрпримеры».

Усилитель (Enhancer) представляет собой набор Фильтров, соответствующих искомым эмпирическим зависимостям (ЭЗ). Расширение тривиального набора (включающего лишь ЭЗ простого метода сходства (a)) фактически приводит к усилению п.п.в. Iго рода, отсюда и название.

Управитель I-го рода (Ruler I) доопределяет отношение посредством применения п.п.в. Iго рода к элементам отношений и . Используемый в экспериментальной системе Управитель соответствует методу «ДСМ-АПГ без отношения порядка», но так как, во-первых, Генератор и Управитель разделены, и, во-вторых, Генератор уже поддерживает механизм усилителей, то для создания системы типа «ДСМ-АПГ с отношением порядка» достаточно модернизировать лишь логику Управителя.

Уточнитель (Analoger) реализует этап порождения гипотез Iго рода (о наличии свойств в объектах).

Контролёр (Abductor) реализует этап проверки выполнимости критерия достаточного основания принятия гипотез (к.д.о.п.г.) в полученной БЗ. Процесс состоит в попытке «доопределить» все фактические свойства объектов с помощью результирующего отношения .

Рассуждатель (Reasoner) объединяет все вышеописанные процедуры в итерационную процедуру ДСМ-рассуждения: Обобщатель и Уточнитель поочередно доопределяют соответствующие отношения, пока это возможно, а затем Контролер проводит проверку качества результатов работы.

Раздел 3.2.3 посвящен описанию программных компонентов настройки системы.

Помощник предметной области (DomainHelper) предоставляет следующие процедуры:

  • Нахождение локального сходства объектов (collate). Для этого процедуре передаётся два итератора – один по объектам-родителям, а другой – по «соседям снизу» искомого сходства (в смысле частично упорядоченного множества, образовываемого множествами объектов-родителей). Итератор по объектам-родителям универсален (например, итератор по «соседям снизу» пуст для уровня 2) и предоставляет непосредственный доступ к данным об объектах. С помощью же итератора по «соседям снизу» в некоторых случаях можно значительно ускорить процедуру (например, если объекты представлены множеством дескрипторов, то для нахождения сходства достаточно «пересечь» любые два «соседа снизу»). Ядро передаёт оба итератора, и тем самым даёт возможность использовать тот, который в данном конкретном случае более удобен.
  • Нахождение сходства между объектом и сходством (collate_sc). Этот частный случай процедуры нахождения локального сходства объектов реализуется отдельно – из практических соображений (в силу потенциальной простоты его реализации). Кроме того, эту процедуру часто бывает удобно использовать в реализации предыдущей.
  • Определение эквивалентности сходств (equal). Тривиальный в случае множеств, этот предикат может становиться довольно сложным в случае числовых моделей. Например, прямое сравнение действительных чисел чаще всего не имеет смысла – как минимум, нужно учитывать неточности, вносимые бинарным представлением чисел с плавающей точкой.
  • Определение «пустоты» сходства (empty). В простых случаях «пустоту» можно определить как эквивалентность эталонному «пустому» сходству (например, пустому множеству дескрипторов), но в общем случае реализация этого предиката может включать вычисления (как, например, в случае со статистическими моделями, где мерой «неинтересности» может служить дисперсия).
  • Определение вложимости сходства в объект (include). Хотя формально этот предикат можно было бы (неявно) реализовать через предикат эквивалентности сходств и операцию нахождения сходства между сходством и объектом, он реализуется явно – с тем, чтобы была возможность оптимизации.

Помощник для работы с множествами свойств (PropertiesHelper) уже реализован как часть библиотеки, но должен пересматриваться тогда, когда меняется внутреннее представление для множеств свойств. Существующая реализация – для представления в виде 32-битных полей, где каждому биту соответствует свойство и наличие/отсутствие бита означает наличие/отсутствие свойства. Это позволяет выполнять теоретико-множественные операции со скоростью побитовых операций, но накладывает ограничение на число свойств – не более 32 (что должно быть более чем достаточно для большинства практических задач). Этот помощник должен предоставлять процедуры для пересечения, объединения и разности множеств, а также определения равенства множеств и пустого множества.

В случае же множества идентификаторов (порядковых номеров) объектов ограничение на их число может быть существенным. Включенная в библиотеку реализация (основанная на представлении в виде 64-битного поля) поддерживает до 64 объектов, что может быть недостаточно для решения практических задач. Альтернативное решение может содержать либо фиксированное число 64-битных полей, либо их переменное число. Первый вариант гораздо проще и производительней второго, но такая реализация лишь смягчает ограничение (n полей позволяют анализировать до 64n объектов), а не устраняет его. Помощник для работы с множествами идентификаторов объектов (ExtentHelper), помимо теоретико-множественных операций и предикатов, позволяет преобразовывать идентификатор объекта во множество, состоящее из одного этого идентификатора, а также множество – в итератор по идентификаторам.

Раздел 3.2.4 подробно описывает алгоритм работы Обобщателя. Его распараллеливаемой частью является алгоритм построения решетки сходств. Сразу поясним, что рассматриваемые множества подмножеств (некоторого множества ) чаще всего не являются решетками в строгом смысле слова. Они представляют собой частично упорядоченные множества, которые становятся решетками, если к ним добавить элементы и . Тем не менее, для краткости мы будем называть их решетками.

Элементом множества порождаемых гипотез является тройка (E, С, P), где E - множество идентификаторов объектов-родителей гипотезы, С – их локальное сходство, P – структура, описывающая множество свойств, причиной наличия (или отсутствия) которых данное сходство является. В любой момент времени это множество является решеткой как множество всех подмножеств множества рассматриваемых объектов (т.е. в части E), и это его свойство используется для порождения новых элементов. В процессе работы множество «прореживается» с тем, чтобы в конечном итоге остались только элементы, в которых локальное сходство является также глобальным, и тогда эта решётка становится также решёткой понятий, как определяется в рамках анализа формальных понятий. При этом E исполняет роль объёма формального понятия, а (С, P) - его содержания [42].

Структура P, описывающая множество свойств, представляет массив структур, приписывающих истинностные значения на каждом шаге применения п.п.в. То есть, n-ный элемент массива P есть набор множеств свойств A<,n> таких, что формула CA<,n> имеет истинностное значение , где . Это позволяет хранить данные, необходимые обоим решающим предикатам - и - без дублирования общих данных, и обрабатывать положительные и отрицательные примеры единым образом.

Предоставляемое библиотекой «стандартное» представление данных видится разумным компромиссом между гибкостью и эффективностью: есть возможность изменить те его части, которые должны настраиваться на конкретную предметную область (а именно, сходство), а те части, которые являются исключительно деталями реализации ядра системы, выполнены в манере, обеспечивающей максимальную производительность.

Тот же подход применялся при разработке алгоритма - делая минимум предположений относительно предметной области, перенести как можно больше вычислений на внутренние структуры данных - те, которые мы можем оптимизировать независимо от "пользовательских" структур данных, и тем самым контролировать эффективность алгоритма в смысле времени работы и требуемой памяти. Основным является предположение, что операция сходства является дорогой (в смысле времени выполнения), гораздо дороже операции пересечения множеств (тем более что множества могут быть представлены посредством битовых масок со всеми вытекающими преимуществами). Поэтому, прежде чем вычислять сходство для некоторой гипотезы, проверяется необходимое условие того, что оно не пусто, а именно, то, что все её соседи снизу не пусты. (Соседи снизу/сверху определяются посредством отношения частичного порядка на множествах E, естественным образом связанным с операциями объединения и пересечения; именно здесь используются решеточные свойства множества множеств E). Точнее, на уровне l алгоритм пытается найти l+1 элементов, которые являются соседями снизу некоторого элемента (по построению, уровень содержит только непустые элементы, т.е. фактически ищутся l+1 непустых соседей снизу); в случае успеха вычисляется сходство соответствующих l+1 объектов, и если оно не пусто, на уровень l+1 помещается новая гипотеза. При этом перебираются все возможные сочетания (числом , где nl - число элементов на уровне l) и тем самым гарантируется, что все непустые элементы уровня l+1 будут рассмотрены. Как видно, при таком подходе достаточно иметь оперативный доступ лишь к элементам уровней l и l+1.

Эксперименты показали, что гораздо эффективнее разделять построение (+) и (-) решеток, чем пытаться формировать конечную решетку за один проход. Возможное дублирование выполнения операции сходства с лихвой окупается возможностью немедленного исключения неверных гипотез из дальнейшего рассмотрения (в случае же одного прохода гипотеза будет исключена, только если она «неверна» сразу по обоим знакам). Кроме того, разделение этих двух шагов позволяет выполнять их параллельно.

Раздел 3.2.5 подробно описывает алгоритм работы Уточнителя. В этом алгоритме также существенно используется частичная упорядоченность множества гипотез II-го рода. А именно, поиск сходств-кандидатов осуществляется поуровнево, начиная с самого верхнего уровня, и перед проверкой вложения сходства в объект проверяется, не было ли неудачных проверок для «соседей сверху» данного сходства. Отсутствие таких неудачных проверок является необходимым условием успешной проверки для текущего сходства: каждое сходство из «соседних сверху» вкладывается в текущее сходство, и если хотя бы одно из них не вложилось в данный объект, то и текущее сходство не вложимо в него. С целью выполнения этой проверки, для каждого объекта хранится список сходств (с предыдущего уровня), которые в него не вкладываются. Каждое сходство идентифицируется множеством идентификаторов объектов-родителей. В итоге, проверка состоит в поиске среди элементов этого списка сходств, являющихся «соседями сверху» данного (в смысле множества идентификаторов объектов).

Таким образом, операция определения вложимости сходства в объект (вычислительная сложность которой в общем случае может превышать сложность процедуры нахождения сходства между сходством и объектом) заменяется несколькими (до n-k на уровне k) операциями пересечения множеств идентификаторов объектов. Эта замена имеет смысл в случае, когда операция определения вложимости существенно дороже операции пересечения множеств. Это и было основополагающим предположением при разработке данного алгоритма. Оно должно быть подкреплено эффективной программной реализацией операции пересечения множеств. Множество идентификаторов объектов, являющихся родителями сходства и однозначно идентифицирующих элемент решетки сходств, называется координатами сходства.

С использованием разработанного ядра была заново реализована экспериментальная ДСМ-система для прогнозирования контрпродуктивных свойств химических соединений. Ей посвящен раздел 3.3. Представление изучаемого объекта в ней осталось прежним: набор кодов ФКСП химического соединения в качестве структурной компоненты и некая физико-химическая характеристика соединения (предоставляемая извне или вычисляемая в процессе работы) – в качестве числовой компоненты. Однако теперь представление сходства может изменяться независимо. В экспериментальной системе числовая компонента сходства представлена в двух вариантах – посредством алгебры интервалов и в виде линейной регрессионной модели. Раздел 3.3.1 занимается вопросом использования линейной регрессии в качестве сходства числовых величин. В этом случае числовая компонента объекта должна быть парой чисел (xi,yi), а сходство 2-х (или больше) таких пар выражается параметрами 0 и 1 линейной регрессии y = 0 + 1x + . В качестве значений этих параметров используются робастные оценки:

, .

Эквивалентность сходств определяется как равенство соответствующих параметров регрессии. В качестве оценки «информативности» сходства при этом используется коэффициент детерминации r2:

«Пустыми» регрессионными моделями (сходствами) считаются те, коэффициент детерминации («информативность») которых ниже определяемого пользователем порога. Следует заметить, что часто при решении реальных задач «пустые» сходства оказываются несколько более сложными, чем «пустые» структуры данных, используемые для представления сходства. Например, при рассмотрении полиароматических углеводородов, представленных в виде множества кодов ФКСП, «пустым» сходством следует считать не пустое множество кодов, а множество, состоящее из нескольких кодов, соответствующих бензольному кольцу, так как все объекты будут включать эти коды. (Хотя такие фрагменты, скорее всего, отфильтруются запретом на контрпримеры, такая «подсказка» со стороны человека – участника человеко-машинной системы – может ускорить работу). В случае регрессионной модели выбранное представление не предлагает «естественного» определения «пустого» сходства, но из практических соображений вряд ли имеет смысл рассматривать регрессионные модели с коэффициентом детерминации меньше 0.7. В любом случае, пользователь имеет возможность задать это пороговое значение.

Еще одним вариантом комбинирования численного и логико-комбинаторного анализа, реализованным в системе, является «регрессионный фильтр». Здесь объект включает числовую компоненту для регрессионного анализа, а сходство – лишь структурную компоненту. Соответственно, при определении эквивалентности и вложимости сходств принимается во внимание лишь структурная часть. Однако сходство считается также пустым, если коэффициентом детерминации для соответствующей регрессионной модели меньше заданного порога. Этот подход является воплощением идеи контролирования комбинаторной «лавины» статистическими «поглотителями».

В разделе 3.3.2 приводятся результаты экспериментов с системой. Показывается, что применение «регрессионного фильтра» может несколько улучшить степень покрытия исходных фактов результирующим набором гипотез. Применение же регрессионной модели на всех этапах ДСМ-анализа позволяет добиться 100% покрытия. Вместе с тем наблюдается следующие эффекты. Во-первых, поскольку у всех «-1» гипотез регрессионная модель одна и та же (y = 0), то она не оказывает никакого влияния на формирование набора «-1» гипотез. Во-вторых, в силу того, что эта регрессионная модель «сильно» отличается от всех моделей «+1» гипотез, то фактически пропадает отбор по «запрету на контр-примеры». Этим, в частности, объясняется значительное увеличение числа «+1» гипотез. (Последний эффект наблюдается также при использовании модели интервалов).

В Заключении сформулированы основные научные результаты работы, а также рассматриваются возможные направления развития системы.

Приложение содержит руководство пользователя системы, а также результаты экспериментов с системой.

Основные результаты работы.

  1. Сделан обзор, классификация и анализ существующих методов интеллектуального анализа данных, а также анализ тенденций и потребностей в их развитии.
  2. Разработана архитектура интегрированной системы интеллектуального анализа гибридных данных.
  3. Разработан распараллеливаемый алгоритм поуровневого построения решётки ДСМ-гипотез, оптимизированный для применения в задачах с трудоёмкими операциями нахождения сходства.
  4. Реализован ДСМ-решатель со встроенной возможностью расширения набора проверяемых эмпирических зависимостей и определения операции локального сходства множества объектов, а также выполняющий итерационное применение правил правдоподобного вывода.
  5. Реализован модуль для квантовомеханического расчёта числовых характеристик класса химических соединений.
  6. Создана интеллектуальная система прогнозирования контрпродуктивных свойств химических соединений, совместно использующая логико-комбинаторные и численные методы для анализа структурно-числовых данных.

Основные результаты изложены в следующих публикациях:



Pages:     | 1 | 2 || 4 |
 





 
© 2013 www.dislib.ru - «Авторефераты диссертаций - бесплатно»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.