Розділ 2
ІНФОРМАЦІЙНО-СТАТИСТИЧНИЙ МЕТОД ВИЯВЛЕННЯ ЗАКОНОМІРНОСТЕЙ В РЕЛЯЦІЙНІЙ БАЗІ ДАНИХ ЯК МЕТОД ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ ДАНИХ
У цьому розділі виконується математична постановка задачі ІАД. Зокрема, описується реляційне подання даних у задачі ІАД, формалізується подання знань у реляційній БД. Схема інформаційного відношення реляційної БД розглядається як багатовимірна випадкова величина із застосуванням апарату теорії імовірності та математичної статистики. Формулюється постановка задачі ІАД як формування на основі даних, які зберігаються в СД, множини статистично значущих узагальнень та правил.
Далі у розділі досліджуються властивості функцій значущості узагальнень та правил. На основі отриманих властивостей пропонується інформаційно-статистичний метод розв'язання задачі ІАД, який належить до класу методів неповного перебору. Описуються загальні схеми алгоритмів цього методу, які формують множини значущих узагальнень та правил.
2.1. Постановка задачі інтелектуального аналізу даних в реляційній базі даних
При математичній постановці задачі ІАД будемо керуватися такими передумовами:
* дані про ПО та закономірності подаються за допомогою реляційної моделі;
* апріорі вважатимемо, що закономірності у ПО носять стохастичний характер, а тому БД утворюється як множина значень сукупності випадкових величин.
Виходячи з цього, постановку задачі проводитимемо у два етапи. Спочатку опишемо структуру ПО та закономірності з огляду на реляційне подання даних, не розкриваючи при цьому змісту кількісних характеристик значущості закономірностей. На другому етапі опишемо інформаційні відношення, у яких зберігаються дані про ПО, як випадкові величини, використовуючи апарат теорії імовірності, а також критерії значущості правил на основі апарату математичної статистики.
2.1.1. Реляційне подання даних та знань в інтелектуальному аналізі даних.
Опишемо елементи ПО у термінах реляційної моделі [47, 61], але при цьому будемо розрізняти їх за типами як це було запропоновано в [18, 19, 20].
Основними елементами будь-якої ПО є її об'єкти, які власне і формують ПО як таку. У будь-який момент часу стан ПО повністю визначається сукупністю усіх її об'єктів. У свою чергу кожен об'єкт ПО має деякий набір властивостей, за допомогою яких описується об'єкт, і які дозволяють осягнути суть об'єкта на потрібному спостерігачеві рівні абстракції.
Властивості об'єктів ПО називаються атрибутами. Кожен атрибут набуває значень із деякої множини (області визначення атрибута) - домену атрибута. Множину атрибутів ПО позначатимемо як , множину доменів як . Кожному атрибуту з множини ставиться у відповідність домен з множини за допомогою відображення .
Кожен об'єкт ПО описується набором атрибутів з множини . ПО ділиться на класи однотипних об'єктів, які описуються однаковими наборами атрибутів. Структуру класу об'єктів будемо позначати як:
,
де - набір атрибутів, за значеннями яких однозначно визначається об'єкт ПО, і який будемо називати ідентифікатором об'єкта;
- атрибути об'єкта ПО.
Об'єкт класу будемо позначати як , множину об'єктів цього класу як , тобто .
Між об'єктами ПО можуть утворюватись зв'язки. Такі зв'язки виникають, коли один об'єкт використовує властивості іншого. У такому випадку будемо говорити, що між об'єктами існує співвідношення.
Співвідношенням між об'єктами (предметної області) , зі структурами , називатимемо впорядковану пару . Структури об'єктів задають структуру співвідношення між об'єктами як пару , тобто
,
де - ідентифікатор об'єкта класу ;
- ідентифікатор об'єкта класу .
Позначатимемо множину співвідношень між об'єктами як , тобто .
Елементами ПО, які визначають її розвиток в часі, є події. Подія ПО відображає зафіксовану в часі взаємодію між об'єктами ПО.
Однотипні події, тобто ті, що мають однакові атрибути, і у яких беруть участь однотипні об'єкти, об'єднуються у класи. Структуру класу подій позначатимемо:
,
де - ідентифікатор події, який приймає значення з множини моментів часу ;
- ідентифікатор -го об'єкта; - атрибути події.
Події класу будемо позначати як , множину подій цього класу як , тобто .
Між подіями ПО можуть утворюватись зв'язки. У такому випадку будемо говорити, що між подіями існує співвідношення.
Співвідношенням між подіями (предметної області) , зі структурами та називатимемо впорядковану пару . Структури подій задають структуру співвідношення між подіями як пару , тобто
,
де - ідентифікатор події класу ;
- ідентифікатор події класу .
Множину співвідношень між подіями позначатимемо як .
Структура ПО повністю визначається множиною атрибутів, множиною доменів, функцією, котра відображає множину атрибутів у множину доменів, структурами усіх об'єктів, співвідношень між об'єктами, подій та співвідношеннями між подіями. Таким чином, сукупність структур об'єктів, співвідношень і подій ПО утворюють структурну схему ПО:
. (2.1)
Кожен одиничний об'єкт ПО описується даними про об'єкт.
Даними про об'єкт (предметної області) зі структурою називатимемо кортеж , де - значення атрибута-ідентифікатора об'єкта, - значення атрибута об'єкта.
Таким чином дані про об'єкти одного класу складають множину:
.
Кожна одинична подія ПО описується даними про подію.
Нехай - множина моментів часу; - дані про об'єкти ПО. Тоді, даними про подію (предметної області) зі структурою будемо називати кортеж , де - значення атрибута-ідентифікатора події, - значення атрибута-ідентифікатора об'єкта , - значення атрибута події.
Таким чином дані про події одного класу складають множину:
.
Сукупність усіх об'єктів, співвідношень між об'єктами, подій та співвідношень між подіями предметної області повністю задають ПО протягом усього часу її існування.
Отже, даними про предметну область будемо називати множину , де - множина усіх об'єктів ПО, - множина усіх подій ПО, - множина усіх співвідношень між об'єктами,
- Киев+380960830922