Розділ 2.
МАТЕМАТИЧНА МОДЕЛЬ ВІДНОШЕННЯ З НЕВИЗНАЧЕНІСТЮ ТА МЕТОДИ ОПРАЦЮВАННЯ І УСУНЕННЯ
НЕВИЗНАЧЕНОСТЕЙ
Розглянемо задачі опрацювання невизначеностей (методів їх подання у відношенні
сховища даних), усунення невідомих та неповних даних, а також зменшення
неточності, недетермінованості, частковості, багатозначності інтерпретацій.
Коректне подання невизначеності у відношенні сховища даних дозволить
опрацьовувати такі дані і уникнути втрати інформації, а також використовувати
дані з невизначеністю для аналізу даних, результатом якого буде зменшення
невизначеності у відношенні, а, отже, збільшення його інформативності.
Для подання різних типів невизначеності автором введене поняття відношення з
невизначеністю. Для коректного опрацювання даних кортежів такого відношення
розширено традиційні реляційні оператори вибірки, проекції та з’єднання.
Введено g-оператор як узагальнений оператор опрацювання усіх типів
невизначеностей. Показано приклад g-оператора – оператор лінґвістичної вибірки,
та проаналізовано результат його застосування на відношенні сховища даних,
побудованого на основі реляційної моделі.
Окремо проаналізовано методику опрацювання інтервальних змінних. Розширено
математичні операції інтервальної алґебри, застосовні до чітких інтервалів, а
також введено оператор збереження історії результату операцій над інтервальними
величинами. Перевагами цього оператора над звичайними інтервальними операторами
є можливість запобігання розширення інтервалу, яке відбувається через
використання великої кількості операндів. Такий результат досягається шляхом
збереження історії операцій.
Розглянуто методи зменшення невизначеності: використання класифікаційних правил
та аналіз зв’язків між об’єктами, що моделюються у сховищі даних.
Автором введене поняття класифікаційного правила, показаний його зв’язок із
традиційними функціональними залежностями. Шляхом застосування класифікаційних
правил до відношень сховища даних вдалося зменшувати невизначеність та усувати
невідомі значення. Атрибути, по значеннях яких здійснюється зменшення
невизначеності, вважаються атрибутами, що містять мітки класу, а сам процес
зменшення невизначеності перетворюється на процес класифікування.
Шляхом побудови мережі кортежів відношення можна моделювати зв’язки між
об’єктами предметної області. Аналіз таких зв’язків та даних про об’єкти
дозволяє зменшувати невизначеність.
2.1 Задачі моделювання сховищ даних із невизначеністю
Як відомо, до сховища даних часто формуються запити з нечітко заданими
параметрами, поданими у вигляді інтервалів, лінґвістичних змінних, ступенів
довіри тощо. Крім того, все частіше виникає проблема збереження у відношеннях
сховища даних, побудованого на основі реляційної моделі, інформації про
об’єкти, які за суттю є нечіткими. Прикладом таких об’єктів є різноманітні
класи, причому класифікаційні ознаки можуть бути як чіткими (наприклад, вікова
градація Молодий – до 28 років, Зрілий – від 28 до 40 років, Старий – 40 років
і старший), так і заданими певним розподілом. У зв`язку зі складністю
інформаційного моделювання предметних областей неможливо відображати такі
об’єкти у традиційній реляційній моделі даних, і, як наслідок, виникли
постреляційні моделі (об’єктно-орієнтовані моделі та моделі з гніздуванням).
Найчастіше невизначеність може виникати у переглядах, отриманих у результаті
запиту до сховища даних із параметрами, поданими у вигляді нечітких величин.
Методи та правила здійснення вибірки, а також шкали для порівняння наведені у
[8, 107].
Типовими предметними областями, у яких постає задача опрацювання (усунення)
невизначених та нечітко заданих значень є: комплексні інформаційні системи
аналізу та планування реґіональної інформації, задачі планування виробництва,
біржа працевлаштування, соціологічні опитування, історичні дослідження тощо.
Традиційно, всі види невизначеностей позначаються символом ^ [37]. Оскільки
доволі важко відчути семантичну різницю між деякими з наведених типів
невизначеностей і ще важче відобразити певні типи невизначеностей у відношенні,
то узагальнимо типи невизначеностей та введемо для них відповідні позначення:
* відомо, що значення притаманне сутності, але ми його не знаємо (відсутність)
– позначається символом ^ (вводиться на рівні значення атрибута);
* є неповна або часткова інформація про значення, для відображення якої
використовується додатковий атрибут, що характеризує рівень істинності даних та
містить значення функцій розподілу, лінґвістичних змінних, ступенів істинності
багатозначних логік (може вводитися на рівні значення атрибута, підмножини
значень атрибутів або кортежа).
Відповідно до розглянутих типів невизначеностей ставляться задачі:
* опрацювання невизначених даних (подання їх у відношення сховища даних,
коректної роботи реляційних операторів);
* усунення невідомих та неповних даних;
* зменшення (компенсації) неточності та нечіткості.
Задача опрацювання невизначених даних найчастіше виникає внаслідок операцій
вибірки, проекції та з’єднання як у повних, так і неповних відношеннях
(визначення повного відношення див у [37]), а також під час формування
відповіді на запити з нечіткістю. Прикладом виникнення невизначеності у запиті
по повному відношенню може служити опрацювання інтервалів (додавання,
віднімання, множення тощо) як наслідок відсутності відповідних інтервальних
операцій та великої кількості операндів, які призводять до непомірного
збільшення інтервалу. Оскільки у сховищах даних використовується багатовимірне
подання інформації (відношення відрізняються на семантичному рівні), то
використання розширень традиційних опер
- Київ+380960830922