Ви є тут

Методи та інформаційні технології класифікації для завдань видобування даних

Автор: 
Дорошенко Анастасія Володимирівна
Тип роботи: 
Дис. канд. наук
Рік: 
2008
Артикул:
3408U001688
129 грн
Додати в кошик

Вміст

РОЗДІЛ 2
РОЗРОБЛЕННЯ ТА ВДОСКОНАЛЕННЯ МЕТОДІВ КЛАСИФІКАЦІЇ
НА ОСНОВІ МОДЕЛІ ГЕОМЕТРИЧНИХ ПЕРЕТВОРЕНЬ
В основу багатьох методів класифікації закладено гіпотезу компактності [12], яка передбачає, що об'єкти, які належать до певних класів, формують згустки точок - кластери в просторі ознак, а отже, можуть бути легко розділені гіперповерхнями або навіть гіперплощинами.
Однак, в багатьох випадках функціонування систем інтелектуального аналізу даних відбувається в умовах невизначеності, що виникає через взаємне перекриття класів і розмитість границь між ними. Це можна пояснити як неповнотою інформаційного базису, суперечливістю, так і нерівномірністю даних в просторі, представленням одного класу декількома кластерами тощо.
Відповідно, класичні методи класифікації, що ґрунтуються на гіпотезі компактності, не забезпечують бажаної якості результатів розв'язання задач інтелектуального аналізу даних, що спонукає до створення альтернативних методів.
2.1. Розв'язання завдань видобування даних за допомогою засобів штучних нейронних мереж
Технології застосування нейромереж, які пропонуються у комерційних нейропакетах, передбачають попередній вибір структури нейромережі згідно з поставленим завданням та структурою даних і подальше визначення ваг зв'язків між нейронами-процесорами, яке здійснюється у процесі навчання мережі. Неітеративне, швидке навчання нейромереж реалізується в автоасоціативних моделях типу мереж Хопфілда, застосування яких, на жаль, є досить звуженим і зазвичай обмежується завданнями побудови автоасоціативної пам'яті, або оптимізації. Навчання багатошарових перцептронів, здатних розв'язувати широкий спектр задач передбачення, розпізнавання, класифікації та прогнозування часових послідовностей, здійснюється на основі процедур багатопараметричної оптимізації, що значно обмежує можливості їх застосування для завдань великих розмірностей.
Порівняємо результати розв'язання задачі класифікації для інтелектуального аналізу даних, метою якої є виявлення шахраїв серед клієнтів інтернет-магазину за допомогою відомих нейромережевих підходів із використанням програмного продукту NeuroSolutions 4.
2.1.1. Розв'язання задачі класифікації для інтелектуального аналізу даних із застосуванням багатошарового перцептрона
Розглянемо застосування багатошарового перцептрона для розв'язання задачі класифікації інтелектуального аналізу даних.
Рис. 2.1. Вікно вибору багатошарового перцептрона в пакеті NeuroSolutions за допомогою інструменту NeuralBuilder
За допомогою інструменту NeuralBuilder пакету NeuroSolutions 4 будуємо багатошаровий перцептрон, який має 62 входи і 2 виходи (01 - якщо клієнт є надійним, 10 - якщо клієнт виявився шахраєм). Розміри навчальної та тестової вибірки - 5000 векторів.
Рис. 2.2. Структурна схема побудованого багатошарового перцептрона
Рис. 2.3. Вікно побудови багатошарового перцептрона
за допомогою NeuralBuilder
На рис. 2.3. проілюстровано побудову багатошарового перцептрона із 62 входами та 2 виходами, одним прихованим шаром. Розміри навчальної та тестової вибірки - 5000 векторів.Параметри налаштування прихованого шару наведено на рис.2.4. Прихований шар складається з 4-ох елементів, функцією активації яких є гіперболічний тангенс.
Необхідно зазначити, що задача, яка розв'язується, володіє головними характерними особливостями задач інтелектуального аналізу даних: нерівномірність представлення даних (серед 5000 векторів тестової вибірки 289 векторів одного класу та 4711 іншого), дані є неоднорідними та неповними, вхідні ознаки є корельованими між собою тощо.
Рис. 2.4. Вікно налаштувань прихованого шару багатошарового перцептрона за допомогою NeuralBuilder
Результати тестування побудованого багатошарового перцептрона наведено в табл. 2.1.
Таблиця 2.1.
Результати класифікації
за допомогою багатошарового перцептрона
Output / Desired10110199001883721Performance10MSE1,5713016211,727055746NMSE6,4134760037,049207128MAE0,9812312261,025617583Min Abs Error0,0025513170,002563268Max Abs Error2,8953421123,220130682Правильно класифіковано (%)Percent Correct35,7272720378,57142639 Отримані результати вказують на те, що застосування класичного багатошарового перцептрона для задач інтелектуального аналізу даних є неефективним, оскільки при достатньо високій точності класифікації векторів більшого класу, точність класифікації векторів меншого класу є низькою.
Відповідно, для задач інтелектуального аналізу даних аналогічних тій, що розв'язується, метою яких є саме визначення належності вектора до меншого класу, такий результат є неприйнятним.
2.1.2. Розв'язання задачі класифікації для інтелектуального аналізу даних на основі машини опорних векторів
Розглянемо застосування машини опорних векторів для розв'язання задачі класифікації інтелектуального аналізу даних, що розглядалась в п. 2.1.1.

Рис. 2.5. Вікно вибору машини опорних векторів в пакеті NeuroSolutions за допомогою інструменту NeuralBuilder

Рис. 2.6. Структурна схема побудованої машини опорних векторів
Рис. 2.7. Вікно побудови машини опорних векторів
за допомогою NeuralBuilder
Після тестування побудованої машини опорних векторів на даних задачі, що розглядається, було отримано результати, наведені в табл. 2.2.
Таблиця 2.2
Результати класифікації машиною опорних векторів
Output / Desired101150188501392826Performance10MSE0,3851442940,378051164NMSE1,5839058751,554735379MAE0,4573760910,451946766Min Abs Error0,0040155650,004307462Max Abs Error1,0555031521,055501699Правильно класифіковано (%)Percent Correct52,3809509360,7142868 Аналіз отриманих результатів вказує на те, що у порівнянні із багатошаровим перцептроном машина опорних векторів більш рівномірно класифікує представників обох класів, однак точність цієї класифікації є занадто низькою.
2.1.3. Розв'язання задачі класифікації для інтелектуального аналізу даних RBF-мер