Методи кластеризації: процедура Мак-Кіна, метод К-методів, сітчасті методи

Мета кластерного аналізу: поняття, алгоритм, завдання. Головні особливості процедури Мак-Кіна. Графік середніх значень за трьома кластерами. Метод К-методів, переваги та недоліки використання. Поняття про сіткові алгоритми кластеризації (grid-based).

Рубрика Экономико-математическое моделирование
Вид реферат
Язык украинский
Дата добавления 27.05.2013
Размер файла 238,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

ДЕРЖАВНА ПОДАТКОВА СЛУЖБА УКРАЇНИ

НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ ДЕРЖАВНОЇ ПОДАТКОВОЇ СЛУЖБИ УКРАЇНИ

Реферат

На тему: «Методи кластеризації: процедура Мак-Кина, метод К-методів, сітчасті методи»

Ірпінь 2013

Вступ

Кластерний аналіз (англ. Data clustering) - задача розбиття заданої вибірки об'єктів (ситуацій) на підмножини, що називаються кластерами, так, щоб кожен кластер складався з схожих об'єктів, а об'єкти різних кластерів істотно відрізнялися. Завдання кластеризації відноситься до статистичної обробки, а також до широкого класу завдань навчання без вчителя. Кластерний аналіз - це багатовимірна статистична процедура, яка виконує збір даних, що містять інформацію про вибірку об'єктів і потім упорядковує об'єкти в порівняно однорідні групи - кластери (Q-кластеризация, або Q-техника, власне кластерний аналіз).

Основна мета кластерного аналізу - знаходження груп схожих об'єктів у вибірці. Спектр застосувань кластерного аналізу дуже широкий: його використовують в археології, антропології, медицині, психології, хімії, біології, державному управлінні, філології, маркетингу, соціології та інших дисциплінах. Однак універсальність застосування привела до появи великої кількості несумісних термінів, методів і підходів, що утруднюють однозначне використання і несуперечливу інтерпретацію кластерного аналізу.

Формальне визначення кластеризації: Нехай - множина об'єктів, - множина номерів (імен, міток) кластерів. Задано функцію відстані між об'єктами . Є кінцева вибірка об'єктів . Потрібно розбити вибірку на непересічні підмножини, що називаються кластерами, так, щоб кожен кластер складався з об'єктів, близьких по метриці , а об'єкти різних кластерів істотно відрізнялися. При цьому кожному об'єкту приписується номер кластера .

Алгоритм кластеризації - це функція , яка будь-якому об'єкту ставить у відповідність номер кластера . Множина в деяких випадках відома заздалегідь, проте частіше ставиться завдання визначити оптимальне число кластерів, з погляду деякого критерію якості кластеризації.

Кластерний аналіз виконує наступні основні завдання:

Розробка типології або класифікації.

Дослідження корисних концептуальних схем групування об'єктів.

Породження гіпотез на основі дослідження даних.

Перевірка гіпотез або дослідження для визначення, чи дійсно групи, виділені тим чи іншим способом, присутні в наявних даних.

Незалежно від конкретної сфери, застосування кластерного аналізу передбачає наступні етапи:

Відбір вибірки для кластеризації.

Визначення множини характеристик, по яких будуть оцінюватися об'єкти у вибірці.

Обчислення значень тієї чи іншої міри схожості між об'єктами.

Застосування одного з методів кластерного аналізу для створення груп схожих об'єктів. Перевірка достовірності результатів кластеризації.

Якщо кластерному аналізу передує факторний аналіз, то вибірка не потребує коректування - викладені вимоги виконуються автоматично самою процедурою факторного моделювання. В іншому випадку вибірку потрібно коректувати. Об'єднання схожих об'єктів у групи може бути здійснене різними способами. Саме для цього етапу існує цілий ряд методів:

K-середніх (K-means).

Мак-Кина.

Нечітка кластеризація C-середніх (C-means).

Графові алгоритми кластеризації.

Статистичні алгоритми кластеризації.

Ієрархічна кластеризація або таксономія.

Нейронна мережа Кохонена.

Розглянемо деякі з методів кластеризації.

Процедура Мак-Кіна

Серед ітераційних методів найбільш популярним методом є метод k-середніх Мак-Кина. На відміну від ієрархічних методів у більшості реалізацій цього методу сам користувач повинен задати дані число кінцевих кластерів, яке зазвичай позначається як "k". Як і в ієрархічних методах кластеризації, користувач при цьому може вибрати той чи інший тип метрики. Різні алгоритми методу k-середніх відрізняються і способом вибору початкових центрів задаються кластерів. У деяких варіантах методу сам користувач може (або повинен) задати такі початкові точки, або вибравши їх з реальних спостережень, або задавши координати цих точок по кожній із змінних. В інших реалізаціях цього методу вибір заданого числа k початкових точок проводиться випадковим чином, причому ці початкові точки (зерна кластерів) можуть у подальшому уточнюватися в кілька етапів. Можна виділити 4 основних етапи таких методів:

вибираються або призначаються k спостережень, які будуть первинними центрами кластерів;

при необхідності формуються проміжні кластери приписуванням кожного спостереження до найближчих заданих кластерним центрам;

після призначення всіх спостережень окремим кластерам проводиться заміна первинних кластерних центрів на кластерні середні;

попередня ітерація повторюється до тих пір, поки зміни координат кластерних центрів не стануть мінімальними.

У деяких варіантах цього методу користувач може задати числове значення критерію, трактують як мінімальна відстань для відбору нових центрів кластерів. Спостереження не розглядатиметься як претендент на новий центр кластера, якщо його відстань до замінного центру кластера перевищує задане число. Такий параметр в ряді програм називається "радіусом". Крім цього параметра можливе завдання і максимального числа ітерацій або досягнення певного, зазвичай досить малого, числа, з яким порівнюється зміна відстані для всіх кластерних центрів. Цей параметр зазвичай називається "конвергенцією", тому що відображає збіжність ітераційного процесу кластеризації. Нижче ми наведемо частина результатів, які отримані при використанні методу k-середніх Мак-Кіна до попередніх даних. Число шуканих кластерів задавалося спочатку рівним 3, а потім - 2. Перша їх частина містить результати однофакторного дисперсійного аналізу (10, 18), в якому в якості групують фактора виступає номер кластера. У першому стовпчику - список 12 змінних, далі йдуть суми квадратів (SS) і ступеня свободи (df), потім F-критерій Фішера і в останньому стовпці - досягнутий рівень значимості "р".

Between Within signif. Змінні SS df SS df F p X1 1606,203 1 165,2964 68 660,7634 0,000000 X2 621,964 1 916,1421 68 46,1648 0,000000 X3 0,305 1 3,0978 68 6,6914 0,011832 X4 0,146 1 3,2248 68 3,0697 0,084272 X5 30,464 1 65,9877 68 31,3934 0,000000 X6 6,936 1 17,2187 68 27,3910 0,000002 X7 18,213 1 70,8901 68 17,4706 0,000085 X8 0,160 1 ,6721 68 16,1832 0,000147 X9 7,981 1 11,2471 68 48,2525 0,000000 X10 6,943 1 8,6925 68 54,3172 0,000000 X11 8,598 1 5,4052 68 108,1661 0,000000 X12 7,673 1 3,6936 68 141,2533 0,000000

Як видно з цієї таблиці, нульова гіпотеза про рівність середніх значень у трьох групах відкидається. Нижче наведено графік середніх значень всіх змінних за окремими кластерам. Ці ж кластерні середні змінних наведені далі у вигляді таблиці.

Кластер Кластер Кластер Змінна №1 №2 №3 X1 46,62000 33,78334 48,11867 X2 51,00000 89,04000 80,62035 X3 1,75000 0,37856 0,55613 X4 1,25000 0,36733 0,49113 X5 12,75000 3,25667 5,10217 X6 5,00000 0,83222 1,71883 X7 12,25000 3,68889 5,09550 X8 0,80000 0,05556 0,18833 X9 4,75000 0,82222 1,78233 X10 4,50000 0,97778 1,87567 X11 3,25000 0,35444 1,37067 X12 2,75000 0,22222 1,18567

Рис. 1

Аналіз середніх значень змінних для кожного кластера дозволяє зробити висновок про те, що за ознакою Х1 кластери 1 і 3 мають близькі значення, тоді як кластер 2 має середнє значення набагато менший, ніж у інших двох кластерах. Навпаки, за ознакою Х2 перший кластер має саме мінімальне значення, тоді як 2-й і 3-й кластери мають вищі та близькі між собою середні значення. Для ознак Х3-Х12 середні значення в кластері 1 значно вище, ніж у кластерах 2 і 3. Нагадаємо, що дані 12 ознак були лектронно-мікроскопічними характеристиками еритроцитів трьох груп дітей - "Здорових", "С захворюванням щитовидної залози (до лікування)" і "С захворюванням щитовидної залози (після лікування)". Подальший аналіз цих і багатьох інших результатів статистичного аналізу досліджуваного масиву дозволив встановити цікаві взаємозв'язку захворювання щитовидної залози і електронномікроскопічних характеристик еритроцитів крові.

Наступна таблиця дисперсійного аналізу результатів кластеризації на два кластери також показує необхідність відхилення нульової гіпотези про рівність групових середніх майже за всіма 12 ознаками, за винятком змінної Х4, для якої досягнутий рівень значимості виявився більше 5%.

Нижче наведені графік і таблиця групових середніх для випадку кластеризації на два кластери. Ми пропонуємо нашим читачам самостійно зробити порівняння середніх величин окремих ознак при класифікації на 3 кластера, і на 2 кластери.

Рис. 2

У тому випадку, коли дослідник не має можливості заздалегідь визначитися з найбільш імовірним числом кластерів, він змушений повторити розрахунки, задаючи різне їх число, подібно до того, як це було зроблено нами вище. А потім, порівнюючи отримані результати між собою, зупинитися на одному з найбільш прийнятних варіантів кластеризації.

Метод К-методів

Кластеризація зображення методом k-середніх полягає у наступному: будується деяка цільова функція Ф(°), що виражає якість поточного розбиття зображення на k кластерів із центрами у точках Сі, і=1,…,n; k - задано.

Вибравши в початковий момент центри кластерів довільним чином, далі для кожного пікселя зображення ітеративно визначаємо його приналежність до одного із k кластерів і обчислюємо нові значення для центрів кластерів, намагаючись при цьому мінімізувати функцію Ф(°).

Одним із недоліків цього методу є порушення умови зв'язності пікселів одного кластера, ось чому розвиваються різні модифікації методу k-середніх, а також його нечіткі аналоги (fuzzy k-means methods), у яких на першій стадії алгоритму допускається приналежність одного пікселя до декількох кластерів (із різним ступенем приналежності).

Алгоритм методу «Кластеризація за схемою к-середніх»:

вибрати k інформаційних точок в якості центрів кластерів поки не завершиться процес зміни центрів кластерів;

зіставити кожну інформаційну точку з кластером, відстань до центра якого мінімальна;

переконатися, що в кожному кластері міститься хоча б одна точка. Для цього кожний порожній кластер потрібно доповнити довільною точкою, що розташована «далеко» від центра кластера;

центр кожного кластера замінити середнім від елементів кластера;

кінець.

Сітчасті методи

При вирішенні завдань, пов'язаних з моніторингом навколишнього середовища, часто виникає необхідність кластеризації великих масивів даних при відсутності будь-яких апріорних відомостей про шуканих класах. У цих умовах доцільно застосовувати так звані сіткові (grid-based) алгоритми кластеризації, що використовують сітку з фіксованим кроком. Обчислювальна складність таких алгоритмів визначається числом елементів сітковою структури і практично не залежить від кількості класифікуються об'єктів. Крім того, вони дозволяють виділяти кластери складної форми без будь-яких припущень про структуру даних. Однак результати кластеризації при цьому істотно залежать від вибору кроку сітки, що значно ускладнює їх практичне застосування. Для вирішення цієї проблеми в останні роки активно розвиваються сіточні методи, засновані на використанні не однієї, а на декількох сіток з фіксованим кроком. У даній роботі пропонується алгоритм кластеризації, використовує проміжні результати, отримані алгоритмом CCA на послідовності сіток з фіксованими кроками. Алгоритм кластеризації CCA ґрунтується на введенні клітинної структури в просторі ознак і розбитті клітин на класи, використовуючи оцінку щільності розподілу даних. Кінцевий результат визначається за допомогою ансамблевого методу, заснованого на побудові узгодженої матриці відмінностей. Після обчислення узгодженої матриці відмінностей для знаходження підсумкового рішення застосовується метод побудови дендрограмми, заснований на агломеративного кластеризації. Алгоритм дозволяє виділяти багатомодові кластери складної форми і формувати рішення, стійке до зміни кроку сітки.

Висновки

Ми розглянули коротко основні поняття кластерного аналізу і кластеризації. Детально розглянули кілька методів, кожен з яких застосовується в наш час і кожен з яких є ефективним в якихось особливих випадках, і кожен має недоліки.

Література

кластеризація метод кін

1. Журавлев Ю.И., Рязанов В.В., Сенько О.В. Распознавание. Математические методы. Программная система. Практические применения.

2. Шуметов В.Г. Шуметова Л.В. Кластерный анализ: подход с применением ЭВМ. - Орел: ОрелГТУ, 2000. - 118 с.

3. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. М., 2010.

Размещено на Allbest.ru


Подобные документы

  • Завдання та етапи кластерного аналізу, вимоги до інформації. Приклад класифікації економічних об'єктів за допомогою алгоритму кластерного аналізу, методи перевірки стійкості кластеризації, інтерпретація результатів аналізу та побудування дендрограми.

    реферат [311,2 K], добавлен 15.07.2011

  • Методи одержання стійких статистичних оцінок. Агломеративні методи кластерного аналізу. Грубі помилки та методи їх виявлення. Множинна нелінійна регресія. Метод головних компонент. Сутність завдання факторного аналізу. Робастне статистичне оцінювання.

    курсовая работа [1,2 M], добавлен 28.04.2014

  • Використання абсолютних, відносних та середніх величин, рядів динаміки у фінансовому аналізі, складання аналітичних таблиць. Застосування індексного та графічного методів. Послідовність аналізу економічних показників, взаємозв’язок факторних показників.

    курсовая работа [145,2 K], добавлен 31.05.2010

  • Предмет, об'єкт, метод та основні завдання економетрики. Розробка і дослідження эконометричних методів (методів прикладної статистики) з урахуванням специфіки економічних даних. Поняття економетричної моделі і її вибір. Типи економетричних моделей.

    контрольная работа [32,8 K], добавлен 18.06.2010

  • Застосування математичних методів у економіці. Об'єкти та предмети економетрії. Аналіз реальних економічних систем за допомогою економетричних методів і моделей. Непрямий метод найменших квадратів при оцінюванні параметрів ідентифікованої системи рівнянь.

    контрольная работа [41,1 K], добавлен 12.02.2010

  • Інфляція як економічна категорія, прогнозування її рівня в Україні. Інфляція попиту та пропозиції як головні причини систематичного зростання цін. Особливості методології прогнозування інфляційного процесу. Методи регресійного та факторного аналізу.

    презентация [195,7 K], добавлен 11.02.2010

  • Розробка математичної моделі задачі оптимізації, розв’язання її засобами "Пошук рішення" в MS Excel. Класичні методи дослідження функцій на оптимум. Графічне розв’язання задачі лінійного програмування. Метод штучного базису. Двоїстий симплекс-метод.

    контрольная работа [755,6 K], добавлен 26.12.2011

  • Особливість проведення розрахунків параметрів чотирьохфакторної моделі, обчислення розрахунків значень Yр за умови варіювання. Аналіз методів перевірки істотності моделі за допомогою коефіцієнтів кореляції і детермінації, наявності мультиколінеарності.

    контрольная работа [36,2 K], добавлен 24.01.2010

  • Графік емпіричних змінних. Графік регресійної функції. Відносна похибка розрахункових значень регресії. Коефіцієнти еластичності. Межі надійних інтервалів індивідуальних прогнозованих значень.

    контрольная работа [119,0 K], добавлен 11.08.2007

  • Поняття логістичних ланцюгів. Методи побудови початкового опорного плану. Визначення та розрахунок потенціалу кожної вершини. Методи пошуку оптимального рішення. Алгоритм оптимізації транспортної задачі: логістичного ланцюга за допомогою симплекс-методу.

    дипломная работа [1,1 M], добавлен 20.11.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.