Кластерный анализ и метод горной кластеризации
Классификация методов кластеризации и их характеристика. Метод горной кластеризации в Matlab. Возможная область применения кластеризации в различных предметных областях. Математическое описание метода. Пример использования метода на реальных данных.
Рубрика | Математика |
Вид | реферат |
Язык | русский |
Дата добавления | 28.10.2010 |
Размер файла | 187,0 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ
ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
КЕМЕРОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
Математический факультет
Кафедра АИТК
Реферат на тему:
«Кластерный анализ и метод горной кластеризации»
студента 5 курса, М-063 группы
Баранова Семёна Фёдоровича
Специальность - 010501 -
«Прикладная математика и информатика»
Руководитель:
Р.Ю.Замараев
Кемерово 2010
- Содержание
- Цель работы
- 1. Происхождение метода анализа
- 2. Решаемая данным методом задача
- 3. Возможная область применения
- 4. Математическое описание метода
- 5. Пример использования метода на реальных данных
- Заключение
- Используемая литература
Цель работы
Целью данной самостоятельной работы является ознакомление с основными методами анализа, изучение одного из методов кластерного анализа на выбор автора работы, а также применение метода на реальных данных в каком-либо математическом пакете.
Требования к работе:
1. Самостоятельная работа оформляется в виде реферата;
2. Работа должна содержать следующие обязательные пункты:
· происхождение метода анализа (автор, базовый метод);
· решаемая данным методом задача (тип снимаемой неопределенности);
· возможная область применения в различных предметных областях;
· пример использования метода на реальных данных (выдаются преподавателем);
3. Пример реализуется в удобном математическом пакете (Matlab, Mathcad, Mathematica) в виде макроса или рабочего листа с иллюстрациями;
4. Работа сдается в печатном и электронном виде.
1 Происхождение метода анализа
Существует множество методов кластеризации, которые можно классифицировать на четкие и нечеткие. Четкие методы кластеризации разбивают исходное множество объектов X на несколько непересекающихся подмножеств. При этом любой объект из X принадлежит только одному кластеру. Нечеткие методы кластеризации позволяют одному и тому же объекту принадлежать одновременно нескольким (или даже всем) кластерам, но с различной степенью. Нечеткая кластеризация во многих ситуациях более "естественна", чем четкая, например, для объектов, расположенных на границе кластеров.
Методы кластеризации также классифицируются по тому, определено ли количество кластеров заранее или нет. В последнем случае количество кластеров определяется в ходе выполнения алгоритма на основе распределения исходных данных.
Метод горной кластеризации предложен Р. Ягером и Д. Филевым в 1993 г. Кластеризация по горному методу не является нечеткой, однако, ее часто используют при синтезе нечетких правил из данных. Особенностью метода является отсутствие необходимости задания количества кластеров до начала работы алгоритма.
На первом шаге горной кластеризации определяют точки, которые могут быть центрами кластеров. На втором шаге для каждой такой точки рассчитывается значение потенциала, показывающего возможность формирования кластера в ее окрестности. Чем плотнее расположены объекты в окрестности потенциального центра кластера, тем выше значение его потенциала. После этого итерационно выбираются центры кластеров среди точек с максимальными потенциалами.
2 Решаемая данным методом задача
Метод горной кластеризации в Matlab позволяет найти центры кластеров, т.е. координаты центров скопления объектов, задаваемых исходными данными. Также можно получить радиусы кластеров после выполнения алгоритма.
3 Возможная область применения в различных предметных областях
Техника кластеризации применяется в самых разнообразных областях. Например, в области медицины кластеризация заболеваний, лечения заболеваний или симптомов заболеваний приводит к широко используемым таксономиям. В области психиатрии правильная диагностика кластеров симптомов, таких как паранойя, шизофрения и т.д., является решающей для успешной терапии. В археологии с помощью кластерного анализа исследователи пытаются установить таксономии каменных орудий, похоронных объектов и т.д. Известны широкие применения кластерного анализа в маркетинговых исследованиях. В области нечеткой математики, когда необходимо создать нечеткую базу знаний (входные величины связать с выходными с помощью нечетких правил). В общем, всякий раз, когда необходимо классифицировать "горы" информации к пригодным для дальнейшей обработки группам, кластерный анализ оказывается весьма полезным и эффективным.
4 Математическое описание метода
На первом шаге необходимо сформировать потенциальные центры кластеров. Для алгоритма горной кластеризации число потенциальных центров кластеров (Q) должно быть конечным. Ими могут быть объекты кластеризации (строчки матрицы ), тогда . Второй способ выбора потенциальных центров кластеров состоит в дискретизации пространства входных признаков. Для этого диапазоны изменения входных признаков разбивают на несколько интервалов. Проводя через точки разбиения прямые, параллельные координатным осям, получаем "решеточный" гиперкуб. Узлы этой решетки и будут соответствовать центрам потенциальных кластеров. Обозначим через - количество значений, которые могут принимать центры кластеров по -й координате (). Тогда количество возможных кластеров будет равно: .
На втором шаге алгоритма рассчитывается потенциал центров кластеров по следующей формуле:
, ,
где - потенциальный центр h-го кластера;
- положительная константа
- расстояние между потенциальным центром кластера () и объектом кластеризации (). В евклидовом пространстве это расстояние рассчитывается по формуле:
.
В случае, когда объекты кластеризации заданы двумя признаками (n=2), графическое изображение распределения потенциала будет представлять собой поверхность, напоминающую горный рельеф. Отсюда и название - горный метод кластеризации.
На третьем шаге алгоритма в качестве центров кластеров выбирают координаты "горных" вершин. Для этого, центром первого кластера назначают точку с наибольшим потенциалом. Обычно, наивысшая вершина окружена несколькими достаточно высокими пиками. Поэтому назначение центром следующего кластера точки с максимальным потенциалом среди оставшихся вершин привело бы к выделению большого числа близко расположенных центров кластеров. Чтобы выбрать следующий центр кластера необходимо вначале исключить влияние только что найденного кластера. Для этого значения потенциала для оставшихся возможных центров кластеров пересчитывается следующим образом: от текущих значений потенциала вычитают вклад центра только что найденного кластера (поэтому кластеризацию по этому методу иногда называют субтрактивной). Перерасчет потенциала происходит по формуле:
,
где - потенциал на 1-й итерации;
- потенциал на 2-й итерации;
- центр первого найденного кластера:
;
- положительная константа.
Центр второго кластера определяется по максимальному значению обновленного потенциала:
.
Затем снова пересчитывается значение потенциалов:
.
Итерационная процедура пересчета потенциалов и выделения центров кластеров продолжается до тех пор, пока максимальное значение потенциала превышает некоторый порог.
5 Пример использования метода на реальных данных
Для реализации метода горной кластеризации на реальных данных по показателям 3(Atomic-radius-emp), 7(Electron-affinity) и 14(Electronegativity-AllredRochow) автором был использован математический пакет Matlab версии 7.10.0(R2010a), в который были импортированы данные из таблицы MS Excel с помощью надстройки Spreadsheet Link EX 3.1.1. Вызов встроенной в Matlab функции кластеризации subclust() и создания фигуры для отображения получившихся результатов записаны в скрипте Cluster.m:
Результаты:
В командном окне Matlab выводятся координаты трех кластеров и их радиусы:
centers =
155.0000 41.1000 1.2200
135.0000 118.4000 1.7500
220.0000 48.4000 0.9100
sigmas =
27.5772 37.0170 0.5834
Заключение
В итоге анализа методом горной кластеризации по параметрам 3, 7 и 14 исходных данных выделились три кластера, дисперсия элементов довольно высока. Таким образом, можно выявить три группы элементов, имеющих одни и те же свойства.
Используемая литература
1. Гайдышев И. Анализ и обработка данных: специальный справочник - СПб: Питер, 2001.
2. www.exponenta.ru
Подобные документы
Теория случайных графов, модели сетей (графы Барабаши-Альберт, Эрдеша-Реньи, Уотса-Строгатса и др.) Разработка ускоренного алгоритма калибровки больших сетей по коэффициенту кластеризации на языке Java в среде Eclipse. Анализ экспериментальных данных.
дипломная работа [2,0 M], добавлен 19.11.2013Изучение основных вопросов теории графов и области ее применения на практике. Разработка алгоритма кластеризации по предельному расстоянию и построение минимального остовного дерева каждого кластера. Результаты тестирований работы данного алгоритма.
курсовая работа [362,9 K], добавлен 24.11.2010Векторная запись нелинейных систем. Метод Ньютона, его сущность, реализации и модификации. Метод Ньютона с последовательной аппроксимацией матриц. Обобщение полюсного метода Ньютона на многомерный случай. Пример реализации метода Ньютона в среде MATLAB.
реферат [140,2 K], добавлен 27.03.2012Сущность и содержание, основные понятия и критерии теории графов. Понятие и общее представление о задаче коммивояжера. Описание метода ветвей и границ, практическое применение. Пример использования данного метода ветвей для решения задачи коммивояжера.
контрольная работа [253,0 K], добавлен 07.06.2011Форма для ввода целевой функции и ограничений. Характеристика симплекс-метода. Процесс решения задачи линейного программирования. Математическое описание алгоритма симплекс-метода. Решение задачи ручным способом. Описание схемы алгоритма программы.
контрольная работа [66,3 K], добавлен 06.04.2012Особенности применения функций Ляпунова для исследования устойчивости различных дифференциальных уравнений и систем. Алгоритм и листинг программы определения устойчивости матрицы на основе использования метода Раусса-Гурвица в среде моделирования Matlab.
реферат [403,7 K], добавлен 23.10.2014Основные понятия аксиоматической теории. Аксиоматический метод – фундаментальнейший метод организации и умножения научного знания в самых разных его областях. Этапы развития аксиоматического метода в науке. Евклидова система обоснования геометрии.
курсовая работа [28,9 K], добавлен 12.05.2009Математические модели явлений или процессов. Сходимость метода простой итерации. Апостериорная оценка погрешности. Метод вращений линейных систем. Контроль точности и приближенного решения в рамках прямого метода. Метод релаксации и метод Гаусса.
курсовая работа [96,7 K], добавлен 13.04.2011Методы решения систем линейных алгебраических уравнений, их характеристика и отличительные черты, особенности и сферы применения. Структура метода ортогонализации и метода сопряженных градиентов, их разновидности и условия, этапы практической реализации.
курсовая работа [197,8 K], добавлен 01.10.2009Поиск корней нелинейных САУ с помощью метода продолжения решения по параметру. Математическое описание метода. Программное обеспечение для построения графиков сходимости метода. Требования к программному обеспечению и описание логической структуры.
курсовая работа [365,5 K], добавлен 27.04.2011