Изучение методов интеллектуального анализа данных в среде Statgraphics: кластерный анализ, компонентный анализ

Исследование производительности труда методом компонентного и кластерного анализов. Выбор значащих главных компонент. Формирование кластеров. Построение дендрограммы и диаграммы рассеивания. Правила кластеризации в пространстве исходных признаков.

Рубрика Программирование, компьютеры и кибернетика
Вид лабораторная работа
Язык русский
Дата добавления 25.11.2014
Размер файла 998,9 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Федеральное агентство по образованию

Государственное образовательное учреждение высшего профессионального образования

«УФИМСКИЙ ГОСУДАРСТВЕННЫЙ АВИАЦИОННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ»

Факультет информатики и робототехники

Кафедра Финансы, денежное обращение и экономическая безопасность

Лабораторная работа

по дисциплине «Информационные системы в экономике»

«Изучение методов интеллектуального анализа данных в среде Statgraphics: кластерный анализ, компонентный анализ»

Выполнили: студенты группы ФЭБ-402

Сайфутдинова А.Э.

Хамматова Д.Р.

Уфа, 2014

Работа 1

Целью работы является изучение особенностей выполнения кластерного анализа в среде StatGraphics и применения полученных результатов для исследования структуры данных и извлечения знаний.

Исходные данные представлены в таблице 1.

Таблица 1- Исходные данные

Предприятия

Порядковый номер

y 1

х 5

х 7

х 9

х 10

1

1

9,26

0,78

1,37

0,23

1,45 .

2

2

9,38

0,75

1,49

0,39

1,3

3

3

12,11

0,68

1,44

0,43

1,37

4

4

10,81

0,7

1,42

0,18

1,65

5

5

9,35

0,62

1,35

0,15

1,91

6

6

9,87

0,76

1,39

0,34

1,68

24

7

9,37

0,79

1,4

0,21

2,3

29

8

10,02

0,76

1,22

0,32

2,62

43

9

9,42

0,7

1,2

0,28

2,03

12

10

5,49

0,74

1,1

0,05

1,02

14

11

6,61

0,72

1,23

0,48

0,88

15

12

4,32

0,68

1,39

0,41

0,62

16

13

7,37

0,77

1,38

0,62

1,09

23

14

5,52

0,72

1,24

1,2

0,68

27

15

5,68

0,71

1,28

0,66

1,43

28

16

5,22

0,79

1,33

0,74

1,82

41

17

6,7

0,79

1,35

0,39

1,24

где, Y1 - производительность труда;

X5 - удельный вес рабочих в составе промышленно-производственного персонала;

X7 - коэффициент сменности оборудования (смен);

X9 - удельный вес потерь от брака (%);

X10 - фондоотдача активной части основных производственных фондов.

Необходимо выполнить кластерный анализ для расширенной выборки. Для этого выбираем из главного меню опцию Special > Multivariate Methods > Cluster Analysis. В появившемся окне задаем переменные для анализа, для этого дважды нажимаем левой кнопкой мыши на переменные и нажимаем на стрелку «Data».

1. Необходимо выбрать вид расстояния и вид правила для выполнения кластеризации.

2. Построить дендрограмму.

3. Провести анализ дендрограммы.

А) Вначале необходимо построить полную дендрограмму, объединяющую все объекты в один кластер. На рисунке 1 представлена дендрограмма.

Рисунок 1 - Дендрограмма

Б) Необходимо определить, сколько сгущений формируется в рамках дендрограммы. Количество сгущений определяется количеством группы объектов близких друг к другу (имеющие малые высоты) и далеко находящихся друг от друга (имеющие большие высоты)

В)

1.) Назначить необходимое количество кластеров. В нашем случае их 3.

2.) Строим дендрограмму по выбранному количеству кластеров. Для этого выбираем в качестве метода кластеризации метод Group Average Method, так как в рассматриваемом случае желательно, чтобы алгоритм кластеризации хорошо работал с небольшим количеством наблюдений и был нацелен на выделение кластеров с приблизительно равным количеством элементов. Выбираем метрику City Block. Все остальные параметры оставить в прежнем положении. Результат представлен на рисунке 2.

Рисунок 2 - Метод Group Average Method

Далее строим дендрограмму. Для этого нажимаем на кнопку «Graphical options» меню окна «Cluster Analysis», выбираем отображение в виде дендрограммы (Dendrogram) и нажимаем ОК. Результат построения дендрограммы, отображающей иерархическую структуру группирования объектов, представлен на рисунке 3.

На дендрограмме представлены три дерева. По вертикальной оси отложены расстояния, при которых происходят объединения кластеров для каждого шага работы агломеративного иерархического алгоритма. На горизонтальной оси расположены номера объектов наблюдения, скомбинированные в соответствии с последовательностью объединения.

Рисунок 3 - Дендрограмма

Мы можем просмотреть полный список всех объектов, их имена и номера кластеров, в которые входят указанные объекты. Для этого нажимаем кнопку табличных опций «Tabular Options» меню окна «Cluster Analysis» и в соответствующем окне диалога устанавливаем флажок таблицы «Membership Table» (см. рисунок 4).

Рисунок 4 - Таблица «Membership Table»

Далее создаем двухмерную диаграмму рассеивания - для этого нажать на кнопку «Graphical options» и установливаем флажок 2D Scatterplot. Диаграмма рассеивания показывает, как группируются исследуемые наблюдения на плоскости двух переменных коэффициент сменности оборудования и производительность труда. Каждый кластер представлен на диаграмме собственным символом и цветом.

Для того, чтобы построить диаграммы рассеивания на плоскости других признаков, достаточно щелкнуть правой кнопкой мыши и, выбрав пункт «Pane Options», выбрать интересующие пары переменных (см.рисунок 5).

Рисунок 5 - Диаграмма рассеивания, полученная в результате кластерного анализа

производительность дендрограмма кластеризация

Далее необходимо определить списки номеров объектов по всем выделенным кластерам компонетного и кластерного анализа (табл. 2). Данные по компонентному анализу представлены в приложении.

Таблица 2 - Номера объектов по выделенным кластерам

№ кластера

Компонентный анализ

№ кластера

Кластерный анализ

3

1, 2, 3, 4 ,5 ,6,7, 8, 9

1

1, 2, 3, 4 ,5 ,6,7, 8, 9

1

14

2

10

2

10, 11, 12, 13, 15, 16, 17

3

11, 12, 13, 14, 15, 16, 17

Из полученных данных, представленных в таблице 2 видно, что 3 кластер, полученный в компонентном анализе, полностью совпадает с 1 кластером, полученный в кластерном анализе. 2 кластер, полученный в кластерном анализе входит во 2 кластер, полученный в компонентном анализе. 1 кластер, полученный в компонентном анализе входит в 3 кластер, полученный в кластерном анализе.

4. Сформулируем правила кластеризации, характеризующие предполагаемые группы, на основе анализа координат центроидов. Координаты центроидов представлены на рисунке 1. На основе полученного анализа разброса значений координат центроидов выявляются признаки, которые обладают достаточно большой дискриминантной (разделяющей) силой.

Таким образом, выделяем следующие признаки: производительность труда; удельный вес потерь от брака и фондоотдача активной части основных производственных фондов, представленные в таблице 3.

Таблица 3 - Признаки, обладающие наибольшей классифицирующей силой

№ кластера

Производительность труда

Удельный вес потерь от брака

Фондоотдача активной части основных производственных фондов

1

9,9544 (об)

0,2811 (м)

1,8122 (б)

2

5,49 (м)

0,05 (ом)

1,02 (ом)

3

5,9171 (с)

0,6428 (б)

1,1085 (с)

На основе данных таблицы 3, формулируем правила кластеризации

Если производительность труда очень большая и удельный вес потери от брака малый и фондоотдача активной части основных производственных фондов большая, то кластер 1.

Если производительность труда малая и удельный вес потери от брака очень малый и фондоотдача активной части основных производственных фондов очень малая, то кластер 2.

Если производительность труда средняя и удельный вес потери от брака большой и фондоотдача активной части основных производственных фондов средняя, то кластер 3.

По полученным результатам было выделено 3 кластера. Первый кластер характеризуется очень большой производительностью труда и малым удельным весом потери от брака и большой фондоотдачей активной части основных производственных фондов. Второй кластер характеризуется малой производительностью труда и очень малым удельным весом потери от брака и очень малой фондоотдачей активной части основных производственных фондов. Третий кластер характеризуется средней производительностью труда и большим удельным весом потери от брака и средней фондоотдачей активной части основных производственных фондов.

В ходе проведения анализа были выявлены сходства и отличия компонентного и кластерного анализа. 3 кластер, полученный в компонентном анализе, полностью совпадает с 1 кластером, полученный в кластерном анализе. 2 кластер, полученный в кластерном анализе входит во 2 кластер, полученный в компонентном анализе. 1 кластер, полученный в компонентном анализе входит в 3 кластер, полученный в кластерном анализе.

Работа 2

Целью работы является изучение особенностей выполнения компонентного анализа в среде StatGraphics и применения полученных результатов для исследования структуры данных и извлечения знаний.

Шаг 1. Исходные данные для выполнения компонентного анализа представлены в таблице 1.

Таблица 1- Исходные данные

№ предприятия

y 1

х 5

х 7

х 9

х 10

1

9,26

0,78

1,37

0,23

1,45 .

2

9,38

0,75

1,49

0,39

1,3

3

12,11

0,68

1,44

0,43

1,37

4

10,81

0,7

1,42

0,18

1,65

5

9,35

0,62

1,35

0,15

1,91

6

9,87

0,76

1,39

0,34

1,68

24

9,37

0,79

1,4

0,21

2,3

29

10,02

0,76

1,22

0,32

2,62

43

9,42

0,7

1,2

0,28

2,03

12

5,49

0,74

1,1

0,05

1,02

14

6,61

0,72

1,23

0,48

0,88

15

4,32

0,68

1,39

0,41

0,62

16

7,37

0,77

1,38

0,62

1,09

23

5,52

0,72

1,24

1,2

0,68

27

5,68

0,71

1,28

0,66

1,43

28

5,22

0,79

1,33

0,74

1,82

41

6,7

0,79

1,35

0,39

1,24

где, Y1 - производительность труда;

X5 - удельный вес рабочих в составе промышленно-производственного персонала;

X7 - коэффициент сменности оборудования (смен);

X9 - удельный вес потерь от брака (%);

X10 - фондоотдача активной части основных производственных фондов.

Шаг 2. Выбор значащих главных компонент.

Методы визуализации данных являются методами анализа данных без учителя и имеют целью выявление структуры данных на основе выяснения взаимоотношений между объектами и их признаками. Результатом применения этих методов является визуальное представление о структуре данных.

Сводка результатов анализа методом главных компонент, приведена на рисунке 1.

Рисунок 1- Сводка результатов анализа методом главных компонент.

Здесь перечислены переменные, участвующих в анализе; указано количество объектов анализа - 17. Далее представлена информация о: собственных значениях главных компонент (eigenvalue), упорядоченных по величине; проценте дисперсии (percent of variance), приходящейся на каждую выделенную главную компоненту; накопленном проценте дисперсии (cumulative percentage).

Приведенные цифры говорят о том, что уже первые четыре главные компоненты описывают 95,211% дисперсии исходных данных. Пятая главная компонента добавляет еще приблизительно 4,789% дисперсии, так, что в сумме получается 100,0% дисперсии.

Далее необходимо выдать таблицу весов признаков в главных компонентах.

Для этого нажать на правую клавишу мыши, выбрать пункт Analysis Options. В появившемся окне «Principal Components Options» в поле «Number of Components» установить количество компонент, равное четырем. Это необходимо также для дальнейшего построения 3-D диаграммы рассеивания в пространстве четырех главных компонент.

Нажать кнопку табличных опций «Tabular Options» меню окна «Principal Components Analysis» и в соответствующем окне диалога установить флажок компонентных весов Component Weights. На рисунке 2 представлена получившаяся таблица весов признаков в главных компонентах.

Рисунок 2- Таблица весов признаков в главных компонентах

Как следует из полученных данных о весовых коэффициентах, в 1-й главной компоненте признаки «коэф. сменности оборудования», «производительность туда», «уд. вес потерь от брака» и «фондоотдача активной части» имеют достаточно большие и приблизительно одинаковые по величине положительные коэффициенты. Во 2-й главной компоненте только признак «удельный вес рабочих» имеет высокий весовой коэффициент. В 3-й главной компоненте наблюдаются большие по модулю весовые коэффициенты у признаков «коэф. сменности оборудования». Эти признаки, следовательно, являются значимыми и могут участвовать в формировании закономерностей типа «классификация».

Шаг 3 Формирование кластеров.

Построить 3-D диаграмму рассеивания всей совокупности предприятий в пространстве выделенных трех первых главных компонент. Для этого нажать на кнопку меню «Graphical options» в окне «Principal Components Analysis» и выбрать трехмерное отображение «3-D Scatterplot» (рис. 8). Для максимального раскрытия окна можно дважды щелкнуть по диаграмме.

Рисунок 3- Проекция исследуемых предприятий в пространство трех главных компонент

На представленном рисунке видно, что вся исследуемая совокупность предприятий разделилась на три достаточно четко выраженные группы.

Рисунок 4- Проекция исследуемых предприятий в пространство двух главных компонент

На рисунке 4 видно, что мы выделили 3 кластера и пронумеровали их.

Коэффициент информативности>0,75. Рассчитываем его по формуле:

Кинф.= 0,918946= (0,53167^2+0,624982^2+0,495652^2)

(0,282342^2+0,624982^2+0,036568^2+0,495652^2+0,53167^2)

Считаем также на 1 компоненту больше, и получаем значение 0,998663,

и на 1 компоненту меньше, и получаем значение 0,673275.

Возвращаемся к первоначальному коэффициенту информативности равному 0,9189.

Шаг 3. Формулируем название на основе наиболее весомых признаков (то есть производительность труда, удельных вес потерь от брака, фондоотдача активной части). Сформированное название - Эффективность производства.

Шаг 4. Формируем правила кластеризации в пространстве главных компонент. В таблице 2 представлены эти правила.

Таблица 2 - Правила кластеризации

Component 1

Component 2

1

Малая

Малая

2

Средняя

Малая, средняя, высокая

3

Высокая

Малая, средняя, высокая

Далее формируем правила кластеризации в пространстве исходный признаков, эти правила представлены в таблице 3.

Таблица 3 - Правила кластеризации в пространстве исходных признаков

Component 1

Component 2

производительность труда

удельных вес потерь от брака

фондоотдача активной части

удельный вес рабочих в составе промышленно-производственного персонала

коэффициент сменности оборудования (смен)

1

малая

высокий

малая

средний

средний

2

средняя

средний

средняя

малый или средний

малый или средний

3

высокая

малый

высокая

высокий, малый или средний

высокий, малый или средний

Если производительность труда - малая, и удельных вес потерь от брака - высокий, и фондоотдача активной части - малая, то кластер 1.

Если производительность труда - средняя, и удельных вес потерь от брака - средняя, и фондоотдача активной части - средняя, то кластер 2.

Если производительность труда - высокая, и удельных вес потерь от брака - малый, и фондоотдача активной части - высокая, то кластер 3.

В ходе лабораторной работы были изучены особенности выполнения компонентного анализа в среде StatGraphics и применения полученных результатов для исследования структуры данных.

По данной работе были получены следующие результаты:

1) выделено 3 кластера;

2) присвоено название - Эффективность производства;

3) сформулированы правила кластеризации.

Кластер 1 -если производительность труда - малая, и удельных вес потерь от брака - высокий, и фондоотдача активной части - малая;

Кластер 2 - если производительность труда - средняя, и удельных вес потерь от брака - средняя, и фондоотдача активной части - средняя;

Кластер 3 - если производительность труда - высокая, и удельных вес потерь от брака - малый, и фондоотдача активной части - высокая.

Размещено на Allbest.ru


Подобные документы

  • Анализ проблем, возникающих при применении методов и алгоритмов кластеризации. Основные алгоритмы разбиения на кластеры. Программа RapidMiner как среда для машинного обучения и анализа данных. Оценка качества кластеризации с помощью методов Data Mining.

    курсовая работа [3,9 M], добавлен 22.10.2012

  • Роль информации в мире. Теоретические основы анализа Big Data. Задачи, решаемые методами Data Mining. Выбор способа кластеризации и деления объектов на группы. Выявление однородных по местоположению точек. Построение магического квадранта провайдеров.

    дипломная работа [2,5 M], добавлен 01.07.2017

  • Разработка комплекса интеллектуального анализа данных, получаемых в процессе работы коммерческого предприятия розничной торговли. Исследование стационарности ассоциаций, выявление частоты появления ассоциаций. Скрипты для создания баз данных и таблиц.

    курсовая работа [706,3 K], добавлен 07.08.2013

  • Основы для проведения кластеризации. Использование Data Mining как способа "обнаружения знаний в базах данных". Выбор алгоритмов кластеризации. Получение данных из хранилища базы данных дистанционного практикума. Кластеризация студентов и задач.

    курсовая работа [728,4 K], добавлен 10.07.2017

  • Особенности кластеризации социальных сетей, методы распознавания сообществ. Особенности локального прореживания графа. Разработка рекомендаций по выбору метода кластеризации для выделенных классов задач. Оптимизация процесса дальнейшей обработки данных.

    курсовая работа [1,8 M], добавлен 30.06.2017

  • Методы анализа данных, применяемые в диагностике. Кластерный анализ, иерархическая группировка. Система статистического анализа, язык программирования, интерфейс для связи. Установка для контроля сварных соединений. Векторы классификации для измерений.

    дипломная работа [769,3 K], добавлен 03.01.2014

  • Сущность и понятие кластеризации, ее цель, задачи, алгоритмы; использование искусственных нейронных сетей для кластеризации данных. Сеть Кохонена, самоорганизующиеся нейронные сети: структура, архитектура; моделирование кластеризации данных в MATLAB NNT.

    дипломная работа [3,1 M], добавлен 21.03.2011

  • Анализ исходных данных. Определение структуры модуля для работы файлом. Разработка объектно-ориентированного приложения, использующего массив объектов, в среде Delphi. Модульная структура программного комплекса. Процедура сортировки методом вставки.

    курсовая работа [2,2 M], добавлен 20.09.2014

  • Анализ информационной системы "Бурятия.INFO". Построение функциональной модели "Как надо", диаграммы прецедентов, диаграммы последовательности действий, диаграммы классов. Разработка программного приложения в интегрированной среде Intellij IDEA.

    дипломная работа [1,3 M], добавлен 13.04.2014

  • Обзор разнообразных методов теории линейных систем: методов корреляционного и регрессионного анализа, косинор-анализа. Особенности применения факторного анализа. Программная реализация метода главных компонент. Разработка нелинейных регрессионных моделей.

    дипломная работа [390,2 K], добавлен 03.09.2016

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.