Анализ данных с помощью технологии Data Mining

Создание структуры интеллектуального анализа данных. Дерево решений. Характеристики кластера, определение групп объектов или событий. Линейная и логистическая регрессии. Правила ассоциативных решений. Алгоритм Байеса. Анализ с помощью нейронной сети.

Рубрика Программирование, компьютеры и кибернетика
Вид контрольная работа
Язык русский
Дата добавления 13.06.2014
Размер файла 2,0 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Лабораторная работа №3

Анализ данных с помощью технологии Data Mining

Ход работы

1) Дерево решений:

Открываем Business Intelligence Development Studio.

Выбираем созданный ранее проект MultidimensionalProject1 и открываем его.

Создание структуры интеллектуального анализа данных

В Solution Explorer кликаем правой кнопкой мыши на Mining Models, выбираем New Mining Model. Откроется Mining Model Wizard.

Нажимаем Next на странице приветствия.

Выбираем From existing relational database or data warehouse, затем Next.

В разделе Which data mining technique do you want to use? Выбираем Microsoft Decision Trees.

Нажимаем Next. По умолчанию в качестве источника данных здесь выбран shop.

Нажимаем Next.

Помечаем флагом Case таблицу accounts, затем нажимаем Next.

Помечаем флагом Key столбец account_id.

Помечаем флагом Predictable столбец amount. В результате столбец становится доступным для прогнозирования в новых наборах данных. Помечаем флагом Input столбцы model_id, seller_id, date.

Нажимаем Next.

В поле Structure Name вводим имя Tree и нажимаем Finish. При этом откроется редактор Data mining, отображающий структуру Tree.

Для того чтобы развернуть проект и обработать модели Нажимаем F5.

Теперь база данных Analysis Services выложена на сервер и модели обработаны.

Для обработки data mining модели в меню Mining Model выбираем пункт Process All Models. Откроется диалоговое окно Process Targeted Mailing.

Нажимаем Run.

Откроется диалоговое окно Process Progress, отображающее информацию об обработке модели.

После того как завершится обработка, закрываем оба диалоговых окна.

В обозревателе видим дерево решений (рис. 1)

Рисунок 1 - Дерево решений

2) Кластеризация - Microsoft Clustering:

В Mining Model в разделе Which data mining technique do you want to use? Выбираем Microsoft Clustering.

Помечаем флагом Case таблицу accounts, затем нажимаем Next.

Помечаем флагом Key столбец account_id.

Помечаем флагом Predictable столбец amount. В результате столбец становится доступным для прогнозирования в новых наборах данных. Помечаем флагом Input столбцы model_id, seller_id, date.

Нажимаем Next.

В поле Structure Name вводим имя Cluster и нажимаем Finish. При этом откроется редактор Data mining, отображающий структуру Cluster.

В обозревателе результаты (рис. 2-4).

Рисунок 2 - Диаграмма кластеров.

Рисунок 3 - Гистограмма кластеров.

Рисунок 4 - Характеристики кластера

кластер линейный регрессия алгоритм

Кластеризация позволяет определить различные группы объектов или событий. Судя по гистограмме, у Кластера 1 самое большое заполнение переменными, а по диаграмме можно сказать, что самая сильная связь между кластерами 9 и 10.

По характеристикам Кластера 1, можно увидеть, что он приходится на 2013 и 2014 года. Продавцы под номерами 2 и 3 совершили больше всех продаж, и в основном продавалось по 5-9 деталей.

3) Линейная регрессия - Microsoft Linear Regression:

В Mining Model в разделе выбираем Microsoft Linear Regression.

Помечаем флагом Case таблицу accounts, затем нажимаем Next.

Помечаем флагом Key столбец account_id.

Помечаем флагом Predictable столбец amount. В результате столбец становится доступным для прогнозирования в новых наборах данных. Помечаем флагом Input столбцы model_id, seller_id, date.

Нажимаем Next.

В поле Structure Name вводим имя Linear и нажимаем Finish. При этом откроется редактор Data mining, отображающий структуру Linear.

В обозревателе видим результат в виде формулы (рис. 5)

Рисунок 5 - Линейная регрессия

4) Ассоциативные правила - Microsoft Association:

В Mining Model Wizard выбираем Microsoft Association. Нажимаем Next.

По умолчанию в качестве источника данных здесь выбран accounts.

Помечаем флагом Case таблицу accounts, затем нажимаем Next.

Помечаем флагом Key столбец account_id.

Помечаем флагом Predictable столбец amount. В результате столбец становится доступным для прогнозирования в новых наборах данных. Помечаем флагом Input столбцы model_id, seller_id, date. Нажимаем Next.

В поле Structure Name вводим имя Association и нажимаем Finish. При этом откроется редактор Data mining, отображающий структуру Association.

Откроется диалоговое окно Process Progress, отображающее информацию об обработке модели.

После того как завершится обработка, закрываем оба диалоговых окна.

Полученные результаты показаны на рис. 6-7.

Рисунок 6 - Правила ассоциативных решений

Рисунок 7 - Сеть зависимостей

Ассоциативный анализ выявил, что продавец под номером 1 с большой вероятностью продает менее 4 комплектующих ПК и чаще всего это модели с номером 100-104. Также, исходя из правил, можно вывести, что модели с номером 114-116 продаются в большом количестве.

5) Наивный алгоритм Байеса - Microsoft Naive Bayes:

В Mining Model Wizard выбираем From existing relational database or data warehouse, затем Next.

В разделе Which data mining technique do you want to use? Выбираем Microsoft Naive Bayes. Нажимаем Next.

По умолчанию в качестве источника данных здесь выбран accounts.

Нажимаем Next.

Помечаем флагом Case таблицу accounts, затем нажимаем Next.

Помечаем флагом Key столбец account_id.

Помечаем флагом Predictable столбец amount. В результате столбец становится доступным для прогнозирования в новых наборах данных. Помечаем флагом Input столбцы model_id, seller_id, date. Нажимаем Next.

В поле Structure Name вводим имя Bayes и нажимаем Finish. При этом откроется редактор Data mining, отображающий структуру Bayes.

После того как завершится обработка, закрываем оба диалоговых окна.

В обозревателе видим результат в виде формулы (рис. 6)

Рисунок 6 - Алгоритм Байеса

Отобразив в сети зависимостей самые сильные связи, можно определить, что самым сильным фактором, влияющим на количество продаж, является продавец.

Вкладка профили атрибутов описывает, как различные состояния входных атрибутов влияют на значение прогнозируемого атрибута. По гистограмме можно увидеть, что больше всего продаж выпадает на продавца c номером - 5 и на модели с номером 110-116.

6) Нейронные сети - Microsoft Neural Network:

В Mining Model Wizard выбираем From existing relational database or data warehouse, затем Next.

В разделе Which data mining technique do you want to use? Выбираем Microsoft Neural Network. Нажимаем Next.

По умолчанию в качестве источника данных здесь выбран accounts.

Нажимаем Next.

Помечаем флагом Case таблицу accounts, затем нажимаем Next.

Помечаем флагом Key столбец account_id.

Помечаем флагом Predictable столбец amount. В результате столбец становится доступным для прогнозирования в новых наборах данных. Помечаем флагом Input столбцы model_id, seller_id, date. Нажимаем Next.

В поле Structure Name вводим имя Neural и нажимаем Finish. При этом откроется редактор Data mining, отображающий структуру Neural.

Для того чтобы развернуть проект и обработать модели нажимаем F5.

Теперь модель обработана.

Для обработки data mining модели в меню Mining Model выбираем пункт Process All Models.Откроется диалоговое окно Process Targeted Mailing.

Нажимаем Run.

Откроется диалоговое окно Process Progress, отображающее информацию об обработке модели.

После того как завершится обработка, закрываем оба диалоговых окна.

В обозревателе видим результат в виде формулы (рис. 7)

Рисунок 7 - Анализ с помощью нейронной сети.

Исходя из модели видно, что больше всего продаж у продавца с номером 5, а меньше всего у продавца с номером 1.

7) Логистическая регрессия - Microsoft Logistic Regression:

В Mining Model в разделе выбираем Microsoft Logistic Regression.

Помечаем флагом Case таблицу accounts, затем нажимаем Next.

Помечаем флагом Key столбец account_id.

Помечаем флагом Predictable столбец amount. В результате столбец становится доступным для прогнозирования в новых наборах данных. Помечаем флагом Input столбцы model_id, seller_id, date.

Нажимаем Next.

В поле Structure Name вводим имя Logistic и нажимаем Finish. При этом откроется редактор Data mining, отображающий структуру Logistic.

В обозревателе видим результат в виде формулы (рис. 8).

Рисунок 8 - Логистическая регрессия

Исходя из модели видно, что данные аналогичны нейронной сети и больше всего продаж у продавца с номером 5, а меньше всего у продавца с номером 1.

Алгоритмы анализа показали, что самое сильное влияние на продажи оказывает продавец. Также, большинство алгоритмом одинаково определили, что больше всего деталей отпускает продавец с номером 5, а меньше всего продавец с номером 1.

Размещено на Allbest.ru


Подобные документы

  • Основы для проведения кластеризации. Использование Data Mining как способа "обнаружения знаний в базах данных". Выбор алгоритмов кластеризации. Получение данных из хранилища базы данных дистанционного практикума. Кластеризация студентов и задач.

    курсовая работа [728,4 K], добавлен 10.07.2017

  • Описание функциональных возможностей технологии Data Mining как процессов обнаружения неизвестных данных. Изучение систем вывода ассоциативных правил и механизмов нейросетевых алгоритмов. Описание алгоритмов кластеризации и сфер применения Data Mining.

    контрольная работа [208,4 K], добавлен 14.06.2013

  • Перспективные направления анализа данных: анализ текстовой информации, интеллектуальный анализ данных. Анализ структурированной информации, хранящейся в базах данных. Процесс анализа текстовых документов. Особенности предварительной обработки данных.

    реферат [443,2 K], добавлен 13.02.2014

  • Анализ проблем, возникающих при применении методов и алгоритмов кластеризации. Основные алгоритмы разбиения на кластеры. Программа RapidMiner как среда для машинного обучения и анализа данных. Оценка качества кластеризации с помощью методов Data Mining.

    курсовая работа [3,9 M], добавлен 22.10.2012

  • Совершенствование технологий записи и хранения данных. Специфика современных требований к переработке информационных данных. Концепция шаблонов, отражающих фрагменты многоаспектных взаимоотношений в данных в основе современной технологии Data Mining.

    контрольная работа [565,6 K], добавлен 02.09.2010

  • Классификация задач DataMining. Создание отчетов и итогов. Возможности Data Miner в Statistica. Задача классификации, кластеризации и регрессии. Средства анализа Statistica Data Miner. Суть задачи поиск ассоциативных правил. Анализ предикторов выживания.

    курсовая работа [3,2 M], добавлен 19.05.2011

  • Data Mining как процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации). Его закономерности и этапы реализации, история разработки данной технологии, оценка преимуществ и недостатков, возможности.

    эссе [36,8 K], добавлен 17.12.2014

  • Интеллектуальный анализ данных как метод поддержки принятия решений, основанный на анализе зависимостей между данными, его роль, цели и условия применения. Сущность основных задач интеллектуального анализа: классификации, регрессии, прогнозирования.

    контрольная работа [25,8 K], добавлен 08.08.2013

  • Пример дерева решений. Анализ древовидной структуры данных. Предикторные (зависимые) переменные как признаки, описывающие свойства анализируемых объектов. Решение задач классификации и численного прогнозирования с помощью деревьев классификации.

    презентация [391,1 K], добавлен 09.10.2013

  • Анализ существующих музыкальных сетей, профиля музыкального файла. Технологии и возможности Web 2.0. Анализ алгоритмов в Data Mining. Структура социальной сети. Набор графических элементов, описывающий человека в зависимости от прослушиваемой музыки.

    дипломная работа [3,7 M], добавлен 20.04.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.