Сравнительный анализ методов кластерного анализа в решении задач группировки
Роль информации в мире. Теоретические основы анализа Big Data. Задачи, решаемые методами Data Mining. Выбор способа кластеризации и деления объектов на группы. Выявление однородных по местоположению точек. Построение магического квадранта провайдеров.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 01.07.2017 |
Размер файла | 2,5 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Для характеристики кластеров использовались следующие 7 показателей из описательной статистики:
· Минимум, наименьшее значение продаж;
· Процентиль 5%;
· Процентиль 25%;
· Медиана, это точка на шкале измеренных значений продаж, выше и ниже которой лежит по половине всех измеренных значений продаж;
· Процентиль 75%;
· Процентиль 95%;
· Максимум, наибольшее значение продаж.
Таблица 16 Итоговое разбиение на кластеры
В таблице 1 можно наглядно увидеть итоговое распределение кластеров внутри страт. Самое большое количество торговых точек относятся к четвертой страте, а самое маленькое к третей страте.
· Страта 1. Для первой страты (4402 торговых точек) путем применения метода к-средних (глава 2 пункт 2.3) было получено оптимальное разбиение на 4 кластера по 15 признакам. Количество кластеров выбрано на основании оптимизации критерия Акаике.
· 1-й кластер - включает в себя такие торговые точки, чьи районы близки к центру крупных городов, или точки, находящиеся в торговых центрах.
Профиль кластера: Данный кластер характеризует значительное количество мест притяжения населения (МПН), высокая концентрация торговых зон и развитая инфраструктура.
Рисунок 34 Доля кластеров в первой страте
Основные количественные и качественные характеристики кластера: Составляет 61,5% процент от общей реализации страты. В кластере 2708 торговых точек. Среднемесячные продажи в торговых точках данного кластера оцениваются в диапазоне от 3 до 7 тысяч рублей. Усредненный показатель дохода населения равен 34-36 тысячам рублей, что является выше среднего и опережает большую часть остальных кластеров по данному показателю.
Средняя стоимость 1 квадратного метра жилья будет равняться 63 - 64 тысячам рублей, что можно назвать средним показателем. Средняя стоимость аренды однокомнатной квартиры оценивается в 14 - 15 тысяч рублей, что так же можно охарактеризовать как средний показатель в сравнении с другими кластерами.
Количество мест притяжения населения произвольного типа в радиусе 1000 метров составляет от 32 до 47 -показатель выше среднего, а количество торговых точек не KA-сетей в радиусе 1000 метров около 40 - 53, что также является показателем выше среднего. Торговые точки KA-сетей в радиусе 1000 метров представлены в среднем - 10 единицами. Наличие железнодорожных станций в радиусе 1000 метров оценивается как не более двух.
Данный кластер характеризуется полным отсутствием станций метро в радиусе 1000 метров. Количество остановок наземного общественного транспорта в радиусе 1000 метров составляет 13-20 единиц.
Географические характеристики кластера: Расстояние до ближайшего места притяжения населения произвольного типа минимальное - рядом. Охарактеризовать расстояние до ближайшей ж/д станции можно как высокое - далеко. Расстояние до ближайшей станции метро - нет в округе. Удаленность от ближайшей остановки наземного общественного транспорта будет невысокой, характеристика - рядом. Расстояние до ближайшей торговой точки не KA-сети минимальное - рядом, а удаленность от ближайшей торговой точки KA-сети чуть больше, но также невелико, характеристика - близко.
· 2-й кластер - это жилые (спальные) районы крупных городов.
Профиль кластера: Незначительное количество МПН, низкая концентрация человеко-потока, торговых зон.
Основные количественные и качественные характеристики кластера: Составляет 12,2% процента от количества торговых точек в страте. В кластере 539 торговых точек. Среднемесячные продажи оцениваются в диапазоне от 3 до 8 тысяч рублей. Средний доход населения около оценен в 34 тысячи рублей, что является похожим на показатели 1-го и 3-го кластера данной страты, но выше показателей большинства кластеров других страт.
Средняя стоимость 1 квадратного метра жилья составляет 61 - 63 тысяч рублей, а средняя стоимость аренды однокомнатной квартиры будет равняться 14 - 15 тысячам рублей, как и в первом кластере. Количество мест притяжения населения произвольного типа в радиусе 1000 метров составляет 7--8 единиц, а торговых точек не KA-сетей в радиусе 1000 метров оценивается в диапазоне от 24 до 43 единиц. Количество торговых точек KA-сетей в радиусе 1000 метров будет равняться 2. Не более двух железнодорожных станций в радиусе 1000 метров. Важной характеристикой является отсутствие станций метро в радиусе 1000 метров. Количество остановок наземного общественного транспорта в радиусе 1000 метров в среднем равняется 3-4.
Географические характеристики кластера: Расстояние до ближайшего МПН произвольного типа является достаточно низким и характеризуется как - близко. Удаленность от ближайшей ж/д станции высокая, характеристика - далеко. Полное отсутствие станций метро. Отличная от 1-го кластера характеристика -высокое расстояние до ближайшей остановки наземного общественного транспорта (далеко). Расстояние до ближайшей торговой точки не KA-сети низкое - рядом. А расстояние до ближайшей торговой точки KA-сети высокое - далеко
· 3-й кластер - это центр крупных городов.
Профиль кластера: Самые высокие значения по количеству мест притяжения населения, показателей торговой активности и других мест свидетельствующих о высоком уровне экономической активности и человеко-потока.
Основные количественные и качественные характеристики кластера: Составляет 25,9% процентов от общего количества торговых точек страты. Данный кластер включает в себя размер 1139 торговых точек. Среднемесячные продажи составляют от 3,2 до 10 тысяч рублей. Доход населения составляет 36 тысяч рублей в среднем и является достаточно неплохим показателем - выше среднего.
Средняя стоимость 1 квадратного метра жилья оценивается в 63 - 68 тысяч рублей, а средняя стоимость аренды однокомнатной квартиры равна приблизительно 14 - 15 тысячам рублей, что не отличается от показателей 1-го и 2-го кластера. Количество МПН произвольного типа в радиусе 1000 метров высокое и равняется 51 - 66 единицам, а торговых точек не KA-сетей в радиусе 1000 метров находится 46 - 55 единиц, что также является высоким показателем.
Количество торговых точек KA-сетей в радиусе 1000 метров равно 15 - очень много. Наличие железнодорожных станций в радиусе 1000 метров равно примерно одной-двум. Количество станций метро в радиусе 1000 метров равно в среднем одной, но не более 3-х. Количество остановок наземного общественного транспорта в радиусе 1000 метров составляет 20-30 единиц, что является очень высоким показателем.
Географические характеристики кластера: Расстояние до ближайшего МПН произвольного типа невысокое - рядом. Удаленность от ближайшей ж/д станции также невысока, характеристика - близко. Расстояние до ближайшей станции метро низкое - близко.
До ближайшей остановки наземного общественного транспорта очень маленькое расстояние -рядом. Низкое расстояние до ближайшей торговой точки не KA-сети - рядом. Удаление от ближайшей торговой точки KA-сети также очень низкое - рядом.
· 4-й кластер - это удаленные от центра жилые, дорогие районы и частные владения.
Профиль кластера: Самые высокие значения стоимостных характеристик (доходы, недвижимость), самые низкие значения количества МПН, показателей торговли. Составляет всего 0,4% от всех торговых точек страты.
Основные количественные и качественные характеристики кластера: К кластеру относится всего 16 торговых точек и он является наименьшим из всех кластеров в страте. Продажи в месяц составляют от 4 до 40 тысяч рублей. Среднемесячный доход населения составляет 49-66 тысяч рублей, что является очень высоким показателем. Средняя стоимость 1 квадратного метра жилья также очень высока и оценивается в 85 - 124 тысяч рублей. Средняя стоимость аренды однокомнатной квартиры выше, чем в других кластерах данной страты и составляет 21-34 тысячи рублей. Количество МПН произвольного типа в радиусе 1000 метров низкое - от 4 до 20. Торговых точек не KA-сетей в радиусе 1000 метров - нет рядом. Количество торговых точек KA-сетей в радиусе 1000 метро равно 2. Наличие железнодорожных станций в радиусе 1000 метров - не более одной. Станций метро в радиусе 1000 метров не более двух. Количество остановок наземного общественного транспорта в радиусе 1000 метров - только одна.
Географические характеристики кластера: Расстояние до ближайшего МПН произвольного типа низкое - близко. Удаление от ближайшей железнодорожной станции высокое - далеко. Станции метро отсутствуют - нет рядом. Расстояние до ближайшей остановки наземного общественного транспорта высокое, характеристика -далеко. Удаленность от ближайшей торговой точки не KA-сети очень высокая - далеко. Данный кластер характеризует отсутствие торговых точек KA-сети - нет рядом.
2 страта. Для второй страты (9269 торговых точек) путем применения метода к-средних (глава 2 пункт 2.3) было получено оптимальное разбиение на 5 кластера по 15 признакам. Количество кластеров выбрано на основании оптимизации критерия Акаике.
Рисунок 35 Доля кластеров во второй страте
· 5-й кластер - это окраины городов, небольшие населенные пункты.
Профиль кластера: Средние значения показателей развития инфраструктуры (есть РЖД, остановки). Торговая активность проявляется только в части не ka-сетей. Самые низкие значения показателей экономической активности в страте .
Основные количественные и качественные характеристики кластера: Составляет 10% процентов от общего количества торговых точек страты. Данный кластер включает в себя 892 торговые точки. Среднемесячные продажи оценены в промежутке от 2,4 до 6 тысяч рублей. Доход населения оценивается в среднем в 27 тысяч рублей, что является невысоким показателем в сравнении с показателями кластеров первой страты.
Средняя стоимость 1 квадратного метра жилья колеблется в районе 47-53 тысяч рублей, что также ниже показателей 1 страты. Средняя стоимость аренды однокомнатной квартиры составляет 12 тысяч рублей. Количество МПН произвольного типа в радиусе 1000 метров составляет от 2 до 5 штук. Наличие торговых точек не ka-сетей в радиусе 1000 метров равняется 9-30 штукам. Полное отсутствие торговых точек ka-сетей в радиусе 1000 метров - нет рядом. Количество ж/д станций в радиусе 1000 метров не более двух штук. Остановки наземного общественного транспорта в радиусе 1000 метров - в среднем две штуки.
Географические характеристики кластера: Низкое расстояние до ближайшего МПН произвольного типа - недалеко. Удаленность от ближайшей ж/д станции высокая, характеристика - далеко. Расстояние до ближайшей остановки наземного общественного транспорта будет также высоким -далеко. Удаление от ближайшей торговой точки не ka-сети незначительное, характеристика -рядом. А расстояние до ближайшей торговой точки ka-сети большое - точки находятся далеко.
· 6-й кластер - это жилые, спальные районы городов.
Профиль кластера: Средние показатели торговой активности за счет не ka-сетей и показатели экономической активности за счет близко расположенных МПН;
Основные количественные и качественные характеристики кластера: Кластер составляет 15% процентов от общего количества торговых точек страты и включает в себя 1345 торговых точек. Ежемесячные продажи оценены в 3-6 тысяч рублей. Доход населения усредненный составляет 26 тысяч рублей, что является средним показателем для данной страты. Средняя стоимость 1 квадратного метра жилья равна 53 тысячам рублей, а средняя стоимость аренды однокомнатной квартиры будет равняться 12 тысячам рублей, как и в предыдущем кластере. Количество МПН произвольного типа в радиусе 1000 метров -18-25 штук, а торговых точек не ka-сетей в радиусе 1000 метров в промежутке от 30 до 44 штук. Количество торговых точек ka-сетей в радиусе 1000 метро в среднем 6-9 штук -высокий показатель. Железнодорожных станций в радиусе 1000 метров не более двух. Полное отсутствие остановок наземного общественного транспорта в радиусе 1000 метров.
Географические характеристики кластера: Расстояние до ближайшего МПН произвольного типа низкое - рядом,
и до ближайшей ж/д станции также недалеко.
Расстояние до ближайшей остановки наземного общественного транспорта высокое, характеристика - далеко. До ближайшей торговой точки не ka-сети близко, как и до ближайшей торговой точки ka-сети.
· 7-й кластер - это районы близкие к центру, городов, вблизи автодорог
Профиль кластера: Высокие показатели торговой активности и развития инфраструктуры (остановки наземного транспорта), средние показатели МПН.
Основные количественные и качественные характеристики кластера: Составляет 34% процентов от общего количества торговых точек страты. Данный кластер включает в себя 3194 торговые точки и является крупнейшим в страте, наравне с 8-м кластером.
Ежемесячные продажи оценены в промежутке от 2 до 6 тысяч рублей.
Усредненный доход населения равен 28 тысячам рублей.
Средняя стоимость 1 квадратного метра жилья равна 42-49 и это ниже аналогичных показателей в 5-м и 6-м кластере.
Средняя стоимость аренды однокомнатной квартиры практически не отличается от ранее рассмотренных кластеров данной страты и составляет 11-12 тысяч рублей.
Количество МПН произвольного типа в радиусе 1000 метров равна 21-33, а торговых точек не ka-сетей в радиусе 1000 метров около 50. Количество торговых точек ka-сетей в радиусе 1000 метро в среднем равно 7-10. Железнодорожных станций в радиусе 1000 метров нет.
Остановок наземного общественного транспорта в радиусе 1000 метров около 14 штук.
Географические характеристики кластера: Низкое расстояние до ближайшего МПН произвольного типа, высокое расстояние до ближайшей ж/д станции. До ближайшей остановки наземного общественного транспорта недалеко. Расстояние до ближайшей торговой точки не ka-сети низкое, характеристика - рядом. До ближайшей торговой точки ka-сети также близко.
· 8-й кластер - это центры небольших городов (~500 тыс. чел.).
Профиль кластера: Значительное количество МПН, высокая концентрация торговых зон, показатели инфраструктуры низкие.
Основные количественные и качественные характеристики кластера: Составляет 34% процентов от общего количества торговых точек страты. Данный кластер включает в себя 3191 торговую точку и является крупнейшим в страте, наравне с 7-м кластером. Усредненные данные по продажам за месяц равны 3-8 тысячам рублей. Среднемесячный доход населения оценен 28 тысяч рублей. Средняя стоимость 1 квадратного метра жилья равна 47 - 50 тысячам рублей, а средняя стоимость аренды однокомнатной квартиры равна 12 тысячам рублей. Количество МПН произвольного типа в радиусе 1000 метров в среднем равно 28-40 штукам, наличие торговых точек не ka-сетей в радиусе 1000 метров - от 38 до 52 штук. Наличие торговых точек ka-сетей в радиусе 1000 метров - от 7 до 11 единиц. Железнодорожных станций в радиусе 1000 метров нет. Количество остановок наземного общественного транспорта в радиусе 1000 метров очень невысокое, их почти нет.
Географические характеристики кластера: Ближайшее МПН произвольного типа находится рядом. Расстояние до ближайшей ж/д станции высокое, характеристика - далеко. Удаление от ближайшей остановки наземного общественного транспорта также высокое - далеко. До ближайшей торговой точки не ka-сети близко. Расстояние до ближайшей торговой точки ka-сети - близко.
· 9-й кластер - это центры городов, с численностью до 1 млн. чел.
Профиль кластера: Самые высокие значения показателей экономической и торговой активности в страте.
Основные количественные и качественные характеристики кластера: Составляет 7% процентов от общего количества торговых точек страты. Данный кластер включает в себя 647 торговую точку и является наименьшим в страте. Ежемесячные продажи равны 6-8 тысячам рублей и это выше аналогичных показателей других кластеров данной страты. Доход населения, как и в других кластерах страты, оценена в 28 тысяч рублей. Средняя стоимость 1 квадратного метра жилья равна 50-53 тысячам рублей. Средняя стоимость аренды однокомнатной квартиры также не отличается от аналогичных показателей других кластеров страты и равна 12 тысячам рублей.
Количество МПН произвольного типа в радиусе 1000 метров равно 90 штукам и является очень высоким показателем, а торговых точек не ka-сетей в радиусе 1000 метров -155 штук, что также можно назвать очень высоким показателем. Количество торговых точек ka-сетей в радиусе 1000 метров - 20-21 единица. Железнодорожных станций в радиусе 1000 метров нет.
Количество остановок наземного общественного транспорта в радиусе 1000 метров около 15-18.
Географические характеристики кластера: Ближайшее МПН произвольного типа находится рядом, а до ближайшей ж/д станции далеко. До ближайшей остановки наземного общественного транспорта недалеко. Расстояние до ближайшей торговой точки не ka-сети низкое, она находится рядом, а до ближайшей торговой точки ka-сети также близко.
3 страта. Для третьей страты (1958 торговых точек) путем применения метода к-средних (глава 2 пункт 2.3) было получено оптимальное разбиение на 2 кластера по 13 признакам, так как в данной страте нет торговых точек близких к метро. Количество кластеров выбрано на основании оптимизации критерия Акаике.
Рисунок 36 Доля кластеров в третьей страте
· 10-й кластер - это удаленные районы и города, с более малочисленным населением.
Профиль кластера: Низкая экономическая активность, средняя степень торговой активности.
Основные количественные и качественные характеристики кластера: Составляет 55% процентов от общего количества торговых точек страты. Данный кластер включает в себя 1084 торговую точку. Доход населения оценен в 24 тысячи рублей, что ниже показателей 1-й и 2-й страт. Среднемесячные продажи оценени в 18 тысяч рублей, что знчительно выше показателей 1-й и 2-й страт. Характеризуется отсутствием МПН произвольного типа в радиусе 1000 метров. Количество торговых точек не ka-сетей в радиусе 1000 метров - от 15 до 40 штук. Торговых точек ka-сетей в радиусе 1000 метров -3 штуки. Железнодорожных станций в радиусе 1000 метров, как правило нет. Остановок наземного общественного транспорта в радиусе 1000 метров, у 75% точек нет, у остальных 25% - до 20 штук.
Географические характеристики кластера: МПН произвольного типа нет рядом, железнодорожных станций тоже нет. Нет поблизости остановок наземного общественного транспорта. Расстояние до ближайшей торговой точки не ka-сети низкое -находится рядом, а до ближайшей торговой точки ka-сети тоже близко.
· 11-й кластер - центры небольших городов, торговые зоны.
Профиль кластера: Значительная степень экономической и торговой активности.
Основные количественные и качественные характеристики кластера: Составляет 45% процентов от общего количества торговых точек страты. Данный кластер включает в себя 874 торговые точки. Доход населения оценен в 25 тысяч рублей, что также, как и в 10-м кластере ниже показателей 1-й и 2-й страт. Тем не менее ежемесячные продажи составляют 20 тысяч рублей. Есть несколько МПН произвольного типа в радиусе 1000 метров. Количество торговых точек не ka-сетей в радиусе 1000 метров - от 20 до 50 штук. В среднем -7 торговых точек ka-сетей в радиусе 1000 метров.
Как правило отсутствуют железнодорожные станции в радиусе 1000 метров.
Количество остановок наземного общественного транспорта в радиусе 1000 метров: у 75% торговых точек нет, у остальных 25% - до 22 штук.
Географические характеристики кластера: Расстояние до ближайшего МПН произвольного типа низкое, а железнодорожных станций нет рядом, как и остановок наземного общественного транспорта. Расстояние до ближайшей торговой точки не ka-сети низкое, точки находятся рядом. Расстояние до ближайшей торговой точки ka-сети также низкое.
4 страта. Для четвертой страты (20 969 торговых точек) путем применения метода к-средних (глава 2 пункт 2.3) было получено оптимальное разбиение на 4 кластера по 12 признакам, так как в данной страте нет торговых точек близких к транспортной инфраструктуре. Количество кластеров выбрано на основании оптимизации критерия Акаике.
Рисунок 37 Доля кластеров в четвертой страте
· 12-й кластер - окраины маленьких населенных пунктов.
Профиль кластера: самые низкие показатели доходов, отсутствует транспортная инфраструктура, есть несколько магазинов.
Основные количественные и качественные характеристики кластера: Составляет 37% процентов от общего количества торговых точек страты. Данный кластер включает в себя 7682 торговые точки. Доход населения оценивается в 18-20 тысяч рублей, что значительно ниже аналогичных показателей других страт.
Ежемесячные продажи составляют 19-35 тысяч рублей. МПН произвольного типа в радиусе 1000 метров отсутствуют. Количество торговых точек не ka-сетей в радиусе 1000 метров равно 3 - 8 штукам. Отсутствие торговых точек ka-сетей в радиусе 1000 метров. Железнодорожных станций в радиусе 1000 метров нет, как и остановок наземного общественного транспорта. Расстояние до ближайшего МПН произвольного большое -далеко. До ближайшей ж/д станции также далеко. Удаленность от ближайшей остановки наземного общественного транспорта высокая -далеко. До ближайшей торговой точки не ka-сети близко, а ближайшая торговая точка ka-сети далеко.
· 13-й кластер - торговые зоны маленьких населенных пунктов
Профиль кластера:Средние показатели торговой активности, слабые признаки наличия транспортной инфраструктуры.
Основные количественные и качественные характеристики кластера: Составляет 31% процент от общего количества торговых точек страты. Данный кластер включает в себя 6514 торговых точек. Доход населения оценивается в 21-24 тысячи рублей, что значительно ниже аналогичных показателей других страт, но выше показателя 12-го кластера данной страты.
Ежемесячные продажи составляют 21-46 тысяч рублей. МПН произвольного типа в радиусе 1000 метров отсутствуют. Количество торговых точек не ka-сетей в радиусе 1000 метров равняется 18-28. Торговых точек ka-сетей в радиусе 1000 метров - 2-3 штуки. Ж/д станций в радиусе 1000 метров нет.
Остановок наземного общественного транспорта в радиусе 1000 метров нет у большинства, у некоторых до 3.
Географические характеристики кластера: Далеко до ближайшего МПН произвольного типа, до ближайшей ж/д станции также далеко, как и до ближайшей остановки наземного общественного транспорта. Ближайшая торговая точка не ka-сети рядом. Расстояние до ближайшей торговой точки ka-сети низкое -недалеко (до 1 км).
· 14-й кластер - маленькие населенные пункты с самой низкой степенью торговой активности
Профиль кластера: Самые низкие показатели торговой активности, с минимальным набором магазинов. Средний уровень доходов населения.
Основные количественные и качественные характеристики кластера: Составляет 20% процентов от общего количества торговых точек страты. Данный кластер включает в себя 4188 торговых точек. Доход населения оценивается в 24-26 тысяч рублей, что значительно ниже аналогичных показателей других страт, но выше показателей 12-го и 13-го кластеров данной страты. Ежемесячные продажи составляют 21-38 тысяч рублей.
Полное отсутствие МПН произвольного типа в радиусе 1000 метров.
Количество торговых точек не ka-сетей в радиусе 1000 метров - от 1 до 4 штук, а торговых точек ka-сетей в радиусе 1000 метров нет. Отсутствие ж/д станций в радиусе 1000 метров. Нет остановок наземного общественного транспорта в радиусе 1000 метров.
Географические характеристики кластера: До ближайшего МПН произвольного типа далеко, как и до ближайшей ж/д станции и ближайшей остановки наземного общественного транспорта. Расстояние до ближайшей торговой точки не ka-сети: у половины до 400м, остальные далеко. Расстояние до ближайшей торговой точки ka-сети -далеко.
· 15-й кластер - экономически активные населенные пункты с численностью менее 100 тыс. человек.
Профиль кластера: Единственный кластер, где присутствуют признаки экономической активности в страте. Самые высокие показатели торговой активности.
Основные количественные и качественные характеристики кластера: Составляет 12% процентов от общего количества торговых точек страты. Данный кластер включает в себя 2585 торговых точек. Доход населения равен 25-28 тысячам рублей, что значительно ниже аналогичных показателей других страт, но выше показателей других кластеров данной страты. Ежемесячные продажи составляют 24-52 тысяч рублей, что является наивысшим показателем среди всех страт.
Находится 2-7 МПН произвольного типа в радиусе 1000 метров. Количество торговых точек не ka-сетей в радиусе 1000 метров - от 14 до 28 штук, торговых точек ka-сетей в радиусе 1000 метров от 1 до 4 штук. Ж/д станций в радиусе 1000 метров нет. Количество остановок наземного общественного транспорта в радиусе 1000 метров - нет у большинства, у некоторых до 7.
Географические характеристики кластера: До ближайшего МПН произвольного типа близко, а до ближайшей ж/д станции далеко, как и до ближайшей остановки наземного общественного транспорта. Расстояние до ближайшей торговой точки не ka-сети низкое - находятся рядом. Расстояние до ближайшей торговой точки ka-сети - у половины до 500м, у остальных - далеко.
3.7 Кластеризация ассортимента торговых точек
Рисунок 38 Количество ТТ со сгруппированным ассортиментом
Путем применения двухэтапного метода кластерного анализа ассортимент торговых точек разделился на 5 кластеров. Силуэтная мера составляет 0,2, что является средним качеством разделения на кластеры. Размеры каждого из них можно увидеть на рисунке снизу. Самым большим кластером является первый, он составляет почти 59% (17 622 торговые точки) от всех кластеров. Наименьший по размеру 5 кластер он составляет почти 2% - это 452 торговые точки. Отличия от кластеризации торговых точек: Деление максимально не похожих друг на друга товаров , а ТТ объединялись по принципу похожести между ними.
17 Доля каждого кластера
Рисунок 39 Широта ассортимента в каждом кластере
· Первый кластер - это группа ассортимента с самым маленьким выбором. Это конфеты или шоколадные плитки в маленьких упаковках. Такой товар скорее всего представлен на заправка или в маленьких палатках. Пять самых продаваемых товаров в данном кластере: шоколад Бабаевский горький 100 грамм, шоколад Аленка 15 грамм, шоколад Аленка 100 грамм, кондитерская плитка «Хорошая компания» с вафельной крошкой 80 грамм и шоколадная плитка «Хорошая компания» с арахисом 80 грамм.
· Второй кластер - такая группа товара со средним выбором ассортимента относится к магазинам в городах, с численностью населения более 250 тысяч человек. Пять самых продаваемых товаров в данном кластере: кондитерская плитка «Хорошая компания» с вафельной крошкой 80 грамм, шоколад Аленка 20 грамм, шоколад Аленка много молока 100 грамм, шоколадная плитка «Хорошая компания» с арахисом 80 грамм и шоколад молочный Аленка с разноцветным драже.
· Третий кластер - в данной группе представлен маленький выбор ассортимента. В основном это шоколадная продукция и вафельные торты. К такой категории товара можно отнести магазины в маленьких городах или поселках. Пять самых продаваемых товаров в данном кластере: шоколад Аленка 100 грамм, шоколад Аленка 15 грамм, шоколад Аленка 20 грамм, карамель «Москвичка» и шоколад Бабаевский горький 100 грамм
· Четвертый кластер - это кластеры с большим выбором ассортимента. Такая группа товаров относится к большим фирменным магазинам кондитерских изделий в крупных городах. Пять самых продаваемых товаров в данном кластере: шоколад Аленка 100 грамм, карамель «Москвичка», шоколад Бабаевский горький 100 грамм, вафли «Коровка» со вкусом топленого молока и конфеты «Ромашка».
· Пятый кластер - это кластеры с самым большим выбором ассортимента. Такая группа товаров относится к большим фирменным магазинам кондитерских изделий в городах-сателлитах. Пять самых продаваемых товаров в данном кластере: Конфеты Птичье молоко, карамель «Москвичка», шоколад Аленка 100 грамм, Бабаевский горький 100 грамм и вафли «Коровка» со вкусом топленого молока.
Можно сделать вывод, что самым популярным товаром является шоколад «Аленка». Именно этот товар встречается в каждом кластере в лидерах.
Вывод к третьей главе
Проведенные методом кластерного анализа исследования помогли разделить торговые точки на страты по местоположению, затем каждая страта была разделена на кластеры. В итоге такой кластерный анализ помог снизить однородность на 1,77. Были проанализированы и выявлены взаимосвязи между социально-демографическими показателями (пол, возраст, доход) и потребительским поведением. Также была проведена кластеризация ассортимента торговых точек, что позволило выявить то, что в крупнейшем по количеству точек кластере представлен наименьший ассортимент.
Заключение
Большие данные -- это не очередной ажиотаж на ИТ-рынке, это системный, качественный переход к составлению цепочек ценностей, основанных на знаниях. По эффекту его можно сравнить с появлением доступной компьютерной техники в конце прошлого века. В то время как недальновидные консерваторы будут применять глубоко устаревшие подходы, предприятия, уже сейчас использующие технологии Big Data, в будущем окажутся на лидирующих позициях и получат конкурентные преимущества на рынке. Нет никаких сомнений в том, что все крупные организации в ближайшие годы внедрят эту технологию, так как за ней как настоящее, так и будущее.
Данная дипломная работа представляет собой научный, систематизированный подход к выбору месторасположения торговых точек, причем способы получения и анализа информации, с получением конечного результата, являются весьма бюджетными, позволяющими провести такую процедуру даже индивидуальным предпринимателям с небольшим оборотом денежных средств.
Учитывая рост темпов накопления информации, появляется острая необходимость в технологиях анализа данных, которые, в этой связи, также стремительно развиваются. Развитие данных технологий в последние годы позволило перейти от сегментирования клиентов на группы с аналогичными предпочтениями к построению моделей в режиме реального времени, опираясь, в том числе, на его запросы в интернет и посещения тех или иных страниц. Становится реальным выводить конкретные предложения и рекламу на основе анализа интересов потребителя, делая эти предложения намного более целевыми. Также возможны корректировки и перенастройка модели в режиме реального времени.
Кластерный анализ поистине можно назвать удобнейшим и самым оптимальным инструментом выделения сегментов рынка. Использование данных методов стало особенно актуально в век высоких технологий, в который так актуально ускорить трудоемкие и длительные процессы при помощи технологий. Переменные, используемые в качестве основания для кластеризации, правильным будет выбирать, опираясь на опыт предыдущих исследований, теоретических предпосылок, различных проверенных гипотез, а еще исходя из пожеланий исследователя. Помимо этого, рекомендуется взять соответствующую меру сходства. Отличительной особенностью иерархической кластеризации является разработка иерархической структуры. Самым распространенным и эффективным дисперсионным методом является метод Барда. Неиерархические методы кластеризации часто называют методами k-средних. Выбор метода кластеризации и выбор меры расстояния взаимосвязаны. В иерархической кластеризации важным критерием принятия решения о числе кластеров являются расстояния, при которых происходит объединение кластеров. Размеры кластеров должны быть такими, чтобы был смысл сохранить данный кластер, а не объединить его с другими. Надежность и достоверность решений кластеризации оценивают разными способами.
Проведенные методом кластерного анализа исследования помогли разделить торговые точки на страты по местоположению, затем каждая страта была разделена на кластеры. В итоге такой кластерный анализ помог снизить однородность на 1,77. Были проанализированы и выявлены взаимосвязи между социально-демографическими показателями (пол, возраст, доход) и потребительским поведением. Также была проведена кластеризация ассортимента торговых точек, что позволило выявить то, что в крупнейшем по количеству точек кластере представлен наименьший ассортимент.
Список литературы
1. StatSoft - Электронные учебник по статистике
2. Мандель И.Д. Кластерный анализ., 1988 год
3. Н.Паклин. «Кластеризация данных: масштабируемый алгоритм CLOPE».
4. Олендерфер М. С., Блэшфилд Р. К. Кластерный анализ / Факторный, дискриминантный и кластерный анализ: пер. с англ.; Под. ред. И. С. Енюкова. -- М.: Финансы и статистика, 1989--215 с.
5. Дэниал Фасуло «Анализ последних работ по алгоритмам кластеризации».
6. Н. Паклин «Алгоритмы кластеризации на службе Data Mining».
7. Дюран Б., Оделл П. Кластерный анализ. М.: Статистика, 1977 год
8. Жамбю М. Иерархический кластер-анализ и соответствия, 1988 год
9. Хайдуков Д. С. Применение кластерного анализа в государственном управлении// Философия математики: актуальные проблемы. -- М.: МАКС Пресс, 2009. -- 287 с.
10. Классификация и кластер. Под ред. Дж. Вэн Райзина. М.: Мир, 1980.
11. Трион Р.C. Кластерный анализ-- Лондон:, 1939. -- 139 p.
12. Бериков В. С., Лбов Г. С. Современные тенденции в кластерном анализе 2008. -- 67 с.
13. Вятченин Д. А. Нечёткие методы автоматической классификации. -- Минск: Технопринт, 2004. -- 320 с.
14. И. А. Чубукова Data Mining. Учебное пособие. - М.: Интернет-Университет Информационных технологий;
15. Н. Паклин. «Кластеризация категорийных данных: масштабируемый алгоритм CLOPE».
16. Sudipto Guha, Rajeev Rastogi, Kyuseok Shim « CURE: эффективный кластерный алгоритм для больших баз данных». Электронное издание.
17. Tian Zhang, Raghu Ramakrishnan, Miron Livny « BIRCH: эффективный метод кластеризации данных для очень больших баз данных ».
18. Н. Паклин «Алгоритмы кластеризации на службе Data Mining».
19. Ян Янсон «Моделирование ».
20. И. А. Чубукова Data Mining. Учебное пособие., 2006.
21. «Доступная аналитика данных», Anil Maheshwari
22. Кеннет Кекьер «Большие данные: революция, которая изменит нашу жизнь, работу и мысли»
23. Кэти О'нейл и Рейчел Шутт “Наука о данных”
Размещено на Allbest.ru
Подобные документы
Основы для проведения кластеризации. Использование Data Mining как способа "обнаружения знаний в базах данных". Выбор алгоритмов кластеризации. Получение данных из хранилища базы данных дистанционного практикума. Кластеризация студентов и задач.
курсовая работа [728,4 K], добавлен 10.07.2017Классификация задач DataMining. Создание отчетов и итогов. Возможности Data Miner в Statistica. Задача классификации, кластеризации и регрессии. Средства анализа Statistica Data Miner. Суть задачи поиск ассоциативных правил. Анализ предикторов выживания.
курсовая работа [3,2 M], добавлен 19.05.2011Анализ проблем, возникающих при применении методов и алгоритмов кластеризации. Основные алгоритмы разбиения на кластеры. Программа RapidMiner как среда для машинного обучения и анализа данных. Оценка качества кластеризации с помощью методов Data Mining.
курсовая работа [3,9 M], добавлен 22.10.2012Описание функциональных возможностей технологии Data Mining как процессов обнаружения неизвестных данных. Изучение систем вывода ассоциативных правил и механизмов нейросетевых алгоритмов. Описание алгоритмов кластеризации и сфер применения Data Mining.
контрольная работа [208,4 K], добавлен 14.06.2013Перспективные направления анализа данных: анализ текстовой информации, интеллектуальный анализ данных. Анализ структурированной информации, хранящейся в базах данных. Процесс анализа текстовых документов. Особенности предварительной обработки данных.
реферат [443,2 K], добавлен 13.02.2014Data mining, developmental history of data mining and knowledge discovery. Technological elements and methods of data mining. Steps in knowledge discovery. Change and deviation detection. Related disciplines, information retrieval and text extraction.
доклад [25,3 K], добавлен 16.06.2012Совершенствование технологий записи и хранения данных. Специфика современных требований к переработке информационных данных. Концепция шаблонов, отражающих фрагменты многоаспектных взаимоотношений в данных в основе современной технологии Data Mining.
контрольная работа [565,6 K], добавлен 02.09.2010Классификация задач Data Mining. Задача кластеризации и поиска ассоциативных правил. Определению класса объекта по его свойствам и характеристикам. Нахождение частых зависимостей между объектами или событиями. Оперативно-аналитическая обработка данных.
контрольная работа [26,1 K], добавлен 13.01.2013Проблемы оценки клиентской базы. Big Data, направления использования. Организация корпоративного хранилища данных. ER-модель для сайта оценки книг на РСУБД DB2. Облачные технологии, поддерживающие рост рынка Big Data в информационных технологиях.
презентация [3,9 M], добавлен 17.02.2016Создание структуры интеллектуального анализа данных. Дерево решений. Характеристики кластера, определение групп объектов или событий. Линейная и логистическая регрессии. Правила ассоциативных решений. Алгоритм Байеса. Анализ с помощью нейронной сети.
контрольная работа [2,0 M], добавлен 13.06.2014