Технический дизайн интерфейсов на основе аналитики больших данных

Сбор ключевой статистики по интерфейсам, проведение аналитики и выдвижение гипотез по улучшению продукта. Рассмотрение методов анализа данных на базе конкретного проекта. Расположение инструментов на экране и порядок взаимодействия с ними у пользователя.

Рубрика Программирование, компьютеры и кибернетика
Вид курсовая работа
Язык русский
Дата добавления 01.01.2018
Размер файла 664,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Технический дизайн интерфейсов на основе аналитики больших данных

Содержание

Введение

Глава 1. Большие данные, интерфейс, дизайн интерфейса, анализ и выбор проектных решений

1.1 Большие данные

1.2 Анализ и выбор проектных решений

Глава 2. Методики анализа больших данных и примеры работы с ними

2.1 Машинное обучение

2.2 Когортный анализ

2.3 Аналитика по методу K-means

Заключение

Список использованной литературы и ресурсов

Введение

В эпоху информационных технологий, особенно после бума социальных сетей, по каждому пользователю интернета стало накапливаться значительное количество информации, которая плохо соответствует классическому, структурированному формату базы данных, - это веб-журналы, видеозаписи, текстовые документы, машинный код или, например, геопространственные данные. Все это, в конечном счете, дало развитие направлению "Большие данные".

Для любой отрасли выгодно уметь оперировать большими объемами данных, анализировать их. Аналитика помогает найти различные взаимосвязи в данных и на их основе можно повысить качество принимаемых решений, увеличить эффективность работы компании.

Большие данные, на сегодняшний момент, являются одним из ключевых драйверов развития информационных технологий.

Актуальность темы

Для любой современной компании важно обозначить свое присутствие в Сети. Инструментом для достижения этой цели является сайт, а точнее - сервисная платформа, максимально удовлетворяющая потребности клиента. Продуманный, качественно отрисованный ресурс, собирающий данные о своих посетителях, является ценным активом в бизнесе.

Практическая значимость

Практическая значимость данной работы заключается в рассмотрении методов анализа данных на базе конкретного проекта.

Объект исследования

Сбор ключевой статистики по интерфейсам, проведение аналитики, выдвижение гипотез по улучшению продукта.

Предмет исследования

Аналитические инструменты, собранный при помощи этих инструментов набор данных, интерфейсные прототипы, а также инструменты для их отрисовки.

Цель

Изучить аналитические и графические инструменты, методы анализа на базе конкретного проекта.

Структура работы

Работа состоит из введения, 2 глав с заключением после каждой главы. В первой главе рассмотрены основные понятия, определен набор необходимого программного обеспечения для анализа данных и отрисовки интерфейса. Во второй главе рассмотрены методы анализа имеющегося объема собранных данных в виде живых примеров.

Гипотеза

Чтобы разработать качественный сервис, удовлетворяющий потребности клиента, необходимо провести аналитику для обнаружения проблем ресурса, на базе которой будут созданы прототипы будущего интерфейса.

Опытно-экспериментальная база

Аналитика была проведена с использованием реальных данных, полученных с сервиса одного из банков РФ. Вся информация обезличена и не указывает ни на какую конкретную организацию.

Методы исследования

Логико-интуитивные. Были проведены мозговые штурмы, обмен идеями, анализ существующих проблем и построение гипотез.

Апробация результатов исследования была представлена в виде доклада на студенческой научной сессии, проходившей с 28 марта по 1 апреля 2016.

Глава 1. Большие данные, интерфейс, дизайн интерфейса, анализ и выбор проектных решений

1.1 Большие данные

В понятие Большие данные включены 2 сущности - данные и технологии. Эти данные разнородные, по объему от 1ТБ, они не соответствуют традиционному структурированному формату баз данных, а также могут храниться распределено. К технологиям относятся хранение, вычисления и сервисные услуги. [13]

Российские компании из различных секторов экономики уже работают с Большими данными: [14]

Рисунок 1. Секторы отечественной экономики, работающие с Большими данными.

В процентном соотношении лидирует телеком. Как мы видим, есть куда расти, но уже сейчас имеется огромное количество данных. При этом у большинства компаний в этих сферах бизнеса не самые лучшие интерфейсы для взаимодействия с аудиторией: сайты, мобильные приложения, онлайновые сервисы работают неэффективно.

Эффективной работы сервисов можно добиться путем правильного проектирования сервисов. Эффективное проектирование может быть осуществлено при наличии данных и инструментов для их анализа.

Аналитические методы помогают прийти к пониманию проблем пользователей каждого конкретного интерфейса. На основе полученных знаний проводится перепроектирование интерфейса и введение персонализации.

Рассмотрим важные определения

Интерфейс

Интерфейс - это то, с чем взаимодействует пользователь. [12, 21, 22, 23, 24] интерфейс пользователь экран

Существует популярное мнение, что интерфейс, по большей части, является графическим оформлением ресурса в определенном стиле. Это неправильная точка зрения.

Самая важная часть в понятии "интерфейс" - это инструменты на экране и порядок взаимодействия с ними у пользователя. Например: в обычном поиске по сайту уже содержится интерфейс формы, указания параметров, вывод результатов и функции корректировки критериев поиска.

Интерфейсы больших проектов, уровня социальных сетей, могут содержать более сотни различных функций.

За этим функционалом следует графическое оформление, подчиняющееся принятой дизайн-концепции.

Дизайн интерфейса

Разработка интерфейса всегда направлена на то, чтобы запутаться в проекте было практически невозможно, чтобы пользователю не приходилось ломать голову в поисках нужной информации, функции или страницы. Успехом можно считать продуманную структуру и навигацию, обеспечивающую непринужденное перемещение между страницами ресурса.

На этапе дизайна, если рассматривать понятие дизайна чисто с визуальной точки зрения, интерфейс оживает. Его раскрашивают в соответствие с принятой визуальной концепцией, придают эстетики, добавляют глобальные анимации и анимации микровзаимодействий. Под анимацией подразумевается как, допустим, будет осуществляться переход из раздела сайта на главную страницу, как элемент интерфейса будет себя вести при нажатии и после него (например кнопка загрузки файла, которая станет индикатором прогресса загрузки, а затем кнопкой подтверждения). Отметим, что речь идет именно о дизайне интерфейса, которые не включает в себя различную графику и изображения.

Создатели интерфейсов - это в большинстве своем люди с высокими аналитическими способностями. Они прекрасно строят алгоритмы, устанавливают причинно-следственные связи. Руководствуясь развитой логикой, просчитывают действия других людей.

Технический дизайн

Технический дизайн - это скорее ремесло, нежели творчество. Данную специальность обычно выбирают люди с техническим складом ума.

Тех-дизайнер работает с фотографиями и рисунками. Он создает изображения на основе фотографий реальных объектов или переделывает уже готовые рисунки и фотографии. Задача технического дизайнера - нарисовать объект по фотографии или изменить уже готовое изображение: например, перенести объект на другой фон, добавить или убрать лишние детали, составить коллаж и др. Основная цель - придание изображению эстетической ценности.

При этом работа должна быть оптимизирована под требования концепции и современные технические реалии.

Одна из главных целей технического дизайна - возможность поразить потенциального посетителя, который заглянул на сайт, зацепить его, чтобы он вернулся. Вернувшиеся посетители непосредственно влияют на конверсию сайта и успех компании в целом.

Технический дизайн интерфейса

Объединяя все вышеизложенное, резюмируем: технический дизайн интерфейсов подразумевает продуманную навигацию, структуру, качественные анимации взаимодействий, правильные элементы управления, красивая графика, эффектные изображения, качественно отрисованные элементы интерфейса.

Объединяя все вышеизложенное, резюмируем: технический дизайн интерфейсов - это процесс проектирования хорошей, логичной навигации, структуры страниц, а также отрисовка качественной графики, подготовка эффектных изображений, продумывание анимации переходов и микровзаимодействий.

1.2 Анализ и выбор проектных решений

Для нашей работы понадобится программное обеспечение для аналитики и отрисовки интерфейсов. На рынке существует большое количество средств для обоих направлений. Рынок аналитического ПО очень насыщенный и разнообразный. Рынок графического ПО менее насыщенный и имеет несколько решений-фаворитов, которые мы и будем использовать.

Программное обеспечение для отрисовки интерфейса:

Adobe Photoshop CC

Многофункциональный графический редактор, разработанный и распространяемый фирмой Adobe Systems. Работа в нем осуществляется, как правило, с растровыми изображениями, но возможна работа и с вектором.

Продукт является лидером рынка в области коммерческих средств редактирования растровых изображений. [1]

Системные требования для Windows

· Процессор Intel® Core 2 or AMD Athlon® 64; 2 GHz или более быстрый

· Microsoft Windows 7 with Service Pack 1, Windows 8.1, or Windows 10

· 2 GB RAM (8 GB рекомендуется)

· 2 GB свободного места на жестком диске для 32-bit версии; 2.1 GB для 64-bit версии;

· 1024 x 768 монитор (1280x800 рекомендуется) с 16-bit палитрой и 512 MB видеопамяти (1 GB рекомендуется)

· Поддержка системой OpenGL 2.0

· Доступ к сети Интернет и учетная запись Adobe, которая необходима для активации программного продукта, активации подписки и доступа к онлайн-сервисам.

Системные требования для Mac OS

· Многоядерный 64-битный процессор

· Mac OS X v10.9, v10.10 (64-bit), или v10.11 (64-bit)

· 2 GB of RAM (8 GB рекомендуется)

· 2 GB свободного места на жестком диске;

· 1024 x 768 монитор (1280x800 рекомендуется) с 16-bit палитрой и 512 MB видеопамяти (1 GB рекомендуется)

· Поддержка системой OpenGL 2.0

· Доступ к сети Интернет и учетная запись Adobe, которая необходима для активации программного продукта, активации подписки и доступа к онлайн-сервисам.

Sketch

Sketch - векторный редактор. В нем собран весь пользовательский опыт современных графических и векторных редакторов, множество инструментов. По сравнению с конкурентами (Adobe Illustrator, Comet) приложение работает быстро и надежно. Подходит для разработки интерфейсов, сайтов и мобильных приложений. [2]

Системные требования

Mac OS 10.9 или более совершенная. Sketch оптимизирован и будет работать на любом компьютере Apple, который поддерживает указанную версию ОС или более совершенную.

Основные возможности

· Точность. Вектор подразумевает масштабируемость и Sketch легко масштабирует объекты вместе со стилями, размерами, слоями и избавляет от множества ручных доработок.

· Объектность. Каждый созданный слой является отдельным объектом на панели слоев. Никаких скрытых частей.

· Доведение до ближайшего пикселя. Sketch автоматически доводит любую отрисованную фигуру до ближайшего полного пикселя. Никаких битых наполовину пикселей, разводов, перемешанных альфа- каналов.

· Пиксельный зум. Возможность подключить пиксельный режим и отсмотреть все нарисованные слои по пиксельной сетке.

· Совершенный рендеринг текста. Sketch поддерживает родные для каждой платформы методы рендеринга текстов, позволяя видеть их такими, какими они будут на живом продукте.

· Панель управления настройками слоев. Позволяет изменять любой аспект любого объекта, например: позиционирование, прозрачность, режимы наложения.

· Динамические настройки. Математические операции: смена позиционирования, повороты и изменения размеров.

· Стили слоев. Позволяют комбинировать фильтры, заливки, радиусы и обводки.

· Многослойные заливки, обводки и тени. Sketch позволяет добавить бесконечное количество градиентных заливок, режимов смешивания, бесконечное множество обводок, теней и много другого.

· Динамическое размытие. Возможность выбрать из 4 динамических типов размытия объекта: Gaussian, Motion, Zoom, Background.

· Экспорт. Возможность в пару кликов экспортировать слои из скетча. Ничего не нужно размечать вручную, называть разными именами экспортируемые куски изображений.

· Символьные объекты. Возможность создать из объекта шаблон, который можно будет хранить в памяти приложения и получать к нему быстрый доступ из любого проекта.

· Стили слоев. Sketch позволяет создавать палитру стилей, которую можно применять к различным слоям и они все будут меняться, если изменить эту палитру. Нет необходимости менять цвет кнопки и править его вручную на 50 арт-бордах, все изменится автоматически.

· Текстовые стили. Аналогичны стилям слоев, только для текста.

· Страницы и арт-борды. Возможность создать в одном документе несколько страниц, содержащих множество арт-бордов (досок, на которых можно размещать слои).

· Сетка и инструменты по ее редактированию. Ни один дизайн не обходится без сетки. Sketch поддерживает несколько вариантов сетки: быстрые направляющие, миллиметровая разметка или нарисованную вручную сетку из геометрических фигур.

· Редактирование растровых изображений. Sketch поддерживает минимально необходимый набор инструментов для редактирования растровых изображений.

· Разделение слоев. Возможность поделить арт-борды на части и сгруппировать.

· Экспорт в различных форматах. Можно экспортировать в разных векторных и растровых расширениях.

· Экспорт групп. Возможность объединять несколько слоев в группу и экспортировать все сразу.

· Быстрый экспорт. Можно перетащить любой слой или арт-борд из программы на рабочий стол и он появится там в виде картинки. Прекрасно подходит для быстрой отрисовки и вывода прототипов.

· CSS. Возможность получить готовый код со стилями из созданных слоев, чтобы вставить его в HTML разметку.

· Печать. Поддерживается печать арт-бордов со слоями в различных форматах.

· Автосохранение. Программа сохраняет проект после любых нескольких совершенных действий, во избежание потери прогресса от непредвиденных ситуаций.

· Превью. Можно подключить к компьютеру смартфон или планшет и вживую посмотреть как будет выглядеть отрисованный экран на устройстве.

Сбор и аналитика Больших данных проходят по следующей схеме:

Рисунок 2. Общая схема сбора и обработки Больших данных.

1. Собираем данные из CRM, системы аналитики и, допустим, программного обеспечения по отслеживанию звонков.

2. Все данные загружаем в базу данных.

3. Используя мощности аналитического сервиса Hadoop, работающего в связке с Hive и Spark, проводим необходимую аналитику.

4. При необходимости визуализируем данные.

Рассмотрим самые функциональные и популярные средства, использующиеся для анализа Больших данных:

Google Cloud Platform

Современные сервисы генерируют невероятное количество данных и они делают это все быстрее и быстрее. Платформа Google Cloud помогает собирать, аккумулировать и быстро, экономически эффективно анализировать огромное количество данных, используя масштабы и скорость Google. Пакет для работы с BigData включает в себя 3 продукта: [8]

BigQuery

Помогает анализировать большие объемы данных прямо в облаке. Позволяет за секунды обращаться с SQL-подобными запросами к мульти-терабайтным массивам данных. Масштабируемый и простой в использовании, BigQuery дает возможность в реальном времени получить подробное представление о ваших данных.

Cloud Dataflow

Дает возможность создать, развернуть и запустить конвейерную обработку данных, масштабируемую под бизнес-задачи. Продукт обеспечивает надежное исполнение сценариев крупномасштабной обработки данных, таких как ETL, аналитика, вычисления в реальном времени.

Cloud Pub/Sub

Позволяет подключить клиентские сервисы к проверенным, асинхронным каналам, работающим по схеме многие-ко-многим, размещенным на мощностях Google. Продукт масштабируется при первой же необходимости и помогает клиенту в построении собственных, надежных и глобальных сервисов.

Amazon Web Services

Amazon позиционирует свой сервис как наиболее полную платформу для работы с Большими данными, позволяя их собирать, хранить, обрабатывать, анализировать и визуализировать. Все это в одном месте и под любой проект, вне зависимости от конкретных требований, будь то работа с потоковыми данными в реальном времени или пакетная обработка данных; подходят как структурированные, так и не структурированные данные. [4]

Вся структура масштабируется, быстро работает и имеет защиту. Можно сконцентрироваться на решении бизнес-задач и меньше времени уделять обслуживанию.

Краткий список возможностей AWS:

· Потоковая передача данных в режиме реального времени

· Хранение данных

· Hadoop и анализ Больших данных

· Машинное обучение

· Аналитическая программная платформа Elasticsearch

· Распознавание и визуализация данных

· Обработка данных без создания инфраструктуры

Hadoop

Hadoop - проект фонда Apache Software Foundation, свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов. Используется для реализации поисковых и контекстных механизмов многих высоконагруженных веб-сайтов, в том числе, для Yahoo! и Facebook. Разработан на Java в рамках вычислительной парадигмы MapReduce, согласно которой приложение разделяется на большое количество одинаковых элементарных заданий, выполнимых на узлах кластера и естественным образом сводимых в конечный результат. [5]

Framework ("каркас)": рабочая среда, платформа, определяющая будущую структуру проекта. Облегчает разработку программ. Состоит из основной, каркасной части, не меняющейся особо от версии к версии и набора дополнительных модулей, расширяющих функционал.

Считается одной из основополагающих технологий "больших данных". Вокруг Hadoop образовалась целая экосистема из связанных проектов и технологий, многие из которых развивались изначально в рамках проекта, а впоследствии стали самостоятельными.

Hadoop был выбран по следующим причинам:

1. Hadoop - платформа с открытым исходным кодом

2. Разворачивается быстрее дорогих решений

3. Обходится дешево

4. Из минусов - требуются специалисты для развертывания платформы

Система состоит из следующих частей:

1. Hadoop Common - связующее программное обеспечение.

2. HDFS (Hadoop Distributed File System) - распределенная файловая система Hadoop.

3. Движок - MapReduce / Spark / Tez

4. SQL - Hive / Impala / Shark / Spark SQL / Drill

Рассмотрим управляющее ПО:

Spark - спроектированный людьми из университета Berkley, движок Spark использует идею локальности данных, однако выносит большинство вычислений в память вместо диска. Ключевым понятием в Spark-е является RDD (resilient distributed dataset) - указатель на ленивую распределённую коллекцию данных. Большинство операций над RDD не приводит к каким- либо вычислениям, а только создаёт очередную обёртку, обещая выполнить операции только тогда, когда они понадобятся. [6]

Hive - самая первая и до сих пор одна из самых популярных СУБД на этой платформе. В качестве языка запросов использует HiveQL - урезанный диалект SQL, который, тем не менее, позволяет выполнять довольно сложные запросы над данными, хранимыми в HDFS. В нашем исследовании мы рассматриваем версию 0.13, в которой Hive переключился с движка MapReduce на движок Tez, работающий в разы быстрее и позволяющий подключить к Hive дополнительные сервисы, один из которых - Tableau - мы рассмотрим позже. В теории, вместо Hive к Hadoop можно прикрутить СУБД от Oracle, но смысла в этом нет, потому что полученные данные очень легко вытащить из Hive при помощи встроенного HiveQL.

Impala - продукт компании Cloudera и основной конкурент Hive. В отличие от последнего, Impala никогда не использовала классический MapReduce, а изначально исполняла запросы на своём собственном движке (написанном, кстати, на нестандартном для Hadoop-а C++). Кроме того, в последнее время Impala активно использует кеширование часто используемых блоков данных и колоночные форматы хранения, что очень хорошо сказывается на производительности аналитических запросов. Так же, как и для Hive, Cloudera предлагает к своему детищу вполне эффективный ODBC-драйвер.

Рассмотрим дополнительные средства, которые использовались для сбора и анализа данных:

Google Analytics

Бесплатный сервис, предоставляемый Google для создания детальной статистики посетителей веб-сайтов. Статистика собирается на сервере Google, пользователь только размещает JS-код на страницах своего сайта. Код отслеживания срабатывает, когда пользователь открывает страницу в своем веб-браузере (при условии разрешенного выполнения Javascript в браузере). [7]

Возможности:

· Аналитические инструменты

· Анализ содержания

· Анализ социальной активности

· Анализ мобильных данных

· Анализ конверсий

· Анализ рекламы

Tableau

Tableau - на данный момент лучшее решение для обработки данных: быстрое, простое, доступное и многофункциональное. [11]

Tableau облегчает сбор, визуализацию и анализ любых данных, сокращая трудоемкость аналитических процессов до минимума и способствуя экономии времени. Вместе с этим Tableau позволяет делать более точные выводы и прогнозы, не прибегая к сложным аналитическим инструментам, чтобы составить полноценные отчеты, визуализацию данных, интерактивные доски и убедительные обоснования для той или иной бизнес-концепции.

Основные категории, использующие сервис:

· Аналитики

· Руководители

· ИТ-специалисты, разработчики, администраторы баз данных

Отрасли применения: телеком, финансы и банки, ритейл, транспорт, государственные организации т.д.

Преимущества работы с Tableau:

Скорость.

Универсальный комплект инструментов для максимально результативной работы позволяет быстро собирать, систематизировать, обрабатывать и анализировать данные из различных источников.

Удобство.

Аналитики используют Tableau с максимальным комфортом - благодаря простому и понятному интерфейсу, гибкости системы, возможности визуализации промежуточных и конечных результатов.

Универсальность.

Используя Tableau, можно соединяться с различными источниками данных, быстро обрабатывать информацию и составлять интерактивные доски с данными.

Многозадачность.

Инструменты Tableau позволяют с минимальными усилиями готовить убедительные отчеты для абсолютно разной целевой аудитории, в соответствии с потребностями и предпочтениями, независимо от сложности аналитических задач.

KISSmetrics

KISSmetrics - одна из наиболее удобных и современных аналитических систем для настольной версии и мобильных устройств. Работаем с данными в разрезе пользователей, а не сессий или просмотренных страниц/экранов. [25]

Основными плюсами системы являются:

1. Работа в разрезе пользователей. Информация подается в формате уникальных пользователей, либо в количестве совершенных событий.

2. Более доступная цена по сравнению с Mixpanel и GA

3. Удобный интерфейс, легкий в освоении. Если что-то не получается, то всегда можно получить быстрый ответ от поддержки.

4. Наличие всех нужных типов отчетов: воронки, когортный анализ, сегментация по совершенными и несовершенным событиям, по каждому конкретному пользователю.

5. Настройка разных доступов к аккаунту.

6. Наличие мобильного приложения с новостями рынка аналитики.

Основные минусы:

1. Спорное качество экрана с общей статистикой. Не очень гибкие настройки.

2. При работе с большим количеством компаний и источниками трафика интерфейс перестает быть удобным.

3. По умолчанию эта система пустая и никаких данных не собирает. Руководство по настройке практически никак нельзя найти в рунете.

4. Задержка в получении данных до 4-5 часов. Такой лаг будет недопустимым для решения определенных задач.

Mixpanel

Одно из лучших аналитических решений на сегодняшний день. Крайне информативное и удобное. В качестве единицы измерения используется "пользователь". [26]

Основными плюсами системы являются:

1. Работает в разрезе пользователей. Мы получаем информацию в нужном нам виде.

2. Имеется функционал воронок. Можно добавить сегментацию (посмотреть, например, как конвертируются в платящих пользователей люди из разных стран).

3. Поддержка формул. Можно складывать, вычитать, умножать и делить данные.

Основные минусы:

1. Высокая цена. Платим за все: и за события, и за пользователей.

Очень функциональный, но дорогой продукт. На начальных этапах можно обойтись базовой версией, но потом нужно будет тратить большие деньги на подписку или искать более доступный вариант.

Вывод по первой главе.

Разработка современных интерфейсов неразрывно связана с понятием Большие данные. Современные технологии позволяют упростить анализ больших объемов данных, разработку прототипов и отрисовку интерфейсов.

Были даны определения понятий "интерфейс", "дизайн интерфейса", "технический дизайн" и "технический дизайн интерфейса".

Разобрана упрощенная схема сбора и анализа данных. Был выбран, обоснован и описан набор необходимого программного обеспечения для отрисовки интерфейса и аналитики.

Глава 2. Методики анализа больших данных и примеры работы с ними

Существует множество разнообразных методик анализа массивов данных, в основе которых лежит инструментарий, заимствованный из статистики и информатики (например, машинное обучение). В списке отражены наиболее востребованные подходы.

Важно помнить, что чем более объемный и диверсифицируемый массив подвергается анализу, тем более точные и релевантные данные удается получить на выходе.

A/B testing.

При данной методике создается контрольная выборка. Она сравнивается с другими выборками в порядке очередности. Сравнивать можно, например, старую версию интерфейса и обновленную, с целью выяснить реакцию на изменения. Если данных много, то результат получается статистически достоверный.

Association rule learning.

Набор методов по нахождению взаимосвязей. Говоря научным языком, это нахождение ассоциативных правил между переменными величинами в массивах данных.

Classification.

Методики, позволяющие спрогнозировать поведение людей в каком-либо сегменте рынка.

Cluster analysis.

Кластерный анализ позволяет классифицировать объекты, разделяя их на группы и выявлять в них неизвестные общие признаки.

Crowdsourcing.

Методика по сбору данных из большого числа ресурсов-источников.

Data fusion and data integration.

Методики, позволяющие сопоставлять результаты продаж с комментариями людей в социальных медиа. Работает в режиме реального времени.

Data mining.

Комплекс методик, выявляющих поведенческую модель потребителей. Под конкретный продукт можно найти расположенную к нему категорию покупателей.

Ensemble learning.

В этом методе задействовано много предикативных моделей, повышающих достоверность сделанных прогнозов.

Genetic algorithms.

По данной методике все возможные варианты решения представлены в виде хромосом, которые могут быть скомбинированы между собой и модифицированы. Побеждает, как и в природе, наиболее приспособленный экземпляр.

Network analysis.

Комплекс методик по анализу связей между узлами в сетях. Рассматривая с точки зрения социальных сетей, методики позволяют анализировать связи между конкретными пользователями, сообществами и компаниями.

Pattern recognition.

Набор методик с элементами самообучения. Используется для предсказания поведенческой модели покупателей.

Predictive modeling.

Набор методик, позволяющих создать математическую модель возможного сценария развития событий, заданного наперед. Например, предугадать условия, при которых человек сменит оператора сотовой связи, путем анализа базы данных на предмет наличия этих условий.

Regression.

Комплекс статистических методов для нахождения закономерности и связи между изменением зависимой переменной и одной или несколькими независимыми переменными. Применяется для прогнозирования.

Spatial analysis.

Набор отчасти заимствованных из статистики методик анализа пространственных данных - топологии местности, географических координат, геометрии объектов. Источником больших данных в этом случае часто выступают геоинформационные системы (ГИС).

Supervised learning.

Набор методик, основанных на технологиях машинного обучения. Позволяет находить функциональные взаимосвязи в массивах данных.

Time series analysis.

Методики из статистики и цифровой обработки сигналов. Анализируются последовательности данных, повторяющихся со временем. Самое очевидное применение - биржа, ценные бумаги или, например, заболеваемость пациентов.

Unsupervised learning.

Методики, основанные на технологиях машинного обучения. Позволяют выявить скрытые функциональные взаимосвязи в массивах данных. Методики схожи некоторыми чертами с кластерным анализом.

Visualisation.

Методики по упрощению интерпретации полученных статистических данных. Наглядное представление результатов анализа имеет принципиальное значение для их интерпретации. Данные представляются через диаграммы и анимированные изображения.

2.1 Машинное обучение

Все перечисленные технологии и методы, в той или иной степени, используются при анализе Больших данных, но существует отдельная дисциплина, которую мы рассмотрим подробнее - машинное обучение.

Машинное обучение (англ. Machine Learning) - обширный подраздел искусственного интеллекта, преследующий цель создания алгоритмов самообучения на основе анализа эмпирических данных. В машинном обучении используются разделы математической статистики, численных методов оптимизации, теории вероятностей, дискретного анализа для выделения знаний из данных. [19]

Машинное обучение бывает двух видов:

· Обучение с учителем - для каждого прецедента задаётся пара

"ситуация, требуемое решение":

· Обучение без учителя - для каждого прецедента задаётся только "ситуация", требуется сгруппировать объекты в кластеры, используя данные о попарном сходстве объектов, и/или понизить размерность данных.

В машинное обучение включены следующие фундаментальные методы:

· Дисперсионный анализ [15]

· K-means [9]

· Коэффициент корелляции Пирсона

· Линейная регрессия [18]

· Метод наименьших квадратов [20]

· Нейронные сети

Вводные данные

В качестве опытно-экспериментальной базы используются данные банковского сайта, по которому дана сводная статистика, собранная при помощи рассмотренных аналитических платформ.

Рисунок 3. Общая информация о посещаемости сайта.

Ключевые показатели:

· Конверсия - показатель эффективности. Это отношение количества человек, совершивших на сайте целевое действие (покупку, оформление подписки, просмотр определенных страниц и т.д.), к общему количеству посещений ресурса. Выражается в процентах.

· Показатель отказов - важный критерий, показывающий количество людей, которые ушли с сайта сразу, просмотрев не более одной страницы или, если сайт сразу требует регистрацию, ушедшие уже со страницы регистрации.

· Просмотрено страниц за сеанс - мера вовлеченности посетителей. Показывает среднее количество страниц, которое просматривает один посетитель за одно посещение.

· Новые посетители - люди, не заходившие ранее на сайт.

Задача:

Повысить ключевые показатели, включая самый важный - конверсию пользователей в покупающих клиентов.

Для внесения необходимых изменений в структуру сайта, необходимо провести анализ собранных данных. Мы будем использовать несколько методов, первый из которых - конверсионная воронка.

Конверсионная воронка

Воронка - путь, который проходит среднестатистический пользователь от момента привлечения его внимания к предложению, до момента совершения сделки. Это модель, которая, в теории, иллюстрирует путешествие покупателя на всех этапах. На каждом этапе определяются наиболее проблемные шаги (те, с которых уходит наибольший процент пользователей), определяются наиболее эффективные пути и формулируются гипотезы, касающиеся барьеров, препятствующих выполнению пользовательских задач.

Рисунок 4. Конверсионная воронка. Часть 1.

Рисунок 5. Конверсионная воронка. Часть 2.

Проблема 1

Большой процент пользователей, перешедших на страницу "Банк на каждый день", уходят с конверсионного пути, не достигнув конечного шага (Thank you page).

Гипотеза

Вероятно, это связано с тем, что, поскольку данный вариант сценария имеет много шагов и разветвлений, пользователи теряются и уходят на побочные страницы.

Проблема 2

11% пользователей, перешедших на страницу заявки сразу со списка вкладов, уходят с нее на страницу продукта. 30% уходят в разделы "Банк в кармане" и

"Частным клиентам", а остальные 59% - на побочные страницы. Таким образом, никто не заполняет заявку на продукт, перейдя на нее со списка вкладов.

Гипотеза

Пользователям не понимают, какой продукт оформляют, из-за чего уходят с заявки за более подробной информацией.

Проблема 3

Только 8,7% пользователей начали оформлять заявку на вклад, при этом, только 0,5% от этого количества отправили заявку.

Гипотеза

Данный сценарий является сложным для пользователя из-за избыточного количества шагов.

Приведенные гипотезы подтвердились в процессе повторного тестирования, запущенного после внесения изменений. На следующем этапе мы применим другую методику тестирования, которая покажет, как пользователи реагируют на обновленную анкету.

2.2 Когортный анализ

Когортный анализ - метод анализа поведения пользователей. Суть такова: все пользователи разделяются на отдельные сегменты, так называемые

"когорты", после чего поведение каждого сегмента отслеживается по времени. Разделение происходит по наиболее популярным факторам: первое посещение ресурса, регистрация, просмотр определенных страниц, загрузка чего-либо с ресурса. Во время анализа сравниваются поведения каждого из сегментов с течением времени, после чего, на основании полученных результатов, вырабатывается стратегия взаимодействия с каждой когортой. Когортный анализ дает возможность оценить и спрогнозировать качество услуг или продуктов и эффективность стратегий по их продвижению на рынке.

Таблица отображает процент пользователей, вернувшихся на анкету в случае ухода с нее. Из таблицы видно, то уже с первой недели, после первого посещений пользователем страницы заявки, процент возврата резко снижается. Необходимо провести анализ анкеты, в которой, очевидно, не все сделано хорошо и можно помочь пользователям работать с ней эффективнее.

Рисунок 6. Результат когортного анализа.

2.3 Аналитика по методу K-means

K-means (метод k-средних) - наиболее популярный метод кластеризации. Алгоритм стремится минимизировать суммарное квадратичное отклонение точек кластеров от центров этих кластеров.

Вводные данные:

На сайте банка размещена анкета, передающая несколько типов информации. Это информация о доходе, кредитном лимите, времени заполнения всех полей и количествe оформленных заявок. Информация собрана при помощи Google Cloud Services и обработана в Google Analytics.

Рисунок 7. Пример запроса данных на языке SQL

Задача:

Необходимо узнать, на какие кластеры (категории) делятся пользователи, чтобы отсегментировать их по типам и адаптировать анкету под каждый тип, персонализировать под пользователей, тем самым повысив конверсию.

Выбор метода:

В нашем расчете применим метод K-means. Его отличает скорость и простота. Он является прямым примером машинного обучения без учителя.

K- means очень хорош, но у него есть свои недостатки. При использовании этого метода необходимо самостоятельно, вручную задавать количество кластеров. Даже имея экспертную подготовку, бывает проблематично определить количество "на глаз". Поэтому используются 2 подхода:

1. Экспериментальный - устанавливаем такое количество кластеров, которое даст удовлетворительный результат. Оценить качество можно при помощи измерения дальности кластеров: чем дальше они друг от друга, тем более достоверными можно считать данные. Если, допустим, мы делим данные на 3 кластера и они размещены слишком близко друг к другу, то можно разбить их еще, вплоть до бесконечности.

2. Иерархическая кластеризация - проводится перед вычислениями по методу K-means, чтобы определить количество кластеров. При иерархической кластеризации мы можем использовать несочетаемые данные: 1\0, 1 000 и т.д.

Иерархическая кластеризация

Используем иерархическую кластеризацию для определения количества кластеров. Для этого используем программный продукт SPSS (Statistical Package for the Social Sciences), в который подгружаем исходные данные из Google Analytics. [10, 16]

Для проведения иерархического кластерного анализа используется метод наиболее удаленного соседа, при котором расстояния между кластерами определяются наибольшим расстоянием двух любых объектов в различных кластерах. Для визуализации расчётов используем дендрограмму по всем найденным кластерам, ориентация выбирается произвольно, как удобнее.

Размещено на http://www.allbest.ru/

Рисунок 8. Необходимые настройки для проведения иерархического кластерного анализа

Для стандартизации выборки SPSS использует метод Z-score (среднеквадратичное отклонение).

Рисунок 9. Полученные стандартизированные значения

Кластерный анализ

Возвращаемся к кластерному анализу. Забираем стандартизированные значения после иерархического анализа и проводим кластерный анализ.

В конце работы алгоритма получаем данные о наших кластерах, по которым оцениваем различия между ними.

Рисунок 10. ANOVA - позволяет оценить число кластеров, значимость каждой переменной в кластере, посмотреть F-статистику (F-тест \ критерий Фишера).

Конечные центры кластеров являются основой диаграммы с областями.

Рисунок 11. Кластерная диаграмма с областями.

Имея на руках диаграмму и числовые данные после кластерного анализа, можно изучить то, как представители каждого кластера взаимодействуют с анкетой, какие проблемы у них возникают, и какие персонализированные решения можно предложить. Относительно проблем каждого кластеры были выдвинуты следующие гипотезы:

Проблемы кластера 1

Люди с большим доходом совершают крайне мало заказов, выставляют низкий кредитный лимит или уходят с заполнения анкеты.

Гипотеза

Вероятно, заполняющим анкету людям необходимы уточнения к сложным полям, либо переработка сценария заполнения. Возможно, люди недостаточно лояльно относятся к банку и с негативным настроем приступают к заполнению продуктовой анкеты. В такой ситуации требуется добавить небольшие блоки с подсказками и советами, повышающими лояльность к банку.

Проблемы кластера 2

Люди с небольшим доходом тратят много времени на заполнение полей, выставляют невысокий кредитный лимит и оставляют небольшое количество заявок.

Гипотеза

Скорее всего, заполняющим анкету людям необходимо облегчение формы. Сокращение некоторых полей на этапе заявки, которые можно уточнить позднее. Возможно, редизайн и переосмысление оставшихся полей и добавление подсказок к ним.

Проблемы кластера 3

У кластера 3 есть проблемы с количеством оформленных заказов.

Гипотеза

По маршруту заполнения анкеты необходимо добавить несколько блоков с краткими жизненными ситуациями и бонусами, которые получит человек, оформив продукт.

Гипотезы были проверены в боевых условиях и дали прирост по всем кластерам. Самый ощутимый прирост был отмечен в кластере 2.

После завершения всех обновлений и редизайна был проведен завершающий сбор статистических данных, показавший рост по всем ключевым показателям.

Рисунок 12. Информация о посещаемости сайта после редизайна и доработок.

Вывод по второй главе.

Во второй главе были рассмотрены существующие методики анализа данных, дано отдельное описание "машинного обучения".

Был рассмотрен входной статистический материал, собранный для практической части ВКР.

Были рассмотрены следующие методики анализа:

1. Конверсионная воронка

2. Когортный анализ

3. Кластеризация по методу K-means

Был рассмотрен итоговый статистический материал, полученный в ходе повторного сбора статистики с обновленного ресурса.

Заключение

В наше время для компаний крайне важны хорошие отношения со старыми клиентами и привлечение новых (привлечение новых клиентов обходится дороже удержания старых). Чтобы сохранить и приумножить отношения, необходимо обеспечивать комфортные условия для взаимодействия между клиентом и компанией. Зачастую, взаимодействие происходит через онлайновые ресурсы, поэтому важно, чтобы опыт взаимодействия был положительным у каждой из сторон. Использование современных аналитических платформ позволяет добиться качественного улучшения существующих сервисов.

В ходе выполнения ВКР были изучены актуальные и востребованные инструменты для сбора, хранения и аналитики Больших данных и данных как таковых. Были реализованы следующие аналитические методы:

1. Конверсионная воронка

2. Когортный анализ

3. Кластеризация по методу K-means

Практический результат ВКР показывает, что поставленные цели достигнуты.

Список использованной литературы и ресурсов

1. Adobe Photoshop CC [Электронный ресурс]. URL: http://goo.gl/Nb4cMJ

2. Sketch [Электронный ресурс]. URL: http://goo.gl/Tb3kw2

3. Analytics of Variance (ANOVA). [Электронный ресурс]. URL: https://goo.gl/dqFMd0

4. Anazon WebServices. [Электронный ресурс]. URL: http://goo.gl/zi0G6y

5. Apache Hadoop. [Электронный ресурс]. URL: http://goo.gl/Xw4jiX

6. Apache Spark. [Электронный ресурс]. URL: https://goo.gl/isOaAM

7. Google Analytics. [Электронный ресурс]. URL: https://goo.gl/k6saA8

8. Google Cloud Services. [Электронный ресурс]. URL: https://goo.gl/HMFLio

9. K-means. [Электронный ресурс]. URL: https://goo.gl/y5x3aB

10. SPSS Statistics. [Электронный ресурс]. URL: http://goo.gl/v4e5iD 11.Tableau. [Электронный ресурс]. URL: http://goo.gl/nJ23ka

12. UX-дизайн. Практическое руководство по проектированию опыта взаимодействия. [Электронный ресурс]. URL: https://goo.gl/hzf5pO

13.Большие данные. [Электронный ресурс]. URL: https://goo.gl/2WCU2U

14. Большие данные в России. [Электронный ресурс]. URL: http://goo.gl/JT1JjF

15.Дисперсионный анализ. [Электронный ресурс]. URL: https://goo.gl/kcx6v8

16. Иерархическая кластеризация. [Электронный ресурс]. URL: https://goo.gl/CIDaPG

17. Лекция от Техносферы Mail.ru на тему "BigData & MapReduce" . [Электронный ресурс]. URL: http://goo.gl/epFlPd

18. Линейная регрессия. [Электронный ресурс]. URL: https://goo.gl/uCmEq1

19. Машинное обучение. [Электронный ресурс]. URL: https://goo.gl/cOLXWX

20. Метод наименьших квадратов. [Электронный ресурс]. URL: https://goo.gl/7ytYxa

21. Интервью по персонализации сайтов с Авинашем Кошиком. [Электронный ресурс]. URL: http://goo.gl/r9EtwF

22. Статья "Получите больше лидов при помощи индивидуального подхода к посетителям" . [Электронный ресурс]. URL: http://goo.gl/rrh8Ji

23. Статья "Персонализация сайта, как способ повышения конверсий" . [Электронный ресурс]. URL: http://goo.gl/C8ubc7

24. Перевод выступления зарубежного специалиста про персонализацию сайтов. [Электронный ресурс]. URL: http://goo.gl/NG1ruH

25. KISSmetrics. [Электронный ресурс]. URL: http://goo.gl/d6dbLX

26. Mixpanel. [Электронный ресурс]. URL: http://goo.gl/zElHWX

Размещено на Allbest.ru


Подобные документы

  • Обзор архитектуры СУБД SQL Server. Описание и анализ областей применения средств бизнес-аналитики, таких как многомерный анализ данных и интеллектуальный анализ данных. Обзор языковых средств, методов и экспериментальное применение полученных сведений.

    дипломная работа [2,2 M], добавлен 09.07.2014

  • Архитектура и технология функционирования системы. Извлечение, преобразование и загрузка данных. Oracle Database для реализации хранилища данных. Создание структуры хранилища. Механизм работы системы с точки зрения пользователя и с точки зрения платформы.

    курсовая работа [2,2 M], добавлен 22.02.2013

  • Обоснование необходимости создания программного продукта. Данные, которые хранятся в базе данных. Обоснование их достаточности. Операции по обработке данных. Описание интерфейса пользователя с иллюстрациями диалоговых окон. Инструкция для пользователя.

    курсовая работа [886,5 K], добавлен 11.10.2008

  • Анализ предметной области. Обзор инструментов Web-аналитики для развития бизнеса в Интернете. Построение моделей бизнес-процессов компании. Учет поискового трафика. Элементы управления доступом. Обработка и хранение данных. Видимость сайта в поисковиках.

    дипломная работа [1,4 M], добавлен 27.09.2016

  • Создание системы предобработки данных; разработка системы классификации на базе методов и алгоритмов машинного обучения, их реализация в программной системе. Предобработка информации, инструкция пользователя, система классификации, машинный эксперимент.

    дипломная работа [917,1 K], добавлен 31.01.2015

  • Разработка программного продукта для полнофункционального учета работающих в библиотеке людей и читателей. Сбор исходных данных и разбиение проекта на модули. Структура проекта базы данных, интерфейс проекта. Настройка параметров, обучение персонала.

    курсовая работа [1,9 M], добавлен 02.10.2014

  • Особенности проектирования программы на языке С++ для обработки данных из таблиц базы данных. Основные функции программы, создание концептуальной модели базы данных и диаграммы классов, разработка интерфейса пользователя и запросов к базе данных.

    курсовая работа [2,1 M], добавлен 08.06.2012

  • Роль моделирования общественно-исторических процессов. Распределенный банк данных системы сбора информации. Концептуальная схема модели системы. Критерии оценки эффективности процесса функционирования СМО. Выдвижение гипотез и принятие предположений.

    дипломная работа [140,1 K], добавлен 30.07.2009

  • Рассмотрение понятия абстрактного типа данных. Реализация операций добавления элемента в пустой список и после указанных данных, удаления конкретного элемента и распечатки записей. Разработка интерфейса, исключающего нелигитимное модифицирование данных.

    курсовая работа [721,4 K], добавлен 24.09.2010

  • Перечень основных требований к базе данных "Сведения о простоях". Процесс создания таблиц и связей между ними. Результаты выполнения запросов и форма выведения отчетов. Разработка интерфейса программы. Руководство для администратора и пользователя.

    курсовая работа [3,7 M], добавлен 11.11.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.