Технологии поддержки процесса принятия решений
Рассмотрение понятия и истории возникновения систем поддержки принятия решения. Приспособленность информационных систем к задачам повседневной управленческой деятельности. Понятие термина "интеллектуальный анализ данных". Методика извлечения знаний.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | реферат |
Язык | русский |
Дата добавления | 14.04.2015 |
Размер файла | 79,8 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Содержание
Введение
1. Понятие системы поддержки принятия решения
2. Классификация систем поддержки принятия решения
3. Архитектуры систем поддержки принятия решения
4. Понятие термина "интеллектуальный анализ данных"
5. Методика извлечения знаний
Заключение
Список использованных источников и литературы
Введение
Современные системы поддержки принятия решения (СППР) представляют собой системы, максимально приспособленные к решению задач повседневной управленческой деятельности, являются инструментом, призванным оказать помощь лицам, принимающим решения (ЛПР). С помощью СППР может производиться выбор решений некоторых неструктурированных и слабоструктурированных задач, в том числе и многокритериальных.
СППР, как правило, являются результатом мультидисциплинарного исследования, включающего теории баз данных, искусственного интеллекта, интерактивных компьютерных систем, методов имитационного моделирования.
В настоящее время нет общепринятого определения СППР, поскольку конструкция СППР существенно зависит от вида задач, для решения которых она разрабатывается, от доступных данных, информации и знаний, а также от пользователей системы. Можно привести, тем не менее, некоторые элементы и характеристики, общепризнанные, как части СППР.
СППР -- в большинстве случаев -- это интерактивная автоматизированная система, которая помогает пользователю (ЛПР) использовать данные и модели для идентификации и решения задач и принятия решений. Система должна обладать возможностью работать с интерактивными запросами с достаточно простым для изучения языком запросов.
Системы поддержки принятия решения (СППР или DSS) возникли как естественное развитие и обобщение управленческих информационных систем и систем управления базами данных (СУБД) в направлении их большей пригодности и приспособленности к задачам повседневной управленческой деятельности.
1. Понятие системы поддержки принятия решения
Термин "система поддержки принятия решения" появился в начале 70-х годов, однако, до сегодняшних дней не нашел общепризнанного определения ни у ученых ни у разработчиков.
Использованию СППР и определению их функционального предназначения, посвящено достаточное число трудов отечественных и зарубежных специалистов в различных предметных областях.
В некоторых источниках СППР описывается как средство для "вычисления решений", основанное "на использовании моделей ряда процедур по обработке данных и суждений, помогающих ЛПР в принятии решения".
Иногда СППР рассматривается в качестве "интерактивных автоматизированных систем, которые помогают ЛПР использовать данные и модели, чтобы решать неструктурированные проблемы".
Также СППР определяется как "компьютерная информационная система, использующаяся для поддержки различных видов деятельности при принятии решения в ситуациях, где невозможно или нежелательно иметь автоматические системы, которые полностью выполняют весь процесс принятия решения". СППР не заменяет ЛПР, автоматизируя процесс принятия решения, а оказывает ему помощь в ходе решения поставленной задачи.
Система поддержки принятия решений (СППР) (англ. Decision Support System, DSS) -- компьютерная автоматизированная система, целью которой является помощь людям, принимающим решение в сложных условиях для полного и объективного анализа предметной деятельности. СППР возникли в результате слияния управленческих информационных систем и систем управления базами данных.
Для анализа и выработок предложений в СППР используются разные методы. Это могут быть: информационный поиск, интеллектуальный анализ данных, поиск знаний в базах данных, рассуждение на основе прецедентов, имитационное моделирование, эволюционные вычисления и генетические алгоритмы, нейронные сети, ситуационный анализ, когнитивное моделирование и др. Некоторые из этих методов были разработаны в рамках искусственного интеллекта. Если в основе работы СППР лежат методы искусственного интеллекта, то говорят об интеллектуальной СППР, или ИСППР.
С самых первых определений СППР определился круг решаемых с их помощью задач: неструктурированные и слабоструктурированные. Существенное влияние на такую направленность СППР оказала классификация проблем, согласно которой, неструктурированные задачи имеют лишь качественное описание, основанное на суждениях ЛПР, а количественные зависимости между основными характеристиками задачи не известны. В хорошо структурированных задачах существенные зависимости могут быть выражены количественно. Промежуточное положение занимают слабоструктурированные задачи, "сочетающие количественные и качественные зависимости, причём малоизвестные и неопределённые стороны задачи имеют тенденцию доминировать".
Ряд исследователей рассматривают СППР как средство для "выполнения решений", и определяют как систему, "основанную на использовании моделей ряда процедур по обработке данных и суждений, помогающих руководителю в принятии решения".
Среди факторов, определяющих качество принимаемых решений, одним из основных является интеллект ЛПР (начальника, руководителя, пользователя). Под интеллектом следует понимать весь интеллектуальный потенциал ЛПР в целом: данные природой способности творческого мышления, знания, приобретенные в ходе обучения, практики, жизненного опыта и др. В связи с этим, необходимо рассматривать задачи повышения интеллектуального уровня ЛПР не путем применения традиционных методов обучения, а на основе использования методов и средств (систем) искусственного интеллекта (СИИ), базирующихся на технологиях аналитической обработки данных.
Данное направление ориентируется на создание комплекса соответствующих программно-аппаратных средств, позволяющих ЛПР решать задачи интеллектуального характера, требующие смысловой обработки больших объемов информации, хранящейся в базах данных.
Таким образом, совокупность современных информационных технологий, позволяет вести речь о разработке информационной системы (подсистемы) интеллектуальной поддержки принятия решения, главным предназначением которой является - своевременное и качественное обеспечение всех информационных потребностей руководителей в процессе принятия решения. Это позволит:
1. Автоматизировать процессы управления предприятия за счет интеллектуализации принятия бизнес-решений.
2. Повысить эффективность производства корпоративного предприятия.
3. Открыть такую сферу производства, которая позволяет говорить о разработке полноценных автоматизированных информационных систем управления (совокупность технического, специального математического программного и информационно-лингвистического обеспечений) на базе современных информационных технологий обработки данных.
2. Классификация систем поддержки принятия решения
Для СППР отсутствует не только единое общепринятое определение, но и исчерпывающая классификация. Разные авторы предлагают разные классификации.
На уровне пользователя Haettenschwiler делит СППР на пассивные, активные и кооперативные СППР. Пассивной СППР называется система, которая помогает процессу принятия решения, но не может вынести предложение, какое решение принять. Активная СППР может сделать предложение, какое решение следует выбрать. Кооперативная позволяет ЛПР изменять, пополнять или улучшать решения, предлагаемые системой, посылая затем эти изменения в систему для проверки. Система изменяет, пополняет или улучшает эти решения и посылает их опять пользователю. Процесс продолжается до получения согласованного решения.
На концептуальном уровне Power отличает СППР, управляемые сообщениями (Communication-Driven DSS), СППР, управляемые данными (Data-Driven DSS), СППР, управляемые документами (Document-Driven DSS), СППР, управляемые знаниями (Knowledge-Driven DSS) и СППР, управляемые моделями (Model-Driven DSS). СППР, управляемые моделями, характеризуются в основном доступ и манипуляции с математическими моделями (статистическими, финансовыми, оптимизационными, имитационными). Некоторые OLAP-системы, позволяющие осуществлять сложный анализ данных, могут быть отнесены к гибридным СППР, которые обеспечивают моделирование, поиск и обработку данных. Управляемая сообщениями (Communication-Driven DSS) СППР поддерживает группу пользователей, работающих над выполнением общей задачи. СППР, управляемые данными (Data-Driven DSS) или СППР, ориентированные на работу с данными (Data-oriented DSS) в основном ориентируются на доступ и манипуляции с данными. СППР, управляемые документами (Document-Driven DSS), управляют, осуществляют поиск и манипулируют неструктурированной информацией, заданной в различных форматах. Наконец, СППР, управляемые знаниями (Knowledge-Driven DSS) обеспечивают решение задач в виде фактов, правил, процедур.
На техническом уровне Power различает СППР всего предприятия и настольную СППР. СППР всего предприятия подключена к большим хранилищам информации и обслуживает многих менеджеров предприятия. Настольная СППР -- это малая система, обслуживающая лишь один компьютер пользователя.
Существуют и другие классификации (Alter, Holsapple и Whinston, Golden, Hevner и Power). Отмечу лишь, что превосходная для своего времени классификация Alter`a, которая разбивала все СППР на 7 классов, в настоящее время несколько устарела.
В зависимости от данных, с которыми эти системы работают, СППР условно можно разделить на оперативные и стратегические. Оперативные СППР предназначены для немедленного реагирования на изменения текущей ситуации в управлении финансово-хозяйственными процессами компании. Стратегические СППР ориентированы на анализ значительных объемов разнородной информации, собираемых из различных источников. Важнейшей целью этих СППР является поиск наиболее рациональных вариантов развития бизнеса компании с учетом влияния различных факторов, таких как конъюнктура целевых для компании рынков, изменения финансовых рынков и рынков капиталов, изменения в законодательстве и др. СППР первого типа получили название Информационных Систем Руководства (Executive Information Systems, ИСР). По сути, они представляют собой конечные наборы отчетов, построенные на основании данных из транзакционной информационной системы предприятия, в идеале адекватно отражающей в режиме реального времени основные аспекты производственной и финансовой деятельности.
Для ИСР характерны следующие основные черты:
· отчеты, как правило, базируются на стандартных для организации запросах; число последних относительно невелико;
· ИСР представляет отчеты в максимально удобном виде, включающем, наряду с таблицами, деловую графику, мультимедийные возможности и т. п.;
· как правило, ИСР ориентированы на конкретный вертикальный рынок, например финансы, маркетинг, управление ресурсами.
СППР второго типа предполагают достаточно глубокую проработку данных, специально преобразованных так, чтобы их было удобно использовать в ходе процесса принятия решений. Неотъемлемым компонентом СППР этого уровня являются правила принятия решений, которые на основе агрегированных данных дают возможность менеджерам компании обосновывать свои решения, использовать факторы устойчивого роста бизнеса компании и снижать риски. СППР второго типа в последнее время активно развиваются. Технологии этого типа строятся на принципах многомерного представления и анализа данных (OLAP).
При создании СППР можно использовать Web-технологии. В настоящее время СППР на основе Web-технологий для ряда компаний являются синонимами СППР предприятия.
3. Архитектуры систем поддержки принятия решения
Функциональные СППР.
Являются наиболее простыми с точки зрения архитектуры. Они распространены в организациях, не ставящих перед собой глобальных задач и имеющих невысокий уровень развития информационных технологий. Отличительной особенностью функциональных СППР является то, что анализу подвергаются данные, содержащиеся в операционных системах. Преимуществами подобных СППР являются компактность из-за использования одной платформы и оперативность в связи с отсутствием необходимости перегружать данные в специализированную систему. Из недостатков можно отметить следующие: сужение круга вопросов, решаемых с помощью системы, снижение качества данных из-за отсутствия этапа их очистки, увеличение нагрузки на операционную систему с потенциальной возможностью прекращения ее работы.
СППР, использующие независимые витрины данных.
Применяются в крупных организациях, имеющих несколько подразделений, в том числе отделы информационных технологий. Каждая конкретная витрина данных создается для решения определенных задач и ориентирована на отдельный круг пользователей. Это значительно повышает производительность системы. Внедрение подобных структур достаточно просто. Из отрицательных моментов можно отметить то, что данные многократно вводятся в различные витрины, поэтому могут дублироваться. Это повышает затраты на хранение информации и усложняет процедуру унификации. Наполнение витрин данных достаточно сложно в связи с тем, что приходится использовать многочисленные источники. Отсутствует единая картина бизнеса организации, вследствие того что нет окончательной консолидации данных.
СППР на основе двухуровневого хранилища данных.
Используется в крупных компаниях, данные которых консолидированы в единую систему. Определения и способы обработки информации в данном случае унифицированы. На обеспечение нормальной работы подобной СППР требуется выделить специализированную команду, которая будет ее обслуживать. Такая архитектура СППР лишена недостатков предыдущей, но в ней нет возможности структурировать данные для отдельных групп пользователей, а также ограничивать доступ к информации. Могут возникнуть трудности с производительностью системы.
СППР на основе трехуровневого хранилища данных.
Такие СППР применяют хранилище данных, из которого формируются витрины данных, используемые группами пользователей, решающих сходные задачи. Таким образом, обеспечивается доступ как к конкретным структурированным данным, так и к единой консолидированной информации. Наполнение витрин данных упрощается ввиду использования проверенных и очищенных данных, находящихся в едином источнике. Такие СППР отличает гарантированная производительность. Но существует избыточность данных, которая ведет к росту требований на их хранение. Кроме того, необходимо согласовать подобную архитектуру с множеством областей, имеющих потенциально различные запросы.
4. Понятие термина "интеллектуальный анализ данных"
решение информационный данные управление
Термин интеллектуальный анализ данных можно понимать двояко. В узком смысле это попытка адекватного русского перевода термина Data Mining, который ввёл в обиход Григорий Пятецкий-Шапиро в 1992 году. Согласно его определению Data Mining -- это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных, доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Дословный перевод "раскопки (или добыча) данных" следует, по всей видимости, считать неудачным.
В широком смысле это современная концепция анализа данных, предполагает следующее:
· данные могут быть неточными, неполными (содержать пропуски), противоречивыми, разнородными, косвенными, и при этом иметь гигантские объёмы; поэтому понимание данных в конкретных приложениях требует значительных интеллектуальных усилий;
· сами алгоритмы анализа данных могут обладать "элементами интеллекта", в частности, способностью обучаться по прецедентам, то есть делать общие выводы на основе частных наблюдений; разработка таких алгоритмов также требует значительных интеллектуальных усилий;
· процессы переработки сырых данных в информацию, а информации в знания уже не могут быть выполнены по старинке вручную, и требуют нетривиальной автоматизации.
Необходимость интеллектуального анализа данных возникла в конце XX века в результате повсеместного распространения информационных технологий, позволяющих детально протоколировать процессы бизнеса и производства.
По составу решаемых задач Data Mining практически не отличается от стандартного набора средств, применяемых с середины XX века в области прикладной статистики, машинного обучения (machine learning), информационного поиска (information retrieval). Основное различие заключается в эффективности алгоритмов и технологичности их применения. Подавляющее большинство классических процедур имеют время выполнения, квадратичное или даже кубическое по объёму исходных данных. При количестве объектов, превосходящем несколько десятков тысяч, они работают неприемлемо медленно даже на самых современных компьютерах. За последние десятилетия значительные усилия в области Data Mining были направлены на создание специализированных алгоритмов, способных выполнять те же задачи за линейное или даже логарифмическое время без существенной потери точности.
Введем определение анализа данных как такового. Основой для анализа данных служит моделирование.
Построение моделей является универсальным способом изучения окружающего мира.
Построение моделей позволяет обнаруживать зависимости, извлекать новые знания, прогнозировать, управлять и решать множество других задач. Большинство экономических систем относятся к категории сложных, т.е. с большим количеством элементов и сложными связями.
Рассмотрим принципы построения моделей:
· при анализе отталкиваться от опыта эксперта;
· рассматривать проблему под разными углами и комбинировать подходы;
· не стремиться к высокой точности модели, а двигаться от более простых и грубых моделей к более сложным и точным;
· по прошествии времени и накоплению новых сведений нужно повторять цикл моделирования;
5. Методика извлечения знаний
Knowledge Discovery in Databases (KDD) - это процесс поиска полезных знаний в "сырых" данных. KDD включает в себя вопросы: подготовки данных, выбора информативных признаков, очистки данных, применения методов Data Mining (DM), постобработки данных и интерпретации полученных результатов. Безусловно, "сердцем" всего этого процесса являются методы DM, позволяющие обнаруживать знания. Этими знаниями могут быть правила, описывающие связи между свойствами данных (деревья решений), часто встречающиеся шаблоны (ассоциативные правила), а также результаты классификации (нейронные сети) и кластеризации данных (карты Кохонена) и т.д.
Knowledge Discovery in Databases не задает набор методов обработки или пригодные для анализа алгоритмы, он определяет последовательность действий, которую необходимо выполнить для того, чтобы из исходных данных получить знания. Данный подход универсальный и не зависит от предметной области, что является его несомненным достоинством. Deductor - полнофункциональная платформа для решения задач Knowledge Discovery in Databases, позволяющая провести все вышеописанные шаги.
Несмотря на большое количество разнообразных бизнес-задач, почти все они решаются по единой методике Knowledge Discovery in Databases. Она описывает не конкретный алгоритм или математический аппарат, а последовательность действий, которую необходимо выполнить для построения модели (извлечения знания). Данная методика не зависит от предметной области, это набор атомарных операций, комбинируя которые, можно получить нужное решение. Выглядит она примерно как изображено на схеме ниже.
Рис. 1.1 Методика извлечения знаний
Из данного рисунка следует, что методика извлечения знаний состоит из следующих этапов:
1) KDD - выборка данных
Первым шагом в анализе является получение исходной выборки. На основе этих данных и строятся модели. На этом шаге необходимо активное участие эксперта для выдвижения гипотез и отбора факторов, влияющих на анализируемый процесс. Желательно, чтобы данные были уже собраны и консолидированы. Крайне необходимо наличие удобных механизмов подготовки выборки. Чаще всего в качестве источника рекомендуется использовать специализированное хранилище данных, агрегирующее всю необходимую для анализа информацию.
2) KDD - очистка данных
Реальные данные для анализа редко бывают хорошего качества. Необходимость предварительной обработки при анализе данных возникает независимо от того, какие технологии и алгоритмы используются. Более того, эта задача может представлять самостоятельную ценность в областях, не имеющих непосредственного отношения к анализу данных. К задачам очистки данных относятся такие как: заполнение пропусков, редактирование аномалий, сглаживание, обнаружение дубликатов и противоречий и прочие.
3) KDD - трансформация данных
Трансформация данных - последний этап перед, собственно, анализом. Дело в том, что различные алгоритмы анализа требуют специальным образом подготовленные данные, например, для прогнозирования необходимо преобразовать временной ряд при помощи скользящего окна или вычисление агрегируемых показателей. К задачам трансформации данных относятся: скользящее окно, приведение типов, выделение временных интервалов, преобразование непрерывных значений в дискретные и наоборот, сортировка, группировка и прочее.
4) KDD - Data Mining (задачи)
Data Mining - это процесс обнаружения в "сырых" данных ранее неизвестных нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Информация, найденная в процессе применения методов Data Mining, должна быть нетривиальной и ранее неизвестной, например, средние продажи не являются таковыми. Знания должны описывать новые связи между свойствами, предсказывать значения одних признаков на основе других.
Рассмотрим технологию постановки задачи:
Первоначально, задача ставится следующим образом:
§ имеется достаточно крупная база данных;
§ предполагается, что в базе данных находятся некие "скрытые знания".
Необходимо разработать методы обнаружения знаний, скрытых в больших объёмах исходных "сырых" данных.
Что означает "скрытые знания"? Это должны быть обязательно знания:
§ ранее не известные -- то есть такие знания, которые должны быть новыми (а не подтверждающими какие-то ранее полученные сведения);
§ нетривиальные -- то есть такие, которые нельзя просто так увидеть (при непосредственном визуальном анализе данных или при вычислении простых статистических характеристик);
§ практически полезные -- то есть такие знания, которые представляют ценность для исследователя или потребителя;
§ доступные для интерпретации -- то есть такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области.
Этими требования во многом определяют суть методов Data mining и то, в каком виде и в каком соотношении в технологии Data mining используются системы управления базами данных, статистические методы анализа и методы искусственного интеллекта.
Рассмотрим понятие Data mining и базы данных:
Методы Data mining имеет смысл применять только для достаточно больших баз данных. В каждой конкретной области исследований существует свой критерий "великости" базы данных. Развитие технологий баз данных сначала привело к созданию специализированного языка -- языка запросов к базам данных. Для реляционных баз данных -- это язык SQL, который предоставил широкие возможности для создания, изменения и извлечения хранимых данных. Затем возникла необходимость в получении аналитической информации (например, информации о деятельности предприятия за определённый период), и тут оказалось, что традиционные реляционные базы данных, хорошо приспособленные, например, для ведения оперативного учёта (на предприятии), плохо приспособлены для проведения анализа. Это привело, в свою очередь, к созданию т.н. "хранилищ данных", сама структура которых наилучшим способом соответствует проведению всестороннего математического анализа.
Рассмотрим понятие Data mining и статистика:
В основе методов Data mining лежат математические методы обработки данных, включая и статистические методы. В промышленных решениях, нередко, такие методы непосредственно включаются в пакеты Data mining. Однако, следует учитывать, что статистические методы, во-первых, основываются на статистической природе анализируемых явлений (например, обычно постулируют форму распределения случайной величины), а, во-вторых, результаты статистических методов, как правило, являются тривиальными (легко рассчитываются), практически бесполезными (например, всевозможные средние) и трудно интерпретируемыми (те же средние), что полностью расходится с целями и задачами Data mining. Тем не менее, статистические методы используются, но их применение ограничивается выполнением только определённых этапов исследования.
Рассмотрим понятие Data mining и искусственный интеллект:
Знания, добываемые методами Data mining принято представлять в виде моделей. В качестве таких моделей выступают:
§ ассоциативные правила;
§ деревья решений;
§ кластеры;
§ математические функции.
Методы построения таких моделей принято относить к области т.н. "искусственного интеллекта". Задачи, решаемые методами Data Mining, принято разделять на:
§ описательные (англ. descriptive);
§ предсказательные (англ. predictive).
В описательных задачах самое главное -- это дать наглядное описание имеющихся скрытых закономерностей, в то время как в предсказательных задачах на первом плане стоит вопрос о предсказании для тех случаев, для которых данных ещё нет.
К описательным задачам относятся:
1. Поиск ассоциативных правил или паттернов (образцов).
2. Группировка объектов или кластеризация.
3. Построение регрессионной модели.
К предсказательным задачам относятся:
1. Классификация объектов (для заранее заданных классов).
2. Построение регрессионной модели.
Для задач классификации характерно "обучение с учителем", при котором построение (обучение) модели производится по выборке, содержащей входные и выходные векторы.
Для задач кластеризации и ассоциации применяется "обучение без учителя", при котором построение модели производится по выборке, в которой нет выходного параметра. Значение выходного параметра ("относится к кластеру …", "похож на вектор …") подбирается автоматически в процессе обучения.
Для задач сокращения описания характерно отсутствие разделения на входные и выходные векторы. Начиная с классических работ К. Пирсона по методу главных компонент, основное внимание уделяется аппроксимации данных.
Выделяется типичный ряд этапов решения задач методами Data Mining:
1. Формирование гипотезы;
2. Сбор данных;
3. Подготовка данных (фильтрация);
4. Выбор модели;
5. Подбор параметров модели и алгоритма обучения;
6. Обучение модели (автоматический поиск остальных параметров модели);
7. Анализ качества обучения, если неудовлетворительный переход на п. 5 или п. 4;
8. Анализ выявленных закономерностей, если неудовлетворительный переход на п. 1, 4 или 5.
Рассмотрим основные этапы подготовки данных:
Перед использованием алгоритмов Data Mining необходимо произвести подготовку набора анализируемых данных. Так как ИАД может обнаружить только присутствующие в данных закономерности, исходные данные с одной стороны должны иметь достаточный объем, чтобы эти закономерности в них присутствовали, а с другой -- быть достаточно компактными, чтобы анализ занял приемлемое время. Чаще всего в качестве исходных данных выступают хранилища или витрины данных. Подготовка необходима для анализа многомерных данных до кластеризации или интеллектуального анализа данных. Далее данные очищаются. Очистка удаляет выборки с шумами и пропущенными данными. Очищенные данные сводятся к векторам признаков, один вектор на выборку. Вектор признаков -- это суммарная версия сырых данных выборки. Например, черно-белое изображение лица размером 100Ч100 пикселей содержит 10 тыс. бит сырых данных. Они могут быть преобразованы в вектор признаков путем обнаружения в изображении глаз и рта. В итоге происходит уменьшение объема данных с 10 тыс. бит до списка кодов положения, значительно уменьшая объем анализируемых данных, а значит и время анализа. Выбор функции будет зависеть от того, что является целью анализа; выбор "правильной" функции имеет основополагающее значение для успешного интеллектуального анализа данных. Векторы признаков делятся на две категории -- обучающий набор и тестовый набор. Обучающий набор используется для "обучения" алгоритма Data Mining, а тестовый набор -- для проверки найденных закономерностей.
Задачи, решаемые методами Data Mining:
· Классификация - это отнесение объектов к одному из заранее известных классов.
· Регрессия - установление зависимости непрерывных выходных переменных от входных значений.
· Кластеризация - объекты внутри кластера должны быть 'похожими' друг на друга и отличаться от объектов, вошедших в другие кластеры.
· Ассоциация - нахождение зависимости, что из события X следует событие Y.
· Последовательные шаблоны - установление закономерностей между связанными во времени событиями.
Можно говорить еще и о задаче анализа отклонений - выявления наиболее нехарактерных шаблонов.
Применение Data Mining в экономике:
· Классификация - отнесение клиента к определенной группе риска, оценка перспективности клиентов
· Регрессия - прогнозирование продаж, эластичность спроса
· Кластеризация - сегментация клиентской базы, анализ продуктовой линейки
· Ассоциация - кросс-продажи, стимулирование спроса
· Последовательные шаблоны - предсказание спроса, оптимизация закупок
Рассмотрим Data Mining - алгоритмы:
Для решения вышеописанных задач используются различные методы и алгоритмы Data Mining. Ввиду того, что Data Mining развивался и развивается на стыке таких дисциплин, как статистика, теория информации, машинное обучение, теория баз данных, вполне закономерно, что большинство алгоритмов и методов Data Mining были разработаны на основе различных методов из этих дисциплин. В общем случае, не принципиально, каким именно алгоритмом будет решаться одна из 5-ти задач Data Mining - главное иметь метод решения для каждого класса задач. На сегодня наибольшее распространение получали самообучающиеся методы и машинное обучение.
5) KDD - интерпретация
В случае, когда извлеченные знания непрозрачны для пользователя, должны существовать методы постобработки, позволяющие привести их к интерпретируемому виду. Для оценки качества полученной модели нужно использовать как формальные методы оценки, так и знания эксперта. Так как именно эксперт может сказать, насколько применима полученная модель к реальным данным. Полученные модели являются, по сути, формализованными знаниями эксперта, а следовательно их можно тиражировать. Найденные знания должны быть применимы и на новых данных с некоторой степенью достоверности. Использование методов построения моделей позволяет получать новые знания, которые невозможно извлечь другим способом. Кроме того, полученные результаты являются формализованным описанием некоего процесса, а следовательно поддаются автоматической обработке. Недостатком же является то, что такие методы более требовательны к качеству данных, знаниям эксперта и формализации самого изучаемого процесса. К тому же почти всегда имеются случаи не укладывающиеся ни в какие модели. На практике подходы комбинируются, например, визуализация данных наводит эксперта на некоторые идеи, которые он пробует проверить при помощи различных способов построения моделей, а результаты построения моделей подаются на вход механизмам визуализации. Полнофункциональная система анализа не должна замыкаться на применении только одного подхода или одной методики анализа. Механизмы визуализации и построения моделей должны дополнять друг друга. Максимальную отдачу можно получить комбинируя методы и подходы к анализу данных.
С помощью KDD решаются небольшие бизнес-задачи, например:
· План-факторный анализ - визуализация данных;
· Анализ денежных потоков - визуализация данных;
· Прогнозирование - задача регрессии;
· Управление рисками - регрессия, кластеризация и классификация;
· Стимулирование спроса - кластеризация, ассоциация;
· Оценка эластичности спроса - регрессия;
· Выявление предпочтений клиентов - последовательность, кластеризация, классификация.
Заключение
Data Mining (DM) -- это технология поддержки процесса принятия решений, основанная на выявления скрытых закономерностей и систематических взаимосвязей между переменными внутри больших массивов информации, которые затем можно применить к новым совокупностям данных. При этом накопленные сведения автоматически обобщаются до информации, которая может быть охарактеризована как знания. Обнаружение новых знаний можно использовать для повышения эффективности бизнеса. В связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях. Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Многие компании годами накапливают важную бизнес-информацию, надеясь, что она поможет им в принятии решений.
· Генетический алгоритм представляет собой именно такой комбинированный метод. Механизмы скрещивания и мутации в каком-то смысле реализуют переборную часть метода, а отбор лучших решений - градиентный спуск.
· На рисунке показано, что такая комбинация позволяет обеспечить устойчиво хорошую эффективность генетического поиска для любых типов задач.
· Итак, если на некотором множестве задана сложная функция от нескольких переменных, то генетический алгоритм - это программа, которая за разумное время находит точку, где значение функции достаточно близко к максимально возможному. Выбирая приемлемое время расчета, мы получим одно из лучших решений, которые вообще возможно получить за это время.
Список использованных источников и литературы
1. Дюк В., Самойленко А. "Data Mining: учебный курс" - СПб.: Питер, 2011
2. Журавлёв Ю.И., Рязанов В.В., Сенько О.В. "Распознавание. Математические методы. Программная система. Практические применения" - М.: Фазис, 2009
3. Зиновьев А.Ю. "Визуализация многомерных данных" - Красноярск, 2010
4. Правдин С.В. "Интеллектуальный анализ данных" - М.: Аморфа, 2010
5. Чубукова И.А. "Data mining: учебное пособие" - М.: БИНОМ, 2010
6. Надина Е.С. "Генетические алгоритмы" Сайт "(EHIPS) Генетические алгоритмы" [www.iki.rssi.ru] ссылка [http://iki.rssi.ru/ehips/genetic.htm]
7. Юшкевич А.С. "Лекции по нейронным сетям и генетическим алгоритмам" Сайт "Нейронные сети" [www.infoart.baku.az] ссылка [http://infoart.baku.az/inews/30000007.htm]
8. Явлинец П.С. "Генетические алгоритмы и машинное обучение" Сайт "Математика и наука" [www.math.tsu.ru] ссылка
[http://math.tsu.ru/Russian/center/ai_group.html]
9. http://ru.wikipedia.org
10. http://ru.science.wikia.com
11. http://www.mista.ru
12. http://www.dvgu.ru
13. http://www.tadviser.ru
14. http://www.market-pages.ru
Размещено на Allbest.ru
Подобные документы
Классификация систем поддержки принятия решений. Сравнительный анализ методик для оценки рисков розничного кредитования. Структура системы поддержки принятия решений, формирование начальной базы знаний. Проектирование базы данных информационной системы.
дипломная работа [1,9 M], добавлен 10.07.2017Методы решения проблем, возникающих на стадиях и этапах процесса принятия решений, их реализация в информационных системах поддержки принятия решений (СППР). Назначение СППР, история их эволюции и характеристика. Основные типы СППР, области их применения.
реферат [389,3 K], добавлен 22.11.2016Обслуживание двух встречных потоков информации. Структура информационных систем. Разработка структуры базы данных. Режимы работы с базами данных. Четыре основных компонента системы поддержки принятия решений. Выбор системы управления баз данных.
курсовая работа [772,0 K], добавлен 21.04.2016Типы административных информационных систем: системы генерации отчетов, системы поддержки принятия решений, системы поддержки принятия стратегических решений. Сортировка и фильтрация списков в Microsoft Excel. Работа с базами данных в Microsoft Access.
контрольная работа [6,0 M], добавлен 19.11.2009Data Mining как процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации). Его закономерности и этапы реализации, история разработки данной технологии, оценка преимуществ и недостатков, возможности.
эссе [36,8 K], добавлен 17.12.2014Классификация задач системы поддержки принятия решений, их типы и принципы реализации при помощи программы "Выбор". Обзор современных систем автоматизированного проектирования "Компас", "AutoCad", "SolidWorks", оценка преимуществ и недостатков программ.
курсовая работа [1,4 M], добавлен 22.07.2014Теоретические аспекты функционирования Business intelligence - систем в сфере логистики. Анализ условий для разработки системы поддержки принятия решений. Характеристика процесса создания программного продукта, применение аналитической платформы QlikView.
курсовая работа [2,5 M], добавлен 09.09.2017Концепция систем поддержки принятия решений. Диапазон применения Analytica 2.0. Программное обеспечение количественного моделирования. Графический интерфейс для разработки модели. Основные способы моделирования. Диаграмма влияния и дерево решений.
контрольная работа [1,1 M], добавлен 08.09.2011Разработка алгоритмического и программного обеспечения для решения задачи поддержки принятия решений о выпуске новой продукции. Математическое обеспечение задачи поддержки принятия решений о выпуске новой продукции, основные входные и выходные данные.
дипломная работа [943,0 K], добавлен 08.03.2011Интеллектуальный анализ данных как метод поддержки принятия решений, основанный на анализе зависимостей между данными, его роль, цели и условия применения. Сущность основных задач интеллектуального анализа: классификации, регрессии, прогнозирования.
контрольная работа [25,8 K], добавлен 08.08.2013