Динамическая модель кластеризации финансово-экономического состояния предприятия
Основные показатели финансового состояния предприятия. Кризис на предприятии, его причины, виды и последствия. Современные методы и инструментальные средства кластерного анализа, особенности их использования для финансово-экономической оценки предприятия.
Рубрика | Экономико-математическое моделирование |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 09.10.2013 |
Размер файла | 1,4 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное бюджетное образовательное учреждение
высшего профессионального образования
"КУБАНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ"
(ФГБОУ ВПО "КубГУ")
Кафедра прикладной математики
ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ
(ДИПЛОМНАЯ) РАБОТА
ДИНАМИЧЕСКАЯ МОДЕЛЬ КЛАСТЕРИЗАЦИИ ФИНАНСОВО-ЭКОНОМИЧЕСКОГО СОСТОЯНИЯ ПРЕДПРИЯТИЯ
Работу выполнила Ф.Н. Болурова
Научный руководитель зав. кафедрой д. ф. - м. н.,
профессор М.Х. Уртенов
Нормоконтролер магистр педагогики О.Н. Свистунова
Краснодар 2013
Содержание
- Введение
- 1. Теоретические основы финансово-экономического состояния предприятий
- 1.1 Основные показатели финансового состояния предприятия
- 1.2 Кризис на предприятии, причины, виды и последствия
- 2. Современные методы и инструментальные средства кластерного анализа
- 2.1 Многомерный статистический кластерный анализ
- 2.2 Нейросетевая кластеризация
- 2.2.1 Многослойный персептрон (MLP)
- 2.2.2 Сеть Кохонена
- 2.3 Нечеткие системы кластеризации
- 2.3.1 Общая формальная постановка задачи нечеткого кластерного анализа
- 2.3.2 Уточненная постановка задачи нечеткой кластеризации
- 3. Использование методов кластерного анализа для финансово-экономической оценки состояния предприятия
- 3.1 Многомерный статистический кластерный анализ финансово-экономического состояния предприятия
- 3.2 Нечеткая кластеризация финансового состояния предприятий
- 3.3 Классификация предприятий многослойным персептроном
- 3.4 Нейросетевая кластеризация сетями Кохонена состояния предприятий
- 3.5 Сопоставительный анализ разработанных моделей
- 3.6 Построение динамической модели
- Заключение
- Список использованных источников
Введение
Результатом финансового, инвестиционного и производственного развития предприятия является его финансово-экономическое состояние. В настоящее время, в условиях рыночных отношений, повышаются роль оценки и значение анализа финансового состояния предприятия, несущего полную экономическую ответственность за результаты производственно-хозяйственной деятельности перед акционерами, работниками, банками и кредиторами.
Финансовое состояние предприятия является гарантом эффективной реализации экономических интересов участников финансовых отношений и определяет его конкурентоспособность и потенциал в деловом сотрудничестве.
Анализ финансового состояния предприятия является важной и актуальной проблемой, как для каждого предприятия, так и для государства в целом. Раньше при анализе состояния предприятия вводили разного рода лимиты, фонды, и из главных показателей выделяли прибыль. По этому показателю и судили о финансовом состоянии предприятия.
В настоящее время такой подход невозможен, так как каждое предприятия в условиях рыночных отношений заинтересовано в стабильности, платежеспособности, возможностях экономического роста, в современных методах оценки и анализа. В связи с этим важно уже не столько учитывать размер прибыли, сколько определять уровень платежеспособности, финансовую устойчивость, деловую активность, рентабельность.
Применяемые в России методы анализа финансово-экономического состояния предприятия отстают от развития рыночной экономики. Многие вопросы и проблемы такие, как оценка состояния предприятия методами современного многомерного статистического анализа, нейронными сетями и нечеткими продукционными системами исследованы с недостаточной полнотой.
Таким образом, тема дипломной работы, посвященной созданию и разработке динамической модели кластеризации финансово-экономического состояния предприятия, является актуальной.
Целью дипломной работы является разработка динамической модели кластеризации финансово-экономического состояния предприятия, а именно проведение современных методов кластерного анализа, таких как многомерный статистический кластерный анализ, нечеткая кластеризация, нейросетевая кластеризация сетями Кохонена и классификация многослойным персептроном для анализа финансово-экономической оценки состояния предприятий, а также разработка динамической модели финансово-экономического состояние предприятия.
Для решения выше поставленной цели поставлены следующие основные задачи анализа финансово-экономической оценки состояния предприятия:
- провести многомерный статистический кластерный анализ исходных и нормированных данных по 15 основным показателям;
- осуществить нечеткую кластеризацию с помощью нечеткой продукционной системы MatLab;
- осуществить нейросетевую кластеризацию с помощью многослойного персептрона и сетями Кохонена;
- провести сопоставительный анализ и дать оценку построенных моделей;
- построить динамическую модель изменения финансово-экономического состояния предприятия.
Объектом исследования являются следующие предприятия:
1 Открытое акционерное общество "Агроинвестсоюз". Основные направления - производство зерна и частичная его переработка, хранение и продажа продукции растениеводства. Располагая природным, производственным и научным потенциалом, край способен обеспечивать не только внутренние потребности в зерне картофеле, овощебахчевой продукции, но и поставлять данную продукцию на рынки регионов России, а также стран ближнего и дальнего зарубежья.
2 Основной деятельностью открытого акционерного общества "Ахтырский хлебозавод" является производство хлеба и мучных кондитерских изделий недлительного хранения.
3 Открытое акционерное общество "Имени Карла Маркса" относится к отрасли рыболовства. Основные виды деятельности: Рыболовство, рыбоводство и предоставление услуг в этих областях, вылов рыбы и водных биоресурсов в открытых районах Мирового океана и внутренних морских водах сельскохозяйственными товаропроизводителями.
4 Открытое акционерное общество "Армавирское полиграфпредприятие". Основной деятельностью является издательская и полиграфическая деятельность, брошюровочно-переплётная и отделочная деятельность, изготовление печатей и штампов, розничная торговля.
5 Открытое акционерное общество "Проектный институт "Анапагражданпроект". Основным видом деятельности ОАО "ПИ "Анапагражданпроект" является разработка всех видов градостроительной документации, проектных работ и инжиниринговых услуг по жилищно-гражданскому, коммунальному и городскому строительству.
6 Открытое акционерное общество "Югмонтажстрой" является строительной фирмой. Основными видами деятельности являются строительство, строительство жилья, капитальный ремонт зданий.
7 Открытое акционерное общество "Керамик". Основной вид деятельности: производство кирпича керамического марки М - 100. В настоящее время финансовое положение ОАО "Керамик" стабильно. ОАО "Керамик" является промышленным предприятием строительной индустрии расположенным в Щербинском районе, выпускающий полнотелый одинарный кирпич М - 100, с максимально допустимой проектной мощностью 12 млн. штук кирпича в год.
8 Открытое акционерное общество НПО "Нефтегеофизприбор" было организовано в 1988 году, как приборостроительная организация по созданию средств вычислительной техники для обработки сейсмических данных. С 1991 года НПО изменило научно-исследовательское направление деятельности в связи с переводом из города Грозного основного кадрового состава специалистов в области разработки и конструирования аппаратуры для проведения промыслово-геофизических исследований скважин. Это направление стало основным в деятельности общества.
9 Открытое акционерное общество "Металлист". Основной вид деятельности: производство вентиляторов.
10 Открытое акционерное общество "Сафьян". Вид деятельности: производство обуви, ремонт обуви и прочих изделий из кожи, сдача внаем собственного нежилого недвижимого имущества.
Рассматриваемые 10 разнопрофильных предприятий являются открытыми акционерными обществами. Исследуемые предприятия взяты из разных отраслей. Данные по ОАО приведены за разные годы.
Предмет анализа - финансовая деятельность предприятий разных отраслей за 2009-20011 гг.
Практическая значимость дипломной работы заключается в том, что результаты исследовании и моделей, могут быть использованы в планировании финансовой политики предприятий. Для научных исследований.
Дипломная работа состоит из трех глав, введения, заключения и списка использованной литературы.
В первой главе изучаются теоретические основы анализа финансово-экономической оценки состояния предприятия и кризиса на предприятии.
Во второй главе подробно описаны современные методы кластерного анализа, такие как многомерный статистический кластерный анализ, нечеткая кластеризация, нейросетевая кластеризация сетями Кохонена и классификация многослойным персептроном для анализа финансово-экономической оценки состояния предприятий.
В третьей главе проводится многомерный статистический кластерный анализ в пакете STATISTICA, нечеткая кластеризация с помощью нечеткой продукционной системы MatLab, нейросетевая кластеризация многослойным персептроном и сетями Кохонена с использованием пакета STATISTICA Neural Networks. Проводится сопоставительный анализ и дается оценка построенных моделей, а также разрабатывается динамическая модель кластеризации финансово-экономического состояния предприятия.
В заключении проводится итог результатов дипломной работы.
динамическая кластеризация финансовый экономический
1. Теоретические основы финансово-экономического состояния предприятий
Финансовое состояние характеризуется системой показателей, отражающих реальные и потенциальные финансовые возможности фирмы как объекта по бизнесу, объекта инвестирования капитала, налогоплательщика. Хорошее финансовое состояние - это эффективное использование ресурсов, способность полностью и в сроки ответить по своим обязательствам, достаточность собственных средств для исключения высокого риска, хорошие перспективы получения прибыли и др. [3].
Плохое финансовое положение выражается в неудовлетворительной платежной готовности, в низкой эффективности использования ресурсов, в неэффективном размещении средств, их иммобилизации. Пределом плохого финансового состояния предприятия является состояние банкротства, т.е. неспособность предприятия отвечать по своим обязательствам.
Основная цель анализа - выявление и оценка тенденций развития финансовых процессов на предприятии. Менеджеру эта информация необходима для разработки адекватных управленческих решений по снижению риска и повышению доходности финансово-экономической деятельности предприятия, инвестору - для решения вопроса целесообразности инвестирования, банкам - для определения условий кредитования фирмы.
1.1 Основные показатели финансового состояния предприятия
Характеристика финансового состояния по данным баланса.
Согласно действующим нормативным документам баланс в настоящее время составляется в оценке нетто. Итог баланса дает ориентировочную оценку суммы средств, находящихся в распоряжении предприятия. Эта оценка является учетной и не отражает реальной суммы денежных средств, которую можно выручить за имущество, например, в случае ликвидации предприятия. Текущая "цена" активов определяется рыночной конъюнктурой и может отклоняться в любую сторону от учетной, особенно в сторону инфляции.
В качестве инструментария для анализа финансово-экономического состояния предприятия широко используются финансовые коэффициенты - относительные показатели, представляющие собой отношение одних абсолютных финансовых показателей к другим.
Все они, как правило, распределяются по следующим группам:
а) показатели ликвидности платежеспособности;
б) показатели финансовой устойчивости;
в) показатели рентабельности (прибыльности);
г) показатели деловой активности (оборачиваемости активов).
д) менеджмент;
е) изучение динамики цен на товары и услуги;
ж) ставок налогообложения и процентных ставок по банковским кредитам и депозитам, курс эмиссионных ценных бумаг;
з) деятельности конкурентов на товарном и финансовом рынках и другие [8].
Информационной базой для расчета всех показателей являются:
- форма № 1 "Бухгалтерский баланс" и приложения к балансу;
- форма № 2 "Отчет о прибылях и убытках".
Анализируя сравнительный баланс, необходимо обратить внимание на изменение удельного веса величины собственного капитала в стоимости имущества, на соотношения темпов роста дебиторской и кредиторской задолженности. При стабильной финансовой устойчивости у организации должна увеличиваться в динамике доля собственного оборотного капитала, темп роста заемного капитала, а темпы роста дебиторской и кредиторской задолженности должны уравновешивать друг друга.
В общих чертах признаками "хорошего" баланса являются:
- увеличение валюты баланса в конце отчетного периода по сравнению с началом;
- превышение темпов прироста оборотных активов над темпами прироста внеоборотных активов;
- превышение собственного капитала организации над заемным капиталом и превышение темпов его роста над темпами роста заемного капитала;
- одинаковое соотношение темпов прироста дебиторской и кредиторской задолженности.
Для анализа финансово-экономического состояния предприятия будем использовать следующие финансовые коэффициенты:
а) Ликвидность и платежеспособность предприятия.
Платежеспособность предприятия определяется его возможностью и способностью одновременно и полностью выполнять платежные обязательства, вытекающие из торговых, кредитных и иных операций денежного характера [3].
Ликвидность предприятия определяется наличием у него ликвидных средств, к которым относятся наличные деньги, денежные средства на счетах в банках и легкореализуемые элементы оборотных ресурсов. Ликвидность отражает способность предприятия в любой момент совершать необходимые расходы.
б) Финансовая устойчивость организации.
Финансовая устойчивость предприятия определяется степенью обеспечения запасов и затрат собственными и заемными источниками их формирования, соотношением объемов собственных и заемных средств и характеризуется системой абсолютных и относительных показателей.
в) Рентабельность.
Рентабельность представляет собой такое использование средств, при котором организация не только покрывает свои затраты доходами, но и получает прибыль.
Доходность, т.е. прибыльность предприятия, может быть оценена при помощи как абсолютных, так и относительных показателей. Абсолютные показатели выражают прибыль, и измеряются в стоимостном выражении, т.е. в рублях. Относительные показатели характеризуют рентабельность и измеряются в процентах или в виде коэффициентов. Показатели рентабельности в гораздо меньшей мере находятся под влиянием инфляции, чем величины прибыли, поскольку они выражаются различными соотношениями прибыли и авансированных средств (капитала), либо прибыли и произведенных расходов (затрат) [3].
г) Деловая активность.
Анализ деловой активности предприятия позволяет выявить, насколько эффективно оно использует свои средства.
Деловую активность предприятия можно представить как систему качественных и количественных критериев.
Качественные критерии - это широта рынков сбыта, репутация предприятия, конкурентоспособность, наличие стабильных поставщиков и потребителей и т.п.
Количественные критерии деловой активности определяются абсолютными и относительными показателями. Среди абсолютных показателей следует выделить объем реализации произведенной продукции (работ, услуг), прибыль, величину авансированного капитала (активы предприятия). Целесообразно учитывать сравнительную динамику этих показателей.
1.2 Кризис на предприятии, причины, виды и последствия
Вступление экономики России в рыночные отношения, открытие отечественного рынка для товаров зарубежных предприятий поставили большинство российских организаций в сложное финансовое и экономическое положение. Результатом этого явились рост неплатежеспособности и последующее банкротство организаций [4].
В мире не было ни одной организации, которая в той или иной мере в своей производственно-хозяйственной деятельности не испытала на себе кризисные явления, экономические и финансовые проблемы, нередко приводящие к банкротству. Особая острота проявилась и проявляется в России в силу определенных особенностей перехода ее экономики на рыночные отношения. В связи с этим перед руководством организаций, органами государственной и муниципальной власти встают задачи предотвратить кризисные явления и обеспечить устойчивое положение организаций, ибо банкротство одних организаций часто вызывает ухудшение финансового состояния (платежеспособности) многих других.
Этапы возникновения кризиса можно представить следующей цепочкой: причины, симптомы, факторы.
Причина кризиса - события или явления, вследствие которых появляются симптомы и далее факторы кризиса.
Фактор кризиса - событие или зафиксированное состояние объекта, или установленная тенденция, свидетельствующая о наступлении кризиса [4].
Причинами могут быть финансово-экономические просчеты, общее положение экономики, низкая квалификация персонала, недостатки системы мотивирования. Симптомы кризиса - появление первых признаков отрицательных тенденций, устойчивость этих тенденций, деловые конфликты, нарастание финансовых проблем и другие, и тогда факторами кризиса будут снижение качества продукции, нарушение технологической дисциплины, рост и большая задолженность по кредитам и т.п.
Причины возникновения кризиса можно классифицировать на внешние и внутренние. Внешние определяют воздействие среды, в которой существует организация, а возникновение внутренних причин зависит от ситуации в самой организации. Внешние причины определяются состоянием экономики, деятельностью государства, состоянием отрасли, к которой относится рассматриваемая организация, а также воздействием стихии [8].
Кризисные ситуации, прежде всего, выражаются в колебаниях объема производства и сбыта продукции, роста кредиторской задолженности поставщикам, банкам, налоговым органам, в дефиците оборотных средств и т.п., так как именно эти причины служат предпосылкой появления состояния неплатежеспособности организации [4].
Рассматривая различные виды кризисов организаций, исследователи больше всего уделяют внимание финансовому кризису организации [4].
Применительно к организации кризисы можно классифицировать:
1) Технологический (производственный), при возникновении которого устаревшее оборудование и технология не позволяют выпускать качественную, конкурентоспособную продукцию, что приводит организацию к финансовым потерям;
2) Социальный (социально-управленческий), возникает в результате появления между работниками или их группами конфликтов, в том числе между рабочими и администрацией, управленческих конфликтов в аппарате управления и т.п. Указанные конфликты ведут к принятию неэффективных решений и к потерям времени на самом производстве;
3) Финансовый, возникающий в результате нерационального использования собственного капитала и заемных средств, неэффективного использования полученной прибыли, что влечет за собой опять же финансовые проблемы организации;
4) Организационный - возникает в результате несовершенства производственной структуры управления и структуры аппарата управления в организации, неэффективного распределения обязанностей, прав, полномочий и ответственности между уровнями управления, подразделениями аппарата и внутри между исполнителями;
5) Информационный, являющийся следствием ситуации, в которой получаемая информация не отражает изменений, происходящих на рынке, недостаточно достоверно отражает положение дел в самой организации. Все это вызывает возникновение и увеличение различных видов и потерь;
6) Кризис взаимодействия между собственниками организации или с властью, противоречия в их интересах, что не позволяет проводить эффективную политику и в результате приносит существенные потери организации [4].
В конечном итоге эти кризисы между собой достаточно тесно связаны и, как правило, отражаются на финансах организации.
Кризисы могут вызывать один другого или может возникать цепная реакция, когда один возникший кризис вызывает другой, а затем третий и т.д.
Опасность возникновения кризиса в организации существует всегда, поэтому необходимо осуществлять анализ и на его основе постоянный контроль с целью распознавания, прогнозирования и предупреждения кризисных ситуаций.
Кризис в организации не обязательно приводит к негативным последствиям. В таблице 1.1 приведены позитивные и негативные последствия кризиса.
Таблица 1.1 - Возможные последствия наступления кризисного состояния предприятия
Позитивные |
Негативные |
|
Ослабление кризиса |
Усиление кризиса |
|
Финансовое оздоровление организации (преодоление кризисного состояния) |
Переход к новому кризису |
|
Сохранение организации как юридического лица |
Ликвидация организации (распродажа имущества организации) |
|
Реструктуризация (преобразование) организации |
Смена собственника |
Для того чтобы распознать кризис, необходимо своевременно обнаружить симптомы, определить факторы, свидетельствующие о возможности наступления кризиса, и выявить его причины. Средствами обнаружения возможности наступления кризисной ситуации в организации служат интуиция и опыт, анализ и диагностика состояния. Их следует применять на всех этапах существования организации, ибо возможна ситуация, при которой она может войти в глубокий кризис на пике своего развития или при весьма благоприятной обстановке.
2. Современные методы и инструментальные средства кластерного анализа
2.1 Многомерный статистический кластерный анализ
Главное назначение кластерного анализа (от англ. cluster - гроздь, скопление) - разбиение множества исследуемых объектов и признаков на однородные в некотором смысле группы, или кластеры [11]. Методы кластерного анализа можно применять даже тогда, когда речь идет о простой группировке, в которой все сводится к образованию групп по количественному сходству.
Отличием кластерного анализа от других методов классификации является отсутствие обучающей выборки (классификация без обучения). Большое достоинство кластерного анализа в том, что он дает возможность производить разбиение объектов не по одному параметру, а по ряду признаков. Кроме того, многомерный кластерный анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов и позволяет исследовать множество исходных данных практически произвольной природы.
Важное значение многомерный кластерный анализ имеет применительно к совокупностям временных рядов, характеризующих экономическое развитие (например, общехозяйственной и товарной конъюнктуры). Здесь можно выделять периоды, когда значения соответствующих показателей были достаточно близкими, а также определять группы временных рядов, динамика которых наиболее схожа.
Многомерный кластерный анализ можно использовать циклически. В этом случае исследование производится до тех пор, пока не будут достигнуты необходимые результаты. При этом каждый цикл здесь может давать информацию, которая способна сильно изменить направленность и подходы дальнейшего применения кластерного анализа. Этот процесс можно представить системой с обратной связью.
Задача кластерного анализа заключается в том, чтобы на основании данных, содержащихся во множестве X, разбить множество объектов G на m (m - целое) кластеров Q1, Q2, …, Qm так, чтобы каждый объект Gj, принадлежал одному и только одному подмножеству разбиения. При этом объекты, принадлежащие одному и тому же кластеру, должны быть сходными, а объекты, принадлежащие разным кластерам, - разнородными [11].
Решением задачи кластерного анализа являются разбиения, удовлетворяющие критерию оптимальности. Этот критерий может представлять собой некоторый функционал, выражающий уровни желательности различных разбиений и группировок, который называют целевой функцией. Например, в качестве целевой функции может быть взята внутригрупповая сумма квадратов отклонений:
, (2.1)
где Xj - вектор измерений j-го объекта; - средний вектор измерений; j = 1, …, n.
Сходство между объектами Gi, Gj определим через понятие расстояния между векторами изменений Xi, Xj, так как интуитивно понятно, что чем меньше расстояние между объектами, тем они более схожи.
Напомним, что неотрицательная функция d (Xi, Xj) называется функцией расстояния (метрикой), если:
а) для всех Xi и Xj;
б) тогда и только тогда, когда Xi = Xj;
в) ;
г) .
Значение для Xi и Xj называются расстоянием между Xi и Xj и эквивалентно расстоянию между Gi и Gj соответственно выбранным характеристикам F1, F2, F3, …, Fk.
Перечислим часто употребляемые функции расстояний.
Euclidean distances (евклидова метрика) является наиболее популярной и вычисляется по формуле
. (2.2)
Square Euclidean distances (квадрат евклидова расстояния) используют, если необходимо придать больше веса более отдаленным друг от друга объектам [11].
City-block Manhattan distances (манхэттенское расстояние городских кварталов) вычисляют по формуле
. (2.3)
Для этой меры влияние отдельных больших разностей (выбросов) уменьшается, так как они не возводятся в квадрат.
Chebychev distances metric (расстояние Чебышева) рассчитывают по формуле
. (2.4)
и применяют, когда желают определить два объекта как различные, если они различаются по какой-либо одной координате.
Иногда необходимо увеличить или уменьшить вес, относящийся к размерности, для которой соответствующие объекты сильно отличаются. Это достигается с использованием Pover metric (степенного расстояния Минковского), находят по формуле
. (2.5)
Параметр p ответственен за постепенное взвешивание разностей по отдельным координатам, параметр r - за прогрессивное взвешивание больших расстояний между объектами. Если оба параметра равны 2, то это расстояние совпадает с расстоянием Евклида.
Percent disagreement (процент несогласия) используется в тех случаях, когда данные являются категориальными. Это расстояние вычисляется по формуле
. (2.6)
Все приведенные расстояния пригодны, если объекты кластеризации можно представить как точки в k-мерном пространстве. При решении большого количества задач из экономики объекты нельзя представить как точки в k-мерном пространстве. В этом случае целесообразно в качестве расстояния использовать 1 - Pearson r (1 минус коэффициент корреляции Пирсона).
Понятием, противоположным расстоянию, является понятие сходства между объектами Gi и Gj [11].
Неотрицательная вещественная функция S (Xi, Xj) = Sij называется мерой сходства, если:
а) ;
б) ;
в) .
Алгоритмов кластерного анализа достаточно много. Всех их можно подразделить на иерархические и неиерархические.
Иерархические (древовидные) процедуры - наиболее распространенные алгоритмы кластерного анализа по их реализации на ЭВМ. Различают агломеративные (от слова agglomerate - собирать) и итеративные дивизивные (от слова division - разделять) процедуры.
Принцип работы иерархических агломеративных (дивизивных) процедур состоит в последовательном объединении (разделении) групп элементов сначала самых близких (далеких), а затем все более отдаленных (близких) друг от друга. Большинство этих алгоритмов исходит из матрицы расстояний (сходства). К недостаткам иерархических процедур следует отнести громоздкость их вычислительной реализации. На каждом шаге алгоритмы требуют вычисления матрицы расстояний, следовательно, емкой машинной памяти и большого количества времени. В этой связи реализация таких алгоритмов при числе наблюдений, большем нескольких сотен, нецелесообразна, а в ряде случаев и невозможна.
Общий принцип работы агломеративного алгоритма следующий. На первом шаге каждое наблюдение Gi (I = 1, 2, …, n) рассматривается как отдельный кластер. В дальнейшем на каждом шаге работы алгоритма происходит объединение двух самых близких кластеров, и, с учетом принятого расстояния, по формуле пересчитывается матрица расстояний, размерность которой, очевидно, снижается на единицу. Работа алгоритма заканчивается, когда все наблюдения объединены в один класс. Большинство программ, реализующих алгоритм иерархической классификации, предусматривают графическое представление классификации в виде дендограммы.
В программе STATISTICA реализованы так называемые агломеративные методы минимальной дисперсии: joining (tree clustering) (древовидная кластеризация) и two-way joining (двухвходовая кластеризация), а также k-means (дивизивный метод k - средних).
В методе древовидной кластеризации предусмотрены различные правила иерархического объединения в кластеры [11].
- Правило single Linkage (одиночной связи). На первом шаге объединяются два наиболее близких объекта, то есть имеющие максимальную меру сходства. На следующем шаге к ним присоединяется объект с максимальной мерой сходства с одним из объектов кластера, то есть для его включения в кластер требуется максимальное сходство лишь с одним членом кластера.
Метод называют еще методом ближайшего соседа, так как расстояние между двумя кластерами определяется как расстояние между двумя наиболее близкими объектами в различных кластерах. Это правило "нанизывает" объекты для формирования кластеров. Недостатком данного метода является образование слишком больших продолговатых кластеров.
- Правило complete Linkage (полных связей). Данный метод позволяет устранить недостаток, присущий методу одиночной связи. Суть правила в том, что два объекта, принадлежащих одной и той же группе (кластеру), имеют коэффициент сходства, который меньше некоторого порогового значения S. В терминах евклидова расстояния это означает, что расстояние между двумя точками (объектами) кластера не должно превышать некоторого порогового значения d. Таким образом, d определяет максимально допустимый диаметр подмножества, образующего кластер. Этот метод называют еще методом наиболее удаленных соседей, так как при достаточно большом пороговом значении d расстояние между кластерами определяется наибольшим расстоянием между любыми двумя объектами в различных кластерах.
- Правило unweighted pair-group average (невзвешенного попарного среднего). В данном методе расстояние между двумя кластерами определяется как среднее расстояние между всеми парами объектов в них. Метод эффективен, когда объекты в действительности формируют различные группы, однако он работает одинаково хорошо и в случаях протяженных (цепочного типа) кластеров.
- Weighted pair-group average (взвешенное попарное среднее). Метод идентичен предыдущему, за исключением того, что при вычислении размеры соответствующих кластеров используются в качестве весовых коэффициентов. Желательно этот метод использовать, когда предполагается неравные размеры кластеров.
- Unweighted pair-group centroid (невзвешенный центроидный). Расстояние между двумя кластерами определяется как расстояние между их центрами тяжести.
- Weighted pair-group centroid (взвешенный центроидный). Идентичен предыдущему, за исключением того, что при вычислениях используют веса для учета разности между размерами кластеров. Поэтому, если имеются (или подозреваются) значительные отличия в размерах кластеров, этот метод оказывается предпочтительнее предыдущего.
- Ward's method (метод Уорда). В этом методе в качестве целевой функции применяют внутригрупповую сумму квадратов отклонений, которая есть не что иное, как сумма квадратов расстояний между каждой точкой (объектом) и средней по кластеру, содержащему этот объект. На каждом шаге объединяются такие два кластера, которые приводят к минимальному увеличению целевой функции, то есть внутригрупповой суммы квадратов отклонений. Этот метод направлен на объединение близко расположенных кластеров. Замечено, что метод Уорда приводит к образованию кластеров примерно равных размеров и имеющих форму гиперсфер [11].
В модуле "Кластерный анализ" также предусмотрена эффективная двухвходовая процедура (two-way joining), которая позволит кластеризовать сразу в двух направлениях - по наблюдениям и переменным.
Предположим, есть гипотезы относительно числа m кластеров (по переменным или наблюдениям). Тогда можно задать программе, создать ровно m кластеров так, чтобы они были настолько различны насколько это возможно. Именно для решения задач этого типа предназначен метод k-means (k - средних). Гипотеза может основываться на теоретических соображениях, результатах предшествующих исследований или догадке. Выполняя последовательное разбиение на различное число кластеров, можно сравнить качество получаемых решений. Чаще всего начинают анализ, пытаясь разбить совокупность объектов на две группы, затем увеличивают их число до трех, четырех и так далее. Программа начинает с m случайно выбранных кластеров, а затем изменяет принадлежность объектов к ним, чтобы минимизировать изменчивость внутри кластеров и максимизировать изменчивость между кластерами. Алгоритм случайным образом в пространстве назначает центры будущих кластеров. Затем вычисляет расстояние между центрами кластеров и каждым объектом, и объект приписывается к тому кластеру, к которому он ближе всего. Завершив приписывание, алгоритм вычисляет среднее значение для каждого кластера.
Этих средних будет столько, сколько используется переменных для проведения анализа, - k штук. Набор средних представляет собой координаты нового положения центра кластера. Алгоритм вновь вычисляет расстояние от каждого объекта до центов кластеров и приписывает объекты к ближайшему кластеру. Вновь вычисляются центры тяжести кластеров, и этот процесс повторяется до тех пор, пока центры тяжести не перестанут "мигрировать" в пространстве.
Наиболее известный метод представления матрицы расстояний или сходства основан на идее дендограммы, или диаграммы дерева. Дендограмму можно определить как графическое изображение результатов процесса последовательной кластеризации, которая осуществляется в терминах матрицы расстояний. С помощью дендограммы можно графически или геометрически изобразить процедуру кластеризации при условии, что эта процедура оперирует только с элементами матрицы расстояний или сходств. Существует много способов построения дендограмм. В дендограмме объекты располагаются вертикально слева, результаты кластеризации - справа. Значения расстояний или сходств, отвечающих строению новых кластеров, изображаются над горизонтальной прямой поверх дендограмм. Вид дендограммы зависит от выбора меры сходства или расстояния между объектом и кластером и метода кластеризации [11].
Алгоритмы кластерного анализа имеют хорошую программную реализацию в пакете STATISTICA, которая позволяет решить задачи самой большой размерности.
2.2 Нейросетевая кластеризация
В последние несколько лет наблюдается взрыв интереса к нейронным сетям, которые успешно применяются в самых различных областях - бизнесе, медицине, технике, геологии, физике. Нейронные сети. STATISTICA Neural Networks - единственный в мире программный продукт для нейросетевых исследований, полностью переведенный на русский язык [2]. Нейронные сети вошли в практику везде, где нужно решать задачи прогнозирования, классификации или управления. Такой впечатляющий успех определяется несколькими причинами:
- Богатые возможности. Нейронные сети - исключительно мощный метод моделирования, позволяющий воспроизводить чрезвычайно сложные зависимости. В частности, нейронные сети нелинейны по своей природе. На протяжении многих лет линейное моделирование было основным методом моделирования в большинстве областей, поскольку для него хорошо разработаны процедуры оптимизации. В задачах, где линейная аппроксимация неудовлетворительна, линейные модели работают плохо. Кроме того, нейронные сети справляются с "проклятием размерности", которое не позволяет моделировать линейные зависимости в случае большого числа переменных
- Простота в использовании. Нейронные сети учатся на примерах. Пользователь нейронной сети подбирает представительные данные, а затем запускает алгоритм обучения, который автоматически воспринимает структуру данных. При этом от пользователя требуется какой-то набор эвристических знаний о том, как следует отбирать и подготавливать данные, выбирать нужную архитектуру сети и интерпретировать результаты, однако уровень знаний, необходимый для успешного применения нейронных сетей, гораздо скромнее, чем, например, при использовании традиционных методов статистики.
Нейронные сети привлекательны с интуитивной точки зрения, ибо они основаны на примитивной биологической модели нервных систем. В будущем развитие таких нейробиологических моделей может привести к созданию действительно мыслящих компьютеров. Между тем уже "простые" нейронные сети, которые строит система ST Neural Networks, являются мощным оружием в арсенале специалиста по прикладной статистике.
2.2.1 Многослойный персептрон (MLP)
На сегодняшний день многослойный персептрон - одна из самых популярных и используемых нейросетей. Она была предложена в работе Rumelhart, McClelland (1986). MLP работает в двух режимах - режиме обучения и режиме тестирования (работы обученной модели). MLP может иметь различное количество входов, выходов (обычно определяется постановкой задачи), скрытых слоев, нейронов на слое.
В процессе обучения в простейшем случае подбираются веса связей. Процесс преобразования входных величин идет по направлению связей сигнального графа. На входном слое каждая входная величина расходится по связям (по каждой исходящей из вершины входного слоя дуге идет "сигнал” равный входной величине), умножается на вес дуги и суммируется на скрытом слое, а далее преобразуется передаточной функцией нейрона. На выходном слое обычно сигнал только суммируется.
Суть обучения заключается в решении задачи подбора параметров сети (весов связей) для минимизации функции ошибки. Причем из всех обучающих примеров часть используется только для контроля.
Обучение многослойного персептрона. После того, как определено число слоев и число элементов в каждом из них, нужно найти значения для весов и порогов сети, которые бы минимизировали ошибку прогноза, выдаваемого сетью. Именно для этого служат алгоритмы обучения. С использованием собранных исторических данных веса и пороговые значения автоматически корректируются с целью минимизировать эту ошибку. По сути, этот процесс представляет собой подгонку модели, которая реализуется сетью, к имеющимся обучающим данным. Ошибка для конкретной конфигурации сети определяется путем прогона через сеть всех имеющихся наблюдений и сравнения реально выдаваемых выходных значений с желаемыми (целевыми) значениями. Все такие разности суммируются в так называемую функцию ошибок, значение которой и есть ошибка сети. В качестве функции ошибок чаще всего берется сумма квадратов ошибок, т.е. когда все ошибки выходных элементов для всех наблюдений возводятся в квадрат и затем суммируются. При работе с пакетом ST Neural Networks пользователю выдается так называемая среднеквадратичная ошибка (RMS) - описанная выше величина нормируется на число наблюдений и переменных, после чего из нее извлекается квадратный корень - это очень хорошая мера ошибки, усредненная по всему обучающему множеству и по всем выходным элементам [2].
Алгоритмы обучения. Самый известный вариант алгоритма обучения нейронной сети - так называемый алгоритм обратного распространения. Алгоритм обратного распространения наиболее прост для понимания, а в некоторых случаях он имеет определенные преимущества. В алгоритме обратного распространения вычисляется вектор градиента поверхности ошибок. Этот вектор указывает направление кратчайшего спуска по поверхности из данной точки, поэтому если мы "немного" продвинемся по нему, ошибка уменьшится. Последовательность таких шагов (замедляющаяся по мере приближения к дну) в конце концов приведет к минимуму того или иного типа. Определенную трудность здесь представляет вопрос о том, какую нужно брать длину шагов. При большой длине шага сходимость будет более быстрой, но имеется опасность перепрыгнуть через решение или (если поверхность ошибок имеет особо вычурную форму) уйти в неправильном направлении. Таким образом, алгоритм действует итеративно, и его шаги принято называть эпохами. На каждой эпохе на вход сети поочередно подаются все обучающие наблюдения, выходные значения сети сравниваются с целевыми значениями и вычисляется ошибка. Значение ошибки, а также градиента поверхности ошибок используется для корректировки весов, после чего все действия повторяются. Начальная конфигурация сети выбирается случайным образом, и процесс обучения прекращается либо когда пройдено определенное количество эпох, либо когда ошибка достигнет некоторого определенного уровня малости, либо когда ошибка перестанет уменьшаться (пользователь может сам выбрать нужное условие остановки) [2].
В некоторых задачах бывает целесообразно использовать более сложные методы нелинейной оптимизации. В пакете ST Neural Networks реализованы два подобных метода: методы спуска по сопряженным градиентам и Левенберга-Маркара, представляющие собой очень удачные варианты реализации двух типов алгоритмов: линейного поиска и доверительных областей.
Идея метода спуска по сопряженным градиентам состоит в следующем: поскольку мы нашли точку минимума вдоль некоторой прямой, производная по этому направлению равна нулю. Сопряженное направление выбирается таким образом, чтобы эта производная и дальше оставалась нулевой - в предположении, что поверхность имеет форму параболоида (или, грубо говоря, является "хорошей и гладкой"). Если это условие выполнено, то для достижения точки минимума достаточно будет N эпох. На реальных, сложно устроенных поверхностях по мере хода алгоритма условие сопряженности портится, и тем не менее такой алгоритм, как правило, требует гораздо меньшего числа шагов, чем метод обратного распространения, и дает лучшую точку минимума (для того, чтобы алгоритм обратного распространения точно установился в некоторой точке, нужно выбирать очень маленькую скорость обучения).
Метод сопряженных градиентов проводят вычисления на всем наборе данных, поэтому при увеличении числа наблюдений продолжительность одной эпохи сильно растет, но при этом совсем не обязательно улучшается результат, достигнутый на этой эпохе (в частности, если данные избыточны; если же данные редкие, то добавление новых данных улучшит обучение на каждой эпохе). Кроме того, обратное распространение не уступает другим методам в ситуациях, когда данных мало, поскольку в этом случае недостаточно данных для принятия очень точного решения (более тонкий алгоритм может дать меньшую ошибку обучения, но контрольная ошибка у него, скорее всего, не будет меньше).
2.2.2 Сеть Кохонена
В то время как все остальные сети предназначены для задач с управляемым процессом обучения, сети Кохонена главным образом рассчитаны на неуправляемое обучение (Kohonen, 1982; Haykin, 1994; Patterson, 1996; Fausett, 1994) [2].
При управляемом обучении наблюдения, составляющие обучающие данные, вместе с входными переменными содержат также и соответствующие им выходные значения, и сеть должна восстановить отображение, переводящее первые во вторые. В случае же неуправляемого обучения обучающие данные содержат только значения входных переменных. На первый взгляд это может показаться странным. Как сеть может чему-то научиться, не имея выходных значений? Ответ заключается в том, что сеть Кохонена учится понимать саму структуру данных.
Одно из возможных применений таких сетей - разведочный анализ данных. Сеть Кохонена может распознавать кластеры в данных, а также устанавливать близость классов. Таким образом, пользователь может улучшить свое понимание структуры данных, чтобы затем уточнить нейросетевую модель. Если в данных распознаны классы, то их можно обозначить, после чего сеть сможет решать задачи классификации. Сети Кохонена можно использовать и в тех задачах классификации, где классы уже заданы, - тогда преимущество будет в том, что сеть сможет выявить сходство между различными классами.
Другая возможная область применения - обнаружение новых явлений. Сеть Кохонена распознает кластеры в обучающих данных и относит все данные к тем или иным кластерам. Если после этого сеть встретится с наблюдениями, непохожими ни на один из известных образцов, то она не сможет классифицировать такой набор и тем самым выявит его новизну.
Сеть Кохонена имеет всего два слоя: входной и выходной, составленный из радиальных элементов (выходной слой называют также слоем топологической карты). Элементы топологической карты располагаются в некотором пространстве, как правило, двумерном (в пакете ST Neural Networks реализованы также одномерные сети Кохонена) [2].
Обучается сеть Кохонена методом последовательных приближений. Начиная со случайным образом выбранного исходного расположения центров, алгоритм постепенно улучшает его так, чтобы улавливать кластеризацию обучающих данных. В некотором отношении эти действия похожи на алгоритмы выборки из выборки и K-средних, которые используются для размещения центров в сетях RBF и GRNN (Обобщенно-регрессионная нейронная сеть), и действительно, алгоритм Кохонена можно использовать для размещения центров в сетях этих типов. Однако данный алгоритм работает и на другом уровне.
Помимо того, что уже сказано, в результате итеративной процедуры обучения сеть организуется таким образом, что элементы, соответствующие центрам, расположенным близко друг от друга в пространстве входов, будут располагаться близко друг от друга и на топологической карте. Топологический слой сети можно представлять себе как двумерную решетку, которую нужно так отобразить в N-мерное пространство входов, чтобы по возможности сохранить исходную структуру данных. Конечно же, при любой попытке представить N-мерное пространство на плоскости будут потеряны многие детали; однако, такой прием иногда полезен, так как он позволяет пользователю визуализировать данные, которые никаким иным способом понять невозможно.
Основной итерационный алгоритм Кохонена состоит из нескольких последовательных эпох, на каждой из которых нужно обработать каждый из обучающих примеров и выполнить определенный набор операций:
а) выбрать выигравший нейрон (то есть тот, который расположен ближе всего к входному примеру);
б) скорректировать выигравший нейрон так, чтобы он стал более похож на этот входной пример (взяв взвешенную сумму прежнего центра нейрона и обучающего примера) [2].
В алгоритме при вычислении взвешенной суммы используется постепенно убывающий коэффициент скорости обучения, для того чтобы на каждой новой эпохе коррекция становилась все более тонкой. В результате положение центра установится в некоторой позиции, которая удовлетворительным образом представляет те наблюдения, для которых данный нейрон оказался выигравшим.
Свойство топологической упорядоченности достигается в алгоритме с помощью дополнительного использования понятия окрестности. Окрестность - это несколько нейронов, окружающих выигравший нейрон. Подобно скорости обучения, размер окрестности убывает со временем, так что вначале к ней принадлежит довольно большое число нейронов (возможно, почти вся топологическая карта); на самых последних этапах окрестность становится нулевой (т.е. состоящей только из самого выигравшего нейрона). На самом деле в алгоритме Кохонена корректировка применяется не только к выигравшему нейрону, но и ко всем нейронам из его текущей окрестности.
Идея сети Кохонена возникла по аналогии с некоторыми известными свойствами человеческого мозга. Кора головного мозга представляет собой большой плоский лист площадью около 0,5 кв. м. (чтобы поместиться в черепе, она свернута складками) с известными топологическими свойствами. Например, участок, ответственный за кисть руки, примыкает к участку, ответственному за движения всей руки, и таким образом все изображение человеческого тела непрерывно отображается на эту двумерную поверхность.
Недостаток сети Кохонена в том, что сеть может быть использована для кластерного анализа только в том случае, если заранее известно число кластеров.
Преимущество сети в том, что сеть Кохонена способна функционировать в условиях помех, так как число классов фиксировано, веса модифицируются медленно, настройка весов заканчивается после обучения.
2.3 Нечеткие системы кластеризации
Многомерный кластерный анализ занимает одно из центральных мест среди методов анализа данных и представляет собой совокупность подходов, методов и алгоритмов, предназначенных для нахождения некоторого разбиения исследуемой совокупности объектов на подмножества относительно сходных, похожих между собой объектов. При этом исходным допущением для выделения таких подмножеств, получивших специальное название кластеров, которые иногда называют также таксонами или просто классами, служит лишь неформальное предположение о том, что объекты, относимые к одному кластеру, должны иметь большее сходство между собой, чем с объектами из других кластеров [6].
Подобные документы
Характеристика строительной отрасли Краснодарского края. Прогноз развития жилищного строительства. Современные методы и инструментальные средства кластерного анализа. Многомерные статистические методы диагностики экономического состояния предприятия.
дипломная работа [2,4 M], добавлен 20.07.2015Функция и экономическая деятельность предприятия. Сущность методов статистического анализа. Технологии проектирования имитационных математических моделей по оценке и анализу финансового состояния предприятия, экономическая эффективность от их внедрения.
дипломная работа [1,1 M], добавлен 12.12.2011Коэффициенты текущей ликвидности и инвестиционной активности - основные показатели оценки финансового состояния предприятия. Типы задач многокритериальной сравнительной оценки вариантов. Расчет минимума целевой функции поисковым методом Хука-Дживса.
курсовая работа [127,8 K], добавлен 29.05.2019Цели сегментации рынка в маркетинговой деятельности. Сущность кластерного анализа, основные этапы его выполнения. Выбор способа измерения расстояния или меры сходства. Иерархические, неиерархические методы кластеризации. Оценка надежности и достоверности.
доклад [214,7 K], добавлен 02.11.2009Финансовое состояние и прогнозирование финансово-хозяйственной деятельности предприятия. Аудит имущественного положения. Показатели платежеспособности, деловой активности и рентабельности. Безубыточность предприятия и модель финансовой стратегии.
реферат [103,5 K], добавлен 10.07.2011Усовершенствование теории Альтмана. Разработка оптимизационных подходов для минимизации рисков. Реализация программных комплексов для анализа финансового состояния при оценке кредитоспособности предприятия о возможности принятия решения выдавать кредита.
дипломная работа [6,9 M], добавлен 16.02.2016Методы разработки экономико-математических моделей управления развитием предприятия. Разработка модели организационной структуры и системы управления развитием предприятия на примере ООО "Метра". Оптимизация использования фонда развития предприятия.
курсовая работа [76,7 K], добавлен 11.09.2008Организационно-функциональная структура предприятия ООО "Колорит", его характеристика, основные технико-экономические показатели, дерево целей и функциональные задачи. Математическая модель прибыли предприятия, разработка алгоритма и анализ результатов.
курсовая работа [159,9 K], добавлен 21.01.2010Проведение финансово-экономического анализа предприятия: системы расчетов по продукции и работе, банковского кредитования, налогообложения, ликвидности, платежеспособности. Разработка математической модели оптимального планирования выпуска продукции.
дипломная работа [4,0 M], добавлен 21.03.2010Показатели наличия и структуры основных средств, виды их оценки. Показатели состояния и динамики основных производственных фондов. Показатели использования основных средств. Статистический анализ динамики использования основных средств. Индекс Струмилина.
курсовая работа [88,1 K], добавлен 25.02.2013