Теория принятия решений

Особенности теории предпочтения, стандартные типы закономерностей процессов обнаружения данных. Разнообразие задач классификации, процедура ее описания. Методы исследования и виды структур данных. Основные положения и методики статистического анализа.

Рубрика Экономика и экономическая теория
Вид курсовая работа
Язык русский
Дата добавления 24.06.2009
Размер файла 218,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

30

Теория принятия решений

1. Предпочтение и полезность

Теория предпочтения базируется на понятии бинарного отношения. Бинарное отношение R на непустом множестве X есть подмножество множества всех упорядоченных пар элементов из X. Множество упорядоченных пар задается декартовым произведением X * X = {(x, y)/ x X, y Y}. Запись xRy означает, что пара (x, y) R X*X, означает

Для бинарных отношений устанавливаются следующие свойства:

1. Рефлексивность. Если xRx для каждого x X; нерефликсивность: для каждого x X.

2. Симметричность, если из xRy следует yRx. Ассиметричность, если из xRy следует

3. Транзитивность, если из xRy и yRz следует xRz. Отрицательная транзитивность: если из и следует .

4. Связность, если xRy или yRx (полная); слабая: если из x y следует xRy или yRx.

В теории предпочтений используется два основных бинарных отношения на множестве X:

1. Отношение нестрогого предпочтения (x y; x либо предпочтительнее y, либо безразлично к x; y не предпочтительнее x).

2. Отношение предпочтения ( x предпочтительнее y).

Отношения предпочтения и безразличия могут быть определены через нестрогое предпочтение следующим образом:

т. и т.т. к. и неверно, что .

xy т. и т. т. к. xy и yx.

Если за основу берется отношение , тогда и можно определить:

xy тогда и только тогда, когда неверно xy и yx.

xy тогда и только тогда, когда xy, или неверно xy и неверно yx.

Для отношения целесообразно предположить, что оно ассиметрично. Для отношения - связность. Из ассиметричности отношения следует, что отношение безразличия рефлексивно (xx) и симметрично по определению. Отношение предпочтения на X транзитивно, если из того, что xy, и yz следует, что xz. Однако, это может быть не всегда.

Для того, чтобы работать с предпочтением вводится специальная вещественная функция u, определенная на X, которая называется функцией полезности для отношения предпочтения на X, если u(x)>u(y) для любого x и y, таких что xy и называется совершенной функцией полезности для отношения на X, если для всех x и y справедливо неравенство u(x)>u(y) тогда и только тогда, когда xy.

1.1 Data Mining

Data Mining - это процесс обнаружения в данных:

1. Ранее неизвестных

2. Нетривиальных

3. Практически полезных

4. Доступных интерпретации значений, необходимых для принятия решений в различных сферах человеческой деятельности.

Обычно выделяют пять стандартных типов закономерностей, которые позволяют определять методы Data Mining:

1. Ассоциация.

2. Последовательность

3. Классификация.

4. Кластеризация

5. Прогнозирование

Ассоциация имеет место в том случае, если несколько событий связаны между собой. Если существует цепочка, связанных во времени событий, то говорят о последовательности. С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит объект. Кластеризация отличается тем, что сами группы заранее неизвестны. Прогнозирование это предсказание поведения объектов (часто на основе деревьев решений).

Обычно выделяют восемь классов систем Data Mining:

1. Предметно-ориентированные системы. Ориентированы на предметную область. Обычно минимально используют математический аппарат (300 - 1000$).

2. Деревья решений (1000-10000$).

3. Статистические методы. Включают корреляционный, дисперсионный, регрессионный, факторный и т.д. анализ (Statistica) (1000 - 15000$).

4. Нейронные сети (1500 - 8000$).

5. Системы рассуждений на основе аналогий или метода ближайшего соседа.

6. Эволюционное программирование. В таких системах гипотезы о виде зависимости целевой переменной от других переменных строится как эволюция в мире программ. Когда система находит программу более или менее удовлетворяющую искомой зависимости, она начинает вносить в нее небольшие изменения и отбирает среди построенных дочерних программ, те которые повышают точность (до 5000).

7. Генетические алгоритмы (около 10000)

8. Алгоритмы ограниченного перебора. Эти алгоритмы вычисляют частоты простых логических событий в подгруппах данных (около 4000$).

2 Деревья решений

На рис. № графически представлена задача принятия решений в виде дерева решений.

Двигаясь по дереву решений сверху вниз, лицо, принимающее решение, должно сначала либо выбрать эксперимент стоимостью , либо не проводить экспериментов, что обозначается через , а соответствующие затраты (нулевые) - через . При условии выбора данного эксперимента наблюдается исход . Эксперимент приводит к различным исходам, вероятности появления которых описываются с помощью распределения условных вероятностей . Если исход известен, должно быть выбрано следующее решение . После такого выбора наличие внешних условий задается распределением условных вероятностей , где индекс r относится к эксперименту, t обозначает исход, а i - решение. В результате всех этих шагов получается исход x. Вероятность различных исходов численно выражается через распределение условных вероятностей , где индекс j относится к внешним условиям. Относительная предпочтительность возможных исходов задается функцией полезности .

Дерево решений на рис. № имеет только два типа узлов: узлы решений, обозначенные квадратиками, и узлы возможностей, обозначенные кружками. Анализ дерева решений осуществляется снизу вверх, используя принцип, согласно которому следует максимизировать ожидаемую полезность. В узлах возможностей с помощью полученного для данного узла распределения вероятностей вычисляется ожидаемая полезность, соответствующая рассматриваемому узлу. Для любого узла решений лицо, принимающее решение, выбирает альтернативу, которая приводит к наибольшей ожидаемой полезности, и приписывает полученную полезность узлу решений.

Так обозначим через ожидаемую полезность проведенного эксперимента при наблюдаемом исходе , выбранном решении и внешних условиях , а через - ожидаемую полезность выбранного эксперимента и наблюдаемого исхода . В принятых обозначениях является функцией полезности . Тогда для дискретных задач:

Для непрерывного случая знак суммирования необходимо заменить интегралом. Аналогично ожидаемая полезность выбранного эксперимента , наблюдаемого исхода и выбранного решения равна:

.

В узле решений выбирается решение , приводящее к максимальной ожидаемой полезности. Следовательно,

Сделав еще один шаг в обратном направлении, получим выражение для ожидаемой полезности выбранного эксперимента :

Таким образом, наилучшим является эксперимент , который позволяет получить максимальное значение ожидаемой полезности, определяемое из соотношения:

.

Пусть выбран эксперимент и реализовался исход ; тогда оптимальное решение определяется с помощью выражения:

.

Любую задачу принятия решений можно представить последовательностью узлов решения и узлов возможностей. Следовательно, используя данный подход - вычисления ожидаемых полезностей в узлах возможностей и максимизации ожидаемой полезности в узлах решений, - можно исследовать любую задачу.

Таким образом, в основе теории принятия решений лежит предположение о том, что выбор альтернатив должен определяться двумя факторами:

представлениями лица, принимающего решение о вероятностях различных возможных исходов (последствий), которые могут иметь место при выборе того или иного варианта решения;

предпочтениями, отдаваемыми им различным возможным исходам.

Чтобы учесть оба фактора потребуется представить в виде цифр а) суждения о возможных последствиях (опираясь на понятие субъективной вероятности) и б) высказывания о предпочтениях (используя теорию полезности).

Алгоритм CLS

Для построения деревьев решений часто используется алгоритм CLS. Этот алгоритм циклически разбивает обучающие примеры на группы/классы в соответствии с переменной, имеющей наибольшую классифицирующую силу. Каждое подмножество примеров (объектов), выделяемое такой переменной, вновь разбивается на классы с использованием следующей переменной с наибольшей классифицирующей способностью и т.д. Разбиение заканчивается, когда в подмножестве оказываются объекты лишь одного класса. В ходе процесса образуется дерево решений. Пути движения по этому дереву с верхнего уровня на самые нижние определяют логические правила в виде цепочек конъюнкций.

Рассмотрим следующий пример. Проводится антропологический анализ лиц людей двух национальностей по 16 признакам.

Х1 (голова) - круглая - 1, овальная - 0.

Х2 (уши) - оттопыренные - 1, прижатые - 0.

Х3 (нос) - круглый -1, длинный - 0.

Х4 (глаза) - круглые - 1, узкие - 0.

Х5 (лоб) - с морщинами -1, без морщин - 0.

Х6(носогубная складка) - есть - 1, нет - 0.

Х7(губы) - толстые - 1, тонкие - 0.

Х8 (волосы) - есть - 1, нет - 0.

Х9(усы) - есть - 1, нет - 0.

Х10 (борода) - есть - 1, нет - 0.

Х11(очки) - есть - 1, нет - 0.

Х12(родинка) - есть - 1, нет - 0.

Х13(бабочка) - есть - 1, нет - 0.

Х14(брови) - поднятые вверх - 1, опущенные - 0.

Х15(серьга) - есть - 1, нет - 0.

Х16(трубка) - есть - 1, нет - 0.

Пусть имеется 16 объектов. Объекты с номерами 1 - 8 относятся к первому классу, 9 - 16 ко второму классу. Далее приводится таблица со значениями признаков для этих объектов.

X1

X2

X3

X4

X5

X6

X7

X8

X9

X10

X11

X12

X13

X14

X15

X16

Кл.

1

0

1

0

0

1

1

0

0

1

1

1

0

1

1

0

1

1

2

1

0

1

1

0

0

1

1

0

1

1

1

0

0

1

0

1

3

0

0

0

1

1

1

0

1

1

0

1

1

1

0

0

1

1

4

0

1

1

0

0

1

1

0

0

1

1

0

0

1

1

1

1

5

1

1

0

1

0

1

0

1

0

1

0

1

0

1

1

0

1

6

0

0

1

0

1

1

1

0

1

0

1

0

1

0

1

1

1

7

1

1

0

1

0

0

0

0

1

1

0

0

1

1

1

1

1

8

0

0

1

1

0

1

1

0

1

1

1

0

1

0

1

0

1

9

0

0

1

1

0

1

0

0

1

1

0

1

1

1

0

1

2

10

0

1

1

0

0

1

1

0

0

1

1

0

1

1

1

0

2

11

1

1

1

0

1

1

0

0

1

1

0

1

0

1

0

0

2

12

1

0

1

0

1

0

1

0

1

0

1

1

0

1

1

0

2

13

1

1

0

1

1

0

1

1

1

0

0

0

1

0

0

1

2

14

0

1

1

1

0

0

1

0

1

0

1

0

0

1

1

1

2

15

0

1

0

1

0

1

1

1

0

1

0

0

1

1

0

1

2

16

0

1

1

1

0

0

1

1

0

0

1

0

1

0

1

1

2

Объекты для этой таблицы (надо нарисовать).

Основное требование к математическому аппарату обнаружения закономерностей в данных заключается в интерпретации результатов. Правила, выражающие закономерности, формулируются на языке логических высказываний:

ЕСЛИ А ТО В,

ЕСЛИ (условие1) И (условие2) И … И (условиеN) ТО (условиеN+1),

где условиеi может быть Xi =C1, Xi < C2, Xi > C3, C4 < Xi < C5 и т.д. Здесь Xi - переменная, Cj - константа.

Так классификация лиц в рассматриваемом примере может быть произведена с помощью четырех логических правил:

1. ЕСЛИ (голова овальная) И (есть носогубная складка) И (есть очки) И (есть трубка) ТО (класс1).

2. ЕСЛИ (глаза круглые) И (лоб без морщин) И (есть борода) И (есть серьга) ТО (класс1)

3. ЕСЛИ (нос круглый) И (лысый) И (есть усы) И (брови подняты вверх) ТО (класс2).

4. ЕСЛИ (оттопыренные уши) И (толстые губы) И (нет родинки) И (есть бабочка) ТО (класс2).

Математическая запись этих правил выглядит следующим образом:

Такие правила имеют две основных характеристики: точность и полноту.

Точность правила - это доля случаев, когда правило подтверждается, среди всех случаев его применения (доля случаев В среди случаев А).

Полнота - это доля случаев, когда правило подтверждается, среди всех случаев, когда имеет место объяснимый исход (доля случаев А среди случаев В).

Правила могут иметь какие угодно сочетания точности и полноты. За исключением одного случая, если точность равна нулю, то равна нулю и полнота, и наоборот.

Точное, но неполное правило: Люди смертны (А - человек, В - смертен).

Неточное, но полное правило: Студенты посещают занятия (А - студент, В - посещает).

не только в отдельных признаках, но и в сочетании признаков. Это основное преимущество этих методов перед многими другими методами в ряде случаев.

Вернемся к примеру.

На первом шаге определяется признак с наибольшей дискриминирующей силой. Для этого определяется отношение вхождения объектов в разные классы в соответствии со значениями разных признаков:

Признаки

Х1

Х2

Х3

Х4

Х5

Х6

Х7

Х8

Х9

Х10

Х11

Х12

Х13

Х14

Х15

Х16

Кл1/Кл2

3/3

4/6

4/6

5/5

3/3

6/4

4/6

3/3

5/5

6/4

6/4

3/3

5/5

4/6

4/6

5/5

Здесь одинаковой и максимальной силой обладают сразу семь признаков: Х2, Х3, Х6, Х7, Х10, Х11, Х14, Х15. Поэтому случайным образом выбираем один из них в качестве ведущего. Пусть это будет Х6. От этого признака отходит две ветви. Первая для значения Х6 = 0, а вторая - для Х6 = 1.

Х5

Х6

Х7

Х8

Х9

Х10

Х11

Х12

0

0

1

1

0

1

1

1

Объекты

Х1

Х2

Х3

Х4

Х13

Х14

Х15

Х16

2

1

0

1

1

0

0

1

0

7

1

1

0

1

0

0

0

0

1

1

0

0

1

1

1

1

12

1

0

1

0

1

0

1

0

1

0

1

1

0

1

1

0

13

1

1

0

1

1

0

1

1

1

0

0

0

1

0

0

1

14

0

1

1

1

0

0

1

0

1

0

1

0

0

1

1

1

16

0

1

1

1

0

0

1

1

0

0

1

0

1

0

1

1

2/2

1/3

1/3

2/3

2/2

1/4

1/4

1/2

1/3

2/0

1/3

1/1

1/2

1/2

2/3

1/3

Для ветви Х6 = 0 окончательное решение дает признак Х10. Он принимает значение 1 на объектах 2 и 7 из первого класса и значение 0 на объектах 12, 13, 14 и 16 второго класса. Ветвь Х6 = 1 устроена значительно более сложно и требует дополнительных ветвлений. В результате получаем дерево.

Алгоритм Кора

В алгоритме Кора анализируются все возможные конъюнкции вида:

где T - элементарное событие (Xi =C1, Xi < C2, Xi > C3, C4 < Xi < C5 и т.д.). l0 - некоторое наперед заданное число (часто 3).

Среди конъюнкций выделяются те, которые верны на обучающей выборке, чаще чем некоторый порог 1 - 1 для одного из классов и верны реже чем 2 для другого класса.

Если коэффициент корреляции между какими-либо двумя выделенными конъюнкциями по модулю более 1 - 3, то оставляется наилучшая из них с точки зрения различения классов, а если конъюнкции эквивалентны, то более короткая, имеющая меньшее l, или просто отобранная ранее. Параметры 1, 2,3 подбираются так, чтобы общее число отобранных (информативных) конъюнкций не превосходило бы некоторого числа n. Чтобы классифицировать новое наблюдение x, для него подсчитывается ni - число характерных для i - го класса конъюнкций, которые верны в точке x. Если ni является максимальным из всех, то принимается решение о принадлежности к i-му классу. Для рассмотренного примера решение может быть получено с помощью алгоритма Кора для l0=4, 1 > 0.5.

Алгоритм случайного поиска с адаптацией (СПА), который допустим для зависимых событий, заключается в следующем.

Имеется множество возможных событий Из этого множества требуется отобрать цепочки конъюнкций

заданной длины l, максимизирующей некоторый критерий J. Прежде всего проводится серия опытов по случайному определению состава цепочек конъюнкций. Затем для цепочек вычисляются значения критерия J. Цепочка с максимальным значением критерия поощряется увеличением вероятности выбора, входящих в нее событий в следующих опытах. Цепочка с наименьшей величиной критерия наказывается соответствующим образом. Вся процедура повторяется до тех пор, пока события отчетливо не поляризуются по вероятности их выбора для испытаний.

Алгоритм СПА избегает полного перебора событий, требующего просмотра их комбинаций в цепочке. Его трудоемкость зависит от заданных условий: количества испытаний, мер поощрения и наказания. Показано, что СПА дает близкое к оптимальному решение за число шагов сравнимое с

3. Классификация

При выполнении свойства рефлективности, симметричности и транзитивности отношение называется отношением эквивалентности. Если же выполняются только отношения рефлективности и симметричности, то отношение называется отношением толерантности.

Любое отношение порождает разбиение множества, для которого оно определено, на непересекающиеся классы. Объекты, попадающие в общий класс эквивалентности в известном смысле неразличимы, то есть одинаковы. Отношение же толерантности выделяет сходные, но все же различающиеся объекты Поэтому упрощенно класс/образ можно определить следующим образом. Объекты, для которых выполняется отношение эквивалентности или по крайней мере толерантности (по некоторому набору свойств), в своей совокупности составляют класс/образ.

Как правило, при решении задачи классификации имеется набор или алфавит классов: A = {A1, …, Am}, где Ai - отдельный класс, m - общее число классов.

Часто рассматривается задача отнесения к одному из двух классов (m = 2). Эта задача называется задачей дихотомии.

Каждый класс может быть представлен некоторым набором объектов или реализаций. Совокупность различных реализаций для всех классов образует множество возможных реализаций:

B = {b1, …, bT}.

В большинстве задач T конечно и T >> m.

При введении понятия класса указывалось, что в класс объединяются объекты имеющие эквивалентные или толерантные свойства. Все эти свойства и составляют признаки класса. Обычно признаки задаются своими количественными значениями. Для простоты считают, что все классы характеризуются одним и тем же количеством признаков N. Если для некоторого класса признаки отсутствуют, то им задают нулевые значения или значение null. Обозначим совокупность признаков:

X = {x1, …, xN}.

Числовые значения признаков изменяются в некоторых пределах. При дискретном рассмотрении, каждый признак xk может принимать одно значение из совокупности:

Каждый объект задается совокупностью значений признаков:

Разнообразие задач классификации можно охарактеризовать тремя параметрами: способом, которым представляется обучающее множество; типом правила классификации, которое должен построить классификатор; видом описания классифицируемых объектов.

Например, ячейка А включает в себя те задачи, в которых классификация должна вырабатываться на основе единственной выборки, при условии, что каждый объект задается единственной точкой в евклидовом пространстве, и в предположении, что для построения правила классификации может потребоваться полное описание объекта.

3.1 Процедура предъявления

Рассматривается два случая:

1. Классификация на основе единственной выборки.

2. Классификация на основе последовательности выборок.

В случае единственной выборки несколько объектов из известных классов предъявляются системе до начала классификации. На основе наблюдений этой выборки вырабатывается правило классификации, применяемое затем к объектам, которые предопределяются этой выборкой, но в ней не содержатся. Само правило классификации далее не меняется, даже когда наблюдается ошибка классификации.

При использовании последовательности выборок, информация, получаемая первоначальной выборкой, является лишь предварительной, и учитывается при построении соответствующего правила классификации. Затем берется новая выборка (возможно из одного объекта), к ней применяется имеющееся правило классификации. Оценивается результат и если нужно отыскивается новое правило. Эту процедуру можно повторять сколько угодно, пока не будет удовлетворен некоторый критерий работы правила.

3.2 Правило классификации

Существует два общих метода классификации:

1. Параллельный

2. Последовательный

Для простоты предположим, что объект можно описать при помощи вектора символов.

В параллельной процедуре производится ряд тестов над всеми компонентами вектора, а затем делается предположение о принадлежности объекта на основе объединенного результата всех тестов.

В процедуре последовательной классификации сначала проверяется некоторое подмножество компонент вектора описания, а затем в зависимости от результатов этих тестов или проводится классификация или выбирается новая последовательность тестов и новое подмножество компонент, после чего процесс повторяется.

Определим формально параллельную классификацию.

Пусть

-

вектор описания объекта и объекты могут классифицироваться в С классов. В случае параллельной классификации существует множество функции не более чем n переменных. В алгоритме классификации объект относится к классу j тогда и только тогда, когда:

Процедуру последовательной классификации удобно представлять в виде дерева, указывающего в какой последовательности должны производиться тесты.

Существенным недостатком последовательной процедуры является то, что она подвержена ошибкам в случае ненадежности отдельных тестов.

3.3 Варианты описания объектов

В большинстве задач классификации объект рассматривается как набор результатов испытаний. Обычно считается, что измерения определяют евклидово пространство описаний и каждый объект представляется точкой в этом пространстве. Это позволяет комбинировать измерения, чтобы определить для каждого класса местоположение типичной точки в пространстве состояний и оценивать расстояние до этой точки других объектов.

В других случаях нет разумной интерпретации расстояния (Например, пол, место рождения). В этом случае описание объекта - это список признаков. Тогда объект можно представить в виде вектора описания, но математические операции с векторами будут иметь иной смысл нежели с расстояниями.

Структурные описания дают другой способ описания. По существу они выделяют взаимоотношения между компонентами.

3.4 Байессовская процедура классификации

Пусть A, B, C, - дискретные события. Будем употреблять следующие обозначения вероятностей появления комбинаций событий:

P(A) - вероятность появления события A.

P(A, B) - вероятность совместного появления событий A, B.

P(B/A) - вероятность появления события B при условии появления события A.

Совместная вероятность двух независимых событий равна:

В байессовской задаче исходным является фиксированное множество гипотез которые определяют все возможные состояния и исключают друг друга. С каждой гипотезой связана субъективная вероятность того что она выполняется.

Отсюда:

(взаимно исключающие события),

(полнота).

Истинна или нет гипотеза H нельзя проверить прямым наблюдением. Предполагается, однако, что можно провести эксперимент, дающий множество наблюдаемых исходов. С каждой гипотезой связана известная вероятность наблюдения каждого из возможных исходов эксперимента, то есть . Поскольку эксперимент может иметь только один исход, события взаимно исключающие. Отсюда:

С учетом того, что можно находиться только в одном состоянии:

Рассмотрим пример. Пусть гипотеза заключается в том, идет или не идет дождь, а эксперимент заключается в наблюдении следующих событий за окном: а. На улице нет людей. Б. По крайней мере у одного человека на улице есть зонт. В. на улице есть люди, и ни у кого нет зонтов. Будем считать, что в пасмурный осенний день вероятность того идет или не идет дождь следующая:

- вероятность, что идет дождь - 0.2.

- вероятность того, что дождь не идет - 0.7.

Если идет дождь, то более вероятно, что улица пуста, а если кто-то должен выйти на улицу, то он вероятнее всего возьмет зонтик. Пусть известно:

- дождь, у людей на улице не менее одного зонта - 0.4.

- дождь, все люди на улице без зонтов - 0.2.

- дождь, улица пуста - 0.4.

- нет дождя, но у людей на улице не менее одного зонта - 0.05.

- нет дождя, все люди на улице без зонтов - 0.75.

- нет дождя, на улице пусто - 0.2.

Мы видим человека с зонтом. Какова вероятность того, что идет дождь. Задача состоит в том, чтобы вычислить вероятность того, что идет дождь при условии, что на улице есть человек с зонтом.

По определению:

.

Откуда:

Поскольку:

то

Для нашего примера получим:

P(дождь/наблюдается зонтик) = 0.77.

В общем случае будем иметь:

Это и есть байесовское правило оценки вероятности осуществления гипотезы на основе наблюдения n событий. Оно применимо, если существует фиксированное множество гипотез, и если для них известна вероятность различных наблюдений.

При применении байесовского правила в параллельной классификации роль гипотез играют названия классов, а роль экспериментального наблюдения - описание классифицируемого объекта.

Пусть x обозначает событие «наблюдается объект с описанием x», а j - событие «классифицируемый объект принадлежит классу j». Объект x относится к классу j тогда и только тогда, когда:

В процедуре классификации пространство описаний D разбивается на такие области {Rj}, что для всех точек из Rj удовлетворяется указанное соотношение. Затем объект можно классифицировать в зависимости от того куда попал x.

Для того чтобы учесть ошибку классификации, введем c(i, j) - цену неправильного отнесения объекта класса j к классу i. Если процедура не относит точку x к области i, то наблюдаемые потери EL из-за ошибочной классификации точки x равны:

Для минимизации ожидаемых потерь вследствии ошибочной классификации области определяются так, чтобы минимизировать это выражение по всем точкам пространства D. В результате можно определить точную границу между областями Уравнением границы будет

В более общем случае необходимо различать ошибки первого и второго рода. Будем считать, что существует гипотеза , предполагающая, что событие x принадлежит к подмножеству R1 и H2 = (xR2) - событие x принадлежит R2.

Считается, что совершается ошибка первого рода, если отклоняется гипотеза H1, хотя она справедлива, и ошибка второго рода, если принимается гипотеза H1, тогда как справедлива оказывается гипотеза H2. Часто ошибку первого рода называют пропуском цели, а второго рода - ложной тревогой. Очевидно, что эти ошибки редко бывают равноценны.

В этом случае целесообразно использовать правило, которое минимизировало бы риск R, или среднюю стоимость принятия решения, определяемую по формуле:

где стоимость и вероятность ошибок первого и второго рода, соответственно.

3.5 Геометрический метод классификации

Геометрический метод основан на некоторой функции подобия S объекта данному классу. Эта функция определяет меру близости объекта bj с координатами к множеству эталонов:

Обычно за меру близости принимается среднеквадратичное расстояние:

Метрика d или метод измерения расстояния в каждом случае может быть разным. Однако, метрика должна удовлетворять условиям:

Чаще всего рассматривают евклидову метрику:

либо метрику, в которой вводятся весовые коэффициенты для выделения более или мене существенных признаков.

Решающее правило для классификации будет формулироваться следующим образом. Пусть даны два класса A1 , A2 . Для определения принадлежности какого-то объекта x к классу определяется величина:

Решающее правило состоит в следующем:

и наоборот. В общем случае:

Существует несколько модификаций этого подхода.

Методы сравнения с образцом. Именно то, что мы рассмотрели. В этих методах группы объектов рассматриваются как эталоны и используется только одна операция - определения сходства этих эталонов с неизвестным объектом. Сходство выражается геометрически через расстояние в многомерном пространстве признаков.

Метод сравнения с прототипом. Этот метод применяется, когда классы объектов Ci отображаются в пространстве признаков компактно или геометрическими группировками. В таком случае обычно в качестве точки прототипа выбирается центр геометрической группировки класса, определенный как:

где Ni - количество векторов в соответствующем классе.

Для классификации неизвестного объекта x находится ближайший прототип и объект относится к тому же классу, что и этот прототип. В качестве меры близости могут применяться различные меры расстояния.

Метод k ближайших соседей. При классификации неизвестного объекта x находится заданное количество k ближайших к нему объектов с известной классификацией. Решение об отношении объекта x к тому или иному классу принимается путем анализа информации об этой известной принадлежности его ближайших соседей, например, с помощью простого подсчета голосов. Показано, что вероятность ошибки для этого метода превышает ошибки правил Байеса не более, чем в два раза.

Алгоритм вычисления оценок. Принцип алгоритма вычисления оценок (АДО) состоит в вычислении оценок сходства, характеризующих близость классифицируемого и эталонного объекта по системе ансамблей признаков, представляющих собой систему подмножеств заданных признаков.

Используемые подпространства (сочетания признаков) называют опорными множествами или множествами частичных описаний объектов. Сходство между классифицируемыми и эталонными объектами определяется через обобщенную близость. Эта близость представляется комбинацией близостей, вычисленной на множестве частичных описаний. На этапе обучения определяются:

- правила вычисления близости объектов;

- степени важности того или иного эталона;

- значимость вклада опорного множества и т. д.

5. Методы исследования структур данных

Это анализ многомерных данных без использования обучающих последовательностей, направленный на выявление взаимоотношений между объектами и признаками элементов данных. Эти методы обычно подразделяются на два класса:

Методы визуализации данных

Методы автоматического группирования

1. Линейные методы снижения размерности.

1. Факторный анализ объектов и признаков.

2. Нелинейные отображения.

2. Кластерный анализ объектов и признаков.

3. Многомерное шкалирование.

3. Иерархическое группирование.

4. Заполняющие пространство кривые.

4. Определение точек сгущения

5. 1 Методы визуализации

Основное назначение рассматриваемых методов - дать визуальное представление о структуре изучаемых данных. Визуализация данных предполагает получение отображение объектов на ось, плоскость или трехмерный объем, максимально отображающих особенности распределения объектов в многомерном пространстве.

5.1.1 Линейные методы снижения размерности

Линейные методы снижения размерности направлены на нахождение нового координатного пространства, в котором каждая координатная ось является линейной комбинацией исходных признаков. Линейная комбинация хорошо интерпретируется - коэффициенты в уравнении трактуются как веса или вклады признаков.

В качестве осей нового пространства часто используются первые главные компоненты, на основе которых реализуется метод главных компонент (МГК). МГК осуществляет переход к новой системе координат в исходном пространстве признаков , которая является системой ортонормированных комбинаций:

mi - математическое ожидание признака xi.

Линейные комбинации выбираются так, что среди линейных нормализованных комбинаций исходных признаков первая главная компонента обладает наибольшей дисперсией. Геометрически это выглядит как ориентация новой координатной оси y1 вдоль направления наибольшей вытянутости эллипсоида рассеивания объектов исследуемой выборки в пространстве исходных признаков. Вторая главная компонента имеет наибольшую дисперсию среди всех оставшихся линейных преобразований, некоррелированных с первой главной компонентой. Она интерпретируется как направление наибольшей вытянутости эллипсоида рассеивания перпендикулярное первой компоненте. Следующие главные компоненты находятся по аналогичной схеме.

Вычисление коэффициентов главных компонент основаны на том факте, что векторы

являются собственными векторами корреляционной матрицы S. В свою очередь, соответствующие собственные числа этой матрицы равны дисперсиям проекций множества объектов на оси главных координат.

5.1.2 Факторный анализ

Факторный анализ основан на объяснении, имеющихся между признаками корреляций. Основная модель факторного анализа записывается системой равенств:

.

Значения каждого признака могут быть выражены взвешенной суммой факторов , количество которых меньше числа исходных признаков и остаточным элементом с дисперсией действующей только на , который называют специфическим фактором.

Коэффициенты называют нагрузкой i-переменной на j-й фактор или нагрузкой j-го фактора на i-переменную. В простой модели факторного анализа считается, что факторы взаимно независимы и их дисперсии равны 1, а случайные величины также независимы друг от друга и от какого-либо фактора. Максимальное возможное число факторов m при заданном числе признаков p определяется неравенством:

которое должно выполняться, чтобы задача не вырождалась в тривиальную. Сумму квадратов нагрузки называют общностью xi и чем больше это значение, тем лучше описывается признак xi факторами fj. Общность есть часть дисперсии признака, которую объясняют факторы.

В свою очередь общность показывает, какая часть дисперсии исходного признака остается необъясненной при используемом наборе факторов, и данную величину называют специфичностью признака. Таким образом:

Дисперсия признака = общность + специфичность ().

Основное выражение факторного анализа показывает, что коэффициент корреляции любых двух признаков можно выразить суммой произведения нагрузок некоррелированных факторов:

Задачу факторного анализа нельзя решить однозначно. Равенства в факторной модели не поддаются непосредственной проверке, так как p исходных признаков задаются через p+m других переменных - простых и специфических факторов.

5.1.3 Нелинейные отображения

Нелинейные методы отображения данных в пространство меньшей размерности, обычно пренебрегают аналитическими выражениями преобразования исходного пространства признаков в новые координатные оси, позволяющие интерпретировать новое координатное пространство. Они не скованы никакими ограничениями на вид допустимых преобразований. Особенности структуры данных в этих методах понимаются достаточно широко. Это приводит к тому, что алгоритмы нелинейного отображения могут быть направлены не обязательно на минимальное искажение всех попарных расстояний между объектами в исходном пространстве признаков, а, например, на максимально точное отображение больших или малых расстояний.

Для получения нелинейных отображений y(x) задается некоторый критерий искажения структуры данных J(y(x)) и решается задача определения минимума.

Большинство мер искажения основано на сравнении попарных расстояний между объектами в исходном пространстве и пространстве отображений.

где - расстояние между объектами в исходном пространстве , - расстояние между отображениями этих объектов в

Если принять a < 0 , то он станет чувствительным к ошибкам отображения малых расстояний, в противном случае точнее отображаются большие расстояния.

Более разнообразные возможности представляет двухпараметрический критерий:

Такой критерий удобен, если при отображении требуется большие расстояния увеличить, а малые уменьшить. Тогда a1 < 0, a2 > 0.

Здесь нейронные сети и окончание Data Mining

Структурные методы классификации

Структурный подход позволяет не только отнести объект к определенному классу, но и описать те его свойства, которые исключают его отнесение к другому классу. Одним из таких подходов является подход, основанный на грамматическом анализе.

5. Статистический анализ

5.1 Шкалы измерения

Измерение в терминах производимых операций - это приписывание объекту числа/значения по определенному правилу. Это правило устанавливает соответствие между измеряемым свойством объекта и результатом измерения признака.

Важно, что точность, с которой признак отражает исследуемое свойство, зависит от процедуры измерения.

Традиционно различают четыре типа шкал измерения:

1. Номинативная, или номинальная, или шкала наименований.

2. Порядковая или ординальная шкала.

3. Интервальная или шкала равных интервалов.

4. Шкала равных отношений.

Номинативная шкала (неметрическая) - это шкала, классифицирующая по названию. Название не измеряется количественно. Оно лишь позволяет отличить один объект от другого. Это способ классификации объектов, основанный на распределении их по ячейкам классификации. В ее основе лежит процедура обычно не ассоциируемая с измерением. Пользуясь определенным правилом, объекты группируются по различным классам так, чтобы внутри определенного класса они были идентичны по измеряемому свойству. Каждому классу дается наименование (обычно числовое). Затем каждому объекту присваивается соответствующее обозначение.

Простейший случай номинативной шкалы - дихотомическая шкала, состоящая из двух ячеек. Признак, который измеряют по дихотомической шкале, называют альтернативным.

Расклассифицировав все объекты по ячейкам классификации, мы получаем возможность от наименований перейти к числам, подсчитав количество наблюдений в каждой ячейке.

В случае такой шкалы учитывается только одно свойство чисел - то, что это разные символы. Остальные свойства не учитываются: операции с числами, упорядочивание. При сравнении объектов можно делать вывод о том, принадлежат ли они к одному классу, тождественны или нет по измеренному признаку.

Таким образом, номинативная шкала позволяет нам подсчитывать частоты встречаемости разных наименований, или значений признака, и затем работать с этими частотами математическими методами.

Единица измерений, которой мы при этом оперируем - количество наблюдений или частота. Точнее, единица измерения - это одно наблюдение. Такие данные могут быть обработаны с помощью метода , биномиального критерия m и углового преобразования Фишера .

Порядковая шкала - это шкала классифицирующая по принципу «больше - меньше». Если в шкале наименований было безразлично, в каком порядке расположены классифицирующие ячейки, то в порядковой шкале они образуют последовательность от ячейки «самое малое значение» к ячейке «самое большое значение» (или наоборот). Измерение в этой шкале предполагает приписывание объектам чисел в зависимости от степени выраженности измеряемого свойства.

Кроме того, желательно соблюдать правило ранжирования для связанных рангов. Если два и более объектов имеют одинаковую выраженность измеряемого свойства, то объектам присваивается один и тот же средний ранг. Следующему объекту присваивается ранг, как если бы все предшествующие объекты различались. Это правило основано на соглашении соблюдения одинаковой суммы для связанных и несвязанных рангов. В соответствии с этим правилом сумма всех рангов для группы

численностью N должна равняться вне зависимости от наличия или отсутствия связей в рангах.

Ячейки в порядковых шкалах часто называют классами («низкий», «большой» и т.п.). В порядковой шкале должно быть не менее трех классов. В порядковой шкале мы не знаем расстояний между классами, а знаем лишь, что они образуют последовательность. От классов легко перейти к числам, просто пронумеровав классы.

Итак, единица измерения в шкале порядка - расстояние в 1 класс или 1 ранг, при расстояние (реальное) между классами м рангами может быть разным (оно нам неизвестно).

Суть методов получения измерения в порядковой шкале: при сравнении объектов друг с другом можно сказать, больше или меньше выражено свойство, но нельзя определить - на сколько больше или меньше. Таким образом, при измерениях в ранговых шкалах из свойств чисел учитывается то, что они разные, и то, что одно число больше, чем другое.

Интервальная шкала - это шкала, классифицирующая по принципу «больше на определенное количество единиц - меньше на определенное количество единиц». Каждое значение признака отстоит от другого на равном расстоянии. Равным разностям между числами в этой шкале соответствуют равные разности в уровне выраженности измеренного свойства. Иначе говоря, измерения в этой шкале предполагает возможность применения единицы измерения (метрики).

Объекту присваивается число единиц измерения, пропорциональное выраженности измеряемого свойства. Важное свойство такой шкалы - произвольность выбора нулевой точки. Ноль не соответствует полному отсутствию свойства. Произвольность выбора нулевой точки означает, что измерение в этой шкале не соответствует абсолютному значению измеряемого свойства. Следовательно, применяя эту шкалу, можно судить насколько больше или меньше выражено свойство при сравнении объектов, но не можем судить, во сколько раз больше или меньше выражено свойство.

Типичный пример: измерение температуры по шкале Цельсия. 0 - точка замерзания воды, но не отсутствие температуры. Если сегодня +5, а завтра - +10, нельзя сказать, что сегодня в два раза холоднее, чем завтра.

На самом деле равноинтервальными можно считать лишь шкалы в единицах стандартного отклонения и процентильные шкалы, и то лишь при условии, что распределение значений в стандартизирующей выборке было нормальным.

Шкала равных отношений или абсолютная шкала - это шкала, классифицирующая объекты пропорционально степени выраженности измеряемого свойства. В шкалах отношений классы обозначаются числами, которые пропорциональны друг другу. Это предполагает наличие абсолютной нулевой точки отсчета. По отношению к показателю частот можно применять все арифметические операции.

В силу абсолютности нулевой точки в этой шкале можно определять во сколько раз больше или меньше выражено то или иное свойство.

Перечисленные шкалы полезно характеризовать по принципу дифференцирующей способности (мощности). В этом отношении шкалы располагаются в том порядке, в котором они приведены.

5.2 Меры центральной тенденции

Мера центральной тенденции - это число характеризующее выборку по уровню выраженности измеренного признака.

Существует три способа определения центральной тенденции, каждому из которых соответствует своя мера: мода, медиана и выборочное среднее.

Мода - это такое значение из множества измерений, которое встречается наиболее часто. Моде, или модальному интервалу, соответствует наибольший подъем графика распределения частот. Если график распределения частот имеет одну вершину, то такое распределение называется унимодальным.

Когда два соседних значения встречаются одинаково часто и чаще, чем любые другие, мода есть среднее этих двух частот.

Распределение может иметь и не одну моду. Если все значения встречаются одинаково часто, то принято считать, что такое распределение не имеет моды.

Бимодальное распределение имеет на графике две вершины, даже если частоты для двух вершин не строго равны. В этом случае выделяют большую и меньшую моды. Может быть и большее число вершин. Тогда выделяют наибольшую и локальные моды. При этом отметим, что мода это значение признака, а не частота.

Медиана - это такое значение признака, которое делит упорядоченное (ранжированное) множество данных пополам, так что одна половина всех значений оказывается меньше медианы, а другая - больше.

Алгоритм получения медианы:

1. Упорядочивание всех значений по убыванию или возрастанию.

2. Если данные содержат нечетное число значений N, то медианой

будет ее центральное значение, то есть значение с номером

3. Если данные содержат четное число значений, то медиана точка, лежащая между двумя центральными значениями:

Выборочное среднее - это оценка математического ожидания, которая вычисляется по формуле:

Здесь - наблюдаемое значение признака x, n - количество наблюдений.

5.3 Выбор меры

Каждая мера центральной тенденции обладает характеристиками, которые делают ее ценной в определенных условиях.

Оценка дисперсии проводится по формуле:

Однако, чаще используется стандартное отклонение в генеральной выборке:

В тех случаях, когда какие-нибудь причины благоприятствуют более частому появлению значений, которые выше или, наоборот, ниже среднего образуется асимметричное распределение.

Показатель асимметрии (A) вычисляется по формуле:

В тех случаях, когда какие-либо причины способствуют преимущественному появлению средних или близких к ним значений, образуется распределение с положительным эксцессом. Если же в распределении преобладают крайние значения, причем одновременно и более низкие и более высокие, то такое распределение характеризуется отрицательным эксцессом и в центре распределения может образоваться впадина, превращая его в двувершинное.

Показатель эксцесса (E) определяется по формуле:

Принцип построения большинства интервальных шкал основан на известном правиле «трех сигм». Примерно 98% всех значений признака при нормальном распределении укладывается в диапазон M 3. Можно построить шкалу в единицах долей стандартного отклонения, которая будет охватывать весь возможный диапазон изменения признака, если крайний слева крайний справа интервалы останутся открытыми.

Например, Кенделл предложил шкалу стенов («стандартной десятки»). Среднее арифметическое значение в «сырых» баллах принимается за точку отсчета. Влево и вправо отмеряются интервалы равные Ѕ стандартного отклонения. Очень часто этот подход применяется в психологии.

30

Справа от среднего значения будут располагаться интервалы, равные 6 - 10 стенам, причем последний из интервалов открыт. Слева от среднего значения будут располагаться интервалы, соответствующие с 5 по 1 стен, и крайний левый будет открыт. Теперь мы поднимаемся вверх, к оси «сырых баллов», и размечаем границы интервалов в единицах «сырых баллов». Поскольку М = 10.2, = 2.4, вправо мы отложим 1/2, то есть 1.2 «сырых балла». Таким образом, граница интервала составит 11.4 «сырых балла». Итак, граница интервала, соответствующего 6 стену, будут простираться от 10.2 до 11.4 баллов. В этот интервал попадет одно «сырое» значение - 11.

Влево от среднего значения получаем интервал 9 - 10.2, соответствующий 5 стену. В него входит 2 «сырых» величины: 9 и 10. Отсюда мы видим, что в шкале стенов иногда на разное количество «сырых» баллов будет приходиться одинаковое количество стенов.

В принципе шкалу стенов можно построить по любым данным, измеренным по крайней мере в порядковой шкале, при объеме выборки n > 200 и нормальном распределении признака.

Другой способ построения равноинтервальной шкалы - группировка интервалов по принципу равенства накопленных частот. При нормальном распределении признак в окрестностях среднего значения группируется большая часть всех наблюдений, поэтому в этой области среднего значения интервалы оказываются уже, а по мере удаления от центра распределения они увеличиваются. Следовательно, такая процентильная шкала является равноинтервальной только относительно накопленной частоты.

5.4 Статистические гипотезы

Статистические гипотезы подразделяются на нулевые и альтернативные, направленные и ненаправленные.

Нулевая гипотеза - это гипотеза об отсутствии различий. Она обозначается как и называется нулевой потому, что содержит число 0.

,

где - сопоставляемые значения признаков. Нулевая гипотеза - это то что мы пытаемся опровергнуть, если перед нами стоит задача доказать значимость различий.

Альтернативная гипотеза - это гипотеза о значимости различий. Она обозначается как . Альтернативная гипотеза - это то, что мы хотим доказать. Поэтому иногда ее называют экспериментальной гипотезой.

Бывают задачи, когда необходимо доказать как раз не значимость различий, то есть подтвердить нулевую гипотезу. Например, если нам надо убедиться, что разные испытуемые получили хотя и различные, но уравновешенные по значимости задания, или что экспериментальная и контрольная выборки не различаются между собой по каким-то значимым характеристикам. Нулевая и альтернативная гипотезы могут быть направленными и ненаправленными.

Направленные гипотезы:

не превышает

превышает

Ненаправленные гипотезы

не отличается от

отличается от

Например, если замечено, что в одной из групп изделий проверяемых по какому-либо признаку значения выше, чем в другой группе, то для проверки значимости этих различий необходимо сформировать направленную гипотезу.

Если же мы захотим доказать, что в группе А под влиянием каких-то экспериментальных воздействий произошли более выраженные изменения, чем в группе Б, то нам тоже надо сформулировать направленные гипотезы.

Если же мы хотим доказать, что различается форма распределения в группах А и Б, то формулируется ненаправленная гипотеза.

Проверка гипотез проводится с помощью критериев статистической оценки различий.

5.5 Статистический критерий

Статистический критерий - это решающее правило, обеспечивающее надежное поведение, то есть принятие истинной и отклонение ложной гипотезы с высокой вероятностью.

Статистические критерии обозначают также метод расчета определенного числа и само это число.

Когда, мы говорим, что достоверность различий определяется по критерию , то имеем в виду, что использовали метод для расчета определенного числа.

По соотношению эмпирического и критического значений критериев судят о том, подтверждается или опровергается гипотеза. Например, если

, отвергается.

В большинстве случаев для того, чтобы признать различия значимыми, необходимо, чтобы эмпирическое значение критерия превышало критическое, хотя есть критерии (например, критерий знаков), в которых надо придерживаться противоположного правила.

Эти правила должны оговариваться в руководстве по использованию критерия.

В некоторых случаях расчетная формула критерия включает в себя количество наблюдений в исследуемой выборке n. В этом случае эмпирическое значение критерия одновременно является тестом для проверки статистических гипотез. По специальной таблице определяется, какому уровню статистической значимости различий соответствует данная эмпирическая величина. Примером такого критерия является критерий , вычисляемый на основе углового преобразования Фишера.

В большинстве случаев одно и то же эмпирическое значение критерия может оказаться значимым или незначимым в зависимости от количества наблюдений в исследуемой выборке n или от количества степеней свободы v.

Число степеней свободы v равно числу классов вариационного ряда минус число условий, при которых он был сформирован. К числу таких условий относится объем выборки, среднее и дисперсия.

Если наблюдения расклассифицированы по классам какой-либо номинативной шкалы и подсчитано количество наблюдений в каждой ячейке классификации, то получается частотный вариационный ряд. Единственное условие, которое соблюдается при таком формирование - объем выборки n. Поэтому, если классификация проводится по трем классам, а число испытаний равно 50, мы свободны только в определении количества наблюдений только в двух классах, количество наблюдений в третьем классе будет определяться первыми двумя. Следовательно, здесь имеем v = c - 1 = 3.

Существуют и более сложные способы подсчета степеней свободы, которые будут рассмотрены далее.

Зная n и/или число степеней свободы, по специальным таблицам можно определить критическое значение критерия и сопоставить с ним эмпирическое значение.

Критерии делятся на параметрические и непараметрические.

Параметрические критерии включают в формулу расчета параметры распределения, то есть, чаще всего, среднее и дисперсию (t - критерий Стьюдента, критерий F и др.).

Непараметрические критерии не включают в формулу расчета параметры распределения и основаны на оперировании частотами или рангами (критерий Q Розенбаума, критерий Т. Вилкоксона и др.).

Возможности и ограничения параметрических и непараметрических критериев

Параметрические критерии

Непараметрические критерии

1

Позволяют прямо оценить различия в средних, полученные в двух выборках (t - критерий Стьюдента)

Позволяют оценить лишь средние тенденции, например, ответить на вопрос, чаще ли в выборке А встречаются более высокие, а в выборке Б - более низкие значения признака (критерии Q, U и др.)

2

Позволяют прямо определить различия в дисперсиях (критерий Фишера)

Позволяют оценить лишь различия в диапазонах вариативности признака (критерий )

3

Позволяют выявить тенденции изменения признака при переходе от условия к условию (дисперсионный однофакторный план), но лишь при условии нормального распределения признака

Позволяют выявить тенденции изменения признака при переходе от условия к условию при любом распределении признака (критерии тенденций L и Q)

4

Позволяет оценивать взаимодействие двух и более факторов и их влияние на изменение признака (двухфакторный дисперсионный анализ)


Подобные документы

  • Типы моделей: дескриптивный, предикативный и нормативный. Связь экономических явлений. Модель факторной системы. Элементы теории моделирования. Методы принятия решений. Платежная матрица. Дерево решений (сценариев). Теория игр.

    реферат [23,7 K], добавлен 09.12.2002

  • Машинное обучение и статистические методы анализа данных. Оценка точности прогнозирования. Предварительная обработка данных. Методы классификации, регрессии и анализа временных рядов. Методы ближайших соседей, опорных векторов, спрямляющего пространства.

    контрольная работа [833,1 K], добавлен 04.09.2016

  • Формирование информационной базы статистического исследования. Программно-методологические и организационные вопросы статистического наблюдения. Виды статистического наблюдения и их особенности. Статистический нализ предпочтения газет в г. Череповец.

    курсовая работа [41,2 K], добавлен 15.03.2008

  • Обработка данных лесной промышленности: получение распределения случайной величины, проверка гипотезы, проведение дисперсионного, корреляционного и регрессивного анализа. Сущность и содержание, особенности применения теории принятия решений, ее принципы.

    контрольная работа [314,2 K], добавлен 12.02.2013

  • Информационная база статистического исследования: наблюдение и его этапы, принципы выборки. Программно-методологические задачи, формы, виды и способы проведения статистического исследования. Контроль за полнотой и достоверностью статистических данных.

    курсовая работа [3,9 M], добавлен 07.12.2010

  • Статистическое наблюдение как первый этап статистического исследования. Формы организации статистического наблюдения. Виды и способы статистического наблюдения. Организация сбора данных, план статистического наблюдения, ошибки и меры борьбы с ними.

    реферат [19,6 K], добавлен 04.06.2010

  • Оперативное решения практических задач. Сущность статистического наблюдения, его организационные формы, виды и способы. Проверка достоверности, погрешность и ошибки статистических данных. Формирование данных, которые подвергаются обработке и анализу.

    контрольная работа [23,1 K], добавлен 23.07.2009

  • Понятие инфляции, структура инфляционных процессов в экономике. Типы виды и классификация инфляции. Основные экономические показатели инфляционных процессов в экономике России. Основные проблемы при регулировании инфляции. Пути решения выявленных проблем.

    курсовая работа [680,0 K], добавлен 14.11.2017

  • Основные этапы и методы статистического исследования. Важнейшие экономические индексы и их взаимосвязи. Сбор, сводка и анализ данных (фактов) о социально-экономических, демографических и других явлениях и процессах общественной жизни в государстве.

    контрольная работа [191,2 K], добавлен 08.12.2014

  • Понятие экономического анализа как науки, его сущность, предмет, общая характеристика методов и социально-экономическая эффективность. Основные группы эконометрических методов анализа и обработки данных. Факторный анализ экономических данных предприятия.

    реферат [44,7 K], добавлен 04.03.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.