Многомерные статистические методы и эконометрика

Определение с помощью статистических и эконометрических методов совокупности показателей по пяти признакам, собранных по 84 регионам РФ: обеспеченность амбулаторно-поликлиническими учреждениями, ввод в действие жилых домов и выбросы загрязняющих веществ.

Рубрика Экономико-математическое моделирование
Вид курсовая работа
Язык русский
Дата добавления 13.06.2009
Размер файла 345,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Алгоритм пересчета матрицы расстояний на каждом шаге агломерации для методов дальнего соседа и средней связи аналогичен вышеприведенному алгоритму, с тем только отличием, что за расстояние между кластерами принимается дальнее расстояние: (метод дальнего соседа) или расстояние, рассчитываемое по формуле:

(метод средней связи).

3. Проведем вычисления по методу К-средних, выбрав в качестве количества кластеров число 2. Этот метод кластеризации существенно отличается от иерархических агломеративных методов. Предположим, уже имеются гипотезы относительно числа кластеров (по наблюдениям или по переменным). Можно указать системе образовать ровно три кластера так, чтобы они были настолько различны, насколько это возможно. Это именно тот тип задач, которые решает алгоритм метода K средних. Это алгоритм, предназначенный для выбора K центров, представляющих кластеры в N точках (K<N). Отправляясь от случайной выборки из N точек, расположение центров кластеров последовательно корректируется таким образом, чтобы каждая из N точек относилась ровно к одному из K кластеров и центр каждого кластера совпадал с центром тяжести относящихся к нему точек. В общем случае метод K средних строит ровно K различных кластеров, расположенных на возможно больших расстояниях друг от друга. [7, Кластерный анализ].

В результате работы программы получено разбиение регионов на 2 кластера:

Кластерная принадлежность

Номер бъекта

Регионы

Кластеры

Расстояние

1

Липецкая

2

1,515

2

Московская

2

2,845

3

Орловская

2

1,088

4

Рязанская

2

,882

5

Смоленская

2

,396

6

Тамбовская

2

,869

7

Тверская

2

1,462

8

Тульская

2

1,030

9

Ярославская

2

,675

10

Москва

2

2,371

11

Карелия

2

,942

12

Коми

2

2,324

13

Архангельская

2

1,845

14

Ненецкий АО

1

,000

15

Вологодская

2

,745

16

Калининградская

2

1,511

17

Ленинградская

2

,556

18

Мурманская

2

1,576

19

Новгородская

2

,747

20

Псковская

2

,901

Из таблицы видно, что Ненецкий АО снова выделяется в отдельный кластер, в то время, как остальные регионы принадлежат другому кластеру.

4. Проведем кластерный анализ, выбрав в качестве признаков главные компоненты, на долю которых приходится не менее 70% доли общей дисперсии.

Расстояние между первым и последним объектами равно 1, 188.

В результате кластерного анализа регионов по методу ближнего соседа с использованием главных компонент получено такое же разбиение по кластерам, как при анализе исходных признаков.

Аналогично для метода дальнего соседа, средней связи и К-средних.

5. Теперь проведем кластерный анализ по главным факторам, выделенным в предыдущей работе. Аналогично кластерному анализу по главным компонентам мы получили точно такое же разбиение регионов по всем четырем методам.

В итоге мы получили одинаковое разбиение регионов с использованием как исходных признаков, так и главных компонент и факторов.

Все результаты кластерного анализа по главным компонентам и факторам занесем в таблицу.

Кластерная принадлежность регионов (с использованием главных компонент и факторов)

Регион

Метод

Ближнего соседа

Дальнего соседа

Средней связи

К-средних

Липецкая область

1

1

1

1

Московская область

1

1

1

1

Орловская область

1

1

1

1

Рязанская область

1

1

1

1

Смоленская область

1

1

1

1

Тамбовская область

1

1

1

1

Тверская область

1

1

1

1

Тульская область

1

1

1

1

Ярославская область

1

1

1

1

г.Москва

1

1

1

1

Республика Карелия

1

1

1

1

Республика Коми

1

1

1

1

Архангельская область

1

1

1

1

Ненецкий авт.округ

2

2

2

2

Вологодская область

1

1

1

1

Калининградская область

1

1

1

1

Ленинградская область

1

1

1

1

Мурманская область

1

1

1

1

Новгородская область

1

1

1

1

Псковская область

1

1

1

1

6. Для каждого варианта разбиения вычислим внутриклассовые средние значения исходных признаков и их выборочные дисперсии и занесем эти значения в сводную таблицу.

Очевидно, что можно выбрать любой из перечисленных выше методов разбиения, т.к. они дают абсолютно одинаковые результаты.

7. Для метода ближнего соседа проверим гипотезу о равенстве математических ожиданий каждого из пяти признаков в кластерах. Результаты приведены в таблице, в которой столбец «Уровень значимости» содержит значения, позволяющие принять или отвергнуть гипотезу. Если рассчитанный уровень значимости меньше 0,05, то гипотеза отвергается, если больше 0,05, то принимается [8,69].

Как видно из таблицы, для первого, второго, четвертого и пятого признаков рассчитанный уровень значимости меньше 0,05, следовательно, гипотеза о равенстве математических ожиданий этих признаков в двух кластерах отвергается. В то время как гипотеза о равенстве признака Х3 в двух кластерах принимается (уровень значимости 0,196>0.05).

Согласно проверке гипотезы, математические ожидания ввода в действие жилых домов, выбросов в атмосферу загрязняющих веществ, стоимости минимального набора продуктов питания и объема инвестиций в основной капитал в двух кластерах различны, а математическое ожидание обеспеченности амбулаторно-поликлиническими учреждениями одинаковое в первом и во втором кластерах.

Проанализируем столбец сводной таблицы, в котором содержатся средние значения по двум кластерам. Ввод в действие жилых домов в первом кластере значительно ниже аналогичного показателя во втором кластере, так же как и выброс в атмосферу загрязняющих веществ, стоимость минимального набора продуктов питания и объем инвестиций в основной капитал. Обеспеченность амбулаторно-поликлиническими учреждениями на одинаковом уровне, как в первом, так и во втором кластере. Из этого моно сделать вывод, что регионы первого кластера достаточно развитые и хорошо освоенные. Здесь сложились приемлемые для населения цены, относительно хорошая экологическая ситуация, ввод в действие большого количества жилых домов уже не требуется, т.к. большая часть территории уже застроена и используется, соответственно, и объем инвестиций в основной капитал сравнительно небольшой. Второй же регион, видимо, находится на стадии интенсивного освоения и развития. Об этом свидетельствуют и широкие масштабы строительства, и большой объем вложений, и высокие цены, а также плохая экология. Однако, для успешного освоения региона необходима хорошая база здравоохранения, поэтому здесь уровень обеспеченности амбулаторно-поликлиническими учреждениями почти такой же, как и в развитых регионах.

Таким образом, в соответствии с приведенной интерпретацией, назовем первый кластер «освоенные регионы», а второй - «осваиваемый регион».

8. Проведем регрессионный анализ признака Y на признаки Х1, Х2, Х3, Х4, Х5 отдельно для каждого кластера. Ввиду того, что невозможно провести регрессию по одному региону, который образует второй кластер, воспользуемся методом дальнего соседа, где на дендрограмме четко прослеживается разбиение на 2 кластера, содержащих несколько регионов в каждом. Таким образом, будем считать, что второй кластер образуют Ненецкий АО и следующие регионы: Коми, Архангельская, Мурманская, Московская, Вологодская, Новгородская, Липецкая.

· Для первого кластера.

Матрица корреляции позволяет увидеть сильную связь результативного признака с регрессорами X3 и X4, умеренную с X1 и X5 и очень слабую с X2:

Y

X1

X2

X3

X4

X5

Y

1

X1

0,437037

1

X2

0,000721

-0,30097

1

X3

0,815665

0,332045

-0,21033

1

X4

0,91547

0,465072

0,040293

0,633864

1

X5

0,67091

0,615633

0,298005

0,498134

0,677078

1

По следующей таблице можно сказать, что модель является качественной, т.к. имеет высокие показатели коэффициента множественной корреляции, коэффициента детерминации и скорректированного коэффициента детерминации:

Регрессионная статистика

Множественный R

0,96679

R-квадрат

0,934683

Нормированный R-квадрат

0,880253

Стандартная ошибка

1087,314

Наблюдения

12

Уравнение регрессии имеет вид:

.

Наблюдаемое и критическое значение F-статистики составляют 17,17205 и 4,387374 соответственно, благодаря чему можно сказать, что уравнение значимо в целом.

Проанализируем его коэффициенты.

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-20442,6

4760,074

-4,29459

0,005123

-32090

-8795,08

X1

86,47617

467,0122

0,185169

0,859197

-1056,26

1229,214

X2

465,1737

979,1122

0,475097

0,651518

-1930,63

2860,975

X3

36,26704

13,35741

2,715125

0,034868

3,582635

68,95145

X4

14,42741

3,622612

3,9826

0,007262

5,563201

23,29163

X5

-0,31351

3,795565

-0,0826

0,936858

-9,60092

8,973908

Значимыми являются только третий и четвертый коэффициенты, остальные равны нулю с вероятностью 95%. Исключим из состава регрессоров пятый признак, как имеющий наименьшую t- статистику. Получим следующие результаты.

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-20168,5

3162,124

-6,37816

0,000375

-27645,8

-12691,3

X1

58,3228

295,7386

0,197211

0,849267

-640,988

757,6335

X2

407,0434

630,5694

0,645517

0,539167

-1084,02

1898,103

X3

35,80068

11,21379

3,192557

0,015222

9,284272

62,31708

X4

14,34018

3,210022

4,467316

0,00291

6,749686

21,93068

Значимыми остались третий и четвертый признаки и свободный коэффициент. Все остальные - незначимы. Поэтому исключим из списка первый признак, т.к. он имеет наименьшую t- статистику. Регрессия по трем признакам дала следующие результаты.

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-20315,7

2882,317

-7,0484

0,000107

-26962,4

-13669,1

X2

361,947

551,2171

0,656632

0,529849

-909,162

1633,056

X3

35,66143

10,49777

3,397048

0,009401

11,45353

59,86933

X4

14,61332

2,716352

5,379757

0,000662

8,349395

20,87723

Незначимым является один коэффициент при X2, а остальные значимые. Исключим X2 и проведем регрессионный анализ.

Уравнение регрессии:

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-20139,5

2777,626

-7,25062

4,81E-05

-26422,9

-13856,1

X3

33,55754

9,675783

3,468199

0,007069

11,6694

55,44568

X4

15,02285

2,558869

5,870896

0,000237

9,23429

20,81142

Все коэффициенты этого уравнения являются значимыми, и само уравнение, имея Fн=60,43687 и Fк=3,096553, статистически значимо. Проанализируем показатели, содержащиеся в следующей таблице:

Регрессионная статистика

Множественный R

0,964729

R-квадрат

0,930702

Нормированный R-квадрат

0,915302

Стандартная ошибка

914,446

Наблюдения

12

Высокие оценки множественного R, R2 и нормированного R2, а также небольшое значение стандартной ошибки свидетельствуют о хорошем качестве модели.

В результате регрессионного анализа для первого кластера была получена зависимость номинальной заработной платы от обеспеченности амбулаторно-поликлиническими учреждениями и стоимости минимального набора продуктов питания.

· Для второго кластера.

Матрица корреляции имеет вид и позволяет определить сильную связь результативного признака со вторым, четвертым и пятым независимыми компонентами. Более слабо Y коррелирует с третьим признаком, и имеет наименьшую корреляцию с первым признаком.

Y

X1

X2

X3

X4

X5

Y

1

X1

0,398899

1

X2

0,918327

0,297061

1

X3

-0,71313

-0,55619

-0,54937

1

X4

0,992192

0,353451

0,921639

-0,7129

1

X5

0,938584

0,505718

0,931463

-0,71293

0,954758

1

Уравнение имеет вид: Y = -15061.1 + 324.353X1 + 334.5X2 + 0.444X3 + 17.273X4 - 1.012X5

Определим значимость его коэффициентов по следующей таблице:

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-15061,1

3029,784

-4,97102

0,038166

-28097,2

-2025

X1

324,3533

64,84276

5,002151

0,037719

45,35741

603,3492

X2

334,4999

102,3674

3,267639

0,082264

-105,952

774,9515

X3

0,443851

5,785511

0,076718

0,945832

-24,4492

25,3369

X4

17,27289

1,304104

13,24502

0,005652

11,66178

22,88399

X5

-1,01179

0,206824

-4,89202

0,039336

-1,90168

-0,12189

Коэффициенты признаков X2 и X3 являются незначимыми, остальные - значимые. Уравнение в целом значимо, т.к. имеет наблюдаемую статистику 413,5413 и критическую 19,29641. Удалим из списка регрессоров третий признак, т.к. он имеет наименьшую t-статистику и снова построим уравнение регрессии.

Оно будет иметь вид: .

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-14872,1

1441,344

-10,3182

0,001942

-19459,1

-10285,1

X1

322,9254

50,79042

6,357998

0,007873

161,2876

484,5632

X2

337,5144

77,29317

4,366679

0,02221

91,53309

583,4958

X4

17,23049

0,965909

17,83864

0,000384

14,15654

20,30445

X5

-1,01345

0,168188

-6,02572

0,009162

-1,5487

-0,4782

Все коэффициенты уравнения являются значимыми. Уравнение регрессии тоже значимо, т.к. наблюдаемое значение F-статистики (773,1127) больше критического (9,117182).

Данная модель имеет хорошее качество, что можно проследить по следующей таблице:

Регрессионная статистика

Множественный R

0,999515

R-квадрат

0,999031

Нормированный R-квадрат

0,997739

Стандартная ошибка

304,9263

Наблюдения

8

В результате регрессионного анализа для второго кластера была получена линейная зависимость номинальной заработной платы от ввода в действие жилых домов, выбросов в атмосферу загрязняющих веществ, стоимости продуктов питания и инвестиций в основной капитал, причем с последним признаком наблюдается обратная связь.

Если сравнивать полученные результаты регрессионного анализа по кластерам и по исходной совокупности данных, то можно сказать, что регрессия по первому кластеру схожа с регрессией по исходным признакам зависимостью от амбулаторно-поликлинических учреждений, а регрессия по второму кластеру - зависимостью от вложений в основной капитал.

РАЗДЕЛ 4. ДИСКРИМИНАНТНЫЙ АНАЛИЗ

1. Запишем модель дискриминантного анализа и предъявляемые к ней требования.

С помощью дискриминантного анализа на основании некоторых признаков изучаемый объект может быть причислен к одной из двух (или к одной из нескольких) заданных заранее групп.

Ядром дискриминантного анализа является построение так называемой дискриминантной функции

d = b1х1+b2х2+... + bnхn+а,

где x1 и хn -- значения переменных, соответствующих рассматриваемым случаям, онстанты b1-bn и a -- коэффициенты, которые и предстоит оценить с помощью дискриминантного анализа. Целью является определение таких коэффициентов, чтобы по значениям дискриминантной функции можно было с максимальной четкостью провести разделение по группам [7, дискриминантный анализ].

2. Проведем дискриминантный анализ, взяв априорные данные из кластерного анализа, используя метод дальнего соседа. В результате кластеризации по этому методу, Ненецкий АО был выделен в отдельный кластер. Однако по дендрограмме можно проследить, что фактически регионы разбиваются на 2 различных кластера. Во второй кластер вошли следующие регионы: Коми, Архангельская, Мурманская, Вологодская, Новгородская, Липецкая области и город Москва. Остальные регионы образуют первый кластер. Требуется определить, к какой из двух групп относится каждый из оставшихся 65 регионов (включая Ненецкий АО), считая, что каждый регион относится только к одной группе.

Для вычисления выберем все пять исходных признаков.

Вычислим стандартизированные канонические коэффициенты дискриминантной функции:

Признак

Функция

X1

-,228

X2

,618

X3

1,092

X4

,226

X5

-,493

Стандартизированные коэффициенты показывают как сильно отдельные переменные, применяемые в дискриминантной функции, коррелируют со стандартизированными значениями этой дискриминантной функции. Например, большой вклад в значение дискриминантной функции вносят переменные X2 (выбросы в атмосферу загрязняющих веществ) и X3 (обеспеченность амбулаторно-поликлиническими учреждениями). Стандартизированные коэффициенты основаны на стандартизированных значениях переменных, получаемых с помощью z-преобразования.

Вычислим нестандартизированные канонические коэффициенты дискриминантной функции:

Коэффициенты

Функция

X3

,751

X2

,429

X5

,327

X4

,226

X1

-,113

Нестандартизированные коэффициенты - это множители при заданных значениях переменных, входящих в дискриминантную функцию.

Таким образом, дискриминантная функция имеет вид:

D = -0.113 X1 + 0.429 X2 + 0.751 X3 + 0.226 X4 + 0.327 X5.

Проанализируем качество полученной функции. Для этого воспользуемся таблицей:

Собственные значения

Функция

Собственное значение

% вариации

Суммарный %

Каноническая корреляция

1

3,802

100,0

100,0

,890

Большое собственное значение свидетельствует об удачно подобранной дискриминантной функции. Одна дискриминантная функция объясняет 100 % вариации признаков. Канонические корреляции являются показателями качества функции, т. е. чем больше эти показатели, тем выше разделительная способность функции. Значение канонической корреляции 0,89 указывает на достаточно хорошую разделительную способность полученной функции.

1. Укажем, к каким группам были отнесены классифицируемые объекты, и вероятности, с которыми объекты входят в эти группы. Все данные представлены в таблице:

Статистики наблюдений

№ объекта

Фактическая группа

Прогнозируемая группа

Значение функции на объектах

Вероятность вхождения в первую группу

Вероятность вхождения во вторую группу

1

.

1

-2,75729

0,99999

0,00001

2

.

1

-1,77633

0,99975

0,00025

3

.

2

1,51082

0,01603

0,98397

4

.

1

-2,52018

0,99998

0,00002

5

.

1

-2,51226

0,99998

0,00002

6

.

1

-0,55183

0,97493

0,02507

7

.

1

-2,14422

0,99994

0,00006

8

.

1

-2,16023

0,99994

0,00006

9

2

2

1,91364

0,00355

0,99645

10

1

1

-1,26623

0,99826

0,00174

11

1

1

-1,98948

0,99989

0,00011

12

1

1

-1,56032

0,99943

0,00057

13

1

1

-0,40186

0,9567

0,0433

14

1

1

-1,29833

0,99846

0,00154

15

1

1

-2,62759

0,99999

0,00001

16

1

1

-1,06654

0,99632

0,00368

17

.

1

-0,61665

0,98026

0,01974

18

2

2

2,89967

0,00009

0,99991

19

1

1

-0,63451

0,98152

0,01848

20

2

2

4,6813

0

1

21

2

2

3,01559

0,00006

0,99994

22

1

-23,5078

1

0

23

2

2

1,16501

0,05662

0,94338

24

1

1

-2,71838

0,99999

0,00001

25

1

1

-1,64899

0,99959

0,00041

26

2

2

1,48965

0,01734

0,98266

27

2

2

0,96626

0,11267

0,88733

28

1

1

-0,91889

0,9936

0,0064

29

.

2

2,30613

0,00081

0,99919

30

.

1

-0,95583

0,99443

0,00557

31

.

1

-6,71214

1

0

32

.

1

-6,01949

1

0

33

.

1

-4,00668

1

0

34

.

1

-0,20946

0,9145

0,0855

35

.

1

-3,09869

1

0

36

.

1

-0,15024

0,89534

0,10466

37

.

1

-10,715

1

0

38

.

1

-3,15208

1

0

39

.

1

-3,73084

1

0

40

.

2

0,52085

0,40514

0,59486

41

.

1

-1,12713

0,99707

0,00293

42

.

1

-1,94645

0,99987

0,00013

43

.

2

1,2741

0,03825

0,96175

44

.

2

3,72986

0

1

45

.

1

-3,09226

1

0

46

.

1

-3,03555

1

0

47

.

1

0,0288

0,81327

0,18673

48

.

2

0,58555

0,34794

0,65206

49

.

1

-3,47834

1

0

50

.

1

-0,07669

0,86636

0,13364

51

.

1

-1,47263

0,9992

0,0008

52

.

1

-1,01332

0,99551

0,00449

53

.

1

-0,03795

0,84852

0,15148

54

.

1

-1,84807

0,99981

0,00019

55

.

1

-1,03495

0,99586

0,00414

56

.

1

-0,60595

0,97947

0,02053

57

.

2

25,40745

0

1

58

.

1

-0,67555

0,98413

0,01587

59

.

1

-1,69734

0,99966

0,00034

60

.

2

7,56569

0

1

61

.

2

17,39934

0

1

62

.

2

1,045

0,08622

0,91378

63

.

2

125,9983

0

1

64

.

1

-1,31425

0,99855

0,00145

65

.

2

3,0485

0,00005

0,99995

66

.

2

1,98111

0,00276

0,99724

67

.

2

0,52532

0,40108

0,59892

68

.

2

1,68373

0,00842

0,99158

69

.

1

-0,51874

0,9717

0,0283

70

.

1

-1,56037

0,99943

0,00057

71

.

2

7,83506

0

1

72

.

1

-1,77246

0,99974

0,00026

73

.

2

0,59063

0,34361

0,65639

74

.

1

-0,3749

0,95229

0,04771

75

.

2

5,05088

0

1

76

.

2

4,1223

0

1

77

.

1

-0,90543

0,99327

0,00673

78

.

2

0,85126

0,16382

0,83618

79

.

2

1,21127

0,04799

0,95201

80

.

2

3,9112

0

1

81

.

2

6,41917

0

1

82

.

1

-5,01373

1

0

83

.

1

0,03082

0,81211

0,18789

84

.

2

19,52412

0

1

В результате оказалось, что все 19 регионов, вошедшие в первоначальную выборку, были разбиты правильно, а остальные 65 регионов разбились на 2 группы.

Рассчитаем внутригрупповые математические ожидания. Проверим гипотезу о равенстве математических ожиданий признаков в двух группах.

Группа

Средние

1

X1=2,83973;

X2=1,108808;

X3=222,43396;

X4=1399,3490;

X5=471,14492.

2

X1=2,941936;

X2=17,24622;

X3=305,2069;

X4=1662,755;

X5=508,0618.

Проверка гипотезы

Сумма квадратов

Значение квадрата

F-статистика

Ур-нь значимости

X1

Межгрупповая

,428

,428

,141

,709

Внутригрупповая

249,592

3,044

Общая

250,020

X2

Межгрупповая

4663,384

4663,384

5,006

,028

Внутригрупповая

76384,616

931,520

Общая

81048,000

X3

Межгрупповая

126806,194

126806,194

41,506

,000

Внутригрупповая

250520,896

3055,133

Общая

377327,090

X4

Межгрупповая

1090066,125

1090066,125

6,213

,015

Внутригрупповая

14386901,747

175450,021

Общая

15476967,871

X5

Межгрупповая

5535,141

5535,141

,003

,953

Внутригрупповая

130677836,707

1593632,155

Общая

130683371,848

Уровень значимости для второго, третьего и четвертого признаков меньше 0,05, следовательно, гипотеза о равенстве математических ожиданий этих признаков в двух группах отвергается на 5-% уровне. Тогда как гипотеза о равенстве признаков X1 и X5 в двух группах принимается на том же уровне.

Таким образом, математическое ожидание ввода в действие жилых домов и объема инвестиций в основной капитал в двух группах равны, а математические ожидания выбросов в атмосферу загрязняющих веществ, обеспеченности амбулаторно-поликлиническими учреждениями и стоимости минимального набора продуктов питания и в этих группах различны.

Т.е. можно заключить, что регионы и первого и второго кластера находятся на одинаковом уровне экономического развития. Т.к. средние показатели выбросов в атмосферу загрязнений, обеспеченности поликлиниками и стоимости продуктов в первом кластере ниже, чем во втором, то есть основание предположить, что регионы первого кластера более благоприятны для жизни населения, чем регионы второго кластера.

Поэтому, как и в предыдущей работе, назовем первый кластер «развитые регионы», а второй - «развивающиеся регионы».

2. В результате дискриминантного анализа все регионы были разбиты на 2 группы: в первую группу вошло 53 региона, во вторую - 31 регион. Для каждой группы регионов проведем регрессионный анализ.

· Для первой группы.

Изучается зависимость признака Y (номинальная заработная плата) от пяти признаков.

По матрице ковариации видно, что наибольшую корреляцию результативный признак имеет со вторым, четвертым и пятым признаками, и наименьшую - с первым и третьим.

Y

X1

X2

X3

X4

X5

Y

1

X1

0,33556

1

X2

0,633169

0,370211

1

X3

0,253281

0,224761

-0,00711

1

X4

0,783026

0,202281

0,674772

-0,05327

1

X5

0,694317

0,469307

0,854778

0,008817

0,796845

1

Модель имеет неплохое качество, о чем можно судить по оценкам следующих показателей:

Регрессионная статистика

Множественный R

0,851149

R-квадрат

0,724455

Нормированный R-квадрат

0,695142

Стандартная ошибка

2465,44

Наблюдения

53

По таблице определим коэффициенты уравнения регрессии и их значимость:

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-16173,2

3783,792

-4,27434

9,29E-05

-23785,2

-8561,2

X1

265,3093

242,5804

1,093696

0,279662

-222,699

753,318

X2

357,9673

277,3733

1,290562

0,203169

-200,036

915,9704

X3

27,49624

8,026555

3,42566

0,001283

11,3489

43,64359

X4

12,57987

2,321953

5,417796

2,02E-06

7,908701

17,25104

X5

-0,29175

0,59462

-0,49064

0,625961

-1,48797

0,904474

Уравнение регрессии имеет вид:

.

Коэффициенты регрессии для первого, второго и пятого признаков являются незначимыми, а все остальные значимые. В целом уравнение регрессии значимо, т.к. имеет наблюдаемое и критическое значение F-статистики 24,71426 и 2,412837 соответственно.

Исключим из рассмотрения пятый признак, т.к. он имеет наименьшую t-статистику.

Получим:

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-15084,2

3040,095

-4,96175

9,18E-06

-21196,7

-8971,68

X1

213,9397

217,0855

0,985509

0,329316

-222,54

650,4193

X2

266,6284

203,9884

1,307076

0,197414

-143,518

676,7745

X3

27,6052

7,959771

3,468089

0,001116

11,601

43,60939

X4

11,86272

1,789851

6,62777

2,74E-08

8,263982

15,46145

Третий и четвертый коэффициенты остались значимыми, свободный коэффициент также значим, а коэффициенты первого и второго признака незначимы. Поэтому исключим теперь первый признак и проведем регрессионный анализ.

Получим следующие результаты:

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-14834,1

3028,593

-4,89801

1,1E-05

-20920,3

-8747,9

X2

331,7044

192,9483

1,719136

0,091902

-56,0397

719,4485

X3

29,49835

7,722222

3,81993

0,000376

13,97996

45,01674

X4

11,76564

1,786613

6,585444

2,91E-08

8,175308

15,35598

Здесь, как и в предыдущем случае, третий, четвертый и свободный коэффициенты значимы, а второй остается незначим. Поэтому исключим его и проведем регрессию для двух переменных.

Получим следующие данные:

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-17484,6

2657,276

-6,57989

2,73E-08

-22821,9

-12147,3

X3

30,01782

7,865748

3,81627

0,000374

14,219

45,81664

X4

13,83999

1,343108

10,30445

5,8E-14

11,14228

16,5377

Уравнение регрессии имеет вид: . Все его коэффициенты значимы. Уравнение в целом тоже значимо, наблюдаемое значение F-статистики равно 58,44392, критическое - 3,18261.

Анализ показателей, представленных в следующей таблице, позволяет определить, что мы получили неплохую модель:

Регрессионная статистика

Множественный R

0,836898

R-квадрат

0,700398

Нормированный R-квадрат

0,688413

Стандартная ошибка

2492,499

Наблюдения

53

Таким образом, получили, что номинальная заработная плата имеет прямую зависимость от обеспеченности амбулаторно-поликлиническими учреждениями и стоимости минимального набора продуктов питания.

· Для второй группы.

Рассмотрим матрицу корреляции:

Y

X1

X2

X3

X4

X5

Y

1

X1

0,048861

1

X2

0,052009

-0,02928

1

X3

-0,11771

-0,17614

-0,08315

1

X4

0,129811

-0,32717

-0,06329

0,705394

1

X5

0,558342

0,290804

0,102868

-0,04154

0,277456

1

Результативный признак имеет слабую связь с признаками. Наибольшая из них - с пятым признаком.

Оценим значимость коэффициентов регрессии:

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

14441,35

5084,58

2,840225

0,008833

3969,462

24913,24

X1

-513,815

687,7936

-0,74705

0,462004

-1930,35

902,7228

X2

-2,91524

20,02414

-0,14559

0,885415

-44,1557

38,32524

X3

-10,287

21,92031

-0,46929

0,642928

-55,4327

34,85871

X4

-0,02463

2,949582

-0,00835

0,993404

-6,09941

6,05015

X5

5,597088

1,944358

2,87863

0,008067

1,592607

9,601569

Значимыми являются только пятый и свободный коэффициент, а все остальные незначимые. Критическое значение F-статистики для этой модели (2,602987) больше наблюдаемого значения (2,575728), откуда следует, что уравнение статистически незначимо.

Удалим из рассмотрения регрессор, имеющий наименьшую t-статистику (X4) и проведем регрессию снова:

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

14438,93

4977,712

2,900715

0,007479

4207,092

24670,76

X1

-511,011

588,6295

-0,86814

0,393262

-1720,96

698,9338

X2

-2,8975

19,52441

-0,1484

0,883169

-43,0305

37,23549

X3

-10,4257

14,03353

-0,74291

0,464196

-39,272

18,42068

X5

5,587821

1,565489

3,569378

0,001422

2,369913

8,805729

Значимыми остались пятый и свободный коэффициенты, а все остальные также незначимы. Поэтому удалим второй признак и снова проведем регрессию:

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

14326,41

4829,714

2,966306

0,006239

4416,656

24236,17

X1

-504,267

576,1458

-0,87524

0,389162

-1686,42

677,8865

X3

-10,2349

13,71914

-0,74603

0,462094

-38,3843

17,91441

X5

5,560437

1,526162

3,643413

0,001128

2,429012

8,691862

Как и в предыдущих случаях, значимые коэффициенты - пятый и свободный, первый и третий коэффициенты остаются незначимыми. Удалим третий признак:

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

11011,04

1876,269

5,868584

2,61E-06

7167,678

14854,4

X1

-430,5

563,085

-0,76454

0,450943

-1583,93

722,9276

X5

5,548735

1,513949

3,665075

0,001024

2,447552

8,649918

Получили аналогичные с предыдущими результаты. Удалим первый признак и построим парную регрессию:

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

9889,118

1160,771

8,519443

2,19E-09

7515,076

12263,16

X5

5,212138

1,438106

3,624308

0,001098

2,270881

8,153395

Получили уравнение регрессии - - у которого все коэффициенты значимы, и само уравнение также является значимым, поскольку наблюдаемое значение (13,13561) больше критического (4,182964).

Таким образом, было выяснено, что для регионов второй группы характерна прямая зависимость номинальной заработной платы от объема вложений в основной капитал.

Сравним полученные результаты с результатами регрессионного анализа по исходным признакам, где была получена зависимость от амбулаторно-поликлинических учреждений и инвестиций в основной капитал. Первая группа регионов также имеет зависимость заработной платы от обеспеченности амбулаторно-поликлиническими учреждениями, но также и от стоимости продуктов питания и не имеет от вложений в основной капитал. А в регионах второй группы зарплата зависит только от инвестиций в основной капитал и не зависит от числа поликлиник.

ЗАКЛЮЧЕНИЕ

В ходе выполнения данной работы были выполнены все поставленные задачи. А именно, с помощью статистических и эконометрических методов была изучена совокупность показателей по пяти признакам, собранных по 84 регионам РФ.

Так, с помощью регрессионного анализа были построены линейная и нелинейная (логарифмическая) модели, которые показали прямую зависимость номинальной заработной платы от обеспеченности амбулаторно-поликлиническими учреждениями и объема инвестиций в основной капитал.

В результате компонентного анализа были выделены 3 главные компоненты, которые объясняют 80,2% совокупной дисперсии и включают в себя следующие признаки:

Первая компонента включает обеспеченность амбулаторно-поликлиническими учреждениями, стоимость минимального набора продуктов питания по субъектам Российской Федерации и объем инвестиций в основной капитал.

Вторая компонента включает ввод в действие жилых домов.

Третья компонента включает выбросы в атмосферу загрязняющих веществ, отходящих от стационарных источников.

Факторный анализ позволил выделить 2 фактора, которые объясняют 60,4% совокупной дисперсии признака. Эти факторы включают в себя следующие компоненты.

первый фактор включает стоимость минимального набора продуктов питания и обеспеченность амбулаторно-поликлиническими учреждениями. Второй фактор включает объем инвестиций в основной капитал и ввод в действие жилых домов.

Все методы кластерного анализа дали абсолютно одинаковые результаты разбиения. Т.е. обучающая выборка из 20 регионов была разбита на 2 группы, в одну из которых входят 19 регионов, а другую образует 1 регион - Ненецкий АО. Согласно проверке гипотезы, математические ожидания ввода в действие жилых домов, выбросов в атмосферу загрязняющих веществ, стоимости минимального набора продуктов питания и объема инвестиций в основной капитал в двух кластерах различны, а математическое ожидание обеспеченности амбулаторно-поликлиническими учреждениями одинаковое в первом и во втором кластерах.

В результате дискриминантного анализа была построена функция, позволяющая отнести объект к одному из двух кластеров, а все регионы разделены на 2 группы. Таким образом, в первую группу вошли 53 региона, а во вторую - 31 регион.

По главным компонентам, факторам и каждому кластеру был проведен регрессионный анализ, который позволил определить зависимость номинальной заработной платы от соответствующих признаков. Результаты схожи с регрессионным анализом по исходным признакам с небольшими отличиями.

СПИСОК ЛИТЕРАТУРЫ

1. Айвазян С.А., Мхитарян В.В. Прикладная статистика и основы эконометрики. - М.: ЮНИТИ, 1998. - 1006 с.

2. Бородич С.А. Вводный курс эконометрики: Учебное пособие - Мн.: БГУ, 2000. - 354 с.

3. Доугерти Кристофер. Введение в эконометрику. Пер. с англ. - М.: ИНФРА-М, 1999. - XIV, 402 с.

4. Иллюстрированный самоучитель по SPSS.

5. Кремер Н.Ш., Путко Б. А. Эконометрика: Учебник для вузов/ Под ред. проф. Н. Ш. Кремера. - М.: ЮНИТИ-ДАНА, 2005. - 311 с.

6. Эконометрика: Учебник/ Под ред. И. И. Елисеевой. - М.: Финансы и статистика, 2004. - 344 с.

7. Электронный учебник программы «Statistica».

8. Соловьев В.И., Калинина В.Н. Компьютерный практикум по прикладной статистике. Учебное пособие для вузов. - М.: РИПО ИГУМО, 2005. - 104 с.

9. Учебник по дисциплине «Эконометрика»/ Н.П. Тихомиров, Е.Ю. Дорохина. - М.: Изд-во Рос. экон. акад., 2002. - 640 с.

10. Шалабанов А.К., Роганов Д.А. Эконометрика. - Казань. - 2004. 198 с.


Подобные документы

  • Разработка и исследование эконометрических методов с учетом специфики экономических данных и в соответствии с потребностями экономической науки и практики. Применение эконометрических методов и моделей для статистического анализа экономических данных.

    реферат [43,1 K], добавлен 10.01.2009

  • Сущность, цели и задачи выборочного обследования. Описание и особенности использования типического способа отбора выборочной совокупности. Формы статистических показателей выборочного наблюдения. Виды и методика расчета оценок статистических показателей.

    курсовая работа [124,1 K], добавлен 13.03.2010

  • Модели стационарных и нестационарных рядов, их идентификация. Системы эконометрических уравнений, оценка длины периода. Определение и свойства индексов инфляции. Использование потребительской корзины и индексов инфляции в экономических расчетах.

    книга [5,0 M], добавлен 19.05.2010

  • Освоение методики организации и проведения выборочного наблюдения; статистических методов и методов компьютерной обработки информации; методов оценки параметров генеральной совокупности на основе выборочных данных. Проверка статистических гипотез.

    лабораторная работа [258,1 K], добавлен 13.05.2010

  • Основные характеристики распределения экономических величин. Сущность, особенности и метод вычисления коэффициента корреляции Пирсона. Расчет статистических характеристик величин с помощью MINITAB. Расчет основных статистических показателей в пакете.

    методичка [411,0 K], добавлен 15.12.2008

  • Практика применения эконометрических методов выходит за границы классической математико-статистической теории. Схема последовательного анализа А. Вальда или схема оценивания степени полинома в регрессии путем последовательной проверки адекватности модели.

    реферат [64,9 K], добавлен 08.01.2009

  • Применение метода аналитической группировки при оценке показателей розничного товарооборота. Определение эмпирического корреляционного отношения, издержек обращения и товарооборота с помощью уравнения линейной регрессии метода математической статистики.

    контрольная работа [316,4 K], добавлен 31.10.2009

  • Методологические основы эконометрики. Проблемы построения эконометрических моделей. Цели эконометрического исследования. Основные этапы эконометрического моделирования. Эконометрические модели парной линейной регрессии и методы оценки их параметров.

    контрольная работа [176,4 K], добавлен 17.10.2014

  • Характеристика строительной отрасли Краснодарского края. Прогноз развития жилищного строительства. Современные методы и инструментальные средства кластерного анализа. Многомерные статистические методы диагностики экономического состояния предприятия.

    дипломная работа [2,4 M], добавлен 20.07.2015

  • Эконометрика как наука, позволяющая анализировать связи между различными экономическими показателями на основании реальных статистических данных. Структурная форма эконометрической модели. Метод наименьших квадратов: общее понятие, главные функции.

    курсовая работа [135,1 K], добавлен 05.12.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.