Многомерные статистические методы и эконометрика
Определение с помощью статистических и эконометрических методов совокупности показателей по пяти признакам, собранных по 84 регионам РФ: обеспеченность амбулаторно-поликлиническими учреждениями, ввод в действие жилых домов и выбросы загрязняющих веществ.
Рубрика | Экономико-математическое моделирование |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 13.06.2009 |
Размер файла | 345,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Алгоритм пересчета матрицы расстояний на каждом шаге агломерации для методов дальнего соседа и средней связи аналогичен вышеприведенному алгоритму, с тем только отличием, что за расстояние между кластерами принимается дальнее расстояние: (метод дальнего соседа) или расстояние, рассчитываемое по формуле:
(метод средней связи).
3. Проведем вычисления по методу К-средних, выбрав в качестве количества кластеров число 2. Этот метод кластеризации существенно отличается от иерархических агломеративных методов. Предположим, уже имеются гипотезы относительно числа кластеров (по наблюдениям или по переменным). Можно указать системе образовать ровно три кластера так, чтобы они были настолько различны, насколько это возможно. Это именно тот тип задач, которые решает алгоритм метода K средних. Это алгоритм, предназначенный для выбора K центров, представляющих кластеры в N точках (K<N). Отправляясь от случайной выборки из N точек, расположение центров кластеров последовательно корректируется таким образом, чтобы каждая из N точек относилась ровно к одному из K кластеров и центр каждого кластера совпадал с центром тяжести относящихся к нему точек. В общем случае метод K средних строит ровно K различных кластеров, расположенных на возможно больших расстояниях друг от друга. [7, Кластерный анализ].
В результате работы программы получено разбиение регионов на 2 кластера:
Кластерная принадлежность
Номер бъекта |
Регионы |
Кластеры |
Расстояние |
|
1 |
Липецкая |
2 |
1,515 |
|
2 |
Московская |
2 |
2,845 |
|
3 |
Орловская |
2 |
1,088 |
|
4 |
Рязанская |
2 |
,882 |
|
5 |
Смоленская |
2 |
,396 |
|
6 |
Тамбовская |
2 |
,869 |
|
7 |
Тверская |
2 |
1,462 |
|
8 |
Тульская |
2 |
1,030 |
|
9 |
Ярославская |
2 |
,675 |
|
10 |
Москва |
2 |
2,371 |
|
11 |
Карелия |
2 |
,942 |
|
12 |
Коми |
2 |
2,324 |
|
13 |
Архангельская |
2 |
1,845 |
|
14 |
Ненецкий АО |
1 |
,000 |
|
15 |
Вологодская |
2 |
,745 |
|
16 |
Калининградская |
2 |
1,511 |
|
17 |
Ленинградская |
2 |
,556 |
|
18 |
Мурманская |
2 |
1,576 |
|
19 |
Новгородская |
2 |
,747 |
|
20 |
Псковская |
2 |
,901 |
Из таблицы видно, что Ненецкий АО снова выделяется в отдельный кластер, в то время, как остальные регионы принадлежат другому кластеру.
4. Проведем кластерный анализ, выбрав в качестве признаков главные компоненты, на долю которых приходится не менее 70% доли общей дисперсии.
Расстояние между первым и последним объектами равно 1, 188.
В результате кластерного анализа регионов по методу ближнего соседа с использованием главных компонент получено такое же разбиение по кластерам, как при анализе исходных признаков.
Аналогично для метода дальнего соседа, средней связи и К-средних.
5. Теперь проведем кластерный анализ по главным факторам, выделенным в предыдущей работе. Аналогично кластерному анализу по главным компонентам мы получили точно такое же разбиение регионов по всем четырем методам.
В итоге мы получили одинаковое разбиение регионов с использованием как исходных признаков, так и главных компонент и факторов.
Все результаты кластерного анализа по главным компонентам и факторам занесем в таблицу.
Кластерная принадлежность регионов (с использованием главных компонент и факторов)
Регион |
Метод |
||||
Ближнего соседа |
Дальнего соседа |
Средней связи |
К-средних |
||
Липецкая область |
1 |
1 |
1 |
1 |
|
Московская область |
1 |
1 |
1 |
1 |
|
Орловская область |
1 |
1 |
1 |
1 |
|
Рязанская область |
1 |
1 |
1 |
1 |
|
Смоленская область |
1 |
1 |
1 |
1 |
|
Тамбовская область |
1 |
1 |
1 |
1 |
|
Тверская область |
1 |
1 |
1 |
1 |
|
Тульская область |
1 |
1 |
1 |
1 |
|
Ярославская область |
1 |
1 |
1 |
1 |
|
г.Москва |
1 |
1 |
1 |
1 |
|
Республика Карелия |
1 |
1 |
1 |
1 |
|
Республика Коми |
1 |
1 |
1 |
1 |
|
Архангельская область |
1 |
1 |
1 |
1 |
|
Ненецкий авт.округ |
2 |
2 |
2 |
2 |
|
Вологодская область |
1 |
1 |
1 |
1 |
|
Калининградская область |
1 |
1 |
1 |
1 |
|
Ленинградская область |
1 |
1 |
1 |
1 |
|
Мурманская область |
1 |
1 |
1 |
1 |
|
Новгородская область |
1 |
1 |
1 |
1 |
|
Псковская область |
1 |
1 |
1 |
1 |
6. Для каждого варианта разбиения вычислим внутриклассовые средние значения исходных признаков и их выборочные дисперсии и занесем эти значения в сводную таблицу.
Очевидно, что можно выбрать любой из перечисленных выше методов разбиения, т.к. они дают абсолютно одинаковые результаты.
7. Для метода ближнего соседа проверим гипотезу о равенстве математических ожиданий каждого из пяти признаков в кластерах. Результаты приведены в таблице, в которой столбец «Уровень значимости» содержит значения, позволяющие принять или отвергнуть гипотезу. Если рассчитанный уровень значимости меньше 0,05, то гипотеза отвергается, если больше 0,05, то принимается [8,69].
Как видно из таблицы, для первого, второго, четвертого и пятого признаков рассчитанный уровень значимости меньше 0,05, следовательно, гипотеза о равенстве математических ожиданий этих признаков в двух кластерах отвергается. В то время как гипотеза о равенстве признака Х3 в двух кластерах принимается (уровень значимости 0,196>0.05).
Согласно проверке гипотезы, математические ожидания ввода в действие жилых домов, выбросов в атмосферу загрязняющих веществ, стоимости минимального набора продуктов питания и объема инвестиций в основной капитал в двух кластерах различны, а математическое ожидание обеспеченности амбулаторно-поликлиническими учреждениями одинаковое в первом и во втором кластерах.
Проанализируем столбец сводной таблицы, в котором содержатся средние значения по двум кластерам. Ввод в действие жилых домов в первом кластере значительно ниже аналогичного показателя во втором кластере, так же как и выброс в атмосферу загрязняющих веществ, стоимость минимального набора продуктов питания и объем инвестиций в основной капитал. Обеспеченность амбулаторно-поликлиническими учреждениями на одинаковом уровне, как в первом, так и во втором кластере. Из этого моно сделать вывод, что регионы первого кластера достаточно развитые и хорошо освоенные. Здесь сложились приемлемые для населения цены, относительно хорошая экологическая ситуация, ввод в действие большого количества жилых домов уже не требуется, т.к. большая часть территории уже застроена и используется, соответственно, и объем инвестиций в основной капитал сравнительно небольшой. Второй же регион, видимо, находится на стадии интенсивного освоения и развития. Об этом свидетельствуют и широкие масштабы строительства, и большой объем вложений, и высокие цены, а также плохая экология. Однако, для успешного освоения региона необходима хорошая база здравоохранения, поэтому здесь уровень обеспеченности амбулаторно-поликлиническими учреждениями почти такой же, как и в развитых регионах.
Таким образом, в соответствии с приведенной интерпретацией, назовем первый кластер «освоенные регионы», а второй - «осваиваемый регион».
8. Проведем регрессионный анализ признака Y на признаки Х1, Х2, Х3, Х4, Х5 отдельно для каждого кластера. Ввиду того, что невозможно провести регрессию по одному региону, который образует второй кластер, воспользуемся методом дальнего соседа, где на дендрограмме четко прослеживается разбиение на 2 кластера, содержащих несколько регионов в каждом. Таким образом, будем считать, что второй кластер образуют Ненецкий АО и следующие регионы: Коми, Архангельская, Мурманская, Московская, Вологодская, Новгородская, Липецкая.
· Для первого кластера.
Матрица корреляции позволяет увидеть сильную связь результативного признака с регрессорами X3 и X4, умеренную с X1 и X5 и очень слабую с X2:
Y |
X1 |
X2 |
X3 |
X4 |
X5 |
||
Y |
1 |
||||||
X1 |
0,437037 |
1 |
|||||
X2 |
0,000721 |
-0,30097 |
1 |
||||
X3 |
0,815665 |
0,332045 |
-0,21033 |
1 |
|||
X4 |
0,91547 |
0,465072 |
0,040293 |
0,633864 |
1 |
||
X5 |
0,67091 |
0,615633 |
0,298005 |
0,498134 |
0,677078 |
1 |
По следующей таблице можно сказать, что модель является качественной, т.к. имеет высокие показатели коэффициента множественной корреляции, коэффициента детерминации и скорректированного коэффициента детерминации:
Регрессионная статистика |
||
Множественный R |
0,96679 |
|
R-квадрат |
0,934683 |
|
Нормированный R-квадрат |
0,880253 |
|
Стандартная ошибка |
1087,314 |
|
Наблюдения |
12 |
Уравнение регрессии имеет вид:
.
Наблюдаемое и критическое значение F-статистики составляют 17,17205 и 4,387374 соответственно, благодаря чему можно сказать, что уравнение значимо в целом.
Проанализируем его коэффициенты.
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
-20442,6 |
4760,074 |
-4,29459 |
0,005123 |
-32090 |
-8795,08 |
|
X1 |
86,47617 |
467,0122 |
0,185169 |
0,859197 |
-1056,26 |
1229,214 |
|
X2 |
465,1737 |
979,1122 |
0,475097 |
0,651518 |
-1930,63 |
2860,975 |
|
X3 |
36,26704 |
13,35741 |
2,715125 |
0,034868 |
3,582635 |
68,95145 |
|
X4 |
14,42741 |
3,622612 |
3,9826 |
0,007262 |
5,563201 |
23,29163 |
|
X5 |
-0,31351 |
3,795565 |
-0,0826 |
0,936858 |
-9,60092 |
8,973908 |
Значимыми являются только третий и четвертый коэффициенты, остальные равны нулю с вероятностью 95%. Исключим из состава регрессоров пятый признак, как имеющий наименьшую t- статистику. Получим следующие результаты.
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
-20168,5 |
3162,124 |
-6,37816 |
0,000375 |
-27645,8 |
-12691,3 |
|
X1 |
58,3228 |
295,7386 |
0,197211 |
0,849267 |
-640,988 |
757,6335 |
|
X2 |
407,0434 |
630,5694 |
0,645517 |
0,539167 |
-1084,02 |
1898,103 |
|
X3 |
35,80068 |
11,21379 |
3,192557 |
0,015222 |
9,284272 |
62,31708 |
|
X4 |
14,34018 |
3,210022 |
4,467316 |
0,00291 |
6,749686 |
21,93068 |
Значимыми остались третий и четвертый признаки и свободный коэффициент. Все остальные - незначимы. Поэтому исключим из списка первый признак, т.к. он имеет наименьшую t- статистику. Регрессия по трем признакам дала следующие результаты.
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
-20315,7 |
2882,317 |
-7,0484 |
0,000107 |
-26962,4 |
-13669,1 |
|
X2 |
361,947 |
551,2171 |
0,656632 |
0,529849 |
-909,162 |
1633,056 |
|
X3 |
35,66143 |
10,49777 |
3,397048 |
0,009401 |
11,45353 |
59,86933 |
|
X4 |
14,61332 |
2,716352 |
5,379757 |
0,000662 |
8,349395 |
20,87723 |
Незначимым является один коэффициент при X2, а остальные значимые. Исключим X2 и проведем регрессионный анализ.
Уравнение регрессии:
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
-20139,5 |
2777,626 |
-7,25062 |
4,81E-05 |
-26422,9 |
-13856,1 |
|
X3 |
33,55754 |
9,675783 |
3,468199 |
0,007069 |
11,6694 |
55,44568 |
|
X4 |
15,02285 |
2,558869 |
5,870896 |
0,000237 |
9,23429 |
20,81142 |
Все коэффициенты этого уравнения являются значимыми, и само уравнение, имея Fн=60,43687 и Fк=3,096553, статистически значимо. Проанализируем показатели, содержащиеся в следующей таблице:
Регрессионная статистика |
||
Множественный R |
0,964729 |
|
R-квадрат |
0,930702 |
|
Нормированный R-квадрат |
0,915302 |
|
Стандартная ошибка |
914,446 |
|
Наблюдения |
12 |
Высокие оценки множественного R, R2 и нормированного R2, а также небольшое значение стандартной ошибки свидетельствуют о хорошем качестве модели.
В результате регрессионного анализа для первого кластера была получена зависимость номинальной заработной платы от обеспеченности амбулаторно-поликлиническими учреждениями и стоимости минимального набора продуктов питания.
· Для второго кластера.
Матрица корреляции имеет вид и позволяет определить сильную связь результативного признака со вторым, четвертым и пятым независимыми компонентами. Более слабо Y коррелирует с третьим признаком, и имеет наименьшую корреляцию с первым признаком.
Y |
X1 |
X2 |
X3 |
X4 |
X5 |
||
Y |
1 |
||||||
X1 |
0,398899 |
1 |
|||||
X2 |
0,918327 |
0,297061 |
1 |
||||
X3 |
-0,71313 |
-0,55619 |
-0,54937 |
1 |
|||
X4 |
0,992192 |
0,353451 |
0,921639 |
-0,7129 |
1 |
||
X5 |
0,938584 |
0,505718 |
0,931463 |
-0,71293 |
0,954758 |
1 |
Уравнение имеет вид: Y = -15061.1 + 324.353X1 + 334.5X2 + 0.444X3 + 17.273X4 - 1.012X5
Определим значимость его коэффициентов по следующей таблице:
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
-15061,1 |
3029,784 |
-4,97102 |
0,038166 |
-28097,2 |
-2025 |
|
X1 |
324,3533 |
64,84276 |
5,002151 |
0,037719 |
45,35741 |
603,3492 |
|
X2 |
334,4999 |
102,3674 |
3,267639 |
0,082264 |
-105,952 |
774,9515 |
|
X3 |
0,443851 |
5,785511 |
0,076718 |
0,945832 |
-24,4492 |
25,3369 |
|
X4 |
17,27289 |
1,304104 |
13,24502 |
0,005652 |
11,66178 |
22,88399 |
|
X5 |
-1,01179 |
0,206824 |
-4,89202 |
0,039336 |
-1,90168 |
-0,12189 |
Коэффициенты признаков X2 и X3 являются незначимыми, остальные - значимые. Уравнение в целом значимо, т.к. имеет наблюдаемую статистику 413,5413 и критическую 19,29641. Удалим из списка регрессоров третий признак, т.к. он имеет наименьшую t-статистику и снова построим уравнение регрессии.
Оно будет иметь вид: .
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
-14872,1 |
1441,344 |
-10,3182 |
0,001942 |
-19459,1 |
-10285,1 |
|
X1 |
322,9254 |
50,79042 |
6,357998 |
0,007873 |
161,2876 |
484,5632 |
|
X2 |
337,5144 |
77,29317 |
4,366679 |
0,02221 |
91,53309 |
583,4958 |
|
X4 |
17,23049 |
0,965909 |
17,83864 |
0,000384 |
14,15654 |
20,30445 |
|
X5 |
-1,01345 |
0,168188 |
-6,02572 |
0,009162 |
-1,5487 |
-0,4782 |
Все коэффициенты уравнения являются значимыми. Уравнение регрессии тоже значимо, т.к. наблюдаемое значение F-статистики (773,1127) больше критического (9,117182).
Данная модель имеет хорошее качество, что можно проследить по следующей таблице:
Регрессионная статистика |
||
Множественный R |
0,999515 |
|
R-квадрат |
0,999031 |
|
Нормированный R-квадрат |
0,997739 |
|
Стандартная ошибка |
304,9263 |
|
Наблюдения |
8 |
В результате регрессионного анализа для второго кластера была получена линейная зависимость номинальной заработной платы от ввода в действие жилых домов, выбросов в атмосферу загрязняющих веществ, стоимости продуктов питания и инвестиций в основной капитал, причем с последним признаком наблюдается обратная связь.
Если сравнивать полученные результаты регрессионного анализа по кластерам и по исходной совокупности данных, то можно сказать, что регрессия по первому кластеру схожа с регрессией по исходным признакам зависимостью от амбулаторно-поликлинических учреждений, а регрессия по второму кластеру - зависимостью от вложений в основной капитал.
РАЗДЕЛ 4. ДИСКРИМИНАНТНЫЙ АНАЛИЗ
1. Запишем модель дискриминантного анализа и предъявляемые к ней требования.
С помощью дискриминантного анализа на основании некоторых признаков изучаемый объект может быть причислен к одной из двух (или к одной из нескольких) заданных заранее групп.
Ядром дискриминантного анализа является построение так называемой дискриминантной функции
d = b1х1+b2х2+... + bnхn+а,
где x1 и хn -- значения переменных, соответствующих рассматриваемым случаям, онстанты b1-bn и a -- коэффициенты, которые и предстоит оценить с помощью дискриминантного анализа. Целью является определение таких коэффициентов, чтобы по значениям дискриминантной функции можно было с максимальной четкостью провести разделение по группам [7, дискриминантный анализ].
2. Проведем дискриминантный анализ, взяв априорные данные из кластерного анализа, используя метод дальнего соседа. В результате кластеризации по этому методу, Ненецкий АО был выделен в отдельный кластер. Однако по дендрограмме можно проследить, что фактически регионы разбиваются на 2 различных кластера. Во второй кластер вошли следующие регионы: Коми, Архангельская, Мурманская, Вологодская, Новгородская, Липецкая области и город Москва. Остальные регионы образуют первый кластер. Требуется определить, к какой из двух групп относится каждый из оставшихся 65 регионов (включая Ненецкий АО), считая, что каждый регион относится только к одной группе.
Для вычисления выберем все пять исходных признаков.
Вычислим стандартизированные канонические коэффициенты дискриминантной функции:
Признак |
Функция |
|
X1 |
-,228 |
|
X2 |
,618 |
|
X3 |
1,092 |
|
X4 |
,226 |
|
X5 |
-,493 |
Стандартизированные коэффициенты показывают как сильно отдельные переменные, применяемые в дискриминантной функции, коррелируют со стандартизированными значениями этой дискриминантной функции. Например, большой вклад в значение дискриминантной функции вносят переменные X2 (выбросы в атмосферу загрязняющих веществ) и X3 (обеспеченность амбулаторно-поликлиническими учреждениями). Стандартизированные коэффициенты основаны на стандартизированных значениях переменных, получаемых с помощью z-преобразования.
Вычислим нестандартизированные канонические коэффициенты дискриминантной функции:
Коэффициенты |
Функция |
|
X3 |
,751 |
|
X2 |
,429 |
|
X5 |
,327 |
|
X4 |
,226 |
|
X1 |
-,113 |
Нестандартизированные коэффициенты - это множители при заданных значениях переменных, входящих в дискриминантную функцию.
Таким образом, дискриминантная функция имеет вид:
D = -0.113 X1 + 0.429 X2 + 0.751 X3 + 0.226 X4 + 0.327 X5.
Проанализируем качество полученной функции. Для этого воспользуемся таблицей:
Собственные значения
Функция |
Собственное значение |
% вариации |
Суммарный % |
Каноническая корреляция |
|
1 |
3,802 |
100,0 |
100,0 |
,890 |
Большое собственное значение свидетельствует об удачно подобранной дискриминантной функции. Одна дискриминантная функция объясняет 100 % вариации признаков. Канонические корреляции являются показателями качества функции, т. е. чем больше эти показатели, тем выше разделительная способность функции. Значение канонической корреляции 0,89 указывает на достаточно хорошую разделительную способность полученной функции.
1. Укажем, к каким группам были отнесены классифицируемые объекты, и вероятности, с которыми объекты входят в эти группы. Все данные представлены в таблице:
Статистики наблюдений
№ объекта |
Фактическая группа |
Прогнозируемая группа |
Значение функции на объектах |
Вероятность вхождения в первую группу |
Вероятность вхождения во вторую группу |
|
1 |
. |
1 |
-2,75729 |
0,99999 |
0,00001 |
|
2 |
. |
1 |
-1,77633 |
0,99975 |
0,00025 |
|
3 |
. |
2 |
1,51082 |
0,01603 |
0,98397 |
|
4 |
. |
1 |
-2,52018 |
0,99998 |
0,00002 |
|
5 |
. |
1 |
-2,51226 |
0,99998 |
0,00002 |
|
6 |
. |
1 |
-0,55183 |
0,97493 |
0,02507 |
|
7 |
. |
1 |
-2,14422 |
0,99994 |
0,00006 |
|
8 |
. |
1 |
-2,16023 |
0,99994 |
0,00006 |
|
9 |
2 |
2 |
1,91364 |
0,00355 |
0,99645 |
|
10 |
1 |
1 |
-1,26623 |
0,99826 |
0,00174 |
|
11 |
1 |
1 |
-1,98948 |
0,99989 |
0,00011 |
|
12 |
1 |
1 |
-1,56032 |
0,99943 |
0,00057 |
|
13 |
1 |
1 |
-0,40186 |
0,9567 |
0,0433 |
|
14 |
1 |
1 |
-1,29833 |
0,99846 |
0,00154 |
|
15 |
1 |
1 |
-2,62759 |
0,99999 |
0,00001 |
|
16 |
1 |
1 |
-1,06654 |
0,99632 |
0,00368 |
|
17 |
. |
1 |
-0,61665 |
0,98026 |
0,01974 |
|
18 |
2 |
2 |
2,89967 |
0,00009 |
0,99991 |
|
19 |
1 |
1 |
-0,63451 |
0,98152 |
0,01848 |
|
20 |
2 |
2 |
4,6813 |
0 |
1 |
|
21 |
2 |
2 |
3,01559 |
0,00006 |
0,99994 |
|
22 |
1 |
-23,5078 |
1 |
0 |
||
23 |
2 |
2 |
1,16501 |
0,05662 |
0,94338 |
|
24 |
1 |
1 |
-2,71838 |
0,99999 |
0,00001 |
|
25 |
1 |
1 |
-1,64899 |
0,99959 |
0,00041 |
|
26 |
2 |
2 |
1,48965 |
0,01734 |
0,98266 |
|
27 |
2 |
2 |
0,96626 |
0,11267 |
0,88733 |
|
28 |
1 |
1 |
-0,91889 |
0,9936 |
0,0064 |
|
29 |
. |
2 |
2,30613 |
0,00081 |
0,99919 |
|
30 |
. |
1 |
-0,95583 |
0,99443 |
0,00557 |
|
31 |
. |
1 |
-6,71214 |
1 |
0 |
|
32 |
. |
1 |
-6,01949 |
1 |
0 |
|
33 |
. |
1 |
-4,00668 |
1 |
0 |
|
34 |
. |
1 |
-0,20946 |
0,9145 |
0,0855 |
|
35 |
. |
1 |
-3,09869 |
1 |
0 |
|
36 |
. |
1 |
-0,15024 |
0,89534 |
0,10466 |
|
37 |
. |
1 |
-10,715 |
1 |
0 |
|
38 |
. |
1 |
-3,15208 |
1 |
0 |
|
39 |
. |
1 |
-3,73084 |
1 |
0 |
|
40 |
. |
2 |
0,52085 |
0,40514 |
0,59486 |
|
41 |
. |
1 |
-1,12713 |
0,99707 |
0,00293 |
|
42 |
. |
1 |
-1,94645 |
0,99987 |
0,00013 |
|
43 |
. |
2 |
1,2741 |
0,03825 |
0,96175 |
|
44 |
. |
2 |
3,72986 |
0 |
1 |
|
45 |
. |
1 |
-3,09226 |
1 |
0 |
|
46 |
. |
1 |
-3,03555 |
1 |
0 |
|
47 |
. |
1 |
0,0288 |
0,81327 |
0,18673 |
|
48 |
. |
2 |
0,58555 |
0,34794 |
0,65206 |
|
49 |
. |
1 |
-3,47834 |
1 |
0 |
|
50 |
. |
1 |
-0,07669 |
0,86636 |
0,13364 |
|
51 |
. |
1 |
-1,47263 |
0,9992 |
0,0008 |
|
52 |
. |
1 |
-1,01332 |
0,99551 |
0,00449 |
|
53 |
. |
1 |
-0,03795 |
0,84852 |
0,15148 |
|
54 |
. |
1 |
-1,84807 |
0,99981 |
0,00019 |
|
55 |
. |
1 |
-1,03495 |
0,99586 |
0,00414 |
|
56 |
. |
1 |
-0,60595 |
0,97947 |
0,02053 |
|
57 |
. |
2 |
25,40745 |
0 |
1 |
|
58 |
. |
1 |
-0,67555 |
0,98413 |
0,01587 |
|
59 |
. |
1 |
-1,69734 |
0,99966 |
0,00034 |
|
60 |
. |
2 |
7,56569 |
0 |
1 |
|
61 |
. |
2 |
17,39934 |
0 |
1 |
|
62 |
. |
2 |
1,045 |
0,08622 |
0,91378 |
|
63 |
. |
2 |
125,9983 |
0 |
1 |
|
64 |
. |
1 |
-1,31425 |
0,99855 |
0,00145 |
|
65 |
. |
2 |
3,0485 |
0,00005 |
0,99995 |
|
66 |
. |
2 |
1,98111 |
0,00276 |
0,99724 |
|
67 |
. |
2 |
0,52532 |
0,40108 |
0,59892 |
|
68 |
. |
2 |
1,68373 |
0,00842 |
0,99158 |
|
69 |
. |
1 |
-0,51874 |
0,9717 |
0,0283 |
|
70 |
. |
1 |
-1,56037 |
0,99943 |
0,00057 |
|
71 |
. |
2 |
7,83506 |
0 |
1 |
|
72 |
. |
1 |
-1,77246 |
0,99974 |
0,00026 |
|
73 |
. |
2 |
0,59063 |
0,34361 |
0,65639 |
|
74 |
. |
1 |
-0,3749 |
0,95229 |
0,04771 |
|
75 |
. |
2 |
5,05088 |
0 |
1 |
|
76 |
. |
2 |
4,1223 |
0 |
1 |
|
77 |
. |
1 |
-0,90543 |
0,99327 |
0,00673 |
|
78 |
. |
2 |
0,85126 |
0,16382 |
0,83618 |
|
79 |
. |
2 |
1,21127 |
0,04799 |
0,95201 |
|
80 |
. |
2 |
3,9112 |
0 |
1 |
|
81 |
. |
2 |
6,41917 |
0 |
1 |
|
82 |
. |
1 |
-5,01373 |
1 |
0 |
|
83 |
. |
1 |
0,03082 |
0,81211 |
0,18789 |
|
84 |
. |
2 |
19,52412 |
0 |
1 |
В результате оказалось, что все 19 регионов, вошедшие в первоначальную выборку, были разбиты правильно, а остальные 65 регионов разбились на 2 группы.
Рассчитаем внутригрупповые математические ожидания. Проверим гипотезу о равенстве математических ожиданий признаков в двух группах.
Группа |
Средние |
|||||
1 |
X1=2,83973; |
X2=1,108808; |
X3=222,43396; |
X4=1399,3490; |
X5=471,14492. |
|
2 |
X1=2,941936; |
X2=17,24622; |
X3=305,2069; |
X4=1662,755; |
X5=508,0618. |
Проверка гипотезы
Сумма квадратов |
Значение квадрата |
F-статистика |
Ур-нь значимости |
|||
X1 |
Межгрупповая |
,428 |
,428 |
,141 |
,709 |
|
Внутригрупповая |
249,592 |
3,044 |
||||
Общая |
250,020 |
|||||
X2 |
Межгрупповая |
4663,384 |
4663,384 |
5,006 |
,028 |
|
Внутригрупповая |
76384,616 |
931,520 |
||||
Общая |
81048,000 |
|||||
X3 |
Межгрупповая |
126806,194 |
126806,194 |
41,506 |
,000 |
|
Внутригрупповая |
250520,896 |
3055,133 |
||||
Общая |
377327,090 |
|||||
X4 |
Межгрупповая |
1090066,125 |
1090066,125 |
6,213 |
,015 |
|
Внутригрупповая |
14386901,747 |
175450,021 |
||||
Общая |
15476967,871 |
|||||
X5 |
Межгрупповая |
5535,141 |
5535,141 |
,003 |
,953 |
|
Внутригрупповая |
130677836,707 |
1593632,155 |
||||
Общая |
130683371,848 |
Уровень значимости для второго, третьего и четвертого признаков меньше 0,05, следовательно, гипотеза о равенстве математических ожиданий этих признаков в двух группах отвергается на 5-% уровне. Тогда как гипотеза о равенстве признаков X1 и X5 в двух группах принимается на том же уровне.
Таким образом, математическое ожидание ввода в действие жилых домов и объема инвестиций в основной капитал в двух группах равны, а математические ожидания выбросов в атмосферу загрязняющих веществ, обеспеченности амбулаторно-поликлиническими учреждениями и стоимости минимального набора продуктов питания и в этих группах различны.
Т.е. можно заключить, что регионы и первого и второго кластера находятся на одинаковом уровне экономического развития. Т.к. средние показатели выбросов в атмосферу загрязнений, обеспеченности поликлиниками и стоимости продуктов в первом кластере ниже, чем во втором, то есть основание предположить, что регионы первого кластера более благоприятны для жизни населения, чем регионы второго кластера.
Поэтому, как и в предыдущей работе, назовем первый кластер «развитые регионы», а второй - «развивающиеся регионы».
2. В результате дискриминантного анализа все регионы были разбиты на 2 группы: в первую группу вошло 53 региона, во вторую - 31 регион. Для каждой группы регионов проведем регрессионный анализ.
· Для первой группы.
Изучается зависимость признака Y (номинальная заработная плата) от пяти признаков.
По матрице ковариации видно, что наибольшую корреляцию результативный признак имеет со вторым, четвертым и пятым признаками, и наименьшую - с первым и третьим.
Y |
X1 |
X2 |
X3 |
X4 |
X5 |
||
Y |
1 |
||||||
X1 |
0,33556 |
1 |
|||||
X2 |
0,633169 |
0,370211 |
1 |
||||
X3 |
0,253281 |
0,224761 |
-0,00711 |
1 |
|||
X4 |
0,783026 |
0,202281 |
0,674772 |
-0,05327 |
1 |
||
X5 |
0,694317 |
0,469307 |
0,854778 |
0,008817 |
0,796845 |
1 |
Модель имеет неплохое качество, о чем можно судить по оценкам следующих показателей:
Регрессионная статистика |
||
Множественный R |
0,851149 |
|
R-квадрат |
0,724455 |
|
Нормированный R-квадрат |
0,695142 |
|
Стандартная ошибка |
2465,44 |
|
Наблюдения |
53 |
По таблице определим коэффициенты уравнения регрессии и их значимость:
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
-16173,2 |
3783,792 |
-4,27434 |
9,29E-05 |
-23785,2 |
-8561,2 |
|
X1 |
265,3093 |
242,5804 |
1,093696 |
0,279662 |
-222,699 |
753,318 |
|
X2 |
357,9673 |
277,3733 |
1,290562 |
0,203169 |
-200,036 |
915,9704 |
|
X3 |
27,49624 |
8,026555 |
3,42566 |
0,001283 |
11,3489 |
43,64359 |
|
X4 |
12,57987 |
2,321953 |
5,417796 |
2,02E-06 |
7,908701 |
17,25104 |
|
X5 |
-0,29175 |
0,59462 |
-0,49064 |
0,625961 |
-1,48797 |
0,904474 |
Уравнение регрессии имеет вид:
.
Коэффициенты регрессии для первого, второго и пятого признаков являются незначимыми, а все остальные значимые. В целом уравнение регрессии значимо, т.к. имеет наблюдаемое и критическое значение F-статистики 24,71426 и 2,412837 соответственно.
Исключим из рассмотрения пятый признак, т.к. он имеет наименьшую t-статистику.
Получим:
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
-15084,2 |
3040,095 |
-4,96175 |
9,18E-06 |
-21196,7 |
-8971,68 |
|
X1 |
213,9397 |
217,0855 |
0,985509 |
0,329316 |
-222,54 |
650,4193 |
|
X2 |
266,6284 |
203,9884 |
1,307076 |
0,197414 |
-143,518 |
676,7745 |
|
X3 |
27,6052 |
7,959771 |
3,468089 |
0,001116 |
11,601 |
43,60939 |
|
X4 |
11,86272 |
1,789851 |
6,62777 |
2,74E-08 |
8,263982 |
15,46145 |
Третий и четвертый коэффициенты остались значимыми, свободный коэффициент также значим, а коэффициенты первого и второго признака незначимы. Поэтому исключим теперь первый признак и проведем регрессионный анализ.
Получим следующие результаты:
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
-14834,1 |
3028,593 |
-4,89801 |
1,1E-05 |
-20920,3 |
-8747,9 |
|
X2 |
331,7044 |
192,9483 |
1,719136 |
0,091902 |
-56,0397 |
719,4485 |
|
X3 |
29,49835 |
7,722222 |
3,81993 |
0,000376 |
13,97996 |
45,01674 |
|
X4 |
11,76564 |
1,786613 |
6,585444 |
2,91E-08 |
8,175308 |
15,35598 |
Здесь, как и в предыдущем случае, третий, четвертый и свободный коэффициенты значимы, а второй остается незначим. Поэтому исключим его и проведем регрессию для двух переменных.
Получим следующие данные:
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
-17484,6 |
2657,276 |
-6,57989 |
2,73E-08 |
-22821,9 |
-12147,3 |
|
X3 |
30,01782 |
7,865748 |
3,81627 |
0,000374 |
14,219 |
45,81664 |
|
X4 |
13,83999 |
1,343108 |
10,30445 |
5,8E-14 |
11,14228 |
16,5377 |
Уравнение регрессии имеет вид: . Все его коэффициенты значимы. Уравнение в целом тоже значимо, наблюдаемое значение F-статистики равно 58,44392, критическое - 3,18261.
Анализ показателей, представленных в следующей таблице, позволяет определить, что мы получили неплохую модель:
Регрессионная статистика |
||
Множественный R |
0,836898 |
|
R-квадрат |
0,700398 |
|
Нормированный R-квадрат |
0,688413 |
|
Стандартная ошибка |
2492,499 |
|
Наблюдения |
53 |
Таким образом, получили, что номинальная заработная плата имеет прямую зависимость от обеспеченности амбулаторно-поликлиническими учреждениями и стоимости минимального набора продуктов питания.
· Для второй группы.
Рассмотрим матрицу корреляции:
Y |
X1 |
X2 |
X3 |
X4 |
X5 |
||
Y |
1 |
||||||
X1 |
0,048861 |
1 |
|||||
X2 |
0,052009 |
-0,02928 |
1 |
||||
X3 |
-0,11771 |
-0,17614 |
-0,08315 |
1 |
|||
X4 |
0,129811 |
-0,32717 |
-0,06329 |
0,705394 |
1 |
||
X5 |
0,558342 |
0,290804 |
0,102868 |
-0,04154 |
0,277456 |
1 |
Результативный признак имеет слабую связь с признаками. Наибольшая из них - с пятым признаком.
Оценим значимость коэффициентов регрессии:
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
14441,35 |
5084,58 |
2,840225 |
0,008833 |
3969,462 |
24913,24 |
|
X1 |
-513,815 |
687,7936 |
-0,74705 |
0,462004 |
-1930,35 |
902,7228 |
|
X2 |
-2,91524 |
20,02414 |
-0,14559 |
0,885415 |
-44,1557 |
38,32524 |
|
X3 |
-10,287 |
21,92031 |
-0,46929 |
0,642928 |
-55,4327 |
34,85871 |
|
X4 |
-0,02463 |
2,949582 |
-0,00835 |
0,993404 |
-6,09941 |
6,05015 |
|
X5 |
5,597088 |
1,944358 |
2,87863 |
0,008067 |
1,592607 |
9,601569 |
Значимыми являются только пятый и свободный коэффициент, а все остальные незначимые. Критическое значение F-статистики для этой модели (2,602987) больше наблюдаемого значения (2,575728), откуда следует, что уравнение статистически незначимо.
Удалим из рассмотрения регрессор, имеющий наименьшую t-статистику (X4) и проведем регрессию снова:
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
14438,93 |
4977,712 |
2,900715 |
0,007479 |
4207,092 |
24670,76 |
|
X1 |
-511,011 |
588,6295 |
-0,86814 |
0,393262 |
-1720,96 |
698,9338 |
|
X2 |
-2,8975 |
19,52441 |
-0,1484 |
0,883169 |
-43,0305 |
37,23549 |
|
X3 |
-10,4257 |
14,03353 |
-0,74291 |
0,464196 |
-39,272 |
18,42068 |
|
X5 |
5,587821 |
1,565489 |
3,569378 |
0,001422 |
2,369913 |
8,805729 |
Значимыми остались пятый и свободный коэффициенты, а все остальные также незначимы. Поэтому удалим второй признак и снова проведем регрессию:
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
14326,41 |
4829,714 |
2,966306 |
0,006239 |
4416,656 |
24236,17 |
|
X1 |
-504,267 |
576,1458 |
-0,87524 |
0,389162 |
-1686,42 |
677,8865 |
|
X3 |
-10,2349 |
13,71914 |
-0,74603 |
0,462094 |
-38,3843 |
17,91441 |
|
X5 |
5,560437 |
1,526162 |
3,643413 |
0,001128 |
2,429012 |
8,691862 |
Как и в предыдущих случаях, значимые коэффициенты - пятый и свободный, первый и третий коэффициенты остаются незначимыми. Удалим третий признак:
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
11011,04 |
1876,269 |
5,868584 |
2,61E-06 |
7167,678 |
14854,4 |
|
X1 |
-430,5 |
563,085 |
-0,76454 |
0,450943 |
-1583,93 |
722,9276 |
|
X5 |
5,548735 |
1,513949 |
3,665075 |
0,001024 |
2,447552 |
8,649918 |
Получили аналогичные с предыдущими результаты. Удалим первый признак и построим парную регрессию:
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
9889,118 |
1160,771 |
8,519443 |
2,19E-09 |
7515,076 |
12263,16 |
|
X5 |
5,212138 |
1,438106 |
3,624308 |
0,001098 |
2,270881 |
8,153395 |
Получили уравнение регрессии - - у которого все коэффициенты значимы, и само уравнение также является значимым, поскольку наблюдаемое значение (13,13561) больше критического (4,182964).
Таким образом, было выяснено, что для регионов второй группы характерна прямая зависимость номинальной заработной платы от объема вложений в основной капитал.
Сравним полученные результаты с результатами регрессионного анализа по исходным признакам, где была получена зависимость от амбулаторно-поликлинических учреждений и инвестиций в основной капитал. Первая группа регионов также имеет зависимость заработной платы от обеспеченности амбулаторно-поликлиническими учреждениями, но также и от стоимости продуктов питания и не имеет от вложений в основной капитал. А в регионах второй группы зарплата зависит только от инвестиций в основной капитал и не зависит от числа поликлиник.
ЗАКЛЮЧЕНИЕ
В ходе выполнения данной работы были выполнены все поставленные задачи. А именно, с помощью статистических и эконометрических методов была изучена совокупность показателей по пяти признакам, собранных по 84 регионам РФ.
Так, с помощью регрессионного анализа были построены линейная и нелинейная (логарифмическая) модели, которые показали прямую зависимость номинальной заработной платы от обеспеченности амбулаторно-поликлиническими учреждениями и объема инвестиций в основной капитал.
В результате компонентного анализа были выделены 3 главные компоненты, которые объясняют 80,2% совокупной дисперсии и включают в себя следующие признаки:
Первая компонента включает обеспеченность амбулаторно-поликлиническими учреждениями, стоимость минимального набора продуктов питания по субъектам Российской Федерации и объем инвестиций в основной капитал.
Вторая компонента включает ввод в действие жилых домов.
Третья компонента включает выбросы в атмосферу загрязняющих веществ, отходящих от стационарных источников.
Факторный анализ позволил выделить 2 фактора, которые объясняют 60,4% совокупной дисперсии признака. Эти факторы включают в себя следующие компоненты.
первый фактор включает стоимость минимального набора продуктов питания и обеспеченность амбулаторно-поликлиническими учреждениями. Второй фактор включает объем инвестиций в основной капитал и ввод в действие жилых домов.
Все методы кластерного анализа дали абсолютно одинаковые результаты разбиения. Т.е. обучающая выборка из 20 регионов была разбита на 2 группы, в одну из которых входят 19 регионов, а другую образует 1 регион - Ненецкий АО. Согласно проверке гипотезы, математические ожидания ввода в действие жилых домов, выбросов в атмосферу загрязняющих веществ, стоимости минимального набора продуктов питания и объема инвестиций в основной капитал в двух кластерах различны, а математическое ожидание обеспеченности амбулаторно-поликлиническими учреждениями одинаковое в первом и во втором кластерах.
В результате дискриминантного анализа была построена функция, позволяющая отнести объект к одному из двух кластеров, а все регионы разделены на 2 группы. Таким образом, в первую группу вошли 53 региона, а во вторую - 31 регион.
По главным компонентам, факторам и каждому кластеру был проведен регрессионный анализ, который позволил определить зависимость номинальной заработной платы от соответствующих признаков. Результаты схожи с регрессионным анализом по исходным признакам с небольшими отличиями.
СПИСОК ЛИТЕРАТУРЫ
1. Айвазян С.А., Мхитарян В.В. Прикладная статистика и основы эконометрики. - М.: ЮНИТИ, 1998. - 1006 с.
2. Бородич С.А. Вводный курс эконометрики: Учебное пособие - Мн.: БГУ, 2000. - 354 с.
3. Доугерти Кристофер. Введение в эконометрику. Пер. с англ. - М.: ИНФРА-М, 1999. - XIV, 402 с.
4. Иллюстрированный самоучитель по SPSS.
5. Кремер Н.Ш., Путко Б. А. Эконометрика: Учебник для вузов/ Под ред. проф. Н. Ш. Кремера. - М.: ЮНИТИ-ДАНА, 2005. - 311 с.
6. Эконометрика: Учебник/ Под ред. И. И. Елисеевой. - М.: Финансы и статистика, 2004. - 344 с.
7. Электронный учебник программы «Statistica».
8. Соловьев В.И., Калинина В.Н. Компьютерный практикум по прикладной статистике. Учебное пособие для вузов. - М.: РИПО ИГУМО, 2005. - 104 с.
9. Учебник по дисциплине «Эконометрика»/ Н.П. Тихомиров, Е.Ю. Дорохина. - М.: Изд-во Рос. экон. акад., 2002. - 640 с.
10. Шалабанов А.К., Роганов Д.А. Эконометрика. - Казань. - 2004. 198 с.
Подобные документы
Разработка и исследование эконометрических методов с учетом специфики экономических данных и в соответствии с потребностями экономической науки и практики. Применение эконометрических методов и моделей для статистического анализа экономических данных.
реферат [43,1 K], добавлен 10.01.2009Сущность, цели и задачи выборочного обследования. Описание и особенности использования типического способа отбора выборочной совокупности. Формы статистических показателей выборочного наблюдения. Виды и методика расчета оценок статистических показателей.
курсовая работа [124,1 K], добавлен 13.03.2010Модели стационарных и нестационарных рядов, их идентификация. Системы эконометрических уравнений, оценка длины периода. Определение и свойства индексов инфляции. Использование потребительской корзины и индексов инфляции в экономических расчетах.
книга [5,0 M], добавлен 19.05.2010Освоение методики организации и проведения выборочного наблюдения; статистических методов и методов компьютерной обработки информации; методов оценки параметров генеральной совокупности на основе выборочных данных. Проверка статистических гипотез.
лабораторная работа [258,1 K], добавлен 13.05.2010Основные характеристики распределения экономических величин. Сущность, особенности и метод вычисления коэффициента корреляции Пирсона. Расчет статистических характеристик величин с помощью MINITAB. Расчет основных статистических показателей в пакете.
методичка [411,0 K], добавлен 15.12.2008Практика применения эконометрических методов выходит за границы классической математико-статистической теории. Схема последовательного анализа А. Вальда или схема оценивания степени полинома в регрессии путем последовательной проверки адекватности модели.
реферат [64,9 K], добавлен 08.01.2009Применение метода аналитической группировки при оценке показателей розничного товарооборота. Определение эмпирического корреляционного отношения, издержек обращения и товарооборота с помощью уравнения линейной регрессии метода математической статистики.
контрольная работа [316,4 K], добавлен 31.10.2009Методологические основы эконометрики. Проблемы построения эконометрических моделей. Цели эконометрического исследования. Основные этапы эконометрического моделирования. Эконометрические модели парной линейной регрессии и методы оценки их параметров.
контрольная работа [176,4 K], добавлен 17.10.2014Характеристика строительной отрасли Краснодарского края. Прогноз развития жилищного строительства. Современные методы и инструментальные средства кластерного анализа. Многомерные статистические методы диагностики экономического состояния предприятия.
дипломная работа [2,4 M], добавлен 20.07.2015Эконометрика как наука, позволяющая анализировать связи между различными экономическими показателями на основании реальных статистических данных. Структурная форма эконометрической модели. Метод наименьших квадратов: общее понятие, главные функции.
курсовая работа [135,1 K], добавлен 05.12.2014