Главная База знаний "Allbest" Экономико-математическое моделирование Многомерные статистические методы и эконометрика

Многомерные статистические методы и эконометрика

Определение с помощью статистических и эконометрических методов совокупности показателей по пяти признакам, собранных по 84 регионам РФ: обеспеченность амбулаторно-поликлиническими учреждениями, ввод в действие жилых домов и выбросы загрязняющих веществ.

Рубрика	Экономико-математическое моделирование
Вид	курсовая работа
Язык	русский
Дата добавления	13.06.2009
Размер файла	345,5 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

Алгоритм пересчета матрицы расстояний на каждом шаге агломерации для методов дальнего соседа и средней связи аналогичен вышеприведенному алгоритму, с тем только отличием, что за расстояние между кластерами принимается дальнее расстояние: (метод дальнего соседа) или расстояние, рассчитываемое по формуле:

(метод средней связи).

3. Проведем вычисления по методу К-средних, выбрав в качестве количества кластеров число 2. Этот метод кластеризации существенно отличается от иерархических агломеративных методов. Предположим, уже имеются гипотезы относительно числа кластеров (по наблюдениям или по переменным). Можно указать системе образовать ровно три кластера так, чтобы они были настолько различны, насколько это возможно. Это именно тот тип задач, которые решает алгоритм метода K средних. Это алгоритм, предназначенный для выбора K центров, представляющих кластеры в N точках (K<N). Отправляясь от случайной выборки из N точек, расположение центров кластеров последовательно корректируется таким образом, чтобы каждая из N точек относилась ровно к одному из K кластеров и центр каждого кластера совпадал с центром тяжести относящихся к нему точек. В общем случае метод K средних строит ровно K различных кластеров, расположенных на возможно больших расстояниях друг от друга. [7, Кластерный анализ].

В результате работы программы получено разбиение регионов на 2 кластера:

Кластерная принадлежность

Номер бъекта	Регионы	Кластеры	Расстояние
1	Липецкая	2	1,515
2	Московская	2	2,845
3	Орловская	2	1,088
4	Рязанская	2	,882
5	Смоленская	2	,396
6	Тамбовская	2	,869
7	Тверская	2	1,462
8	Тульская	2	1,030
9	Ярославская	2	,675
10	Москва	2	2,371
11	Карелия	2	,942
12	Коми	2	2,324
13	Архангельская	2	1,845
14	Ненецкий АО	1	,000
15	Вологодская	2	,745
16	Калининградская	2	1,511
17	Ленинградская	2	,556
18	Мурманская	2	1,576
19	Новгородская	2	,747
20	Псковская	2	,901

Из таблицы видно, что Ненецкий АО снова выделяется в отдельный кластер, в то время, как остальные регионы принадлежат другому кластеру.

4. Проведем кластерный анализ, выбрав в качестве признаков главные компоненты, на долю которых приходится не менее 70% доли общей дисперсии.

Расстояние между первым и последним объектами равно 1, 188.

В результате кластерного анализа регионов по методу ближнего соседа с использованием главных компонент получено такое же разбиение по кластерам, как при анализе исходных признаков.

Аналогично для метода дальнего соседа, средней связи и К-средних.

5. Теперь проведем кластерный анализ по главным факторам, выделенным в предыдущей работе. Аналогично кластерному анализу по главным компонентам мы получили точно такое же разбиение регионов по всем четырем методам.

В итоге мы получили одинаковое разбиение регионов с использованием как исходных признаков, так и главных компонент и факторов.

Все результаты кластерного анализа по главным компонентам и факторам занесем в таблицу.

Кластерная принадлежность регионов (с использованием главных компонент и факторов)

Регион	Метод
	Ближнего соседа	Дальнего соседа	Средней связи	К-средних
Липецкая область	1	1	1	1
Московская область	1	1	1	1
Орловская область	1	1	1	1
Рязанская область	1	1	1	1
Смоленская область	1	1	1	1
Тамбовская область	1	1	1	1
Тверская область	1	1	1	1
Тульская область	1	1	1	1
Ярославская область	1	1	1	1
г.Москва	1	1	1	1
Республика Карелия	1	1	1	1
Республика Коми	1	1	1	1
Архангельская область	1	1	1	1
Ненецкий авт.округ	2	2	2	2
Вологодская область	1	1	1	1
Калининградская область	1	1	1	1
Ленинградская область	1	1	1	1
Мурманская область	1	1	1	1
Новгородская область	1	1	1	1
Псковская область	1	1	1	1

6. Для каждого варианта разбиения вычислим внутриклассовые средние значения исходных признаков и их выборочные дисперсии и занесем эти значения в сводную таблицу.

Очевидно, что можно выбрать любой из перечисленных выше методов разбиения, т.к. они дают абсолютно одинаковые результаты.

7. Для метода ближнего соседа проверим гипотезу о равенстве математических ожиданий каждого из пяти признаков в кластерах. Результаты приведены в таблице, в которой столбец «Уровень значимости» содержит значения, позволяющие принять или отвергнуть гипотезу. Если рассчитанный уровень значимости меньше 0,05, то гипотеза отвергается, если больше 0,05, то принимается [8,69].

Как видно из таблицы, для первого, второго, четвертого и пятого признаков рассчитанный уровень значимости меньше 0,05, следовательно, гипотеза о равенстве математических ожиданий этих признаков в двух кластерах отвергается. В то время как гипотеза о равенстве признака Х₃ в двух кластерах принимается (уровень значимости 0,196>0.05).

Согласно проверке гипотезы, математические ожидания ввода в действие жилых домов, выбросов в атмосферу загрязняющих веществ, стоимости минимального набора продуктов питания и объема инвестиций в основной капитал в двух кластерах различны, а математическое ожидание обеспеченности амбулаторно-поликлиническими учреждениями одинаковое в первом и во втором кластерах.

Проанализируем столбец сводной таблицы, в котором содержатся средние значения по двум кластерам. Ввод в действие жилых домов в первом кластере значительно ниже аналогичного показателя во втором кластере, так же как и выброс в атмосферу загрязняющих веществ, стоимость минимального набора продуктов питания и объем инвестиций в основной капитал. Обеспеченность амбулаторно-поликлиническими учреждениями на одинаковом уровне, как в первом, так и во втором кластере. Из этого моно сделать вывод, что регионы первого кластера достаточно развитые и хорошо освоенные. Здесь сложились приемлемые для населения цены, относительно хорошая экологическая ситуация, ввод в действие большого количества жилых домов уже не требуется, т.к. большая часть территории уже застроена и используется, соответственно, и объем инвестиций в основной капитал сравнительно небольшой. Второй же регион, видимо, находится на стадии интенсивного освоения и развития. Об этом свидетельствуют и широкие масштабы строительства, и большой объем вложений, и высокие цены, а также плохая экология. Однако, для успешного освоения региона необходима хорошая база здравоохранения, поэтому здесь уровень обеспеченности амбулаторно-поликлиническими учреждениями почти такой же, как и в развитых регионах.

Таким образом, в соответствии с приведенной интерпретацией, назовем первый кластер «освоенные регионы», а второй - «осваиваемый регион».

8. Проведем регрессионный анализ признака Y на признаки Х₁, Х₂, Х₃, Х₄, Х₅ отдельно для каждого кластера. Ввиду того, что невозможно провести регрессию по одному региону, который образует второй кластер, воспользуемся методом дальнего соседа, где на дендрограмме четко прослеживается разбиение на 2 кластера, содержащих несколько регионов в каждом. Таким образом, будем считать, что второй кластер образуют Ненецкий АО и следующие регионы: Коми, Архангельская, Мурманская, Московская, Вологодская, Новгородская, Липецкая.

· Для первого кластера.

Матрица корреляции позволяет увидеть сильную связь результативного признака с регрессорами X₃ и X₄, умеренную с X₁ и X₅ и очень слабую с X₂:

	Y	X1	X2	X3	X4	X5
Y	1
X1	0,437037	1
X2	0,000721	-0,30097	1
X3	0,815665	0,332045	-0,21033	1
X4	0,91547	0,465072	0,040293	0,633864	1
X5	0,67091	0,615633	0,298005	0,498134	0,677078	1

По следующей таблице можно сказать, что модель является качественной, т.к. имеет высокие показатели коэффициента множественной корреляции, коэффициента детерминации и скорректированного коэффициента детерминации:

Регрессионная статистика
Множественный R	0,96679
R-квадрат	0,934683
Нормированный R-квадрат	0,880253
Стандартная ошибка	1087,314
Наблюдения	12

Уравнение регрессии имеет вид:

Наблюдаемое и критическое значение F-статистики составляют 17,17205 и 4,387374 соответственно, благодаря чему можно сказать, что уравнение значимо в целом.

Проанализируем его коэффициенты.

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%
Y-пересечение	-20442,6	4760,074	-4,29459	0,005123	-32090	-8795,08
X1	86,47617	467,0122	0,185169	0,859197	-1056,26	1229,214
X2	465,1737	979,1122	0,475097	0,651518	-1930,63	2860,975
X3	36,26704	13,35741	2,715125	0,034868	3,582635	68,95145
X4	14,42741	3,622612	3,9826	0,007262	5,563201	23,29163
X5	-0,31351	3,795565	-0,0826	0,936858	-9,60092	8,973908

Значимыми являются только третий и четвертый коэффициенты, остальные равны нулю с вероятностью 95%. Исключим из состава регрессоров пятый признак, как имеющий наименьшую t- статистику. Получим следующие результаты.

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%
Y-пересечение	-20168,5	3162,124	-6,37816	0,000375	-27645,8	-12691,3
X1	58,3228	295,7386	0,197211	0,849267	-640,988	757,6335
X2	407,0434	630,5694	0,645517	0,539167	-1084,02	1898,103
X3	35,80068	11,21379	3,192557	0,015222	9,284272	62,31708
X4	14,34018	3,210022	4,467316	0,00291	6,749686	21,93068

Значимыми остались третий и четвертый признаки и свободный коэффициент. Все остальные - незначимы. Поэтому исключим из списка первый признак, т.к. он имеет наименьшую t- статистику. Регрессия по трем признакам дала следующие результаты.

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%
Y-пересечение	-20315,7	2882,317	-7,0484	0,000107	-26962,4	-13669,1
X2	361,947	551,2171	0,656632	0,529849	-909,162	1633,056
X3	35,66143	10,49777	3,397048	0,009401	11,45353	59,86933
X4	14,61332	2,716352	5,379757	0,000662	8,349395	20,87723

Незначимым является один коэффициент при X₂, а остальные значимые. Исключим X₂ и проведем регрессионный анализ.

Уравнение регрессии:

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%
Y-пересечение	-20139,5	2777,626	-7,25062	4,81E-05	-26422,9	-13856,1
X3	33,55754	9,675783	3,468199	0,007069	11,6694	55,44568
X4	15,02285	2,558869	5,870896	0,000237	9,23429	20,81142

Все коэффициенты этого уравнения являются значимыми, и само уравнение, имея F_н=60,43687 и F_к=3,096553, статистически значимо. Проанализируем показатели, содержащиеся в следующей таблице:

Регрессионная статистика
Множественный R	0,964729
R-квадрат	0,930702
Нормированный R-квадрат	0,915302
Стандартная ошибка	914,446
Наблюдения	12

Высокие оценки множественного R, R² и нормированного R², а также небольшое значение стандартной ошибки свидетельствуют о хорошем качестве модели.

В результате регрессионного анализа для первого кластера была получена зависимость номинальной заработной платы от обеспеченности амбулаторно-поликлиническими учреждениями и стоимости минимального набора продуктов питания.

· Для второго кластера.

Матрица корреляции имеет вид и позволяет определить сильную связь результативного признака со вторым, четвертым и пятым независимыми компонентами. Более слабо Y коррелирует с третьим признаком, и имеет наименьшую корреляцию с первым признаком.

	Y	X1	X2	X3	X4	X5
Y	1
X1	0,398899	1
X2	0,918327	0,297061	1
X3	-0,71313	-0,55619	-0,54937	1
X4	0,992192	0,353451	0,921639	-0,7129	1
X5	0,938584	0,505718	0,931463	-0,71293	0,954758	1

Уравнение имеет вид: Y = -15061.1 + 324.353X₁ + 334.5X₂ + 0.444X₃ + 17.273X₄ - 1.012X₅

Определим значимость его коэффициентов по следующей таблице:

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%
Y-пересечение	-15061,1	3029,784	-4,97102	0,038166	-28097,2	-2025
X1	324,3533	64,84276	5,002151	0,037719	45,35741	603,3492
X2	334,4999	102,3674	3,267639	0,082264	-105,952	774,9515
X3	0,443851	5,785511	0,076718	0,945832	-24,4492	25,3369
X4	17,27289	1,304104	13,24502	0,005652	11,66178	22,88399
X5	-1,01179	0,206824	-4,89202	0,039336	-1,90168	-0,12189

Коэффициенты признаков X₂ и X₃ являются незначимыми, остальные - значимые. Уравнение в целом значимо, т.к. имеет наблюдаемую статистику 413,5413 и критическую 19,29641. Удалим из списка регрессоров третий признак, т.к. он имеет наименьшую t-статистику и снова построим уравнение регрессии.

Оно будет иметь вид: .

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%
Y-пересечение	-14872,1	1441,344	-10,3182	0,001942	-19459,1	-10285,1
X1	322,9254	50,79042	6,357998	0,007873	161,2876	484,5632
X2	337,5144	77,29317	4,366679	0,02221	91,53309	583,4958
X4	17,23049	0,965909	17,83864	0,000384	14,15654	20,30445
X5	-1,01345	0,168188	-6,02572	0,009162	-1,5487	-0,4782

Все коэффициенты уравнения являются значимыми. Уравнение регрессии тоже значимо, т.к. наблюдаемое значение F-статистики (773,1127) больше критического (9,117182).

Данная модель имеет хорошее качество, что можно проследить по следующей таблице:

Регрессионная статистика
Множественный R	0,999515
R-квадрат	0,999031
Нормированный R-квадрат	0,997739
Стандартная ошибка	304,9263
Наблюдения	8

В результате регрессионного анализа для второго кластера была получена линейная зависимость номинальной заработной платы от ввода в действие жилых домов, выбросов в атмосферу загрязняющих веществ, стоимости продуктов питания и инвестиций в основной капитал, причем с последним признаком наблюдается обратная связь.

Если сравнивать полученные результаты регрессионного анализа по кластерам и по исходной совокупности данных, то можно сказать, что регрессия по первому кластеру схожа с регрессией по исходным признакам зависимостью от амбулаторно-поликлинических учреждений, а регрессия по второму кластеру - зависимостью от вложений в основной капитал.

РАЗДЕЛ 4. ДИСКРИМИНАНТНЫЙ АНАЛИЗ

1. Запишем модель дискриминантного анализа и предъявляемые к ней требования.

С помощью дискриминантного анализа на основании некоторых признаков изучаемый объект может быть причислен к одной из двух (или к одной из нескольких) заданных заранее групп.

Ядром дискриминантного анализа является построение так называемой дискриминантной функции

d = b1х1+b2х2+... + bnхn+а,

где x1 и хn -- значения переменных, соответствующих рассматриваемым случаям, онстанты b1-bn и a -- коэффициенты, которые и предстоит оценить с помощью дискриминантного анализа. Целью является определение таких коэффициентов, чтобы по значениям дискриминантной функции можно было с максимальной четкостью провести разделение по группам [7, дискриминантный анализ].

2. Проведем дискриминантный анализ, взяв априорные данные из кластерного анализа, используя метод дальнего соседа. В результате кластеризации по этому методу, Ненецкий АО был выделен в отдельный кластер. Однако по дендрограмме можно проследить, что фактически регионы разбиваются на 2 различных кластера. Во второй кластер вошли следующие регионы: Коми, Архангельская, Мурманская, Вологодская, Новгородская, Липецкая области и город Москва. Остальные регионы образуют первый кластер. Требуется определить, к какой из двух групп относится каждый из оставшихся 65 регионов (включая Ненецкий АО), считая, что каждый регион относится только к одной группе.

Для вычисления выберем все пять исходных признаков.

Вычислим стандартизированные канонические коэффициенты дискриминантной функции:

Признак	Функция
X1	-,228
X2	,618
X3	1,092
X4	,226
X5	-,493

Стандартизированные коэффициенты показывают как сильно отдельные переменные, применяемые в дискриминантной функции, коррелируют со стандартизированными значениями этой дискриминантной функции. Например, большой вклад в значение дискриминантной функции вносят переменные X2 (выбросы в атмосферу загрязняющих веществ) и X3 (обеспеченность амбулаторно-поликлиническими учреждениями). Стандартизированные коэффициенты основаны на стандартизированных значениях переменных, получаемых с помощью z-преобразования.

Вычислим нестандартизированные канонические коэффициенты дискриминантной функции:

Коэффициенты	Функция
X3	,751
X2	,429
X5	,327
X4	,226
X1	-,113

Нестандартизированные коэффициенты - это множители при заданных значениях переменных, входящих в дискриминантную функцию.

Таким образом, дискриминантная функция имеет вид:

D = -0.113 X1 + 0.429 X2 + 0.751 X3 + 0.226 X4 + 0.327 X5.

Проанализируем качество полученной функции. Для этого воспользуемся таблицей:

Собственные значения

Функция	Собственное значение	% вариации	Суммарный %	Каноническая корреляция
1	3,802	100,0	100,0	,890

Большое собственное значение свидетельствует об удачно подобранной дискриминантной функции. Одна дискриминантная функция объясняет 100 % вариации признаков. Канонические корреляции являются показателями качества функции, т. е. чем больше эти показатели, тем выше разделительная способность функции. Значение канонической корреляции 0,89 указывает на достаточно хорошую разделительную способность полученной функции.

1. Укажем, к каким группам были отнесены классифицируемые объекты, и вероятности, с которыми объекты входят в эти группы. Все данные представлены в таблице:

Статистики наблюдений

№ объекта	Фактическая группа	Прогнозируемая группа	Значение функции на объектах	Вероятность вхождения в первую группу	Вероятность вхождения во вторую группу
1	.	1	-2,75729	0,99999	0,00001
2	.	1	-1,77633	0,99975	0,00025
3	.	2	1,51082	0,01603	0,98397
4	.	1	-2,52018	0,99998	0,00002
5	.	1	-2,51226	0,99998	0,00002
6	.	1	-0,55183	0,97493	0,02507
7	.	1	-2,14422	0,99994	0,00006
8	.	1	-2,16023	0,99994	0,00006
9	2	2	1,91364	0,00355	0,99645
10	1	1	-1,26623	0,99826	0,00174
11	1	1	-1,98948	0,99989	0,00011
12	1	1	-1,56032	0,99943	0,00057
13	1	1	-0,40186	0,9567	0,0433
14	1	1	-1,29833	0,99846	0,00154
15	1	1	-2,62759	0,99999	0,00001
16	1	1	-1,06654	0,99632	0,00368
17	.	1	-0,61665	0,98026	0,01974
18	2	2	2,89967	0,00009	0,99991
19	1	1	-0,63451	0,98152	0,01848
20	2	2	4,6813	0	1
21	2	2	3,01559	0,00006	0,99994
22		1	-23,5078	1	0
23	2	2	1,16501	0,05662	0,94338
24	1	1	-2,71838	0,99999	0,00001
25	1	1	-1,64899	0,99959	0,00041
26	2	2	1,48965	0,01734	0,98266
27	2	2	0,96626	0,11267	0,88733
28	1	1	-0,91889	0,9936	0,0064
29	.	2	2,30613	0,00081	0,99919
30	.	1	-0,95583	0,99443	0,00557
31	.	1	-6,71214	1	0
32	.	1	-6,01949	1	0
33	.	1	-4,00668	1	0
34	.	1	-0,20946	0,9145	0,0855
35	.	1	-3,09869	1	0
36	.	1	-0,15024	0,89534	0,10466
37	.	1	-10,715	1	0
38	.	1	-3,15208	1	0
39	.	1	-3,73084	1	0
40	.	2	0,52085	0,40514	0,59486
41	.	1	-1,12713	0,99707	0,00293
42	.	1	-1,94645	0,99987	0,00013
43	.	2	1,2741	0,03825	0,96175
44	.	2	3,72986	0	1
45	.	1	-3,09226	1	0
46	.	1	-3,03555	1	0
47	.	1	0,0288	0,81327	0,18673
48	.	2	0,58555	0,34794	0,65206
49	.	1	-3,47834	1	0
50	.	1	-0,07669	0,86636	0,13364
51	.	1	-1,47263	0,9992	0,0008
52	.	1	-1,01332	0,99551	0,00449
53	.	1	-0,03795	0,84852	0,15148
54	.	1	-1,84807	0,99981	0,00019
55	.	1	-1,03495	0,99586	0,00414
56	.	1	-0,60595	0,97947	0,02053
57	.	2	25,40745	0	1
58	.	1	-0,67555	0,98413	0,01587
59	.	1	-1,69734	0,99966	0,00034
60	.	2	7,56569	0	1
61	.	2	17,39934	0	1
62	.	2	1,045	0,08622	0,91378
63	.	2	125,9983	0	1
64	.	1	-1,31425	0,99855	0,00145
65	.	2	3,0485	0,00005	0,99995
66	.	2	1,98111	0,00276	0,99724
67	.	2	0,52532	0,40108	0,59892
68	.	2	1,68373	0,00842	0,99158
69	.	1	-0,51874	0,9717	0,0283
70	.	1	-1,56037	0,99943	0,00057
71	.	2	7,83506	0	1
72	.	1	-1,77246	0,99974	0,00026
73	.	2	0,59063	0,34361	0,65639
74	.	1	-0,3749	0,95229	0,04771
75	.	2	5,05088	0	1
76	.	2	4,1223	0	1
77	.	1	-0,90543	0,99327	0,00673
78	.	2	0,85126	0,16382	0,83618
79	.	2	1,21127	0,04799	0,95201
80	.	2	3,9112	0	1
81	.	2	6,41917	0	1
82	.	1	-5,01373	1	0
83	.	1	0,03082	0,81211	0,18789
84	.	2	19,52412	0	1

В результате оказалось, что все 19 регионов, вошедшие в первоначальную выборку, были разбиты правильно, а остальные 65 регионов разбились на 2 группы.

Рассчитаем внутригрупповые математические ожидания. Проверим гипотезу о равенстве математических ожиданий признаков в двух группах.

Группа	Средние
1	X1=2,83973;	X2=1,108808;	X3=222,43396;	X4=1399,3490;	X5=471,14492.
2	X1=2,941936;	X2=17,24622;	X3=305,2069;	X4=1662,755;	X5=508,0618.

Проверка гипотезы

	Сумма квадратов	Значение квадрата	F-статистика	Ур-нь значимости
X1	Межгрупповая	,428	,428	,141	,709
	Внутригрупповая	249,592	3,044
	Общая	250,020
X2	Межгрупповая	4663,384	4663,384	5,006	,028
	Внутригрупповая	76384,616	931,520
	Общая	81048,000
X3	Межгрупповая	126806,194	126806,194	41,506	,000
	Внутригрупповая	250520,896	3055,133
	Общая	377327,090
X4	Межгрупповая	1090066,125	1090066,125	6,213	,015
	Внутригрупповая	14386901,747	175450,021
	Общая	15476967,871
X5	Межгрупповая	5535,141	5535,141	,003	,953
	Внутригрупповая	130677836,707	1593632,155
	Общая	130683371,848

Уровень значимости для второго, третьего и четвертого признаков меньше 0,05, следовательно, гипотеза о равенстве математических ожиданий этих признаков в двух группах отвергается на 5-% уровне. Тогда как гипотеза о равенстве признаков X1 и X5 в двух группах принимается на том же уровне.

Таким образом, математическое ожидание ввода в действие жилых домов и объема инвестиций в основной капитал в двух группах равны, а математические ожидания выбросов в атмосферу загрязняющих веществ, обеспеченности амбулаторно-поликлиническими учреждениями и стоимости минимального набора продуктов питания и в этих группах различны.

Т.е. можно заключить, что регионы и первого и второго кластера находятся на одинаковом уровне экономического развития. Т.к. средние показатели выбросов в атмосферу загрязнений, обеспеченности поликлиниками и стоимости продуктов в первом кластере ниже, чем во втором, то есть основание предположить, что регионы первого кластера более благоприятны для жизни населения, чем регионы второго кластера.

Поэтому, как и в предыдущей работе, назовем первый кластер «развитые регионы», а второй - «развивающиеся регионы».

2. В результате дискриминантного анализа все регионы были разбиты на 2 группы: в первую группу вошло 53 региона, во вторую - 31 регион. Для каждой группы регионов проведем регрессионный анализ.

· Для первой группы.

Изучается зависимость признака Y (номинальная заработная плата) от пяти признаков.

По матрице ковариации видно, что наибольшую корреляцию результативный признак имеет со вторым, четвертым и пятым признаками, и наименьшую - с первым и третьим.

	Y	X1	X2	X3	X4	X5
Y	1
X1	0,33556	1
X2	0,633169	0,370211	1
X3	0,253281	0,224761	-0,00711	1
X4	0,783026	0,202281	0,674772	-0,05327	1
X5	0,694317	0,469307	0,854778	0,008817	0,796845	1

Модель имеет неплохое качество, о чем можно судить по оценкам следующих показателей:

Регрессионная статистика
Множественный R	0,851149
R-квадрат	0,724455
Нормированный R-квадрат	0,695142
Стандартная ошибка	2465,44
Наблюдения	53

По таблице определим коэффициенты уравнения регрессии и их значимость:

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%
Y-пересечение	-16173,2	3783,792	-4,27434	9,29E-05	-23785,2	-8561,2
X1	265,3093	242,5804	1,093696	0,279662	-222,699	753,318
X2	357,9673	277,3733	1,290562	0,203169	-200,036	915,9704
X3	27,49624	8,026555	3,42566	0,001283	11,3489	43,64359
X4	12,57987	2,321953	5,417796	2,02E-06	7,908701	17,25104
X5	-0,29175	0,59462	-0,49064	0,625961	-1,48797	0,904474

Уравнение регрессии имеет вид:

Коэффициенты регрессии для первого, второго и пятого признаков являются незначимыми, а все остальные значимые. В целом уравнение регрессии значимо, т.к. имеет наблюдаемое и критическое значение F-статистики 24,71426 и 2,412837 соответственно.

Исключим из рассмотрения пятый признак, т.к. он имеет наименьшую t-статистику.

Получим:

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%
Y-пересечение	-15084,2	3040,095	-4,96175	9,18E-06	-21196,7	-8971,68
X1	213,9397	217,0855	0,985509	0,329316	-222,54	650,4193
X2	266,6284	203,9884	1,307076	0,197414	-143,518	676,7745
X3	27,6052	7,959771	3,468089	0,001116	11,601	43,60939
X4	11,86272	1,789851	6,62777	2,74E-08	8,263982	15,46145

Третий и четвертый коэффициенты остались значимыми, свободный коэффициент также значим, а коэффициенты первого и второго признака незначимы. Поэтому исключим теперь первый признак и проведем регрессионный анализ.

Получим следующие результаты:

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%
Y-пересечение	-14834,1	3028,593	-4,89801	1,1E-05	-20920,3	-8747,9
X2	331,7044	192,9483	1,719136	0,091902	-56,0397	719,4485
X3	29,49835	7,722222	3,81993	0,000376	13,97996	45,01674
X4	11,76564	1,786613	6,585444	2,91E-08	8,175308	15,35598

Здесь, как и в предыдущем случае, третий, четвертый и свободный коэффициенты значимы, а второй остается незначим. Поэтому исключим его и проведем регрессию для двух переменных.

Получим следующие данные:

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%
Y-пересечение	-17484,6	2657,276	-6,57989	2,73E-08	-22821,9	-12147,3
X3	30,01782	7,865748	3,81627	0,000374	14,219	45,81664
X4	13,83999	1,343108	10,30445	5,8E-14	11,14228	16,5377

Уравнение регрессии имеет вид: . Все его коэффициенты значимы. Уравнение в целом тоже значимо, наблюдаемое значение F-статистики равно 58,44392, критическое - 3,18261.

Анализ показателей, представленных в следующей таблице, позволяет определить, что мы получили неплохую модель:

Регрессионная статистика
Множественный R	0,836898
R-квадрат	0,700398
Нормированный R-квадрат	0,688413
Стандартная ошибка	2492,499
Наблюдения	53

Таким образом, получили, что номинальная заработная плата имеет прямую зависимость от обеспеченности амбулаторно-поликлиническими учреждениями и стоимости минимального набора продуктов питания.

· Для второй группы.

Рассмотрим матрицу корреляции:

	Y	X1	X2	X3	X4	X5
Y	1
X1	0,048861	1
X2	0,052009	-0,02928	1
X3	-0,11771	-0,17614	-0,08315	1
X4	0,129811	-0,32717	-0,06329	0,705394	1
X5	0,558342	0,290804	0,102868	-0,04154	0,277456	1

Результативный признак имеет слабую связь с признаками. Наибольшая из них - с пятым признаком.

Оценим значимость коэффициентов регрессии:

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%
Y-пересечение	14441,35	5084,58	2,840225	0,008833	3969,462	24913,24
X1	-513,815	687,7936	-0,74705	0,462004	-1930,35	902,7228
X2	-2,91524	20,02414	-0,14559	0,885415	-44,1557	38,32524
X3	-10,287	21,92031	-0,46929	0,642928	-55,4327	34,85871
X4	-0,02463	2,949582	-0,00835	0,993404	-6,09941	6,05015
X5	5,597088	1,944358	2,87863	0,008067	1,592607	9,601569

Значимыми являются только пятый и свободный коэффициент, а все остальные незначимые. Критическое значение F-статистики для этой модели (2,602987) больше наблюдаемого значения (2,575728), откуда следует, что уравнение статистически незначимо.

Удалим из рассмотрения регрессор, имеющий наименьшую t-статистику (X₄) и проведем регрессию снова:

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%
Y-пересечение	14438,93	4977,712	2,900715	0,007479	4207,092	24670,76
X1	-511,011	588,6295	-0,86814	0,393262	-1720,96	698,9338
X2	-2,8975	19,52441	-0,1484	0,883169	-43,0305	37,23549
X3	-10,4257	14,03353	-0,74291	0,464196	-39,272	18,42068
X5	5,587821	1,565489	3,569378	0,001422	2,369913	8,805729

Значимыми остались пятый и свободный коэффициенты, а все остальные также незначимы. Поэтому удалим второй признак и снова проведем регрессию:

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%
Y-пересечение	14326,41	4829,714	2,966306	0,006239	4416,656	24236,17
X1	-504,267	576,1458	-0,87524	0,389162	-1686,42	677,8865
X3	-10,2349	13,71914	-0,74603	0,462094	-38,3843	17,91441
X5	5,560437	1,526162	3,643413	0,001128	2,429012	8,691862

Как и в предыдущих случаях, значимые коэффициенты - пятый и свободный, первый и третий коэффициенты остаются незначимыми. Удалим третий признак:

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%
Y-пересечение	11011,04	1876,269	5,868584	2,61E-06	7167,678	14854,4
X1	-430,5	563,085	-0,76454	0,450943	-1583,93	722,9276
X5	5,548735	1,513949	3,665075	0,001024	2,447552	8,649918

Получили аналогичные с предыдущими результаты. Удалим первый признак и построим парную регрессию:

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%
Y-пересечение	9889,118	1160,771	8,519443	2,19E-09	7515,076	12263,16
X5	5,212138	1,438106	3,624308	0,001098	2,270881	8,153395

Получили уравнение регрессии - - у которого все коэффициенты значимы, и само уравнение также является значимым, поскольку наблюдаемое значение (13,13561) больше критического (4,182964).

Таким образом, было выяснено, что для регионов второй группы характерна прямая зависимость номинальной заработной платы от объема вложений в основной капитал.

Сравним полученные результаты с результатами регрессионного анализа по исходным признакам, где была получена зависимость от амбулаторно-поликлинических учреждений и инвестиций в основной капитал. Первая группа регионов также имеет зависимость заработной платы от обеспеченности амбулаторно-поликлиническими учреждениями, но также и от стоимости продуктов питания и не имеет от вложений в основной капитал. А в регионах второй группы зарплата зависит только от инвестиций в основной капитал и не зависит от числа поликлиник.

ЗАКЛЮЧЕНИЕ

В ходе выполнения данной работы были выполнены все поставленные задачи. А именно, с помощью статистических и эконометрических методов была изучена совокупность показателей по пяти признакам, собранных по 84 регионам РФ.

Так, с помощью регрессионного анализа были построены линейная и нелинейная (логарифмическая) модели, которые показали прямую зависимость номинальной заработной платы от обеспеченности амбулаторно-поликлиническими учреждениями и объема инвестиций в основной капитал.

В результате компонентного анализа были выделены 3 главные компоненты, которые объясняют 80,2% совокупной дисперсии и включают в себя следующие признаки:

Первая компонента включает обеспеченность амбулаторно-поликлиническими учреждениями, стоимость минимального набора продуктов питания по субъектам Российской Федерации и объем инвестиций в основной капитал.

Вторая компонента включает ввод в действие жилых домов.

Третья компонента включает выбросы в атмосферу загрязняющих веществ, отходящих от стационарных источников.

Факторный анализ позволил выделить 2 фактора, которые объясняют 60,4% совокупной дисперсии признака. Эти факторы включают в себя следующие компоненты.

первый фактор включает стоимость минимального набора продуктов питания и обеспеченность амбулаторно-поликлиническими учреждениями. Второй фактор включает объем инвестиций в основной капитал и ввод в действие жилых домов.

Все методы кластерного анализа дали абсолютно одинаковые результаты разбиения. Т.е. обучающая выборка из 20 регионов была разбита на 2 группы, в одну из которых входят 19 регионов, а другую образует 1 регион - Ненецкий АО. Согласно проверке гипотезы, математические ожидания ввода в действие жилых домов, выбросов в атмосферу загрязняющих веществ, стоимости минимального набора продуктов питания и объема инвестиций в основной капитал в двух кластерах различны, а математическое ожидание обеспеченности амбулаторно-поликлиническими учреждениями одинаковое в первом и во втором кластерах.

В результате дискриминантного анализа была построена функция, позволяющая отнести объект к одному из двух кластеров, а все регионы разделены на 2 группы. Таким образом, в первую группу вошли 53 региона, а во вторую - 31 регион.

По главным компонентам, факторам и каждому кластеру был проведен регрессионный анализ, который позволил определить зависимость номинальной заработной платы от соответствующих признаков. Результаты схожи с регрессионным анализом по исходным признакам с небольшими отличиями.

СПИСОК ЛИТЕРАТУРЫ

1. Айвазян С.А., Мхитарян В.В. Прикладная статистика и основы эконометрики. - М.: ЮНИТИ, 1998. - 1006 с.

2. Бородич С.А. Вводный курс эконометрики: Учебное пособие - Мн.: БГУ, 2000. - 354 с.

3. Доугерти Кристофер. Введение в эконометрику. Пер. с англ. - М.: ИНФРА-М, 1999. - XIV, 402 с.

4. Иллюстрированный самоучитель по SPSS.

5. Кремер Н.Ш., Путко Б. А. Эконометрика: Учебник для вузов/ Под ред. проф. Н. Ш. Кремера. - М.: ЮНИТИ-ДАНА, 2005. - 311 с.

6. Эконометрика: Учебник/ Под ред. И. И. Елисеевой. - М.: Финансы и статистика, 2004. - 344 с.

7. Электронный учебник программы «Statistica».

8. Соловьев В.И., Калинина В.Н. Компьютерный практикум по прикладной статистике. Учебное пособие для вузов. - М.: РИПО ИГУМО, 2005. - 104 с.

9. Учебник по дисциплине «Эконометрика»/ Н.П. Тихомиров, Е.Ю. Дорохина. - М.: Изд-во Рос. экон. акад., 2002. - 640 с.

10. Шалабанов А.К., Роганов Д.А. Эконометрика. - Казань. - 2004. 198 с.

Страница:

курсовая работа "Многомерные статистические методы и эконометрика" скачать

Подобные документы

Структура эконометрики
Разработка и исследование эконометрических методов с учетом специфики экономических данных и в соответствии с потребностями экономической науки и практики. Применение эконометрических методов и моделей для статистического анализа экономических данных.

реферат [43,1 K], добавлен 10.01.2009
Анализ различных методов оценки статистических показателей при типическом отборе
Сущность, цели и задачи выборочного обследования. Описание и особенности использования типического способа отбора выборочной совокупности. Формы статистических показателей выборочного наблюдения. Виды и методика расчета оценок статистических показателей.

курсовая работа [124,1 K], добавлен 13.03.2010
Эконометрика временных рядов. Эконометрический анализ инфляции
Модели стационарных и нестационарных рядов, их идентификация. Системы эконометрических уравнений, оценка длины периода. Определение и свойства индексов инфляции. Использование потребительской корзины и индексов инфляции в экономических расчетах.

книга [5,0 M], добавлен 19.05.2010
Проведение выборочного наблюдения
Освоение методики организации и проведения выборочного наблюдения; статистических методов и методов компьютерной обработки информации; методов оценки параметров генеральной совокупности на основе выборочных данных. Проверка статистических гипотез.

лабораторная работа [258,1 K], добавлен 13.05.2010
Выполнение статистических расчетов с помощью ЭВМ в системе MINITAB и Exсel
Основные характеристики распределения экономических величин. Сущность, особенности и метод вычисления коэффициента корреляции Пирсона. Расчет статистических характеристик величин с помощью MINITAB. Расчет основных статистических показателей в пакете.

методичка [411,0 K], добавлен 15.12.2008
Информационные технологии в эконометрике
Практика применения эконометрических методов выходит за границы классической математико-статистической теории. Схема последовательного анализа А. Вальда или схема оценивания степени полинома в регрессии путем последовательной проверки адекватности модели.

реферат [64,9 K], добавлен 08.01.2009
Статистические методы оценки социально-экономических показателей
Применение метода аналитической группировки при оценке показателей розничного товарооборота. Определение эмпирического корреляционного отношения, издержек обращения и товарооборота с помощью уравнения линейной регрессии метода математической статистики.

контрольная работа [316,4 K], добавлен 31.10.2009
Эконометрические модели
Методологические основы эконометрики. Проблемы построения эконометрических моделей. Цели эконометрического исследования. Основные этапы эконометрического моделирования. Эконометрические модели парной линейной регрессии и методы оценки их параметров.

контрольная работа [176,4 K], добавлен 17.10.2014
Рыночная экономика в системе межхозяйственных связей и финансовых отношений
Характеристика строительной отрасли Краснодарского края. Прогноз развития жилищного строительства. Современные методы и инструментальные средства кластерного анализа. Многомерные статистические методы диагностики экономического состояния предприятия.

дипломная работа [2,4 M], добавлен 20.07.2015
Структурная и приведенная форма модели
Эконометрика как наука, позволяющая анализировать связи между различными экономическими показателями на основании реальных статистических данных. Структурная форма эконометрической модели. Метод наименьших квадратов: общее понятие, главные функции.

курсовая работа [135,1 K], добавлен 05.12.2014

Другие документы, подобные "Многомерные статистические методы и эконометрика"

весь список подобных работ

скачать работу можно здесь

сколько стоит заказать работу?

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.