Основы эконометрики
Множественная корреляция и линейная регрессия. Оценка прогнозных качеств модели. Простейшие методы линеаризации. Вероятностный эксперимент, событие или вероятность. Фиктивные переменные в регрессионных моделях. Системы эконометрических уравнений.
Рубрика | Экономико-математическое моделирование |
Вид | курс лекций |
Язык | русский |
Дата добавления | 13.02.2014 |
Размер файла | 2,0 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Наиболее широкое применение получили следующие методы построения уравнения множественной регрессии:
1. Метод исключения - отсев факторов из полного его набора.
2. Метод включения - дополнительное введение фактора.
3. Шаговый регрессионный анализ - исключение ранее введенного фактора.
При отборе факторов также рекомендуется пользоваться следующим правилом: число включаемых факторов обычно в 6-7 раз меньше объема совокупности, по которой строится регрессия. Если это соотношение нарушено, то число степеней свободы остаточной дисперсии очень мало. Это приводит к тому, что параметры уравнения регрессии оказываются статистически незначимыми, а -критерий меньше табличного значения.
6.2 Метод наименьших квадратов (МНК)
Возможны разные виды уравнений множественной регрессии: линейные и нелинейные.
Ввиду четкой интерпретации параметров наиболее широко используется линейная функция. Задача оценки статистической взаимосвязи переменных формулируется аналогично случаю парной регрессии.
Теоретическое уравнение множественной линейной регрессии имеет вид:
,
где - случайная ошибка, - вектор размерности .
Для того, чтобы формально можно было решить задачу оценки параметров должно выполняться условие: объем выборки n должен быть не меньше количества параметров, т.е. .
Если же это условие не выполняется, то можно найти бесконечно много различных коэффициентов.
Если (например, 3 наблюдения и 2 объясняющие переменные), то оценки рассчитываются единственным образом без МНК путём решения системы:
.
Если же , то необходима оптимизация, т.е. выбрать наилучшую формулу зависимости. В этом случае разность называется числом степеней свободы. Для получения надежных оценок параметров уравнения объём выборки должен значительно превышать количество определяемых по нему параметров. Практически, как было сказано ранее, объём выборки должен превышать количество параметров при xj в уравнении в 6-7 раз.
Задача построения множественной линейной регрессии состоит в определении -мерного вектора , элементы которого есть оценки соответствующих элементов вектора .
Уравнение с оценёнными параметрами имеет вид:
,
где е - оценка отклонения е. Параметры при называются коэффициентами "чистой" регрессии. Они характеризуют среднее изменение результата с изменением соответствующего фактора на единицу при неизмененном значении других факторов, закрепленных на среднем уровне.
Классический подход к оцениванию параметров линейной модели множественной регрессии основан на методе наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака от расчетных минимальна:
.
Как известно из курса математического анализа, для того чтобы найти экстремум функции нескольких переменных, надо вычислить частные производные первого порядка по каждому из параметров и приравнять их к нулю.
Итак, имеем функцию аргумента:
Она является квадратичной относительно неизвестных величин. Она ограничена снизу, следовательно имеет минимум. Находим частные производные первого порядка, приравниваем их к нулю, и получаем систему () уравнения с () неизвестным. Обычно такая система имеет единственное решение. И называется системой нормальных уравнений:
Решение может быть осуществлено методом Крамера:
, где
,
а - частные определители, которые получаются из заменой соответствующего j - го столбца столбцом свободных членов.
Для двухфакторной модели ( данная система будет иметь вид:
Матричный метод.
Представим данные наблюдений и параметры модели в матричной форме.
- n - мерный вектор - столбец наблюдений зависимой переменной;
- (m+1) - мерный вектор - столбец параметров уравнения регрессии;
- n - мерный вектор - столбец отклонений выборочных значений yi от значений , получаемых по уравнению регрессии.
Для удобства записи столбцы записаны как строки и поэтому снабжены штрихом для обозначения операции транспонирования.
Наконец, значения независимых переменных запишем в виде прямоугольной матрицы размерности :
Каждому столбцу этой матрицы отвечает набор из n значений одного из факторов, а первый столбец состоит из единиц, которые соответствуют значениям переменной при свободном члене.
В этих обозначениях эмпирическое уравнение регрессии выглядит так:
.
Где .
Здесь - матрица, обратная к .
На основе линейного уравнения множественной регрессии
могут быть найдены частные уравнения регрессии:
т.е. уравнения регрессии, которые связывают результативный признак с соответствующим фактором при закреплении остальных факторов на среднем уровне. В развернутом виде систему можно переписать в виде:
При подстановке в эти уравнения средних значений соответствующих факторов они принимают вид парных уравнений линейной регрессии, т.е. имеем
В отличие от парной регрессии частные уравнения регрессии характеризуют изолированное влияние фактора на результат, ибо другие факторы закреплены на неизменном уровне. Эффекты влияния других факторов присоединены в них к свободному члену уравнения множественной регрессии. Это позволяет на основе частных уравнений регрессии определять частные коэффициенты эластичности:
,
где - коэффициент регрессии для фактора в уравнении множественной регрессии, - частное уравнение регрессии.
Наряду с частными коэффициентами эластичности могут быть найдены средние по совокупности показатели эластичности:
, которые показывают на сколько процентов в среднем изменится результат, при изменении соответствующего фактора на 1%. Средние показатели эластичности можно сравнивать друг с другом и соответственно ранжировать факторы по силе их воздействия на результат.
6.3 Анализ качества эмпирического уравнения множественной линейной регрессии
Проверка статистического качества оцененного уравнения регрессии проводится, с одной стороны, по статистической значимости параметров уравнения, а с другой стороны, по общему качеству уравнения регрессии. Кроме этого, проверяется выполнимость предпосылок МНК.
Как и в случае парной регрессии, для анализа статистической значимости параметров множественной линейной регрессии с m факторами, необходимо оценить дисперсию и стандартные отклонения параметров:
Обозначим матрицу:
и в этой матрице обозначим j - й диагональный элемент как . Тогда выборочная дисперсия эмпирического параметра регрессии равна:
,
а для свободного члена выражение имеет вид:
если считать, что в матрице индексы изменяются от 0 до m.
Здесь S2 - несмещенная оценка дисперсии случайной ошибки е (среднеквадратическая ошибка регрессии):
.
Соответственно, стандартные ошибки (отклонения) параметров регрессии равны
.
Для проверки значимости каждого коэффициента рассчитываются t - статистики:
,
Полученная t - статистика для соответствующего параметра имеет распределение Стьюдента с числом степеней свободы (n-т-1). При требуемом уровне значимости б эта статистика сравнивается с критической точкой распределения Стьюдента t(б; n-т-1) (двухсторонней).
Если , то соответствующий параметр считается статистически значимым, и нуль - гипотеза в виде или отвергается.
При параметр считается статистически незначимым, и нуль - гипотеза не может быть отвергнута. Поскольку bj не отличается значимо от нуля, фактор хj линейно не связан с результатом. Его наличие среди объясняющих переменных не оправдано со статистической точки зрения. Не оказывая какого-либо серьёзного влияния на зависимую переменную, он лишь искажает реальную картину взаимосвязи. Поэтому после установления того факта, что коэффициент bj статистически незначим, переменную хj рекомендуется исключить из уравнения регрессии. Это не приведет к существенной потере качества модели, но сделает её более конкретной.
Строгую проверку значимости параметров можно заменить простым сравнительным анализом.
Если , т.е. , то коэффициент статистически незначим.
Если , т.е. , то коэффициент относительно значим. В данном случае рекомендуется воспользоваться таблицей критических точек распределения Стьюдента.
Если , то коэффициент значим. Это утверждение является гарантированным при (n-т-1)>20 и .
Если , то коэффициент считается сильно значимым. Вероятность ошибки в данном случае при достаточном числе наблюдений не превосходит 0,001.
К анализу значимости коэффициента bj можно подойти по - другому. Для этого строится интервальная оценка соответствующего коэффициента. Если задать уровень значимости б, то доверительный интервал, в который с вероятностью (1-б) попадает неизвестное значение параметра , определяется неравенством:
.
Если доверительный интервал не содержит нулевого значения, то соответствующий параметр является статистически значимым, в противном случае гипотезу о нулевом значении параметра отвергать нельзя.
Для проверки общего качества уравнения регрессии используется коэффициент детерминации R2. Для множественной регрессии R2 является неубывающей функцией числа объясняющих переменных. Добавление новой объясняющей переменной никогда не уменьшает значение R2. Действительно, каждая следующая объясняющая переменная может лишь дополнить, но никак не сократить информацию, объясняющую поведение зависимой переменной.
Анализ статистической значимости коэффициента детерминации проводится на основе проверки нуль-гипотезы Н0: R2=0 против альтернативной гипотезы Н1: R2>0. Для проверки данной гипотезы используется следующая F - статистика.
Задача 1. Бюджетное обследование пяти случайно выбранных семей дало следующие результаты (в тыс. руб.):
Семья |
Накопления, S |
Доход, Y |
Имущество, W |
|
1 |
3 |
40 |
60 |
|
2 |
6 |
55 |
36 |
|
3 |
5 |
45 |
36 |
|
4 |
3,5 |
30 |
15 |
|
5 |
1,5 |
30 |
90 |
А) Оценить регрессию S на Y и W.
Б) Спрогнозируйте накопления семьи, имеющей доход 40 тыс.руб.и имущество стоимостью 25 тыс.руб.
В) Предположим, что доход семьи вырос на 10 тыс.руб, в то время как стоимость имущества не изменилась. Оцените как возрастут её накопления.
Г) Оцените как возрастут накопления семьи, если её доход вырос на 5, а стоимость имущетва увеличилась на 15.
Задача 2. Для изучения жилья в городе по данным о 46 коттеджах было получено уравнение множественной регрессии:
Где у - цена объекта (тыс.дол), - расстояние до центра города, - полезная площадь объекта (кв.м), - число этажей в доме (ед.).
А) Проверить гипотезы о равенстве нулю коэффициентов в генеральной совокупности (т.е. проверить значимость коэффициентов регрессии).
Б) Проверить гипотезу об одновременном равенстве нулю коэффициентов множественной регрессии (или о том, что R2=0) в ген.совокупности.
7. Прогнозирование
7.1 Оценка прогнозных качеств модели
Пример 1. Рассмотрим зависимость объёма реального частного потребления в США (С) от располагаемого дохода Y за 1971-1990 гг:
Со статической точки зрения данная зависимость приемлема по всем показателям.
Стандартная ошибка регрессии при среднем значении зависимой переменной , т.е. составляет около 1%.Отклонения от линии регрессии носят случайный характер, и их среднее значение остаётся приблизительно постоянным.
Отношение стандартной ошибки регрессии к среднему значению зависимой переменной называется средней относительной ошибкой прогноза, и может служить критерием прогнозных качеств оценённой регрессионноё модели. Если величина V мала и отсутствует автокорреляция ошибок (т.е. систематичность отклонений зависимой переменной от линии регрессии, проверяемая с помощью статистики Дарбина-Уотсона), то прогнозные качества модели высоки.
Если уравнение регрессии используется в прогнозировании, то величина V часто рассчитывается не для того периода, на котором было построено уравнение, а для некоторого следующего за ним "постпрогнозного" периода, для которого имеются наблюдения зависимой и объясняющих переменных.
И уже для последующего периода, если для него известны прогнозы значений объясняющих переменных, может быть построен прогноз объясняемой переменной.
Считается, что период прогнозирования должен быть по крайней мере в 3 раза короче, чем тот период, для которого было оценено уравнение регрессии. Для примера, оценим функцию зависимости С от Y за период не 1971-1990гг, а 1971-1986 гг., а затем построим постпрогноз на период 1987-1990гг. Уравнение регрессии также получается приемлемое по всем параметрам:
Оценим прогнозные качества модели, рассчитав среднюю относительную ошибку прогноза V. Поскольку для постпрогнозного периода число степеней свободы равно числу точек , стандартная ошибка прогноза за 1987-1990гг рассчитывается как . Относительная ошибка прогноза или 0,96%. Если относительную ошибку прогноза оценить по расчётному периоду 1971-1986гг, то она окажется равной или 0,90%, где .
Т.о. оценка прогнозных качеств уравнения регрессии даёт хороший результат (менее 1% ошибки) как на расчётном, так и на контрольном (постпрогнозном) периоде.
Для построения прогноза объёма потребления С на период после 1990г нужно оценить уравнение за 1971-1990 г. И подставить в него прогнозируемые значения величины располагаемого дохода Y.
7.2 Интервалы прогноза по линейному уравнению регрессии
Прогнозирование по уравнению регрессии представляет собой подстановку в уравнение регрессии соответственного значения х. Такой прогноз называется точечным.
Он не является точным, поэтому дополняется расчетом стандартной ошибки . Стандартная ошибка предсказываемого среднего значения зависимой переменной при заданном значении :
Где - стандартная ошибка регрессии, - остаточная дисперсия.
Величина достигает минимума при и возрастает по мере удаления от в любом направлении.
Получаем интервальную оценку прогнозного значения :
Пример 2: Уравнение зависимости затрат на производство от объёма выпускаемой продукции по 7 предприятиям имеет вид: .
; ; , .
При точечный прогноз затрат на производство:
.
Для прогнозируемого значения 95%-ные доверительные интервалы при заданном определены выражением: ,
т.е. .
Т.о. прогноз линии регрессии лежит в интервале:.
Мы рассмотрели доверительные интервалы для среднего значения при заданном
Однако фактические значения варьируются около среднего значения они могут отклоняться на величину случайной ошибки е, дисперсия которой оценивается как остаточная дисперсия на одну степень свободы Поэтому ошибка прогноза отдельного значения должна включать не только стандартную ошибку , но и случайную ошибку S. Таким образом, средняя ошибка прогноза индивидуального значения составит:
Для примера:
Доверительный интервал прогноза индивидуальных значений при с вероятностью 0,95 составит: или
Получился достаточно большой интервал, т.к. мало наблюдений.
Пусть в примере с функцией издержек выдвигается предположение, что в предстоящем году в связи со стабилизацией экономики затраты на производство 8 тыс. ед. продукции не превысят 250 млн. руб. Означает ли это изменение найденной закономерности или затраты соответствуют регрессионной модели?
Точечный прогноз:
Предполагаемое значение - 250. Средняя ошибка прогнозного индивидуального значения:
Сравним ее с предполагаемым снижением издержек производства, т.е. 250-288,93= -38,93:
Поскольку оценивается только значимость уменьшения затрат, то используется односторонний t- критерий Стьюдента. При ошибке в 5 % с , поэтому предполагаемое уменьшение затрат значимо отличается от прогнозируемого значения при 95 % - ном уровне доверия. Однако, если увеличить вероятность до 99%, при ошибке 1 % фактическое значение t-критерия оказывается ниже табличного 3,365, и различие в затратах статистически не значимо, т.е. затраты соответствуют предложенной регрессионной модели.
8. Нелинейные модели регрессии. Простейшие методы линеаризации
Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных функций.
Различают два класса нелинейных регрессий:
1. Регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам.
Например,
- полиномы различных степеней - , , ;
- равносторонняя гипербола - ;
- полулогарифмическая функция - .
2. Регрессии, нелинейные по оцениваемым параметрам.
Например,
- степенная - ;
- показательная - ;
- экспоненциальная - .
1. Регрессии нелинейные по включенным переменным сводятся к линейному виду с помощью методов линеаризации простой заменой переменных, а дальнейшая оценка параметров производится с помощью метода наименьших квадратов. Рассмотрим некоторые функции.
Полином второй степени приводится к линейному виду с помощью замены: . В результате приходим к двухфакторному уравнению , оценка параметров которого при помощи МНК, приводит к системе следующих нормальных уравнений:
А после обратной замены переменных получим
Полином второй степени обычно применяется в случаях, когда для определенного интервала значений фактора меняется характер связи рассматриваемых признаков: прямая связь меняется на обратную или обратная на прямую.
Аналогично, для полинома третьего порядка получим трёхфакторную модель.
Для полинома степени m, получим множественную регрессию с m объясняющими переменными
.
Среди нелинейной полиномиальной модели чаще всего используется полином второй степени, реже - третьей.
Для равносторонней гиперболы замена приводит к уравнению парной линейной регрессии , для оценки параметров которого используется МНК. Система линейных уравнений при применении МНК будет выглядеть следующим образом:
Такая модель может быть использована для характеристики связи удельных расходов сырья, материалов, топлива от объема выпускаемой продукции, времени обращения товаров от величины товарооборота, процента прироста заработной платы от уровня безработицы (например, кривая А.В. Филлипса), расходов на непродовольственные товары от доходов или общей суммы расходов (например, кривые Э. Энгеля) и в других случаях.
Аналогичным образом приводятся к линейному виду зависимости , и другие.
2. Регрессии, нелинейными по оцениваемым параметрам, делятся на два типа: нелинейные модели внутренне линейные (приводятся к линейному виду с помощью соответствующих преобразований, например, логарифмированием) и нелинейные модели внутренне нелинейные (к линейному виду не приводятся). К внутренне линейным моделям относятся, например, степенная функция - , показательная - , экспоненциальная - , логистическая - , обратная - . Среди нелинейных моделей наиболее часто используется степенная функция , которая приводится к линейному виду логарифмированием:
;
;
,
где . Т.е. МНК мы применяем для преобразованных данных:
а затем потенцированием находим искомое уравнение.
Широкое использование степенной функции связано с тем, что параметр в ней имеет четкое экономическое истолкование - он является коэффициентом эластичности. (Коэффициент эластичности показывает, на сколько процентов измениться в среднем результат, если фактор изменится на 1%.) Формула для расчета коэффициента эластичности имеет вид:
.
Так как для остальных функций коэффициент эластичности не является постоянной величиной, а зависит от соответствующего значения фактора , то обычно рассчитывается средний коэффициент эластичности:.
Наконец, следует отметить зависимость логистического типа: . Графиком функции является так называемая "кривая насыщения", которая имеет две горизонтальные асимптоты и точку перегиба , а также точку пересечения с осью ординат :
Уравнение приводится к линейному виду заменами переменных .
К внутренне нелинейным моделям можно, например, отнести следующие модели: , , .
В случае, когда функция не поддаётся непосредственной линейной линеаризации, можно разложить её в функциональный ряд и затем оценить регрессию с членами этого ряда.
При линеаризации функции или разложении её в ряд возникают и другие проблемы: искажение отклонений и нарушение их первоначальных свойств, статистическая зависимость членов ряда между собой.
Например, если оценивается формула , полученная путём линеаризации или разложения в ряд, то независимые переменные связаны между собой функционально.
Поэтому во многих случаях актуальна непосредственная оценка нелинейной формулы регрессии. Для этого используется нелинейный МНК, идея которого основана на минимизации суммы квадратов отклонений расчётных значений от эмпирических, т.е. нужно оценить параметры вектора а функции , так чтобы ошибки по совокупности были минимальны:.
Для решения этой задачи существуют два пути:
1) непосредственная минимизация функции F с помощью методов нелинейной оптимизации, позволяющих находить экстремум выпуклых линий (метод наискорейшего спуска).
2) решение системы нелинейных уравнений, которая получается из необходимого условия экстремума функции - равенство нулю частных производных по каждому из параметров:
система уравнений:
.
Эта система может быть решена итерационными методами. Однако в общем случае решение такой системы не является более простым способом нахождения вектора а.
Существуют методы оценивания нелинейной регрессии, сочетающие непосредственную оптимизацию, использующую нахождение градиента, с разложением в ряд Тейлора для последующей оценки линейной регрессии (метод Марквардта).
При построении нелинейной регрессии более остро, чем в линейном случае, стоит проблема правильной оценки формы зависимости между переменными.
Неточности при выборе формы функции существенно сказываются на качестве отдельных параметров уравнения и соответственно, на адекватности всей модели в целом.
Любое уравнение нелинейной регрессии, как и линейной зависимости, дополняется показателем корреляции, который в данном случае называется индексом корреляции:
Здесь - общая дисперсия результативного признака y, - остаточная дисперсия, определяемая по уравнению нелинейной регрессии . Следует обратить внимание на то, что разности в соответствующих суммах и берутся не в преобразованных, а в исходных значениях результативного признака. Иначе говоря, при вычислении этих сумм следует использовать не преобразованные (линеаризованные) зависимости, а именно исходные нелинейные уравнения регрессии. По-другому можно записать так:
Величина R находится в границах , и чем ближе она к единице, тем теснее связь рассматриваемых признаков, тем более надежно найденное уравнение регрессии. При этом индекс корреляции совпадает с линейным коэффициентом корреляции в случае, когда преобразование переменных с целью линеаризации уравнения регрессии не проводится с величинами результативного признака. Так обстоит дело с полулогарифмической и полиномиальной регрессией, а также с равносторонней гиперболой. Определив линейный коэффициент корреляции для линеаризованных уравнений, например, в пакете Excel с помощью функции ЛИНЕЙН, можно использовать его и для нелинейной зависимости.
Иначе обстоит дело в случае, когда преобразование проводится также с величиной y, например, взятие обратной величины или логарифмирование. Тогда значение R, вычисленное той же функцией ЛИНЕЙН, будет относиться к линеаризованному уравнению регрессии, а не к исходному нелинейному уравнению, и величины разностей под суммами будут относиться к преобразованным величинам, а не к исходным, что не одно и то же. При этом, как было сказано выше, для расчета R следует воспользоваться выражением, вычисленным по исходному нелинейному уравнению.
Поскольку в расчете индекса корреляции используется соотношение факторной и общей СКО, то R2 имеет тот же смысл, что и коэффициент детерминации. В специальных исследованиях величину R2 для нелинейных связей называют индексом детерминации.
Оценка существенности индекса корреляции проводится так же, как и оценка надежности коэффициента корреляции.
Индекс детерминации используется для проверки существенности в целом уравнения нелинейной регрессии по F-критерию Фишера:
,
где n-число наблюдений, m-число параметров при переменных х. Во всех рассмотренных нами случаях, кроме полиномиальной регрессии, m=1, для полиномов число параметров равно m, т.е. степени полинома. Величина m характеризует число степеней свободы для факторной СКО, а (n-m-1) - число степеней свободы для остаточной СКО.
Индекс детерминации R2 можно сравнивать с коэффициентом детерминации r2 для обоснования возможности применения линейной функции. Чем больше кривизна линии регрессии, тем больше разница между R2 и r2. Близость этих показателей означает, что усложнять форму уравнения регрессии не следует и можно использовать линейную функцию. Практически, если величина (R2-r2) не превышает 0,1, то линейная зависимость считается оправданной. В противном случае проводится оценка существенности различия показателей детерминации, вычисленных по одним и тем же данным, через t-критерий Стьюдента:.
Здесь в знаменателе находится ошибка разности (R2-r2), определяемая по формуле:
Если , то различия между показателями корреляции существенны и замена нелинейной регрессии линейной нецелесообразна.
В заключение приведем формулы расчета коэффициентов эластичности для наиболее распространенных уравнений регрессии:
Вид уравнения регрессии |
Коэффициент эластичности |
|
9. Фиктивные переменные в регрессионных моделях
В регрессионных моделях наряду с количественными переменными часто используются качественные переменные, такие как профессия, пол, образование, климатические условия и т.п.
Чтобы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые метки, т.е. качественные переменные должны быть преобразованы в количественные.
Такого рода переменные в эконометрике называются фиктивными (структурными, или искусственными) переменными, а также индикатором.
Фиктивные переменные отражают два противоположных состояния качественного фактора: фактор действует - фактор не действует. (Например, сезон летний - сезон зимний, пол мужской - женский, есть высшее образование - нет высшего образования).
В этом случае фиктивные переменные выражаются в двоичной форме:
. (Например, z=0, если потребитель не имеет высшего образования, z=1, если потребитель имеет высшее образование).
Таким образом, кроме моделей, содержащих только количественные переменные , в регрессионном анализе рассматриваются также модели, содержащие лишь качественные переменные (обозначаемые zi), либо те и другие одновременно.
1. Регрессионные модели, содержащие лишь качественные объясняющие переменные, называются ANOVA - моделями (моделями дисперсионного анализа).
Например, зависимость начальной заработной платы от образования может быть записана так:,
где z=0, если претендент на рабочее место не имеет высшего образования, z=1, если имеет. Тогда при отсутствии высшего образования начальная заработная плата равна:
а при его наличии:
При этом параметр а определяет среднюю начальную заработную плату при отсутствии высшего образования. Коэффициент g показывает, на какую величину отличаются средние начальные заработные платы при наличии и при отсутствии высшего образования у претендента. Проверяя статистическую значимость коэффициента g с помощью t - статистики (или значение с помощью F- статистики), можно определить, влияет или нет наличие высшего образования на начальную заработную плату.
ANOVA - модели представляют собой кусочно-постоянные функции. Такие модели в экономике встречаются редко.
2. Гораздо чаще встречаются модели, содержащие как количественные, так и качественные переменные. Такие модели называются ANCOVA - моделями (моделями ковариационного анализа).
Рассмотрим ANCOVA - модель при наличии у фиктивной переменной двух альтернатив.
Простейшая модель с одной количественной и одной качественной переменными имеет вид:
Где у - заработная плата сотрудника фирмы, х - стаж работы, z - пол сотрудника,
Тогда для женщин ожидаемое значение заработной платы при х годах трудового стажа будет:
а для мужчин -
Эти зависимости являются линейными относительно стажа работы х и различаются только величиной свободного члена. Если коэффициент g является статистически значимым, то можно сделать вывод, что в фирме имеет место дискриминация в заработной плате по половому признаку. При g>0 она будет в пользу мужчин, при g<0 - в пользу женщин. На графике такие зависимости изображаются параллельными прямыми.
Нулевой уровень (z = 0) качественной переменной называется базовым или сравнительным.
Коэффициент g в модели называется дифференциальным коэффициентом свободного члена, т.к. он показывает, на сколько отличается свободный член в модели при значении z = 1 от свободного члена при базовом значении фиктивной переменной.
Кроме того, значения фиктивных переменных можно изменять на противоположные. Суть модели от этого не изменится. Изменится только знак коэффициента g в модели.
3. С помощью большего числа фиктивных переменных можно обрисовать более сложные ситуации.
В этом случае может возникнуть ситуация, которая называется ловушкой фиктивной переменной. Она возникает, когда для моделирования k значений качественного признака используется ровно k бинарных (фиктивных) переменных. В этом случае одна из таких переменных линейно выражается через все остальные, и матрица значений переменных становится вырожденной. Тогда исследователь попадает в ситуацию совершенной мультиколлинеарности. Избежать подобной ловушки позволяет правило:
Если качественная переменная имеет k альтернативных значений, то при моделировании используется только (k-1) фиктивных переменных.
Например, если качественная переменная имеет 3 уровня, то для моделирования достаточно двух фиктивных переменных z1 и z2. Тогда для обозначения третьего уровня достаточно принять, например, обе переменные равными нулю: z1=z2=0. В частности, для обозначения уровня экономического развития страны (развитая, развивающаяся или страна "третьего мира") можно использовать обозначения:
Тогда z1=z2=0 означает страну "третьего мира".
Рассмотрим модель с двумя объясняющими переменными, одна из которых количественная, а другая - фиктивная, причем имеющая 3 альтернативы. Например, расходы на содержание ребёнка могут быть связаны с доходами домохозяйств и возрастом ребёнка: дошкольный, младший школьный и старший школьный.
Т.к. качественная переменная связана с 3 альтернативами, то по общему правилу моделирования необходимо использовать 2 фиктивные переменные:
,
где у - расходы на содержание ребёнка, х - доходы домохозяйств,
,
.
Тогда образуются частные уравнения регрессии для отдельного возраста:
- расходы на дошкольника: ;
- расходы на младшего школьника: ;
- расходы на старшего школьника: .
Базовым значением качественной переменной является значение "дошкольник", - дифференциальные свободные члены. Т.о. получаем три параллельные регрессионные прямые:
После вычисления коэффициентов регрессий определяется статистическая значимость на основе обычных t - статистик. Если они оказываются статистически незначимыми, то можно сделать вывод, что возраст ребёнка не оказывает существенного влияния на расходы по его содержанию.
4. В отдельных случаях может оказаться необходимым введение двух и более фиктивных переменных.
Для простоты рассмотрим регрессию с одной количественной и двумя качественными переменными. Пусть у - заработная плата сотрудников, х - стаж работы, z1 - наличие высшего образования, z2 - пол сотрудника.
, .
Т.о. модель имеет вид: .
Из неё получаем следующие зависимости:
- зарплата женщины без высшего образования: ;
- зарплата женщины с высшим образованием: ;
- зарплата мужчины без высшего образования: ;
- зарплата мужчины с высшим образованием: .
Очевидно, что все отдельные регрессии отличаются друг от друга только свободным членом. Определение статистической значимости коэффициентов показывает, влияют ли образование и пол сотрудника на его зарплату.
5. Фиктивные переменные широко используются и для оценки сезонных различий в потреблении. Например, спрос на туристические путёвки, охлаждённую воду, мороженное существенно выше летом, чем зимой. Спрос на обогреватели, шубы - наоборот.
Обычно сезонные колебания характерны для временных рядов. Устранение и нейтрализация сезонного фактора позволяет сконцентрироваться на других важных количественных и качественных характеристиках модели (тренде).
Устранение сезонного фактора называется сезонной корректировкой. Существует несколько методов сезонной корректировки, одним из которых является метод фиктивных переменных.
Пусть у зависит от количественной переменной х, причём зависимость отличается по кварталам, тогда общую модель можно представить в виде:
,
, ,
I квартал - база.
6. Иногда (достаточно редко) фиктивные переменные могут быть использованы для объяснения поведения зависимой переменной (т.е. зависимая переменная является фиктивной).
Например, исследуется зависимость наличия автомобиля от дохода, пола субъекта и т.п. Тогда
.
Такие модели являются вероятностными (линейными) моделями:
.
Зависимая переменная у принимает значение 0 с вероятностью р и 1 с вероятностью (1-р).
Для оценки параметров линейно-вероятностной модели применяются методы Logit -, Probit-, Tobit- анализа.
7. Фиктивные переменные могут вводиться не только в линейные, но и в нелинейные модели, приводимые путём преобразования к линейному виду.
Например, .
Логарифмируем, .
Наибольшими прогностическими возможностями обладают модели, зависящие от нескольких количественных факторов и от нескольких фиктивных.
Влияние качественного фактора может сказываться не только на значении свободного члена, но и на угловом коэффициенте линейной регрессионной модели. Обычно это характерно для временных рядов экономических данных при изменении институциональных условий, введении новых правовых или налоговых ограничений. Тогда зависимость может быть выражена так:
,
В этой ситуации ожидаемое значение зависимой переменной определяется следующим образом:
Коэффициенты g1 и g2 называются соответственно дифференциальным свободным членом и дифференциальным угловым коэффициентом. Фиктивная переменная разбивает зависимость на две части - до и после внесения изменений в условия её действия.
Общая зависимость имеет вид кусочно - линейной функции, а изменения условий отображаются изменением угла наклона прямой к оси абсцисс (линии 1 - 2).
Здесь исследователь должен принять решение, стоит ли разбивать выборку на части и строить для каждой из них уравнение регрессии (прямые 1 и 2) или ограничиться одной общей линией регрессии (линия 3). Для этого используют тест Чоу, который опирается на F-статистику , (см. тема "Статистика Фишера в регрессионном анализе").
Если гипотеза о структурной стабильности выборки отклоняется, то исследуется вопрос о причинах структурных различий в подвыборках. Пусть данные в подвыборках описываются двумя уравнениями регрессии:
Тогда возможны следующие варианты:
Для тестирования всех этих ситуаций применяется следующая методика, предложенная Гуйарати. Она основана на включении в модель регрессии фиктивной переменной z, которая равна 1 для всех x<x* и равна 0 для всех x>x*. Далее определяются параметры следующего уравнения регрессии:
.
Отсюда видно, что
а1=(а+b);b1=(c+d)(z=1),
a2=a;b2=b;(z=0).
Следовательно, параметр b есть разница между a1 и а2, параметр d - разница между b1 и b2. Если в уравнении b является статистически значимым, а d - нет, то имеем первый вариант структурной перестройки. Если, наоборот, статистически значимым является d, а b - незначим, имеем второй вариант структурных изменений. Наконец, третий вариант имеем в случае, если оба коэффициента b и d являются статистически значимыми.
В заключение следует отметить, что преимущество метода Гуйарати перед тестом Чоу состоит в том, что нужно построить только одно, а не три уравнения регрессии.
10. Системы эконометрических уравнений
10.1 Общее понятие о системах уравнений, используемых в эконометрике
Объектом статистического изучения в социальных науках являются сложные системы. Построение изолированных уравнений регрессии недостаточно для описания таких систем и объяснения механизма их функционирования.
Поэтому при моделировании экономических ситуаций часто необходимо построение систем уравнений, когда одни и те же переменные могут выступать и в роли объясняющих и в роли объясняемых. Так, если изучается модель спроса как отношение цен и количества потребляемых товаров, то одновременно для прогнозирования спроса необходима модель предложения товаров, в которой рассматривается также взаимосвязь между количеством и ценой предлагаемых благ. Это позволяет достичь равновесия между спросом и предложением.
Система уравнений в эконометрических исследованиях может быть построена по-разному.
Системы уравнений здесь могут быть построены по-разному.
Возможна система независимых уравнений, когда каждая зависимая переменная y рассматривается как функция одного и того же набора факторов x:
(1)
Набор факторов xj в каждом уравнении может варьироваться.
Каждое уравнение системы независимых уравнений может рассматриваться самостоятельно. Для нахождения его параметров используется МНК. По существу, каждое уравнение этой системы является уравнением регрессии.
Если зависимая переменная одного уравнения выступает в виде фактора в другом уравнении, то исследователь может строить модель в виде системы рекурсивных уравнений:
(2)
В данной системе зависимая переменная включает в каждое последующее уравнение в качестве факторов все зависимые переменные предшествующих уравнений наряду с набором факторов . Каждое уравнение этой системы может рассматриваться самостоятельно, и его параметры определяются методом наименьших квадратов (МНК).
Наибольшее распространение в эконометрических исследованиях получила система взаимозависимых уравнений. В ней одни и те же зависимые переменные в одних уравнениях входят в левую часть, а в других уравнениях - в правую часть системы:
(3)
Система взаимозависимых уравнений получила название системы совместных, одновременных уравнений. Тем самым подчеркивается, что в системе одни и те же переменные одновременно рассматриваются как зависимые в одних уравнениях и как независимые в других. В эконометрике эта система уравнений называется также структурной формой модели.
В отличие от предыдущих систем каждое уравнение системы одновременных уравнений не может рассматриваться самостоятельно, и для нахождения его параметров традиционный МНК неприменим. С этой целью используются специальные приемы оценивания.
10.2 Структурная и приведенная формы модели
Экономическая модель как система одновременных уравнений может быть представлена в структурной или приведённой форме. В структурной форме её уравнения имеют исходный вид, отражая непосредственную связь между переменными.
Структурная форма модели обычно содержит эндогенные и экзогенные переменные.
Эндогенные переменные (внутренние) - это зависимые переменные, число которых равно числу уравнений в системе. Они обозначаются через y.
Экзогенные переменные (внешние) - это предопределенные переменные (задаваемые извне, независимые), влияющие на эндогенные переменные. Они обозначаются через x.
Классификация переменных на эндогенные и экзогенные зависит от теоретической концепции принятой модели. Экономические переменные могут выступать в одних моделях как эндогенные, а в других - как экзогенные переменные. Внеэкономические переменные (например, климатические условия) входят в систему как экзогенные переменные. В качестве экзогенных переменных можно рассматривать значения эндогенных переменных за предшествующий период времени (лаговые переменные). Например, потребление текущего года yt может зависеть также и от уровня потребления в предыдущем году yt-1.
Структурная форма модели позволяет увидеть влияние изменений любой экзогенной переменной на значения эндогенной переменной. Целесообразно в качестве экзогенных переменных выбирать такие переменные, которые могут быть объектом регулирования. Меняя их и управляя ими, можно заранее иметь целевые значения эндогенных переменных.
Простейшая структурная форма модели имеет вид:
(4)
где y1,y2 - эндогенные переменные, x1,x2 - экзогенные.
Коэффициенты при эндогенных и - при экзогенных переменных называются структурными коэффициентами модели. Все переменные в модели выражены в отклонениях и от среднего уровня, поэтому свободный член в каждом уравнении отсутствует.
Использование МНК для оценивания структурных коэффициентов модели дает смещенные и несостоятельные оценки. Поэтому обычно для определения структурных коэффициентов модели структурная форма преобразуется в приведенную.
Приведенная форма модели представляет собой систему линейных функций эндогенных переменных от экзогенных:
(5)
коэффициенты приведенной формы модели.
По своему виду приведенная форма модели ничем не отличается от системы независимых уравнений. Применяя МНК, можно оценить , а затем оценить значения эндогенных переменных через экзогенные.
Коэффициенты приведённой формы представляют собой нелинейные функции коэффициентов структурной формы модели.
Рассмотрим это положение на примере простейшей структурной модели, выразив коэффициенты приведенной формы модели через коэффициенты структурной модели.
Для структурной модели вида (4) приведенная форма модели имеет вид
(6)
Из первого уравнения (4) можно выразить следующим образом (ради упрощения опускаем случайную величину):.
Подставляя во второе уравнение (4), имеем,
Откуда.
Аналогично выразим из второго уравнения системы (4) и подставив в первое, получим:
.
Т.о. система (4) принимает вид:
Таким образом, можно сделать вывод о том, что коэффициенты приведенной формы модели (6) будут выражаться через коэффициенты структурной формы следующим образом:
Следует заметить, что приведенная форма модели хотя и позволяет получить значения эндогенной переменной через значения экзогенных переменных, но аналитически она уступает структурной форме модели, так как в ней отсутствуют оценки взаимосвязи между эндогенными переменными.
10.3 Проблема идентификации
При переходе от приведенной формы модели к структурной исследователь сталкивается с проблемой идентификации. Идентификация - это единственность соответствия между приведенной и структурной формами модели.
Структурная модель (3) в полном виде, состоящая в каждом уравнении системы из n эндогенных и m экзогенных переменных, содержит n(n-1+m) параметров. Приведенная модель (5) в полном виде содержит nm параметров. Таким образом, в полном виде структурная модель содержит большее число параметров, чем приведенная форма модели. Поэтому n(n-1+m) параметров структурной модели не могут быть однозначно определены через nm параметров приведенной формы модели.
Чтобы получить единственно возможное решение для структурной модели, необходимо предположить, что некоторые из структурных коэффициентов модели равны нулю. Тем самым уменьшится число структурных коэффициентов.
С позиции идентифицируемости структурные модели можно подразделить на три вида:
А) идентифицируемые;
Б) неидентифицируемые;
В) сверхидентифицируемые.
А) Модель идентифицируема, если все структурные ее коэффициенты определяются однозначно, единственным образом по коэффициентам приведенной формы модели, т.е. число параметров структурной модели равно числу параметров приведенной формы модели.
Б) Модель неидентифицируема, если число приведенных коэффициентов меньше числа структурных коэффициентов, и в результате структурные коэффициенты не могут быть оценены через коэффициенты приведенной формы модели. Модель (3) в полном виде всегда неидентифицируема.
В) Модель сверхидентифицируема, если число приведенных коэффициентов больше числа структурных коэффициентов. В этом случае на основе приведенных коэффициентов можно получить два или более значений одного структурного коэффициента. Сверхидентифицируемая модель, в отличие от неидентифицируемой, практически решаема, но требует для этого специальных методов исчисления параметров.
Структурная модель всегда представляет собой систему совместных уравнений, каждое из которых требуется проверять на идентификацию. Модель считается идентифицируемой, если каждое уравнение системы идентифицируемо. Если хотя бы одно из уравнений системы неидентифицируемо, то и вся модель считается неидентифицируемой. Сверхидентифицируемая модель содержит хотя бы одно сверхидентифицируемое уравнение.
Необходимое условие идентифицируемости (счётное правило проверки на идентифицируемость): Обозначим Н - число эндогенных переменных в i- ом уравнении системы, D - число экзогенных переменных, которые содержатся в системе, но не входят в данное уравнение. Тогда:
D+1 = Н - уравнение идентифицируемо;
D+1 < Н - уравнение неидентифицируемо;
D+1 > Н - уравнение сверхидентифицируемо.
Это счетное правило отражает необходимое, но не достаточное условие идентификации. Более точно условия идентификации определяются, если накладывать ограничения на коэффициенты матриц параметров структурной модели. Уравнение идентифицируемо, если по отсутствующим в нем переменным (эндогенным и экзогенным) можно из коэффициентов при них в других уравнениях системы получить матрицу, определитель которой не равен нулю, а ранг матрицы не меньше, чем число эндогенных переменных в системе без одного.
Для оценки параметров структурной формы система должна быть идентифицируема или сверхидентифицируема.
Пример. Проверить каждое уравнение системы на необходимое и достаточное условия идентификации:
10.4 Оценивание параметров структурной модели
Коэффициенты структурной модели могут быть оценены разными способами в зависимости от вида системы одновременных уравнений. Наибольшее распространение получили два метода оценивания коэффициентов структурной модели:
· косвенный метод наименьших квадратов (КМНК);
· двухшаговый метод наименьших квадратов (ДМНК);
· трёхшаговый метод наименьших квадратов МНК;
· метод максимального правдоподобия с полной информацией;
· метод максимального правдоподобия при ограниченной информации.
Косвенный и двухшаговый методы подробно описаны в литературе и рассматриваются как традиционные методы оценки коэффициентов структурной модели.
КМНК применяется для идентифицируемой системы одновременных уравнений, а ДМНК - для оценки коэффициентов сверхидентифируемой модели.
Метод максимального правдоподобия с полной информацией рассматривается как наиболее общий метод оценивания, результаты которого при нормальном распределении признаков совпадают с МНК. Однако при большом числе уравнений системы этот метод приводит к достаточно сложным вычислительным процедурам. Поэтому в качестве модификации используется метод максимального правдоподобия при ограниченной информации (метод наименьшего дисперсионного отношения), разработанный в 1949 г. Т.Андерсоном и Н.Рубиным.
В отличие от метода максимального правдоподобия в данном методе сняты ограничения на параметры, связанные с функционированием системы в целом. Это делает решение более простым, но трудоемкость вычислений остается достаточно высокой. Несмотря на его значительную популярность, к середине 60-х годов он был практически вытеснен двухшаговым методом наименьших квадратов (ДМНК) в связи с гораздо большей простотой последнего. Дальнейшим развитием ДМНК является трехшаговый МНК (ТМНК), предложенный в 1962 г. А.Зельнером и Г.Тейлом. Этот метод оценивания пригоден для всех видов уравнений структурной модели. Однако при некоторых ограничениях на параметры более эффективным оказывается ДМНК. Косвенный метод наименьших квадратов (КМНК) применяется в случае точно идентифицируемой структурной модели. Процедура применения КМНК предполагает выполнение следующих этапов работы:
1. Структурная модель преобразовывается в приведенную форму модели.
2. Для каждого уравнения приведенной формы модели обычным МНК оцениваются приведенные коэффициенты .
3. Коэффициенты приведенной формы модели трансформируются в параметры структурной модели.
Рассмотрим применение КМНК для модели:
Пусть мы располагаем некоторыми данными по 5 регионам:
Регион |
|||||
1 |
2 |
5 |
1 |
3 |
|
2 |
3 |
6 |
2 |
1 |
|
3 |
4 |
7 |
3 |
2 |
|
4 |
5 |
8 |
2 |
5 |
|
5 |
6 |
5 |
4 |
6 |
|
Средние |
4 |
6,2 |
2,4 |
3,4 |
Приведенная форма модели имеет вид:
где случайные ошибки приведенной формы модели.
Для каждого уравнения приведенной формы применим традиционный МНК и определим д- коэффициенты. Для простоты работаем в отклонениях, т.е. Тогда система нормальных уравнений для первого уравнения системы составит:
Для приведенных данных система составит:
Отсюда получаем первое уравнение (и аналогично второе):
Перейдем к структурной форме следующим образом: исключим из первого уравнения приведенной формы x2 , выразив его из второго уравнения приведенной формы и подставив в первое уравнение:
.
Первое уравнение структурной формы:
.
Аналогично исключим из второго уравнения x1, выразив его через первое уравнение и подставив во второе:
,
второе уравнение структурной формы.
Структурная форма модели имеет вид:
Эту же систему можно записать, включив в нее свободный член уравнения, т.е. перейти от переменных в виде отклонений от среднего к исходным переменным и
Тогда структурная модель имеет вид:
Если к каждому уравнению структурной формы применить традиционный МНК, то результаты могут сильно отличаться. В данном примере будет:
Двухшаговый МНК. ДМНК используется для сверхидентифицируемых систем. Основная идея ДМНК: на основе приведенной формы модели получить для сверхидентифицируемого уравнения теоретические значения эндогенных переменных, содержащихся в правой части уравнения. Далее, подставив их вместо фактических значений, можно применить обычный МНК к структурной форме сверхидентифицируемого уравнения. Здесь дважды используется МНК: на первом шаге при определении приведенной формы модели и нахождении на ее основе оценок теоретических значений эндогенной переменной и на втором шаге применительно к структурному сверхидентифицируемому уравнению при определении структурных коэффициентов модели по данным теоретических (расчетных) значений эндогенных переменных.
Сверхидентифицируемая структурная модель может быть двух типов:
- все уравнения системы сверхидентифицируемые;
- система содержит также точно идентифицируемые уравнения.
В первом случае для оценки структурных коэффициентов каждого уравнения используется ДМНК. Во втором случае структурные коэффициенты для точно идентифицируемых уравнений находятся из системы приведенных уравнений.
ДМНК является наиболее общим и широко распространенным методом решения системы одновременных уравнений. Для точно идентифицируемых уравнений ДМНК дает тот же результат, что и КМНК.
Подобные документы
Множественная линейная регрессия: спецификация модели, оценка параметров. Отбор факторов на основе качественного теоретико-экономического анализа. Коэффициент регрессии при фиктивной переменной. Проблемы верификации модели. Коэффициент детерминации.
контрольная работа [88,0 K], добавлен 08.09.2014Взаимосвязи экономических переменных. Понятие эконометрической модели. Коэффициент корреляции и его свойства. Линейная парная регрессия. Метод наименьших квадратов. Основные предпосылки и принципы регрессионного анализа. Статистика Дарбина-Уотсона.
шпаргалка [142,4 K], добавлен 22.12.2011Суть эконометрики как научной дисциплины, ее предмет и метод. Парная и множественная регрессия в экономических исследованиях. Регрессионные модели с переменной структурой. Обобщенный метод наименьших квадратов. Анализ систем экономических уравнений.
реферат [279,2 K], добавлен 11.09.2013Методика расчета линейной регрессии и корреляции, оценка их значимости. Порядок построения нелинейных регрессионных моделей в MS Exсel. Оценка надежности результатов множественной регрессии и корреляции с помощью F-критерия Фишера и t-критерия Стьюдента.
контрольная работа [3,6 M], добавлен 29.05.2010Построение уравнения регрессии. Эластичность степенной модели. Уравнение равносторонней гиперболы. Оценка тесноты связи, качества и точности модели. Индекс корреляции и коэффициент детерминации. Оценка статистической значимости регрессионных уравнений.
курсовая работа [1,3 M], добавлен 25.03.2015Зависимость объема выпуска продукции от объема капиталовложений. Оценка параметров регрессий. Линейный коэффициент парной корреляции. Прогнозные значения результативного признака. Построение интервального прогноза. Ширина доверительного интервала.
контрольная работа [192,8 K], добавлен 25.10.2011Методологические основы эконометрики. Проблемы построения эконометрических моделей. Цели эконометрического исследования. Основные этапы эконометрического моделирования. Эконометрические модели парной линейной регрессии и методы оценки их параметров.
контрольная работа [176,4 K], добавлен 17.10.2014Основные этапы эконометрического исследования. Система совместных, одновременных уравнений. Понятие эконометрических уравнений. Система независимых уравнений. Пример модели авторегрессии. Система линейных одновременных эконометрических уравнений.
курсовая работа [41,2 K], добавлен 17.09.2009Основные методы анализа линейной модели парной регрессии. Оценки неизвестных параметров для записанных уравнений парной регрессии по методу наименьших квадратов. Проверка значимости всех параметров модели (уравнения регрессии) по критерию Стьюдента.
лабораторная работа [67,8 K], добавлен 26.12.2010Построение поля корреляции и формулирование гипотезы о форме связи. Параметры уравнений линейной, степенной и гиперболической регрессии. Оценка тесноты связи с помощью показателей корреляции и детерминации. Оценка средней ошибки аппроксимации уравнения.
контрольная работа [136,3 K], добавлен 25.09.2014