Математическая статистика

Формы, виды и способы статистического наблюдения. Виды группировок, их интервал и частота. Структура ряда динамики. Абсолютные и относительные статистические величины. Представление выборки в виде статистического ряда. Точечное и интервальное оценивание.

Рубрика Математика
Вид курс лекций
Язык русский
Дата добавления 29.11.2013
Размер файла 1,1 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Крайние члены вариационного ряда

xmin_набл = x (1) = min{xk} для k=1. n и

xmax_набл = x (n) = max{xk} для k=1. n

называются экстремальными значениями.

Величина x (k) называется k-й порядковой статистикой.

Использование вариационного ряда для определения выборочной медианы основано на определении его центрального члена:

Meнабл = x (m), где m= (n+1) /2 при нечетном n,

Meнабл = (x (m) +x (m+1)) /2, где m=n/2 при четном n.

По функции распределения F (x) исходных случайных величин x1, x2, x3,., xn вычисляются распределения любого члена вариационного ряда и совместные распределения его членов.

Представление выборки в виде статистического ряда, графическое отображение статистического ряда: полигон частот, гистограмма

Первоначально выборку представляют в виде вариационного ряда , упорядочивая выборочные значения в порядке возрастания: . Величину , называют при этом -ой порядковой статистикой. Далее результаты эксперимента записывают в виде статистического ряда.

Если - дискретная случайная величина, число возможных значений которой невелико, и соответственно с этим выборка содержит много повторяющихся значений, то поступают следующим образом.

Выписывают все неповторяющиеся значения в вариационном ряде . Подсчитывают частоты - количество повторов каждого из значений в выборке и определяют относительные частоты . Очевидно: . Совокупность пар чисел называют статистическим рядом абсолютных частот, а совокупность пар чисел называют статистическим рядом относительных частот. Статистические ряды отображают в виде таблицы.

Очевидно, что статистический ряд относительных частот приближенно оценивает ряд распределения дискретной случайной величины.

Пример 1. Дана выборка . Записать статистический ряд.

Решение: Объем выборки . Записываем вариационный ряд: . Подсчитываем частоты и представляем выборочные данные в виде статистического ряда:

0

1

2

3

4

2

6

5

3

4

0,1

0,3

0,25

0,15

0,2

Если же величина - непрерывная, или число возможных значений велико, то в этом случае делают группировку данных. Для этого интервал, в котором содержатся все элементы выборки, делится на равных (иногда неравных) последовательных, непересекающихся интервалов , и подсчитывают частоты - число элементов выборки, попавших в -ый интервал. При этом элемент, совпавший с границей интервала, относят к верхнему интервалу. Число интервалов группирования определяют, например, по формуле Стерджесса: . При разбивке на интервалы следует следить за тем, чтобы частоты для каждого из интервалов были одного порядка. В противном случае следует объединять соседние интервалы, добиваясь относительно равномерного распределения частот по интервалам. Далее подсчитываются относительные частоты для каждого из интервалов и плотности частот , где - длины соответствующих интервалов группирования. В результате получаем следующий статистический ряд:

Пример 2. Дана выборка объемом 20 из некоторой генеральной совокупности: {0,70; - 0,28; 1,24; 2,28; 2, 20; 2,73; - 1,18; 0,77; 2,10; - 0,09; 0,31; - 0,69; - 0,85; 0,02; 0,23; - 1,12; 0,43; 0,60; 1,13; 0,63}. Представить выборку в виде группированного статистического ряда.

Решение. Записываем вариационный ряд: {-1,18; - 1,12; - 0,85; - 0,69; - 0,28; - 0,09; 0,02; 0,23; 0,31; 0,43; 0,60; 0,63; 0,70; 0,77; 1,13; 1,24; 2,10; 2, 20; 2,28; 2,73}. Определяем число интервалов группирования по формуле Стерджесса: . Выберем в качестве нижней границы , в качестве верхней . Тогда длина каждого интервала (при условии равенстве длин интервалов): . Разбиваем на интервалы и формируем статистический ряд:

4

5

6

1

4

0,2

0,25

0,3

0,05

0,2

0,25

0,3125

0,375

0,0625

0,25

Графическая иллюстрация статистических рядов

В качестве графической иллюстрации статистических рядов используются:

Полигон частот - ломанная, отрезки которой соединяют точки , либо (рис 1). Для дискретной случайной величины полигон частот является оценкой многоугольника распределения, для непрерывной случайной величины полигон частот есть оценка кривой плотности распределения.

Гистограмма частот - ступенчатая фигура, состоящая из прямоугольников, опирающихся на частичные интервалы. Высота -го прямоугольника полагается равной плотности частоты . Соответственно площадь каждого прямоугольника равна - относительной частоте. Гистограмма частот также является статистическим аналогом кривой плотности распределения (рис 2).

Эмпирическая функция распределения

Эмпирической функцией распределения, полученной по выборке , называется функция, при каждом равная

, (1.1)

где .

Очевидно, что ступенчатая функция (рис 3), имеющая разрыва в точках, соответствующих, наблюдаемым выборочным значениям. Величина скачка в точке равна относительной частоте значения . Эмпирическая функция распределения является оценкой функции распределения.

Для любого эмпирическая функция распределения является случайной величиной, как функция случайных переменных .

Числовые характеристики выборки

В качестве числовых характеристик выборки используются:

Выборочное среднее: . (1.2)

Выборочная дисперсия . (1.3)

Несмещенная выборочная дисперсия . (1.4)

Выборочные начальные и центральные моменты , . (1.5)

По статистическому ряду значения этих величин могут быть найдены по формулам:

,,,

,. (1.6)

(для группированных данных формулы (1.6) дают приближенные значения выборочных характеристик.). Выборочные характеристики очевидно есть числовые характеристики дискретной случайной величины, ряд распределения которой совпадает со статистическим рядом. Выборочные характеристики являются приближенными значениями соответствующих числовых характеристик случайной величины . Выборочные характеристики являются случайными величинами, т.к. являются функциями случайной выборки.

Тема № 5. Точечное оценивание

Статистические оценки - это статистики, которые используются для оценивания неизвестных параметров распределений случайной величины.

Например, если - это независимые случайные величины, с заданным нормальным распределением , то будет средним арифметическим результатов наблюдений.

Задача статистической оценки формулируется так:

Пусть - выборка из генеральной совокупности с распределением . Распределение имеет известную функциональную форму, но зависит от неизвестного параметра . Этот параметр может быть любой точкой заданного параметрического множества . Используя статистическую информацию, содержащуюся в выборке , сделать выводы о настоящем значении параметра .

Несмещенность и состоятельность оценок

Рассмотрим оценку иn числового параметра и, определенную при n = 1, 2, … Оценка иn называется состоятельной, если она сходится по вероятности к значению оцениваемого параметра и при безграничном возрастании объема выборки. Выразим сказанное более подробно. Статистика иn является состоятельной оценкой параметра и тогда и только тогда, когда для любого положительного числа е справедливо предельное соотношение

Пример 3. Из закона больших чисел следует, что иn = является состоятельной оценкой и = М (Х) (в приведенной выше теореме Чебышёва предполагалось существование дисперсии D (X); однако, как доказал А.Я. Хинчин [6], достаточно выполнения более слабого условия - существования математического ожидания М (Х)).

Пример 4. Все указанные выше оценки параметров нормального распределения являются состоятельными.

Вообще, все (за редчайшими исключениями) оценки параметров, используемые в вероятностно-статистических методах принятия решений, являются состоятельными.

Пример 5. Так, согласно теореме В.И. Гливенко, эмпирическая функция распределения Fn (x) является состоятельной оценкой функции распределения результатов наблюдений F (x).

При разработке новых методов оценивания следует в первую очередь проверять состоятельность предлагаемых методов.

Второе важное свойство оценок - несмещенность. Несмещенная оценка иn - это оценка параметра и, математическое ожидание которой равно значению оцениваемого параметра: Мn) = и.

Пример 6. Из приведенных выше результатов следует, что и являются несмещенными оценками параметров m и у2 нормального распределения. Поскольку М () = М (m**) = m, то выборочная медиана и полусумма крайних членов вариационного ряда m** - также несмещенные оценки математического ожидания m нормального распределения. Однако

поэтому оценки s2 и (у2) ** не являются состоятельными оценками дисперсии у2 нормального распределения.

Оценки, для которых соотношение Мn) = и неверно, называются смещенными. При этом разность между математическим ожиданием оценки иn и оцениваемым параметром и, т.е. Мn) - и, называется смещением оценки.

Пример 7. Для оценки s2, как следует из сказанного выше, смещение равно

М (s2) - у2 = - у2/n.

Смещение оценки s2 стремится к 0 при n > ?.

Оценка, для которой смещение стремится к 0, когда объем выборки стремится к бесконечности, называется асимптотически несмещенной. В примере 7 показано, что оценка s2 является асимптотически несмещенной.

Практически все оценки параметров, используемые в вероятностно-статистических методах принятия решений, являются либо несмещенными, либо асимптотически несмещенными. Для несмещенных оценок показателем точности оценки служит дисперсия - чем дисперсия меньше, тем оценка лучше. Для смещенных оценок показателем точности служит математическое ожидание квадрата оценки Мn - и) 2. Как следует из основных свойств математического ожидания и дисперсии,

(3)

т.е. математическое ожидание квадрата ошибки складывается из дисперсии оценки и квадрата ее смещения. Для подавляющего большинства оценок параметров, используемых в вероятностно-статистических методах принятия решений, дисперсия имеет порядок 1/n, а смещение - не более чем 1/n, где n - объем выборки. Для таких оценок при больших n второе слагаемое в правой части (3) пренебрежимо мало по сравнению с первым, и для них справедливо приближенное равенство

(4)

где с - число, определяемое методом вычисления оценок иn и истинным значением оцениваемого параметра и.

Метод максимального правдоподобия - еще один разумный способ построения оценки неизвестного параметра. Состоит он в том, что в качестве "наиболее правдоподобного" значения параметра берут значение , максимизирующее вероятность получить при опытах данную выборку . Это значение параметра зависит от выборки и является искомой оценкой.

Решим сначала, что такое "вероятность получить данную выборку", т.е. что именно нужно максимизировать. Вспомним, что для абсолютно непрерывных распределений их плотность - "почти" (с точностью до ) вероятность попадания в точку . А для дискретных распределений вероятность попасть в точку равна . И то, и другое мы будем называть плотностью распределения . Итак,

Определение 5.

Функцию

мы будем называть плотностью распределения .

Для тех, кто знаком с понятием интеграла по мере, нет ничего странного в том, что мы ввели понятие плотности для дискретного распределения. Это - не плотность относительно меры Лебега, но плотность относительно считающей меры.

Если для дискретного распределения величины со значениями , , ввести считающую меру на борелевской -алгебре как

Если же имеет абсолютно непрерывное распределение, то есть привычная плотность относительно меры Лебега :

Определение 6.

Функция (случайная величина при фиксированном )

называется функцией правдоподобия. Функция (тоже случайная)

называется логарифмической функцией правдоподобия.

В дискретном случае функция правдоподобия есть вероятность выборке , , в данной серии экспериментов равняться , , . Эта вероятность меняется в зависимости от :

Определение 7.

Оценкой максимального правдоподобия неизвестного параметра называют значение , при котором функция достигает максимума (как функция от при фиксированных ):

Замечание 7.

Поскольку функция монотонна, то точки максимума и совпадают. Поэтому оценкой максимального правдоподобия (ОМП) можно называть точку максимума (по ) функции :

Напомним, что точки экстремума функции - это либо точки, в которых производная обращается в нуль, либо точки разрыва функции/производной, либо крайние точки области определения функции.

Пример 7.

Пусть , , - выборка объема из распределения Пуассона , где . Найдем ОМП неизвестного параметра .

Поскольку эта функция при всех непрерывно дифференцируема по , можно искать точки экстремума, приравняв к нулю частную производную по . Но удобнее это делать для логарифмической функции правдоподобия:

Тогда

и точка экстремума - решение уравнения: , то есть .

Сравнение оценок.

Используя метод моментов и метод максимального правдоподобия, мы получили для каждого параметра уже достаточно много различных оценок. Каким же образом их сравнивать? Что должно быть показателем "хорошести" оценки?

Понятно, что чем дальше оценка отклоняется от параметра, тем она хуже. Но величина для сравнения непригодна: во-первых, параметр неизвестен, во-вторых, - случайная величина, так что эти величины обычно сравнить нельзя. Как, например, сравнивать и ? Или, на одном элементарном исходе, и ?

Поэтому имеет смысл сравнивать не отклонения как таковые, а средние значения этих отклонений, то есть .

Но математическое ожидание модуля с. в. считать обычно затруднительно, поэтому более удобной характеристикой для сравнения оценок считается . Она удобна еще и тем, что очень чутко реагирует на маловероятные, но большие по абсолютному значению отклонения от (возводит их в квадрат).

Заметим еще, что есть функция от , так что сравнивать эти "среднеквадратические" отклонения нужно как функции от - поточечно. Такой подход к сравнению оценок называется среднеквадратическим.

Разумеется, в зависимости от потребностей исследователя можно пользоваться и другими характеристиками, например, или .

Существует и так называемый асимптотический подход к сравнению оценок, при котором для сравнения оценок используется некая характеристика "разброса" оценки относительно параметра при больших .

Пусть , , - выборка объема из параметрического семейства распределений , где .

Определение 8.

Говорят, что оценка лучше оценки в смысле среднеквадратического подхода, если для любого

и хотя бы при одном это неравенство строгое.

Существует ли среди всех оценок наилучшая в смысле среднеквадратического подхода? Скептик сразу ответит "нет". Покажем, что он прав. Предположим, что мы имеем дело с невырожденной задачей: ни для какой статистики невозможно тождество: при любых .

Теорема 4.

В классе всех возможных оценок наилучшей в смысле среднеквадратического подхода оценки не существует.

Доказательство теоремы 4. Пусть, напротив, - наилучшая, то есть для любой другой оценки , при любом выполнено

Пусть - произвольная точка . Рассмотрим статистику . Тогда при любом . В частности, при получим . Поэтому . Но, поскольку произвольно, то при любом выполняется . А это возможно только если (оценка в точности отгадывает неизвестный параметр), т.е. для вырожденной с точки зрения математической статистики задачи. Вырожденными являются, например, следующие задачи: для выборки из , , выполнено тождество ; для выборки из , , выполнено тождество .

Асимптотический подход к сравнению оценок

Возьмем две случайные величины: из нормального распределения и из нормального распределения . Если для , например, , то для уже . Разброс значений величины гораздо больший, и дисперсия (показатель рассеяния) соответственно больше. Что показывает коэффициент асимптотической нормальности? Возьмем две АНО с коэффициентами 1 и 100:

При больших разброс значений величины около нуля гораздо больше, чем у величины , поскольку больше предельная дисперсия (она же коэффициент асимптотической нормальности).

Но чем меньше отклонение оценки от параметра, тем лучше. Отсюда - естественный способ сравнения асимптотически нормальных оценок:

Определение 12.

Пусть - АНО с коэффициентом , - АНО с коэффициентом . Говорят, что лучше, чем в смысле асимптотического подхода, если для любого

и хотя бы при одном это неравенство строгое.

Пример 13 (продолжение). Сравним между собой в асимптотическом смысле оценки в последовательности . Для коэффициент асимптотической нормальности имеет вид . Коэффициент тем меньше, чем больше , то есть каждая следующая оценка в этой последовательности лучше предыдущей.

Оценка , являющаяся "последней", могла бы быть лучше всех оценок в этой последовательности в смысле асимптотического подхода, если бы являлась асимптотически нормальной.

Неравенство Рао - Крамера

Пусть , , - выборка объема из параметрического семейства распределений , , и семейство удовлетворяет условию регулярности (R) .

Пусть, кроме того, выполнено условие

(RR)

"Информация Фишера" существует, положительна и непрерывна по во всех точках .

Справедливо следующее утверждение.

Неравенство Рао - Крамера.

Пусть семейство распределений удовлетворяет условиям (R) и (RR)

Тогда для любой несмещенной оценки , дисперсия которой ограничена на любом компакте в области , справедливо неравенство

Тема № 6. Интервальное оценивание

Доверительный интервал и вероятность

Оценка параметра распределения является приближенной величиной, поэтому чтобы использовать ее необходимо знать погрешность оценки, то есть границы и интервала, в котором находится истинное значение оцениваемого параметра. Поскольку эти границы могут быть определены только на основании случайных результатов опыта, то они также являются случайными величинами. Следовательно, необходимо не только указать интервал , но и указать надежность этого интервала, то есть вероятность того, что истинное значение параметра будет лежать в данном интервале. Следует заметить, что чем больше уверенность, что параметр принадлежит интервалу, то тем больше интервал. Так что искать интервал, которому принадлежит с вероятностью 1 бессмысленно - это вся область возможных значений параметра.

Определение. Интервал , содержащий неизвестный параметр с заданной вероятностью , называют доверительным интервалом соответствующим доверительной вероятности . То есть, если , то - доверительный интервал, а - доверительная вероятность.

Замечание 1. Так как случайными являются границы интервала, а не параметр , то обычно говорят "интервал накрывает параметр ", а не " содержится в интервале ".

Замечание 2. Для дискретных распределений точное равенство возможно не для всех значений , в этом случае под доверительным интервалом, соответствующим вероятности понимается интервал , удовлетворяющий условию .

Определение. Интервал называется асимптотическим доверительным интервалом для параметра соответствующим доверительной вероятности , если .

Число называют уровнем значимости, оно определяет вероятность того, что доверительный интервал не накроет оцениваемый параметр. Уровень значимости отделяет события практически невозможные от возможных. Выбор конкретного значения (или) зависит от объема выборки и характера решаемой задачи. Обычно .

Общий принцип построения доверительных интервалов таков:

Находим статистику , зависящую от неизвестного параметра , закон распределения которой известен (и не зависит от ). Причем необходимо, чтобы статистика была обратима относительно .

Находим квантили и распределения статистики , такие что . Заметим, что существует бесконечное множество пар чисел , для которых . Обычно в качестве выбирают квантили распределения статистики уровней и соответственно. Напомним, что квантилем порядка случайной величины называется значение , для которого . (см. рис.)

Разрешив неравенство относительно , находим границы доверительного интервала.

Аналогично находится и асимптотический доверительный интервал, с той лишь разницей, что на первом этапе находим статистику закон распределения которой при стремится к известному закону, не зависящему от параметра .

Доверительный интервал для математического ожидания нормальной величины при известном среднеквадратическом отклонении .

Пусть выборка, полученная из нормальной генеральной совокупности с известным среднеквадратичным отклонением . Требуется построить доверительный интервал для параметра , соответствующий доверительной вероятности .

Так как каждая из величин распределена по закону , то выборочное среднее распределено также нормально с параметрами

, .

Тогда .

Найдем и , для которых . Так как распределение симметрично, то разумно взять , где - квантиль распределения порядка (рис). Тогда:

,

или (3.1)

или, где

Замечание 1. Если для нахождения квантилей используется функция Лапласа , то следует использовать соотношение: .

Пример. Найти доверительный интервал для математического ожидания нормальной случайной величины с надежностью , если , , .

Решение. Имеем - нормальная случайная величина с известным . Требуется построить доверительный интервал для математического ожидания этой величины, то есть для параметра . По таблицам функции Лапласа находим , для которого . Следовательно, . Таким образом, с вероятностью :

или .

Замечание 2. Если значение неизвестно, то с помощью статистики невозможно построить точный доверительный интервал для параметра нормальной случайной величины. Однако, при больших величину можно заменить состоятельной оценкой) (или ), построив статистику . Так как , то , то есть статистику можно использовать для построения АДИ для параметра . Тогда, если , - квантили распределения то: и искомый интервал имеет вид: .

Кроме того, поскольку, в соответствии с центральной предельной теоремой, величина распределена асимптотически нормально для любой случайной величины , имеющей конечные математическое ожидание и дисперсию, при больших эту величину можно использовать для построения асимптотических доверительных интервалов для математического ожидания при любом законе распределения величины . Если же неизвестна величина , то при больших ее можно заменить состоятельными оценками или .

Замечание 3. Функция не годится для построения доверительного интервала для нормальной случайной величины при известном параметре , а тем более при неизвестном а. Действительно, разрешая неравенство относительно , мы получим (при условии ) - бесконечный доверительный интервал.

Асимптотический доверительный интервал для параметра распределения Пуассона

Пусть выборка, полученная из генеральной совокупности случайной величины , распределенной по закону Пуассона с неизвестным параметром . Требуется построить доверительный интервал для параметра , соответствующий доверительной вероятности .

Рассмотрим статистику . В соответствии с ЦПТ, при . Пусть квантиль распределения уровня (), тогда:

.

Однако, разрешить неравенство относительно не просто из-за корня в знаменателе. Попробуем заменить в знаменателе на состоятельную оценку этого параметра , построив статистику . Не изменится ли при этом характер сходимости? Вспомним свойство сходимости по распределению: если а , то . Тогда:

, т.к. .

Следовательно ,

или .

Таким образом, искомый асимптотический доверительный интервал уровня имеет вид:

. (3.3)

Асимптотический доверительный интервал для параметра показательного распределения

Пусть выборка, полученная из генеральной совокупности случайной величины , распределенной по показательному закону с неизвестным параметром . Требуется построить доверительный интервал для параметра , соответствующий доверительной вероятности .

Рассмотрим статистику . В соответствии с ЦПТ, при . Пусть квантиль распределения уровня (), тогда:

,

или .

Таким образом, искомый асимптотический доверительный интервал уровня имеет вид:

. (3.3)

Распределения, связанные с нормальным

Поставим задачу: построить точные ДИ для параметров нормального распределения.

1. Для параметра при известном - уже построен - (3.1).

2. Для параметра при неизвестном .

3. Для параметра при известном .

4. Для параметра при неизвестном .

Для построения подходящих статистик, рассмотрим ряд распределений, связанных с нормальным.

Гамма распределение и его свойства.

Определение. Случайная величина имеет гамма распределение , где , , если ее плотность распределения имеет вид:

(3.4)

Здесь - гамма функция.

, , .

Найдем характеристическую функцию случайной величины :

(3.5)

Используя, характеристическую функцию легко найти математическое ожидание и дисперсию гамма-распределения:

, .

Свойство 1. есть показательное распределение с параметром .

Действительно, если , то - есть плотность распределения случайной величины, распределенной по показательному закону с параметром .

Свойство 2. Если , то .

Доказательство. Найдем функцию распределения :

Свойство 3. Если независимы и , то .

Доказательство. По свойству характеристической функции

- что есть характеристическая функция случайной величины, распределенной по .

Свойство 4. Если независимы и имеют стандартное нормальное распределение, то .

Доказательство. Вытекает из свойств 2 и 3.

Распределение "хи-квадрат"

Определение. Распределение суммы квадратов независимых стандартных нормальных случайных величин называют распределением "хи-квадрат" с степенями свободы и обозначают . (Саму случайную величину также часто обозначают ).

Согласно этому определению и свойству 4 предыдущего раздела, - есть гамма распределение . Следовательно, плотность распределения :

, (3.6)

а основные числовые характеристики , , мода распределения, при , равна .

Графики плотности вероятностей для различных степеней свободы приведены на рис

Если случайные величины и независимы и , , то, очевидно, их сумма .

Распределение Стьюдента

Определение. Пусть - случайная величина распределенная по закону , а - независимая от нее случайная величина распределенная по закону хи-квадрат с степенями свободы. Тогда распределение величины

(3.7)

называется распределением Стьюдента с степенями свободы и обозначают . Плотность распределения Стьюдента:

, (3.8)

Числовые характеристики: , .

Распределение Стьюдента симметрично относительно .

Так как при , согласно закону больших чисел,

, то при .

Преобразования нормальных выборок. Лемма Фишера

Теорема 1 (об ортогональном преобразовании нормального вектора). Пусть - случайный вектор, координаты которого независимы и имеют стандартное нормальное распределение, а , где - ортогональная матрица порядка (т.е. ),. Тогда координаты вектора независимы и имеют стандартное нормальное распределение.

Доказательство. Запишем плотность распределения вектора . Так как величины независимы и имеют стандартное нормальное распределение, то:

,

где .

Чтобы записать плотность распределения вектора , воспользуемся формулой для плотности при линейном преобразовании вектора: если , то . Тогда, с учетом того, что и получим:

.

Но, умножение вектора на ортогональную матрицу не меняет нормы вектора, действительно:

.

Следовательно, , т.е. величины также как и величины , независимы и имеют стандартное нормальное распределение.

Теорема 2 (лемма Фишера). Пусть - выборка из и , где - ортогональная матрица порядка . Тогда для любого статистика распределена по закону , и не зависит от .

Доказательство. Так как , то (см. доказательство предыдущей теоремы). Тогда

.

Основные следствия леммы Фишера

Пусть независимы и имеют нормальное распределение

, , , . Тогда:

1. ; (3.9)

2. ; (3.10)

3. ; (3.11)

4. и независимы;

5. . (3.12)

Доказательство.

1. Доказано ранее.

2. Так как величины , то величина .

3. Рассмотрим статистику .

Введем стандартные нормальные величины и выразим через :

, где .

То есть можно изначально считать, что величины имеют стандартное нормальное распределение. Попробуем применить к лемму Фишера, для этого представим в виде:

, где .

Покажем, что найдется ортогональная матрица такая, что вектор , будет иметь координату . Возьмем в качестве первой строки матрицы строку, .

Тогда . Так как норма этой строки (длина вектора) равна 1, то эту строку всегда можно дополнить до ортогональной матрицы (строки и столбы ортогональной матрицы - есть ортонормированные вектора).

Тогда в соответствии с леммой Фишера, статистика имеет распределение хи-квадрат с степенью свободы.

4. В соответствии с леммой Фишера, статистика и величина независимы, то есть и независимы.

5. Преобразуем . Величина , а

величина , и по следствию 4 эти величины независимы. Следовательно, .

Точные доверительные интервалы для параметров нормального распределения

1. Для параметра при известном .

С вероятностью : , где - квантиль стандартного нормального распределения уровня .

2. Для параметра при неизвестном .

Из следствия 5 леммы Фишера, учитывая симметрию распределения Стьюдента, с вероятностью получим:

, (3.13)

где - квантиль распределения Стьюдента уровня . Заметим, что квантиль распределения Стьюдента называется коэффициентом Стьюдента уровня .

3. Для параметра при неизвестном .

Из следствия 2 леммы Фишера, с вероятностью получим:

, (3.14)

где , - квантили распределения хи-квадрат с степенями свободы уровней и соответственно.

4. Для параметра при неизвестном .

Из следствия 3 леммы Фишера, с вероятностью получим:

, (3.15)

где , - квантили распределения хи-квадрат с степенью свободы уровней и соответственно.

Пример 1. Найти доверительный интервал для дисперсии нормальной величины с надежностью , если .

Решение. По таблицам распределения для степеней свободы находим квантили распределения уровней и : , . Следовательно, доверительный интервал:

.

Пример 2. Найти доверительный интервал для математического ожидания нормальной случайной величины с надежностью , если , , .

Решение. По таблицам распределения Стьюдента для степеней свободы находим коэффициент Стьюдента уровня : . Таким образом, с вероятностью :

или .

Тема № 7. Проверка статистических гипотез

В математической статистике считается, что данные, получаемые в результате наблюдений, подчинены некоторому неизвестному вероятностному распределению, и задача состоит в том, чтобы извлечь из данных правдоподобную информацию об этом неизвестном распределении. В настоящей главе мы обсудим еще один подход к этой общей задаче, состоящий в проверке гипотез. Статистической гипотезой называют предположение о распределении вероятностей, которое необходимо проверить по имеющимся данным.

Статистический критерий - строгое математическое правило, по которому принимается или отвергается та или иная статистическая гипотеза с известным уровнем значимости. Построение критерия представляет собой выбор подходящей функции от результатов наблюдений (ряда эмпирически полученных значений признака), которая служит для выявления меры расхождения между эмпирическими значениями и гипотетическими.

Непараметрические критерии

Группа статистических критериев, которые не включают в расчёт параметры вероятностного распределения и основаны на оперировании частотами или рангами.

Q-критерий Розенбаума

U-критерий Манна-Уитни

Критерий Уилкоксона

Критерий Пирсона

Критерий Колмогорова-Смирнова

Параметрические критерии

Группа статистических критериев, которые включают в расчет параметры вероятностного распределения признака (средние и дисперсии).

t-критерий Стьюдента

Критерий Фишера

Критерий отношения правдоподобия

Критерий Романовского

Определения

Пусть в (статистическом) эксперименте доступна наблюдению случайная величина X, распределение которой неизвестно полностью или частично. Тогда любое утверждение, касающееся называется статистической гипотезой. Гипотезы различают по виду предположений, содержащихся в них:

Статистическая гипотеза, однозначно определяющая распределение, то есть, где какой-то конкретный закон, называется простой.

Статистическая гипотеза, утверждающая принадлежность распределения к некоторому семейству распределений, то есть вида, где - семейство распределений, называется сложной.

На практике обычно требуется проверить какую-то конкретную и как правило простую гипотезу H0. Такую гипотезу принято называть нулевой. При этом параллельно рассматривается противоречащая ей гипотеза H1, называемая конкурирующей или альтернативной.

Выдвинутая гипотеза нуждается в проверке, которая осуществляется статистическими методами, поэтому гипотезу называют статистической. Для проверки гипотезы используют критерии, позволяющие принять или опровергнуть гипотезу.

В большинстве случаев статистические критерии основаны на случайной выборке фиксированного объема из распределения. В последовательном анализе выборка формируется в ходе самого эксперимента и потому её объем является случайной величиной

Уровень значимости и мощность

При проверке статистической гипотезы возможны ошибки. Есть два рода ошибок. Ошибка первого рода заключается в том, что отвергают нулевую гипотезу, в то время как в действительности эта гипотеза верна. Ошибка второго рода состоит в том, что принимают нулевую гипотезу, в то время как в действительности эта гипотеза неверна.

Вероятность ошибки первого рода называется уровнем значимости и обозначается б. Таким образом, б = P{UШ | H0}, т.е. уровень значимости б - это вероятность события {UШ}, вычисленная в предположении, что верна нулевая гипотеза Н0.

Уровень значимости однозначно определен, если Н0 - простая гипотеза. Если же Н0 - сложная гипотеза, то уровень значимости, вообще говоря, зависит от функции распределения результатов наблюдений, удовлетворяющей Н0. Статистику критерия U обычно строят так, чтобы вероятность события {UШ} не зависела от того, какое именно распределение (из удовлетворяющих нулевой гипотезе Н0) имеют результаты наблюдений. Для статистик критерия U общего вида под уровнем значимости понимают максимально возможную ошибку первого рода. Максимум (точнее, супремум) берется по всем возможным распределениям, удовлетворяющим нулевой гипотезе Н0, т.е. б = sup P{UШ | H0}.

Если критическая область имеет вид, указанный в формуле (9), то

P{U > C | H0} = б. (10)

Если С задано, то из последнего соотношения определяют б. Часто поступают по иному - задавая б (обычно б = 0,05, иногда б = 0,01 или б = 0,1, другие значения б используются гораздо реже), определяют С из уравнения (10), обозначая его Сб, и используют критическую область Ш = {U > Cб} с заданным уровнем значимости б.

Вероятность ошибки второго рода есть P{UШ | H1}. Обычно используют не эту вероятность, а ее дополнение до 1, т.е. P{UШ | H1} = 1 - P{UШ | H1}. Эта величина носит название мощности критерия. Итак, мощность критерия - это вероятность того, что нулевая гипотеза будет отвергнута, когда альтернативная гипотеза верна.

Понятия уровня значимости и мощности критерия объединяются в понятии функции мощности критерия - функции, определяющей вероятность того, что нулевая гипотеза будет отвергнута. Функция мощности зависит от критической области Ш и действительного распределения результатов наблюдений. В параметрической задаче проверки гипотез распределение результатов наблюдений задается параметром и. В этом случае функция мощности обозначается М (Ш,и) и зависит от критической области Ш и действительного значения исследуемого параметра и. Если

Н0: и = и0,Н1: и = и1,то

М (Ш,и0) = б,

М (Ш,и1) = 1 - в,

где б - вероятность ошибки первого рода, в - вероятность ошибки второго рода. В статистическом приемочном контроле б - риск изготовителя, в - риск потребителя. При статистическом регулировании технологического процесса б - риск излишней наладки, в - риск незамеченной разладки.

Функция мощности М (Ш,и) в случае одномерного параметра и обычно достигает минимума, равного б, при и = и0, монотонно возрастает при удалении от и0 и приближается к 1 при | и - и0 | > ?.

В ряде вероятностно-статистических методов принятия решений используется оперативная характеристикаL (Ш,и) - вероятность принятия нулевой гипотезы в зависимости от критической области Ш и действительного значения исследуемого параметра и. Ясно, что

L (Ш,и) = 1 - М (Ш,и).

Построение оптимальных критериев

Следующее замечательное утверждение, по недоразумению называемое леммой, заявляет, что оптимальные во всех трех смыслах (минимаксные, байесовские, наиболее мощные) критерии могут быть построены в самом общем случае простым выбором различных констант в одном и том же критерии - критерии отношения правдоподобия.

Пусть - выборка (набор независимых, одинаково распределенных величин), и имеются две гипотезы о распределении :

Пусть - плотность распределения , - плотность распределения , а

соответствующие функции правдоподобия.

Предполагается, что распределения и либо оба дискретны, либо оба абсолютно непрерывны.

Замечание 17.

Если одно из распределений дискретно, а другое абсолютно непрерывно, то всегда существует критерий с нулевыми вероятностями ошибок. Смешанные распределения мы рассматривать не будем. Математики вместо этого могут предполагать, что оба распределения абсолютно непрерывны относительно одной и той же -конечной меры и имеют относительно нее плотности и .

Мы будем выбирать гипотезу в зависимости от отношения функций правдоподобия. Напомним, что функция правдоподобия есть плотность распределения выборки.

Обратимся к примеру 30. Естественным кажется принимать вторую гипотезу, если лежит правее точки пересечения плотностей . То есть там, где вторая плотность больше, принимать вторую гипотезу, там, где первая - первую.

Такой критерий сравнивает отношение с единицей, относя к критической области ту часть , где это отношение больше единицы. Заметим, что при этом мы получим ровно один, не обязательно оптимальный, критерий с некоторым фиксированным размером и мощностью.

Если же нужно получить критерий c заранее заданным размером , либо иметь возможность варьировать и размер, и мощность критерия, то следует рассмотреть класс похожих критериев, введя свободный параметр:

там, где вторая плотность в раз превосходит первую, выбирать вторую гипотезу, иначе - первую,

т.е. сравнивать отношение плотностей не с единицей, а с некоторой постоянной .

Назовем отношением правдоподобия частное

(18)

рассматривая его лишь при таких значениях , когда хотя бы одна из плотностей отлична от нуля. Имеется в виду, что , .

Конструкция критерия, который мы живописали выше, сильно усложнится в случае, когда распределение случайной величины не является непрерывным, т.е. существует такое число , что вероятность отлична от нуля. Это означает, что на некотором "большом" множестве значений выборки обе гипотезы "равноправны": отношение правдоподобия постоянно. Относя это множество целиком к критическому множеству или целиком исключая из него, мы меняем вероятность ошибки первого рода (размер) критерия на положительную величину :

И если вдруг мы захотим приравнять вероятность ошибки первого рода к заранее выбранному числу , может случиться так, что критерий с критическим множеством имеет размер больший, чем , а критерий с критическим множеством - размер меньший, чем .

Поэтому для математиков, не читающих [1] , мы сформулируем замечательно мощное утверждение мелким шрифтом, зато в общем случае. Затем для почти математиков сформулируем и докажем частный, но наиболее частый случай, когда отношение правдоподобия имеет при верной первой гипотезе непрерывную функцию распределения, т.е. для любого .

Критерии согласия

Критериями согласия называют критерии, предназначенные для проверки простой гипотезы при сложной альтернативе . Мы рассмотрим более широкий класс основных гипотез, включающий и сложные гипотезы, а критериями согласия будем называть любые критерии, устроенные по одному и тому же принципу. А именно, пусть задана некоторая функция отклонения эмпирического распределения от теоретического, распределение которой существенно разнится в зависимости от того, верна или нет основная гипотеза. Критерии согласия принимают или отвергают основную гипотезу исходя из величины этой функции отклонения.

Итак, имеется выборка из распределения . Мы сформулируем ряд понятий для случая простой основной гипотезы, а в дальнейшем будем их корректировать по мере изменения задачи. Проверяется простая основная гипотеза при сложной альтернативе .

K1.

Пусть возможно задать функцию , обладающую свойствами:

а)

если гипотеза верна, то , где - непрерывное распределение;

б)

если гипотеза неверна, то при .

K2.

Пусть такая функция задана. Для случайной величины из распределения определим постоянную из равенства .

Построим критерий:

(22)

Мы построили критерий согласия. Он "работает" по принципу: если для данной выборки функция отклонения велика (по абсолютному значению), то это свидетельствует в пользу альтернативы, и наоборот. Убедимся в том, что этот критерий имеет (асимптотический) размер и является состоятельным.

Определение 29.

Говорят, что критерий для проверки простой гипотезы является критерием асимптотического размера , если его размер приближается к с ростом :

при .

Поскольку альтернатива всегда является сложной, то, как мы уже отмечали в замечании 16, вероятность ошибки второго рода любого критерия есть функция от конкретного распределения из списка возможных альтернатив . Или, при ином виде основной гипотезы, из числа распределений, отвечающих альтернативе .

Определение 30.

Критерий для проверки гипотезы против сложной альтернативы называется состоятельным, если для любого распределения , отвечающего альтернативе , вероятность ошибки второго рода стремится к нулю с ростом объема выборки:

при .

Свойство 10.

Для критерия , заданного в (22), при :

1. ;

2. для любого распределения , отвечающего .

Иначе говоря, построенный критерий имеет асимптотический размер и состоятелен.

Критерий Колмогорова

Имеется выборка из распределения . Проверяется простая гипотеза против сложной альтернативы . В том случае, когда распределение имеет непрерывную функцию распределения , можно пользоваться критерием Колмогорова. Пусть

Покажем, что удовлетворяет условиям K1 (a, б) .

а) Если верна, то имеют распределение . По теореме Колмогорова , где имеет распределение с функцией распределения Колмогорова.

б) Если гипотеза неверна, то имеют какое-то распределение , отличное от . По теореме Гливенко - Кантелли для любого при . Поскольку , найдется такое, что. Но

Умножая на , получим при , что

Пусть случайная величина имеет распределение с функцией распределения Колмогорова

Это распределение табулировано, так что по заданному легко найти такое, что .

Критерий Колмогорова выглядит так:

Критерии, основанные на доверительных интервалах

Имеется выборка из семейства распределений . Проверяется простая гипотеза против сложной альтернативы .

Пусть имеется точный (асимптотически точный) доверительный интервал для параметра уровня доверия . Взяв произвольное , для выборки из распределения имеем

Тогда критерий

имеет точный (асимптотический) размер . Действительно,

Если доверительный интервал строится с помощью "функции отклонения" , то эта же функция годится и в качестве "функции отклонения" для построения критерия согласия.

Пример 33.

Посмотрим на критерий (28) . Основная гипотеза принимается, только если , что равносильно неравенству

Сравните то, что получилось, с точным доверительным интервалом (13) для параметра нормального распределения с известной дисперсией.

Тема № 8. Оценивание статистической зависимости

Оценка ковариации и коэффициента корреляции. Доверительный интервал для коэффициента корреляции. Регрессионная модель и уравнение регрессии. Оценки метода максимального правдоподобия и метода наименьших квадратов (МНК) параметров уравнения регрессии. Множественная линейная регрессия, оценка параметров уравнения по МНК. Числовые характеристики оценок параметров уравнения множественной линейной регрессии. Оценка дисперсии предсказания для модели множественной линейной регрессии. Доверительные интервалы для параметров линейной модели в случае нормального распределения остатков. Значимость регрессионной модели, коэффициент детерминации, критерий Фишера-Снедекора. Значимость коэффициентов регрессионной модели, критерий Стьюдента. Доверительный интервал для значений, определяемых уравнением уравнения регрессии.

Ковариация и коэффициент корреляции

При формировании портфеля степень взаимосвязи между доходностями двух ценных бумаг можно определить с помощью таких показателей как ковариация и коэффициент корреляции.

Ковариация говорит о степени зависимости двух случайных величин. Она может принимать положительные, отрицательные значения и равняться нулю. Если ковариация положительна, это говорит о том, что при изменении значения одной переменной другая имеет тенденцию изменяться в том же направлении. Так, при положительной ковариации доходностей двух бумаг с ростом доходности первой бумаги доходность второй также будет расти. При падении доходности первой бумаги доходность второй также будет снижаться.

При отрицательной ковариации переменные имеют тенденцию изменяться в противоположных направлениях. В таком случае рост доходности первой бумаги будет сопровождаться падением доходности второй бумаги, и наоборот. Чем больше значение ковариации, тем сильнее зависимость между переменными. Если ковариация равна нулю, никакой зависимости между переменными не наблюдается.


Подобные документы

  • Цель и задачи статистического анализа. Методы получения оценок: максимального правдоподобия, моментов. Доверительный интервал. Точечная оценка параметров распределения. Генеральная и выборочная дисперсии. Интервальное оценивание математического ожидания.

    презентация [395,9 K], добавлен 19.07.2015

  • Таблица значений выборки дискретных случайных величин в упорядоченном виде. Таблица интервального статистического ряда относительных частот. Задание эмпирической функции распределений и построение ее графика. Полигон и распределение случайной величины.

    практическая работа [109,3 K], добавлен 26.07.2012

  • Оценки неизвестных параметров закона распределения случайной величины Х по данным выборки. Интервальное оценивание. Случайный интервал. Граничные точки доверительного интервала. Нижний и верхний доверительные пределы.

    реферат [30,0 K], добавлен 31.03.2003

  • Исторические аспекты развития статистики, ее предмет. Понятие статистической методологии. Организация государственной и международной статистики. Программа и формы статистического наблюдения. Формы вариационного ряда. Средняя арифметическая и ее свойства.

    шпаргалка [37,9 K], добавлен 12.12.2010

  • Порядок и принципы построения вариационного ряда. Расчет числовых характеристик статистического ряда. Построение полигона и гистограммы относительных частот, функции распределения. Вычисление асимметрии и эксцесса. Построение доверительных интервалов.

    контрольная работа [108,5 K], добавлен 03.10.2010

  • Получение статистических данных для обобщенной характеристики состояния и развития явления. Виды, способы и организационные формы статистического наблюдения. Статистический формуляр, сводка и группировка данных. Статистические таблицы и графики.

    реферат [33,3 K], добавлен 12.11.2009

  • Динамический ряд: понятие, виды. Показатели ряда динамики: абсолютный прирост, темп роста. Способы обработки динамического ряда. Укрупнение интервалов, скользящая средняя. Аналитическое выравнивание ряда динамики. Сущность понятия "экстраполяция".

    контрольная работа [1,3 M], добавлен 31.10.2013

  • Табличный метод представления данных правовой статистики. Абсолютные и обобщающие показатели. Относительные величины, их основные виды и применение. Среднее геометрическое, мода и медиана. Метод выборочного наблюдения. Классификация рядов динамики.

    контрольная работа [756,5 K], добавлен 29.03.2013

  • Понятие, происхождение и предмет статистики с точки зрения современной науки и практики; стадии и методы статистического исследования, математическая составляющая. Метод главных компонент, его применение. Закон больших чисел, парадокс сэра Гиффена.

    курсовая работа [955,2 K], добавлен 17.05.2012

  • Формулировка теоремы Бернулли, проверка ее с помощью программы. Моделирование случайной величины методом кусочной аппроксимации. График распределения Коши, построение гистограммы и нахождения числовых характеристик, составление статистического ряда.

    курсовая работа [226,8 K], добавлен 31.05.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.