Теория вероятностей и математическая статистика

Вероятность и ее общее определение. Теоремы сложения и умножения вероятностей. Дискретные случайные величины и их числовые характеристики. Закон больших чисел. Статистическое распределение выборки. Элементы корреляционного и регрессионного анализа.

Рубрика Математика
Вид курс лекций
Язык русский
Дата добавления 13.06.2015
Размер файла 759,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Будем рассматривать выборочную среднюю как случайную величину ( изменяется от выборки к выборке) и выборочные значения признака , , ... , -- как одинаково распределенные случайные величины , , ... , (эти числа также изменяются от выборки к выборке). Математическое ожидание каждой из этих величин равно и среднее квадратическое отклонение -- .

Тогда, используя свойство 6.2, следствие 6.2, а также формулу (12.6), получаем, что параметры распределения следующие:

, . (13.4)

Потребуем, чтобы выполнялось соотношение

, (13.5)

где -- заданная надежность.

Используя формулу (8.11) с заменой на и на , нетрудно получить соотношение

, (13.6)

где .

Найдя из последнего равенства , можно написать

. (13.7)

Обозначая для общности выборочную среднюю вновь через , из соотношений (13.5) - (13.7) получаем соотношения

(13.8)

И

. (13.9)

Значит, с надежностью можно утверждать, что доверительный интервал покрывает неизвестный параметр , при этом точность оценки равна , а число определяется из равенства (13.8) по таблице функции Лапласа.

Пример 1. Случайная величина Х имеет нормальное распределение с известным средним квадратическим отклонением . Найти доверительный интервал для оценки неизвестного математического ожидания по выборочной средней , если объем выборки и задана надежность оценки .

Решение. Найдем . Из соотношения (13.8) получаем и по таблице функции Лапласа находим .

Найдем точность оценки:

.

Доверительный интервал таков: . Например, если , то доверительный интервал имеет следующие доверительные границы:

; .

Далее нам потребуются распределения "хи квадрат" и Стьюдента.

Пусть () -- нормальные независимые случайные величины, причем математическое ожидание каждой из них равно нулю, а среднее квадратическое отклонение -- единице. Тогда сумма квадратов этих величин распределена по закону ("хи квадрат") с степенями свободы.

Функция плотности этого распределения имеет вид

, (13.10)

где -- гамма-функция.

Отсюда видно, что распределение "хи квадрат" определяется одним параметром -- числом степеней свободы .

Далее, пусть -- нормальная случайная величина, причем , , а -- независимая от случайная величина, которая распределена по закону с степенями свободы. Тогда случайная величина

(13.11)

имеет распределение, которое называется -распределением или распределением Стьюдента с степенями свободы.

Пусть теперь требуется оценить неизвестное математическое ожидание количественного признака Х генеральной совокупности, который распределен нормально, по выборочной средней , когда среднее квадратическое отклонение этого распределения н е и з в е с т н о. Поставим своей задачей найти доверительные интервалы, покрывающие параметр с надежностью .

Рассмотрим случайную величину

, (13.12)

которая имеет распределение Стьюдента с степенями свободы. Здесь -- выборочная средняя, -- "исправленное" среднее квадратическое отклонение, -- объем выборки.

Функция плотности распределения этой случайной величины равна

, (13.13)

где .

Отсюда видно, что распределение случайной величины (13.12) определяется параметром -- объемом выборки и не зависит от неизвестных параметров и .

Поскольку -- четная функция от , то вероятность осуществления неравенства

(13.14)

определяется на основании теоремы 7.1 из следующей формулы

. (13.15)

Заменив неравенство (13.14) равносильным ему двойным неравенством, получаем соотношение

. (13.16)

Итак, пользуясь распределением Стьюдента, мы нашли доверительный интервал , покрывающий неизвестный параметр с надежностью . Из специальной таблицы по заданным и можно найти .

Пример 2. Количественный признак Х генеральной совокупности распределен нормально. По выборке объема найдены выборочная средняя и "исправленное" среднее квадратическое отклонение . Оценить неизвестное математическое ожидание при помощи доверительного интервала с надежностью .

Решение. Найдем . Пользуясь таблицей, по и находим .

Найдем доверительные границы:

,

.

Итак, с надежностью 0,95 неизвестный параметр заключен в доверительном интервале .

Пусть количественный признак Х генеральной совокупности распределен нормально. Требуется оценить неизвестное генеральное среднее квадратическое отклонение по "исправленному" среднему квадратическому отклонению . Поставим перед собой задачу найти доверительные интервалы, покрывающие параметр с заданной надежностью .

Потребуем, чтобы выполнялось соотношение

(13.17)

или равносильное ему соотношение

, (13.18)

где -- заданная надежность.

Положив , из двойного неравенства

(13.19)

получаем неравенство

. (13.20)

Для нахождения доверительного интервала, покрывающего параметр , остается только найти . С этой целью рассмотрим случайную величину

, (13.21)

где -- объем выборки (эта случайная величина обозначена через ввиду того, что случайная величина распределена по закону с степенями свободы).

Функция плотности распределения случайной величины имеет следующий вид

. (13.22)

Это распределение не зависит от оцениваемого параметра , а зависит лишь от объема выборки .

Из неравенства (13.20) можно получить неравенство

. (13.23)

Умножив все члены этого неравенства на , получаем

Или

. (13.24)

Воспользовавшись теоремой 7.1, находим, что вероятность осуществления этого неравенства и, следовательно, равносильного ему неравенства (13.20), равна

. (13.25)

Из этого уравнения можно по заданным и найти . Однако на практике находится из специальной таблицы.

Вычислив по выборке и найдя по таблице , получим искомый доверительный интервал , покрывающий неизвестный параметр с заданной надежностью .

Пример 3. Количественный признак Х генеральной совокупности распределен нормально. По выборке объема найдено "исправленное" среднее квадратическое отклонение . Найти доверительный интервал, покрывающий генеральное среднее квадратическое отклонение с надежностью .

Решение. По специальной таблице по данным и найдем .

Найдем искомый доверительный интервал:

Или

.

Вопросы для повторения и контроля:

1. Какие способы оценки параметров и связанные с ними оценки вы знаете?

2. Что такое точность оценки и надежность (доверительная вероятность)?

3. Что называется доверительным интервалом?

4. Как находится доверительный интервал для оценки математического ожидания нормального распределения при известном среднем квадратическом отклонении?

5. Что вы знаете о распределениях "хи квадрат" и Стьюдента?

6. Как находится доверительный интервал для оценки математического ожидания нормального распределения при неизвестном среднем квадратическом отклонении?

7. Как находится доверительный интервал для оценки среднего квадратического отклонения нормального распределения?

Опорные слова:

Точечная оценка, интервальная оценка, точность оценки, надежность (доверительная вероятность), доверительный интервал, доверительный интервал для оценки математического ожидания нормального распределения при известном среднем квадратическом отклонении, распределение "хи квадрат", распределение Стьюдента, доверительный интервал для оценки математического ожидания нормального распределения при неизвестном среднем квадратическом отклонении, доверительный интервал для оценки среднего квадратического отклонения нормального распределения.

14. Элементы корреляционного и регрессионного анализа

Корреляционный анализ и регрессионный анализ являются смежными разделами математической статистики и предназначены для изучения по выборочным данным статистической зависимости случайных величин. Две случайные величины могут быть связаны либо функциональной зависимостью, либо статистической зависимостью, либо быть независимыми.

Если каждому возможному значению случайной величины соответствует одно возможное значение случайной величины , то называется функцией случайного аргумента :

,

а зависимость между случайными величинами и называется функциональной зависимостью.

Строгая функциональная зависимость реализуется редко, так как обе величины или одна из них подвержены еще действию случайных факторов, причем среди них могут быть и общие для обеих величин, т.е. такие факторы, которые воздействуют как на , так и на . В этом случае возникает статистическая зависимость. Статистической называется зависимость, при которой изменение одной из величин влечет изменение распределения другой. Частным случаем статистической зависимости является корреляционная зависимость.

Если статистическая зависимость проявляется в том, что при изменении одной из рассматриваемых случайных величин изменяется среднее значение другой случайной величины, то такая статистическая зависимость называется корреляционной.

Приведем пример случайной величины , которая не связана с величиной функционально, а связана корреляционно. Пусть -- урожай зерна, -- количество удобрений. С одинаковых по площади участков земли при равных количествах внесенных удобрений снимают различный урожай, т.е. не является функцией от . Это объясняется влиянием случайных факторов, таких, как осадки, температура воздуха и др. С другой стороны, средний урожай является функцией от количества удобрений, т.е. связан с корреляционной зависимостью.

Условным средним называется среднее арифметическое наблюдавшихся значений , соответствующих . Например, если при величина приняла значения , , , то условное среднее равно

.

Условным средним называется среднее арифметическое наблюдавшихся значений , соответствующих .

Как видно из определения, условное среднее является функцией от ; обозначив эту функцию через , получим уравнение

. (14.1)

Это уравнение называется выборочным уравнением регрессии на ; функция называется выборочной регрессией на , а ее график -- выборочной линией регрессии на .

Аналогично уравнение

(14.2)

называется выборочным уравнением регрессии на ; функция называется выборочной регрессией на , а ее график -- выборочной линией регрессии на .

В связи с вышеизложенным возникают две задачи теории корреляции. Первая -- нахождение по данным наблюдений параметров функций и при условии, что известен их вид. Вторая -- оценка силы (тесноты) связи между случайными величинами и и установление наличия корреляционной зависимости между этими величинами.

Пусть изучается система количественных признаков . В результате независимых опытов получены пар чисел , , ... , .

Найдем по данным наблюдений выборочное уравнение прямой линии регрессии. Для определенности будем искать уравнение

(14.3)

регрессии на .

Поскольку различные значения признака и соответствующие им значения признака наблюдались по одному разу, то группировать данные нет необходимости. Также нет надобности использовать понятие условной средней, поэтому уравнение (14.3) можно записать следующим образом:

. (14.4)

Угловой коэффициент прямой линии регрессии на называется выборочным коэффициентом регрессии на и обозначается через . Следовательно, искомое выборочное уравнение (14.4) прямой линии регрессии на следует искать в виде

. (14.5)

Нужно найти такие параметры и , при которых точки , , ... , , построенные по данным наблюдений, на плоскости лежали как можно ближе к прямой (14.5).

Для осуществления этого воспользуемся методом наименьших квадратов. При использовании этого метода сумма квадратов отклонений (), где -- вычисленная по уравнению (14.5) ордината, соответствующая наблюдаемому значению , а -- наблюдаемая ордината, соответствующая , должна быть минимальной. Так как каждое отклонение зависит от отыскиваемых параметров, то и сумма квадратов отклонений есть функция этих параметров:

(14.6)

или

. (14.7)

Для отыскания минимума приравняем нулю соответствующие частные производные:

. (14.8)

Решив эту систему двух линейных уравнений относительно и , найдем искомые параметры:

; (14.9)

. (14.10)

Аналогично можно найти выборочное уравнение прямой линии регрессии на :

, (14.11)

где -- выборочный коэффициент регрессии на .

Пример 1. Найти выборочное уравнение прямой линии регрессии на по данным наблюдений:

Таблица 14.1

1,00

1,50

3,00

4,50

5,00

1,25

1,40

1,50

1,75

2,25

Решение. Составим следующую расчетную табл. 14.2.

Найдем искомые параметры из соотношений (14.9) и (14.10):

;

.

Напишем искомое уравнение прямой линии регрессии на :

.

Таблица 14.2

1,00

1,25

1,00

1,250

1,50

1,40

2,25

2,100

3,00

1,50

9,00

4,500

4,50

1,75

20,25

7,875

5,00

2,25

25,00

11,250

=15

=8,15

=57,50

=26,975

При большом числе наблюдений одно и тоже значение может встретится раз, одно и тоже значение -- раз, одна и та же пара чисел может наблюдаться раз. Поэтому данные наблюдений следует группировать, для этого подсчитываются частоты , , . Все сгруппированные данные записываются в виде таблицы (например, табл. 14.3), которая называется корреляционной.

Таблица 14.3

10

20

30

40

0,4

5

--

7

14

26

0,6

--

2

6

4

12

0,8

3

19

--

--

22

8

21

13

18

В первой строке корреляционной таблицы 14.3 указаны наблюдаемые значения (10; 20; 30; 40) признака , а в первом столбце -- наблюдаемые значения (0,4; 0,6; 0,8) признака . На пересечении строк и столбцов находятся частоты наблюдаемых пар значений признаков.

В последнем столбце записаны суммы частот строк, а в последней строке -- суммы частот столбцов. В клетке, расположенной в нижнем правом углу таблицы, помещена сумма всех частот, т.е. общее число всех наблюдений . Очевидно, что

.

Теперь определим параметры выборочного уравнения прямой линии регрессии на в случае, когда получено большое число данных (практически для удовлетворительной оценки искомых параметров должно быть хотя бы 50 наблюдений), среди них есть повторяющиеся, и они сгруппированы в виде корреляционной таблицы.

Из системы (14.8) можно получить следующую систему:

. (14.12)

Для простоты приняв обозначения , , , и воспользовавшись соотношениями , , , (в предположении, что пара чисел наблюдалась раз), из (14.12) получаем

. (14.13)

Второе уравнение системы (14.13) преобразуем к виду и подставив правую часть этого равенства в уравнение , получим следующее соотношение

. (14.14)

Учитывая соотношения (12.15) и (12.19), найдем из системы (14.13) выборочный коэффициент регрессии :

.

Умножим обе части этого равенства на дробь :

. (14.15)

Обозначим правую часть равенства (14.15) через :

. (14.16)

Тогда из (14.15) получаем

. (14.17)

Подставив правую часть этого равенства в (14.14), окончательно получим выборочное уравнение прямой линии регрессии на вида

. (14.18)

Аналогично можно найти выборочное уравнение прямой линии регрессии на :

. (14.19)

Вопросы для повторения и контроля:

1. Что изучают корреляционный и регрессионный анализ, как могут быть связаны случайные величины, что такое функция случайного аргумента и функциональная зависимость?

2. Что вы знаете о статистической зависимости и корреляционной зависимости?

3. Что такое условное среднее, выборочное уравнение регрессии, выборочная регрессия, выборочная линия регрессии, и какие две задачи теории корреляции вы знаете?

4. В каком виде ищется выборочное уравнение прямой линии регрессии по несгруппированным данным и что такое выборочный коэффициент регрессии?

5. В чем суть метода наименьших квадратов и как с его помощью находится выборочное уравнение прямой линии регрессии?

6. Что вы знаете о корреляционной таблице?

7. Как находятся параметры выборочного уравнения прямой линии регрессии по сгруппированным данным?

Опорные слова:

Корреляционный анализ, регрессионный анализ, функция случайного аргумента, функциональная зависимость, статистическая зависимость, корреляционная зависимость, условное среднее, выборочное уравнение регрессии, выборочная регрессия, выборочная линия регрессии, две задачи теории корреляции, выборочное уравнение прямой линии регрессии по несгруппированным данным, выборочный коэффициент регрессии, метод наименьших квадратов, корреляционная таблица, выборочное уравнение прямой линии регрессии по сгруппированным данным.

15. Выборочный коэффициент корреляции и его свойства

Корреляционным моментом случайных величин и называется математическое ожидание произведения отклонений этих величин:

. (15.1)

Отсюда легко можно получить соотношение

. (15.2)

Коэффициентом корреляции случайных величин и называется отношение корреляционного момента к произведению средних квадратических отклонений этих величин:

. (15.3)

Из соотношения (15.2) вытекает, что корреляционный момент и, следовательно, коэффициент корреляции независимых случайных величин равен нулю.

Две случайные величины и называются коррелированными, если их коэффициент корреляции отличен от нуля; и называются некоррелированными величинами, если их коэффициент корреляции равен нулю.

Из вышесказанного следует, что независимые случайные величины всегда являются некоррелированными, а две коррелированные случайные величины также и зависимы. Действительно, если предположить, что коррелированные случайные величины независимы, то для них должно выполняться соотношение , а это противоречит тому, что для коррелированных величин всегда выполняется .

С другой стороны, две зависимые случайные величины могут быть как коррелированными, так и некоррелированными; некоррелированные случайные величины могут быть как зависимыми, так и независимыми.

Если случайные величины и независимы, то коэффициент корреляции ; если , то случайные величины и связаны линейной функциональной зависимостью. Отсюда следует, что коэффициент корреляции измеряет силу (тесноту) линейной связи между и .

Величина , определяемая равенством

, (15.4)

называется выборочным коэффициентом корреляции. Здесь и -- варианты (наблюдавшиеся значения) признаков и ; -- частота пары вариант ; -- объем выборки (сумма всех частот); , -- выборочные средние квадратические отклонения; , -- выборочные средние.

Выборочный коэффициент корреляции является оценкой коэффициента корреляции генеральной совокупности. Поэтому его можно использовать и для измерения линейной связи между величинами -- количественными признаками и .

Пример 1. Найти выборочное уравнение прямой линии регрессии на по данным следующей корреляционной таблицы:

Таблица 15.1

10

20

30

40

50

60

15

5

7

--

--

--

--

12

25

--

20

23

--

--

--

43

35

--

--

30

47

2

--

79

45

--

--

10

11

20

6

47

55

--

--

--

9

7

3

19

5

27

63

67

29

9

Решение. Сначала вычислим выборочный коэффициент корреляции по формуле (15.4):

;

;

;

;

;

;

;

.

Теперь подставим найденные значения в формулу (14.18) и получим выборочное уравнение прямой линии регрессии на :

или окончательно

.

Если выборка имеет достаточно большой объем и хорошо представляет генеральную совокупность (репрезентативна), то заключение о тесноте линейной зависимости между признаками, полученное по данным выборки, в известной степени может быть распространено и на генеральную совокупность. Например, для оценки коэффициента корреляции нормально распределенной генеральной совокупности (при ) можно воспользоваться формулой

.

Итак, для оценки тесноты линейной корреляционной связи между признаками в выборке служит выборочный коэффициент корреляции. Для оценки тесноты нелинейной корреляционной связи вводится понятие выборочного корреляционного отношения.

Выборочным корреляционным отношением к называется следующее отношение

. (15.5)

Здесь

;

,

де -- объем выборки (сумма всех частот); -- частота значения признака ; -- частота значения признака ; -- общая средняя признака ; -- условная средняя признака .

Аналогично определяется выборочное корреляционное отношение к :

. (15.6)

Пример 2. Найти по данным следующей корреляционной таблицы:

Таблица 15.2

10

20

30

15

4

28

6

38

25

6

--

6

12

10

28

12

21

15

20

Решение. Сначала найдем , и :

;

;

.

Теперь подставим все эти значения в формулу (15.5) и найдем :

.

Перечислим свойства выборочного корреляционного отношения.

Свойство 15.1. Выборочное корреляционное отношение удовлетворяет двойному неравенству

.

Свойство 15.2. Если , то признак с признаком корреляционной зависимостью не связан.

Свойство 15.3. Если , то признак связан с признаком функциональной зависимостью.

Свойство 15.4. Выборочное корреляционное отношение не меньше абсолютной величины выборочного коэффициента корреляции: .

Свойство 15.5. Если выборочное корреляционное отношение равно абсолютной величине выборочного коэффициента корреляции, то имеет место точная линейная корреляционная зависимость.

Вопросы для повторения и контроля:

1. Что называется корреляционным моментом и что называется коэффициентом корреляции?

2. Что такое коррелированные и некоррелированные случайные величины, и какова связь между понятиями зависимости и коррелированности случайных величин?

3. Что вы знаете о выборочном коэффициенте корреляции?

4. Что такое выборочное корреляционное отношение и для чего оно служит?

5. Какие свойства выборочного корреляционного отношения вы знаете?

Опорные слова:

Корреляционный момент, коэффициент корреляции, коррелированные случайные величины, некоррелированные случайные величины, выборочный коэффициент корреляции, выборочное корреляционное отношение.

16. Статистические гипотезы и их классификация. Статистический критерий

Пусть требуется определить закон распределения генеральной совокупности и назовем его А. Если закон распределения неизвестен, но имеются основания предположить, что он имеет определенный вид, выдвигают гипотезу: генеральная совокупность распределена по закону А. Таким образом, в этой гипотезе речь идет о виде предполагаемого распределения.

Возможен случай, когда закон распределения известен, а его параметры неизвестны. Если есть основания предположить, что неизвестный параметр равен определенному значению , то выдвигают гипотезу: . Таким образом, в этой гипотезе речь идет о предполагаемой величине параметра одного известного распределения.

Статистической называется гипотеза о виде неизвестного распределения или гипотеза о параметрах известных распределений. Например, статистическими являются гипотезы:

1) генеральная совокупность распределена по закону Пуассона;

2) дисперсии двух нормальных совокупностей равны между собой.

В первой гипотезе сделано предположение о виде неизвестного распределения, во второй -- о параметрах двух известных распределений.

Нулевой (основной) называется выдвинутая гипотеза .

Конкурирующей (альтернативной) называется гипотеза , которая противоречит нулевой.

Например, если нулевая гипотеза состоит в предположении, что математическое ожидание нормального распределения равно 10, то конкурирующая гипотеза может состоять в предположении, что ; т.е. :; :.

Простой называется гипотеза, содержащая только одно предположение. Например, гипотеза : математическое ожидание нормального распределения равно 3 ( известно) -- простая.

Сложной называется гипотеза, которая состоит из конечного или бесконечного числа простых гипотез. Например, сложная гипотеза : состоит из бесчисленного множества простых гипотез вида :, где -- любое число, большее 5.

Выдвинутая гипотеза может быть правильной или неправильной, поэтому возникает необходимость статистической (производимой статистическими методами) проверки этой гипотезы. В итоге статистической проверки гипотезы могут быть допущены ошибки.

Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза. Ошибка второго рода состоит в том, что будет принята неправильная гипотеза.

Для проверки нулевой гипотезы используется специально подобранная случайная величина, точное или приближенное распределение которой известно. Эта случайная величина обозначается через и называется статистическим критерием (или просто критерием).

Приведем пример статистического критерия. Если проверяется гипотеза о равенстве дисперсий двух нормальных генеральных совокупностей, то в качестве критерия принимается отношение исправленных выборочных дисперсий:

.

Наблюдаемым значением называется значение критерия, вычисленное по выборкам. Например, если по двум выборкам найдены исправленные выборочные дисперсии и , то наблюдаемое значение критерия равно

.

После выбора определенного критерия множество всех его возможных значений разбивается на два непересекающихся подмножества: одно из них содержит значения критерия, при которых нулевая гипотеза отвергается, а другая -- при которых она принимается.

Критической областью называется совокупность значений критерия, при которых нулевая гипотеза отвергается.

Областью принятия гипотезы (областью допустимых значений) называется совокупность значений критерия, при которых нулевая гипотеза принимается.

Поскольку критерий -- одномерная случайная величина, все ее возможные значения принадлежат некоторому интервалу. Поэтому критическая область и область принятия гипотезы также являются интервалами и, следовательно, существуют точки, которые их разделяют.

Критическими точками (границами) называются точки, отделяющие критическую область от области принятия гипотезы.

Правосторонней называется критическая область, определяемая неравенством , где -- положительное число (рис. 16.1).

Рис. 16.1.

Левосторонней называется критическая область, определяемая неравенством , где -- отрицательное число (рис. 16.2).

Рис. 16.2.

Односторонней называется правосторонняя или левосторонняя критическая область.

Двусторонней называется критическая область, определяемая неравенствами , , где .

В частности, если критические точки симметричны относительно нуля, двусторонняя критическая область определяется неравенствами (в предположении, что ) , , или равносильным неравенством (рис. 16.3).

Рис. 16.3.

Для нахождения критической области достаточно найти критическую точку (точки). Для нахождения же такой точки задается достаточно малая вероятность -- уровень значимости . Затем критическая точка ищется исходя из требования, чтобы при условии справедливости нулевой гипотезы вероятность того, что критерий примет значения из критической области, была равна принятому уровню значимости.

Например, для правосторонней критической области должно выполняться соотношение

, (16.1)

для левосторонней --

, (16.2)

а для двусторонней --

. (16.3)

Для каждого критерия имеются соответствующие таблицы, по которым и находится критическая точка, удовлетворяющая требованиям вида (16.1) - (16.3).

Если распределение критерия симметрично относительно нуля и имеются основания выбрать симметричные относительно нуля точки и (), то . Учитывая это соотношение, из (16.3) для двусторонней критической области получим соотношение

. (16.4)

Мощностью критерия называется вероятность попадания критерия в критическую область при условии, что справедлива конкурирующая гипотеза. Другими словами, мощность критерия есть вероятность того, что нулевая гипотеза будет отвергнута, если верна конкурирующая гипотеза.

Пусть для проверки гипотезы принят определенный уровень значимости, и выборка имеет фиксированный объем. Если -- вероятность ошибки второго рода, т.е. события "принята нулевая гипотеза, причем справедлива конкурирующая", то мощность критерия равна .

Пусть мощность возрастает; следовательно, уменьшается вероятность совершить ошибку второго рода. Таким образом, чем мощность больше, тем меньше вероятность ошибки второго рода.

Итак, если уровень значимости уже выбран, то критическую область следует строить так, чтобы мощность критерия была максимальной. Это позволит минимизировать ошибку второго рода.

Далее нам потребуется распределение Фишера - Снедекора.

Если и -- независимые случайные величины, распределенные по закону со степенями свободы и , то величина

(16.5)

имеет распределение, которое называется распределением Фишера - Снедекора со степенями свободы и .

Функция плотности этого распределения имеет вид

,

Где .

Распределение определяется двумя параметрами -- числами степеней свободы и .

Пусть генеральные совокупности и распределены нормально. По независимым выборкам с объемами, соответственно равными и , извлеченным из этих совокупностей, найдены исправленные выборочные дисперсии и . Требуется по исправленным дисперсиям при заданном уровне значимости проверить нулевую гипотезу, состоящую в том, что генеральные дисперсии рассматриваемых совокупностей равны между собой:

:. (16.6)

Учитывая, что исправленные дисперсии являются несмещенными оценками генеральных дисперсий, т.е.

, ,

нулевую гипотезу можно записать так:

:. (16.7)

На практике задача сравнения дисперсий возникает, если требуется сравнить точность приборов, инструментов, самих методов измерений и т.д. Очевидно, предпочтительнее тот прибор, инструмент и метод, который обеспечивает наименьшее рассеяние результатов измерений, т.е. наименьшую дисперсию.

В качестве критерия проверки нулевой гипотезы о равенстве генеральных дисперсий принимается отношение большей исправленной дисперсии к меньшей, т.е. случайная величина

. (16.8)

Величина при условии справедливости нулевой гипотезы имеет распределение Фишера - Снедекора со степенями свободы и , где -- объем выборки, по которой вычислена большая исправленная дисперсия, -- объем выборки, по которой найдена меньшая исправленная дисперсия.

Критическая область строится в зависимости от вида конкурирующей гипотезы.

Первый случай. Нулевая гипотеза :. Конкурирующая гипотеза :.

В этом случае строится правосторонняя критическая область, исходя из требования, чтобы вероятность попадания критерия в эту область в предположении справедливости нулевой гипотезы была равна принятому уровню значимости:

. (16.9)

Критическая точка находится по таблице критических точек распределения Фишера - Снедекора.

Правило 1. Для того чтобы при заданном уровне значимости проверить нулевую гипотезу : о равенстве генеральных дисперсий нормальных совокупностей при конкурирующей гипотезе :, надо вычислить отношение большей исправленной дисперсии к меньшей, т.е.

, (16.10)

и по таблице критических точек распределения Фишера - Снедекора, по заданному уровню значимости и числам степеней свободы и ( -- число степеней свободы большей исправленной дисперсии) найти критическую точку .

Если -- нет оснований отвергнуть нулевую гипотезу. Если -- нулевая гипотеза отвергается.

Пример 1. По двум независимым выборкам объемов и , извлеченным из нормальных генеральных совокупностей и , найдены исправленные выборочные дисперсии и . При уровне значимости 0,05 проверить нулевую гипотезу : о равенстве генеральных дисперсий при конкурирующей гипотезе :

Решение. Найдем отношение большей исправленной дисперсии к меньшей:

.

Конкурирующая гипотеза имеет вид , поэтому критическая область -- правосторонняя.

По таблице критических точек распределения Фишера - Снедекора, по уровню значимости и числам степеней свободы и находим критическую точку .

Так как , то нет оснований отвергнуть нулевую гипотезу о равенстве генеральных дисперсий.

Второй случай. Нулевая гипотеза :. Конкурирующая гипотеза :.

В этом случае строится двусторонняя критическая область, исходя из требования, чтобы вероятность попадания критерия в эту область в предположении справедливости нулевой гипотезы была равна принятому уровню значимости .

Наибольшая мощность критерия (вероятность попадания критерия в критическую область при справедливости конкурирующей гипотезы) достигается тогда, когда вероятность попадания критерия в каждый из двух интервалов критической области равна .

Если обозначить через левую границу критической области и через -- правую, то должны иметь место соотношения:

, . (16.11)

Для обеспечения попадания критерия в двустороннюю критическую область с вероятностью, равной принятому уровню значимости , в случае конкурирующей гипотезы : достаточно найти критическую точку

.

Правило 2. Для того чтобы при заданном уровне значимости проверить нулевую гипотезу : о равенстве генеральных дисперсий нормальных совокупностей при конкурирующей гипотезе :, надо вычислить отношение большей исправленной дисперсии к меньшей, т.е. (16.10) и по таблице критических точек распределения Фишера - Снедекора, по заданному уровню значимости (вдвое меньшем заданного) и числам степеней свободы и ( -- число степеней свободы большей исправленной дисперсии) найти критическую точку .

Если -- нет оснований отвергнуть нулевую гипотезу. Если -- нулевая гипотеза отвергается.

Пример 2. По двум независимым выборкам объемов и , извлеченным из нормальных генеральных совокупностей и , найдены исправленные выборочные дисперсии и . При уровне значимости 0,1 проверить нулевую гипотезу : о равенстве генеральных дисперсий при конкурирующей гипотезе :

Решение. Найдем отношение большей исправленной дисперсии к меньшей:

.

Конкурирующая гипотеза имеет вид , поэтому критическая область -- двусторонняя.

По таблице критических точек распределения Фишера - Снедекора, по уровню значимости, вдвое меньшем заданного, т.е. при и числам степеней свободы и находим критическую точку

.

Так как , нулевая гипотеза о равенстве генеральных дисперсий отвергается.

Пусть генеральные совокупности и распределены нормально, причем их дисперсии известны. По независимым выборкам с объемами, соответственно равными и , извлеченным из этих совокупностей, найдены выборочные средние и . Требуется по выборочным средним при заданном уровне значимости проверить нулевую гипотезу, состоящую в том, что генеральные средние (математические ожидания) рассматриваемых совокупностей равны между собой:

:. (16.12)

Учитывая, что выборочные средние являются несмещенными оценками генеральных средних, т.е.

, ,

нулевую гипотезу можно записать так:

:. (16.13)

В качестве критерия проверки нулевой гипотезы о равенстве генеральных средних принимается нормированная нормальная случайная величина

. (16.14)

Критическая область строится в зависимости от вида конкурирующей гипотезы.

Первый случай. Нулевая гипотеза :. Конкурирующая гипотеза :.

В этом случае строится двусторонняя критическая область, исходя из требования, чтобы вероятность попадания критерия в эту область в предположении справедливости нулевой гипотезы была равна принятому уровню значимости .

Поскольку распределение симметрично относительно нуля, то критические точки симметричны относительно нуля, т.е. если обозначить через правую критическую точку, то будет левой критической точкой.

Наибольшая мощность критерия (вероятность попадания критерия в критическую область при справедливости конкурирующей гипотезы) достигается тогда, когда вероятность попадания критерия в каждый из двух интервалов критической области равна :

, . (16.15)

Для того, чтобы найти правую границу двусторонней критической области, достаточно найти значение аргумента функции Лапласа, которому соответствует значение функции, равное :

. (16.16)

Обозначим значение критерия, вычисленное по данным наблюдений, через .

Если -- нет оснований отвергнуть нулевую гипотезу.

Если -- нулевая гипотеза отвергается.

Второй случай. Нулевая гипотеза :. Конкурирующая гипотеза :.

В этом случае строится правосторонняя критическая область, исходя из требования, чтобы вероятность попадания критерия в эту область в предположении справедливости нулевой гипотезы была равна принятому уровню значимости:

. (16.17)

Для того, чтобы найти границу правосторонней критической области, достаточно найти значение аргумента функции Лапласа, которому соответствует значение функции, равное :

. (16.18)

Обозначим значение критерия, вычисленное по данным наблюдений, через .

Если -- нет оснований отвергнуть нулевую гипотезу.

Если -- нулевая гипотеза отвергается.

Вопросы для повторения и контроля:

1. Что вы понимаете под статистической гипотезой? Приведите примеры.

2. Что такое нулевая (основная), конкурирующая (альтернативная), простая, сложная гипотезы?

3. В чем состоят ошибки первого и второго рода, что называется статистическим критерием?

4. Что называется наблюдаемым значением критерия, критической областью, областью принятия гипотезы (областью допустимых значений)?

5. Что такое критические точки (границы), правосторонняя, левосторонняя, односторонняя, двусторонняя критическая области?

6. Что называется уровнем значимости и как находится критическая область?

7. Что такое мощность критерия и как она связана с ошибкой второго рода?

8. Что вы знаете о распределении Фишера - Снедекора?

9. Как сравниваются две дисперсии нормальных генеральных совокупностей в первом случае?

10. Как сравниваются две дисперсии нормальных генеральных совокупностей в втором случае?

11. Как сравниваются два средних нормальных генеральных совокупностей в первом случае?

12. Как сравниваются два средних нормальных генеральных совокупностей в втором случае?

Опорные слова:

Статистическая гипотеза, нулевая (основная) гипотеза, конкурирующая (альтернативная) гипотеза, простая гипотеза, сложная гипотеза, ошибка первого рода, ошибка второго рода, статистический критерий, наблюдаемое значение критерия, критическая область, область принятия гипотезы (область допустимых значений), критические точки (границы), правосторонняя критическая область, левосторонняя критическая область, односторонняя критическая область, двусторонняя критическая область, уровень значимости, мощность критерия, распределение Фишера - Снедекора, степени свободы.

17. Критерии согласия

Если закон распределения генеральной совокупности неизвестен, но есть основания предположить, что он имеет определенный вид (назовем его А), то проверяется нулевая гипотеза: генеральная совокупность распределена по закону А.

Проверка гипотезы о предполагаемом законе неизвестного распределения производится так же, как и проверка гипотезы о параметрах распределения, т.е. при помощи специально подобранной случайной величины -- критерия согласия.

Критерием согласия называется критерий проверки гипотезы о предполагаемом законе неизвестного распределения.

Одним из критериев согласия является критерий ("хи квадрат") К.Пирсона проверки гипотезы о нормальном распределении генеральной совокупности (этот критерий можно применять и для других распределений). Для применения этого критерия будем сравнивать эмпирические (наблюдаемые) и теоретические (вычисленные в предположении нормального распределения) частоты.

Обычно эмпирические и теоретические частоты различаются. Например:

эмп. частоты . . . . .

6

13

38

74

106

85

30

10

4

теорет. частоты . .

3

14

42

82

99

76

37

11

2

Расхождение эмпирических и теоретических частот может быть случайным (незначимым) и объясняется либо малым числом наблюдений, либо способом их группировки, либо другими причинами. С другой стороны, расхождение частот может быть неслучайным (значимым) и объясняется тем, что теоретические частоты вычислены исходя из неверной гипотезы о нормальном распределении генеральной совокупности.

Критерий Пирсона отвечает на вопрос: случайно ли расхождение эмпирических и теоретических частот? Правда, как и любой критерий, он не доказывает справедливость гипотезы, а лишь устанавливает на принятом уровне значимости ее согласие или несогласие с данными наблюдений.

Пусть по выборке объема получено эмпирическое распределение:

варианты . . . . . . . .

. . .

эмп. частоты . . . . .

. . .

Допустим, что в предположении нормального распределения генеральной совокупности вычислены теоретические частоты . При уровне значимости требуется проверить нулевую гипотезу: генеральная совокупность распределена нормально.

В качестве критерия проверки нулевой гипотезы принимается случайная величина

. (17.1)

Эта величина случайная, так как в различных опытах она принимает различные, заранее не известные значения. Ясно, что чем меньше различаются эмпирические и теоретические частоты, тем меньше величина критерия (17.1), и, следовательно, он в известной степени характеризует близость эмпирического и теоретического распределений.

При закон распределения случайной величины (17.1) независимо от того, какому закону распределения подчинена генеральная совокупность, стремится к закону распределения с степенями свободы.

Число степеней свободы находится по равенству , где -- число групп (частичных интервалов) выборки; -- число параметров предполагаемого распределения, которые оценены по данным выборки.

В частности, если предполагаемое распределение -- нормальное, то оцениваются два параметра (математическое ожидание и среднее квадратическое отклонение), поэтому и число степеней свободы

.

Если же предполагается, что генеральная совокупность распределена по закону Пуассона, то оценивается один параметр , поэтому и .

Построим правостороннюю критическую область, исходя из требования, чтобы вероятность попадания критерия в эту область в предположении справедливости нулевой гипотезы была равна принятому уровню значимости:

. (17.2)

Таким образом, правосторонняя критическая область определяется неравенством , а область принятия нулевой гипотезы -- неравенством .

Правило. Для того чтобы при заданном уровне значимости проверить нулевую гипотезу : генеральная совокупность распределена нормально, надо сначала вычислить теоретические частоты, а затем наблюдаемое значение критерия

(17.3)

и по таблице критических точек распределения , по заданному уровню значимости и числу степеней свободы найти критическую точку .

Если -- нет оснований отвергнуть нулевую гипотезу. Если -- нулевая гипотеза отвергается.

Сущность критерия согласия Пирсона состоит в сравнении эмпирических и теоретических частот. Ясно, что эмпирические частоты находятся из опыта. Как найти теоретические частоты, если предполагается, что генеральная совокупность распределена нормально? Эту задачу, например, можно решить следующим способом.

1. Весь интервал наблюдаемых значений (выборки объема ) делится на частичных интервалов одинаковой длины. Затем находятся середины частичных интервалов ; в качестве частоты варианты принимается число вариант, которые попали в i-й интервал. В итоге получается последовательность равноотстоящих вариант и соответствующих им частот:

. . .

. . .

При этом .

2. Вычисляются выборочная средняя и выборочное среднее квадратическое отклонение .

3. Нормируется случайная величина , т.е. переходят к величине и вычисляются концы интервалов :

, ,

причем наименьшее значение , т.е. , полагают равным , а наибольшее, т.е. , полагают равным .

4. Вычисляются теоретические вероятности попадания в интервалы по равенству ( -- функция Лапласа)

и, наконец, находятся искомые теоретические частоты .

Вопросы для повторения и контроля:

1. Что называется критерием согласия и как применяется критерий Пирсона?

2. По каким причинам различаются эмпирические и теоретические частоты?

3. Какая случайная величина принимается в качестве критерия проверки нулевой гипотезы о нормальном распределении генеральной совокупности и какие ее свойства вы знаете?

4. В чем суть правила проверки нулевой гипотезы о нормальном распределении генеральной совокупности?

5. Каким способом находятся теоретические частоты?

Опорные слова:

Критерий согласия, критерий Пирсона, эмпирическая частота, теоретическая частота, правило проверки нулевой гипотезы о нормальном распределении генеральной совокупности.

Список литературы

1. Адиров Т.Т., Мамуров Э.Н. Эћтимоллар назарияси ва математик статистикадан маърузалар матни. Т.: ТМИ, 2001 й.

2. Г.М. Булдык. Теория вероятностей и математическая статистика. М.: Наука, 1989 г.

3. Венецкий И.Г., Венецкая В.И. Основные математико-статистические понятия и формулы в экономическом анализе. М.: "Высшая школа", 1987 г.

4. Гмурман В.Е. Теория вероятностей и математическая статистика. Издание шестое. М.: "Высшая школа", 1998 г.

5. Гмурман В.Е. Эћтимоллар назарияси ва математик статистика. Русча тўлдирилган 4-нашридан тарж. Инж.-экон. институтлари студентлари учун ўќув ќўлланма. Т.: Ўќитувчи, 1977 й.

6. В.Е. Гмурман. Руководство к решению задач по теории вероятностей и математической статистике: учеб. пособие для втузов. 3-е изд., перераб. и доп. М.: "Высшая школа", 1979 г.

7. Гмурман В.Е. Эћтимоллар назарияси ва математик статистикадан масалалар ечишга доир ќўлланма. Русча тўлдирилган 2-нашридан таржима. Т.: Ўќитувчи, 1980 й.

8. Замков О.О., Толстопятенко А.В., Черемных Ю.Н. Математические методы в экономике. М.: Изд. ДИС, 1998 г.

9. Колемаев В.А., Калинина В.А. Теория вероятностей и математическая статистика. М.: Инфра-М, 1997 г.

10. Колемаев В.А., О.В.Староверов, В.Б.Турундаевский. Теория вероятностей и математическая статистика: учеб. пособие для экон. спец. вузов. М.: "Высшая школа", 1991 г.

11. Кремер Ш.А. Теория вероятностей и математическая статистика. М.: "Высшая школа", 2001 г.

12. Мамуров Э.Н., Адиров Т.Ћ Эћтимоллар назарияси ва математик статистикадан масалалар ечишга доир ќўлланма. Т.: ТМИ, 2000 й.

13. Соатов Ё.У. Олий математика курси. 2-ќисм. Т.: Ўќитувчи, 1994 й.

14. Справочник по математике для экономистов. / Под редакцией проф. Ермакова. М.: "Высшая школа", 1987 г.

Размещено на Allbest.ru


Подобные документы

  • Описание случайных ошибок методами теории вероятностей. Непрерывные случайные величины. Числовые характеристики случайных величин. Нормальный закон распределения. Понятие функции случайной величины. Центральная предельная теорема. Закон больших чисел.

    реферат [146,5 K], добавлен 19.08.2015

  • Пространство элементарных событий. Понятие совместных и несовместных событий и их вероятностей. Плотность распределения вероятностей системы двух случайных величин. Числовые характеристики системы. Закон генеральной совокупности и его параметры.

    контрольная работа [98,1 K], добавлен 15.06.2012

  • Статистическое, аксиоматическое и классическое определение вероятности. Дискретные случайные величины. Предельные теоремы Лапласа и Пуассона. Функция распределения вероятностей для многомерных случайных величин. Формула Байеса. Точечная оценка дисперсии.

    шпаргалка [328,7 K], добавлен 04.05.2015

  • Принципы решения задач по основным разделам теории вероятностей: случайные события и их допустимость, непроизвольные величины, распределения и числовые характеристики градировки, основные предельные теоремы для сумм независимых вероятностных величин.

    контрольная работа [129,1 K], добавлен 03.12.2010

  • Пространство элементарных событий. Совместные и несовместные события. Плотность распределения вероятностей системы двух случайных величин. Эмпирическая функция распределения. Числовые характеристики случайной функции. Условие независимости двух событий.

    контрольная работа [30,0 K], добавлен 15.06.2012

  • Типы событий и их общая характеристика: достоверные, невозможные и случайные. Вероятность как количественная характеристика степени возможности наступления события, теорема их сложения и умножения. Свойства случайных величин и их числовые характеристики.

    презентация [2,1 M], добавлен 20.09.2014

  • Вероятностная модель и аксиоматика А.Н. Колмогорова. Случайные величины и векторы, классическая предельная проблема теории вероятностей. Первичная обработка статистических данных. Точечные оценки числовых характеристик. Статистическая проверка гипотез.

    методичка [433,3 K], добавлен 02.03.2010

  • Теория вероятностей и математическая статистика являются науками о методах количественного анализа массовых случайных явлений. Множество значений случайной величины называется выборкой, а элементы множества – выборочными значениями случайной величины.

    реферат [77,8 K], добавлен 26.12.2008

  • Вероятность попадания случайной величины Х в заданный интервал. Построение графика функции распределения случайной величины. Определение вероятности того, что наудачу взятое изделие отвечает стандарту. Закон распределения дискретной случайной величины.

    контрольная работа [104,7 K], добавлен 24.01.2013

  • Классическое, статистическое и геометрическое определения вероятности. Дискретные случайные величины и законы их распределения. Числовые характеристики системы случайных величин. Законы равномерного и нормального распределения систем случайных величин.

    дипломная работа [797,0 K], добавлен 25.02.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.