Основные понятия статистики

Законы распределения случайных величин. Закон распределения Пуассона. Свойства плотности вероятности. Критериальные случайные величины. Свойство коэффициента корреляции. Закон больших чисел и его следствия. Предельные теоремы теории вероятностей.

Рубрика Экономика и экономическая теория
Вид курс лекций
Язык русский
Дата добавления 11.03.2011
Размер файла 774,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Пример. Рис. 1 иллюстрирует зависимость вида кривой распределения от асимметрии.

Рис. 1

Для симметричных распределений рассчитывается также эксцесс распределения - показатель островершинности распределения. Эксцесс рассчитывается по формуле

,

где - центральный момент четвертого порядка.

При расчете экцесса эталоном является нормальное распределение, для которого , и, следовательно . Для распределений, у которых , кривая более островершинная, чем нормальная кривая. Если , кривая будет более плосковершинной.

Пример. Рис. 2 иллюстрирует зависимость вида кривой распределения от эксцесса

Рис. 2

Контрольные вопросы

1. Что называется средней величиной?

2. Какие виды средних величин вы знаете?

3. Какие виды средней арифметической вам известны?

4. Как вычисляется средняя геометрическая величина?

5. Что представляет собой средняя гармоническая?

6. Чем характеризуется понятие «размах вариации»?

7. Что такое среднее линейное отклонение?

8. Что такое дисперсия и как она может быть вычислена?

9. Что называется средним квадратическим отклонением?

10. Что называется коэффициентом вариации?

11. Что такое мода?

12. Как определяется мода для дискретных и интервальных вариационных рядов?

13. Что такое медиана?

14. Как определяется медиана для дискретных и интервальных вариационных рядов?

4.Графическое представление вариационных рядов

В математической статистике широко используется геометрическая интерпретация результатов первичной статистической обработки экспериментальных данных. Графическое представление сгруппированного дискретного вариационного ряда в осях - признак и частота - называется полигоном частот. Графическое представление интервального вариационного ряда в виде прямоугольников, с основаниями, равными длине интервалов и с высотой, равной соответствующей относительной частоте, называется гистограммой.

Пример. Имеются данные наблюдения над числом посетителей сайта академии в течение 40 дней:

70, 75, 100, 120, 75, 60, 100, 120, 70, 60, 65, 100, 65, 100, 70, 75, 60, 100, 100, 120, 70, 75, 70, 120, 65, 70, 75, 70, 100, 100, 120, 120, 100, 75, 75, 70, 70, 100, 100, 75.

Число посетителей Х является дискретным признаком, полученные данные представляют собой выборку из n = 40 наблюдений.

Требуется составить вариационный ряд, найти относительные частоты, построить эмпирическую функцию плотности распределения и эмпирическую функцию распределения.

Сначала составим вариационный ряд:

60, 60, 60, 65, 65, 65 70, 70, 70, 70, 70, 70, 70, 75, 75, 75, 75, 75, 75, 75, 75, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100, 120, 120, 120, 120, 120, 120.

Сгруппированный вариационный ряд представим в виде таблиц

Номер группы

i

1

2

3

4

5

6

Число посетителей

хi

60

65

70

75

100

120

Частота

ni

3

3

9

8

11

6

Относительная частота

pi*

0.075

0.075

0.225

0.2

0.275

0.15

Графическое изображение результатов представлено на рис.1 и рис.2
Рис. 3

Рис.4

Построим эмпирическую функцию распределения. Исходными данными для её построения являются множество значений признака и множество относительных частот:

хi

50

60

65

70

75

100

120

pi*

0

0.075

0.075

0.225

0.2

0.275

0.15

xi

50

60

65

70

75

100

120

Pi*

0

0,075

0,075

0,225

0,200

0,275

0,150

F ( xi )

0

0,075

0,15

0,375

0,575

0,85

1

Пример. В таблице 1 приведена выборка результатов отчетности однотипных 60 предприятий по прибыли (млн. руб.). Составить интервальный вариационный ряд. Построить гистограмму.

Таблица 1.

Результаты решения задачи приведены в таблице 2.

Таблица 2.

Контрольные вопросы:

1. Дайте определения основным категориям математической статистике: генеральная совокупность, выборка, статистическая совокупность, признак, оценка.

2. Что называется вариационным рядом? Классификация вариационных рядов.

3. Выпишите основные соотношения для вычисления количественных статистических характеристик вариационного ряда: среднего арифметического значения, дисперсии, среднего квадратического значения, коэффициента вариации, коэффициента асимметрии, коэффициента эксцесса, моды, медианы

4. Сформулируйте определения полигона частот, гистограммы и кумуляты.

5.На основе данных о результатах анализа эффективности работы 50_и предприятий города по изменению реальной заработной платы на этих предприятиях в отчетном году (в % к предыдущему году) сформировать

Таблица 3.

No

Эр[%]

No

Эр[%]

No

Эр[%]

No

Эр[%]

No

Эр[%]

1

91

11

100

21

102

31

104

41

108

2

93

12

100

22

102

32

104

42

109

3

95

13

101

23

103

33

105

43

109

4

96

14

101

24

103

34

105

44

110

5

97

15

101

25

103

35

106

45

111

6

97

16

101

26

103

36

106

46

112

7

97

17

101

27

103

37

106

47

113

8

97

18

102

28

103

38

107

48

103

9

98

19

102

29

104

39

107

49

108

10

98

20

102

30

104

40

107

50

98

интервальный вариационный ряд значений темпов роста реальной заработной платы для равноотстоящих вариант, разбив рассматриваемый отрезок значений исследуемого параметра на 8 равноотстоящих частичных интервалов.

4. Построить таблицу значений относительных частот для равноотстоящих вариант, таблицу значений эмпирической плотности относительных частот и эмпирической функции распределения, разбив рассматриваемый отрезок значений исследуемого параметра на 8 равноотстоящих частичных интервалов.

5. Построить полигон и гистограмму относительных частот и график эмпирической функции распределения.

6. Назовите основные характеристики вариационного ряда и выпишите основные соотношения для их определения.

7. Вычислить выборочную среднюю арифметическую выборки, её дисперсию, выборочное среднее квадратическое отклонение, коэффициент асимметрии и выборочные коэффициенты асимметрии и эксцесса, отобразив выборочную среднюю и выборочное среднее квадратическое отклонение на полигоне и гистограмме относительных частот. Найти моду, медиану. Накопленные частоты интервалов, построить кумуляты.

Тема 2.2. Статистическое оценивание

1. Статистическое оценивание. Точечные и интервальные оценки. Требование к оценкам: несмещенность, состоятельность и эффективность.

2. Методы оценивания: метод моментов, метод максимального правдоподобия (Фишера), метод наименьших квадратов.

3. Статистики. Критерии. Критериальные случайные величины Пирсона, Стьюдента, Фишера-Снедекора.

4. Проверка статистических гипотез Н0 и HI. Уровень значимости. Ошибки 1-го и 2-го рода.

1. Статистическое оценивание

Задача оценивания параметров теоретического распределения состоит в построении приближенных формул для вычисления значений этих параметров, зависящих от выборочных значений х1, ….хn. Любую функцию = (х1, ….хn), зависящую от выборочных переменных и поэтому являющуюся случайной величиной, принято называть статистикой. Для того, чтобы оценки неизвестных параметров, т.е. статистики, давали хорошие приближение неизвестных параметров распределения генеральной совокупности, они должны удовлетворять определенным требованиям:

1. Математическое ожидание оценки параметра по всевозможным выборкам данного объёма должно равняться истинному значению определяемого параметра (как предписывает теория вероятностей). Оценку, удовлетворяющую этому требованию, называют несмещенной.

2. При увеличении объёма выборки оценка должна сходиться по вероятности к истинному значению параметра. В этом случае оценку называют состоятельной.

3. Оценка параметра представляет собой случайную величину, зависящую от выборки, поэтому естественный интерес представляет разброс этой оценки, т.е. её дисперсия. Оценку называют эффективной, если при заданном объёме выборки эта оценка имеет наименьшую дисперсию.

Поскольку в качестве оценки мы ищем число - точку на координатной оси - то такие оценки называются точечными.

2. Методы оценивания: метод моментов, метод максимального правдоподобия (Фишера), метод наименьших квадратов

Известны три основных метода нахождения приближенных формул вычисления точечных оценок: метод максимального правдоподобия, метод моментов и метод наименьших квадратов.

Метод максимального правдоподобия (Фишера)

Пусть исследуемый нами признак Х имеете непрерывное распределение, зависящее от m параметров И1….Иm из некоторого множества И. В этом случае плотность вероятности генеральной совокупности будет зависеть от значения признака х и этих параметров, т.е. ѓ(х, И1….Иm). Пусть теперь из генеральной совокупности получена выборка объёмом n: х1, …..хn. Рассмотрим представленную выборку с позиции того, что каждое значение её хi есть реализация некоторой случайной величины Хi, полученное в i-ом наблюдении, причем в силу репрезентативности выборки Хi имеет то же распределение, что и вся генеральная совокупность. В результате выборку можно рассматривать как n -мерную случайную величину (Х1, …. Хn) или выборочный вектор Х = (Х1…. Хn), все компоненты которого представляют независимые случайные величины с одинаковыми функциями плотности вероятности, совпадающими с плотностью вероятности генеральной совокупности, т.е.

ѓ Хi (хi, И1….Иm) = ѓ(хi, И1….Иm)

Из теории вероятностей известно, что плотность вероятностей совместного распределения независимых случайных величин равна произведению плотностей вероятностей каждой из случайных величин, т.е.

ѓ(х1, х2, ….хn, И1….Иm) = ѓ(х1, И1….Иm) ѓ(х2, И1….Иm)….. ѓ(хn, И1….Иm)

Метод максимального правдоподобия оценки неизвестных параметров распределения

И1….Иm основан на свойстве случайной величины реализовывать в эксперименте в основном те свои значения (Х1, …. Хn) , вероятность которых максимальная.

Таким образом, в качестве оценки неизвестных параметров распределения И1….Иm принимаются те значения, которые доставляют max функции ѓ(х1, х2, ….хn, И1….Иm), т.е. решения уравнения :

ѓ(х1, х2, ….хn, ) = max ѓ(х1, х2, ….хn, И1….Иm),

( И1….Иm ) И

если решения этого уравнения существуют.

Во многих случаях вместо функции ѓ(х1, х2, ….хn, И1….Иm) рассматривают её натуральный логарифм, достигающий максимума в тех же точках, что и сама функция ѓ(х1, х2, ….хn, И1….Иm). В результате нахождение оценок сводится к известной задаче математического анализа - отыскания максимума функции m переменных. Для отыскания точек экстремумов получаем уравнения максимального правдоподобия:

или i = 1….m

Пример. Пусть время t до выхода из строя группы компьютеров на испытательном стенде описывается показательным распределением:

,

единственный параметр которого л неизвестен. Найти методом максимального правдоподобия оценку параметра л

Р е ш е н и е. Испытав n компьютеров, мы получим выборку объёмом n : t1, ….tn. Функция плотности вероятности совместного распределения значений t1, ….tn имеет вид:

ѓ(t1, t2, ….tn, л) = лe-лt1 лe-лt2…. лe-лtn = лn e-лt1 e-лt2…. e-лtn

поскольку выражение для функции плотности вероятности представляет собой произведение экспонент, то лучше воспользоваться логарифмической формой функции правдоподобия:

ln ѓ(t1, t2, ….tn, л) = ln [лn e-лt1 e-лt2…. e-лtn ] = n lnл - л (t1 + t2 + ….+ tn).

Уравнение максимального правдоподобия будет иметь вид:

- (t1 + t2 + ….+ tn) = 0

Как было установлено в теории вероятностей, математическое ожидание для показательного распределения равно М(Х) = и обозначая , получим:

Пример. Пусть интересующая нас случайная величина распределена по нормальному закону с неизвестными параметрами Мх и у (математическое ожидание и среднеквадратическое отклонение) и получена выборка на основе опытов объёмом n : х1, …..хn. Найти методом максимального правдоподобия оценку параметров Мх и у.

Р е ш е н ие. Плотность вероятности совместного распределения значений х1, …..хn независимых нормально распределённых случайных величин имеет вид:

ѓ(х1, х2, ….хn, Мх, у) =

….. =

=

Воспользуемся логарифмической формой представления функции правдоподобия:

ln ѓ(х1, х2, ….хn, Мх, у) = - ln 2р - ln у2 =

- ln 2р - ln D

Обозначим у2 = D - дисперсию распределения признака Х. Уравнения максимального правдоподобия для оценки параметров Мх и у2 = D имеют вид:

-= 0

Решения этой системы дают оценки параметров:

Пример. Найти методом максимального правдоподобия оценку параметра л в распределении Пуассона на основе проведенных опытов.

Решение. Будем называть опытом группу из n испытаний. При этом в каждом опыте фиксируем число появления рассматриваемого события. Пусть таких независимых опытов будет к. Обозначим число появлений события в i-м опыте mi.Функция плотности вероятности совместного распределения количества появления рассматриваемого события m1, m2,…. mk имеет вид:

ѓ(m1, m2, ….mn, л) =

……. =

Находим логарифм этой функции:

Ln ѓ(m1, m2, ….mn, л) =

Возьмём первую производную по л и приравняем её к нулю. Получим уравнение максимального правдоподобия:

,

откуда

Если взять вторую производную

то оказывается, что она отрицательная. Это значит, что при полученном значении функция правдоподобия lnѓ(m1, m2, ….mn, л) достигает максимума.

Вывод. Метод максимального правдоподобия является эффективным в случае малых выборок, но часто требует довольно сложных вычислений.

Метод моментов (Пирсона)

Идея метода моментов заключается в приравнивании теоретических и соответствующих им эмпирических моментов, причём число моментов и, следовательно, число уравнений для определения неизвестных параметров распределений берется равным числу параметров. Покажем применение метода на тех же примерах, что и предыдущем пункте.

Напомним, что для случайной величины определены её числовые характеристики - начальные и центральные моменты. Для дискретной случайной величины:

теоретическим моментом к-го порядка называется соотношение вида:

Мкт = .

Эмпирическим моментом к-го порядка для несгруппированных данных называется соотношение вида:

Мкэ =

Если принять А = 0, то моменты в этом случае называются начальными. Обычно их обозначают малыми латинскими буквами.

, .

Например, начальный момент первого порядка m1 - есть математическое ожидание.

Если принять А = m1, то моменты называются центральными. Обычно их обозначают малыми греческими буквами.

мк T =, мк Э =.

Например, м2 - есть дисперсия.

В случае непрерывных случайных величин в теоретических моментах суммы заменяются интегралами с бесконечными пределами.

Пример. Для показательного распределения единственным параметром является л. Для его оценивания нужно одно уравнения. Возьмем, например, приравняем первые начальные моменты - теоретический и эмпирический.

Первый начальный теоретический момент получается интегрированием по частям выражения:

m1Т =

Первый начальный эмпирический момент имеет вид: m1Э =

Приравняем их:

m1Э = m1Т = =

Пример. Для нормального распределения, определенного двумя параметрами, Мх и у, приравняем теоретический и эмпирический моменты первого порядка и центральные моменты второго порядка: m1T = Mx, м2T = у2

m1Э = , м2Э =

отсюда

, =

или

В ы в о д ы. В рассмотренных примерах оценки, полученные методом максимального правдоподобия и моментов, совпали, однако этот факт не является общим. Для других распределений оценки, полученные различными методами, могут не совпадать.

Итак, оценками двух основных параметров генеральной совокупности,- математического ожидания и дисперсии являются:

- для математического ожидания - выборочная средняя, определяемая как среднее арифметическое полученных по выборке значений:

,

где xi - варианта выборки, ni - частота повторяемости варианты, n - объём выборки

собой среднюю арифметическую квадратов отклонений вариант от их выборочной для дисперсии - выборочная дисперсия, представляющая средней:

d = .

Для расчетов может быть использована также эквивалентная формула, получающаяся после возведения в квадрат и почленного суммирования:

d = ,

где - выборочная средняя квадратов вариант выборки.

После получения оценок с помощью любого из вышеприведенного метода остается нерешенным важнейший вопрос о несмещенности и эффективности оценок. Этот вопрос для математического ожидания решается положительно, т.е. - несмещенная оценка для Мх. Для дисперсии - отрицательно, т.е. d является смещенной оценкой для D = у2.

Для устранения смещенности выборочной дисперсии её следует умножить на величину n/(n-1) и получим:

S2 = .
Величину S2 называют несмещенной или «исправленной» выборочной дисперсией

Пример. Покажем, что оценка математического ожидания с помощью выборочной средней является несмещенной.

Решение. Оценка параметра называется несмещенной, если математическое ожидание оценки равно оцениваемому параметру. Покажем , что математическое ожидание среднего арифметического равно математическому ожиданию генеральной совокупности.

М() = М() = ,

т.к.

Замечание. Мы воспользовались представлением выборочных значений как компонентов к - мерной случайной величины (x1, x2,…..xk) > (X1, X2,….Xk)

( см. начало обсуждение метода максимального правдоподобия).

Пример. Покажем, что оценка дисперсии является смещенной.

Воспользуемся расчётной формулой для вычисления оценки дисперсии, приведенной выше:

d = ,

d =

здесь n2 слагаемых здесь по n слагаемых

здесь n слагаемых

здесь (n2 - n) слагаемых

=

Вычислим математическое ожидание d, снова воспользовавшись представлением выборочных данных n -мерной случайной величиной (x1, x2,…..xn) > (X1, X2,….Xn):

М(d) = M() = - .

С учётом количества слагаемых (см. выше) и того, что М(Хi) = M(Xj) = M(X) и М(ХiXj) = М(Хi) M(Xj) в силу статистической независимости Хi и Xj получаем:

М(d) = - =

где использована формула для вычисления дисперсии: D =

Из полученного результата следует, что выборочная дисперсия d является смещенной оценкой для D, т.к. её математическое ожидание не равно D, а несколько меньше. Чтобы ликвидировать это смещение, достаточно умножить d на . Результат этого умножения обозначенный S2 и называется “исправленной эмпирической дисперсией”.

Пример. На предприятии изготовляется определённый вид продукции. Ежемесячный объём выпуска этой продукции является случайной величиной, для характеристики которой принят показательный закон распределения.

( x ? 0 )

В течение шести месяцев проводился замер объёмов выпуска продукции, получены следующие данные:

Месяц

1

2

3

4

5

6

Объём выпуска

25

34

23

28

32

30

Найти оценку параметру л.

Решение. Так как закон распределения содержит лишь один параметр л, то для его оценке надо составить одно уравнение, например, равенство теоретического и эмпирического первых начальных моментов. Находим выборочную среднюю - эмпирический первый начальный момент:

= (25+34+23+28+32+30)/6 = 28.7

Определяем математическое ожидание - теоретический первый начальный момент:

М(Х) = ,

Приравниваем теоретический и эмпирический первые начальные моменты:

откуда получаем оценку параметра л:

3. Статистики. Критерии. Критериальные случайные величины Пирсона, Стьюдента, Фишера-Снедекора

Напомним, что любую функцию = (х1, ….хn), зависящую от выборочных переменных и поэтому являющуюся случайной величиной, принято называть статистикой. Таким образом, все оценки являются статистиками, случайными величинами. В связи с таким свойствами оценок, они должны быть проверены на значимость. Для этого используются критериальные случайные величины Пирсона, Стьюдента, Фишера-Снедекора.

4. Проверка статистических гипотез

Стандартными задачами математической статистики являются задачи определения класса (вида) распределения генеральной совокупности и определение её основных числовых характеристик. Эти задачи математическая статистика решает в виде выдвижения гипотез, а не прямым расчетом. Это связано с тем, исходные данные для статистических расчетов являются случайными величинами и полученные результаты расчета тоже есть случайные величины. Поэтому каждый расчетный результат должен быть дополнен вероятностью его правильности (или ошибки), следовательно, он является гипотетическим.

Определение 1. Статистической гипотезой называют гипотезу о виде неизвестного распределения или о параметрах известного распределения.

Наряду с данной гипотезой рассматривают и противоречащую ей гипотезу. В случае, когда выдвинутая гипотеза отвергается, обычно принимается противоречащая ей гипотеза.

Определение 2. Нулевой (основной) называют выдвинутую гипотезу H0. Конкурирующей (альтернативной) называют гипотезу H1, которая противоречит основной.

Пример. Нулевая гипотеза H0 : генеральная совокупность распределена по нормальному закону, тогда гипотеза H1 : генеральная совокупность не распределена по нормальному закону.

Пример. Нулевая гипотеза H0 : Мх = 20 ( т.е. математическое ожидание нормально распределённой величины равно 20), тогда гипотеза H1 может иметь вид H1: Мх 20.

Проверку правильности или неправильности выдвинутой гипотезы проводят статистическими методами. В результате такой проверки может быть принято правильное или неправильное решение. Поэтому различают ошибки двух родов. Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза. Ошибка второго рода состоит в том, что будет принята неправильная гипотеза.

Идея, которая используется при проверке статистических гипотез, заключается в следующем.

Вводится некоторая вычисляемая случайная величина, называемая критерием, распределение которой заранее известно и которая характеризует отклонение выборочных характеристик от их гипотетических значений. В предположении о справедливости гипотезы H0 фиксируем заранее некоторый уровень значимости б (допустимую вероятность ошибки того, что принимается гипотеза H0, а на самом деле верна гипотеза H1) считая , что в одиночном эксперименте событие с вероятностью, меньшей б, практически не происходят. По б находим такое число, что бы выполнялось соотношение:

Пусть теперь КВ - вычисленное по выборке значение критерия. Если окажется , то в предположении о справедливости гипотезы H0 произошло «практически» невозможное событие и поэтому выдвинутую гипотезу H0 следует отвергнуть и принять гипотезу H1. В противном случае, можно считать, что наблюдения не противоречат гипотезе H0. На приведенных рисунках показано функция плотности распределения случайной величины - критерия ч2 (Рис. 1 ) и кривая уровню значимости для распределения ч2 ( Рис.2.). Уровень значимости равен интегралу от функции плотности распределения в пределах от до ?, т.е.:

По заданному уровню значимости б находят значение нижнего предела =

Так, например, при б = 0.05 из графика (Рис. 1.) определяем = 7.814

Рис. 1.

Рис. 2.

Критерий Фишера. Проверка гипотезы о равенстве дисперсий.

Задача проверки «статистического» равенства дисперсий в двух выборках играет в математической статистике большую роль, т.к. именно дисперсия определяет такие исключительные важные конструктивные и технологические и экономические показатели, как точность машин и приборов, погрешность измерительных методик, точность технологических процессов, состояние экономической конъюнктуры. и т.д.

В качестве критерия F (критерий Фишера) для проверки гипотезы о равенстве дисперсий в двух генеральных совокупностях по независимым выборкам из них строится случайная величина, равная отношению двух «исправленных» дисперсий , предполагая, что генеральная совокупность распределена нормально.

Доказано, что эта случайная величина имеет распределение Фишера с к1 = n1 - 1 и k2 = n2 - 1 степенями свободы, где n1 и n2 - объёмы первой и второй выборок. Обычно в качестве числителя берут большую из «исправленных» дисперсий .

Чтобы проверить гипотезу о равенстве дисперсий, надо построить критическую область для критерия F. В качестве критической области принимаются два интервала: интервал больших значений критерия, удовлетворяющий неравенству F >F2 и интервал малых значений 0 < F < F1, причём критические точки занимают такое положение на оси критерия, чтобы удовлетворять следующим равенствам:

где - площади под кривой распределения (см. Рис.3).

Такой выбор критической области обеспечивает большую чувствительность критерия. Оказывается, что достаточно определить правую критическую точку F2; последнее объясняется тем, что если величина

имеет распределение Фишера ( с k1 и k2 степенями свободы), то и

также имеет распределение Фишера (с k1 и k2 степенями свободы). Поэтому в таблицах табулируются только правые точки этого распределения.

Если полученное по выборке значение критерия выходит за правую критическую точку F2, гипотезу о равенстве дисперсий следует отбросить, в противном случае гипотеза о равенстве дисперсий не противоречит наблюдениям.

Пример. При проведении тестирования на профессиональную пригодность были подвергнуты испытанию две группы: в первой группе - 10 человек, во второй группе - 15 человек. По данным этих тестов были посчитаны «исправленные» эмпирические дисперсии, оказавшиеся равными для первой группы и для второго . Требуются проверить с уровнем значимости б=0,1 гипотезу о равенстве дисперсий - уровнем подготовленности.

Р е ш е н и е.

Вычислим выборочное значение критерия

F =

По таблицам распределения Фишера и при б = 0,05 и степенях свободы k1 = n1 -1 = 9 и k2 = n2 -1 = 14 находим критическую точку F2 = 2,65. Выборочное значение критерия оказалось меньше критического, и, следовательно, предположение о равенстве дисперсий не противоречит наблюдениям. Иными словами, нет оснований считать, что две группы обладают разным уровнем подготовленности.

Пример. Оценивается валидность двух различных однотипных тестов. Подвергаются испытанию одна и та же группа с составе 20 человек. По данным тестирования были вычислены исправленные дисперсии, они оказались равными:

, .

Определить валидность однотипных тестов.

Р е ш е н и е.

Вычисляем выборочное значение критерия

По таблицам распределения Фишера и при б = 0,05 и степенях свободы k1 = n1 -1 = 19 и k2 = n2 -1 = 19 находим критическую точку F2 = 2,16. Таким образом, выборочное значение критерия попадает в критическую область и гипотезу о равенстве дисперсий следует отбросить, т.е. по данным двух выборок испытуемых валидность тестов существенно отличается друг от друга.

Критерий Пирсона ч2. Проверка гипотез о законе распределений .

В предыдущем параграфе были рассмотрены некоторые способы оценки параметров заранее известного закона распределения. Однако в ряде случае сам вид закона распределения является гипотетическим и нуждается в статистической проверке. Гипотезы о виде закона распределения выдвигаются на основе результатов построения эмпирических функций распределения или гистограмм.

Рассмотрим вопрос о критерии проверки по данным выборки гипотезы о том, что данная случайная величина Х имеет функцию распределения F(х). Необходимо ввести некоторую случайную величину- критерий К, основанный на выборе определённой меры расхождения эмпирического и теоретического распределений. Наиболее распространённым является критерий Пирсона ч2 (хи-квадрат). Суть критерия Пирсона состоит в следующем.. Область изменения случайной величины разбивается на конечное число интервалов:

Дх1, Дx2, …. Дxl (если это вся числовая ось, то первый и последний l-ый интервал будут бесконечными). Пусть mi - число значений выборки n, попавших в интервал Дхi , а pi - вероятность того, что случайная величина Х примет значения, принадлежащие Дхi при данном распределении F(x). Эта вероятность pi вычисляется по известным соотношениям:

где xi и xi+1 - начальная и конечная точка интервала Дхi. Очевидно, выполняются условия

По найденным pi находим математические ожидания попаданий случайной величины Х в интервал Дхi. при n испытаниях, которые равны npi. В качестве меры расхождения выборочных m1, m2, ….ml и теоретических np1,np2,….npl характеристик вводится следующая величина:

Доказано, что введенная таким образом случайная величина при неограниченном увеличении n распределена по закону с r степенями свободы, где r = l - 1 - k, а k равно числу параметров, оцениваемых по данным выборке. Если все параметры закона распределения известны заранее (не на основе выборки!, например, при равномерном распределении), то к = 0. Остаётся , задавшись определённым уровнем значимости б , указать критическую область критерия. Обозначим число, найденное из условия

В качестве критической области примем интервал .Определив по данным выборки, мы получим одно из двух: или (т.е. выборочное значение критерия попадает в критическую область и тогда расхождение выборочных данных с гипотетическим законом распределения существенно, а поэтому гипотеза H0 отвергается и принимается гипотеза H1. Если , то отличие эмпирического закона от теоретического считается несущественным и принимается гипотеза H0 о статистическом равенстве эмпирического и теоретического законов распределения.

Замечание. Случайная величина - критерий , вычисленная по выборочным данным, только при n >? распределена по закону . Возникает естественный вопрос о правомерности использования этого распределения при конечном n. Принято считать это приближение достаточным для практических расчетов, если для всех интервалов npi 10.Если же имеются интервалы, для которых npi <10, то рекомендуется их объединять с соседними так, чтобы новые интервалы уже удовлетворяли указанному условию.

Пример. Имеются опытные данные о числе звонков в службу аварийного помощи в течение рабочего дня - таблица 1.

Интервалы

(часы смены)

1

2

3

4

5

6

7

8

Число звонков

16

27

17

15

24

19

11

15

Проверить с помощью критерия Пирсона и при уровне значимости б = 0,05 гипотезу о равномерном распределении числа звонков в психологическую службу в течение дня.

Решение. Постоим эмпирическую функцию плотности распределения вызовов. Рис.4.

Рис.4

Приведённый рисунок позволяет выдвинуть гипотезу о равномерном распределении звонков в службу психологической помощи, т.к. плотность звонков колеблется около некоторого среднего значения.

В качестве интервалов Дхi берём соответствующие часы смены. Так как предполагается оценивать равномерное распределение, то все pi = и npi =144· = 18. Результаты дальнейших расчётов сводим в таблицу 2.

Таблица 2.

Интервалы

(часы смены)

1

2

3

4

5

6

7

8

Число звонков mi

16

27

17

15

24

19

11

15

Математические ожидания npi

18

18

18

18

18

18

18

18

mi - npi

-2

9

-1

-3

6

1

-7

-3

0.22

4.5

0.06

0.5

2.00

0.06

2.72

0.5

У =10.56

Число степеней свободы равно r = l - 1 - k = 7 ( k = 0, т.к. единственный параметр распределения - рабочее время смены , т.е. длина отрезка b-a - заранее известно). При данном уровне значимости б = 0,05 по таблице находим соответствующее значение =14,07. Вычисленное значение = 10,56 лежит левее критического значения, т.е. в области допустимых значений, и поэтому нет оснований считать гипотезу H0 о равномерном распределении противоречащей наблюдениям.

Пример. Имеются результаты опроса группы молодёжи, состоящей из 200 человек, о возрасте первого употреблении наркотиков. Результаты представлены в виде интервального вариационного ряда (Таблица 1.):

Таблица 1.

Интервал возрастов

11-12

12-13

13-14

14-15

15-16

16-17

17-18

18-19

19-20

20-21

Количество человек в группе

7

12

14

25

48

42

24

13

10

5

Требуется с помощью критерия Пирсона и при уровне значимости б = 0,05 оценить гипотезу о нормальном распределении возрастов начала употребления наркотиков, тем самым подтвердив гипотезу, что явление наркомании порождено множеством различных причин.

Решение. Построим экспериментальную функцию плотности распределения распределение. Поскольку вариационный ряд интервальный следует перейти к серединам интервалов и заменить абсолютные частоты - частотами относительными. В результате получим (Таблица 2; Рис 2):

Таблица 2.

Середины интервалов

11,5

12,5

13,5

14,5

15,5

16,5

17,5

18,5

19,5

20,5

Относительные частоты

0,035

0,06

0,07

0,125

0,24

0,21

0,12

0,065

0,05

0,025

Рис.5

Полученная кривая имеет колоколообразную форму, поэтому есть основания к выдвижению гипотезы о нормальном распределении возрастов начала употребления наркотиков.

Результаты вычислений сведем в таблицу 3.

Таблица 3.

№ интервала

Границы интервала

x*i

mi

нi

pi

npi

1

11,12

11,5

7

0.035

0,0187

3,7383

2,8458

2

12,13

12,5

12

0.06

0,0485

9,6940

0,5486

3

13,14

13,5

14

0.07

0,0984

19,6702

1,6345

4

14,15

14,5

25

0.125

0,1562

31,2318

1,2435

5

15,16

15,5

48

0.24

0,1940

38,8031

2,1798

6

16,17

16,5

42

0.21

0,1886

37,7239

0,4847

7

17,18

17,5

24

0.12

0,1435

28,6978

0,7690

8

18,19

18,5

13

0.065

0,0854

17,0829

0,9758

9

19,20

19,5

10

0.05

0,0398

7,9571

0,5245

10

20,21

20,5

5

0.025

0,0145

2,9002

1,5203

Сумма: 12,72645

Среднее значение возраста, впервые употребляющие наркотики, равно 15,885

Подправленная дисперсия возрастов, впервые употребляющих наркотики, равна 4,077. Стандартное отклонение возрастов, впервые употребляющих наркотики, равно 2,019

Полученные характеристики позволяют с помощью таблиц гауссовой кривой вычислить вероятности средних возрастов, впервые употребляющих наркотики. Результаты вычислений представлены на рисунке 6. Графики экспериментальных относительных частот и теоретических вероятностей практически совпали друг с другом из-за масштабирования. Чтобы показать существующее расхождение между теоретическим и экспериментальным распределением построим графики абсолютных частот средних значений возрастов - рисунок 7.

Рис.6

Рис.7.

Вычислим значение критерия - случайной величины ч2. Оно равно сумме значений последнего столбца таблицы - 12,726. Критическое значение ч2 при уровне значимости 0,05 и степенях свободы, равных r = 10 - 1 - k = 10 - 1 - 2 = 7 , определяется значением 14,067. Таким образом, нет оснований отвергать гипотезу H0 о нормальном законе распределения возрастов лиц, впервые употребляющих наркотические вещества, тем самым мы подтверждаем экспериментально мнение специалистов, что проблема наркомании имеет комплексный характер.

Контрольные вопросы:

1 Дайте определение точечной и интервальной оценке.

Сформулируйте основные требования к точечным оценкам и раскройте их смысл

Дайте определения уровню значимости, ошибки первого и второго рода.

4. Для вариационного ряда Темы 2.1. найти точечные оценки параметров нормального закона распределения, записать соответствующую формулу для плотности вероятностей f(x) и рассчитать теоретические относительные частоты. Построить график плотности распределения на гистограмме относительных частот, а теоретические относительные частоты показать на полигоне относительных частот.

5. Найти интервальные оценки параметров нормального закона распределения, приняв доверительную вероятность?? = 0,95 и 0,99.

6. Проверить, согласуется ли гипотеза о нормальном распределении генеральной совокупности с эмпирическим распределением выборки, используя критерий Пирсона при уровнях значимости 0,01; 0,05.

Тема 2.3. Статистические методы обработки экспериментальных данных

1. Метод наименьших квадратов (МНК).

2. Регрессионный анализ

3. Корреляционный анализ

Конспект лекции

Уравнение парной линейной корреляционной связи называется уравнением парной регрессии и имеет вид:

у = а + bх, (1)

где у - среднее значение результативного признака при определенном значении факторного признака х;

а - свободный член уравнения;

b - коэффициент регрессии, измеряющий среднее отношение отклонения результативного признака от его средней величины к отклонению факторного признака от его средней величины на одну единицу его измерения - вариация у, приходящаяся на единицу вариации х.

Уравнение (1) определяется по данным о значениях признаков х и у в изучаемой совокупности, состоящей из п единиц. Параметры уравнения а и b находятся методом наименьших квадратов (МНК).

Исходное условие МНК для линейной связи имеет вид:

Для отыскания значений параметров а и b, при которых f(a,b) принимает минимальное значение, частные производные функции приравниваем нулю и преобразуем получаемые уравнения, которые называются нормальными уравнениями МНК для линейной формы уравнения регрессии:

Отсюда система нормальных уравнений имеет вид:

Нормальные уравнения МНК для прямой линии регрессии являются системой двух уравнений с двумя неизвестными а и b. Все остальные величины, входящие в систему, определяются по исходной информации. Таким образом, однозначно вычисляются при решении этой системы уравнений оба параметра уравнения линейной регрессии.

Если первое нормальное уравнение разделить на п, получим:

(2)

По уравнению (2) обычно на практике вычисляется свободный член уравнения регрессии а. Параметр b вычисляется по преобразованной формуле, которую можно вывести, решая систему нормальных уравнений относительно b:

. (3)

Так как знаменатель этого выражения есть не что иное, как дисперсия признака х, т. е. у2, то можно записать формулу коэффициента регрессии в виде:

(4)

Подставив в (3) выражение для 2x, получим:

. (5)

Параметры уравнения регрессии можно вычислить через определители:

(6)

где - определитель системы;

a - частный определитель, получаемый в результате замены коэффициентов при а свободными членами из правой части системы уравнений;

b - частный определитель, получаемый в результате замены коэффициентов при b свободными членами из правой части системы уравнений.

Коэффициент парной линейной регрессии, обозначенный , имеет смысл показателя силы связи между вариацией факторного признака х и вариацией результативного признака у. Он измеряет среднее по совокупности отклонение у от его средней величины при отклонении признака х от своей средней величины на принятую единицу измерения.

Теснота парной линейной корреляционной связи, как и любой другой показатель, может быть измерена корреляционным отношением . Кроме того, при линейной форме уравнения применяется другой показатель тесноты связи - коэффициент корреляции rxy. Этот показатель представляет собой стандартизованный коэффициент регрессии, т. е. коэффициент, выраженный не в абсолютных единицах измерения признаков, а в долях среднего квадратического отклонения результативного признака:

. (7)

Коэффициент корреляции был предложен английским статистиком и философом Карлом Пирсоном (1857 - 1936). Его интерпретация такова: отклонение признака-фактора от его среднего значения на величину своего среднего квадратического отклонения в среднем по совокупности приводит к отклонению признака-результата от своего среднего значения на rxy его среднего квадратического отклонения.

В отличие от коэффициента регрессии b коэффициент корреляции не зависит от принятых единиц измерения признаков, а стало быть, он сравним для любых признаков.

Обычно считают связь сильной, если r . 0,7; средней тесноты, при 0,5 r 0,7; слабой при r < 0,5. Квадрат коэффициента корреляции называется коэффициентом детерминации:

Эта формула используется при. анализе множественной корреляции. Умножив числитель и знаменатель последнего выражения на получим:

и окончательно, коэффициент корреляции принимает вид:

. (8)

Эта формула соответствует формуле (7) для коэффициента регрессии.

Средние квадратическое отклонение можно выразить через средние величины признака:

.

Подставив эти выражения в (8), получим:

. (9)

Эта формула (9) удобнее для расчетов, если средние величины признаков и средние квадраты индивидуальных величин вычислены ранее.

Рассмотрим фактический пример анализа корреляционной парной линии связи по данным 16 сельхозпредприятий о затратах на 10 гектар пашни и о урожайности с 1 гектара. (табл.1).

Средние значения признаков: x? = 1605 руб.; у? = 35,2 ц/голов.

Сопоставляя знаки отклонений признаков x и у от средних величин, видим явное преобладание совпадающих по знакам пар отклонений: их 14 и только 2 пары несовпадающих знаков.

Таблица 1.

Корреляция между затратами и урожайностью

Номера единиц сово-куп-ности

Затраты на 10 гектар руб хi

Урожайность с гектара,

ц, yi

xi - x?

yi - y?

(xi - x?)

(yi - y?)

(xi - x?)2

(yi - y?)2

Расчетные значения урожайности , ц

1

1602

34,2

-3

-1,0

+3,0

9

1,00

35,1

2

1199

19,6

-406

-15,6

+6333,6

164836

243,36

21,1

3

1321

27,3

-283

-7,9

+2235,7

80089

62,41

25,3

4

1678

32,5

+73

-2,7

-197,1

5329

7,29

37,7

5

1600

33,2

-5

-2,0

+10,0

25

4,00

35,0

6

1355

31,8

-250

-3,4

+850,0

62500

11,56

26,5

7

1413

30,7

-192

^,5

+864,0

36864

20,25

28,5

8

1490

32,6

-115

-2,6

+299,0

13225

6,76

31,2

9

1616

26,7

+11

-8,5

-93,5

121

72,25

35,6

10

1693

42,4

+88

+7,2

+633,6

7744

51,84

38,2

11

1665

37,9

+60

+2,7

+162,0

3600

7,29

37,3

12

1666

36,6

+61

+1,4

+85,4

3721

1,96

37,3

13

1628

38,0

+23

+2,8

+64,4

529

7,84

36,0

14

1604

32,7

-1

-2,5

+2,5

1

6,25

35,2

15

2077

51,7

+472

+16,5

+7788

222784

272,25

51,6

16

2071

55,3

+466

+20,1

+9366,6

217156

404,01

51,4

25678

563,2

-

-

+28473,7

818533

1180,32

563,0

Вычислим на основе итоговой строки табл1. параметр парной линейной корреляции:

Он означает, что в среднем по изучаемой совокупности отклонение затрат от средней величины на 1 руб. приводило к отклонению с тем же знаком средней урожайности на 0,0347 ц, т. е. на 3,47 кг на 1га. При нестрогой интерпретации говорят: «С увеличением затрат на 1 руб. в среднем урожайность возрасла на 3,47 кг». Свободный член уравнения регрессии : а = 35,2 - 0,0347 * 1605 = - 20,49.

Уравнение регрессии в целом имеет вид:

Отрицательная величина свободного члена уравнения означает, что область существования признака у не включает нулевого значения признакам и близких значений. Если же область существования результативного признака включает нулевое значение признака-фактора, то свободный член является положительным и означает среднее значение результативного признака при отсутствии данного фактора, например среднюю урожайность картофеля при отсутствии органических удобрений.

Графическое изображение корреляционной связи по данным табл.1. приведено на рис. 1.

Коэффициент корреляции, рассчитанный на основе табл. 8.1,

Рис. 1. Корреляция затрат с урожайностью

Контрольные вопросы:

1. Сформулируйте суть метода наименьших квадратов и условия его применимости.

2. Что означает несмещенность, состоятельность и эффективность оценок МНК?

3. Дайте определение регрессионной форме связи.

4. Что такое теснота корреляционной зависимости?

5. Найти выборочное уравнение линейной регрессии признака Y на признаке X и коэффициент их корреляции по экспериментальным данным из таблицы

nij

X

10

15

20

25

30

35

Y

30

2

6

40

4

4

50

7

35

8

60

2

10

8

70

5

6

3

Размещено на Allbest.ru


Подобные документы

  • Комбинаторный метод вычисления вероятностей. Понятие случайных величин. Характеристики положения и рассеивания. Закон больших чисел. Центральная предельная теорема. Статистическое оценивание характеристик распределения генеральной совокупности по выборке.

    учебное пособие [554,6 K], добавлен 15.06.2015

  • Распределение вероятностей случайных величин. Числовые характеристики случайных величин. Смешанные начальный и центральный моменты совместного распределения совокупности случайных величин. Физический смысл понятия корреляции. Модель потока редких событий.

    лекция [429,8 K], добавлен 02.08.2009

  • Абсолютные и относительные статистические показатели, методы прогнозирования. Закон распределения вероятностей дискретной случайной величины. Оценки параметров генеральной совокупности. Статистическое исследование социально-экономического потенциала.

    шпаргалка [1,8 M], добавлен 16.05.2012

  • Различные методики исследования погрешностей результатов измерений на нормальный закон распределения с предварительным анализом на систематические и грубые ошибки. Основные вероятностно-статистические характеристики многократно измеренной величины.

    лабораторная работа [188,0 K], добавлен 04.05.2014

  • Математические методы систематизации и использования статистических данных для научных и практических выводов. Формирование закономерностей массовых социально-экономических процессов. Толкование экономических явлений посредством закона больших чисел.

    контрольная работа [19,5 K], добавлен 28.10.2010

  • Порядок составления и исследование вариационного ряда, первичная обработка полученных данных. Подбор закона распределения одномерной случайной величины и построение регрессионной модели данной системы. Вывод о значимости коэффициента корреляции.

    лабораторная работа [147,6 K], добавлен 15.03.2014

  • Составление закона распределения случайной величины X—числа студентов, успешно сдавших экзамен. Расчет математического ожидания, дисперсии и среднего квадратического отклонения случайной величины. Таблица накопленных частот для сгруппированной выборки.

    курсовая работа [1,8 M], добавлен 11.01.2015

  • Статистические гипотезы и методы их проверки. Закон распределения случайной величины. Математические ожидания экспоненциально распределенных выборок. Области отклонения гипотезы. Плотность нормального распределения. Плотность распределения Стьюдента.

    контрольная работа [850,5 K], добавлен 30.03.2011

  • Основные принципы работы в MathCAD. Типовые статистические функции. Функции вычисления плотности распределения вероятности. Функции и квантили распределения. Функции создания векторов с различными законами распределения. Функции для линейной регрессии.

    курсовая работа [684,3 K], добавлен 19.05.2011

  • Первичный анализ экспериментальных данных. Построение эмпирической плотности распределения случайной анализируемой величины и расчет ее характеристик. Определение вида закона распределения величины и расчёт его параметров при помощи метода моментов.

    курсовая работа [1,2 M], добавлен 23.05.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.