Анализ данных

Одномерная выборка, ее представление и числовые характеристики. Проведение исследования нормального, равномерного и экспоненциального распределения. Проверка гипотез по критерию Пирсона и Колмогорова-Смирнова. Особенность изучения двухмерных выборок.

Рубрика Математика
Вид курсовая работа
Язык русский
Дата добавления 22.11.2021
Размер файла 1,2 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Министерство науки и высшего образования Российской Федерации

Федеральное государственное бюджетное образовательное учреждение высшего образования

«Сибирский государственный автомобильно-дорожный университет

СибАДИ»

Кафедра "Компьютерные информационные автоматизированные системы"

Курсовая работа

По дисциплине "Теория вероятностей и математическая статистика"

Тема: "Анализ данных"

Выполнил (а):

обучающийся (аяся) гр. АСб-19И1

Усов Олег

Приняла: доцент

Палий И.А.

Омск - 2021

ЗАДАНИЕ

Министерство науки и высшего образования Российской Федерации

Федеральное государственное бюджетное образовательное учреждение высшего образования

«Сибирский государственный автомобильно-дорожный университет (СибАДИ)»

Кафедра "Компьютерные информационные автоматизированные системы"

на курсовую работу по дисциплине "Теория вероятностей и математическая статистика"

Обучающийся (яся)___________Усов.О.О____________________________________

указывается фамилия и инициалы обучающегося

гр. АСб18И1

Тема: "Анализ данных"

Вариант

Исходные данные

Решение индивидуального набора заданий, включающего в себя исследование одномерных выборок; исследование двумерных выборок; проверку гипотез о законах распределения генеральной совокупности по критериям Пирсона; проверку гипотез об извлечении двух выборок из одной и той же генеральной совокупности по критерию Колмогорова-Смирнова.

Исходные данные к работе

Используя генератор случайных чисел получить выборки 1, 2, 3 каждая объема 1000 из генеральных совокупностей, имеющих нормальное, экспоненциальное и равномерное распределения соответственно. Значение параметров законов получить у преподавателя.

Выполнить первоначальную проверку качества сгенерированных случайных чисел.

Представить выборки графически и определить их числовые характеристики. Нужно построить гистограммы, кривые накопленных частот, найти выборочное среднее, выборочную дисперсию, стандартное отклонение, нижнюю квартиль, медиану, верхнюю квартиль. Все расчетные формулы должны быть сначала запрограммированы, затем числовые характеристики нужно рассчитать, используя стандартные функции Excel. Результаты должны совпасть.

Нужно убедиться в достаточно близком совпадении (отклонение в пределах 10%) теоретических и выборочных значений.

Теоретические значения числовых характеристик нормального закона: M(X) = a; у(X) = у; Q1 ? a - 0,67у; x=a Q3 ? a + 0,67у.

Теоретические значения числовых характеристик экспоненциального (показательного) закона: M(X) = 1/л; у(X) = 1/л; Q1 ? 0,3/л; x?0,7/л Q3 ? 1,4/л.

Теоретические значения числовых характеристик равномерного закона: M(X) = (a + b)/2; у(X) = (b - a)/(23); Q1 ?a + (b - a)/4; x?a+b2; Q3 ? a + 3(b - a)/4

Снова построить гистограммы вместе с графиками соответствующих функций плотности вероятности. Убедиться в хорошем соответствии гистограмм и графиков. В случае равномерного и экспоненциального законов продлить графики плотности вероятности на полшага влево и вправо (равномерный закон) и на полшага влево (экспоненциальный закон).

Параметры законов

Нормальное распределение

Показательное распределение

л

Равномерное распределение

a

у

a

b

Три выборки образуют три пары. Для каждой из пар выборок, используя критерий Колмогорова-Смирнова, проверить гипотезу об извлечении выборок из одной и той же генеральной совокупности. Положить б = 0,1. Гипотеза ложна, критерий должен все 3 раз гипотезу отвергнуть.

Затем разбить каждую из выборок на две равные части. И трижды применить критерий Колмогорова-Смирнова для проверки гипотезы, что эти половинки извлечены из одной генеральной совокупности. Положить б = 0,1. Эти гипотезы должны подтвердиться.

Для каждой из трех выборок проверить по критерию Пирсона гипотезу об извлечении выборки из соответствующей генеральной совокупности. Положить б = 0,05.

Выбрать литературный текст (такой текст содержит только буквы, пробелы и знаки препинания), содержащий не менее 500 предложений. Привести текст с указанием автора. Используя приложенную программу, Разбить текст на куски из 200 букв, считая пробелы (знаки препинания и скобки не считаются). Программа подсчитает число вхождений данной буквы в каждый кусок из 200 букв. Построить выборку и проверить по критерию Пирсона гипотезу об извлечении этой выборки из генеральной совокупности, имеющей распределение Пуассона. Положить б = 0,05. Номер буквы в таблице - номер варианта студента. Построить также на одном графике полигон относительных частот вхождений буквы и полигон вероятностей закона Пуассона.

Параметр закона Пуассона определить сначала по выборке как среднее число вхождений в блок из 200 букв данной буквы. Затем определить теоретическое значение 1, пользуясь частотой p для данной буквы из таблицы, 1 = 200p. Если значения и 1 различаются незначительно, проверять гипотезу о законе распределения Пуассона с параметром 1. В противном случае использовать экспериментально полученное значение .

Выбрать литературный текст, указать автора и название произведения. Выделить в литературном тексте на русском языке не менее 100 предложений, указать автора и произведение. Построить двумерную выборку, где xi - число слов, а yi - число букв в данном предложении (пробелы не учитываются). Представить выборку графически и найти ее числовые характеристики. Определить коэффициенты линейного уравнения регрессии y на x и построить прямую регрессии на диаграмме рассеяния. Сделать вывод о наличии сильной линейной зависимости между числом слов и букв в предложении. Все расчеты запрограммировать в Excel, а затем сравнить результаты расчетов со значениями, полученными с использованием встроенных средств Excel.

Для своего варианта двумерной выборки построить по методу наименьших квадратов уравнение регрессии, вид которого нужно сначала определить, выбрав подходящий из трех вариантов: y = bax; y = bxa; y = 1/(ax + b).Все расчеты запрограммировать в Excel.Построить в одной системе координат диаграмму рассеяния и график уравнения регрессии, используя встроенные средства Excel.Убедиться в совпадении уравнений регрессии.

Не используя линеаризацию нелинейных уравнений, найти точные значения параметров уравнения при помощи инструмента "Поиск решения". Насколько суммы квадратов отклонений экспериментальных значений yiот теоретических значений отличаются в каждом из двух случаев?

Реферат

Пояснительная записка 45с., 14 рис., 29 табл., 4 источника.

ВЫБОРКА, ДВУМЕРНАЯ ВЫБОРКА, ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ ВЫБОРКИ, ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ ВЫБОРКИ, КОРРЕЛЯЦИЯ, КРИТЕРИЙ ПИРСОНА, КРИТЕРИЙ КОЛМОГОРОВА-СМИРНОВА.

Цель работы: Научиться представлять графически и рассчитывать числовые характеристики одномерных и двумерных выборок. Освоить методику проверок статистических гипотез при помощи критериев Пирсона и Колмогорова-Смирнова. Научиться решать поставленные задачи математической статистики с помощью таблиц и функций Microsoft Office Excel.

Содержание

Часть 1. Одномерная выборка, ее представление и числовые характеристики

1.1 Нормальное распределение

1.2 Равномерное распределение

1.3 Экспоненциальное распределение

Часть 2. Проверка гипотез по критерию Пирсона и Колмогорова-Смирнова

2.1 Критерий Колмогорова-Смирнова

2.1.1 Нормальное и равномерное распределение

2.1.2 Нормальное и экспоненциальное распределение

2.1.3 Равномерное и экспоненциальное распределение

2.2 Критерий Колмогорова-Смирнова для каждой выборки

2.2.1 Нормальное распределение

2.2.2 Равномерное распределение

2.2.3 Экспоненциальное распределение

2.3 Критерий Пирсона

2.3.1 Нормальное распределение

2.3.2 Равномерное распределение

2.3.3 Экспоненциальное распределение

2.4 Критерий Пирсона для распределения Пуассона

Часть 3. Двумерные выборки

3.1 Задание 1

3.2 Задание 2

Заключение

Список использованных источников

Часть 1. Одномерная выборка, ее представление и числовые характеристики

С помощью генератора случайных чисел были получены три выборки из генеральных совокупностей, имеющих нормальное (Приложение А), равномерное (Приложение Б) и экспоненциальное (Приложение В) распределения соответственно, каждая объема 1000чисел.

1.1 Нормальное распределение

Параметры закона для нормального распределения: .

Числовые характеристики данной выборки представлены в таблице 1.

Таблица1-Числовыехарактеристикивыборкинормального распределения

Теоретическое значение

Функции Excel

б

-1,37

б

11,37

Среднее значение

a = 4,7

4,71

Дисперсия

у2 = 1,9

3,70

Стандартное отклонение

у = 1,9

1,92

Размах

1,4

Количество интервалов

10

h

1,4

Интервал группировки

[-2; 12)

Сгруппируем выборку на интервале [-2; 12). Разобьем интервал [-2; 12) на k = 10 интервалов ширины h = 1,4. Тогда границы интервалов группировки таковы.

Для проверки правильности полученных значений проверяется, что среднее значение примерно равно a, стандартное отклонение примерно равно . В данном случае получились значения: среднее значение = 4,72 , стандартное отклонение = 1,92 , что примерно равно .

[xi-1; xi)

[-2; 0,6)

[0,6; 0,8)

[0,8; 2,2)

[2,2; 3,6)

[3,6; 5)

[xi-1; xi)

[5; 6,4)

[6,4; 7,8)

[7,8; 9,2)

[9,2; 10,6)

[10,6; 12)

Интервальная таблица частот для выборки нормального распределения представлена в таблице 2. В данной таблице - частота, - относительная частота, -накопленнаячастота,- относительная накопленная частота. Для построения гистограммы необходимо найти высоту прямоугольников. Высота находится по формуле = i /h,i = 1, 2, 3,…, k.

Для построения гистограммы также требуется найти середины интервалов. Середины находятся по формуле ( + )/2.

Функция плотности нормального закона зависит от двух параметров - и и находится по формуле .

Таблица2-Интервальнаятаблица частот длявыборкинормального распределения

Середины

f(x)

-2

0

0

-0,6

2

0,002

2

0,002

0,001429

-1,3

0,001435

0,8

19

0,019

21

0,021

0,013571

0,1

0,011204

2,2

78

0,078

99

0,099

0,055714

1,5

0,050841

3,6

176

0,176

275

0,275

0,125714

2,9

0,134052

5

307

0,307

582

0,582

0,219286

4,3

0,205371

6,4

236

0,236

818

0,818

0,168571

5,7

0,182815

7,8

126

0,126

944

0,944

0,09

7,1

0,094556

9,2

40

0,04

984

0,984

0,028571

8,5

0,028417

10,6

13

0,013

997

0,997

0,009286

9,9

0,004962

12

3

0,003

1000

1

0,002143

11,3

0,000503

У

1000

1

Необходимые данные найдены. Теперь возможно построить гистограмму.

Гистограмма выборки нормального распределения представлена на рисунке 1.

Рисунок 1 - Гистограммаотносительных накопленных частоти функция плотности для нормального распределения

Для построения кривой накопленных частот нужно взять значения и из интервальной таблицы.

Кривая накопленных частот представлена на рисунке 2.

Рисунок 2 - Кривая накопленных частот для нормального распределения

Для нахождения нижней квартили необходимо воспользоваться формулой .

При этом

Верхняя квартиль находится по аналогичной формуле, отличие заключается лишь в том, что вместо 0,25 необходимо использовать 0,75.

б

Для нахождения медианы нужно воспользоваться формулой

.

б

Теоретические значения числовых характеристик нормального закона: M(X) = a; у(X) = у; Q1a - 0,67у; ; Q3a + 0,67у.

Сравнение значений полученных с помощью формул и с помощью средств Excel представлены в таблице 3.

.

Тогда ;

;

б

Теоретические значения таковы:

Q1a - 0,67у = ; ;

Q3a + 0,67у = .

Таблица 3 - Сравнение полученных данных.

Формула

Exсel

Теорет.знач.

б

3,15

3,46

3,427

Медиана

4,57

4,66

4,7

б

5,91

5,98

5,973

1.2 Равномерное распределение

Параметры закона для равномерного распределения: .

Числовые характеристики данной выборки представлены в таблице 4.

Таблица 4 - Числовые характеристики выборки равномерного распределения

Теорет.знач

Функции Excel

Xmin

-0,99

Xmax

8,98

Среднее значение

(a + b)/2 = 4

3,97

Дисперсия

(b - a)2/12 = 8,33

8,32

Стандартное отклонение

= 2,89

2,88

Размах

8

Количетсво интервалов

10

h

1

Интервал группировки

[-1;9)

Для проверки правильности полученных значений проверяется, что среднее значение примерно равно , дисперсия примерно равна . В данном случае получились значения: среднее значение = 3,97 , дисперсия = 8,32 , что примерно равно , соответственно.

Интервальная таблица частот для выборки равномерного распределения представлена в таблице 5. В данной таблице - частота - относительная частота,-накопленнаячастота,-относительнаянакопленная частота.

Для построения гистограммы необходимо найти высоту прямоугольников и середины интервалов.

Функция плотности равномерного закона находится по формуле

Таблица 5 - Интервальная таблица частот для выборки равномерного распределения

Середины

f(x)

-1

0

0

0

99

0,099

99

0,099

0,099

-0,5

0,1

1

100

0,1

199

0,199

0,1

0,5

0,1

2

112

0,112

311

0,311

0,112

1,5

0,1

3

99

0,099

410

0,41

0,099

2,5

0,1

4

98

0,098

508

0,508

0,098

3,5

0,1

5

94

0,094

602

0,602

0,094

4,5

0,1

6

101

0,101

703

0,703

0,101

5,5

0,1

7

100

0,1

803

0,803

0,1

6,5

0,1

8

94

0,094

897

0,897

0,094

7,5

0,1

9

103

0,103

1000

1

0,103

8,5

0,1

У

1000

1

Необходимые данные найдены. Теперь возможно построить гистограмму. Гистограмма выборки равномерного распределения представлена на рисунке 3.

Рисунок 3 - Гистограмма относительных накопленных частот и функция плотности равномерного распределения.

Для построения кривой накопленных частот нужно взять значения и из интервальной таблицы.

Кривая накопленных частот представлена на рисунке 4.

Рисунок 4 - Кривая накопленных частот для равномерного распределения

Найдём верхнюю и нижнюю квартиль и медиану и сравним со значениями, найденными с помощью средств Excel.

Сравнение значений, полученных с помощью формул и с помощью средств Excel, представлены в таблице 6.

Теоретические значения числовых характеристик равномерного закона:

M(X) = (a + b)/2; у(X) = (b - a)/(); Q1a+ (b - a)/4; Q3a+ 3(b - a)/4

Выполнить подробно те же расчеты, что и для нормального закона

.

Тогда ;

;

б

Теоретические значения таковы:

Q1a +(b-a)/4 = ; ;

Q3 a +3*(b-a)/4= .

Таблица 6 - Сравнение значений квартилей и медиан

Формула

Функции Excel

Теоретическое

1,46

1,5475

1,5

Медиана

3,92

3,87

3

6,47

6,475

6,5

1.3 Экспоненциальное распределение

Параметры закона для экспоненциального распределения:

Числовые характеристики данной выборки представлены в таблице 7.

Таблица 7 - Числовые характеристики выборки экспоненциального распределения

Теорет. Знач

Функции Excel

Xmin

0

Xmax

1,18

Среднее значение

1/л = 0,83

0,13

Дисперсия

1/л2 = 0,69

0,02

Стандартное отклонение

1/л = 0,83

0,13

Размах

1,5

Количеcтво интервалов

6

h

0,25

Интервал группировки

[0;1,5)

Для проверки правильности полученных значений проверяется, что среднее значение и стандартное отклонение примерно равны . В данномслучае получились значения: среднее значение = 0,13 , стандартное отклонение = 0,13 , что примерно равно .

Интервальная таблица частот для выборки равномерного распределения представлена в таблице 8. В данной таблице - частота, - относительная частота, - накопленная частота, - относительная накопленная частота.

Для построения гистограммы необходимо найти высоту прямоугольников и середины интервалов.

Функция плотности равномерного закона находится по формуле

Таблица 8 - Интервальная таблица частотдля выборки экспоненциального распределения

Середины

f(x)

0

0

0

0,25

858

0,858

858

0,858

3,432

0,125

2,9421

0,5

123

0,123

981

0,981

0,492

0,375

0,418585

0,75

14

0,014

995

0,995

0,056

0,625

0,059554

1

4

0,004

999

0,999

0,016

0,875

0,008473

1,25

1

0,001

1000

1

0,004

1,125

0,001205

1,5

0

0

1000

1

0

1,375

0,000172

У

1000

1

Необходимые данные найдены. Теперь возможно построить гистограмму. Гистограмма выборки экспоненциального распределения представлена на рисунке 5.

Рисунок 5 - Гистограммаотносительных накопленных частоти функция плотности для экспоненциального распределения

Для построения кривой накопленных частот нужно взять значения и из интервальной таблицы.

Кривая накопленных частот представлена на рисунке 6.

Рисунок 6 - Кривая накопленных частот экспоненциального распределения

Найдём верхнюю и нижнюю квартиль и медиану и сравним со значениями, найденными с помощью средств Excel.

Сравнение значений, полученных с помощью формул и с помощью средств Excel, представлены в таблице 9.

.

Тогда ;

;

б

Теоретические значения таковы:

Q10,3/ = ; ;

Q3 1,4/ = .

Таблица 9 - Сравнение значений квартилей и медиан

Формула

Функции Excel

Теоретическое

0,07

0,03

0,04

Медиана

0,15

0,09

0,09

0,22

0,1825

0,18

Функция плотности экспоненциального закона находится по формуле

Часть 2. Проверка гипотез по критерию Пирсона и Колмогорова-Смирнова

2.1 Критерий Колмогорова-Смирнова

Три выборки образуют три пары. Для каждой из пар выборок, используя критерий Колмогорова-Смирнова, проверить гипотезу об извлечении выборок из одной и той же генеральной совокупности. Положить . Гипотеза ложна, критерий должен все 3 раза гипотезу опровергнуть.

2.1.1 Нормальное и равномерное распределение

Возьмем выборки из нормального и равномерного распределения, указанных в приложениях А и Б соответственно. Каждая состоит из 1000 чисел.Определим, какой диапазон интервалов брать для проверки гипотезы (таблица 10).

Таблица 10 - Определение крайних значений в выборках

xmin

xmax

Нормальный

-1,37

11,37

Равномерный

-0,99

8,98

Границы нормального закона включают в себя границы равномерного, поэтому для проверки гипотезы будем использовать интервалы нормального закона.

Проверим по критерию Колмогорова - Смирнова гипотезу об извлечении выборок из одной и той же генеральной совокупности, расчеты приведены в таблице 11.

Таблица 11 - Проверка по критерию Колмогорова-Смирнова для выборок, извлеченных из нормальной и равномерной генеральных совокупностей

Равномерный закон

Нормальный закон

|-|

-1

0

0

0

0

0

0

99

99

0,099

2

2

0,002

0,097

1

100

199

0,199

19

21

0,021

0,178

2

112

311

0,311

78

99

0,099

0,212

3

99

410

0,41

176

275

0,275

0,135

4

98

508

0,508

307

582

0,582

0,074

5

94

602

0,602

236

818

0,818

0,216

6

101

703

0,703

126

944

0,944

0,241

7

100

803

0,803

40

984

0,984

0,181

8

94

897

0,897

13

997

0,997

0,1

9

103

1000

1

3

1000

1

0

Чтобы найти , нужно воспользоваться формулами:

=max|- | , n = .

Следовательно, n ==500, 22,36 , max|- |=0,241,

0,241=5,38.

Значение , следовательно, критерий отвергает гипотезу, что выборки извлеченыиз одной генеральной совокупности. Выборки извлечены из разных генеральных совокупностей.

2.1.2 Нормальное и экспоненциальное распределение

Возьмем выборки из нормального и экспоненциального распределения, указанных в приложениях А и приложении В соответственно. Каждая состоит из 1000 чисел. Определим, какой диапазон интервалов брать для проверки гипотезы (таблица 12).

Таблица 12 - Определение крайних значений в выборках

xmin

xmax

Нормальный

-1,37

11,37

Показательный

0

1,18

Границы нормального закона включают в себя границы экспоненциального, поэтому для проверки гипотезы будем использовать интервалы нормального закона.

Проверим по критерию Колмогорова - Смирнова гипотезу об извлечении выборок из одной и той же генеральной совокупности, расчеты приведены в таблице 13.

Таблица 13 - Проверка по критерию Колмогорова-Смирнова для выборок, извлеченных из нормальной и экспоненциальной генеральных совокупностей

Экспоненциальный закон

Нормальный закон

|-|

-2

0

0

0

0

0

-0,6

0

0

0

2

2

0,002

0,002

0,8

998

998

0,998

19

21

0,021

0,977

2,2

2

1000

1

78

99

0,099

0,901

3,6

0

1000

1

176

275

0,275

0,725

5

0

1000

1

307

582

0,582

0,418

6,4

0

1000

1

236

818

0,818

0,182

7,8

0

1000

1

126

944

0,944

0,056

9,2

0

1000

1

40

984

0,984

0,016

10,6

0

1000

1

13

997

0,997

0,003

Найдём необходимые значения: 22,36 , max|- |=0,977 (после округления),

0,977=21,84.

Значение , следовательно, критерий отвергает гипотезу, что выборки извлеченыиз одной генеральной совокупности. Выборки извлечены из разных генеральных совокупностей.

2.1.3 Равномерное и экспоненциальное распределение

Возьмем выборки из равномерного и экспоненциального распределения, указанных в приложении Б и приложении В соответственно. Каждая состоит из 1000 чисел. Определим, какой диапазон интервалов брать для проверки гипотезы (таблица 14).

Таблица 14 - Определение крайних значений в выборках

xmin

xmax

Равномерный

-0,99

8,98

Показательный

0

1,18

Границы нормального закона включают в себя границы экспоненциального, поэтому для проверки гипотезы будем использовать интервалы равномерного закона.Проверим по критерию Колмогорова - Смирнова гипотезу об извлечении выборок из одной и той же генеральной совокупности, расчеты приведены в таблице 15.

Таблица 15 - Проверка по критерию Колмогорова-Смирнова для выборок, для выборок, извлеченных из равномерной и экспоненциальной генеральных совокупностей

Экспоненциальный закон

Равномерный закон

xi

|-|

-1

0

0

0

0

0

0

0

0

0

99

99

0,099

0,099

1

999

999

0,999

100

199

0,199

0,8

2

1

1000

1

112

311

0,311

0,689

3

0

1000

1

99

410

0,41

0,59

4

0

1000

1

98

508

0,508

0,492

5

0

1000

1

94

602

0,602

0,398

6

0

1000

1

101

703

0,703

0,297

7

0

1000

1

100

803

0,803

0,197

8

0

1000

1

94

897

0,897

0,103

9

0

1000

1

103

1000

1

0

Найдём необходимые значения: 22,36 , max|- |=0,8

0,8= 17,88.

Значение , следовательно, критерий отвергает гипотезу, что выборки извлеченыиз одной генеральной совокупности. Выборки извлечены из разных генеральных совокупностей.

2.2 Критерий Колмогорова-Смирнова для каждой выборки

2.2.1 Нормальное распределение

Разбиваем выборку на две равные части. Каждая часть состоит из 500 чисел.

Относительные накопленные частоты указаны в следующих трех таблицах с двумя знаками после запятой.

Проверим по критерию Колмогорова - Смирнова гипотезу об извлечении половинок из одной и той же генеральной совокупности, расчеты приведены в таблице 16.

Таблица 16 - Проверка по критерию Колмогорова-Смирнова для выборок, извлечённых из одной и той же генеральной совокупности

xi

|-|

-2

0

0

0

0

0

-0,6

1

1

0,00

1

1

0,002

0

0,8

9

10

0,02

10

11

0,022

0,002

2,2

38

48

0,10

40

51

0,102

0,006

3,6

87

135

0,27

89

140

0,28

0,01

5

155

290

0,58

152

292

0,584

0,004

6,4

117

407

0,81

119

411

0,822

0,008

7,8

61

468

0,94

65

476

0,952

0,016

9,2

22

490

0,98

18

494

0,988

0,008

10,6

7

497

0,99

6

500

1

0,006

12

3

500

1,00

0

500

1

0

Найдём необходимые значения: n ==250, 15,81,

max|- |=0,008.

0,016= 0,252.

Значение критерий подтвердил гипотезу, что половинки извлечены из одной генеральной совокупности.

2.2.2 Равномерное распределение

Разбиваем выборку на две равные части. Каждая часть состоит из 500 чисел. выборка экспоненциальный пирсон

Проверим по критерию Колмогорова - Смирнова гипотезу об извлечении половинок из одной и той же генеральной совокупности, расчеты приведены в таблице 17.

Таблица 17 - Проверка по критерию Колмогорова-Смирнова для выборок, извлечённых из одной и той же генеральной совокупности

xi

|-|

-1

0

0,00

0

0,00

0,00

0

52

52

0,10

47

47

0,09

0,01

1

55

107

0,21

45

92

0,18

0,03

2

49

156

0,31

63

155

0,31

0,00

3

49

205

0,41

50

205

0,41

0,00

4

54

259

0,52

44

249

0,50

0,02

5

42

301

0,60

52

301

0,60

0,00

6

48

349

0,70

53

354

0,71

0,01

7

43

392

0,78

57

411

0,82

0,04

8

51

443

0,89

43

454

0,91

0,02

9

57

500

1,00

46

500

1,00

0,00

Найдём необходимые значения: 15,81, max|- |=0,04,

0,04= 0,63

Значение критерий подтвердил гипотезу, что половинки извлечены из одной генеральной совокупности.

2.2.3 Экспоненциальное распределение

Разбиваем выборку на две равные части. Каждая часть состоит из 500 чисел.

Проверим по критерию Колмогорова - Смирнова гипотезу об извлечении половинок из одной и той же генеральной совокупности, расчеты приведены в таблице 18.

Таблица 18 - Проверка по критерию Колмогорова-Смирнова для выборок, извлечённых из одной и той же генеральной совокупности

xi

|-|

0

0

0,00

0

0,00

0,00

0,25

434

434

0,87

424

424

0,85

0,02

0,5

57

491

0,98

66

490

0,98

0,00

0,75

8

499

1,00

6

496

0,99

0,01

1

0

499

1,00

4

500

1,00

0,00

1,25

1

500

1,00

0

500

1,00

0,00

1,5

0

500

1,00

0

500

1,00

0,00

Найдём необходимые значения: 15,81, max|- |=0,02,

0,02= 0,32.

Значение критерий подтвердил гипотезу, что половинки извлечены из одной генеральной совокупности.

2.3 Критерий Пирсона

Замечание. В таблицах все расчеты указаны с двумя знаками после запятой. Но в Excel они велись с большим числом знаков, из-за чего возникло некоторое несоответствие между указанными значениями и тем, что получается, если значения из таблицы умножить на 1000.

2.3.1 Нормальное распределение

Проверим по критерию Пирсона гипотезу об извлечении выборки из нормально распределенной генеральной совокупности, расчеты приведены в таблице 19.

Таблица 19 - Проверка по критерию Пирсона гипотезы о нормальном распределении генеральной совокупности, .

(-a)/у

б

-2

-3,53

-0,50

-0,6

-2,79

-0,50

0,00

2

2,50

0,10

0,8

-2,05

-0,48

0,02

19

17,46

0,14

2,2

-1,32

-0,40

0,07

78

74,92

0,13

3,6

-0,58

-0,22

0,19

176

189,24

0,93

5

0,16

0,06

0,28

307

275,28

3,66

6,4

0,89

0,31

0,25

236

253,65

1,23

7,8

1,63

0,45

0,14

126

135,18

0,62

9,2

2,37

0,49

0,04

40

42,41

0,14

10,6

3,11

0,50

0,01

13

8,17

2,86

12

3,84

0,50

0,00

3

0,91

4,84

Сумма

-

-

1,00

1000

999,72

14,63

Формула для теоретической вероятности попадания случайной величины, распределенной по нормальному закону, в интервал [xi-1, xi) такова

,

где Ф(х) - функция Лапласа.

Чтобы определить нужно найти число степеней свободы r.

r = k ? 1 ? S, где k - число интервалов; S - число параметров закона распределения, вычисленных по выборке.

r = 10 - 1 ? 0=9,, тогда значение

б

Следовательно, гипотеза о соответствии распределения нормальному закону подтвердилась.

2.3.2 Равномерное распределение

Проверим по критерию Пирсона гипотезу об извлечении выборки из равномерно распределенной генеральной совокупности, расчеты приведены в таблице 20.

Таблица 20 - Проверка по критерию Пирсона гипотезы о равномерном распределении генеральной совокупности,

-1

0

0,10

99

100,00

0,01

1

0,10

100

100,00

0,00

2

0,10

112

100,00

1,44

3

0,10

99

100,00

0,01

4

0,10

98

100,00

0,04

5

0,10

94

100,00

0,36

6

0,10

101

100,00

0,01

Сумма

1,00

1000

1000,00

2,32

Формула для теоретической вероятности попадания случайной величины, распределенной по равномерному закону, в интервал [xi-1, xi) такова

, в нашем случае h = 1.

r = 10 - 1 ?0 = 9,, следовательно, .

Гипотеза об извлечении выборки из равномерно распределенной генеральной совокупности равномерному закону подтвердилась.

2.3.3 Экспоненциальное распределение

Таблица 21 - Проверка по критерию Пирсона гипотезы об экспоненциальном распределении генеральной совокупности,

0

0,25

858

0,86

857,73

0,00

0,5

123

0,12

122,03

0,01

0,75

14

0,02

17,36

0,65

1

4

0,00

2,47

0,95

1,25

1

0,00

0,35

1,20

1,5

0

0,00

0,05

0,05

Сумма

1000

1,00

999,99

2,85

Проверим по критерию Пирсона гипотезу об извлечении выборки из экспоненциально распределенной генеральной совокупности, расчеты приведены в таблице 21.

Формула для теоретической вероятности попадания случайной величины, распределенной по экспоненциальному закону, в интервал [xi-1, xi) такова

.

r = 6 - 1 - 0 = 5,, следовательно, .

Значение,гипотеза об извлечении выборки из экспоненциально распределенной генеральной совокупности подтвердилась.

2.4 Критерий Пирсона для распределения Пуассона

Для выполнения задания возьмем книгу К.Ф. Рериха «Алтай гималаи». Используя приложенную программу, разобьем текст на блоки из 200 букв, считая пробелы. Программа подсчитала число вхождений буквы «х» в каждый блок.

Построим выборку для буквы «х», представленную в приложении Д.

Найдём некоторые числовые характеристики данной выборки.

Количество строк n =368; минимальное значение ymin = 0; максимальное значение ymax = 10; мода = 1;

Среднее значение (среднее число вхождений буквы "х" в блок из 200 букв) равно 2,16. Таким образом, = 2,16.

Вероятность встречаемости буквы «е» в русском языке из приведенной таблицы равна p = 0,009; поэтому л1 = 2000,009=1,8;

Экспериментальное значение = 2,16 и теоретическое значение 1 = 1,8 различаются значительно. Будем проверять гипотезу об извлечении полученной выборки из генеральной совокупности, имеющей распределение Пуассона с параметром = 2,16. Расчеты приведены в таблице 22.

Вероятность того, что случайная величина, распределенная по закону Пуассона примет значение i, i = 0, 1, 2, … вычисляется по формуле

Таблица 22 - Проверка по критерию Пирсона гипотезы о распределении генеральной совокупности по закону Пуассона, = 2,16

0

58

0,157609

0,1153

42,43964

5,71

1

100

0,271739

0,2491

91,66963

0,76

2

70

0,190217

0,2690

99,0032

8,50

3

67

0,182065

0,1937

71,28231

0,26

4

37

0,100543

0,1046

38,49245

0,06

5

19

0,05163

0,0452

16,62874

0,34

6

13

0,035326

0,0163

5,986345

8,22

7-10

4

0,01087

0,0068

2,491518

0,91

Сумма

368

1,00

1,0000

367,99

24,74

Проверим гипотезу об извлечении выборки из генеральной совокупности, имеющей распределение Пуассона.

,

Гипотеза об извлечении выборки из генеральной совокупности, имеющей распределение Пуассона не подтвердилась.

На рисунке 7 представлены полигоны экспериментальных относительныхчастот и вероятностей теоретического распределения Пуассона.

Рисунок 7 - Полигон относительных частот вхождений буквы "е" и полигон вероятностей закона Пуассона

Часть 3. Двумерные выборки

3.1 Задание 1

Построим двумерную выборку объема 135 где - число слов, а - число букв в данном предложении, причем пробелы не учитываются. (Приложение Е).

Для выполнения задания была взята книга Джорда Оруэлл «1984», представленный в приложении Ж.

Подсчитаем числовые коэффициенты, показанные в таблице 1, чтобы их использовать для расчета коэффициента корреляции r.

Таблица 1 - Вычисление дополнительных коэффициентов

Из таблицыследует, что:

,25.

Найдем дисперсию и стандартное отклонение для и .

.

.

Рассчитаем выборочный коэффициент корреляции r по формуле:

,

Это значение весьма близко к единице. Число букв и число слов в предложении линейно зависят друг от друга.

Представим нашу выборку графически с помощью диаграммы рассеяния на рисунке 1.

Рисунок 1 - Диаграмма рассеяния двумерной выборки

Точки на диаграмме группируются относительно прямой, это означает, что между числом слов и числом букв в предложении существует сильная положительная линейная корреляция.

Определим коэффициенты линейного уравнения регрессии y на x.

,

Число -1,17 получается, если все вычисления вести с 4 знаками после запятой.

Уравнение регрессии y на x таково: прямая регрессии представлена на рисунке 3.

Уравнение, выведенное Excel, и уравнение рассчитанное совпадают.

3.2 Задание 2

Необходимо построить уравнение регрессиидля выборки, представленной в таблице 3.

Таблица 3 - Исходная выборка

i

1

1,76

2,13

2

2,65

1,73

3

2,46

1,76

4

1,13

2,87

5

2,16

1,90

6

3,42

1,52

7

2,78

1,66

8

1,56

2,34

9

1,85

2,13

10

1,56

2,44

11

2,09

2,01

12

3,05

1,52

13

1,42

2,54

14

1,51

2,38

15

1,56

2,27

16

1,60

2,23

17

2,10

2,02

18

1,50

2,31

19

2,07

1,88

20

3,87

1,35

21

2,16

1,95

22

3,53

1,40

23

1,21

2,53

24

3,34

1,45

25

3,15

1,56

26

2,23

1,93

27

1,37

2,62

28

3,30

1,55

29

3,80

1,34

30

1,23

2,89

Чтобы подобрать формулу для уравнения регрессии, построим диаграмму рассеяния выборки, по виду которой подберем подходящее уравнение регрессии (рис. 2).

Рис. 2. - Диаграмма рассеяния исходной выборки и графики уравнений регрессии.

Диаграмма рассеяния не распадается на две ветви, поэтому уравнение гиперболы y = 1/(ax + b) не подходит. По рис. 3 видно, что экспоненциальное уравнение регрессии, найденное средствами Excel, значительно хуже соответствует диаграмме рассеяния, чем степенное уравнение. Воспользуемся методом наименьших квадратов для поиска коэффициентов степенного уравнения регрессии .

Прологарифмировав левую и правую части, получаем значения, представленные в таблице 4. Диаграмма рассеяния линеаризованной выборки показана на рисунке 3.

Рисунок 3 - Диаграмма рассеяния линеаризованной выборки

Таблица 4 - Полученная выборка

i

1

0,57

0,76

2

0,97

0,55

3

0,90

0,57

4

0,12

1,05

5

0,77

0,64

6

1,23

0,42

7

1,02

0,51

8

0,44

0,85

9

0,62

0,76

10

0,44

0,89

11

0,74

0,70

12

1,12

0,42

13

0,35

0,93

14

0,41

0,87

15

0,44

0,82

16

0,47

0,80

17

0,74

0,70

18

0,41

0,84

19

0,73

0,63

20

1,35

0,30

21

0,77

0,67

22

1,26

0,34

23

0,19

0,93

24

1,21

0,37

25

1,15

0,44

26

0,80

0,66

27

0,31

0,96

28

1,19

0,44

29

1,34

0,29

30

0,21

1,06

Сумма

22,28

20,16

Среднее

0,74

0,67

Обозначим через , через

Подсчитаем числовые коэффициенты, показанные в таблице 5, чтобы их использовать для расчета коэффициента.

Таблица 5 - Дополнительные коэффициенты

i

1

0,43

0,32

0,57

2

0,53

0,95

0,30

3

0,51

0,81

0,32

4

0,13

0,01

1,11

5

0,49

0,59

0,41

6

0,51

1,51

0,18

7

0,52

1,05

0,26

8

0,38

0,20

0,72

9

0,47

0,38

0,57

10

0,40

0,20

0,80

11

0,51

0,54

0,49

12

0,47

1,24

0,18

13

0,33

0,12

0,87

14

0,36

0,17

0,75

15

0,36

0,20

0,67

16

0,38

0,22

0,64

17

0,52

0,55

0,49

18

0,34

0,16

0,70

19

0,46

0,53

0,40

20

0,41

1,83

0,09

21

0,51

0,59

0,45

22

0,42

1,59

0,11

23

0,18

0,04

0,86

24

0,45

1,45

0,14

25

0,51

1,32

0,20

26

0,53

0,64

0,43

27

0,30

0,10

0,93

28

0,52

1,43

0,19

29

0,39

1,78

0,09

30

0,22

0,04

1,13

Сумма

12,54

20,58

15,04

Среднее

0,42

0,69

0,50

Из таблицы следует, что

,

Определим коэффициенты линейного уравнения регрессии y на x.

,

После определения параметров a и находим число : 3,06.

.

Уравнение регрессии y на x таково: .

Уравнение, выведенное Excel, и уравнение, рассчитанное по методу наименьших квадратов, совпадают.

Определим теперь сумму квадратов отклонений экспериментальных данных yi от теоретических значений y(xi) = 3,06x-0,6, когда коэффициенты и а = -0,6 были найдены по методу наименьших квадратов путем линеаризации исходного нелинейного уравнения регрессии. Все расчеты представлены в таблице 6.

Таблица 6

b =

3,06

a =

-0,6

xi

yi

y(xi)

(yi - y(xi)2

1,76

2,13

2,18

0,00

2,65

1,73

1,70

0,00

2,46

1,76

1,78

0,00

1,13

2,87

2,85

0,00

2,16

1,9

1,93

0,00

3,42

1,52

1,46

0,00

2,78

1,66

1,65

0,00

1,56

2,34

2,34

0,00

1,85

2,13

2,12

0,00

1,56

2,44

2,34

0,01

2,09

2,01

1,97

0,00

3,05

1,52

1,56

0,00

1,42

2,54

2,48

0,00

1,51

2,38

2,39

0,00

1,56

2,27

2,34

0,01

1,6

2,23

2,31

0,01

2,1

2,02

1,96

0,00

1,5

2,31

2,40

0,01

2,07

1,88

1,98

0,01

3,87

1,35

1,36

0,00

Сумма

0,15

Далее воспользуемся надстройкой "Поиск решения", чтобы найти значения параметров а и b, которыеминимизируют сумму квадратов отклонений экспериментальных данных yi от теоретических значений y(xi) = , найденных по исходному уравнению регрессии . Все вычисления представлены в таблице 7.

Таблица 7.

b =

3,07

a =

-0,6

xi

yi

y(xi)

(yi - y(xi)2

1,76

2,13

2,18

0,00

2,65

1,73

1,70

0,00

2,46

1,76

1,78

0,00

1,13

2,87

2,85

0,00

2,16

1,9

1,93

0,00

3,42

1,52

1,46

0,00

2,78

1,66

1,65

0,00

1,56

2,34

2,34

0,00

1,85

2,13

2,12

0,00

1,56

2,44

2,34

0,01

2,09

2,01

1,97

0,00

3,05

1,52

1,56

0,00

1,42

2,54

2,48

0,00

1,51

2,38

2,39

0,00

1,56

2,27

2,34

0,01

1,6

2,23

2,31

0,01

2,1

2,02

1,96

0,00

1,5

2,31

2,40

0,01

2,07

1,88

1,98

0,01

3,87

1,35

1,36

0,00

Сумма

0,15

В случае точного решения а = -0,60; b = 3,07 сумма квадратов отклонений экспериментальных данных yi от теоретических значений y(xi) = не уменьшилась.

Заключение

В результате проделанной работы были изучены основные понятия математической статистики.

Изученная теория была применена для исследования выборок из различных генеральных совокупностей, полученных при помощи генератора случайных чисел. В частности, были использованы критерии Пирсона и Колмогорова-Смирнова для проверки гипотез о законе распределения генеральной совокупности, из которой извлечена выборка и об извлечении двух выборок из одной и той же генеральной совокупности. Кроме того, исследовалась двумерная выборка, полученная из предложений русского языка.

Все расчеты, таблицы и диаграммы выполнены в среде Microsoft Office Excel.

Полученные при выполнении работы знания, умения, навыки будут востребованы в новых учебных курсах на следующих ступенях обучения в бакалавриате.

Список использованных источников

1. Вентцель, Е. С. Теория вероятностей / Е. С. Вентцель. ? М.: Академия, 2003. ? 572 с.

2. Гмурман, В.Е. Теория вероятностей и математическая статистика: учебник для вузов/ В.Е.Гмурман.-- 12-е изд.-- Москва: Издательство Юрайт, 2020.-- 479с.-- (Высшее образование).-- Текст : электронный // ЭБС Юрайт

3.Палий, И. А.Теория вероятностей / И. А. Палий. ? М. : ИНФРА-М, 2017. - 236 с.

4. Уокенбах Дж. Excel 2016. Библия пользователя / Уокенбах Дж. ? Издательство :ДИАЛЕКТИКА, 2019. - 1040 с.

Размещено на Allbest.ru


Подобные документы

  • Критерий согласия – критерий проверки гипотезы о предполагаемом законе распределения генеральной совокупности. Критерий Колмогорова-Смирнова и его практическое применение. Критические значения статистик Стефенса. Критерии Пирсона и Смирнова-Крамера.

    курсовая работа [629,9 K], добавлен 26.08.2012

  • Статическая проверка статистических гипотез. Ошибки первого и второго рода. Числовые характеристики случайной величины, распределенной по биномиальному закону. Проверка гипотезы о биномиальном распределении генеральной совокупности по критерию Пирсона.

    курсовая работа [674,3 K], добавлен 03.05.2011

  • Случайная выборка значений двух случайных величин для исследования их совместного распределения. Диаграмма рассеяния опытных данных для четырех видов распределения. Вычисление коэффициента корреляции при большом объеме выборок; проверка его значимости.

    реферат [811,7 K], добавлен 27.01.2013

  • Случайная выборка объема как совокупность независимых случайных величин. Математическая модель в одинаковых условиях независимых измерений. Определение длины интервала по формуле Стерджесса. Плотность относительных частот, критерий согласия Пирсона.

    контрольная работа [90,4 K], добавлен 17.10.2009

  • Критерии выбросов в случае нормального распределения, их асимптотические свойства и эмпирическая мощность. Исследование распределения статистик по критериям Колмогорова и Смирнова. Реализация критериев определения выбросов в статистическом пакете R.

    курсовая работа [521,9 K], добавлен 10.01.2016

  • Классическое, статистическое и геометрическое определения вероятности. Дискретные случайные величины и законы их распределения. Числовые характеристики системы случайных величин. Законы равномерного и нормального распределения систем случайных величин.

    дипломная работа [797,0 K], добавлен 25.02.2011

  • Проведение проверки гипотезы о нормальности закона распределения вероятности результатов измерения случайной величины по критерию согласия Пирсона. Определение ошибок в массивах данных: расчет периферийных значений, проверка серии на равнорассеянность.

    контрольная работа [1,8 M], добавлен 28.11.2011

  • Числовые характеристики выборки. Статистический ряд и функция распределения. Понятие и графическое представление статистической совокупности. Метод наибольшего правдоподобия для нахождения плотности распределения. Применение метода наименьших квадратов.

    контрольная работа [62,6 K], добавлен 20.02.2011

  • Основные понятия математической статистики, интервальные оценки. Метод моментов и метод максимального правдоподобия. Проверка статистических гипотез о виде закона распределения при помощи критерия Пирсона. Свойства оценок, непрерывные распределения.

    курсовая работа [549,1 K], добавлен 07.08.2013

  • Ознакомление с механизмом проверки гипотезы для случая единственной выборки, двух и нескольких независимых выборок. Проверка совпадений карт, выбор фильмов разных жанров. Обоснование результатов, полученных после проверки статистических гипотез.

    курсовая работа [726,2 K], добавлен 26.02.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.