Непараметрические методы проверки статистических гипотез
Анализ структуры взаимосвязей признаков по данным трехмерной таблицы сопряженности с помощью логлинейных моделей. Непараметрические методы проверки гипотез об однородности распределения двух совокупностей. Модели двухфакторного дисперсионного анализа.
Рубрика | Экономико-математическое моделирование |
Вид | отчет по практике |
Язык | русский |
Дата добавления | 01.10.2013 |
Размер файла | 388,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
42
Министерство образования и науки Российской Федерации
ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ
ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
«ОРЕНБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»
Факультет экономики и управления
Кафедра математических методов и моделей в экономике
ОТЧЕТ
по учебной - вычислительной практике
на базе кафедры математических методов и моделей в экономике
ГОУ ОГУ 080116.65.9011.06 П
Исполнитель
Студент группы 09 ММЭ Д.А. Евдокимов
Руководители от кафедры:
доцент, заведующий кафедры ММиМЭ А.Г. Реннер
ассистент кафедры ММиМЭ Р.М. Шаяхметова
ассистент кафедры ММиМЭ Т.А. Зеленина
Оренбург 2011
Содержание
Задание практики
1. Непараметрические методы проверки статистических гипотез
1.1 Непараметрические методы исследования взаимосвязи между случайными величинами
1.1.1 Анализ таблиц сопряжённости
1.1.2 Логлинейный анализ
1.2 Непараметрические методы проверки гипотез об однородности распределения двух совокупностей
1.3 Дисперсионный анализ
1.3.1 Параметрический дисперсионный анализ
1.3.2 Непараметрический дисперсионный анализ
Задание практики
Задание 1: В результате опроса получено следующее распределение покупателей фирмы «N» по их мнению о качестве товаров:
Пол покупателя |
Удовлетворены качеством |
Не удовлетворены качеством |
|
Мужчины |
476 |
65 |
|
Женщины |
352 |
63 |
По данным таблицы сопряженности 2*2 при уровне значимости проверить гипотезу о независимости признаков «Пол покупателя» и «Удовлетворенность качеством товаров». Вычислить оценки коэффициентов связи. Сделать вывод.
Задание 2: В результате опроса получено следующее распределение респондентов по планам участия в выборах и знакомству с программами кандидатов в депутаты:
Знакомы с программами |
Не знакомы |
Уклонились от ответа |
||
Планируют участвовать |
506 |
410 |
18 |
|
Планируют не участвовать |
25 |
58 |
53 |
|
Затруднились ответить |
33 |
30 |
48 |
По данным двумерной таблицы сопряженности при уровне значимости проверить гипотезу о независимости признаков «Намерение относительно предстоящих выборов» и «Знакомство с программами кандидатов». Вычислить оценки коэффициентов связи. Сделать вывод.
Задание 3: В результате опроса получено следующее распределение клиентов фирмы «N» по их мнению о сроках исполнения заказов и качестве работ:
Клиенты фирмы «N» |
Удовлетворенность сроками |
Удовлетворенность качеством |
||
Удовлетворены |
Не удовлетворены |
|||
Организации |
Да |
391 |
43 |
|
Нет |
85 |
22 |
||
Частные лица |
Да |
309 |
45 |
|
Нет |
143 |
18 |
По данным трехмерной таблицы сопряженности исследовать с помощью логлинейных моделей структуру взаимосвязей признаков «Клиент фирмы», «Удовлетворенность сроками», «Удовлетворенность качеством». Уровень значимости . Сформулировать выводы.
Задание 4: Имеется информация о времени решения контрольных задач одиннадцатью учащимися до и после специальных упражнений по устному счету.
Учащийся |
Время решения, сек |
||
До упражнений |
После упражнений |
||
1 |
87 |
50 |
|
2 |
61 |
45 |
|
3 |
98 |
79 |
|
4 |
90 |
90 |
|
5 |
93 |
88 |
|
6 |
74 |
65 |
|
7 |
83 |
52 |
|
8 |
72 |
79 |
|
9 |
81 |
84 |
|
10 |
75 |
61 |
|
11 |
83 |
52 |
Предполагая, что число задач и их сложность не изменились, с помощью критерия «Хи-квадрат» проверить гипотезу о согласии распределений числа времени решения задач до и после упражнений. С помощью рангового критерия Уилкоксона и критерия знаков Фишера проверить гипотезу об отсутствии влияния упражнений на продолжительность решения контрольных задач. Если время решения задач после упражнений изменилось, то определить в какую сторону и оценить на сколько.
Задание 5: Имеется информация о числе бракованных деталей в партиях товара, произведенных двумя цехами. Известно, что во втором цехе недавно было установлено новое оборудование.
Число бракованных деталей в первом цехе |
10 |
8 |
5 |
11 |
8 |
7 |
6 |
9 |
9 |
12 |
|
Число бракованных деталей во втором цехе |
8 |
5 |
7 |
7 |
12 |
5 |
6 |
4 |
С помощью различных критериев на уровне значимости 0,05 проверить гипотезу об отсутствии влияния замены оборудования на число бракованных деталей в партии.
Задание 6: При исследовании влияния стажа работы на производительность труда (количество деталей в день) в одном из цехов завода получен следующий однофакторный дисперсионный комплекс (таблица А1):
Номер наблюдения |
Стаж работы рабочих (лет) |
||||
До 5 |
5-10 |
10-15 |
15-20 |
||
1 |
147 |
149 |
155 |
160 |
|
2 |
149 |
150 |
149 |
163 |
|
3 |
153 |
152 |
156 |
166 |
|
4 |
148 |
161 |
|||
5 |
160 |
Предполагая, что фактор имеет случайные уровни, а значения результативного признака распределены нормально, требуется:
а) проверить при =0,05 существенность влияния фактора на результативный признак;
б) с надежностью =0,99 найти интервальную оценку остаточной дисперсии 2;
в) найти значение несмещенной оценки дисперсии, обусловленной случайными уровнями фактора.
Предполагая, что фактор имеет фиксированные уровни, а значения результативного признака распределены нормально, требуется:
а) проверить при =0,01 существенность влияния фактора на результативный признак;
б) проверить при =0,05 существенность влияния фактора на втором и третьем уровнях на результативный признак;
в) проверить при =0,05 гипотезу относительно равенства общей средней заданному номиналу.
Задание 7: В двухфакторном комплексе приводится сменная выработка рабочего в зависимости от типа станка (А) и стажа его работы (В). При =0.01 проверить влияние факторов А и В на сменную выработку рабочего:
А1 |
А2 |
А3 |
||
В1 |
208 |
203 |
202 |
|
В2 |
192 |
195 |
193 |
|
В3 |
198 |
201 |
203 |
Задание 8: Имеются данные о содержании иммуноглобулина в сыворотке крови (в мг %) у больных четырех возрастных групп:
Возрастная группа |
||||
1 |
2 |
3 |
4 |
|
84 |
82 |
85 |
89 |
|
85 |
85 |
87 |
90 |
|
84 |
85 |
87 |
90 |
|
82 |
88 |
88 |
91 |
|
87 |
87 |
88 |
92 |
|
- |
90 |
83 |
87 |
|
- |
89 |
88 |
88 |
|
- |
- |
83 |
85 |
|
- |
- |
- |
89 |
|
- |
- |
- |
91 |
Проверить гипотезу о совпадении содержания иммуноглобулина у всех возрастных групп.
Задание 9: Кинопленки четырех видов были оценены тремя экспертами для определения лучшей их них. Каждому эксперту предложили упорядочить пленки по степени предпочтения. Наибольший балл соответствует пленке самого лучшего качества. Баллы, проставленные экспертами, приведены в таблице:
Эксперты |
Вид пленки |
||||
1 |
2 |
3 |
4 |
||
1 |
2 |
1 |
3 |
2 |
|
2 |
2 |
2 |
3 |
3 |
|
3 |
2 |
1 |
4 |
3 |
Предполагается, что на результат оценки качества пленки оказывают влияние два фактора: вид пленки и индивидуальные особенности экспертов при оценке пленок одного и того же вида. Требуется определить, различаются ли виды пленок по качеству.
1. Непараметрические методы проверки статистических гипотез
1.1. Непараметрические методы исследования взаимосвязи между случайными величинами
1.1.1. Анализ таблиц сопряжённости
Рассмотрим два номинальных признака Х и Y. Признак Х может принимать значения Х1, X2,…,Xr, а признак Y принимает значения Y1, Y2,…,Ys.
Размещено на http://www.allbest.ru/
42
Будем предполагать, что выборка сформирована методом перекрестного отбора, то есть из генеральной совокупности случайным образом отобрано n объектов, и для каждого из них зафиксированы значения признаков X и Y.
Выдвинем гипотезы:
где pij - вероятность того, что Х=Хi и Y=Yj; pi* - вероятность того, что Х=Хi; pj* - вероятность того, что Y=Yj;
Для проверки гипотезы по критерию Пирсона используется статистика
.
При справедливости Н0 эта статистика имеет распределение ч2 с числом степеней свободы н=(r-1)(s-1). Так как r=s=2, то н=1.
Меры связи признаков Х и Y таблицы сопряженности 2*2:
1. Фи-коэффициент
2. Коэффициент сопряженности Пирсона
3. Коэффициент контингенции
4. Тау-коэффициент Гудмана и Краскала
5. Коэффициент ассоциации (коэффициент Юла)
При n>? ,
Доверительный интервал с надежностью г для коэффициента ассоциации:
6. Коэффициент коллигации
7. Отношение перекрестных произведений
Меры связи признаков Х и Y таблицы сопряженности r*s:
1) Меры связи, основанные на статистике «Хи-квадрат»
1. Фи-коэффициент
2. Коэффициент Чупрова
3. Коэффициент Крамера
4. Коэффициент сопряженности Пирсона
При n>? последние три коэффициента согласно закону больших чисел подчиняются нормальному закону распределения.
где
Доверительные интервалы с доверительной вероятностью г для генеральных коэффициентов сопряженности:
2) Меры связи Гудмана и Краскала ла, лв, л.
лв - асимметричный коэффициент, изучает зависимость Y от Х.
,
где nimax - максимальная частота i-й строки; n*max - максимальный элемент итоговой строки.
Значение коэффициента лв показывает, что вероятность ошибки предсказания признака Y при известной информации о принадлежности наблюдения к классу признака Х снизится на лв*100% по сравнению с ситуацией, когда такой информации нет.
Интервальная оценка - генеральной оценки коэффициента лв;
- сумма только таких максимальных элементов строк nimax, для которых значения i обеспечивают попадание как раз в тот столбец, где находится наибольший итог.
ла эквивалентен лв с учетом перемены строк и столбцов между собой, является асимметричным коэффициентом, определяет степень зависимости Х от Y.
,
где nmaxj - максимальная частота j-го столбца; nmax* - максимальный элемент итогового столбца.
Коэффициент ла показывает, что улучшение средней величины относительного изменения вероятности ошибки предсказания категории признака, располагающегося по столбцам таблицы, при изменении категории признака, располагающегося по строкам, составит ла *100%.
Для получения интервальных оценок воспользуемся статистикой, имеющей приближенное единичное нормальное распределение:
- генеральная оценка коэффициента лв; - сумма только таких максимальных элементов столбцов nmaxj, для которых значения j обеспечивают попадание в ту строку, где находится наибольший итог.
Если при анализе таблиц сопряженности не интересует последовательность расположения классов по признакам, то есть не важно, зависит Х от Y или наоборот, то используется коэффициент л. Этот коэффициент находит усредненную величину прогноза между переменными.
3) Меры связи Гудмана и Краскала фа, фв, ф.
При построении коэффициентов л возникают трудности, связанные с обращением коэффициентов л в ноль. Коэффициенты фа, фв, ф лишены этих недостатков. ф-меры предсказывают различные категории в пропорции, которая имеет место для их наблюдаемых итогов.
Коэффициент фв сравнивает случайный, пропорциональный прогноз признака Y со вторым признаком Х и рассчитывает условное, пропорциональное предсказание класса Y, при предположении, что имеется информация о принадлежности объекта к одному из классов признака Х. Этот коэффициент связи является асимметричным.
При прогнозировании категорий признака Х в зависимости от Y, то есть строк таблицы сопряженности в зависимости от столбцов, применяется коэффициент фа:
Данная мера показывает, что неправильный прогноз категории признака Х для случайно взятого объекта при условном пропорциональном прогнозировании по сравнению с безусловным пропорциональном прогнозом уменьшится на *100%.
Для получения симметричной меры ф случайно выбранный объект с вероятностью Ѕ прогнозируется по признаку Х или по признаку Y. Этот симметричный коэффициент получается в виде усредненных коэффициентов фа, фв:
1.1.2 Логлинейный анализ
Логлинейная модель называется насыщенной, если она включает влияние всех факторов и всех взаимодействий факторов. Насыщенная логлинейная модель для трёхмерной таблицы сопряжённости размерности (r x s x t) имеет вид , где для насыщенной модели . - среднее значение логарифма частоты (общий эффект), - влияние признака Х, - влияние признака Y, - влияние признака Z, - влияние взаимодействия признаков X и Y, - влияние взаимодействия всех трёх признаков.
Ограничения на параметры насыщенной логлинейной модели имеют вид
.
Для трёхмерной таблицы сопряжённости можно построить 18 иерархических ненасыщенных моделей. Логлинейная модель называется иерархической, если выполняется правило: если в модель включён параметр, зависящий от множества p факторов, то в модель должны быть включены и все параметры, зависящие от любого подмножества факторов из множества p. Пример модели, не являющейся иерархической: .
Выполнение задания 1
Рассчитаем теоретические частоты в таблице сопряжённости:
Таблица 1 - теоретические частоты в таблице сопряжённости
Удовл |
Не удовл |
|||
Мужчины |
468,5649 |
72,43515 |
541 |
|
Женщины |
359,4351 |
55,56485 |
415 |
|
828 |
128 |
956 |
Проверим гипотезу (о независимости значения признака «Удовлетворённость качеством» от пола покупателя), используя критерий «Хи-квадрат». , . , следовательно, гипотезу о независимости принимаем на уровне значимости 0,05.
Вычислим оценки коэффициентов связи: , , , , , , , , , , , .
По малым значениям коэффициентов связи мы можем судить о независимости признаков.
Выполнение задания 2
Рассчитаем теоретические частоты в таблице сопряжённости:
Таблица 2 - теоретические частоты в таблице сопряжённости.
Знакомы |
Не знак. |
Уклонилсь |
|||
Участвуют |
446,04234 |
393,84589 |
94,1117697 |
934 |
|
Не участвуют |
64,948349 |
57,34801 |
13,703641 |
136 |
|
Затруднились |
53,009314 |
46,806097 |
11,1845893 |
111 |
|
564 |
498 |
119 |
1181 |
Проверим гипотезу (о независимости значения признака «Знакомы с программами депутатов» от готовности участия в выборах), используя критерий «Хи-квадрат». , . , значит, гипотезу о независимости отвергаем на уровне значимости 0,05.
Вычислим оценки коэффициентов связи: , , , , , , , , , .
По значениям коэффициентов связи делаем вывод - существует слабая связь между значениями признаков «Знакомы с программами депутатов» и «Готовность к участию в выборах». Исходя из значения коэффициентов и , можем сделать вывод о наличии связи средней силы.
Построим доверительные интервалы для коэффициентов связи: , , , , .
Выполнение задания 3
Насыщенная модель имеет вид
Рассчитаем параметры для насыщенной модели и проверим их значимость:
Коэф-ты |
Нормир. |
Значим? |
||
u0 |
4,332103 |
83,79929 |
Значим |
|
u1(a) |
-0,0162 |
-0,31341 |
Незначим |
|
u1(b) |
0,485375 |
9,388996 |
Значим |
|
u1(с) |
0,944783 |
18,27569 |
Значим |
|
u2(a) |
0,016202 |
0,313415 |
Незначим |
|
u2(b) |
-0,48538 |
-9,389 |
Значим |
|
u2(с) |
-0,94478 |
-18,2757 |
Значим |
|
u11(ab) |
0,063678 |
1,23178 |
Незначим |
|
u11(aс) |
-0,055 |
-1,06399 |
Незначим |
|
u11(bс) |
0,088763 |
1,717014 |
Незначим |
|
u12(ab) |
-0,06368 |
-1,23178 |
Незначим |
|
u12(aс) |
0,055004 |
1,063994 |
Незначим |
|
u12(bс) |
-0,08876 |
-1,71701 |
Незначим |
|
u21(ab) |
-0,06368 |
-1,23178 |
Незначим |
|
u21(aс) |
0,055004 |
1,063994 |
Незначим |
|
u21(bc) |
-0,06368 |
-1,23178 |
Незначим |
|
u22(aс) |
0,063678 |
1,23178 |
Незначим |
|
u22(ab) |
-0,055 |
-1,06399 |
Незначим |
|
u22(bс) |
0,088763 |
1,717014 |
Незначим |
|
u111(abc) |
0,125212 |
2,422067 |
Значим |
|
u112(abc) |
-0,12521 |
-2,42207 |
Значим |
|
u121(abc) |
-0,12521 |
-2,42207 |
Значим |
|
u122(abc) |
0,125212 |
2,422067 |
Значим |
|
u211(abc) |
-0,12521 |
-2,42207 |
Значим |
|
u212(abc) |
0,125212 |
2,422067 |
Значим |
|
u221(abc) |
0,125212 |
2,422067 |
Значим |
|
u222(abc) |
-0,12521 |
-2,42207 |
Значим |
Из таблицы следует, что значимое влияние на исследуемые показатели оказывают факторы «Удовлетворённость сроками» и «Удовлетворённость качеством», а также взаимодействие всех трёх факторов (включая «Клиенты фирмы»).
Рисунок 1 - проверка модели AB/BC в программном пакете Statistica
Среди ненасыщенных иерархических моделей наиболее адекватной является модель AB/BC. Она имеет вид Рассчитаем теоретические частоты и оценки коэффициентов в модели AB/BC.
Теоретические частоты в трёхмерной таблице сопряжённости:
Удовл. сроками |
Удовл. кач-вом |
|||
Да |
Нет |
|||
Орг-ии |
Да |
385,53299 |
48,46701 |
|
Нет |
91,029851 |
15,97015 |
||
Частные лица |
Да |
314,46701 |
39,53299 |
|
Нет |
136,97015 |
24,02985 |
Получим , . , следовательно, данная ненасыщенная модель адекватна исходным данным.
Рассчитаем параметры для данной ненасыщенной модели:
Коэф-ты |
Нормир. |
Значим? |
||
u0 |
4,330562 |
83,00143 |
Значим |
|
u11(ab) |
0,153081 |
2,934013 |
Значим |
|
u11(bс) |
0,083319 |
1,596935 |
Незначим |
|
u12(ab) |
-0,15308 |
-2,93401 |
Значим |
|
u12(bс) |
-0,08332 |
-1,59693 |
Незначим |
|
u21(ab) |
-0,15308 |
-2,93401 |
Значим |
|
u21(bс) |
-0,08332 |
-1,59693 |
Незначим |
|
u22(ab) |
0,153081 |
-2,93401 |
Значим |
|
u22(bс) |
0,083319 |
2,934013 |
Значим |
Из таблицы следует, что значимое влияние на результативный показатель оказывает взаимодействие факторов «Клиенты фирмы» и «Удовлетворённость сроками».
1.2 Непараметрические методы проверки гипотез об однородности распределения двух совокупностей
Исходные данные представляют собой повторные парные наблюдения или попарно связанные выборки, то есть когда для каждого объекта Oi (i=1,n) имеется два значения: xi и yi («до обработки» и «после обработки»).
объект |
|||
1 |
|||
2 |
|||
… |
… |
… |
|
n |
Ставится задача выяснить, есть ли эффект «обработки».
Решение такой задачи сводится к проверке гипотезы об однородности распределения совокупностей Х и Y.
1. С помощью критерия Хи-квадрат проверяется гипотеза о согласии распределений совокупностей Х и Y.
Рассматриваются зависимые выборки Х и Y объемом n. Выберем распределение FX(x) случайной величины Х за теоретическое и проверим гипотезу о согласии распределений совокупностей Х и Y. Выдвинем гипотезы:
Для проверки этой гипотезы воспользуемся критерием ч2:
.
При n>? эта статистика распределена по закону ч2 с числом степеней свободы н=n-1.
2. С помощью рангового критерия Вилкоксона и критерия знаков Фишера проверяется гипотеза об отсутствии эффекта «обработки».
Решение задачи об определении влияния эффекта «обработки» сводится к проверке гипотезы об однородности распределения двух зависимых совокупностей X и Y.
Рассматривается модель вида:
,
где и - неизвестный параметр, характеризующий сдвиг совокупности; ei, i=1,n - ненаблюдаемая случайная величина, характеризующая отклонения zi и и.
Выдвигаются гипотезы:
(совокупности Х и Y не различаются по характеристике положения), (совокупности Х и Y различаются по характеристике положения)
Проверка нулевой гипотезы осуществляется с помощью критерия знаковых рангов Вилкоксона и критерия знаков Фишера.
При проверки гипотезы Н0 с помощью критерия знаковых рангов Вилкоксона на еi накладываются следующие ограничения:
1) все еi i=1,n, взаимонезависимы;
2) еi принадлежат непрерывно совокупности (не обязательно одной и той же), симметричной относительно нуля.
Статистика положительных ранговых знаков Вилкоксона имеет вид:
,
где Ri - ранги |zi| в совокупности, упорядоченной по увеличению абсолютных разностей; .
Если zi=0, то эти значения исключаются, в результате чего объем выборки n уменьшается.
При объеме выборки n>? статистика имеет нормальный закон распределения:
Для проверки гипотезы также может использоваться критерий знаков Фишера. В этом случае на еi накладываются следующие ограничения:
1. Все еi взаимно независимы;
2. Все ei извлечены из непрерывной (не обязательно одной и той же) совокупности, имеющей медиану, равную нулю.
Критерий знаков Фишера накладывает на параметры ei более слабые ограничения, следовательно, критерий знаковых рангов Вилкоксона более мощный.
Для построения критерия Фишера определяются счетчики .
Статистика знаков Фишера имеет вид:.
Значения критических точек этой статистики затабулированы.
В условиях справедливости нулевой гипотезы статистика имеет асимптотическое стандартное нормальное распределение.
3. Если гипотеза об отсутствии эффекта «обработки» отвергнута, необходимо оценить параметр, характеризующий сдвиг совокупности.
Определяются точечные и интервальные оценки параметра сдвига и.
Точечная оценка и Ходжеса-Лемана, основанная на статистике знаковых рангов Вилкоксона, рассчитывается по формуле:
,
где М=n(n+1)/2; wj, j=1,M - упорядоченные по возрастанию средние значения .
Проверяются гипотезы . Для этого необходимо при реализации критерия Вилкоксона рассматривать не zi, а .
Если гипотеза не отвергается, необходимо построить доверительный интервал для статистики и с надежностью г:
Строится упорядоченная совокупность
Границы доверительного интервала (иl; иu) определяются следующим образом:
При объеме выборки n>? статистика Вилкоксона распределена нормально, поэтому число сб находится по формуле
.
Выполнение задания 4
Имеем зависимые совокупности.
Проверим гипотезу (об однородности распределения совокупности до и после обработки) с помощью критерия .
Получаем , . Поскольку , гипотезу Н0 отвергаем, следовательно, распределения совокупностей неоднородны. Оценим параметр сдвига.
Выдвинем гипотезу .
Вычислим значения статистик Фишера и Вилкоксона:
Wilcoxon Matched Pairs Test (Spreadsheet1) Marked tests are significant at p <,05000
Valid |
T |
Z |
p-level |
||
Y & X |
10 |
4,000000 |
2,191691 |
0,028403 |
Sign Test (Spreadsheet1) Marked tests are significant at p <,05000
No. of |
Percent |
Z |
p-level |
||
Y & X |
9 |
77,77778 |
1,333333 |
0,182422 |
Так как критерий Вилкоксона является более мощным, то мы отвергаем гипотезу Н0 об отсутствии эффекта обработки.
Найдём сдвиг. M - чётное, значит Получим оценку сдвига. Следовательно, работа со специальными упражнениями ускорила решение примеров в среднем на 14 секунд.
Вычислим значения статистик Фишера и Вилкоксона с учётом сдвига:
Sign Test (Spreadsheet1) Marked tests are significant at p <,05000
No. of |
Percent |
Z |
p-level |
||
X & Y-Teta |
9 |
55,55556 |
0,000000 |
1,000000 |
Wilcoxon Matched Pairs Test (Spreadsheet1) Marked tests are significant at p <,05000
Valid |
T |
Z |
p-level |
||
X & Y-Teta |
10 |
19,00000 |
0,414644 |
0,678403 |
Так как значения статистик Фишера и Вилкоксона больше 0,05, следовательно, оценка сдвига адекватна.
Найдём доверительный интервал для эффекта обработки с доверительной вероятностью г=0,95. Вычислим . Находим границы доверительного интервала .
Выполнение задания 5
Имеем независимые совокупности.
Проверим гипотезу (об однородности распределения совокупности до и после обработки) с помощью критерия . Получаем , . , следовательно, гипотезу об однородности распределения совокупности до и после обработки принимаем.
Wald-Wolfowitz Runs Test (Spreadsheet2.sta) By variable 2 Marked tests are significant at p <,05000
Valid N - Group 1 |
Valid N - Group 2 |
Mean - Group 1 |
Mean - Group 2 |
Z |
p-level |
Z adjstd |
p-level |
No. of - Runs |
No. of - ties |
||
1 |
10 |
8 |
8,500000 |
6,750000 |
0,054708 |
0,956371 |
-0,191478 |
0,848151 |
10 |
5 |
Kolmogorov-Smirnov Test (Spreadsheet2.sta) By variable 2 Marked tests are significant at p <,05000
Max Neg - Differnc |
Max Pos - Differnc |
p-level |
Mean - Group 1 |
Mean - Group 2 |
Std.Dev. - Group 1 |
Std.Dev. - Group 2 |
Valid N - Group 1 |
Valid N - Group 2 |
||
1 |
-0,025000 |
0,450000 |
p > .10 |
8,500000 |
6,750000 |
2,173067 |
2,492847 |
10 |
8 |
Mann-Whitney U Test (Spreadsheet2.sta) By variable 2 Marked tests are significant at p <,05000
Rank Sum - Group 1 |
Rank Sum - Group 2 |
U |
Z |
p-level |
Z - adjusted |
p-level |
Valid N - Group 1 |
Valid N - Group 2 |
2*1sided - exact p |
||
1 |
114,0000 |
57,00000 |
21,00000 |
1,688194 |
0,091375 |
1,701415 |
0,088866 |
10 |
8 |
0,101102 |
0,848>0,05, 0,1>0,05, 0,089>0,05, следовательно, гипотезу принимаем.
1.3 Дисперсионный анализ
1.3.1 Параметрический дисперсионный анализ
Дисперсионный анализ предназначен для проверки наличия зависимости нормально распределенной результативной случайной величины Y от нескольких факторов (факторных величин), а именно для выявления причинно-следственной связи между вариацией факторов и вариацией результативных признаков. Суть дисперсионного анализа состоит в разложении дисперсии признака на составляющие, обусловленные влиянием конкретных факторов и проверке гипотез о значимости их влияния. Модели дисперсионного анализа будем классифицировать:
1) в зависимости от числа факторов - на однофакторные, двухфакторные и т.д.;
2) по природе факторов - на детерминированные (М1), случайные (М2) и смешанные, в зависимости от того какими являются уровни факторов.
Однофакторный анализ
Пусть требуется проверить наличие влияния на результативный признак одного контролируемого фактора А, имеющего m уровней , . Наблюдаемые значения результативного признака Y на каждом из фиксированных уровней обозначим , , где - число объектов наблюдения. Любое наблюдение можно представить в виде
, , ,
где а - генеральная средняя результативного признака; - влияние (эффект) фактора на j-ом уровне; - случайные величины (остатки), отражающие влияние на Y всех неконтролируемых факторов.
Относительно будем предполагать, что они распределены нормально и удовлетворяют следующим условиям: ; или ; - остаточная дисперсия.
В зависимости от изучаемой модели относительно предполагаем: модель М1 - - фиксированные величины, такие что и основная гипотеза H0: , то есть нет влияния фактора А на Y;
модель М2 - - случайные величины, удовлетворяющие условиям - ; ; ; - факторная дисперсия. Основная гипотеза H0: : нет влияния фактора А на Y.
Для проверки основной гипотезы дисперсионного анализа, утверждающей, что нет влияние фактора А (уровней фактора А) на изменение результативного признака, вычислим следующие статистики
- групповые средние (средние уровней );
- общая средняя результативного признака,
где .
Определим две дисперсии: межгрупповую (дисперсию групповых средних) или факторную, обусловленную влиянием изучаемого фактора и внутригрупповую (остаточную), величина которой рассматривается как случайная. Необходимые суммы квадратов отклонений обозначим:
- факторная сумма квадратов отклонений;
- остаточная сумма квадратов отклонений;
- общая сумма квадратов отклонений.
Легко проверить
Несмещенные оценки общей, факторной и остаточной дисперсий
; ; .
Если влияние фактора отсутствует, то и можно рассматривать как независимые оценки дисперсии всей совокупности. Наоборот, если фактор оказывает существенное влияние на результативный признак, то отношение : будет расти и превзойдет некоторый критический предел. Таким образом, первоначальную гипотезу Н0 можно заменить такой Н0: = . Для проверки нулевой гипотезы рассмотрим статистику:
,
распределенную, очевидно, по закону Фишера-Снедекора со и степенями свободы. Если , то гипотеза не отвергается, то есть влияние фактора А на результативный признак не доказано. Если , то Н0 отвергается и с вероятностью ошибки можно утверждать: влияние фактора А на результативный признак существенно.
Если влияние фактора доказано, то можно проверить гипотезы:
1) Н0: - о равенстве двух средних выбранных уровней с помощью статистики
,
распределенной по закону Фишера-Снедекора с и
2) При проверке гипотезы Н0: а=а0 используется:
в случае модели М1 статистика, имеющая F - распределение с и ;
в случае модели М2 и статистика , имеющая F - распределение с и .
Несмещенную точечную оценку для факторной дисперсии, в случае отклонения нулевой гипотезы, можно уточнить .
Интервальная оценка для с надежностью
.
Двухфакторный дисперсионный анализ
Будем исследовать влияние двух факторов А и В на результативный нормально распределенный признак Y; , ; , - уровни факторов. Рассмотрим два случая.
I. Пусть каждой паре уровней факторов и соответствует одно наблюдаемое значение результативного признака , то есть наблюденные значение можно представить в виде таблицы с двумя входами.
Таблица 3.1
Аi Bj |
B1 |
B2 |
… |
Bl |
|
А1 |
y11 |
y12 |
… |
y1l |
|
А2 |
y21 |
y22 |
… |
y2l |
|
… |
… |
… |
… |
… |
|
Аm |
ym1 |
ym2 |
… |
yml |
В этом случае модель дисперсионного анализа будем рассматривать в виде: , где а - общая генеральная средняя; - независимые нормально распределенные остатки, с и , ;; - отклонения от а, обусловленные влиянием соответствующих уровней факторов А и В.
Если уровни факторов и фиксированные (модель М1), то и есть неслучайные величины, удовлетворяющие очевидным условиям ; .
Нулевые гипотезы формулируются в виде:
Н0: , ; Н0: , ;
Если уровни факторов и случайные, то и будем считать независимыми между собой и с случайными величинами распределенными нормально с и ; . Отсутствие влияния уровней факторов на изменения результативного признака - нулевые гипотезы - формально записывается в виде:
Н0: ; Н0: .
Если уровни фактора А - случайные, а В - фиксированные (смешанная модель), то независимые между собой и с случайные величины с , ; - неслучайные величины, удовлетворяющие условию . Нулевые гипотезы об отсутствии влияния уровней факторов на изменения результативного признака формулируются в виде:
Н0: ; Н0: , .
Аналогично строится смешанная модель, в которой фактор А имеет фиксированные уровни, а фактор В - случайные.
Построим разложение:
где ; ;
Для проверки нулевой гипотезы об отсутствии влияния одного из факторов рассматриваем статистику, (где ), распределенную, очевидно, по закону Фишера-Снедекора с и степенями свободы.
II. В общем случае, когда для каждой пары уровней и имеется n(n>1) наблюдений.
Аi Bj |
B1 |
B2 |
… |
Bl |
|
А1 |
y111, y112,…, y11n |
y121, y122,…, y12n |
… |
y1l1, y1l2,…, y1ln |
|
А2 |
y211, y212,…, y21n |
y221, y222,…, y22n |
… |
y2l1, y2l2,…, y2ln |
|
… |
… |
… |
… |
… |
|
Аm |
ym11, ym12,…, ym1n |
ym21, ym22,…, ym2n |
… |
yml1, yml2,…, ymln |
Модель дисперсионного анализа представим в виде, , , где - к-ое наблюдение результативного признака для i-го уровня фактора А и j-го уровня фактора В; а - общая генеральная средняя; - отклонения от а, обусловленные влиянием соответствующих уровней Аi и Вj; - отклонения от а, обусловленные совместным влиянием уровней факторов А и В; и независимы между собой.
Если уровни факторов Аi и Вj фиксированные (модель М1), то отклонения и - неслучайные величины, удовлетворяющие условиям:; ; ; .
Сформулируем гипотезы об отсутствии влияния:
фактора А - Н0: ; ; фактора В - Н0: ; ;
совместного влияния факторов А и В - Н0: ;;.
В случае модели М2 и есть независимые между собой и с случайные величины, распределенные нормально с нулевым математическим ожиданием и с дисперсиями , и . Сформулируем нулевые гипотезы от отсутствии влияния:
фактора А - Н0: ; фактора В - Н0: ;
совместного влияния факторов А и В - Н0: .
Для смешанной модели, когда, к примеру, уровни фактора А случайные, а фактора В - фиксированные, отклонения и независимые между собой и с нормально распределены случайные величины с нулевыми математическими ожиданиями, с дисперсиями и , при этом , а ; .
Нулевые гипотезы об отсутствии влиянием факторов имеют вид:
фактора А - Н0: ; фактора В - Н0: ; ;
совместного влияния факторов А и В - Н0: .`
Аналогично строится другая смешанная модель. Разложив, как и при n=1, общую сумму квадратов на составляющие:
, ; ;
Приведем в нижеследующей таблице схему проверки основных гипотез для различных моделей двухфакторного дисперсионного анализа.
Вариации |
Сумма квадратов |
Число степеней свободы |
Несмещенные оценки дисперсий |
М1 |
М2 |
Смешанная модель |
||
А - случай |
В - случай |
|||||||
Fнабл. |
Fнабл. |
Fнабл. |
Fнабл. |
|||||
А В АВ Остат. |
QА QВ QАВ Qост |
m-1 l-1 (m-1)(l-1) ml(n-1) |
1 QА/(m-1) 2 QВ/(l-1) 3 QАВ/(m-1)(l-1) 4 Qост/ml(n-1) |
1 : 4 2 : 4 3 : 4 |
1 : 3 2 : 3 3 : 4 |
1 : 4 2 : 3 3 : 4 |
1 : 3 2 : 4 3 : 4 |
1.3.2 Непараметрический дисперсионный анализ
Непараметрический дисперсионный анализ предназначен для проверки наличия зависимости количественной результативной случайной величины Y от нескольких факторов (факторных величин), а именно для выявления причинно-следственной связи между вариацией факторов и вариацией результативных признаков. Среди факторов будем различать случайные и неслучайные величины, измеряемые в любой из шкал: интервальной, порядковой или номинальной. При этом, в отличие от параметрического дисперсионного анализа, закон распределения случайной величины Y отличен от нормального.
Однофакторный непараметрический дисперсионный анализ
Для проверки однородности распределения более двух независимых совокупностей используется дисперсионный анализ. Непараметрическими альтернативами однофакторного дисперсионного анализа являются критерии Краскела-Уоллеса и медианный тест.
Исходными данными являются выборки из k независимых генеральных совокупностей объемами n1,n2,…,nk.
,
где xij - значение признака для i-го объекта наблюдения, извлеченного из j-й генеральной совокупности; j=1,k; i=1,nj.
Рассматривается модель вида
,
где µ - неизвестная общая средняя; фj - эффект j-го «наблюдения»; eij - случайные величины.
При этом , а все eij - взаимонезависимы, извлечены из одной и той же генеральной совокупности.
Ставится задача: выяснить, влияют ли уровни качественного признака на значения результативного показателя. Другими словами, являются ли распределения k независимых случайных величин однородными. Для этого выдвигается гипотеза
При справедливости гипотезы Н0 все выборки можно объединить в одну, поскольку распределение k случайных величин является однородным. Если альтернативная гипотеза имеет вид , то для проверки нулевой гипотезы используются критерий Краскела-Уоллеса и медианный тест. Если альтернативная гипотеза , где хотя бы одно из неравенств строгое, то для проверки нулевой гипотезы используется критерий Джонкхиера.
Критерий Краскела-Уоллеса проверяет однородность распределения k случайных величин при альтернативной гипотезе сдвига. Критерий имеет вид:, где Ri - сумма рангов i-й выборки, i=1,k.
При справедливости нулевой гипотезы и ni?5, k?4 аппроксимируется распределением «Хи-квадрат» с числом степеней свободы х=k-1.
Медианный тест обладает меньшей мощностью и основан на подсчете числа наблюдений каждой выборки, которые попадают выше или ниже общей медианы выборок, и вычисляет затем значение статистики «Хи-квадрат» для таблицы сопряженности 2*k, где k - число рассматриваемых случайных величин.
Двухфакторный непараметрический дисперсионный анализ
Непараметрический двухфакторный дисперсионный анализ - обобщение схемы повторных парных наблюдений, когда имеется k наблюдений на каждом из n объектов.
Исходные данные:
Рассмотрим модель, где µ - неизвестная общая средняя; - влияние i-го наблюдения на значение количественного признака; фj - эффект j-го «наблюдения»; eij - случайные величины.
При этом , , а все eij - взаимонезависимы, извлечены из одной и той же генеральной совокупности.
Ставится задача: проверить, являются ли распределения k независимых случайных величин однородными. Для этого выдвигается гипотеза
Если альтернативная гипотеза имеет вид , то для проверки нулевой гипотезы используются критерий Фридмана.
,
где - ранг i-го объекта по j-му признаку. Критерий Фридмана при справедливости Н0 аппроксимируется распределением «Хи-квадрат» с числом степеней свободы n-1.
Если альтернативная гипотеза , где хотя бы одно из неравенств строгое, то для проверки нулевой гипотезы используется критерий Пейджа.
Выполнение задания 6
С помощью программы STADIA проверим гипотезу Н0: стаж работы не влияет на производительность рабочего. Получим следующие результаты:
1-ФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ. Файл:
Пропущн=3 3
параметрический
Источник Сум.квадр Ст.своб Ср.квадр F Значимость Сила влияния
Факт.1 391,5 3 130,5 10,54 0,0018 0,2091
Остат. 136,2 11 12,38
Общая 527,7 14 37,7
F(фактор1)=10,54, Значимость=0,0018, степ.своб = 3,11
Гипотеза 1: <Есть влияние фактора на отклик>
Параметры модели:
Среднее = 154,5, доверит.инт.=8,651
Эффект1 = -4,867, доверит.инт.=15,82
Эффект2 = -4,783, доверит.инт.=13,7
Эффект3 = 1,667, доверит.инт.=12,25
Эффект4 = 8,467, доверит.инт.=15,82
Парные сравнения Шеффе
Переменные Разность Интервал Значим Гипотеза H1
1-2 0,08333 8,802 0,9999
1-3 6,533 8,416 0,1508
1-4 13,33 9,41 0,006413 Да
2-3 6,45 7,731 0,1143
2-4 13,25 8,802 0,004314 Да
3-4 6,8 8,416 0,1297
До 5, 5-10 - 10-15, 15-20: 9,892 7,031 0,006076 Да
Следовательно, гипотезу Н0 отвергаем.
Найдём оценку остаточной дисперсии. Сначала вычислим . Затем найдём несмещённую оценку остаточной дисперсии: . Затем с доверительной вероятностью г=0,99 найдём доверительный интервал для остаточной дисперсии. Получаем интервал [5,09; 52,37].
Воспользуемся КОП «Дисперсионный анализ».
Предположим, что фактор имеет случайные уровни (б=0,05).
Однофакторный дисперсионный анализ
Нулевая гипотеза: альфа j=0
------------
Cмещенные оценки
Q факт = 391,517; Q ост = 136,217; Q общ = 527,733
--------------
Неcмещенные оценки
S факт = 130,506; S ост = 12,383
--------------
F наблюденное = 10,539
F критическое = 3,59
------------
Нулевая гипотеза отвергается, есть влияние фактора
Предположим, что фактор имеет фиксированные уровни (б=0,01).
Однофакторный дисперсионный анализ
Нулевая гипотеза: дисперсия альфа =0
------------
Cмещенные оценки
Q факт = 391,517; Q ост = 136,217; Q общ = 527,733
--------------
Неcмещенные оценки
S факт = 130,506; S ост = 12,383
--------------
F наблюденное = 10,539
F критическое = 6,22
------------
Нулевая гипотеза отвергается, есть влияние фактора
При б=0,05 проверим гипотезу о существенности влияния фактора на втором и третьем уровнях на результативный признак, т.е, гипотезу о равенстве математических ожиданий второй и третьей группы наблюдённых значений. .. Fнабл=7,47, Fкр(0,05;1;11)=4,84 следовательно, гипотезу H0 отвергаем на данном уровне значимости.
Затем при б=0,05 проверим гипотезу о значении математического ожидания: H0:m=m0=155 (). Будем строить двухстороннюю критическую область.
Для модели М1 имеем:. Fнабл=0,26, Fкр(0,05;1;11)=4,84, следовательно, гипотезу H0 принимаем на данном уровне значимости.
Для модели М2 имеем:. Fнабл=0,025, Fкр(0,05;1;11)=10,13, следовательно, гипотезу H0 принимаем на данном уровне значимости.
Выполнение задания 7
Проверим гипотезу о влиянии факторов на результативную переменную при различных комбинациях случайности/фискированности факторов с помощью КОП «Дисперсионный анализ».
Оба фактора имеют случайные уровни:
Двухфакторный (бесповторный)дисперсионный анализ
Н0 (влияние А): дисперсия (А)j=0H0(влияние В): дисперсия(В)i=0
------------
Cмещенные оценки (фактор А)
Q факт = 10,889; Q ост = 64,444; Q общ = 258,222
--------------
Неcмещенные оценки
S факт = 5,444; S ост = 10,741
--------------
F наблюденное = 0,507
F критическое = 10,92
Нет оснований отвергнуть гипотезу об отсутствии влияния фактора А
------------
Cмещенные оценки (фактор В)
Q факт = 182,889; Q ост = 64,444; Q общ = 258,222
--------------
Неcмещенные оценки
S факт = 91,444; S ост = 10,741
--------------
F наблюденное = 8,514
F критическое = 10,92
------------
Нет оснований отвергнуть гипотезу об отсутствии влияния фактора B
При остальных комбинациях случайности/фиксированности факторов получаем те же оценки смещённых и несмещённых оценок дисперсий, критических и наблюдённых значений статистики Фишера, меняются только нулевые гипотезы.
Фактор А имеет случайные уровни, фактор В - фиксированные уровни:
Двухфакторный (бесповторный)дисперсионный анализ
Н0 (влияние А): дисперсия (А)j=0Н0(влияние В): альфа(В)i=0
------------
Нет оснований отвергнуть гипотезу об отсутствии влияния фактора А
------------
Нет оснований отвергнуть гипотезу об отсутствии влияния фактора B
Фактор А имеет фиксированные уровни, фактор В - случайные уровни:
Двухфакторный (бесповторный)дисперсионный анализ
Н0 (влияние А): альфа(А)j=0Н0(влияние В): дисперсия(В)i=0
------------
Нет оснований отвергнуть гипотезу об отсутствии влияния фактора А
------------
Нет оснований отвергнуть гипотезу об отсутствии влияния фактора B
Оба фактора имеют фиксированные уровни:
Двухфакторный (бесповторный) дисперсионный анализ
логлинейный модель гипотеза дисперсионный
Н0 (влияние А): альфа(А)j=0Н0(влияние В): альфа(В)i=0
------------
Нет оснований отвергнуть гипотезу об отсутствии влияния фактора А
------------
Нет оснований отвергнуть гипотезу об отсутствии влияния фактора B
Выполнение задания 8
Проверим гипотезу (об однородности распределения совокупностей) на основе критерия Краскелла-Уоллиса в программном пакете Statistica:
Kruskal-Wallis ANOVA by Ranks; immuno (Spreadsheet1) Independent (grouping) variable: Group № Kruskal-Wallis test: H ( 3, N= 30) =12,38319 p =,0062
Code |
Valid |
Sum of |
||
1 |
1 |
5 |
35,5000 |
|
2 |
2 |
7 |
101,5000 |
|
3 |
3 |
8 |
101,0000 |
|
4 |
4 |
10 |
227,0000 |
Так как p=0,0062<0,05, гипотезу об однородности распределения отвергаем.
Выполнение задания 9
Проверим гипотезу (об однородности распределения совокупностей) на основе критерия Фридмана в программном пакете Statistica:
Friedman ANOVA and Kendall Coeff. of Concordance (Spreadsheet6) ANOVA Chi Sqr. (N = 3, df = 3) = 8,111111 p = ,04377 Coeff. of Concordance = ,90123 Aver. rank r = ,85185
Average |
Sum of |
Mean |
Std.Dev. |
||
Plenka1 |
2,000000 |
6,00000 |
2,000000 |
||
Plenka2 |
1,166667 |
3,50000 |
1,333333 |
0,577350 |
|
Plenka3 |
3,833333 |
11,50000 |
3,333333 |
0,577350 |
|
Plenka4 |
3,000000 |
9,00000 |
2,666667 |
0,577350 |
p=0,04377<0,05, следовательно, гипотезу об однородности распределения отвергаем.
Размещено на Allbest.ru
Подобные документы
Общие понятия статистической проверки гипотез. Проверка гипотез на основе выборочной информации, понятие нулевая и альтернативная гипотезы. Формулировка общего алгоритма проверки. Проведение проверки статистической гипотезы в системе "Minitab" и MS Excel.
методичка [741,9 K], добавлен 28.12.2008Построение процедуры для проверки индивидуальных гипотез о равенстве вероятностей совпадения и несовпадения знаков случайных величин. Проверка адекватности условия оптимальности процедуры идентификации графа фондового рынка экспериментальным данным.
дипломная работа [823,9 K], добавлен 28.12.2015Основные понятия теории графов. Схема построения сетевой модели рынка. Основная идея бутстрэпа. Процедура проверки многих гипотез сравнения распределения вершин двух выборочных MST. Значения доверительных интервалов векторов наблюдений за два года.
курсовая работа [1,0 M], добавлен 19.09.2016Общая характеристика однофакторного дисперсионного анализа. Сущность двухфакторного дисперсионного анализа при перекрестной классификации факторов. Особенности дисперсионного анализа в системе MINITAB и формы выполнения работы в программе MS Excel.
методичка [440,7 K], добавлен 15.12.2008Общее понятие, основные цели и задачи дисперсионного анализа. Компоненты изменчивости и методы их определения. Однофакторный дисперсионный анализ, его графическое изображение и области применения. Перечень формул вычисления для двухфакторного анализа.
презентация [576,2 K], добавлен 22.03.2015Проверка нулевой и альтернативной гипотез с целью выполнения статистической проверки. Особенности использования тестовой статистики для проверки ряда на наличие тренда. Преимущества применения метода повторной выборки при проверке гидрологических данных.
презентация [47,5 K], добавлен 16.10.2014Дисперсионный анализ - исследование причин отклонений фактических затрат от нормативных. Схемы организации исходных данных с двумя и более факторами. Формулы расчета межгрупповой и внутригрупповой дисперсии. Задачи двухфакторного дисперсионного анализа.
курсовая работа [1,0 M], добавлен 16.01.2013Понятие нулевой и альтернативной гипотез. Обычная процедура принятия решений. Область принятия гипотезы. Гипотетическое распределение, область принятия и распределения в действительности. Области и вероятность совершения ошибки при принятии решения.
презентация [61,3 K], добавлен 20.01.2015Построение рядов распределения с произвольными интервалами и с помощью формулы Стерджесса. Построение статистических графиков. Расчет и построение структурных характеристик вариационного ряда. Общая характеристика исследуемых статистических совокупностей.
курсовая работа [654,9 K], добавлен 12.04.2009Особенности метода проверки гипотезы о законе распределения по критерию согласия хи-квадрат Пирсона. Свойства базовой псевдослучайной последовательности. Методы оценки закона распределения и вероятностных характеристик случайной последовательности.
лабораторная работа [234,7 K], добавлен 28.02.2010