Применение дисперсионного анализа в статистических исследованиях
Основные положения факторного анализа. Принципы и модели дисперсионного анализа, его роль и место в статистических исследованиях. Особенности применения дисперсионного анализа при исследовании социально-экономических показателей по Республике Беларусь.
Рубрика | Экономика и экономическая теория |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 01.07.2014 |
Размер файла | 762,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
60
Размещено на http://www.allbest.ru/
РЕФЕРАТ
факторный статистический дисперсионный беларусь
Курсовая работа содержит листов, рисунков, таблиц, источников литературы.
Основные понятия: факторный анализ, фактор, дисперсионный анализ, гипотеза, дисперсия, модель, метод.
Целью работы является ознакомление с дисперсионным анализом и апробация его основных положений на статистических данных, собранных по Республике Беларусь.
Основные результаты работы: изучены основные положения факторного анализа и типы факторов; изучены основные положения и модели дисперсионного анализа; изучена роль и место дисперсионного анализа при статистических исследованиях; проведен дисперсионный анализ при исследовании социально-экономических показателей по Республике Беларусь.
ВВЕДЕНИЕ
Все явления и процессы хозяйственной деятельности предприятий находятся во взаимосвязи и взаимообусловленности. Одни из них непосредственно связаны между собой, другие косвенно. Отсюда важным методологическим вопросом в экономическом анализе является изучение и измерение влияния факторов на величину исследуемых экономических показателей.
Дисперсионный анализ - статистический метод, позволяющий анализировать влияние различных факторов на исследуемую переменную. Метод был разработан биологом Р. Фишером в 1925 году и применялся первоначально для оценки экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость дисперсионного анализа для экспериментов в психологии, педагогике, медицине и др.
Целью дисперсионного анализа является проверка значимости различия между средними с помощью сравнения дисперсий. Дисперсию измеряемого признака разлагают на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия. Последующее сравнение таких слагаемых позволяет оценить значимость каждого изучаемого фактора, а также их комбинации [7].
При истинности нулевой гипотезы (о равенстве средних в нескольких группах наблюдений, выбранных из генеральной совокупности), оценка дисперсии, связанной с внутригрупповой изменчивостью, должна быть близкой к оценке межгрупповой дисперсии.
При проведении исследования рынка часто встает вопрос о сопоставимости результатов. Например, проводя опросы по поводу потребления какого-либо товара в различных регионах страны, необходимо сделать выводы, насколько данные опроса отличаются или не отличаются друг от друга. Сопоставлять отдельные показатели не имеет смысла и поэтому процедура сравнения и последующей оценки производится по некоторым усредненным значениям и отклонениям от этой усредненной оценки. Изучается вариация признака. За меру вариации может быть принята дисперсия. Дисперсия у2 - мера вариации, определяемая как средняя из отклонений признака, возведенных в квадрат.
На практике часто возникают задачи более общего характера - задачи проверки существенности различий средних выборочных нескольких совокупностей. Например, требуется оценить влияние различного сырья на качество производимой продукции, решить задачу о влиянии количества удобрений на урожайность с/х продукции.
Иногда дисперсионный анализ применяется, чтобы установить однородность нескольких совокупностей (дисперсии этих совокупностей одинаковы по предположению; если дисперсионный анализ покажет, что и математические ожидания одинаковы, то в этом смысле совокупности однородны). Однородные же совокупности можно объединить в одну и тем самым получить о ней более полную информацию, следовательно, и более надежные выводы [2].
Целью работы является ознакомление с дисперсионным анализом и апробация его основных положений на статистических данных, собранных по Республике Беларусь.
Предполагается решение следующих задач:
- изучение основных положений факторного анализа и типов факторов;
- изучение основных положений и моделей дисперсионного анализа;
- изучение роли и места дисперсионного анализа при статистических исследованиях;
- практическое применение дисперсионного анализа при исследовании социально-экономических показателей по Республике Беларусь.
1. Факторный анализ и его особенности
1.1 Понятие, типы и задачи факторного анализа
Под факторным анализом понимается методика комплексного и системного изучения и измерения воздействия факторов на величину результативных показателей.
Различают следующие типы факторного анализа:
- детерминированный и стохастический;
- прямой и обратный;
- одноступенчатый и многоступенчатый;
- статический и динамичный;
- ретроспективный и перспективный (прогнозный).
Детерминированный факторный анализ представляет собой методику исследования влияния факторов, связь которых с результативным показателем носит функциональный характер, т.е. когда результативный показатель представлен в виде произведения, частного или алгебраической суммы факторов.
Стохастический анализ представляет собой методику исследования факторов, связь которых с результативным показателем в отличие от функциональной является неполной, вероятностной (корреляционной). Если при функциональной (полной) зависимости с изменением аргумента всегда происходит соответствующее изменение функции, то при корреляционной связи изменение аргумента может дать несколько значений прироста функции в зависимости от сочетания других факторов, определяющих данный показатель. Например, производительность труда при одном и том же уровне фондовооруженности может быть неодинаковой на разных предприятиях [11].
При прямом факторном анализе исследование ведется дедуктивным способом - от общего к частному. Обратный факторный анализ осуществляет исследование причинно-следственных связей способом логичной индукции - от частных, отдельных факторов к обобщающим.
Факторный анализ может быть одноступенчатым и многоступенчатым. Первый тип используется для исследования факторов только одного уровня (одной ступени) подчинения без их детализации на составные части. При многоступенчатом факторном анализе проводится детализация факторов на составные элементы с целью изучения их поведения.
Необходимо различать также статический и динамический факторный анализ. Первый вид применяется при изучении влияния факторов на результативные показатели на соответствующую дату. Другой вид представляет собой методику исследования причинно-следственных связей в динамике.
Факторный анализ может быть ретроспективным, который изучает причины прироста результативных показателей за прошлые периоды, и перспективным, который исследует поведение факторов и результативных показателей в перспективе.
Основными задачами факторного анализа являются следующие:
1. Отбор факторов, определяющих исследуемые результативные показатели.
2. Классификация и систематизация факторов с целью обеспечения комплексного и системного подхода к исследованию их влияния на результаты хозяйственной деятельности.
3. Определение формы зависимости между факторами и результативным показателем.
4. Моделирование взаимосвязей между результативным и факторными показателями.
5. Расчет влияния факторов и оценка роли каждого из них в изменении величины результативного показателя.
6. Работа с факторной моделью.
Отбор факторов для анализа того или другого показателя осуществляется на основе теоретических и практических знаний, приобретенных в этой отрасли. При этом обычно исходят из принципа: чем больший комплекс факторов исследуется, тем точнее будут результаты анализа.
Важным методологическим вопросом в факторном анализе является определение формы зависимости между факторами и результативными показателями: функциональная она или стохастическая, прямая или обратная, прямолинейная или криволинейная. Здесь используется теоретический и практический опыт, а также способы сравнения параллельных и динамичных рядов, аналитических группировок исходной информации, графический и др.
1.2 Классификация факторов
Классификация факторов представляет собой распределение их по группам в зависимости от общих признаков. Она позволяет глубже разобраться в причинах изменения исследуемых явлений, точнее оценить место и роль каждого фактора в формировании величины результативных показателей.
Исследуемые в анализе факторы могут быть классифицированы по разным признакам (рисунок 1.1).
По своей природе факторы подразделяются на природно-климатические, социально-экономические и производственно-экономические. Природно-климатические факторы оказывают большое влияние на результаты деятельности в сельском хозяйстве, в добывающей промышленности, лесном хозяйстве и других отраслях. Учет их влияния позволяет точнее оценить результаты работы субъектов хозяйствования.
К социально-экономическим факторам относятся жилищные условия работников, организация культурно-массовой, спортивной и оздоровительной работы на предприятии, общий уровень культуры и образования кадров и др. Они способствуют более полному использованию производственных ресурсов предприятия и повышению эффективности его работы.
Рисунок 1.1 - Классификация факторов
Примечание - Источник: [11]
Производственно-экономические факторы определяют полноту и эффективность использования производственных ресурсов предприятия и конечные результаты его деятельности.
По степени воздействия на результаты хозяйственной деятельности факторы делятся на основные и второстепенные. К основным относятся факторы, которые оказывают решающее воздействие на результативный показатель. Второстепенными считаются те, которые не оказывают решающего воздействия на результаты хозяйственной деятельности в сложившихся условиях. Здесь необходимо заметить, что один и тот же фактор в зависимости от обстоятельств может быть и основным, и второстепенным. Умение выделить из разнообразия факторов главные, определяющие обеспечивает правильность выводов по результатам анализа.
Большое значение при исследовании экономических явлений и процессов и оценке результатов деятельности предприятий имеет классификация факторов на внутренние и внешние, то есть на факторы, которые зависят и не зависят от деятельности данного предприятия. Основное внимание при анализе должно уделяться исследованию внутренних факторов, на которые предприятие может воздействовать.
Вместе с тем во многих случаях при развитых производственных связях и отношениях на результаты работы каждого предприятия в значительной степени оказывает влияние деятельность других предприятий, например, равномерность и своевременность поставок сырья, материалов, их качество, стоимость, конъюнктура рынка, инфляционные процессы и др. Нередко на результатах работы предприятий отражаются перемены в области специализации и производственной кооперации. Эти факторы являются внешними. Они не характеризуют усилия данного коллектива, но их исследование позволяет точнее определить степень воздействия внутренних причин и тем самым более полно выявить внутренние резервы производства.
Для правильной оценки деятельности предприятий факторы необходимо подразделять на объективные и субъективные Объективные, например стихийное бедствие, не зависят от воли и желаний людей. В отличие от объективных субъективные причины зависят от деятельности юридических и физических лиц.
По степени распространенности факторы делятся на общие и специфические. К общим относятся факторы, которые действуют во всех отраслях экономики. Специфическими являются те, которые действуют в условиях отдельной отрасли экономики или предприятия. Такое деление факторов позволяет полнее учесть особенности отдельных предприятий, отраслей производства и сделать более точную оценку их деятельности.
По сроку воздействия на результаты хозяйственной деятельности различают факторы постоянные и переменные. Постоянные факторы оказывают влияние на изучаемое явление беспрерывно, на протяжении всего времени. Воздействие же переменных факторов проявляется периодически, например, освоение новой техники, новых видов продукции, новой технологии производства и т.д.
Большое значение для оценки деятельности предприятий имеет деление факторов по характеру их действия на интенсивные и экстенсивные. К экстенсивным относятся факторы, которые связаны с количественным, а не с качественным приростом результативного показателя, например, увеличение объема производства продукции путем расширения посевной площади, увеличения поголовья скота, количества рабочих и т.д. Интенсивные факторы характеризуют степень усилия, напряженности труда в процессе производства, например, повышение урожайности сельскохозяйственных культур, продуктивности животных, уровня производительности труда.
Если при анализе ставится цель измерить влияние каждого фактора на результаты хозяйственной деятельности, то их разделяют на количественные и качественные, сложные и простые, прямые и косвенные, измеримые и неизмеримые.
Количественными считаются факторы, которые выражают количественную определенность явлений (количество рабочих, оборудования, сырья и т.д.). Качественные факторы определяют внутренние качества, признаки и особенности изучаемых объектов (производительность труда, качество продукции, плодородие почвы и т.д.).
Большинство изучаемых факторов по своему составу являются сложными, состоят из нескольких элементов. Однако есть и такие, которые не раскладываются на составные части. В связи с этим факторы делятся на сложные (комплексные) и простые (элементные). Примером сложного фактора является производительность труда, а простого - количество рабочих дней в отчетном периоде.
Как уже указывалось, одни факторы оказывают непосредственное влияние на результативный показатель, другие - косвенное. По уровню соподчиненности (иерархии) различают факторы первого, второго, третьего и последующих уровней подчинения. К факторам первого уровня относятся те, которые непосредственно влияют на результативный показатель. Факторы, которые определяют результативный показатель косвенно, при помощи факторов первого уровня, называются факторами второго уровня и т.д. На рисунке 1.2 показано, что факторами первого уровня являются среднегодовая численность рабочих и среднегодовая выработка продукции одним рабочим. Количество отработанных дней одним рабочим и среднедневная выработка - факторы второго уровня относительно валовой продукции. К факторам же третьего уровня относятся продолжительность рабочего дня и среднечасовая выработка.
Рисунок 1.2 - Детерминированная факторная система валовой продукции Примечание - Источник: [11]
Воздействие отдельных факторов на результативный показатель может быть определено количественно. Вместе с тем имеется целый ряд факторов, влияние которых на результаты деятельности предприятий не поддается непосредственному измерению, например, обеспеченность персонала жильем, детскими учреждениями, уровень подготовки кадров и др.
1.3 Систематизация факторов
Системный подход вызывает необходимость взаимосвязанного изучения факторов с учетом их внутренних и внешних связей, взаимодействия и соподчиненности, что достигается с помощью систематизации.
Одним из способов систематизации факторов является создание детерминированных факторных систем. Создать факторную систему - значит представить изучаемое явление в виде алгебраической суммы, частного или произведения нескольких факторов, определяющих его величину и находящихся с ним в функциональной зависимости [4].
Большое значение в исследовании стохастических взаимосвязей имеет структурно-логический анализ связи между изучаемыми показателями. Он позволяет установить наличие или отсутствие причинно-следственных связей между исследуемыми показателями, изучить направление связи, форму зависимости и т.д., что очень важно при определении степени их влияния на изучаемое явление и при обобщении результатов анализа.
Анализ структуры связи изучаемых показателей осуществляется с помощью построения структурно-логической блок-схемы, которая позволяет установить наличие и направление связи не только между изучаемыми факторами и результативным показателем, но и между самими факторами. Построив блок-схему, можно увидеть, что среди изучаемых факторов имеются такие, которые более или менее непосредственно воздействуют на результативный показатель, и такие, которые воздействуют не столько на результативный показатель, сколько друг на друга.
Например, на рисунке 1.3 показана связь между себестоимостью единицы продукции растениеводства и такими факторами, как урожайность культур, производительность труда, количество внесенного удобрения, качество семян, степень механизации производства.
Рисунок 1.3 - Блок-схема стохастической факторной системы себестоимости продукции Примечание - Источник: [11]
Прежде всего, необходимо установить наличие и направление связи между себестоимостью продукции и каждым фактором. Безусловно, между ними существует тесная связь. Непосредственное влияние на себестоимость продукции оказывает в данном примере только урожайность культур. Все остальные факторы влияют на себестоимость продукции не только прямо, но и косвенно, через урожайность культур и производительность труда. Например, количество внесенных удобрений в почву содействует повышению урожайности культур, что при прочих одинаковых условиях обусловливает снижение себестоимости единицы продукции. Однако необходимо учитывать и то, что увеличение количества внесенных удобрений приводит к росту суммы затрат на гектар посева. И если сумма затрат возрастает более высокими темпами, чем урожайность, то себестоимость продукции будет не снижаться, а повышаться. Значит, связь между этими двумя показателями может быть и прямой, и обратной. Аналогично влияет на себестоимость продукции и качество семян. Приобретение элитных, высококачественных семян вызывает рост суммы затрат. Если они возрастают в большей степени, чем урожайность от применения более высококачественных семян, то себестоимость продукции будет увеличиваться, и наоборот.
Степень механизации производства влияет на себестоимость продукции и прямо, и косвенно. Повышение уровня механизации вызывает рост затрат на содержание основных средств производства. Однако при этом увеличивается производительность труда, растет урожайность, что содействует снижению себестоимости продукции.
Исследование взаимосвязей между факторами показывает, что из всех изучаемых факторов отсутствует причинно-следственная связь между качеством семян, количеством удобрений и механизацией производства. Отсутствует также непосредственная обратная зависимость данных показателей от уровня урожайности культуры. Все остальные факторы прямо или косвенно влияют друг на друга.
Таким образом, систематизация факторов позволяет более глубоко изучить взаимосвязь факторов при формировании величины изучаемого показателя, что имеет очень важное значение на следующих этапах анализа, особенно на этапе моделирования исследуемых показателей.
1.3 Детерминированное моделирование и преобразование факторных систем
Одной из задач факторного анализа является моделирование взаимосвязей между результативными показателями и факторами, которые определяют их величину.
Моделирование - это один из важнейших методов научного познания, с помощью которого создается модель (условный образ) объекта исследования. Сущность его заключается в том, что взаимосвязь исследуемого показателя с факторными передается в форме конкретного математического уравнения.
В факторном анализе различают модели детерминированные (функциональные) и стохастические (корреляционные). С помощью детерминированных факторных моделей исследуется функциональная связь между результативным показателем (функцией) и факторами (аргументами).
При моделировании детерминированных факторных систем необходимо выполнять ряд требований:
1. Факторы, включаемые в модель, и сами модели должны иметь определенно выраженный характер, реально существовать, а не быть придуманными абстрактными величинами или явлениями.
2. Факторы, которые входят в систему, должны быть не только необходимыми элементами формулы, но и находиться в причинно-следственной связи с изучаемыми показателями. Иначе говоря, построенная факторная система должна иметь познавательную ценность. Факторные модели, которые отражают причинно-следственные отношения между показателями, имеют значительно большее познавательное значение, чем модели, созданные при помощи приемов математической абстракции. Последнее можно проиллюстрировать следующим образом. Возьмем две модели:
1)ВП=ЧРхГВ;
2)ГВ=ВП/ЧР,
где ВП -- валовая продукция предприятия;
ЧР -- численность работников на предприятии;
ГВ -- среднегодовая выработка продукции одним работником.
В первой системе факторы находятся в причинной связи с результативным показателем, а во второй -- в математическом соотношении. Значит, вторая модель, построенная на математических зависимостях, имеет меньшее познавательное значение, чем первая.
3. Все показатели факторной модели должны быть количественно измеримыми, т.е. должны иметь единицу измерения и необходимую информационную обеспеченность.
4. Факторная модель должна обеспечивать возможность измерения влияния отдельных факторов, это значит, что в ней должна учитываться соразмерность изменений результативного и факторных показателей, а сумма влияния отдельных факторов должна равняться общему приросту результативного показателя.
В детерминированном анализе выделяют следующие типы наиболее часто встречающихся факторных моделей [6, 8].
1. Аддитивные модели:
(1.1)
Они используются в тех случаях, когда результативный показатель представляет собой алгебраическую сумму нескольких факторных показателей.
2. Мультипликативные модели:
(1.2)
Этот тип моделей применяется тогда, когда результативный показатель представляет собой произведение нескольких факторов.
3. Кратные модели:
(1.3)
Они применяются тогда, когда результативный показатель получают делением одного факторного показателя на величину другого.
4. Смешанные (комбинированные) модели - это сочетание в различных комбинациях предыдущих моделей:
и т.д. (1.4)
Моделирование мультипликативных факторных систем осуществляется путем последовательного расчленения факторов исходной системы на факторы-сомножители. Например, при исследовании процесса формирования объема производства продукции можно применять такие детерминированные модели, как:
ВП = ЧР*ГВ = ЧР*Д*ДВ = ЧР*Д*П*ЧВ
Эти модели отражают процесс детализации исходной факторной системы мультипликативного вида и расширения ее за счет расчленения на сомножители комплексных факторов. Степень детализации и расширения модели зависит от цели исследования, а также от возможностей детализации и формализации показателей в пределах установленных правил.
Аналогичным образом осуществляется моделирование аддитивных факторных систем за счет расчленения одного или нескольких факторных показателей на составные элементы.
Как известно, объем реализации продукции равен:
VРП = VBП - VИ,
где VBП - объем производства;
VИ - объем внутрихозяйственного использования продукции.
В хозяйстве продукция использовалась в качестве семян (С) и кормов (К). Тогда приведенную исходную модель можно записать следующим образом:
VРП = VBП - (С + К).
К классу кратных моделей применяют следующие способы их преобразования: удлинения, формального разложения, расширения и сокращения.
Первый метод предусматривает удлинение числителя исходной модели путем замены одного или нескольких факторов на сумму однородных показателей. Например, себестоимость единицы продукции можно представить в качестве функции двух факторов: изменения суммы затрат (3) и объема выпуска продукции (VBП). Исходная модель этой факторной системы будет иметь вид
С = З/VВП
Если общую сумму затрат (3) заменить отдельными их элементами, такими, как заработная плата (3П), сырье и материалы (СМ), амортизация основных средств (А), накладные расходы (HP) и др., то детерминированная факторная модель будет иметь вид аддитивной модели с новым набором факторов:
С = ЗП/VВП+СМ/VВП+А/VВП+НР/VВП=Х1 + Х2 + Х3 + Х4
где Х1 -- трудоемкость продукции;
Х2 - материалоемкость продукции;
Х3 - фондоемкость продукции;
Х4 - уровень накладных расходов.
Способ формального разложения факторной системы предусматривает удлинение знаменателя исходной факторной модели путем замены одного или нескольких факторов на сумму или произведение однородных показателей. Если В = L+М+N+Р,то
Y = А/В = А/(L+M+N+P)
На практике такое разложение встречается довольно часто. Например, при анализе показателя рентабельности производства (R):
R=П/З
где П -- сумма прибыли от реализации продукции;
3 -- сумма затрат на производство и реализацию продукции.
Если сумму затрат заменить на отдельные ее элементы, конечная модель в результате преобразования приобретет следующий вид:
R=П/(ЗП+СМ+А+НР)
Метод расширения предусматривает расширение исходной факторной модели за счет умножения числителя и знаменателя дроби на один или несколько новых показателей. Например, если в исходную модель Y=A/B ввести новый показатель с, то модель примет вид
Y=A/B = А*С/В*С = А/С*С/В = Х1 + Х2
В результате получилась конечная мультипликативная модель в виде произведения нового набора факторов.
Этот способ моделирования очень широко применяется в анализе. Например, среднегодовую выработку продукции одним работником можно записать таким образом: ГВ = ВП/ЧР. Если ввести такой показатель, как количество отработанных дней всеми работниками (D), то получим следующую модель годовой выработки:
ГВ=ВП*D/ЧР*D = ВП/D*D/ЧР = ДВ*Д
где ДВ -- среднедневная выработка;
Д - количество отработанных дней одним работником.
Способ сокращения представляет собой создание новой факторной модели путем деления числителя и знаменателя дроби на один и тот же показатель
Y=A/B = А:С/В:С = Х1 / Х2
В результате получилась более содержательная модель, которая имеет большую познавательную ценность, так как учитывает причинно-следственные связи между показателями.
Таким образом, результативные показатели могут быть разложены на составные элементы (факторы) различными способами и представлены в виде различных типов детерминированных моделей. Выбор способа моделирования зависит от объекта исследования, поставленной цели, а также от профессиональных знаний и навыков исследователя.
2. Дисперсионный анализ
2.1 Основные понятия дисперсионного анализа
В процессе наблюдения за исследуемым объектом качественные факторы произвольно или заданным образом изменяются. Конкретная реализация фактора (например, определенный температурный режим, выбранное оборудование или материал) называется уровнем фактора или способом обработки. Модель дисперсионного анализа с фиксированными уровнями факторов называют моделью I, модель со случайными факторами - моделью II. Благодаря варьированию фактора можно исследовать его влияние на величину отклика.
В зависимости от количества факторов, определяющих вариацию результативного признака, дисперсионный анализ подразделяют на однофакторный и многофакторный.
Основными схемами организации исходных данных с двумя и более факторами являются:
- перекрестная классификация, характерная для моделей I, в которых каждый уровень одного фактора сочетается при планировании эксперимента с каждой градацией другого фактора;
- иерархическая (гнездовая) классификация, характерная для модели II, в которой каждому случайному, наудачу выбранному значению одного фактора соответствует свое подмножество значений второго фактора.
Если одновременно исследуется зависимость отклика от качественных и количественных факторов, т.е. факторов смешанной природы, то используется ковариационный анализ [5].
При обработке данных эксперимента наиболее разработанными и поэтому распространенными считаются две модели. Их различие обусловлено спецификой планирования самого эксперимента. В модели дисперсионного анализа с фиксированными эффектами исследователь намеренно устанавливает строго определенные уровни изучаемого фактора. Термин «фиксированный эффект» в данном контексте имеет тот смысл, что самим исследователем фиксируется количество уровней фактора и различия между ними. При повторении эксперимента он или другой исследователь выберет те же самые уровни фактора. В модели со случайными эффектами уровни значения фактора выбираются исследователем случайно из широкого диапазона значений фактора, и при повторных экспериментах, естественно, этот диапазон будет другим.
Таким образом, данные модели отличаются между собой способом выбора уровней фактора, что, очевидно, в первую очередь влияет на возможность обобщения полученных экспериментальных результатов. Для дисперсионного анализа однофакторных экспериментов различие этих двух моделей не столь существенно, однако в многофакторном дисперсионном анализе оно может оказаться весьма важным.
При проведении дисперсионного анализа должны выполняться следующие статистические допущения: независимо от уровня фактора величины отклика имеют нормальный закон распределения и одинаковую дисперсию. Такое равенство дисперсий называется гомогенностью. Таким образом, изменение способа обработки сказывается лишь на положении случайной величины отклика, которое характеризуется средним значением или медианой.
Говорят, что техника дисперсионного анализа является "робастной". Этот термин, используемый статистиками, означает, что данные допущения могут быть в некоторой степени нарушены, но, несмотря на это, технику можно использовать.
При неизвестном законе распределения величин отклика используют непараметрические (чаще всего ранговые) методы анализа.
В основе дисперсионного анализа лежит разделение дисперсии на части или компоненты. Вариацию, обусловленную влиянием фактора, положенного в основу группировки, характеризует межгрупповая дисперсия у2. Она является мерой вариации частных средних по группам вокруг общей средней и определяется по формуле 2.1:
, (2.1)
где k - число групп;
nj - число единиц в j-ой группе;
- частная средняя по j-ой группе;
- общая средняя по совокупности единиц.
Вариацию, обусловленную влиянием прочих факторов, характеризует в каждой группе внутригрупповая дисперсия уj2 (формула 2.2).
. (2.2)
Между общей дисперсией у02, внутригрупповой дисперсией у2 и межгрупповой дисперсией существует соотношение 2.3:
у02 = + у2. (2.3)
Внутригрупповая дисперсия объясняет влияние неучтенных при группировке факторов, а межгрупповая дисперсия объясняет влияние факторов группировки на среднее значение по группе [3].
2.2 Однофакторный дисперсионный анализ
Однофакторная дисперсионная модель имеет вид 2.4:
xij = м + Fj + еij, (2.4)
где хij - значение исследуемой переменой, полученной на i-м уровне фактора (i=1,2,...,т) c j-м порядковым номером (j=1,2,...,n);
Fi - эффект, обусловленный влиянием i-го уровня фактора;
еij - случайная компонента, или возмущение, вызванное влиянием неконтролируемых факторов, т.е. вариацией переменой внутри отдельного уровня.
Основные предпосылки дисперсионного анализа [5]:
- математическое ожидание возмущения еij равно нулю для любых i, т.е.
M(еij) = 0; (2.5)
- возмущения еij взаимно независимы;
- дисперсия переменной xij (или возмущения еij) постоянна длялюбых i, j, т.е.
D(еij) = у2; (2.6)
- переменная xij (или возмущение еij) имеет нормальный законраспределения N(0;у2).
Влияние уровней фактора может быть как фиксированным или систематическим (модель I), так и случайным (модель II).
Пусть, например, необходимо выяснить, имеются ли существенные различия между партиями изделий по некоторому показателю качества, т.е. проверить влияние на качество одного фактора - партии изделий. Если включить в исследование все партии сырья, то влияние уровня такого фактора систематическое (модель I), а полученные выводы применимы только к тем отдельным партиям, которые привлекались при исследовании. Если же включить только отобранную случайно часть партий, то влияние фактора случайное (модель II). В многофакторных комплексах возможна смешанная модель III, в которой одни факторы имеют случайные уровни, а другие - фиксированные.
Пусть имеется m партий изделий. Из каждой партии отобрано соответственно n1, n2, …, nm изделий (для простоты полагается, что n1=n2=...=nm=n). Значения показателя качества этих изделий представлены в матрице наблюдений:
(i = 1,2, …, m; j = 1,2, …, n).
Если полагать, что элементы строк матрицы наблюдений - это численные значения случайных величин Х1,Х2,...,Хm, выражающих качество изделий и имеющих нормальный закон распределения с математическими ожиданиями соответственно a1,а2,...,аm и одинаковыми дисперсиями у2, то данная задача сводится к проверке нулевой гипотезы Н0: a1=a2 =...= аm, осуществляемой в дисперсионном анализе.
Усреднение по какому-либо индексу обозначено звездочкой (или точкой) вместо индекса, тогда средний показатель качества изделий i-й партии, или групповая средняя для i-го уровня фактора, примет вид:
, (2.6)
где i* - среднее значение по столбцам;
ij - элемент матрицы наблюдений;
n - объем выборки.
А общая средняя:
. (2.7)
Сумма квадратов отклонений наблюдений хij от общей средней ** выглядит так:
2=2+2+
+22. (2.8)
или
Q = Q1 + Q2 + Q3.
Последнее слагаемое равно нулю
=0. (2.9)
так как сумма отклонений значений переменной от ее средней равна нулю, т.е.
2=0.
Первое слагаемое можно записать в виде:
В результате получается тождество:
Q = Q1 + Q2, (2.10)
где - общая, или полная, сумма квадратов отклонений;
- сумма квадратов отклонений групповых средних от общей средней, или межгрупповая (факторная) сумма квадратов отклонений;
- сумма квадратов отклонений наблюдений от групповых средних, или внутригрупповая (остаточная) сумма квадратов отклонений.
В разложении (2.10) заключена основная идея дисперсионного анализа. Применительно к рассматриваемой задаче равенство (2.10) показывает, что общая вариация показателя качества, измеренная суммой Q, складывается из двух компонент - Q1 и Q2, характеризующих изменчивость этого показателя между партиями (Q1) и изменчивость внутри партий (Q2), характеризующих одинаковую для всех партий вариацию под воздействием неучтенных факторов.
В дисперсионном анализе анализируются не сами суммы квадратов отклонений, а так называемые средние квадраты, являющиеся несмещенными оценками соответствующих дисперсий, которые получаются делением сумм квадратов отклонений на соответствующее число степеней свободы [3].
Число степеней свободы определяется как общее число наблюдений минус число связывающих их уравнений. Поэтому для среднего квадрата s12, являющегося несмещенной оценкой межгрупповой дисперсии, число степеней свободы k1=m-1, так как при его расчете используются m групповых средних, связанных между собой одним уравнением (2.7). А для среднего квадрата s22, являющегося несмещенной оценкой внутригрупповой дисперсии, число степеней свободы k2=mn-m, т.к. при ее расчете используются все mn наблюдений, связанных между собой m уравнениями (2.6).
Таким образом:
= Q1/(m-1),
= Q2/(mn-m).
Если найти математические ожидания средних квадратов и , подставить в их формулы выражение xij (2.4) через параметры модели, то получится:
(2.11)
т.к. с учетом свойств математического ожидания
а
(2.12)
Для модели I с фиксированными уровнями фактора Fi(i=1,2,...,m) - величины неслучайные, поэтому
M(S) =2 /(m-1) +у2.
Гипотеза H0 примет вид Fi = F*(i = 1,2,...,m), т.е. влияние всех уровней фактора одно и то же. В случае справедливости этой гипотезы
M(S)= M(S)= у2.
Для случайной модели II слагаемое Fi в выражении (2.4) - величина случайная. Обозначая ее дисперсией
получим из (2.11)
(2.13)
и, как и в модели I M(S)= у2.
В таблице 2.1 представлен общий вид вычисления значений, с помощью дисперсионного анализа.
Таблица 2.1 - Базовая таблица дисперсионного анализа
Компоненты дисперсии |
Сумма квадратов |
Число степеней свободы |
Средний квадрат |
Математическое ожидание среднего квадрата |
|
Межгрупповая |
m-1 |
= Q1/(m-1) |
|||
Внутригрупповая |
mn-m |
= Q2/(mn-m) |
M(S)= у2 |
||
Общая |
mn-1 |
Примечание - Источник: [5]
Гипотеза H0 примет вид уF2 =0. В случае справедливости этой гипотезы
M(S)= M(S)= у2.
В случае однофакторного комплекса как для модели I, так и модели II средние квадраты S2 и S2, являются несмещенными и независимыми оценками одной и той же дисперсии у2.
Следовательно, проверка нулевой гипотезы H0 свелась к проверке существенности различия несмещенных выборочных оценок S и S дисперсии у2.
Гипотеза H0 отвергается, если фактически вычисленное значение статистики F = S/S больше критического Fб:K1:K2, определенного на уровне значимости б при числе степеней свободы k1=m-1 и k2=mn-m, и принимается, если F < Fб:K1:K2 .
F- распределение Фишера (для x > 0) имеет следующую функцию плотности (для = 1, 2, ...; = 1, 2, ...):
где - степени свободы;
Г - гамма-функция.
Применительно к данной задаче опровержение гипотезы H0 означает наличие существенных различий в качестве изделий различных партий на рассматриваемом уровне значимости.
Для вычисления сумм квадратов Q1, Q2, Q часто бывает удобно использовать следующие формулы:
(2.14)
(2.15)
(2.16)
т.е. сами средние, вообще говоря, находить не обязательно.
Таким образом, процедура однофакторного дисперсионного анализа состоит в проверке гипотезы H0 о том, что имеется одна группа однородных экспериментальных данных против альтернативы о том, что таких групп больше, чем одна. Под однородностью понимается одинаковость средних значений и дисперсий в любом подмножестве данных. При этом дисперсии могут быть как известны, так и неизвестны заранее. Если имеются основания полагать, что известная или неизвестная дисперсия измерений одинакова по всей совокупности данных, то задача однофакторного дисперсионного анализа сводится к исследованию значимости различия средних в группах данных [5].
2.3 Многофакторный дисперсионный анализ
Следует сразу же отметить, что принципиальной разницы между многофакторным и однофакторным дисперсионным анализом нет. Многофакторный анализ не меняет общую логику дисперсионного анализа, а лишь несколько усложняет ее, поскольку, кроме учета влияния на зависимую переменную каждого из факторов по отдельности, следует оценивать и их совместное действие. Таким образом, то новое, что вносит в анализ данных многофакторный дисперсионный анализ, касается в основном возможности оценить межфакторное взаимодействие. Тем не менее, по-прежнему остается возможность оценивать влияние каждого фактора в отдельности. В этом смысле процедура многофакторного дисперсионного анализа (в варианте ее компьютерного использования) несомненно, более экономична, поскольку всего за один запуск решает сразу две задачи: оценивается влияние каждого из факторов и их взаимодействие [3].
Общая схема двухфакторного эксперимента, данные которого обрабатываются дисперсионным анализом имеет вид (рисунок 2.1):
Рисунок 2.1 - Схема двухфакторного эксперимента
Примечание - Источник: [5]
Данные, подвергаемые многофакторному дисперсионному анализу, часто обозначают в соответствии с количеством факторов и их уровней.
Предположив, что в рассматриваемой задаче о качестве различных m партий изделия изготавливались на разных t станках и требуется выяснить, имеются ли существенные различия в качестве изделий по каждому фактору:
А - партия изделий;
B - станок.
В результате получается переход к задаче двухфакторного дисперсионного анализа.
Все данные представлены в таблице 2.2, в которой по строкам - уровни Ai фактора А, по столбцам -- уровни Bj фактора В, а в соответствующих ячейках, таблицы находятся значения показателя качества изделий xijk (i=1,2,...,m; j=1,2,...,l; k=1,2,...,n).
Таблица 2.2 - Показатели качества изделий
B1 |
B2 |
… |
Bj |
… |
Bl |
||
A1 |
x11l,…,x11k |
x12l,…,x12k |
… |
x1jl,…,x1jk |
… |
x1ll,…,x1lk |
|
A2 |
x21l,…,x21k |
x22l,…,x22k |
… |
x2jl,…,x2jk |
… |
x2ll,…,x2lk |
|
… |
… |
… |
… |
… |
… |
… |
|
Ai |
xi1l,…,xi1k |
xi2l,…,xi2k |
… |
xijl,…,xijk |
… |
xjll,…,xjlk |
|
… |
… |
… |
… |
… |
… |
… |
|
Am |
xm1l,…,xm1k |
xm2l,…,xm2k |
… |
xmjl,…,xmjk |
… |
xmll,…,xmlk |
Примечание - Источник: [5]
Двухфакторная дисперсионная модель имеет вид:
xijk=м+Fi+Gj+Iij+еijk, (2.17)
где xijk - значение наблюдения в ячейке ij с номером k;
м - общая средняя;
Fi - эффект, обусловленный влиянием i-го уровня фактора А;
Gj - эффект, обусловленный влиянием j-го уровня фактора В;
Iij - эффект, обусловленный взаимодействием двух факторов, т.е. отклонение от средней по наблюдениям в ячейке ij от суммы первых трех слагаемых в модели;
еijk - возмущение, обусловленное вариацией переменной внутри отдельной ячейки.
Предполагается, что еijk имеет нормальный закон распределения N(0; с2), а все математические ожидания F*, G*, Ii*, I*j равны нулю.
Групповые средние находятся по формулам:
- в ячейке:
,
по строке:
по столбцу:
общая средняя:
В таблице 2.3 представлен общий вид вычисления значений, с помощью дисперсионного анализа.
Таблица 2.3 - Базовая таблица дисперсионного анализа
Компоненты дисперсии |
Сумма квадратов |
Число степеней свободы |
Средние квадраты |
|
Межгрупповая (фактор А) |
m-1 |
|||
Межгрупповая (фактор B) |
l-1 |
|||
Взаимодействие |
(m-1)(l-1) |
|||
Остаточная |
mln - ml |
|||
Общая |
mln - 1 |
Примечание - Источник: [5]
Проверка нулевых гипотез HA, HB, HAB об отсутствии влияния на рассматриваемую переменную факторов А, B и их взаимодействия AB осуществляется сравнением отношений , , (для модели I с фиксированными уровнями факторов) или отношений , , (для случайной модели II) с соответствующими табличными значениями F - критерия Фишера - Снедекора. Для смешанной модели III проверка гипотез относительно факторов с фиксированными уровнями производится также как и в модели II, а факторов со случайными уровнями - как в модели I.
Если n=1, т.е. при одном наблюдении в ячейке, то не все нулевые гипотезы могут быть проверены так как выпадает компонента Q3 из общей суммы квадратов отклонений, а с ней и средний квадрат , так как в этом случае не может быть речи о взаимодействии факторов.
С точки зрения техники вычислений для нахождения сумм квадратов Q1, Q2, Q3, Q4, Q целесообразнее использовать формулы:
Q3 = Q - Q1 - Q2 - Q4.
Отклонение от основных предпосылок дисперсионного анализа -- нормальности распределения исследуемой переменной и равенства дисперсий в ячейках (если оно не чрезмерное) -- не сказывается существенно на результатах дисперсионного анализа при равном числе наблюдений в ячейках, но может быть очень чувствительно при неравном их числе. Кроме того, при неравном числе наблюдений в ячейках резко возрастает сложность аппарата дисперсионного анализа. Поэтому рекомендуется планировать схему с равным числом наблюдений в ячейках, а если встречаются недостающие данные, то возмещать их средними значениями других наблюдений в ячейках. При этом, однако, искусственно введенные недостающие данные не следует учитывать при подсчете числа степеней свободы.
3. Дисперсионный анализ в контексте статистических методов
Статистические методы анализа - это методология измерения результатов деятельности человека, то есть перевода качественных характеристик в количественные.
Основные этапы при проведении статистического анализа:
- содержательный анализ исследуемого объекта, системы или процесса. На этом этапе определяется набор входных и выходных параметров (X1 ,..., Xp; Y1 ,..., Yq);
- составление плана сбора исходных данных - значений входных переменных (X1,...,Xp), числа наблюдений n. Этот этап выполняется при активном планировании эксперимента.
- получение исходных данных и ввод их в компьютер. На этом этапе формируются массивы чисел (x1i ,..., xpi ; y1i ,..., yqi), i=1,..., n, где n - объем выборки.
- первичная статистическая обработка данных. На данном этапе формируется статистическое описание рассматриваемых параметров:
а) построение и анализ статистических зависимостей;
б) корреляционный анализ предназначен для оценивания значимости влияния факторов (X1,...,Xp) на отклик Y;
в) дисперсионный анализ используется для оценивания влияния на отклик Y неколичественных факторов (X1,...,Xp) с целью выбора среди них наиболее важных;
г) регрессионный анализ предназначен для определения аналитической зависимости отклика Y от количественных факторов X;
- интерпретация результатов в терминах поставленной задачи [3].
В таблице 3.1 приведены статистические методы, с помощью которых решаются аналитические задачи. В соответствующих ячейках таблицы находятся частоты применения статистических методов:
- метка «-» - метод не применяется;
- метка «+» - метод применяется;
- метка «++» - метод широко применяется;
- метка «+++» - применение метода представляет особый интерес.
Дисперсионный анализ подобно t-критерию Стьюдента, позволяет оценить различия между выборочными средними; однако, в отличие от t-критерия, в нем нет ограничений на количество сравниваемых средних. Таким образом, вместо того, чтобы поставить вопрос о различии двух выборочных средних, можно оценить, различаются ли два, три четыре, пять или k средних. Дисперсионный анализ позволяет иметь дело с двумя или более независимыми переменными (признаками, факторами) одновременно, оценивая не только эффект каждой из них по отдельности, но и эффекты взаимодействия между ними.
Таблица 3.1 - Применение статистических методов при решении аналитических задач
Примечание - Источник: [5]
К большинству сложных систем применим принцип Парето, согласно которому 20 % факторов определяют свойства системы на 80 %. Поэтому первоочередной задачей исследователя имитационной модели является отсеивание несущественных факторов, позволяющее уменьшить размерность задачи оптимизации модели.
Анализ дисперсии оценивает отклонение наблюдений от общего среднего. Затем вариация разбивается на части, каждая из которых имеет свою причину. Остаточная часть вариации, которую не удается связать с условиями эксперимента, считается его случайной ошибкой. Для подтверждения значимости используется специальный тест - F-статистика.
Дисперсионный анализ определяет, есть ли эффект. Регрессионный анализ позволяет прогнозировать отклик (значение целевой функции) в некоторой точке пространства параметров. Непосредственной задачей регрессионного анализа является оценка коэффициентов регрессии.
Слишком большая размерность выборок затрудняет проведение статистических анализов, поэтому имеет смысл уменьшить размер выборки.
Применив дисперсионный анализ можно выявить значимость влияния различных факторов на исследуемую переменную. Если влияние фактора окажется несущественным, то этот фактор можно исключить из дальнейшей обработки.
3.1 Методы факторного анализа
Факторный анализ включает совокупность методов, которые на основе реально существующих связей признаков (или объектов) позволяют выявлять латентные обобщающие характеристики организационной структуры и механизма развития изучаемых явлений и процессов.
Понятие латентности в определении ключевое. Оно означает неявность характеристик, раскрываемых при помощи методов факторного анализа. Вначале имеется дело с набором элементарных признаков Xj, их взаимодействие предполагает наличие определенных причин, особенных условий, т.е. существование некоторых скрытых факторов. Последние устанавливаются в результате обобщения элементарных признаков и выступают как интегрированные характеристики, или признаки, но более высокого уровня. Естественно, что коррелировать могут не только тривиальные признаки Xj, но и сами наблюдаемые объекты Ni поэтому поиск латентных факторов теоретически возможен как по признаковым, так и по объектным данным.
Если объекты характеризуются достаточно большим числом элементарных признаков (m > 3), то логично и другое предположение - о существовании плотных скоплений точек (признаков) в пространстве n объектов. При этом новые оси обобщают уже не признаки Xj, а объекты ni, соответственно и латентные факторы Fr будут распознаны по составу наблюдаемых объектов:
Fr = c1n1 + c2n2 + ... + cNnN,
где ci - вес объекта ni в факторе Fr.
В зависимости от того, какой из рассмотренных выше тип корреляционной связи - элементарных признаков или наблюдаемых объектов - исследуется в факторном анализе, различают R и Q - технические приемы обработки данных.
Подобные документы
Применение дисперсионного анализа для исследования влияния качественных переменных на зависимую количественную переменную. Регрессионный анализ со статистической значимостью. Процесс проведения дисперсионного, кластерного, регрессионного анализов.
курсовая работа [498,5 K], добавлен 11.05.2022Сущность и основные функции группировки статистических показателей. Понятие и виды дисперсионного анализа. Показатели экономической активности, занятости и безработицы населения. Качественные показатели работы порта. Индивидуальный индекс себестоимости.
контрольная работа [107,3 K], добавлен 14.10.2010Применение математического планирования эксперимента в научных исследованиях. Начальные навыки работы с совокупностью случайных величин. Расчёт математического ожидания, дисперсии и среднеквадратического отклонения. Результаты дисперсионного анализа.
курсовая работа [1,7 M], добавлен 26.11.2013Расчет матрицы выборочных парных коэффициентов корреляции при помощи пакета анализа программы Excel. Однофакторный и двухфакторный дисперсионный анализ. Построение регрессионной модели. Модальный интервал по значению числа видов производимой продукции.
контрольная работа [281,7 K], добавлен 29.03.2010Предмет экономического анализа и его научный аппарат, виды и связь со смежными дисциплинами, основные цели, задачи. Система показателей экономического анализа, его методика. Информационное обеспечение и последовательность. Особенности факторного анализа.
контрольная работа [117,1 K], добавлен 23.06.2011Обработка данных лесной промышленности: получение распределения случайной величины, проверка гипотезы, проведение дисперсионного, корреляционного и регрессивного анализа. Сущность и содержание, особенности применения теории принятия решений, ее принципы.
контрольная работа [314,2 K], добавлен 12.02.2013- Использование корреляционно-регрессионного анализа для обработки экономических статистических данных
Роль корреляцонно-регрессионного анализа в обработке экономических данных. Корреляционно-регрессионный анализ и его возможности. Предпосылки корреляционного и регрессионного анализа. Пакет анализа Microsoft Excel.
курсовая работа [68,4 K], добавлен 11.06.2002 Понятие экономического анализа. Характеристика основных приемов и методов экономического анализа. Методика факторного анализа. Многофакторные мультипликативные модели. Построение факторной модели - первый этап детерминированного анализа.
контрольная работа [105,1 K], добавлен 12.09.2006Определение и классификация индексов, применение индексного метода в статистических исследованиях. Виды индексов количественных и качественных показателей, выбор базы и весов индексов. Индекс-дефлятор и методология расчёта индекса потребительских цен.
презентация [203,3 K], добавлен 27.04.2013Методика расчета показателей вариации по средней арифметической взвешенной. Произведение расчетов по данным интервального вариационного ряда. Построение полигона и гистограммы. Элементы и проведение дисперсионного анализа. Правило сложения дисперсий.
лабораторная работа [67,2 K], добавлен 21.06.2009