Анализ интервального вариационного ряда "Численность экономически активного населения по субъектам Российской Федерации в 2012 году"
Табличное и графическое представление вариационного ряда. Определение среднестатистической численности населения в субъектах России. Характеристика форм распределения с расчетом коэффициентов асимметрии и эксцесса и применением критерия согласия Пирсона.
Рубрика | Экономика и экономическая теория |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 17.11.2014 |
Размер файла | 403,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
23
Содержание
- Введение
- 1. Табличное и графическое представление вариационного ряда
- 1.1 Ранжирование исходных данных, определение наличия выбросов
- 1.2 Определение числа групп
- 1.3 Определение величины интервала
- 1.4 Графическое изображение вариационного ряда
- 1.5 Графическое изображение рядов распределения
- 2. Характеристика центральной тенденции распределения
- 3. Оценка вариации изучаемого признака
- 4. Характеристика структуры распределения
- 5. Характеристика формы распределения
- 6. Сглаживание эмпирического распределения
- Заключение
- Список использованной литературы
Введение
Статистическое наблюдение
Статистическим наблюдением является:
- Массовое (оно охватывает большое число случаев) проявление исследуемого явления для получения правдивых статистических данных;
- Планомерное (проводится по разработанному плану), включающее вопросы методологии, организации сбора и контроля достоверности информации;
- Систематическое (проводится систематически, либо непрерывно, либо регулярно);
- Научно организованное (для повышения достоверности данных), которое зависит от программы наблюдения, содержания анкет, качества подготовки инструкций наблюдения за явлениями и процессами социально-экономической жизни, которое заключается в сборе и регистрации отдельных признаков у каждой единицы совокупности. [1]
Для успешной подготовки и проведения статистического наблюдения необходимо решить программно-методологические, организационные вопросы, для реализации которых нужно составить организационный план статистического наблюдения.
Организационный план - это документ, в котором должны быть отражены важнейшие вопросы по организации и проведению предстоящих мероприятий. Он составляется для того, чтобы успешно проводить статистические наблюдения. В нем указываются: органы, проводящие наблюдение, время и сроки наблюдения, подготовительные работы, которые были проведены для дальнейшего наблюдения, порядок комплектования и обучения кадров, необходимых для проведения статистического наблюдения, порядок его проведения, порядок приема и сдачи материалов, получение и предоставление предварительных и окончательных итогов. Вопрос о времени проведения статистического наблюдения должен быть обязательно решен, включая выбор сезона, срока и критического момента наблюдения.
Для того чтобы выбрать сезон, нужно проследить, чтобы изучаемый объект пребывал в обычном для него состоянии.
Время начала и окончания сбора статистических данных называют периодом, или сроком.
Срок наблюдения определяется рядом факторов: он зависит от специфики и особенностей объекта наблюдения.
Критическим моментом статистического наблюдения называют момент времени, по состоянию на который фиксируются собранные данные, которые получены в процессе статистического наблюдения, например, выбирают момент окончания одних суток и начала других.
Организация, осуществляющая подготовку, проведение статистического наблюдения и несущая ответственность за свою работу, - это орган наблюдения. У органа наблюдения должны быть четко определены сферы деятельности, функции, права, круг обязанностей, за которые он несет ответственность.
Место, где происходит регистрация наблюдаемых фактов и заполнение статистических формуляров, называют местом статистического наблюдения.
В ходе проведения статистического наблюдения важной задачей является получение достоверных и объективных данных о состоянии обследуемых объектов. Существенное значение для проведения хорошего статистического наблюдения имеет определение кадрового состава.
Успешное проведение статистического наблюдения обеспечивается четкой структурой и разработанностью его организационного плана.
Ошибки статистического наблюдения
Важнейшей задачей статистического наблюдения является достоверность и точность собираемой статистической информации.
Любое статистическое наблюдение предполагает получение данных, которые будут полно и точно отражать действительность.
В процессе проведения статистического наблюдения могут возникать погрешности, которые приводят к снижению достоверности статистического наблюдения.
Основное требование, которое предъявляется к статистическому наблюдению - это точность статистических данных.
Точность - это уровень соответствия значения какого-либо признака или показателя, который был получен вследствие статистического наблюдения, действительному его значению. В процессе подготовки и проведения статистического исследования, чтобы предупредить возможность появления отклонений или разности между исчисленными показателями, нужно предусмотреть и осуществить ряд мероприятий. Если же такие отклонения возникли, их называют ошибками статистического наблюдения.
Материалы, собранные в результате наблюдения, подвергаются всесторонней проверке и контролю. Они проверяются с точки зрения полноты охвата всех единиц совокупности наблюдения и правильности заполнения документов контроля.
Ошибки статистического наблюдения - это ошибки репрезентативности и ошибки регистрации.
Ошибки репрезентативности показывают, в какой степени выборочная совокупность представляет генеральную совокупность. Эти ошибки возникают потому, что наблюдению подвергается только часть единиц изучаемой совокупности, и сведения эти не могут абсолютно точно отобразить свойства всей массы явлений совокупности.
Возникающие в результате неправильного установления фактов ошибки регистрации можно подразделить на:
- случайные - это ошибки, которые могут дать искажения как в одну, так и в другую сторону;
- систематические ошибки, возникающие вследствие нарушения принципов непреднамеренного отбора единиц изучаемой совокупности. Систематические ошибки опасны, потому что они влияют на полученные итоговые показатели;
- преднамеренные ошибки возникают вследствие умышленного искажения фактов.
Для обеспечения достоверности данных статистического наблюдения предусматривают проверку их качества с точки зрения полноты охвата изучаемого объекта статистическим наблюдением, качества и др.
Проверка данных статистического наблюдения на достоверность - это проведение логического, арифметического и синтаксического контроля.
Содержание и значение статистической сводки
Сведения о каждой единице анализируемой совокупности, полученные в результате первой стадии статистического исследования, характеризуют статистическое наблюдение с различных его сторон, так как они обладают многочисленными признаками и свойствами, которые изменяются во времени и пространстве. Для получения сводной характеристики всего объекта при помощи обобщающих показателей нужно систематизировать и обобщить результаты, которые были получены в ходе статистического наблюдения. Это даст нам возможность выявить особенности и черты статистической совокупности в целом и отдельных ее составляющих, обнаружить закономерности изучаемых социально-экономических явлений и процессов. Данную систематизацию называют сводкой первичного статистического материала.
Второй этап статистической работы - статистическая сводка - это обработка первичных данных в целях получения обобщенных характеристик изучаемого явления или процесса по ряду существенных для него признаков для выявления типичных черт и закономерностей, присущих явлению или процессу в целом.
Статистическая сводка - это переход от единичных данных к сведениям о группах единиц и совокупности в целом.
Проведение сводки включает три этапа:
- предварительный контроль - это проверка данных;
- группировка данных по заданным признакам - это определение производных показателей;
- оформление результатов сводки в виде статистических таблиц, они являются удобной формой для восприятия полученной информации.
Смысловая согласованность статистических сведений - это предварительный контроль.
В соответствии с программой статистической сводки для того, чтобы в дальнейшем предоставить полученную информацию в доступном для восприятия виде, используется статистическая группировка данных.
Полученные результаты группировки оформляются в виде группировочных таблиц, содержащих сводную характеристику исследуемой совокупности по одному или нескольким признакам, которые взаимосвязаны логикой анализа.
Различают сводку простую и сложную.
Виды сводок
Простая статистическая сводка - это операция по подсчету общих итоговых и групповых данных по совокупности единиц наблюдения и оформление этого материала в таблицах.
Простая статистическая сводка дает возможность определить число единиц изучаемой совокупности и объем изучаемых признаков, но тем самым простая сводка не дает представления о целостности состава изучаемой совокупности.
Если единицы совокупности разбивают на однородные группы, после этого подсчитывают итоги по каждой группе, а затем по всей совокупности в целом, такую статистическую сводку называют сложной.
Сложная сводка позволяет нам изучить состав совокупности и выявить влияние одних признаков на другие, т. е. раскрыть свойственные данной совокупности закономерности.
Сложная статистическая сводка - это комплекс операций, включающих распределение единиц наблюдения изучаемого социально-экономического явления или процесса на группы, составление системы показателей для характеристики типичных групп и подгрупп изучаемой совокупности явлений, подсчет числа единиц и итогов в каждой группе и подгруппах и оформление результатов этой работы в виде статистических таблиц.
На основе всестороннего теоретического анализа сущности и содержания изучаемых явлений и процессов проводится статистическая сводка.
Программой и планом проведения статистической сводки обеспечивается достоверность и обоснованность ее результатов.
Программа статистической сводки содержит перечень групп, на которые может быть разбита или разбивается совокупность единиц статистического наблюдения, а также систему показателей, характеризующих изучаемую совокупность явлений и процессов как в целом, так и отдельных ее частей.
От целей и задач исследования зависит программа статистической сводки.
Вместе с программой статистической сводки составляют план ее проведения. План должен содержать информацию о последовательности, сроках и технике проведения сводки, ее исполнителях, о порядке и правилах оформления ее результатов в виде таблиц.
Сущность и классификация группировок
Статистическая группировка - это один из основных этапов проведения статистического исследования.
Процесс образования однородных групп на основе разделения статистической совокупности на части или объединение изучаемых статистических единиц в совокупности по определенным для них признакам называют статистической группировкой. Важнейшим статистическим методом обобщения данных являются статистические группировки.
В литературе [2] выделяют следующие виды статистических группировок:
- типологические;
- структурные;
- аналитические
Качественно однородные группы совокупностей, называют типологической группировкой.
Для построения типологической группировки необходимо воспользоваться количественными и качественными (атрибутивными) признаками.
Разделение однородной совокупности на определенные группы, которые в дальнейшем будут характеризовать структуру по определенному группировочному признаку, называют структурной группировкой.
Здесь также рассматриваются количественные и атрибутивные группировки.
Статистические ряды распределения
Статистические ряды распределения представляют собой упорядоченное расположение единиц изучаемой совокупности на группы по группировочному признаку.
Различают атрибутивные и вариационные ряды распределения.
Атрибутивный - это ряд распределения, построенный по качественным признакам.
По количественному признаку строится вариационный ряд распределения. Он состоит из частоты (численности) отдельных вариантов или каждой группы вариационного ряда. Данные числа показывают, насколько часто встречаются различные варианты (значения признака) в ряду распределения. Сумма всех частот определяет численность всей совокупности.
В зависимости от характера вариации признака различают дискретные и интервальные вариационные ряды распределения. В дискретном вариационном ряде распределения группы составлены по признаку, изменяющемуся дискретно и принимающему только целые значения.
В интервальном вариационном ряде распределения группировочный признак, составляющий основание группировки, может принимать в определенном интервале любые значения.
Вариационные ряды состоят из двух элементов: частоты и варианты.
Вариантой называют отдельное значение варьируемого признака, которое он принимает в ряду распределения.
Частота - это численность отдельных вариант или каждой группы вариационного ряда. Если частоты выражены в долях единицы или в процентах к итогу, то их называют частостями.
Плотность распределения - это отношение числа единиц совокупности к ширине интервала.
Анализ рядов распределения можно проводить на основе их графического изображения. Линейчатые и круговые диаграммы строятся для отображения структуры совокупности.
Применяются вместе с диаграммами и такие линии, как полигон, кумулята, огива, гистограмма.
Полигон - ломаная кривая, строится на основе прямоугольной системы координат, когда по оси Х откладываются значения признака, а по оси У - частоты.
Гладкая кривая, соединяющая точки - это эмпирическая плотность распределения.
Кумулята - ломаная кривая, строящаяся на основе прямоугольной системы координат, когда по оси Х откладываются значения признака, а по оси У - накопленные частоты.
Для дискретных рядов на оси откладываются сами значения признака, а для интервальных - середины интервала.
На основе гистограмм можно строить диаграммы накопленных частот с последующим построением интегральной эмпирической функции распределения.
1. Табличное и графическое представление вариационного ряда
1.1 Ранжирование исходных данных, определение наличия выбросов
Первым этапом статистического изучения вариации являются построение вариационного ряда - упорядоченного распределения единиц совокупности по возрастающим (чаще) или по убывающим (реже) значениям признака и подсчет числа единиц с тем или иным значением признака.
Существуют три формы вариационного ряда:
- ранжированный ряд;
- дискретный ряд;
- интервальный ряд.
Вариационный ряд часто называют рядом распределения.
Этот термин используется при изучении вариации как количественных, так и неколичественных признаков.
Ряд распределения представляет собой структурную группировку.
Ранжированный ряд -- это перечень отдельных единиц совокупности в порядке возрастания (убывания) изучаемого признака.
Если численность единиц совокупности достаточно велика, ранжированный ряд становится громоздким, а его построение, даже с помощью ЭВМ, занимает длительное время. В таких случаях вариационный ряд строится с помощью группировки единиц совокупности по значениям изучаемого признака.
Если признак принимает небольшое число значений, строится дискретный вариационный ряд.
Дискретный вариационный ряд - это таблица, состоящая из двух строк или граф: конкретных значений варьирующего признака Хi и числа единиц совокупности с данным значением признака F частот (F - начальная буква англ. Слова frequency)
1.2 Определение числа групп
Число групп в дискретном вариационном ряду определяется числом реально существующих значений варьирующего признака.
Если же признак может принимать дискретные значения, то их число очень велико (например, поголовье скота на 1 января года в разных сельхозпредприятиях может составлять от нуля до десятков тысяч голов), тогда строится интервальный вариационный ряд.
Интервальный вариационный ряд строится и для изучения признаков, которые могут принимать любые, как целые, так и дробные, значения в области своего существования. Таковы, например, рентабельность реализованной продукции, себестоимость единицы продукции, доход на 1 жителя города, доля лиц с высшим образованием среди населения разных территорий и вообще все вторичные признаки, значения которых рассчитываются путем деления величины одного первичного признака на величину другого
Интервальный вариационный ряд представляет собой таблицу, (состоящую из двух граф (или строк) -- интервалов признака, вариация которого изучается, и числа единиц совокупности, попадающих в данный интервал (частот), или долей этого числа от общей численности совокупности (частостей).
При построении интервального вариационного ряда необходимо выбрать оптимальное число групп (интервалов признака) и установить длину интервала.
Поскольку при анализе вариационного ряда сравнивают частоты в разных интервалах, необходимо, чтобы величина интервала была постоянной. Оптимальное число групп выбирается так, чтобы в достаточной мере отразилось разнообразие значений признака в совокупности и в то же время закономерность распределения, его форма не искажалась случайными колебаниями частот. Если групп будет слишком мало, не проявится `рименямерность вариации; если групп будет чрезмерно много, случайные скачки частот исказят форму распределения.
Чаще всего число групп в вариационном ряду устанавливают, придерживаясь формулы (1.1), рекомендованной американским статистиком Стерджессом (Sturgess):
(1.1)
где k - число групп; n - численность совокупности.
Эта формула показывает, что число групп - функция объема данных.
Предположим, необходимо построить вариационный ряд распределения предприятий области по урожайности зерновых культур за какой-то год. Число сельхозпредприятий, имевших посевы зерновых культур, составило 143; наименьшее значение урожайности равно 10,7 ц/га, наибольшее - 53,1 ц/га.
Имеем:
k=1+3.32*lq*143=8,16
Так как число групп целое, следовательно, рекомендуется построить 8 или 9 групп.
1.3 Определение величины интервала
Зная число групп, рассчитывают величину интервала:
(1.2)
В нашем примере величина интервала составляет:
а) при 8 группах
I= (53,1-10,7)/8 =5,3 ц/га
б) при 9 группах
I= (53,1-10,7)/9 =4,7 ц/га
Для построения ряда и анализа вариации значительно лучше иметь по возможности округленные значения величины интервала и его границ. Поэтому наилучшим решением будет построение вариационного ряда с 9 группами с интервалом, равным 5 ц/га.
Границы интервалов могут указываться разным образом: верхняя граница предыдущего интервала повторяет нижнюю границу следующего или не повторяет.
В последнем случае второй интервал будет обозначен как 15,1-20, третий как 20,1-25 и т.д., т.е. предполагается, что все значения урожайности обязательно округлены до одной десятой. Кроме того, возникает нежелательное осложнение с серединой интервала 15,1-20, которая, строго говоря, уже будет равна не 17,5, а 17,55; соответственно при замене округленного интервала 40-60 на 40,1-6,0 вместо округленного значения его середины 50 получим 50,5, Поэтому предпочтительнее оставить интервалы с повторяющейся округленной границей и договориться, что единицы совокупности, имеющие значение признака, равное границе интервала, включаются в тот интервал, где это точное значение впервые указывается. Так, хозяйство, имеющее урожайность, равную 15 ц/га, включается в первую группу, значение 20 ц/га -во вторую и т. д.
1.4 Графическое изображение вариационного ряда
Существенную помощь в анализе вариационного ряда и его свойств оказывает графическое изображение.
Интервальный ряд изображается столбиковой диаграммой, в которой основания столбиков, расположенные на оси абсцисс, -- это интервалы значений варьирующего признака, а высоты столбиков - частоты, -соответствующие масштабу по оси ординат.
Данные таблиц показывают характерную для многих признаков форму распределения: чаще встречаются значения средних интервалов признака, реже - крайние; малые и большие значения признака. Форма этого распределения близка к рассматриваемому в курсе математической статистики закону нормального распределения.
Великий русский математик А.М. Ляпунов (1857 - 1918) доказал, что нормальное распределение образуется, если на варьирующую переменную влияет большое число факторов, ни один из которых не имеет преобладающего влияния.
Случайное сочетание множества примерно равных факторов, влияющих на вариацию урожайности зерновых культур, как природных, так и агротехнических, экономических, создает близкое к нормальному закону распределения распределение хозяйств области по урожайности.
Если имеется дискретный вариационный ряд или используются середины интервалов, то графическое изображение такого вариационного ряда называется полигоном (от греч. Слова - многоугольник).
Отношение высоты полигона или диаграммы к их основанию рекомендуется в пропорции примерно 5:8.
1.5 Графическое изображение рядов распределения
Наглядно ряды распределения представляются при помощи графических изображений.
Ряды распределения изображаются в виде:
- полигона
- гистограммы
- кумуляты
- огивы
Полигон - при построении полигона на горизонтальной оси (ось абсцисс) откладывают значения варьирующего признака, а на вертикальной оси (ось ординат) -- частоты или частости.
Полигон используется для дискретных вариационных рядов.
Если значения признака выражены в виде интервалов, то такой ряд называется интервальным.
Интервальные ряды распределения изображают графически в виде гистограммы, кумуляты или огивы.
При такой записи непрерывного признака, когда одна и та же величина встречается дважды (как верхняя граница одного интервала и нижняя граница другого интервала), то эта величина относится к той группе, где эта величина выступает в роли верхней границы.
Гистограмма - Для построения гистограммы по оси абсцисс указывают значения границ интервалов и на их основании строят прямоугольники, высота которых пропорциональна частотам (или частостям).
Кумулята - для построения кумуляты необходимо рассчитать накопленные частоты (частости). Они определяются путем последовательного суммирования частот (частостей) предшествующих интервалов и обозначаются S. Накопленные частоты показывают, сколько единиц совокупности имеют значение признака не больше, чем рассматриваемое.
Распределение признака в вариационном ряду по накопленным частотам (частостям) изображается с помощью кумуляты.
Кумулята или кумулятивная кривая в отличие от полигона строится по накопленным частотам или частостям. При этом на оси абсцисс помещают значения признака, а на оси ординат -- накопленные частоты или частности.
Огива строится аналогично кумуляте с той лишь разницей, что накопленные частоты помещают на оси абсцисс, а значения признака -- на оси ординат.
Разновидностью кумуляты является кривая концентрации или график Лоренца. Для построения кривой концентрации на обе оси прямоугольной системы координат наносится масштабная шкала в процентах от 0 до 100. При этом на оси абсцисс указывают накопленные частости, а на оси ординат -- накопленные значения доли (в процентах) по объему признака.
Равномерному распределению признака соответствует на графике диагональ квадрата. При неравномерном распределении график представляет собой вогнутую кривую в зависимости от уровня концентрации признака.
Для практической работы со статистическими данными выбрана таблица «Численность экономически активного населения» в 2012 году из справочника «Регионы России» (таблица 1.1)
Таблица 1.1 Численность экономически активного населения Российской Федерации в 2012 году (тыс. человек)
№ региона |
Кол-во человек |
№ региона |
Кол-во человек |
№региона |
Кол-во человек |
№ региона |
Кол-во человек |
№ региона |
Кол-во человек |
№ региона |
Кол-во человек |
|
1 |
752 |
16 |
815 |
31 |
1206 |
46 |
1895 |
61 |
314 |
76 |
530 |
|
2 |
660 |
17 |
717 |
32 |
133 |
47 |
843 |
62 |
1827 |
77 |
488 |
|
3 |
792 |
18 |
5893 |
33 |
443 |
48 |
681 |
63 |
95 |
78 |
35 |
|
4 |
1148 |
19 |
382 |
34 |
143 |
49 |
1438 |
64 |
451 |
79 |
496 |
|
5 |
560 |
20 |
547 |
35 |
198 |
50 |
793 |
65 |
128 |
80 |
1054 |
|
6 |
538 |
21 |
680 |
36 |
311 |
51 |
1793 |
66 |
262 |
81 |
774 |
|
7 |
371 |
22 |
24 |
37 |
460 |
52 |
1101 |
67 |
1314 |
82 |
441 |
|
8 |
592 |
23 |
667 |
38 |
2470 |
53 |
711 |
68 |
1529 |
83 |
192 |
|
9 |
597 |
24 |
513 |
39 |
1300 |
54 |
1754 |
69 |
22 |
84 |
13 |
|
10 |
3603 |
25 |
897 |
40 |
537 |
55 |
1323 |
70 |
10 |
85 |
101 |
|
11 |
439 |
26 |
515 |
41 |
1356 |
56 |
682 |
71 |
1227 |
86 |
304 |
|
12 |
576 |
27 |
339 |
42 |
2132 |
57 |
478 |
72 |
59 |
87 |
87 |
|
13 |
529 |
28 |
373 |
43 |
1984 |
58 |
2417 |
73 |
1476 |
88 |
33 |
|
14 |
556 |
29 |
2645 |
44 |
362 |
59 |
968 |
74 |
1366 |
|||
15 |
720 |
30 |
202 |
45 |
439 |
60 |
848 |
75 |
1022 |
Используя программу STATISTIKA проведем ранжирование статистических данных.
Выбросами, очевидно, будут Москва и Московская область, так как разность между экономически активным населением Москвы (5893 тыс. чел) и Москвовской области (3603 тыс. чел) гораздо больше, чем разность между экономически активным населением Санкт-Петербурга (2645 тыс. чел.) и Краснодарского края (2470 тыс. чел.)
Таким образом, ранжированный ряд будет выглядеть так, как представлено в таблице 1.2.
Таблица 1.2 Исходные данные, ранжированные по возрастанию значений признака (тыс. человек)
Номер региона |
Количество человек |
Номер региона |
Количество человек |
Номер региона |
Количество человек |
Номер региона |
Количество человек |
Номер региона |
Количество человек |
Номер региона |
Количество человек |
|
1 |
10 |
16 |
202 |
31 |
460 |
46 |
597 |
61 |
848 |
76 |
1476 |
|
2 |
13 |
17 |
262 |
32 |
478 |
47 |
660 |
62 |
897 |
77 |
1529 |
|
3 |
22 |
18 |
304 |
33 |
488 |
48 |
667 |
63 |
968 |
78 |
1754 |
|
4 |
24 |
19 |
311 |
34 |
496 |
49 |
680 |
64 |
1022 |
79 |
1793 |
|
5 |
33 |
20 |
314 |
35 |
513 |
50 |
681 |
65 |
1054 |
80 |
1827 |
|
6 |
35 |
21 |
339 |
36 |
515 |
51 |
682 |
66 |
1101 |
81 |
1895 |
|
7 |
59 |
22 |
362 |
37 |
529 |
52 |
711 |
67 |
1148 |
82 |
1984 |
|
8 |
87 |
23 |
371 |
38 |
530 |
53 |
717 |
68 |
1206 |
83 |
2132 |
|
9 |
95 |
24 |
373 |
39 |
537 |
54 |
720 |
69 |
1227 |
84 |
2417 |
|
10 |
101 |
25 |
382 |
40 |
538 |
55 |
752 |
70 |
1300 |
85 |
2470 |
|
11 |
128 |
26 |
439 |
41 |
547 |
56 |
774 |
71 |
1314 |
86 |
2645 |
|
12 |
133 |
27 |
439 |
42 |
556 |
57 |
792 |
72 |
1323 |
87 |
3603 |
|
13 |
143 |
28 |
441 |
43 |
560 |
58 |
793 |
73 |
1356 |
88 |
5893 |
|
14 |
192 |
29 |
443 |
44 |
576 |
59 |
815 |
74 |
1366 |
|||
15 |
198 |
30 |
451 |
45 |
592 |
60 |
843 |
75 |
1438 |
Переходя к построению табличного представления вариационного ряда используем ППП, что упрощает задачу наблюдения и поэтапно применяя подборку шага составим три таблицы с шагом k=15, 10 и 7, руководствуясь, прежде всего тем, чтобы в конечном варианте таблицы отсутствовали малонаполненные и нулевые группы и получена была мономодальная таблица.
Главный недостаток таблицы с шагом k=15 (представленной на рисунке 1.1) наличие нулевых строк и нечётко определенная мономодальность. При этом встречаются малонаполненные и нулевые ячейки.
10 |
10 |
11,62791 |
11,6279 |
|
7 |
17 |
8,13953 |
19,7674 |
|
15 |
32 |
17,44186 |
37,2093 |
|
16 |
48 |
18,60465 |
55,8140 |
|
13 |
61 |
15,11628 |
70,9302 |
|
3 |
64 |
3,48837 |
74,4186 |
|
5 |
69 |
5,81395 |
80,2326 |
|
5 |
74 |
5,81395 |
86,0465 |
|
3 |
77 |
3,48837 |
89,5349 |
|
2 |
79 |
2,32558 |
91,8605 |
|
3 |
82 |
3,48837 |
95,3488 |
|
1 |
83 |
1,16279 |
96,5116 |
|
0 |
83 |
0,00000 |
96,5116 |
|
2 |
85 |
2,32558 |
98,8372 |
|
1 |
86 |
1,16279 |
100,0000 |
|
0 |
86 |
0,00000 |
100,0000 |
Рис. 1.1 Таблица распределения с числом интервалов k=15
В таблице с числом интервалов k=10 (представленной на рис. 1.2) уже отсутствуют нулевые строки, а так же увеличивается мономодальность:
13 |
13 |
15,11628 |
15,1163 |
|
16 |
29 |
18,60465 |
33,7209 |
|
25 |
54 |
29,06977 |
62,7907 |
|
10 |
64 |
11,62791 |
74,4186 |
|
8 |
72 |
9,30233 |
83,7209 |
|
5 |
77 |
5,81395 |
89,5349 |
|
4 |
81 |
4,65116 |
94,1860 |
|
2 |
83 |
2,32558 |
96,5116 |
|
2 |
85 |
2,32558 |
98,8372 |
|
1 |
86 |
1,16279 |
100,0000 |
|
0 |
86 |
0,00000 |
100,0000 |
Рис. 1.2 Таблица распределения с числом интевалов k=10
В таблице с числом интервалов k=8, (представленной на рис.1.3) по мнению автора наиболее подходит для статистического анализа:
15 |
15 |
17,44186 |
17,4419 |
|
28 |
43 |
32,55814 |
50,0000 |
|
19 |
62 |
22,09302 |
72,0930 |
|
10 |
72 |
11,62791 |
83,7209 |
|
5 |
77 |
5,81395 |
89,5349 |
|
5 |
82 |
5,81395 |
95,3488 |
|
2 |
84 |
2,32558 |
97,6744 |
|
2 |
86 |
2,32558 |
100,0000 |
|
0 |
86 |
0,00000 |
100,0000 |
Рис. 1.3 Таблица распределения с числом интервалов k=8
Таким образом, данные статистического наблюдения «Численность экономически активного населения Российской Федерации в 2012 году» (тыс. чел.) предварительно могут быть сведены так как это представлено в таблице 1.3:
Таблица 1.3 Численность экономически активного населения по субъектам Российской Федерации в 2012 году (тыс. человек)
Численность населения |
Частоты |
Коммулятивные частоты S |
В % |
В %, итого |
|
До 198 |
15 |
15 |
17,44 |
17,44 |
|
От 198 до 575 |
28 |
43 |
32,56 |
50,00 |
|
От 575 до 951 |
19 |
62 |
22,09 |
72,09 |
|
От 951 до 1328 |
10 |
72 |
11,63 |
83,72 |
|
От 1328 до 1704 |
5 |
77 |
5,81 |
89,53 |
|
От 1704 до 2080 |
5 |
82 |
5,81 |
95,35 |
|
От 2080 до 2456 |
2 |
84 |
2,32 |
97,67 |
|
Свыше 2456 |
2 |
86 |
2,32 |
100,00 |
|
ИТОГО |
86 |
86 |
100,0 |
100,00 |
При этом в данной таблице слабо выдержан её шаг (за счет того, что ППП применяет расчет с округлением до четвертого знака после запятой), при этом граница верхнего ряда начинается в области отрицательных значений.
Рассчитав по формуле (1.2) и округлив до целых значений, выясним его длину:
тыс.чел.
Задав указанное значение в программе, уточним таблицу.
В результате окончательная таблица будет выглядеть в соответствии с рис.1.4:
21 |
21 |
24,41860 |
24,4186 |
|
27 |
48 |
31,39535 |
55,8140 |
|
15 |
63 |
17,44186 |
73,2558 |
|
9 |
72 |
10,46512 |
83,7209 |
|
5 |
77 |
5,81395 |
89,5349 |
|
5 |
82 |
5,81395 |
95,3488 |
|
1 |
83 |
1,16279 |
96,5116 |
|
3 |
86 |
3,48837 |
100,0000 |
|
0 |
86 |
0,00000 |
100,0000 |
|
0 |
86 |
0,00000 |
100,0000 |
Рис.1.4 Таблица распределения с числом интервалов k=10 и шагом 330
В окончательном виде таблица «Численность экономически активного населения Российской Федерации в 2012 году» (тыс. чел.) примет вид (табл. 1.4):
Таблица 1.4 Численность экономически активного населения в Российской Федерации в 2012 году (тыс. человек)
Численность населения в субъектах РФ |
Частоты |
Коммулятивные частоты S |
В % |
В %, итого |
|
От 10 до 340 |
21 |
21 |
24,42 |
24,42 |
|
От 340 до 670 |
27 |
48 |
31,40 |
55,81 |
|
От 670 до 1000 |
15 |
63 |
17,44 |
73,26 |
|
От 1000 до 1330 |
9 |
72 |
10,47 |
83,72 |
|
От 1330 до 1660 |
5 |
77 |
5,81 |
89,53 |
|
От 1660 до 1990 |
5 |
82 |
5,81 |
95,35 |
|
От 1990 до 2320 |
1 |
83 |
1,16 |
96,51 |
|
От 2320 до 2650 |
3 |
86 |
3,49 |
100,00 |
|
ИТОГО |
86 |
86 |
100,0 |
100,00 |
После окончательного представления статистической таблицы, она подлежит анализу.
Традиционно для изображения вариационных рядов распределения в отечественной практике используются графики: гистограмма, огива, кумулята.
Рис. 1.5 Гистограмма распределения регионов России по значению показателя «Численность экономически активного населения в Российской Федерации в 2012 году» (тыс. человек) с наложенной кривой нормального распределения с числом интервалов k=8.
Из данной гистограммы усматривается, что наибольшее часть населения России проживает в регионах с численностью населения от 330 до 660 тыс. человек.
Таким образом, можно сказать, что основная часть экономически активного населения проживает в регионах с численностью до проумиллиона человек.
При этом за счёт крупных агломераций - Санкт-Петербурга и Центральной части России в конце гистограммы виден незначительное увеличение количества жителей в крупных мегаполисах.
Рис. 1.6 Полигон распределения регионов России по значению показателя «Численность экономически активного населения в Российской Федерации в 2012 году» (тыс. человек) с числом интервалов k=8.
Аналогично гистограмме, представленной на Рис.1.5 видно, что максимальное число субъектов Российской Федерации имеет численность до полумиллиона человек.
При этом за счёт Санкт-Петербурга и Центральной части Российской Федерации в конце полигона имеется небольшой всплеск увеличения количества субъектов Российской Федерации.
Следует отметить, что в случае рассмотрения полного состава первоначальных статистических данных (с учётом Москвы и Московской области) этот пик был бы более заострён.
Рис. 1.7. Кумулята распределения регионов России по значению показателя «Численность экономически активного населения в Российской Федерации в 2012 году» (тыс. человек) с числом интервалов k=8 (абсолютные частоты).
Рассматривая кумуляты, представленные на Рис.1.7 и Рис.1.8 видно, что значительный прирост накопленных процентных частот (с 24,42% до 55,81%) обеспечивается выше признанным фактором, то есть за чёт значительного числа субъектов Федерации с численностью экономически активного населения от 340 до 670 тыс. чел. В других областях значений кумулята имеет более плавное распределение.
Рис. 1.8. Кумулята распределения регионов России по значению показателя «Численность экономически активного населения в Российской Федерации в 2012 году» (тыс. человек) с числом интервалов k=8 (относительные частоты).
При этом, если бы кумулята строилась бы с учётом 100%-й выборки (с учетом выбросов) её конец был бы более заострен.
вариационный ряд асимметрия пирсон
2. Характеристика центральной тенденции распределения
Для определения средних и наиболее типичных значений совокупности С.Е. Казаринова [3] рекомендует показатели центра распределения.
Основные из них - математическое ожидание, среднее арифметическое, среднее геометрическое, среднее гармоническое, степенные средние, взвешенные средние, центр сгиба, медиана, мода.
Расчет средних величин производится разными способами, и, соответственно, применение их тоже зависит от исследуемой совокупности.
У симметричного среднего одномерного унимодального распределения математическое ожидание, медиана и мода одинаковы.
В математике и статистике среднее арифметическое (или просто среднее) набора чисел - это сумма всех чисел в этом наборе, делённая на их количество. Среднее арифметическое является наиболее общим и самым распространенным понятием средней величины.
Термин среднее арифметическое предпочитают, чтобы отличить его от других средних величин, таких как медиана и мода.
Частными случаями среднего арифметического являются генеральное среднее (генеральной совокупности) и выборочное среднее (выборки).
Среднее арифметическое рассчитывается по формуле:
(2.1)
Хотя среднее арифметическое часто используется в качестве центральных тенденций, это понятие не относится к робастной статистике, что означает, что среднее арифметическое подвержено сильному влиянию «больших отклонений». Примечательно, что для распределений с большим коэффициентом ассиметрии среднее арифметическое может не соответствовать понятию «среднего», а значение среднего из робастной статистики (например, медиана) может лучше описывать центральную тенденцию.
Классическим примером является подсчёт среднего дохода. Например, отчет о «среднем» чистом доходе в Медине, штат Вашингтон, подсчитанное как среднее арифметическое всех ежегодных чистых доходов жителей, даст на удивление большое число из-за Билла Гейтса.
Если, например, рассмотреть выборку (1,2,2,2,3,9). Среднее арифметическое равно 3,17, но пять значений из шести ниже этого значения.
Другими характеристиками центральной тенденции являются мода и медиана.
Мода - это значение во множестве наблюдений, которое встречается наиболее часто. Иногда в совокупности встречается более, чем одна мода (например: 2,5,5,5,8,9,9,9,10; мода = 5 и 9). В этом случае говорят, что совокупность мультимодальна. Из структурных средних величин только мода обладает таким уникальным свойством. Как правило мультимодальность указывает на то, что набор данных не подчиняется нормальному распределению.
Мода, как средняя величина, употребляется чаще для данных, имеющих нечисловую природу. При экспертной оценке с её помощью определяют наиболее типы продукта, что учитывается при прогнозе продаж или планировании их производства.
Медиана - 50-й процентиль, квинтель 0,5 возможное значение признака, который делит ранжированную совокупность (вариационный ряд выборки) на две равные части: 50 «нижних» единиц ряда будут иметь значение признака не больше, чем медиана, а «верхние» 50% - не меньше, чем медиана. Медиана является важной характеристикой распределения случайной величины и так же как математическое ожидание, может быть использовано для центрирования распределения. Однако медиана более робастна и поэтому может быть более предпочтительна для распределений с т.н. тяжёлыми хвостами.
Медиана определяется для широкого класса распределений (например, для всех непрерывных), а в случае неопределенности, естественным образом доопределяется, в то время, как математическое ожидание может быть не определено (например, у распределения Коши).
Если предположить, что в одной комнате оказалось 20 человек - 19 бедняков и 1 миллиардер, которые положили на стол деньги: бедняки по 5 долларов, а богач 1 млрд., то в сумме получится 1000000095 долларов.
Среднее арифметическое в данном случае будет 50000004,75 долл.
Медиана же составит 5 долл.(полусумма десятого и одиннадцатого значений ранжированного вариационного ряда)
Таким образом, можно утверждать, что каждый положил на стол не более 5 долларов.
В данном случае расчет средней арифметической неподходящая характеристика, так как оно значительно превышает сумму наличных, имеющихся у среднего человека.
К недостаткам данной характеристики является то, что при наличии чётного количества случаев и два средних значения различаются, то медианой может служить любое число между ними (например, в выборке {1,2,3,4} медианой, по определению, может служить любое число из интервала (2,3)). На практике в случае чаше всего используют среднее арифметическое двух средних значений и применяют формулы:
если n - чётное (2.1а)
если n - нечётное (2.1б)
Воспользовавшись программой STATISTICA, рассчитываем среднее арифметическое, моду и медиану статистической таблицы «Численность экономически активного населения в 2012 году» (тыс. чел.):
Таблица 2.1
Наименование показателя |
Средняя арифметическая |
Мода |
Медиана |
|
Значение показателя |
755,7558 |
439,0 |
568,000 |
Таким образом, среднеарифметическая в отдельно взятом субъекте Российской Федерации составляет 755 тыс. человек, при этом при расчете совокупности учитывались как малозаселенных районов в местностях крайнего Севера и Дальнего Востока так и крупные агломерации. Данное обстоятельство превышает значение, полученное в ходе графического анализа вариационного ряда.
В связи с тем, что в исходном статистическом наблюдении встречаются два субъекта Федерации с численностью 439 тыс. чел., то модой и является данная величина (в противном случае выборка была бы полимодальной).
Медианой является величина 568 тыс. чел.
Указанные значения лежат в плоскости ранее рассмотренного графического изображения вариационного ряда.
3. Оценка вариации изучаемого признака
Вариация - различие значений какого-либо признака у разных единиц совокупности за один и тот же промежуток времени. Причиной возникновения вариации являются различные условия существования разных единиц совокупности. Вариация - необходимое условие существования и развития массовых явлений. Определение вариации необходимо при организации выборочного наблюдения, статистическом моделировании и планировании экспертных опросов. По степени вариации можно судить об однородности совокупности, устойчивости значений признака, типичности средней, о взаимосвязи между какими-либо признаками.
Различают абсолютные и относительные показатели вариации. К абсолютным относят: размах вариации, среднее линейное отклонение, среднеквадратическое отклонение, дисперсию, среднее квартальное расстояние.
Относительные показатели: относительный размах вариации (коэффициент осцилляции), относительное отклонение по модулю (линейный коэффициент вариации), коэффициент вариации, относительное квартальное расстояние.
Размах вариации -- это разность между максимальным и минимальным значениями признака.
Он показывает пределы, в которых изменяется величина признака в изучаемой совокупности.
Пример
Опыт работы у пяти претендентов на предшествующей работе составляет: 2, 3, 4, 7 и 9 лет.
В данном случае размах вариации = 9 -- 2 = 7 лет.
Для обобщенной характеристики различий в значениях признака вычисляют средние показатели вариации, основанные на учете отклонений от средней арифметической. За отклонение от средней принимается разность:
(Xi - X) (3.1)
При этом во избежание превращения в нуль суммы отклонений вариантов признака от средней (нулевое свойство средней) приходится либо не учитывать знаки отклонения, то есть брать эту сумму по модулю, либо возводить значения отклонений в квадрат.
Дисперсия (дисперсия случайной величины) - мера разброса данной случайной величины, то есть её отклонение от математического ожидания. В статистике часто употребляется квадратный корень из дисперсии, называемый среднеквадратичным отклонением, стандартным отклонением или стандартным разбросом. Стандартное отклонение измеряется в тех же единицах, что и сама случайная величина, а дисперсия измеряется в квадратах этой единицы измерения.
Из неравенства Чебышева следует, что случайная величина удаляется от её математического ожидания не более, чем k стандартных отклонений с вероятностью 1/k2/
Так, например, как минимум в 75% случаев случайная величина удаляется от её среднего не более, чем на два стандартных отклонения, а примерно в 89%- не более, чем на три.
Величина дисперсии по сгруппированным данным определяется:
(3.1)
где, xi - середина i-го интервала; x -средняя арифметическая величина признака в изучаемой совокупности; Fi - абсолютные частоты i-го интервала.
Коэффициент вариации - мера относительного разброса случайной величины; показывает, какую долю среднего значения этой величины составляет её средний разброс. В отличии от среднего квадратического или стандартного отклонения измеряет не абсолютную , а относительную меру разброса признака в статистической совокупности. Исчисляется в процентах. Вычисляется только для количественных данных.
(3.2)
Используя программу STATISTICA, рассчитываем размах вариации, дисперсию, среднее квадратическое отклонение. Коэффициент вариации программа STATISTICA не рассчитывает, что отражено в таблице 3.1.
Таблица 3.1
Наименование показателя |
Размах вариации |
Дисперсия |
Среднее квадратическое отклонение |
|
Значение показателя |
2635,000 |
369995,4 |
608,2725 |
Размах вариации получен путем определения разницы между наибольшим значением статистической выборки (2645) и его наименьшим значением.
Разброс случайной величины (её дисперсия) говорит о значительном разбросе показателей вариации и необходимости исключения самых больших и самых маленьких значений.
Это же подтверждает и показатель среднеквадратического отклонения.
Данные полученные в ППП STATISTICA полностью соответствуют расчетным данным (в соответствии с методическими указаниями ниже будет приведена сравнительная таблица расчётов по ППП и ручных расчётов). При этом даже уже на этом этапе наглядно видно, что размах вариации рассчитан правильно.
4. Характеристика структуры распределения
При изучении вариации применяются такие характеристики вариационного ряда, которые описывают количественно его структуру, строение. Такова, например, медиана- величина варьирующего признака, делящая совокупность на две равные части - со значениями признака меньше медианы и со значениями признака больше медианы
Медиана не зависит от значений признака на краях ранжированного ряда. Поэтому часто медиану используют как более надежный показатель типичного значения признака, нежели арифметическая средняя, если ряд значений неоднороден, включает резкие отклонения от средней. Вряд ли среднюю можно считать типичной величиной.
При четном числе единиц совокупности за медийную принимают арифметическую среднюю величину из двух центральных вариант, например при десяти значениях признака - среднюю из пятого и шестого значений в ранжированном ряду.
В интервальном вариационном ряду для нахождения медианы применяется формула:
(4.1)
где Хме - начальное значение медианного интервала;
iМе - величина медианного интервала;
?f - сумма частот ряда (численность ряда);
Sме-1 - сумма накопленных частот в интервалах, предшествующих медианному;
fМе - частота медианного интервала.
В дискретном вариационном ряду медианой следует считать значение признака в той группе, в которой накопленная частота; превышает половину численности совокупности.
Квартили распределения
Аналогично медиане вычисляются значения признака, делящие совокупность на четыре равные по числу единиц части. Эти величины называются квартилями и обозначаются заглавной латинской' буквой Q с подписным значком номера квартиля. Ясно, что Q2 совпадает с Me. Для первого и третьего квартилей приведём формулы:
для первого квартиля (4.2)
для третьего квартиля (4.3)
Значения признака, делящие ряд на пять равных частей, называют квинтилями, на десять частей - децилями, на сто частей - перцентилями. Поскольку эти характеристики применяются лишь при необходимости подробного изучения структуры вариационного ряда, они обычно не приводятся.
Особенности применения моды в интервальном вариационном ряду:
1) если все значения вариационного ряда имеют одинаковую частоту, то говорят, что этот вариационный ряд не имеет моды;
2) если две соседних варианты имеют одинаковую доминирующую частоту, то мода вычисляется как среднее арифметическое этих вариант;
3) если две несоседние варианты имеют одинаковую доминирующую частоту, то такой вариационный ряд называется бимодальным;
4) если таких вариант более двух, то ряд полимодальный.
Определение модального интервала в случае интервального вариационного ряда:
1) с равными интервалами модальный интервал определяется по наибольшей частоте;
2) при неравных интервалах - по наибольшей плотности.
Формула определения моды при равных интервалах внутри модального интервала:
(4.4)
где Хмо - минимальная граница модального интервала;
iМо - величина модального интервала;
fМо - частота модального интервала;
fМо-1 - частота интервала, предшествующего модальному;
fМо+1 - частота интервала, следующего за модальным.
Покажем расчет моды на примере, приведенном в таблице 2.
Используя программу STATISTICA рассчитаем
Lower (Lower quartile) -- нижний (первый) квартиль -- Q1, который равен 362,0000 и
Upper (Upper quartile) -- верхний (третий) квартиль --Q3, который равен 1054,0000
В самом деле, из статистической таблицы (1.4) «Численность экономически активного населения в 2012 году» (тыс. чел.) видно, что эти значения находятся в первой и четвертой четвертях значений статистических данных.
Одновременно рассчитываем медиану и моду интервальном вариационном ряду, руководствуясь формулами (4.1 и 4.4):
Для этого определяем сначала интервал, в котором она находится (медианный интервал). Таким интервалом будет такой, комулятивная частота которого равна или превышает половину суммы частот.
Начальное значение медиального интервала в соответствии с таблицей 1.4) «Численность экономически активного населения в 2012 году» (тыс. чел.) составляет интервал от 340 до 670 тыс. чел.; сумма частот данного ряда составляет - 27; величина медиального интервала 330; сумма частот ряда - 86 (половина сумма частот - 43); сумма частот ряда, предшествующих медиальному - 21.
При определении значения медианы предполагают, что значение единиц в границах интервала распределяется равномерно. Следовательно, если 27 единиц, находящихся в этом интервале, распределяются равномерно в интервале, равном 330, то 3 единицам (43-40) будет соответствовать следующая его величина:
330 * 3/27 = 36,7
Прибавив полученную величину к минимальной границе медианного интервала, получим искомое значение медианы:
Ме = 340 +36,7 = 376,7 тыс. чел.
Поскольку в данном случае, значение полученное из статистических формул, решено эмпирически, а программа STATISTICA использует конкретные данные, то можно считать, что задача решена правильно.
Подставляя в формулу необходимые данные, решаем:
Ме = 340 + 330* (86/2 - 40)/27= 376,7 тыс. чел.,
что полностью соответствует полученному ранее значению.
Аналогично рассчитывается мода интервального вариационного ряда.
Чтобы найти моду, первоначально определим модальный интервал. Из таблицы (1.4)«Численность экономически активного населения в 2012 году» (тыс. чел.) видно, что наибольшая частота соответствует интервалу, где варианта лежит в пределах от 340 до 670 тыс. чел. (нижняя граница модального интервала 340 тыс. чел.)
Величина модального интервала равна 330; частота модального интервала равна 27; частота интервала, предшествующего модальному - 21; частота интервала, следующего за модальным - 15.
Подставляя в формулу, расчета моды в интервальном вариационном ряду получим:
Мо = 340 + 330 *(27 - 21)/((27 - 21) + (27 - 15))=
340+330*6/6+6=340+2040/12= 510 тыс.чел.
В связи с много вариантностью таблицы «Численность экономически активного населения в 2012 году» (тыс. чел.) и большим наличием данных в этой строке мода несколько различается от данных, полученных с помощью ППП STATISTICA .
Это дополнительно свидетельствует о том, что статистическую обработку показателей лучше выполнять с помощью прикладных средств с первоначальным объёмом данных, чем сведенных в таблицу.
5. Характеристика формы распределения
Асимметрия - или коэффициент асимметрии (термин был впервые введен Пирсоном, 1895) является мерой несимметричности распределения, то есть числовым значением, характеризующим степени несимметричности распределения данной случайной величины.
Например, если асимметрия (показывающая отклонение распределения от симметричного) существенно отличается от 0, то распределение несимметрично, в то время как нормальное распределение абсолютно симметрично.
Итак, у симметричного распределения асимметрия равна 0.
Асимметрия распределения с длинным правым хвостом положительна. Если распределение имеет длинный левый хвост, то его асимметрия отрицательна. Коэффициент асимметрии рассчитывается по формуле:
(5.1)
где (5.1а)
где, -центральный момент третьего порядка;
-средний квадрат отклонений в кубе.
Если , то асимметрия значительная.
Если , то As незначительная.
Если As<0, то As - левосторонняя. При этом >Ме>Мо.
Если As>0, то As - правосторонняя.
Коэффициент асимметрии изменяется от -3 до +3.
Для однородных совокупностей характерны одновершинные кривые, много вершинная кривая говорит о неоднородности совокупности и необходимости перегруппировки.
Выяснение общего характера распределения предполагает оценку его однородности.
Преобразовав (Таб.1.4) рассчитаем асимметрию данной выборки (Таб.5.1):
Таблица 5.1
10 |
340 |
175 |
21 |
-4113390702,50 |
|
340 |
670 |
505 |
27 |
-425712816,64 |
|
670 |
1000 |
835 |
15 |
7464379,57 |
|
1000 |
1300 |
1165 |
9 |
616864970,21 |
|
1300 |
1660 |
1495 |
5 |
2019918197,33 |
|
1660 |
1990 |
1825 |
5 |
6112244434,84 |
|
1990 |
2320 |
2155 |
1 |
2739558294,75 |
|
2320 |
2650 |
2485 |
3 |
15512801588,43 |
|
k |
86 |
22469748345,99 |
При этом равен 755,7558.
Из таблицы находим центральный момент третьего порядка () равный 261276143,56
Возведя среднее квадратическое отклонение (СКО = 608,2725) в куб (СКО = ) и применив формулу (5.1) получаем значение асимметрии равное 1,161.
Следует отметить, что руководствуясь критериями согласия Пирсона и сгруппировав вариационный ряд в порядке, как это показано в (Таб.6.1), т.е. с показателями вариации не менее 5, будет получен более низкий коэффициент асимметрии равный 1,009.
Эксцесс - (термин был впервые введен Пирсоном, 1905) или точнее, коэффициент эксцесса измеряет «пикообразность» распределения. Если эксцесс (показывающий «остроту пика» распределения) существенно отличен от 0, то распределение имеет или более закругленный пик, чем нормальное, или, напротив, имеет более острый пик (возможно, имеется несколько пиков). Обычно, если эксцесс положителен, то пик заострен, если отрицательный, то пик закруглен. Эксцесс нормального распределения равен 0.
Используя формулу:
5.2)
И преобразовав (Таб.6.1) рассчитаем эксцесс.
Таблица 5.2
10 |
340 |
175 |
21 |
2388875508145,11 |
|
340 |
670 |
505 |
27 |
106749957906,35 |
|
670 |
1000 |
835 |
15 |
591508787,13 |
|
1000 |
1300 |
1165 |
9 |
252448411241,92 |
|
1300 |
1660 |
1495 |
5 |
1493212811854,14 |
|
1660 |
1990 |
1825 |
5 |
6535481910936,26 |
|
1990 |
2320 |
2155 |
1 |
3833311054490,20 |
|
2320 |
2650 |
2485 |
3 |
26825422172547,80 |
|
k |
86 |
41436093335908,90 |
При этом равен 755,7558
СКО =
Рассчитав в Microsoft Excel эксцесс, получим:
Ех1 = 0,520 для Таб. 1.4
Ех2 = - 0,050 для Таб. 6.1
Таким образом, можно говорить, что правосторонняя асимметрия с длинным правым хвостом, поскольку значение показателей лнжит в пределах значений от -3 до +3 можно говорить, что она подчиняется нормальному распределению.
Одной из часто встречающихся статистических проблем является проверка гипотез относительно математического ожидания исследуемых выборок. Существует целый ряд статистических тестов, называемых t-тестами Стьюдента, проверяющих различные гипотезы относительно математического ожидания.
Подобные документы
Сущность статистического анализа и выборочного метода. Правила группировки данных выборочного наблюдения по величине объема инвестиций. Графическое представление вариационного ряда (гистограмма, кумулята, кривая Лоренца). Расчет асимметрии и эксцесса.
курсовая работа [70,7 K], добавлен 26.10.2011Построение интервального вариационного ряда распределения стран Европы по объему импорта с Россией, выделение четырех групп стран с равными интервалами. Определение среднемесячных и среднегодовых остатков сырья, материалов, фурнитуры на складе ателье.
контрольная работа [69,3 K], добавлен 16.11.2011Понятие и назначение, порядок и правила построения вариационного ряда. Анализ однородности данных в группах. Показатели вариации (колеблемости) признака. Определение среднего линейного и квадратического отклонения, коэффициента осцилляции и вариации.
контрольная работа [354,6 K], добавлен 26.04.2010Показатели естественного движения населения, структура его доходов и расходов. Построение и анализ вариационного ряда по уровню номинальной оплаты труда. Применение статистических методов в анализе факторов, влияющих на изменение уровня жизни населения.
курсовая работа [831,9 K], добавлен 06.11.2014Построение таблицы и графиков ряда распределения. Показатели центра и структуры распределения. Характеристика формы распределения. Распределение показателей регионов России по показателям оборота малых предприятий. Ранжирование вариационного ряда.
курсовая работа [344,1 K], добавлен 21.03.2014Анализ эффективности деятельности предприятий. Построение статистического ряда распределения организаций по выручке от продажи продукции. Вычисление медианы для интервального вариационного ряда. Группировка предприятий по выручке от продажи продукции.
контрольная работа [82,4 K], добавлен 30.04.2014Построение дискретного и интервального вариационного ряда работы горных предприятий. Вычисление характеристик меры и степени вариации. Определение основных показателей, показывающих направление и интенсивность количественных изменений динамического ряда.
курсовая работа [381,0 K], добавлен 13.12.2011Расчет коэффициентов рождаемости, смертности, естественного прироста, прибытия, выбытия и миграции населения в Республике Казахстан. Определение численности экономически активного населения, структуры и размера трудовых ресурсов, уровня безработицы.
контрольная работа [115,1 K], добавлен 05.04.2015Общие понятия экономически активного населения и трудовых ресурсов; баланс трудовых ресурсов. Проблемы занятости и безработицы в странах мира и в Российской Федерации. Статистика численности работников, использования рабочего времени, заработной платы.
курсовая работа [317,9 K], добавлен 15.12.2009Способы и методика расчета среднего количества перевозимого груза, среднеквадратическое отклонение и коэффициент вариации, коэффициент ассиметрии. Ранжирование ряда "дальность пробега", составление интервального вариационного ряда по формуле Стэрджесса.
контрольная работа [67,0 K], добавлен 30.01.2009