Закон больших чисел, методы статистического анализа, способы измерения информации
Этапы статистического анализа данных, приемы и методы его проведения. Ключевые положения закона больших чисел в теории вероятностей, его общий смысл. Теорема Бернулли - простейшая форма закона больших чисел. Количество данных, способы его измерения.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | реферат |
Язык | русский |
Дата добавления | 03.03.2014 |
Размер файла | 112,3 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Реферат
Закон больших чисел, методы статистического анализа, способы измерения информации
Выполнила: Иванова Анна Сергеевна
Студентка 6 курса, заочной формы обучения
Юридического факультета
Специальность: юриспруденция
Специализация: гражданско-правовая
Сочи 2014
План
- Введение
- 1. Закон больших чисел
- 2. Методы статистического анализа
- 3. Способы измерения информации
- Заключение
- Список использованных источников и литературы
Введение
Объектом исследования в прикладной статистике являются статистические данные, полученные в результате наблюдений или экспериментов. Статистические данные - это совокупность объектов (наблюдений, случаев) и признаков (переменных), их характеризующих.
Наиболее распространенные приемы и методы статистического анализа - метод группировки изучаемых явлений по определенным признакам на качественно однородные виды или типы (типологические, структурные, вариационные, аналитические, вторичные). Это ряды распределения (атрибутивные и вариационные), динамические и параллельные ряды, это обобщающие показатели (относительные и средние величины).
Анализ и обобщение статистических данных - заключительный этап статистического исследования.
Задачами статистического анализа являются: определение и оценка специфики и особенностей изучаемых явлений и процессов, изучение их структуры, взаимосвязей и закономерностей их развития.
Статистический анализ данных проводится в неразрывной связи теоретического, качественного анализа сущности исследуемых явлений и соответствующего количественного инструментария, изучения их структуры, связей и динамики.
Решая различные задачи, человек вынужден использовать информацию об окружающем нас мире. И чем более полно и подробно человеком изучены те или иные явления, тем подчас проще найти ответ на поставленный вопрос. Так, например, знание законов физики позволяет создавать сложные приборы, а для того, чтобы перевести текст на иностранный язык, нужно знать грамматические правила и помнить много слов.
В информатике используются различные подходы к измерению информации.
1. Закон больших чисел
Закон больших чисел в теории вероятностей утверждает, что эмпирическое среднее (среднее арифметическое) достаточно большой конечной выборки из фиксированного распределения близко к теоретическому среднему (математическому ожиданию) этого распределения. В зависимости от вида сходимости различают слабый закон больших чисел, когда имеет место сходимость по вероятности, и усиленный закон больших чисел, когда имеет место сходимость почти всюду.
Всегда найдётся такое конечное число испытаний, при котором с любой заданной наперёд вероятностью меньше 1 относительная частота появления некоторого события будет сколь угодно мало отличаться от его вероятности.
Общий смысл закона больших чисел - совместное действие большого числа одинаковых и независимых случайных факторов приводит к результату, в пределе не зависящему от случая.
Закон больших чисел - в теории вероятностей утверждает, что эмпирическое среднее (среднее арифметическое) конечной выборки из фиксированного распределения близко к теоретическому среднему (математическому ожиданию) этого распределения.
Закон больших чисел не имеет отношения ко второй группе факторов (причин), следовательно, к сущности массового явления. Он не создаёт ни самих, проявляющихся в среднем, закономерностей, ни их общей средней меры для массы единиц явления (например, уровня стоимости или производительности труда, средней нормы прибыли, вероятности заболевания и т.д.); следовательно, закон больших чисел не в состоянии ни изменить средний уровень явления, ни вызвать устойчивость динамического ряда уровней, ни предопределить размеры отклонений от среднего уровня, ни, тем более, служить объяснению реальных причин возникновения самого уровня или отклонений от него.
Закон больших чисел - это обобщенное название нескольких теорем, из которых следует, что при неограниченном увеличении числа испытаний средние величины стремятся к некоторым постоянным.
К ним относятся теоремы Чебышева и Бернулли. Теорема Чебышева является наиболее общим законом больших чисел, теорема Бернулли - простейшим.
В основе доказательства теорем, объединенных термином "закон больших чисел", лежит неравенство Чебышева, по которому устанавливается вероятность отклонения от ее математического ожидания:
Теорема Бернулли. Если в каждом из независимых испытаний вероятность появления события постоянна, то как угодно близка к единице вероятность того, что отклонение относительной частоты от вероятности по абсолютной величине будет сколь угодно малым, если число испытаний достаточно велико. Другими словами, если сколь угодно малое положительное число, то при соблюдении условий теоремы имеет место равенство
При доказательстве теоремы Бернулли получаем оценку
Простейшая форма закона больших чисел - теорема Бернулли, утверждающая, что если вероятность события одинакова во всех испытаниях, то с увеличением числа испытаний частота события стремится к вероятности события и перестает быть случайной.
Теорема Пуассона утверждает, что частота события в серии независимых испытаний стремится к среднему арифметическому его вероятностей и перестает быть случайной.
Предельные теоремы теории вероятностей, теоремы Муавра-Лапласа объясняют природу устойчивости частоты появлений события. Природа эта состоит в том, что предельным распределением числа появлений события при неограниченном возрастании числа испытаний (если вероятность события во всех испытаниях одинакова) является нормальное распределение.
Центральная предельная теорема объясняет широкое распространение нормального закона распределения. Теорема утверждает, что всегда, когда случайная величина образуется в результате сложения большого числа независимых случайных величин с конечными дисперсиями, закон распределения этой случайной величины оказывается практически нормальным законом.
Теорема Ляпунова объясняет широкое распространение нормального закона распределения и поясняет механизм его образования. Теорема позволяет утверждать, что всегда, когда случайная величина образуется в результате сложения большого числа независимых случайных величин, дисперсии которых малы по сравнению с дисперсией суммы, закон распределения этой случайной величины оказывается практически нормальным законом.
В основе качественных и количественных утверждений закона больших чисел лежит неравенство Чебышева. Оно определяет верхнюю границу вероятности того, что отклонение значения случайной величины от ее математического ожидания больше некоторого заданного числа.
Слабый закон больших чисел
Пусть есть бесконечная последовательность (последовательное перечисление) одинаково распределённых и некоррелированных случайных величин , определённых на одном вероятностном пространстве . То есть их ковариация . Пусть . Обозначим выборочное среднее первых членов:
.
Тогда .
То есть для всякого положительного ,
Усиленный закон больших чисел
Пусть есть бесконечная последовательность независимых одинаково распределённых случайных величин , определённых на одном вероятностном пространстве . Пусть . Обозначим выборочное среднее первых членов:
.
Тогда почти всегда.
То есть
Закон больших чисел не образует закономерность, а лишь управляет её проявлением.
Значение факта действия закона больших чисел велико для любой современной науки, в частности и в особенности - для научной разработки теории статистики и методов статистического познания. Действие закона больших чисел имеет всеобщее значение для самих объектов статистического изучения - статистических совокупностей с их сводными признаками и массовыми закономерностями.
2. Методы статистического анализа
Объектом исследования в прикладной статистике являются статистические данные, полученные в результате наблюдений или экспериментов. Статистические данные - это совокупность объектов (наблюдений, случаев) и признаков (переменных), их характеризующих. Статистические методы анализа данных применяются практически во всех областях деятельности человека. Их используют всегда, когда необходимо получить и обосновать какие-либо суждения о группе (объектов или субъектов) с некоторой внутренней неоднородностью.
Статистические методы анализа данных, относящиеся к группе а), обычно называют методами прикладной статистики.
Числовые статистические данные - это числа, вектора, функции. Их можно складывать, умножать на коэффициенты. Поэтому в числовой статистике большое значение имеют разнообразные суммы. Математический аппарат анализа сумм случайных элементов выборки - это (классические) законы больших чисел и центральные предельные теоремы.
Нечисловые статистические данные - это категоризованные данные, вектора разнотипных признаков, бинарные отношения, множества, нечеткие множества и др. Их нельзя складывать и умножать на коэффициенты.
Статистический анализ данных, как правило, включает в себя целый ряд процедур и алгоритмов, выполняемых последовательно, параллельно или по более сложной схеме. В частности, можно выделить следующие этапы:
планирование статистического исследования;
организация сбора необходимых статистических данных по оптимальной или рациональной программе (планирование выборки, создание организационной структуры и подбор команды статистиков, подготовка кадров, которые будут заниматься сбором данных, а также контролеров данных и т.п.);
непосредственный сбор данных и их фиксация на тех или иных носителях (с контролем качества сбора и отбраковкой ошибочных данных по соображениям предметной области);
первичное описание данных (расчет различных выборочных характеристик, функций распределения, непараметрических оценок плотности, построение гистограмм, корреляционных полей, различных таблиц и диаграмм и т.д.),
оценивание тех или иных числовых или нечисловых характеристик и параметров распределений (например, непараметрическое интервальное оценивание коэффициента вариации или восстановление зависимости между откликом и факторами, т.е. оценивание функции),
проверка статистических гипотез (иногда их цепочек - после проверки предыдущей гипотезы принимается решение о проверке той или иной последующей гипотезы),
более углубленное изучение, т.е. применение различных алгоритмов многомерного статистического анализа, алгоритмов диагностики и построения классификации, статистики нечисловых и интервальных данных, анализа временных рядов и др.;
проверка устойчивости полученных оценок и выводов относительно допустимых отклонений исходных данных и предпосылок используемых вероятностно-статистических моделей, в частности, изучение свойств оценок методом размножения выборок;
применение полученных статистических результатов в прикладных целях (например, для диагностики конкретных материалов, построения прогнозов, выбора инвестиционного проекта из предложенных вариантов, нахождения оптимальных режима осуществления технологического процесса, подведения итогов испытаний образцов технических устройств и др.),
составление итоговых отчетов, в частности, предназначенных для тех, кто не является специалистами в статистических методах анализа данных, в том числе для руководства - "лиц, принимающих решения".
К методам относят:
Корреляционный анализ. Между переменными (случайными величинами) может существовать функциональная связь, проявляющаяся в том, что одна из них определяется как функция от другой. Но между переменными может существовать и связь другого рода, проявляющаяся в том, что одна из них реагирует на изменение другой изменением своего закона распределения. Такую связь называют стохастической. В качестве меры зависимости между переменными используется коэффициент корреляции (r), который изменяется в пределах от - 1 до +1. Если коэффициент корреляции отрицательный, это означает, что с увеличением значений одной переменной значения другой убывают. Если переменные независимы, то коэффициент корреляции равен 0 (обратное утверждение верно только для переменных, имеющих нормальное распределение). Но если коэффициент корреляции не равен 0 (переменные называются некоррелированными), то это значит, что между переменными существует зависимость. Чем ближе значение r к 1, тем зависимость сильнее. Коэффициент корреляции достигает своих предельных значений +1 или - 1, тогда и только тогда, когда зависимость между переменными линейная. Корреляционный анализ позволяет установить силу и направление стохастической взаимосвязи между переменными (случайными величинами).
Регрессионный анализ. В регрессионном анализе моделируется взаимосвязь одной случайной переменной от одной или нескольких других случайных переменных. При этом, первая переменная называется зависимой, а остальные - независимыми. Выбор или назначение зависимой и независимых переменных является произвольным (условным) и осуществляется исследователем в зависимости от решаемой им задачи. Независимые переменные называются факторами, регрессорами или предикторами, а зависимая переменная - результативным признаком, или откликом.
Если число предикторов равно 1, регрессию называют простой, или однофакторной, если число предикторов больше 1 - множественной или многофакторной. В общем случае регрессионную модель можно записать следующим образом:
y = f (x1, x2, …, xn),
где y - зависимая переменная (отклик), xi (i = 1,…, n) - предикторы (факторы), n - число предикторов.
Канонический анализ. Канонический анализ предназначен для анализа зависимостей между двумя списками признаков (независимых переменных), характеризующих объекты. Например, можно изучить зависимость между различными неблагоприятными факторами и появлением определенной группы симптомов заболевания, или взаимосвязь между двумя группами клинико-лабораторных показателей (синдромов) больного. Канонический анализ является обобщением множественной корреляции как меры связи между одной переменной и множеством других переменных.
Методы сравнения средних. В прикладных исследованиях часто встречаются случаи, когда средний результат некоторого признака одной серии экспериментов отличается от среднего результата другой серии. Так как средние это результаты измерений, то, как правило, они всегда различаются, вопрос в том, можно ли объяснить обнаруженное расхождение средних неизбежными случайными ошибками эксперимента или оно вызвано определенными причинами. Сравнение средних результата один из способов выявления зависимостей между переменными признаками, характеризующими исследуемую совокупность объектов (наблюдений). Если при разбиении объектов исследования на подгруппы при помощи категориальной независимой переменной (предиктора) верна гипотеза о неравенстве средних некоторой зависимой переменной в подгруппах, то это означает, что существует стохастическая взаимосвязь между этой зависимой переменной и категориальным предиктором.
Частотный анализ. Таблицы частот, или как еще их называют одновходовые таблицы, представляют собой простейший метод анализа категориальных переменных. Данный вид статистического исследования часто используют как одну из процедур разведочного анализа, чтобы посмотреть, каким образом различные группы наблюдений распределены в выборке, или как распределено значение признака на интервале от минимального до максимального значения. Кросстабуляция (сопряжение) - процесс объединения двух (или нескольких) таблиц частот так, что каждая ячейка в построенной таблице представляется единственной комбинацией значений или уровней табулированных переменных. Кросстабуляция позволяет совместить частоты появления наблюдений на разных уровнях рассматриваемых факторов.
Анализ соответствий. Анализ соответствий по сравнению с частотным анализом содержит более мощные описательные и разведочные методы анализа двухвходовых и многовходовых таблиц. Метод, так же, как и таблицы сопряженности, позволяет исследовать структуру и взаимосвязь группирующих переменных, включенных в таблицу.
Кластерный анализ. Кластерный анализ - это метод классификационного анализа; его основное назначение - разбиение множества исследуемых объектов и признаков на однородные в некотором смысле группы, или кластеры. Это многомерный статистический метод, поэтому предполагается, что исходные данные могут быть значительного объема, т.е. существенно большим может быть как количество объектов исследования (наблюдений), так и признаков, характеризующих эти объекты. Большое достоинство кластерного анализа в том, что он дает возможность производить разбиение объектов не по одному признаку, а по ряду признаков. Кроме того, кластерный анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов и позволяет исследовать множество исходных данных практически произвольной природы.
Дискриминантный анализ. Дискриминантный анализ включает статистические методы классификации многомерных наблюдений в ситуации, когда исследователь обладает так называемыми обучающими выборками. Этот вид анализа является многомерным, так как использует несколько признаков объекта, число которых может быть сколь угодно большим. Цель дискриминантного анализ состоит в том, чтобы на основе измерения различных характеристик (признаков) объекта классифицировать его, т.е. отнести к одной из нескольких заданных групп (классов) некоторым оптимальным способом. При этом предполагается, что исходные данные наряду с признаками объектов содержат категориальную (группирующую) переменную, которая определяет принадлежность объекта к той или иной группе. Факторный анализ. Факторный анализ - один из наиболее популярных многомерных статистических методов. Если кластерный и дискриминантный методы классифицируют наблюдения, разделяя их на группы однородности, то факторный анализ классифицирует признаки (переменные), описывающие наблюдения. Поэтому главная цель факторного анализа - сокращение числа переменных на основе классификация переменных и определения структуры взаимосвязей между ними.
Деревья классификации. Деревья классификации - это метод классификационного анализа, позволяющий предсказывать принадлежность объектов к тому или иному классу в зависимости от соответствующих значений признаков, характеризующих объекты. Признаки называются независимыми переменными, а переменная, указывающая на принадлежность объектов к классам, называется зависимой. В отличие от классического дискриминантного анализа, деревья классификации способны выполнять одномерное ветвление по переменными различных типов категориальным, порядковым, интервальным. Не накладываются какие-либо ограничения на закон распределения количественных переменных. По аналогии с дискриминантным анализом метод дает возможность анализировать вклады отдельных переменных в процедуру классификации.
Анализ главных компонент и классификация. Метод анализ главных компонент и классификация позволяет решить эту задачу и служит для достижения двух целей:
уменьшение общего числа переменных (редукция данных) для того, чтобы получить "главные" и "некоррелирующие" переменные;
классификация переменных и наблюдений, при помощи строящегося факторного пространства.
Решение основной задачи метода достигается созданием векторного пространства латентных (скрытых) переменных (факторов) с размерностью меньше исходной. Исходная размерность определяется числом переменных для анализа в исходных данных.
Многомерное шкалирование. Метод можно рассматривать как альтернативу факторному анализу, в котором достигается сокращение числа переменных, путем выделения латентных (непосредственно не наблюдаемых) факторов, объясняющих связи между наблюдаемыми переменными. Цель многомерного шкалирования - поиск и интерпретация латентных переменных, дающих возможность пользователю объяснить сходства между объектами, заданными точками в исходном пространстве признаков. Показателями сходства объектов на практике могут быть расстояния или степени связи между ними. В факторном анализе сходства между переменными выражаются с помощью матрицы коэффициентов корреляций. В многомерном шкалировании в качестве исходных данных можно использовать произвольный тип матрицы сходства объектов: расстояния, корреляции и т.д.
Моделирование структурными уравнениями (причинное моделирование). Объектом моделирования структурными уравнениями являются сложные системы, внутренняя структура которых не известна ("черный ящик"). Основная идея моделирования структурными уравнениями состоит в том, что можно проверить, связаны ли переменные Y и X линейной зависимостью Y = aX, анализируя их дисперсии и ковариации. Эта идея основана на простом свойстве среднего и дисперсии: если умножить каждое число на некоторую константу k, среднее значение также умножится на k, при этом стандартное отклонение умножится на модуль k.
Временные ряды. Временные ряды - это наиболее интенсивно развивающееся, перспективное направление математической статистики. Под временным (динамическим) рядом подразумевается последовательность наблюдений некоторого признака Х (случайной величины) в последовательные равноотстоящие моменты t. Отдельные наблюдения называются уровнями ряда и обозначаются хt, t = 1, …, n. При исследовании временного ряда выделяются несколько составляющих:
xt=ut+yt+ct+et, t = 1, …, n,
где ut - тренд, плавно меняющаяся компонента, описывающая чистое влияние долговременных факторов (убыль населения, уменьшение доходов и т.д.); - сезонная компонента, отражающая повторяемость процессов в течение не очень длительного периода (дня, недели, месяца и т.д.); сt - циклическая компонента, отражающая повторяемость процессов в течение длительных периодов времени свыше одного года; t - случайная компонента, отражающая влияние не поддающихся учету и регистрации случайных факторов. Первые три компоненты представляют собой детерминированные составляющие.
Нейронные сети. Нейронные сети представляют собой вычислительную систему, архитектура которой имеет аналогию с построением нервной ткани из нейронов. На нейроны самого нижнего слоя подаются значения входных параметров, на основании которых нужно принимать определенные решения.
Планирование экспериментов. Искусство располагать наблюдения в определенном порядке или проводить специально спланированные проверки с целью полного использования возможностей этих методов и составляет содержание предмета "планирование эксперимента".
Карты контроля качества. Качество продукции и услуг формируется в процессе научных исследований, конструкторских и технологических разработок, обеспечивается хорошей организацией производства и услуг. Но изготовление продукции и оказание услуг независимо от их вида всегда связано с определенным непостоянством условий производства и предоставления. Это приводит к некоторой вариабельности признаков их качества. Поэтому, актуальными являются вопросы разработки методов контроля качества, которые позволят своевременно выявить признаки нарушения технологического процесса или оказания услуг.
Различные единицы статистической совокупности, имеющие определенное сходство межу собой по достаточно важным признакам, объединяются в группы при помощи метода группировки. Такой прием позволяет "сжать" информацию, полученную в ходе наблюдения, и на этой основе установить закономерности, присущие изучаемому явлению. \
Метод группировок применяется для решения различных задач, важнейшими из которых являются:
1. выделение социально-экономических типов
2. определение структуры однотипных совокупностей
3. вскрытие связей и закономерностей между отдельными признаками общественных явлений
В связи с этим существуют 3 вида группировок: типологические, структурные и аналитические. Группировки различают по форме проведения.
Типологическая группировка представляет собой разделение исследуемой качественно разнородной статистической совокупности на классы, социально-экономические типы, однородные группы единиц.
Структурные группировки разделяют однородную в качественном отношении совокупность единиц по определенным, существенным признакам на группы, характеризующие ее состав и внутреннюю структуру.
Аналитические группировки обеспечивают установление взаимосвязи и взаимозависимости между исследуемыми социально-экономическими явлениями и признаками, их характеризующими. Посредством этого вида группировок устанавливаются и изучаются причинно-следственные связи между признаками однородных явлений, определяются факторы развития статистической совокупности.
3. Способы измерения информации
Информация единицы измерения количества информации служат для измерения объёма информации - величины, исчисляемой логарифмически. Чаще всего информация единицы измерения количества информации касается объёма компьютерной памяти и объёма данных, передаваемых по цифровым каналам связи. Единица - бит - является основой исчисления информации в цифровой технике. Особое название имеет 4 бита - ниббл (полубайт, тетрада, четыре двоичных разряда), которые вмещают в себя количество информации, содержащейся в одной шестнадцатеричной цифре. Итак, информация о единицах измерения количества информации будет выглядеть следующим образом: байт, килобайт, мегабайт, гигабайт.
Количество данных для передачи одной и той же информации может быть различным в зависимости от способа кодирования этой информации (от используемого алфавита).
Количество данных, обрабатываемых компьютером, измеряется в байтах, но чаще для этого используются более крупные единицы:
1 Килобайт (Кб) = 210 байт = 1024 байт
1 Мегабайт (Мб) = 210 Кб = 1 048 576 байт
1 Гигабайт (Гб) = 210 Мб = 1 073 741 824 байт.
1 килобайт (кб) = 103 байт = 1 000 байт
1 мегабайт (мб) = 106 байт = 1 000 000 байт
1 гигабайт (гб) = 109 байт = 1 000 000 000 байт.
Скорость передачи данных и пропускную способность каналов связи принято измерять в битах в секунду (бит/с) и кратных этому:
1 килобит (кбит/с) = 103 бит/с
1 мегабит (мбит/с) = 106 бит/с
1 гигабит (гбит/с) = 109 бит/с
Объем информации, требующейся при полном отсутствии предварительных данных для выбора одного из двух равноценных и совершенно независимых вариантов, принято считать единицей информации и обозначать, как бит.
Технический способ измерения количества информации (или, точнее, информационного объема сообщения) основан на подсчета количества символов, из которых образовано сообщение. При этом не учитывается смысловое содержание сообщения. Например, многократное повторение одного и того же текста не несет новой информации, однако в результате занимает больший объем памяти, требует большего времени для передачи и т.п.
Алфавитный подход основан на том, что всякое сообщение можно закодировать с помощью конечной последовательности символов некоторого алфавита. Алфавитный подход является объективным, т.е. он не зависит от субъекта, воспринимающего сообщение. Смысл сообщения учитывается на этапе выбора алфавита кодирования либо не учитывается вообще. Алфавитный подход является объективным способом измерения информации в отличие от субъективного, содержательного, подхода.
Применение алфавитного подхода удобно при использовании технических средств работы с информацией.
При алфавитном подходе, если допустить, что все символы алфавита встречаются в тексте с одинаковой частотой (равновероятно), то количество информации, которое несет каждый символ (информационный вес одного символа), вычисляется по формуле: x=log2N, где N - мощность алфавита (полное количество символов, составляющих алфавит выбранного кодирования). В алфавите, который состоит из двух символов (двоичное кодирование), каждый символ несет 1 бит (21) информации; из четырех символов - каждый символ несет 2 бита информации (22); из восьми символов - 3 бита (23) и т.д. Один символ из алфавита мощностью 256 (28) несет в тексте 8 битов информации. Как мы уже выяснили, такое количество информации называется байт. Алфавит из 256 символов используется для представления текстов в компьютере. Один байт информации можно передать с помощью одного символа кодировки ASCII. Если весь текст состоит из K символов, то при алфавитном подходе размер содержащейся в нем информации I определяется по формуле: , где x - информационный вес одного символа в используемом алфавите.
Отличный от взглядов Хартли, Шеннона, Винера и Бриллюэна подход к определению понятия "количество информации", был предложен в 1965 году академиком А.Н. Колмогоровым, который он назвал алгоритмическим.
Исходя из того, что "по существу наиболее содержательным является представление о количестве информации "в чем-либо" (Х) и "о чем-либо" (Y)", А.Н. Колмогоров для оценки информации в одном конечном объекте относительно другого конечного объекта предложил использовать теорию алгоритмов. За количество информации при этом, принимается значение некоторой функции от сложности каждого из объектов и длины программы (алгоритма) преобразования одного объекта в другой.
Решение задачи определения количества информации в алгоритмическом подходе имеет общий вид и схематично выглядит следующим образом.
"Относительной сложностью" объекта Y при заданном Х будем считать минимальную длину "программы" Р получения Y из Х. Сформулированное так определение зависит от "метода программирования". Метод программирования есть не что иное, как функция, ставящая в соответствие программе Р и объекту Хобъект Y".
Алгоритмическая информация может принимать как положительные, так и отрицательные значения.
Содержательный подход к измерению информации. Сообщение - информативный поток, который в процессе передачи информации поступает к приемнику. Сообщение несет информацию для человека, если содержащиеся в нем сведения являются для него новыми и понятными. Если сообщение не информативно, то количество информации с точки зрения человека = 0. Алфавитный подход к измерению информации не связывает кол-во информации с содержанием сообщения.
В содержательном подходе возможна качественная оценка информации: новая, срочная, важная и т.д.
Содержательный подход часто называют субъективным, так как разные люди (субъекты) информацию об одном и том же предмете оценивают по-разному. Но если число исходов не зависит от суждений людей (случай бросания кубика или монеты), то информация о наступлении одного из возможных исходов является объективной.
Вероятностный подход к измерения информации. Все события происходят с различной вероятностью, но зависимость между вероятностью событий и количеством информации, полученной при совершении того или иного события можно выразить формулой которую в 1948 году предложил Шеннон.
Заключение
Статистика как наука имеет свой предмет исследования. Она изучает с количественной стороны в непосредственной связи с качественным содержанием массовые социально-экономические явления. Использование статистических методов анализа предполагает предварительное глубокое изучение того или иного явления, понимание его сущности. Исследование должно быть научно организованным от первого этапа - статистического наблюдения и регистрации всех необходимых свойств и черт изучаемого явления до последнего этапа - определения количественного влияния отдельных факторов на результат или определения тенденции развития или каких-либо других выводов.
На сегодняшний день существует несколько методов статистического анализа текста. Среди них выделяют процедуры количественных исследований, частотный анализ, контент-анализ, ранжирование данных, закон Бредфорда-Ципфа. Данные методы используют для социологических, антропологических и исторических исследований. Их результаты так же важны при комплектовании библиотечных фондов, и поиска информации по узкой тематике. Способ ранжирования в большинстве случаев применяется для упорядочивания информационных массивов в глобальной сети Интернет, а именно для работы поисковых систем.
Решая различные задачи, человек вынужден использовать информацию об окружающем нас мире. И чем более полно и подробно человеком изучены те или иные явления, тем подчас проще найти ответ на поставленный вопрос. Так, например, знание законов физики позволяет создавать сложные приборы, а для того, чтобы перевести текст на иностранный язык, нужно знать грамматические правила и помнить много слов.
закон большое число информация
Список использованных источников и литературы
1. Балакина Н.Н. Статистика: Учеб. - метод. комплекс. Хабаровск: ИВЭСЭП, филиал в г. Хабаровске, 2010.
2. Ефимова М.Р. Общая теория статистики. М.: Инфра-М, 2011.
3. Ефимова М.Р., Ганченко О.И., Петрова Е.В. Практикум по общей теории статистики: Учеб. пособие. 2-е изд., перераб. и доп. М.: Финансы и статистика, 2009.
4. Илышев А.М. Общая теория статистики. М.: ЮНИТИ-ДАНА, 2010.
5. Лившиц Ф. Д Закон больших чисел. М. 2011.
6. Лившиц Ф.Д., Закон больших (средних) чисел в общественных явлениях, М. 2010.
7. Макарова Н.В., Трофимец В.Я. Статистика в Excel: Учеб. пособие. М.: Финансы и статистика, 2009.
8. Орлов А.И. Прикладная статистика. Учебник. - М.: Экзамен, 2011. - 671 с.
9. Пасхавер И.С. Закон больших чисел и закономерности массового процесса, М., 2012.
10. Сиденко А.В., Попов Г.Ю., Матвеева В.М. Статистика: Учебник. М.: Дело и Сервис, 2011.
11. Социальная статистика: Учебник для вузов // Под ред.И. И. Елисеевой. 3-е изд. М.: Финансы и статистика, 2010.
12. Шевелева Р.Н. Общая теория статистики: учебное пособие. Екатеринбург: ИМИР, 2012
Размещено на Allbest.ru
Подобные документы
Выбор структуры класса больших целых чисел, их сравнительная характеристика и описание преимуществ, недостатков. Реализация метода перемножения двух больших чисел, возведения числа в степень и взятия факториала числа. Режим вычисления выражений.
курсовая работа [827,2 K], добавлен 19.04.2011Обработка текстовых данных, хранящихся в файле. Задачи и алгоритмы обработки больших массивов действительных и натуральных чисел. Практические задачи по алгоритмам обработки данных. Решение задачи о пяти ферзях. Программа, которая реализует сортировку Шел
курсовая работа [29,2 K], добавлен 09.02.2011Метод анализа иерархий. Система для хранения больших объемов информации является база данных. База данных в наибольшей степени удовлетворяет всем выделенным критериям. Она обеспечивает быстрый поиск нужной информации (оперативность).
контрольная работа [326,9 K], добавлен 10.06.2004Преобразование чисел из естественной формы в нормализованную. Алгоритм нормализации числа. Способы кодирования чисел и действия над ними. Особенности прямого, дополнительного, смещенного и обратного кода. Понятие вещественных чисел, их представление.
презентация [42,6 K], добавлен 14.06.2011Исследование больших объемов данных, выявление зависимостей, статистические и маркетинговые исследования и построение моделей. Создание проекта разработки статистического пакета. Структура пакета, план его реализации. Выбор инструментов разработки.
курсовая работа [1,3 M], добавлен 20.10.2012Суммирование, вычитание двоичных чисел в ПК. Табличный процессор Excel: типы данных. Правила ввода чисел. СУБД Access: запрос с параметром (принцип работы, этапы создания). Связи между таблицами. Проектирование структуры данных. Работа с базой данных.
контрольная работа [52,8 K], добавлен 02.01.2011Формирование устойчивой последовательности псевдослучайных чисел с использованием метода "середины квадрата". Разработка программы для определения среднего значения чисел, среднего значения квадратов чисел и дисперсии для последовательности из 20 чисел.
лабораторная работа [1,4 M], добавлен 21.01.2015Способы получения случайных чисел в программировании и их использование для решения ряда задач. Принцип действия и тестирование работы генератора случайных чисел в Borland C++, его преимущества. Генерация одномерной и двумерной случайной величины.
лабораторная работа [105,4 K], добавлен 06.07.2009Написание программы для генерации случайных чисел, в которой реализуются возможности генерации абсолютно случайных чисел. Приложение на языке С/С++. Описание узла, содержащего данные; функций и методов работы; чтения данных из памяти и вывода их на экран.
курсовая работа [172,4 K], добавлен 23.05.2012Проблемы, связанные с продуктивным распределением и систематизированием больших потоков информации. Основные виды распределенных баз данных, анализ процессов их функционирования. Стратегии распределения данных. Распределение сетевого справочника данных.
курсовая работа [397,5 K], добавлен 09.08.2015