Применение статистической системы R для разработки алгоритмов диагностирования АЭС
Методы анализа данных, применяемые в диагностике. Кластерный анализ, иерархическая группировка. Система статистического анализа, язык программирования, интерфейс для связи. Установка для контроля сварных соединений. Векторы классификации для измерений.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 03.01.2014 |
Размер файла | 769,3 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
[Введите текст]
Введение
Очень важную роль в системах диагностики играют методы обработки и анализа данных. Вообще, на АЭС существует огромное количество технологических параметров, контролируемых с различной периодичностью, в то время как для описания различных эксплуатационных режимов достаточно иметь гораздо меньший набор параметров. Таким образом, ставится задача выделить из огромного потока информации именно ту ее часть, которая является необходимой для решения нашей конкретной задачи диагностирования. Исходя из типа задачи, выбираются конкретные методы. В данной работе мы подробно рассмотрели такие большие классы методов, как кластерный и факторный анализ.
Глава 1. Методы анализа данных, применяемые в диагностике
1.1 Роль диагностики
За последние полвека роль технической диагностики в самых различных технических областях значительно выросла. Это в первую очередь связано с тем, что очень сильно возросла техническая сложность объектов диагностики, которые зачастую работают на пределе допустимых возможностей или вообще в запредельных режимах. Естественно, все это влечет за собой и рост вероятности возникновения внештатных ситуаций, которые могут перерасти в аварии и катастрофы, сопровождаемые полным выходом из строя объекта контроля и его разрушением. Более того, характер многих объектов диагностики (АЭС, химическое производство, нефтегазовые объекты, объекты военно-промышленного комплекса и т.д.) таков, что при возникновении аварии на них возможный ущерб может намного превысить стоимость самого этого объекта за счет того, что зона влияния аварии может составлять десятки и сотни километров и в этой зоне могут оказаться густонаселенные районы, важные промышленные объекты и т.д. Ряд крупнейших аварий во всем мире подтвердил важность и необходимость постоянного диагностирования многих технических объектов на всем протяжении их работы с целью раннего выявления каких-либо аномалий и дальнейшего прогнозирования их безопасной эксплуатации.
Среди важнейших объектов промышленного значения атомные электростанции (АЭС) занимают особое место. Они являются средством для выработки большого количества недорогой электроэнергии и одними из самых экологически чистых среди предприятий энергетического комплекса, но авария на АЭС может иметь совершенно катастрофические последствия. Это было со всей очевидностью продемонстрировано крупнейшими авариями на АЭС "Three Mile Island " (США, 1979 г.) и на Чернобыльской АЭС (СССР, 1986 г.), не считая десятков менее крупных инцидентов. После этого основные усилия были направлены на
обеспечение безопасности АЭС. Наряду с конструктивными и другими мерами, важное положение здесь занимают разработка и внедрение систем и средств технического диагностирования АЭС. Задачами технического диагностирования являются [27]:
обнаружение отклонения от нормального режима эксплуатации ЯЭУ (аномальной ситуации) на возможно более ранней стадии развития;
определение причин аномальной ситуации;
прогнозирование хода развития аномальной ситуации;
выбор мер по устранению или локализации аномальной ситуации.
Важнейшим звеном системы диагностирования является оператор. На него ложатся задачи восприятия текущей информации, ее переработки и анализа, сравнения текущего состояния с имеющимся описанием нормального или одного из аномальных состояний и принятия решения о состоянии установки, принятия решения о необходимом управляющем воздействии на систему. Уменьшить нагрузку на оператора и повысить эффективность системы диагностирования можно за счет формализации этих действий. За счет этого появляется возможность существенно повысить быстродействие и надежность принимаемых решений, увеличить точность описания системы за счет расширения состава диагностических признаков.
Важнейшую роль в развитии систем диагностирования играет вычислительная техника. С появлением современных персональных и промышленных компьютеров стало возможным создавать системы, работающие в непосредственном (онлайновом) режиме, когда время между получением информации с датчика и представлением обработанных данных на экран оператора составляет доли секунды. Таким образом, резко возрастает скорость принятия решений, повышается надежность и эффективность работы системы в целом, становится возможным применение сложных алгоритмов обработки диагностической информации при высоком быстродействии. Все это выводит системы технической диагностики АЭС на качественно новый уровень. В качестве примеров таких систем можно привести компьютерные системы поддержки оператора CAMLS, CSPM, ChemAND для реакторов CANDU и акустическую систему обнаружения течи ALUS фирмы Siemens.
1.2 Методы обработки и анализа данных
Очень важную роль в системах диагностики играют методы обработки и анализа данных. Вообще, на АЭС существует огромное количество технологических параметров, контролируемых с различной периодичностью, в то время как для описания различных эксплуатационных режимов достаточно иметь гораздо меньший набор параметров. Использовать единственный набор из большинства параметров для описания всех режимов работы не целесообразно не только по причинам технического характера (огромный объем данных, увеличение времени обработки и т.д.), но и вследствие того факта, что многие параметры не только могут иметь неверное значение (вероятность чего для большего числа параметров растет), затрудняя работу алгоритма диагностирования, но и быть для данного режима попросту избыточными. Таким образом, ставится задача выделить из огромного потока информации именно ту ее часть, которая является необходимой для решения нашей конкретной задачи диагностирования. Решением такого рода задач занимается область знания, называемая Data Mining (дословно, "добыча, откапывание данных"), образовавшаяся на стыке многих научных дисциплин. Дальнейший выбор конкретных методов зависит от выбранной задачи диагностирования и соответствующей ей задачи Data Mining. Примером задач диагностирования успешно применены к ряду задач, таких как идентификация частиц, распознавание лиц, распознавание текста, биоинформатика и многим другим могут являться контроль герметичности оболочек, диагностирование режима кипения по акустическим шумам и т.д. Решение этих задач может сводиться к решению таких проблем, как распознавание образов, предсказание временных рядов, регрессионный анализ зависимостей и т.д.
Наряду с другими подходами, в качестве математического аппарата для формализации действий оператора при диагностике ЯЭУ используется теория распознавания образов. В основе методологии ее применения лежит аналогия между действиями оператора и задачами и методами их решения в теории распознавания образов. Задачами теории являются отсеивание случайных, избыточных и ошибочных данных, сжатие и редуцирование описания состояния установки, выделение существенных диагностических признаков. Для решения этих задач применяются методы поиска и формирования информативных признаков. Выделив существенные диагностические признаки, оператор классифицирует текущую ситуацию на основе приведенных в эксплуатационной документации описаний классов и правил принятия решений, полагаясь также на собственный опыт. В качестве примера описания класса можно привести набор установок для ряда технологических параметров, соответствующих нормальной работе реакторной установки на номинальном уровне мощности. Пример решающего правила: "Если при работе на постоянном уровне мощности происходит снижение давления в первом контуре, то произошел разрыв первого контура". Ряд таких решающих правил лежит в основе сигналов аварийной защиты (A3). С помощью теории распознавания образов возможно автоматизированное (с помощью ЭВМ) решение следующих задач, возникающих при технической диагностике ЯЭУ:
Минимизации описания ЯЭУ;
Отбора и формирования существенных для диагностики признаков;
Выработки на основе обучения или самообучения решающих правил;
Автоматического распознавания эксплуатационных ситуаций;
Прогнозирования развития аномальных режимов.
Можно выделить такие большие классы методов, как кластерный анализ и построение оптимальных правил принятия решения.
Кластерный анализ рассматривает обучение без учителя, т.е. подразумевается, что мы не имеем выборки данных с заранее известной принадлежностью каждого измерения к тому или иному режиму. К кластерному анализу относятся такие методы, как алгоритм цепных расстояний, метод К внутригрупповых средних, центроидный метод (или "Форель"), агломеративная иерархическая процедура кластеризации и др..
К методам построения решающих правил или методам классификации относятся такие методы как перцептрон, дискриминант Фишера, процедура Хо-Кашьяпа, метод К ближайших соседей, нейронные сети, деревья классификации и др.
Глава 2. Описание методов
2.1 Метод кластерного анализа
Термин кластерный анализ (впервые ввел Tryon, 1939) Кластерный анализ - это совокупность методов, позволяющих классифицировать многомерные наблюдения, каждое из которых описывается набором исходных переменных Х1,Х2,..., Хm. Целью кластерного анализа является образование групп схожих между собой объектов, которые принято называть кластерами. Слово кластер английского происхождения (cluster), переводится как сгусток, пучок, группа. Родственные понятия, используемые в литературе, - класс, таксон, сгущение.
В отличие от комбинационных группировок кластерный анализ приводит к разбиению на группы с учетом всех группировочных признаков одновременно. Например, если каждый наблюдаемый объект характеризуется двумя признаками Х1 и Х2, то при выполнении комбинационной группировки вся совокупность объектов будет разбита на группы по Х1, а затем внутри каждой выделенной группы будут образованы подгруппы по Х2. Такой подход получил название монотетического. Определить принадлежность каждого объекта к той или иной группе можно, последовательно сравнивая его значения Х1 и Х2 с границами выделенных групп. Образование группы в этом случае всегда связано с указанием ее границ по каждому группировочному признаку отдельно. В кластерном анализе используется иной принцип образования групп, так называемый политетический подход. Все группировочные признаки одновременно участвуют в группировке, т.е. они учитываются все сразу при отнесении наблюдения в ту или иную группу. При этом, как правило, не указаны четкие границы каждой группы, а также неизвестно заранее, сколько же групп целесообразно выделить в исследуемой совокупности.
Кластерный анализ - одно из направлений статистического исследования. Особо важное место он занимает в тех отраслях науки, которые связаны с изучением массовых явлений и процессов. Необходимость развития методов кластерного анализа и их использования, продиктована прежде всего тем, что они помогают построить научно обоснованные классификации, выявить внутренние связи между единицами наблюдаемой совокупности. Кроме того, методы кластерного анализа могут использоваться с целью сжатия информации, что является важным фактором в условиях постоянного увеличения и усложнения потоков статистических данных.
Первые публикации по кластерному анализу появились в конце 30-х годов нашего столетия, но активное развитие этих методов и их широкое использование началось в конце 60-х - начале 70-х годов. В дальнейшем это направление многомерного анализа очень интенсивно развивалось. Появились новые методы, новые модификации уже известных алгоритмов, существенно расширилась область применения кластерного анализа. Если первоначально методы многомерной классификации использовались в психологии, археологии, биологии, то сейчас они стали активно применяться в социологии, экономике, статистике, в исторических исследованиях. Особенно расширилось их использование в связи с появлением и развитием ЭВМ и, в частности, персональных компьютеров. Это связано прежде всего с трудоемкостью обработки больших массивов информации (вычисление и обращение матриц больших размерностей).
Методы кластерного анализа позволяют решать следующие задачи:
* проведение классификации объектов с учетом признаков, отражающих сущность, природу объектов. Решение такой задачи, как правило, приводит к углублению знаний о совокупности классифицируемых объектов;
* проверка выдвигаемых предположений о наличии некоторой структуры в изучаемой совокупности объектов, т.е. поиск существующей структуры;
* построение новых классификаций для слабоизученных явлений, когда необходимо установить наличие связей внутри совокупности и попытаться привнести в нее структуру.
2.1.1 Иерархическое дерево
Назначение этого алгоритма состоит в объединении объектов в достаточно большие кластеры, используя некоторую меру сходства или расстояние между объектами. Рассмотрим горизонтальную древовидную диаграмму. Диаграмма начинается с каждого объекта в классе (в левой части диаграммы). Теперь представим себе, что постепенно (очень малыми шагами) вы "ослабляете" ваш критерий о том, какие объекты являются уникальными, а какие нет. Другими словами, вы понижаете порог, относящийся к решению об объединении двух или более объектов в один кластер.
Рис. 1 - Дендрограма иерархических группировок
В результате, вы связываете вместе всё большее и большее число объектов и объединяете все больше и больше кластеров, состоящих из все сильнее различающихся элементов. Окончательно, на последнем шаге все объекты объединяются вместе. На этих диаграммах горизонтальные оси представляют расстояние объединения (в вертикальных древовидных диаграммах вертикальные оси представляют расстояние объединения). Так, для каждого узла в графе (там, где формируется новый кластер) вы можете видеть величину расстояния, для которого соответствующие элементы связываются в новый единственный кластер. Когда данные имеют ясную "структуру" в терминах кластеров объектов, сходных между собой, тогда эта структура, скорее всего, должна быть отражена в иерархическом дереве различными ветвями. В результате успешного анализа методом объединения появляется возможность обнаружить кластеры (ветви) и интерпретировать их.
Меры расстояния:
Объединение или метод древовидной кластеризации используется при формировании кластеров несходства или расстояния между объектами. Эти расстояния могут определяться в одномерном или многомерном пространстве. Наиболее прямой путь вычисления расстояний между объектами в многомерном пространстве состоит в вычислении евклидовых расстояний. Если вы имеете двух- или трёхмерное пространство, то эта мера является реальным геометрическим расстоянием между объектами в пространстве (как будто расстояния между объектами измерены рулеткой). Однако алгоритм объединения не "заботится" о том, являются ли "предоставленные" для этого расстояния настоящими или некоторыми другими производными мерами расстояния, что более значимо для исследователя; и задачей исследователей является подобрать правильный метод для специфических применений.
Евклидово расстояние
Это, по-видимому, наиболее общий тип расстояния. Оно попросту является геометрическим расстоянием в многомерном пространстве и вычисляется следующим образом:
расстояние(x,y) = {i (xi - yi)2}1/2
Заметим, что евклидово расстояние (и его квадрат) вычисляется по исходным, а не по стандартизованным данным. Это обычный способ его вычисления, который имеет определенные преимущества (например, расстояние между двумя объектами не изменяется при введении в анализ нового объекта, который может оказаться выбросом). Тем не менее, на расстояния могут сильно влиять различия между осями, по координатам которых вычисляются эти расстояния. К примеру, если одна из осей измерена в сантиметрах, а вы потом переведете ее в миллиметры (умножая значения на 10), то окончательное евклидово расстояние (или квадрат евклидова расстояния), вычисляемое по координатам, сильно изменится, и, как следствие, результаты кластерного анализа могут сильно отличаться от предыдущих.
Квадрат евклидова расстояния
Иногда может возникнуть желание возвести в квадрат стандартное евклидово расстояние, чтобы придать большие веса более отдаленным друг от друга объектам. Это расстояние вычисляется следующим образом (см. также замечания в предыдущем пункте): расстояние
(x,y) = i (xi - yi)2
Расстояние городских кварталов (манхэттенское расстояние)
Это расстояние является просто средним разностей по координатам. В большинстве случаев эта мера расстояния приводит к таким же результатам, как и для обычного расстояния Евклида. Однако отметим, что для этой меры влияние отдельных больших разностей (выбросов) уменьшается (так как они не возводятся в квадрат). Манхэттенское расстояние вычисляется по формуле: расстояние
(x,y) = i |xi - yi|
Расстояние Чебышева
Это расстояние может оказаться полезным, когда желают определить два объекта как "различные", если они различаются по какой-либо одной координате (каким-либо одним измерением). Расстояние Чебышева вычисляется по формуле: расстояние
(x,y) = Максимум|xi - yi|
Степенное расстояние
Иногда желают прогрессивно увеличить или уменьшить вес, относящийся к размерности, для которой соответствующие объекты сильно отличаются. Это может быть достигнуто с использованием степенного расстояния. Степенное расстояние вычисляется по формуле: расстояние
(x,y) = (i |xi - yi|p)1/r
где r и p - параметры, определяемые пользователем. Несколько примеров вычислений могут показать, как "работает" эта мера. Параметр p ответственен за постепенное взвешивание разностей по отдельным координатам, параметр r ответственен за прогрессивное взвешивание больших расстояний между объектами. Если оба параметра - r и p, равны двум, то это расстояние совпадает с расстоянием Евклида.
Правила объединения или связи:
На первом шаге, когда каждый объект представляет собой отдельный кластер, расстояния между этими объектами определяются выбранной мерой. Однако когда связываются вместе несколько объектов, возникает вопрос, как следует определить расстояния между кластерами? Другими словами, необходимо правило объединения или связи для двух кластеров. Здесь имеются различные возможности: например, вы можете связать два кластера вместе, когда любые два объекта в двух кластерах ближе друг к другу, чем соответствующее расстояние связи. Другими словами, вы используете "правило ближайшего соседа" для определения расстояния между кластерами; этот метод называется методом одиночной связи. Это правило строит "волокнистые" кластеры, т.е. кластеры, "сцепленные вместе" только отдельными элементами, случайно оказавшимися ближе остальных друг к другу. Как альтернативу вы можете использовать соседей в кластерах, которые находятся дальше всех остальных пар объектов друг от друга. Этот метод называется метод полной связи. Существует также множество других методов объединения кластеров, подобных тем, что были рассмотрены.
Одиночная связь (метод ближайшего соседа)
Как было описано выше, в этом методе расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах. Это правило должно, в известном смысле, нанизывать объекты вместе для формирования кластеров, и результирующие кластеры имеют тенденцию быть представленными длинными "цепочками".
Полная связь (метод наиболее удаленных соседей)
В этом методе расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах (т.е. "наиболее удаленными соседями"). Этот метод обычно работает очень хорошо, когда объекты происходят на самом деле из реально различных "рощ". Если же кластеры имеют в некотором роде удлиненную форму или их естественный тип является "цепочечным", то этот метод непригоден.
Невзвешенное попарное среднее
В этом методе расстояние между двумя различными кластерами вычисляется как среднее расстояние между всеми парами объектов в них. Метод эффективен, когда объекты в действительности формируют различные "рощи", однако он работает одинаково хорошо и в случаях протяженных ("цепочного" типа) кластеров.
Взвешенное попарное среднее
Метод идентичен методу невзвешенного попарного среднего, за исключением того, что при вычислениях размер соответствующих кластеров (т.е. число объектов, содержащихся в них) используется в качестве весового коэффициента. Поэтому предлагаемый метод должен быть использован (скорее даже, чем предыдущий), когда предполагаются неравные размеры кластеров.
Невзвешенный центроидный метод
В этом методе расстояние между двумя кластерами определяется как расстояние между их центрами тяжести.
Взвешенный центроидный метод (медиана)
тот метод идентичен предыдущему, за исключением того, что при вычислениях используются веса для учёта разницы между размерами кластеров (т.е. числами объектов в них). Поэтому, если имеются (или подозреваются) значительные отличия в размерах кластеров, этот метод оказывается предпочтительнее предыдущего.
Метод Варда
Этот метод отличается от всех других методов, поскольку он использует методы дисперсионного анализа для оценки расстояний между кластерами. Метод минимизирует сумму квадратов (SS) для любых двух (гипотетических) кластеров, которые могут быть сформированы на каждом шаге. Подробности можно найти в работе Варда (Ward, 1963). В целом метод представляется очень эффективным, однако он стремится создавать кластеры малого размера.
2.1.2 Метод K средних
Общая логика. Предположим, вы уже имеете гипотезы относительно числа кластеров (по наблюдениям или по переменным). Вы можете указать системе- образовать ровно три кластера так, чтобы они были настолько различны, насколько это возможно. Это именно тот тип задач, которые решает алгоритм метода K средних. В общем случае метод K средних строит ровно K различных кластеров, расположенных на возможно больших расстояниях друг от друга.
Пример
Медицинский исследователь может иметь "подозрение" из своего клинического опыта, что его пациенты в основном попадают в три различные категории. Далее он может захотеть узнать, может ли его интуиция быть подтверждена численно, то есть, в самом ли деле кластерный анализ K средних даст три кластера пациентов, как ожидалось? Если это так, то средние различных мер физических параметров для каждого кластера будут давать количественный способ представления гипотез исследователя (например, пациенты в кластере 1 имеют высокий параметр 1, меньший параметр 2 и т.д.).
Вычисления
Программа начинает с K случайно выбранных кластеров, а затем изменяет принадлежность объектов к ним, чтобы: (1) - минимизировать изменчивость внутри кластеров, и (2) - максимизировать изменчивость между кластерами. Критерий значимости сравнивает межгрупповую изменчивость с внутригрупповой при проверке гипотезы о том, что средние в группах отличаются друг от друга. В кластеризации методом K средних программа перемещает объекты (т.е. наблюдения) из одних групп (кластеров) в другие для того, чтобы получить наиболее значимый результат при проведении дисперсионного анализа.
Интерпретация результатов
Обычно, когда результаты кластерного анализа методом K средних получены, можно рассчитать средние для каждого кластера по каждому измерению, чтобы оценить, насколько кластеры различаются друг от друга. В идеале вы должны получить сильно различающиеся средние для большинства, если не для всех измерений, используемых в анализе. Значения F-статистики, полученные для каждого измерения, являются другим индикатором того, насколько хорошо соответствующее измерение дискриминирует кластеры.
2.2 Факторный анализ
Основная цель
Главными целями факторного анализа являются:
1. сокращение числа переменных (редукция данных)
2. определение структуры взаимосвязей между переменными, т.е. классификация переменных.
Факторный анализ как метод редукции данных
Предположим, вы хотите измерить удовлетворенность людей жизнью, для чего составляете вопросник с различными пунктами; среди других вопросов задаете следующие: удовлетворены ли люди своим хобби (пункт 1) и как интенсивно они им занимаются (пункт 2). Результаты преобразуются так, что средние ответы (например, для удовлетворенности) соответствуют значению 100, в то время как ниже и выше средних ответов расположены меньшие и большие значения, соответственно. Две переменные (ответы на два разных пункта) коррелированы между собой. Из высокой коррелированности двух этих переменных можно сделать вывод об избыточности двух пунктов опросника.
Объединение двух переменных в один фактор
Зависимость между переменными можно обнаружить с помощью диаграммы рассеяния. Полученная путем подгонки линия регрессии дает графическое представление зависимости. Если определить новую переменную на основе линии регрессии, изображенной на этой диаграмме, то такая переменная будет включить в себя наиболее существенные черты обеих переменных. Итак, фактически, вы сократили число переменных и заменили две одной. Отметим, что новый фактор (переменная) в действительности является линейной комбинацией двух исходных переменных.
Пример, в котором две коррелированные переменные объединены в один фактор, показывает главную идею факторного анализа. Если пример с двумя переменными распространить на большее число переменных, то вычисления становятся сложнее, однако основной принцип представления двух или более зависимых переменных одним фактором остается в силе.
Факторный анализ как метод классификации
Предполагается, что вы находитесь в той точке анализа, когда в целом знаете, сколько факторов следует выделить. Вы можете захотеть узнать значимость факторов, то есть, можно ли интерпретировать их разумным образом и как это сделать. Чтобы проиллюстрировать, каким образом это может быть сделано, производятся действия "в обратном порядке", то есть, начинают с некоторой осмысленной структуры, а затем смотрят, как она отражается на результатах. Вернемся, к примеру, об удовлетворенности; ниже приведена корреляционная матрица для переменных, относящихся к удовлетворенности на работе и дома.
Табл. 1 - Коэффициенты корреляции
STATISTICA ФАКТОРНЫЙ АНАЛИЗ |
Корреляции (factor.sta) Построчное удаление ПД n=100 |
||||||
Переменная |
РАБОТА_1 |
РАБОТА_2 |
РАБОТА_3 |
ДОМ_1 |
ДОМ_2 |
ДОМ_3 |
|
РАБОТА_1 РАБОТА_2 РАБОТА_3 ДОМ_1 ДОМ_2 ДОМ_3 |
1.00.65.65.14.15.14 |
.65 1.00.73.14.18.24 |
.65.73 1.00.16.24.25 |
.14.14.16 1.00.66.59 |
.15.18.24.66 1.00.73 |
.14.24.25.59.73 1.00 |
Переменные, относящиеся к удовлетворенности на работе, более коррелированы между собой, а переменные, относящиеся к удовлетворенности домом, также более коррелированы между собой. Корреляции между этими двумя типами переменных (переменные, связанные с удовлетворенностью на работе, и переменные, связанные с удовлетворенностью домом) сравнительно малы. Поэтому кажется правдоподобным, что имеются два относительно независимых фактора (два типа факторов), отраженных в корреляционной матрице: один относится к удовлетворенности на работе, а другой к удовлетворенности домашней жизнью.
Факторные нагрузки
Рассмотрим корреляции между переменными и двумя факторами (или "новыми" переменными), как они были выделены по умолчанию; эти корреляции называются факторными нагрузками.
Табл. 2 - Факторные нагрузки
STATISTICA ФАКТОРНЫЙ АНАЛИЗ |
Факторные нагрузки (Нет вращения) Главные компоненты |
||
Переменная |
Фактор 1 |
Фактор 2 |
|
РАБОТА_1 РАБОТА_2 РАБОТА_3 ДОМ_1 ДОМ_2 ДОМ_3 |
.654384.715256.741688.634120.706267.707446 |
.564143.541444.508212 -.563123 -.572658 -.525602 |
|
Общая дисперсия Доля общей дисп. |
2.891313.481885 |
1.791000.298500 |
По-видимому, первый фактор более коррелирует с переменными, чем второй. Это следовало ожидать, потому что, как было сказано выше, факторы выделяются последовательно и содержат все меньше и меньше общей дисперсии.
Вращение факторной структуры
Вы можете изобразить факторные нагрузки в виде диаграммы рассеяния. На этой диаграмме каждая переменная представлена точкой. Можно повернуть оси в любом направлении без изменения относительного положения точек; однако действительные координаты точек, то есть факторные нагрузки, должны, без сомнения, меняться. Если вы построите диаграмму для этого примера, то увидите, что если повернуть оси относительно начала координат на 45 градусов, то можно достичь ясного представления о нагрузках, определяющих переменные: удовлетворенность на работе и дома.
Методы вращения:
Существуют различные методы вращения факторов. Целью этих методов является получение понятной (интерпретируемой) матрицы нагрузок, то есть факторов, которые ясно отмечены высокими нагрузками для некоторых переменных и низкими - для других. Эту общую модель иногда называют простой структурой (более формальное определение можно найти в стандартных учебниках). Типичными методами вращения являются стратегии варимакс, квартимакс, и эквимакс.
Например, на диаграмме рассеяния вы можете рассматривать линию регрессии как ось X, повернув ее так, что она совпадает с прямой регрессии. Этот тип вращения называется вращением, максимизирующим дисперсию, так как критерий (цель) вращения заключается в максимизации дисперсии (изменчивости) "новой" переменной (фактора) и минимизации разброса вокруг нее
Обобщение на случай многих переменных
В том случае, когда имеются более двух переменных, можно считать, что они определяют трехмерное "пространство" точно так же, как две переменные определяют плоскость. Если вы имеете три переменные, то можете построить 3М диаграмму рассеяния (Рис.2).
Рис. 2 - 3М диаграмма рассеяния
Для случая более трех переменных, становится невозможным представить точки на диаграмме рассеяния, однако логика вращения осей с целью максимизации дисперсии нового фактора остается прежней.
Ортогональные факторы
После того, как вы нашли линию, для которой дисперсия максимальна, вокруг нее остается некоторый разброс данных. И процедуру естественно повторить. Таким образом, факторы последовательно выделяются один за другим. Так как каждый последующий фактор определяется так, чтобы максимизировать изменчивость, оставшуюся от предыдущих, то факторы оказываются независимыми друг от друга. Другими словами, некоррелированными или ортогональными.
Анализ главных факторов
Прежде, чем продолжить рассмотрение различных аспектов вывода анализа главных компонент, введем анализ главных факторов. Вернемся к примеру вопросника об удовлетворенности жизнью, чтобы сформулировать другую "мыслимую модель". Вы можете представить себе, что ответы субъектов зависят от двух компонент. Сначала выбираем некоторые подходящие общие факторы, такие как, например, "удовлетворение своим хобби", рассмотренные ранее. Каждый пункт измеряет некоторую часть этого общего аспекта удовлетворения. Кроме того, каждый пункт включает уникальный аспект удовлетворения, не характерный для любого другого пункта.
Общности
Если эта модель правильна, то вы не можете ожидать, что факторы будут содержать всю дисперсию в переменных; они будут содержать только ту часть, которая принадлежит общим факторам и распределена по нескольким переменным. На языке факторного анализа доля дисперсии отдельной переменной, принадлежащая общим факторам (и разделяемая с другими переменными) называется общностью. Поэтому дополнительной работой, стоящей перед исследователем при применении этой модели, является оценка общностей для каждой переменной, т.е. доли дисперсии, которая является общей для всех пунктов. Доля дисперсии, за которую отвечает каждый пункт, равна тогда суммарной дисперсии, соответствующей всем переменным, минус общность. С общей точки зрения в качестве оценки общности следует использовать множественный коэффициент корреляции выбранной переменной со всеми другими
Вы хотите найти 0, Люгнт. Ниже приведена таблица нагрузок на повернутые факторы (Табл.3).
Табл. 3 - Нагрузки на повернутые факторы
STATISTICA ФАКТОРНЫЙ АНАЛИЗ |
Факторные нагрузки (Варимакс нормализ.) Выделение: Главные компоненты |
||
Переменная |
Фактор 1 |
Фактор 2 |
|
РАБОТА_1 РАБОТА_2 РАБОТА_3 ДОМ_1 ДОМ_2 ДОМ_3 |
.862443.890267.886055.062145.107230.140876 |
.051643.110351.152603.845786.902913.869995 |
|
Общая дисперсия Доля общей дисп. |
2.356684.392781 |
2.325629.387605 |
Интерпретация факторной структуры
Теперь картина становится более ясной. Как и ожидалось, первый фактор отмечен высокими нагрузками на переменные, связанные с удовлетворенностью на работе, а второй фактор - с удовлетворенностью домом. Из этого вы должны заключить, что удовлетворенность, измеренная вашим вопросником, составлена из двух частей: удовлетворенность домом и работой, следовательно, вы произвели классификацию переменных.
Рассмотрим следующий пример, здесь к предыдущему примеру добавились четыре новых переменных Хобби.
Рис. 3 - Диаграмма рассеяния факторных нагрузок
На этом графике (Рис.3) 10 переменных были сведены к трем факторам - фактор удовлетворенности работой (work), фактор удовлетворенности домом (home), и фактор удовлетворенности хобби (hobby/misc). Заметим, что факторные нагрузки для каждого фактора имеют сильно различающиеся значения для остальных двух факторов, но большие значения именно для этого фактора. Например, факторные нагрузки для переменных, относящихся к хобби (выделены зеленым цветом) имеют и большие, и малые значения для "дома" и "работы", но все четыре переменные имеют большие факторные нагрузки для фактора "хобби".
Косоугольные факторы
Некоторые авторы (например, Харман (Harman, 1976), Дженнрих и Сэмпсон (Jennrich, Sampson, 1966); Кларксон и Дженнрих (Clarkson, Jennrich, 1988)) обсуждали довольно подробно концепцию косоугольных (не ортогональных) факторов, для того чтобы достичь более простой интерпретации решений. В частности, были развиты вычислительные стратегии, как для вращения факторов, так и для лучшего представления "кластеров" переменных без отказа от ортогональности (т.е. независимости) факторов. Однако косоугольные факторы, получаемые с помощью этих процедур, трудно интерпретировать. Возвратимся, к примеру, обсуждавшемуся выше, и предположим, что вы включили в вопросник четыре пункта, измеряющих другие типы удовлетворенности (Хобби). Предположим, что ответы людей на эти пункты были одинаково связаны как с удовлетворенностью домом (Фактор 1), так и работой (Фактор 2). Косоугольное вращение должно дать, очевидно, два коррелирующих фактора с меньшей, чем ранее, выразительностью, то есть с большими перекрестными нагрузками.
Иерархический факторный анализ
Вместо вычисления нагрузок косоугольных факторов, для которых часто трудно дать хорошую интерпретацию, вы можете использовать стратегию, впервые предложенную Томсоном (Thompson, 1951) и Шмидтом и Лейманом (Schmidt, Leiman, 1957), которая было подробно развита и популяризирована Верри (Wherry, 1959, 1975, 1984). В соответствии с этой стратегией, вначале определяются кластеры и происходит вращение осей в пределах кластеров, а затем вычисляются корреляции между найденными (косоугольными) факторами. Полученная корреляционная матрица для косоугольных факторов затем подвергается дальнейшему анализу для того, чтобы выделить множество ортогональных факторов, разделяющих изменчивость в переменных на ту, что относятся к распределенной или общей дисперсии (вторичные факторы), и на частные дисперсии, относящиеся к кластерам или схожим переменным (пунктам вопросника) в анализе (первичные факторы). Применительно к рассматриваемому примеру такой иерархический анализ может дать следующие факторные нагрузки:
Табл. 4 - Вторичные и первичные факторные нагрузки
STATISTICA ФАКТОРНЫЙ АНАЛИЗ |
Вторичные и первичные факторные нагрузки |
|||
Фактор |
Вторич. 1 |
Первич. 1 |
Первич. 2 |
|
РАБОТА_1 РАБОТА_2 РАБОТА_3 ДОМ_1 ДОМ_2 ДОМ_3 ХОББИ_1 ХОББИ_2 ХОББИ_3 ХОББИ_4 |
.483178.570953.565624.535812.615403.586405.780488.734854.776013.714183 |
.649499.687056.656790.117278.079910.065512.466823.464779.439010.455157 |
.187074.140627.115461.630076.668880.626730.280141.238512.303672.228351 |
Внимательное изучение позволяет сделать следующие заключения:
Имеется общий (вторичный) фактор удовлетворенности, которому, по-видимому, подвержены все типы удовлетворенности, измеренные для 10 пунктов;
Имеются, вероятно, две первичные уникальных области удовлетворения, которые могут быть описаны как удовлетворенностью работой, так и удовлетворенностью домашней жизнью.
Верри (Wherry, 1984) обсудил подробно примеры такого иерархического анализа и объяснил, каким образом могут быть получены значимые и интерпретируемые вторичные факторы.
Глава 3. Разработка программного обеспечения
3.1 Система статистического анализа R
Все расчеты, приведенные, в данной работе выполнялись с использованием статистической системы R [7], представляющую собой язык программирования и среду для статистических расчетов и графики. R предлагает широкие вычислительные возможности, включая линейное и нелинейное моделирование, статистические тесты, анализ временных рядов, методы классификации, кластеризации, искусственного интеллекта и многое другое. Эта система является свободно-распространяемым программным продуктом и доступна бесплатно для основных платформ, включая операционные системы Windows и Linux.
К основных достоинствам R относятся следующие:
* модульность - базовая установка системы обеспечивает только наиболее общую, минимально необходимую функциональность. Функции, реализующие специфические методы и алгоритмы, свойственные тем или иным областям анализа и обработки данных, доступны через подгружаемые модули - так называемые пакеты, которые также предназначены для свободного использования и доступны на официальном сайте R;
широкие графические возможности, включая 3-хмерную графику;
открытый интерфейс, обеспечивающий простую интеграцию R с другими языками программирования, системами обработки данных,
системами управления базами данных и пр. [8];
высокие темпы «эволюционирования» - наличие исходного кода, а также прав на свободное использование данного программного продукта приводят к тому, что в работе над созданием, тестированием и оптимизацией R принимают участие тысячи разработчиков и пользователей со всего мира, что обеспечивает высокое качество и надежность программ, а так же высокие темпы появление новых исправленных и оптимизированных версий как самой системы R, так и подгружаемых модулей.
По мнению авторов, в настоящее время система К является наиболее мощной и удобной системой для всестороннего анализа и обработки данных.
В этой связи вполне логичным можно считать утверждение, что для решения задач подобного рода выбор, очевидно, ложиться на R. В действительности это не совсем так. R действительно прост и удобен в задачах, когда исследователь точно знает последовательность своих действий. Во многом это означает, что исследователь досконально знает данные, с которыми он работает, а также их особенности. Это в свою очередь означает, что исследователь знает и методы, которые ему понадобятся для получения требуемого результата. В таком случае, все что требуется это вызвать соответствующую R функцию. В действительности, в самом начале работы с данными нам известно о них либо очень мало, либо совсем ничего и поэтому стадии применения конкретных методов предшествует огромная работа, связанная с разведочным анализом. Это подразумевает работу не со статистическими методами, а с самими данными - реализацией большого числа различных предположений по их преобразованию, предварительной обработке и т. д. В таких условиях весьма актуальными становятся такие вопросы как уровень владения используемым средством манипуляции с данными, эффективность используемых средств с точки зрения быстроты их реализации, степень их ориентации на работу с целыми массивами данных, а не с отдельными скалярными значениями-числами и т. д. Решением подобной конфликтной ситуации может служить следующий подход: «подключить» функциональность R к уже знакомому и эффективному средству манипуляции с данными. Таким образом имея функциональность базового языка программирования в неизменном виде мы дополнительно получаем доступ к функциональности R!
Подобное решение становиться возможным в силу следующей особенности R. Подавляющее большинство методов и алгоритмов, доступных для использования в R реализованы в виде оптимизированных, скомпилированных и готовых к использованию библиотек функций, написанных на языках С и Fortran. Таким образом, если базовая платформа анализа содержит в себе возможности вызова внешних библиотек, становится возможным построение мощного совместного средства анализа данных, сочетающего в себе быстроту и отлаженность функций R с эффективностью предварительной манипуляции данными в знакомой среде. В качестве одного из вариантов базовой платформы авторами использован язык программирования Dyalog APL.
3.2 Язык программирования APL
АПЛ (APL, от A Programming Language, - язык программирования) был в основном разработан в 1962 году Кеннетом Айверсоном, в прошлом профессором Гарвардского университета, который перешел в фирму IBM.
АПЛ - язык программирования, оптимизированный для работы с массивами, предшественник современных научных вычислительных сред, таких как MATLAB, использует функциональную парадигму программирования. Его можно использовать для описания математических операций, не имеющих никакого отношения к вычислительным машинам, или для того, чтобы показать человеку, как работает вычислительная машина. Однако чаще всего он используется при программировании указаний для ЭВМ, как должны быть обработаны числовые или буквенные данные. Сила АПЛ во многом определяется наличием богатых и мощных средств, для обработки массивов и очень мощным и кратким синтаксисом, который позволял производить множество нетривиальных операций прямо над сложными объектами, не прибегая к разбиению их на компоненты. Ввиду того, что целые последовательности машинных операций описываются в АПЛ в виде отдельных операторов, крайне редко требуются описания данных, а определения процедур никогда не зависят от определения других объектов. АПЛ является идеальным языком для использования ЭВМ в разговорном режиме непосредственного доступа. Программы очень просто отлаживать, и ими легко управлять.
3.3 Интерфейс для связи APL-R
Интерфейс R- Dyalog APL осуществляется посредством DСОМ сервера - Windows протокола взаимодействия между различными программами. Специальная программа StatConnector осуществляет доступ к прокси DLL-библиотеке, входящей в базовый дистрибутив Windows версии R и создает DСОМ сервер, который может быть использован для обмена простыми объектами (вектора и матрицы) между процессами R и Dyalog APL, а также задания команд для выполнения в R. При установленных R и DСОМ, а также наличии в Dyalog APL зарегистрированной библиотеки StatConnectorSrv 1.0 Туре Library необходимо создать именную область ОLЕСlient:
' *.R' WC'OleClient'
'StatConnectorSrv. StaTConnector.'
ОLЕ сервер предоставляет в пользование клиентам следующие методы:
R.Init ('R') - начальный запуска процесса R;
R.Close - остановка процесса R;
R.SetSymbol ('symname', ' value ') - передача данных value в R, где они будут сохранены под именем symname;
y „ R.GetSymbol ('symname') - передача данных symname обратно из R;
y „ R.Evaluate (' expression ') - передача команды expression на исполнение в R с возвращением результата;
Функции покрытия:
Функция rinit инициализирует интерфейс R-АПЛ:
[0] rinit
[1] '#.R'ЊWC'OleClient'
'StatConnectorSrv.StatConnector'
[2] #.R.Init('R')
Функция не берет никаких аргументов, создает OLEClient namespace.
Функция rput используется для передачи переменных из сессии Dyalog АПЛ в R:
[0] {m}rput a
[1] -(0=ЊNC'm')/'m„''x'''
[2] m„,›m
[3] a„,›a
[4] #.R.SetSymbol(m,a)
Правый аргумент является информацией, которая посылается в R, а левый аргумент (вектор) является именем информации, которая будет находиться в R.
Функция rget используется, чтобы передать данные из R в сессию Dyalog АПЛ:
[0] r„rget name
[1] r„#.R.GetSymbol(name)
Единственный аргумент, который требуется - вектор знака, указывающий имя переменной R, которую нужно получить.
Функция rexec выполняет команду R:
[0] a„{r}rexec exp
[1] -(0=ЊNC'r')/'r„0'
[2] a„«
[3]:If r
[4] a„#.R.Evaluate(exp)
[5]:Else
[6] #.R.EvaluateNoReturn(exp)
[7]:EndIf
Правый аргумент функции является вектором, включающим команды R. Левый аргумент указывает на то, что действительно или нет функция возвращает результат.
С помощью данных функций производится обмен данных и вызываются функции R.
3.4 Пример работы с функциями R изнутри сессии Dyalog APL на примере функции kmeans
Прежде всего, мы должны установить связь к R: rinit
Далее из APL сессии строим матрицу х в R. Как уже говорилось ранее, все команды в R выполняем c использованием rexec.
rexec'x <- rbind(matrix(rnorm(100, sd = 0.3), ncol = 2),matrix(rnorm(100, mean = 1, sd = 0.3), ncol = 2))'
для использования функции kmeans прежде всего мы должны загрузить библиотеку `stats' в рабочее пространство R
rexec 'library(stats)'
В следующей строке в R с помощью функции kmeans делим значения матрицы х на два класса
rexec 'cl <- kmeans (x, 2, 20)'
cl представляет собой набор результатов применения функции kmeans, а именно: сами классы, их размеры и центры.
Для того, чтобы извлечь необходимый результат, например сами классы, используется следующая команда
1 rexec'cl$ cluster'
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2
правый аргумент функции rexec единица служит для того, чтобы передать результат в APL аналогично с размерами классов
1 rexec'cl$size'
51 49
и центрами классов
1 rexec'cl$ centers'
0.04238166514 Ї0.01510380116
0.9453574183 1.006225326
для наглядного представления можно построить график с помощью функции plot
rexec ' plot(x, col = cl$cluster)'
чтобы нанести центры классов используем функцию points
rexec ' points(cl$centers, col = 1:2, pch = 8)
Рис. 4 - Кластеры, полученные после применения kmeans
Для сравнения проведем аналогичные действия на языке APL
Вначале передаем значение матрицы х в APL сессию
x„rget 'x'
получаем матрицу, размерностью
Ѕx
100 2
Далее применим APL функцию kmean, аналогичную функции в R
m„2 kmean ›[2]s
получаем 2 класса:
c„mclass›[2]s c
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2
строим график с помощью APL функции plot
0 plot ›[1]Ё(›[2]1 2°.=c)љЁ›x
Рис. 5 - Кластеры, полученные после применения kmean
Матрица центров определяется в APL сессии следующим образом:
њm
0.04238166514 Ї0.01510380116
0.9453574183 1.006225326
размеры классов:
+/c=2
49
+/c=1
51
Как видим, результаты абсолютно идентичны!
3.5 Программная реализация
Для автоматизации работы с функциями R в APL сессии, строят оболочку
3.5.1 Кластерный анализ
Функция r_kmean
Назначение: передает в R матрицу данных, разделяет ее на кластеры и возвращает результат в APL.
Аргументы:
mat-матрица исходных данных,
k-задаваемое количество кластеров.
Результат: cu-вектор, показывающий какая точка к какому кластеру относится ce-матрица центров кластеров.
Текст функции
y„k r_kmean mat;cu;ce
rinit
'mat'rput mat
'k'rput k
rexec'cl <- kmeans(mat, k, 20)'
rexec'cu<-cl$cluster'
cu„rget'cu'
rexec'ce<-cl$centers'
ce„rget'ce'
y„cu ce
Функция n_clust
Назначение: показывает, сколько точек в каждом кластере.
Аргументы: x-вектор, показывающий, какая точка к какому кластеру относится.
Результат: n-количество точек, попавших в каждый кластер.
Текст функции:
n„n_clust x
n„{ѕ[“ѕ]}ћx
n„n,[1.5]+/n°.=x
Функция hclust_war
Назначение: передает в R матрицу данных и разделяет ее на кластеры, строит дерево классификации.
Аргументы:
mat-матрица исходных данных,
k-задаваемое количество кластеров,
m-определяет, строить дерево, либо нет.
Результат: h-вектор, показывающий какая точка к какому кластеру относится.
Текст функции:
h„l hclust_war mat;k;m
(k m)„l
rinit
rexec'library(cluster)'
'mat'rput mat
'k'rput k
'm'rput m
rexec' hc <- hclust(dist(mat), "war")'
rexec' memb <- cutree(hc, k = k) '
h„rget'memb'
…(m=0)/0
rexec' plot(hc, hang = -1)'
3.5.2 Факторный анализ
Функция factanal
Назначение: передает в R матрицу данных и определяет факторные нагрузки для заданного количества факторов
Аргументы:
mat-матрица исходных данных,
n-задаваемое количество факторов.
Результат:
f1-матрица факторов,
f2-вектор специфических нагрузок.
Текст функции:
f„n factanal mat
rinit
'mat'rput mat
'n'rput n
rexec'f<-factanal(mat, factors = n)'
rexec'f1<-f$loadings'
rexec'f2<-f$uniquenesses '
f1„rget'f1'
f2„rget'f2'
f„f1 f2
Функция factanal_promax
Назначение: производит вращение promax факторных нагрузок для наглядного представления.
Аргументы:
mat-матрица исходных данных,
n-задаваемое количество факторов.
Результат:
f1-матрица факторов,
f2-вектор специфических нагрузок.
Текст функции:
f„n factanal_promax mat
rinit
'mat'rput mat
'n'rput n
rexec'f<-factanal(x=mat, factors = n, rotation = "promax")'
rexec'f1<-f$loadings'
rexec'f2<-f$uniquenesses '
f1„rget'f1'
f2„rget'f2'
f„f1 f2
Глава 4. Кластерный и факторный анализ результатов УЗК
В работе АЭС с реакторами РБМК-1000 важную роль играют трубопроводы Ду-300. Они входят в состав контура многократной принудительной циркуляции (опускные и напорные трубопроводы), системы продувки и расхолаживания и системы аварийного охлаждения реактора. Диаметр трубопроводов из аустенитной стали составляет 325 мм, толщина стенки - 16 мм. Контроль состояния сварных соединений трубопроводов проводится с помощью ультразвукового метода неразрушающего контроля по методике, разработанной специалистами Инженерного центра диагностики при НИКИЭТ им. Н.А. Доллежаля.
4.1 Установка для проведения контроля сварных соединений
Для проведения ультразвукового контроля (УЗК) служит установка, представленная на Рис. 6.
В ее состав входят 8 преобразователей, располагающихся по обе стороны сварного шва. Часть из них является генераторами, а часть - приемниками (усилителями) акустического сигнала (обозначены буквами Г и У), два преобразователя совмещают эти функции. Для обнаружения дефектов используется два метода ультразвукового контроля: эхо-метод и теневой метод. При эхо-методе преобразователи располагаются с одной стороны сварного соединения. Метод основан на том, что генератор излучает ультразвуковую волну, которая отражается от дефекта и принимается усилителем. В отсутствие дефекта сигнал на приемнике отсутствует. При теневом методе генератор и приемник располагаются с разных сторон шва. Если дефекта нет, волна без потерь проходит от генератора к приемнику. При наличии дефекта сигнал на приемнике ослаблен из-за рассеивания ультразвуковой волны на дефекте.
Подобные документы
Цель информационного программирования; алгоритмический язык как система обозначений и правил для единообразной и точной записи алгоритмов и их исполнения. Языки программирования низкого и высокого уровня; классификация и использование структуры данных.
реферат [383,1 K], добавлен 07.01.2012Трехмерное моделирование: улучшение алгоритмов рендеринга и просчета трехмерных изображений. Обоснование выбора алгоритмов. Выбор языка программирования и среды разработки. Структура данных и программного комплекса. Системные требования для работы.
курсовая работа [263,8 K], добавлен 24.06.2009Реализация web-сервиса для сбора и анализа статистических данных по тексту, а также web-приложения, поддерживающего взаимодействие с сервисом и организующего пользовательский интерфейс. Проектирование архитектуры приложения. Язык программирования C#.
курсовая работа [417,6 K], добавлен 25.03.2015Основные концепции языков программирования, механизмы типизации данных. Описание языков программирования и методов трансляции. Конечные автоматы и преобразователи. Общие методы синтаксического анализа. Формальные методы описания языкового перевода.
курс лекций [5,5 M], добавлен 04.12.2013Понятие медицинской информационной системы, принципы и подходы ее формированию и организации. Структура хранения данных, их ввод и предоставление. Программные способы формализации и проверки. Реализация и концептуальная модель базы данных, ее интерфейс.
дипломная работа [1,0 M], добавлен 19.06.2015Создание системы предобработки данных; разработка системы классификации на базе методов и алгоритмов машинного обучения, их реализация в программной системе. Предобработка информации, инструкция пользователя, система классификации, машинный эксперимент.
дипломная работа [917,1 K], добавлен 31.01.2015Проведение структурного системного анализа предметной области и разработка информационной системы "Клиника". Описание диаграмм потоков данных в информационной базе. Построение инфологической модели информационной системы. Основной интерфейс баз данных.
курсовая работа [2,1 M], добавлен 11.07.2013Этапы статистического анализа данных, приемы и методы его проведения. Ключевые положения закона больших чисел в теории вероятностей, его общий смысл. Теорема Бернулли - простейшая форма закона больших чисел. Количество данных, способы его измерения.
реферат [112,3 K], добавлен 03.03.2014Эволюция концепций баз данных. Требования, которым должна удовлетворять организация базы данных. Модели представления данных. Язык SQL как стандартный язык баз данных. Архитектуры баз данных. Среда Delphi как средство для разработки СУБД.
дипломная работа [278,9 K], добавлен 26.11.2004Понятие семантики; обзор и анализ существующих средств семантического разбора естественно-языковых текстов. Разработка алгоритма работы системы на основе семантического анализа, его реализация на языке программирования; проектирование интерфейса системы.
дипломная работа [1,7 M], добавлен 18.03.2012