Технологии анализа данных (Text Mining, Data Mining)
Перспективные направления анализа данных: анализ текстовой информации, интеллектуальный анализ данных. Анализ структурированной информации, хранящейся в базах данных. Процесс анализа текстовых документов. Особенности предварительной обработки данных.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | реферат |
Язык | русский |
Дата добавления | 13.02.2014 |
Размер файла | 443,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Технологии анализа данных (Text Mining, Data Mining)
Автор: Казьмина Анастасия, 4 курс.
Руководитель: Баяндин Николай Иванович.
Образовательное учреждение: Федеральное государственное бюджетное учреждение высшего профессионального образования "Московский государственный университет экономики, статистики и информатики (МЭСИ)", г. Москва
Кто владеет информацией - тот владеет миром. В наше время трудно переоценить значение аналитики и мониторинга социальных медиа. Для быстрого и успешного развития бизнеса и эффективного продвижения в интернет, эти этапы просто необходимы.
На сегодняшний день, всё большую популярность приобретают задачи, связанные с получением и накоплением новых знаний путём анализа ранее полученной информации. Возникла необходимость в создании больших хранилищ данных и систем поддержки принятия решений.
Рассмотрим подробнее технологию анализа данных.
Наиболее перспективные направления анализа данных:
· анализ текстовой информации
· интеллектуальный анализ данных
1. Анализ текстовой информации Text Mining
Анализ структурированной информации, хранящейся в базах данных, требует предварительной обработки: проектирования БД, ввод информации по определенным правилам, размещение ее в специальных структурах (например, реляционных таблицах) и т.п. Текстовые документы практически невозможно преобразовать в табличное представление без потери семантики текста и отношений между сущностями. По этой причине такие документы хранятся в БД без преобразований, как текстовые поля (BLOB-поля). В это же время в тексте скрыто огромное количество информации, но ее неструктурированность не позволяет использовать алгоритмы Data Mining. Решением этой проблемы занимаются методы анализа неструктурированного текста (Text Mining).
Определение Text Mining: Обнаружение знаний в тексте - это нетривиальный процесс обнаружения действительно новых, потенциально полезных и понятных шаблонов в неструктурированных текстовых данных. "Неструктурированные текстовые данные" - набор документов, представляющих собой логически объединенный текст без каких-либо ограничений на его структуру (web-страницы, электронная почта, нормативные документы).
Процесс анализа текстовых документов можно представить как последовательность нескольких шагов:
1. Поиск информации. В первую очередь необходимо понять, какие документы нужно подвергнуть анализу плюс обеспечить доступ. Пользователи могут определить набор анализируемых документов самостоятельно - вручную.
2. Предварительная обработка документов. Выполняются необходимые преобразования с документами для представления их в нужном виде. Удаление лишних слов и придание тексту более строгой формы.
3. Извлечение информации. Выделение ключевых понятий для анализа.
4. Применение методов Text Mining. Извлекаются шаблоны и отношения, имеющиеся в текстах.
5. Интерпретация результатов. Представлении результатов на естественном языке, или в их визуализации в графическом виде.
Предварительная обработка документа
Приемы удаления неинформативных слов и повышения строгости текстов:
Удаление стоп-слов. Стоп-словами называются слова, которые являются вспомогательными и несут мало информации о содержании документа.
Стэмминг - морфологический поиск. Он заключается в преобразовании каждого слова к его нормальной форме.
Л-граммы это альтернатива морфологическому разбору и удалению стоп-слов. Позволяют сделать текст более строгим, не решают проблему уменьшения количества неинформативных слов;
Приведение регистра. Этот прием заключается в преобразовании всех символов к верхнему или нижнему регистру.
Наиболее эффективно совместное применение всех методов.
Задачи Text Mining
Классификация (classification) - определение для каждого документа одной или нескольких заранее заданных категорий, к которым этот документ относится, автоматическое выявление групп семантически похожих документов среди заданного фиксированного множества
Автоматическое аннотирование (summarization) сокращение текста и сохранение его смысла. Результат включает в себя наиболее значимые предложения в тексте.
Извлечения ключевых понятий (feature extraction) - идентификация фактов и отношений в тексте (имена существительные и нарицательные: имена и фамилии людей, названия организаций и др.).
Навигация по тексту (text-base navigation) перемещение по документам по определённым темам и терминам. Это выполняется за счет идентификации ключевых понятий и некоторых отношений между ними.
Анализ трендов позволяет идентифицировать тренды в наборах документов на какой-то период времени.
Поиск ассоциаций. В заданном наборе документов идентифицируются ассоциативные отношения между ключевыми понятиями.
Существует достаточно большое количество разновидностей перечисленных задач, а также методов их решения. Это еще раз подтверждает значимость анализа текстов.
Примеры средства анализа текстовой информации:
Средства Oracle - Oracle Text2.
Средства от IBM - Intelligent Miner for Text1
Средства SAS Institute - Text Miner
Интеллектуальный анализ данных Data Mining
Интеллектуальный анализа данных (англ. Data mining, другие варианты перевода - "добыча данных", "раскопка данных") - обнаружение неявных закономерностей в наборах данных.
Интеллектуальный анализ данных может проводиться с помощью программных продуктов следующих классов:
· специализированных "коробочных" программных продуктов для интеллектуального анализа;
· математических пакетов;
· электронных таблиц (и различного рода надстроек над ними);
· средств интегрированных в системы управления базами данных (СУБД);
· других программных продуктов.
Задачи интеллектуального анализа данных:
Задача классификации определение категории и класса каждому объекту.
Задача регрессии - поиск шаблонов для определения числового значения.
Задача прогнозирования новых значений на основании имеющихся значений числовой последовательности. Учитываются тренды.
анализ text data mining
Задача кластеризации - деление множества объектов на группы (кластеры) с похожими параметрами. При этом, в отличие от классификации, число кластеров и их характеристики могут быть заранее неизвестны и определяться в ходе построения кластеров исходя из степени близости объединяемых объектов по совокупности параметров.
Задача определения взаимосвязей - определение часто встречающихся наборов объектов среди множества подобных наборов.
Анализ последовательностей - обнаружение закономерностей в последовательностях событий.
Анализ отклонений - поиск событий, отличающихся от нормы.
По способу решения задачи интеллектуального анализа можно разделить на два класса: обучение с учителем (от англ. supervisedlearning) и обучение без учителя (от англ. unsupervisedlearning). В первом случае требуется обучающий набор данных, на котором создается и обучается модель интеллектуального анализа данных. Готовая модель тестируется и впоследствии используется для предсказания значений в новых наборах данных. Во втором случае целью является выявление закономерностей имеющихся в существующем наборе данных.
Вывод
Интеллектуальный анализ данных является одним из наиболее актуальных и востребованных направлений прикладной математики. Современные процессы бизнеса и производства порождают огромные массивы данных, и людям становится все труднее интерпретировать и реагировать на большое количество данных, которые динамически изменяются во времени выполнения. Нужно извлекать максимум полезных знаний из многомерных, разнородных, неполных, неточных, противоречивых, косвенных данных. А главное, сделать это эффективно, если объем данных измеряется гигабайтами или даже терабайтами.
Важно предохранить людей от информационной перегрузки, преобразовать оперативные данные в полезную информацию так, чтобы нужные действия могли быть приняты в нужное время.
Список используемой литературы и интернет - ресурсов
1. Л.М. Ермакова Методы классификации текстов и определения качества контента. Вестник пермского университета 2011. УДК 004.912
2. А.А. Барсегян, М.С. Куприянов, В.В. Степаненко, И.И. Холод: Технологии анализа данных. Data Mining, Visual Mining, Text Mining, OLAP: БХВ-Петербург, 2007
3. http://megaputer.ru/data_mining.
4. http://www.compress.ru/
5. http://www.iteam.ru/
6. http://www.piter.com/
Размещено на Allbest.ru
Подобные документы
Совершенствование технологий записи и хранения данных. Специфика современных требований к переработке информационных данных. Концепция шаблонов, отражающих фрагменты многоаспектных взаимоотношений в данных в основе современной технологии Data Mining.
контрольная работа [565,6 K], добавлен 02.09.2010Основы для проведения кластеризации. Использование Data Mining как способа "обнаружения знаний в базах данных". Выбор алгоритмов кластеризации. Получение данных из хранилища базы данных дистанционного практикума. Кластеризация студентов и задач.
курсовая работа [728,4 K], добавлен 10.07.2017OLAP как автоматизированные технологии сложного (многомерного) анализа данных, Data mining - извлечение данных, интеллектуальный анализ. Виды запросов к многомерной базе данных, их содержание и анализ полученных результатов. Схема "звезда", "снежинка".
презентация [132,1 K], добавлен 19.08.2013Описание функциональных возможностей технологии Data Mining как процессов обнаружения неизвестных данных. Изучение систем вывода ассоциативных правил и механизмов нейросетевых алгоритмов. Описание алгоритмов кластеризации и сфер применения Data Mining.
контрольная работа [208,4 K], добавлен 14.06.2013Создание структуры интеллектуального анализа данных. Дерево решений. Характеристики кластера, определение групп объектов или событий. Линейная и логистическая регрессии. Правила ассоциативных решений. Алгоритм Байеса. Анализ с помощью нейронной сети.
контрольная работа [2,0 M], добавлен 13.06.2014Data Mining как процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации). Его закономерности и этапы реализации, история разработки данной технологии, оценка преимуществ и недостатков, возможности.
эссе [36,8 K], добавлен 17.12.2014Формы представляемой информации. Основные типы используемой модели данных. Уровни информационных процессов. Поиск информации и поиск данных. Сетевое хранилище данных. Проблемы разработки и сопровождения хранилищ данных. Технологии обработки данных.
лекция [15,5 K], добавлен 19.08.2013Data mining, developmental history of data mining and knowledge discovery. Technological elements and methods of data mining. Steps in knowledge discovery. Change and deviation detection. Related disciplines, information retrieval and text extraction.
доклад [25,3 K], добавлен 16.06.2012Анализ проблем, возникающих при применении методов и алгоритмов кластеризации. Основные алгоритмы разбиения на кластеры. Программа RapidMiner как среда для машинного обучения и анализа данных. Оценка качества кластеризации с помощью методов Data Mining.
курсовая работа [3,9 M], добавлен 22.10.2012Классификация задач Data Mining. Задача кластеризации и поиска ассоциативных правил. Определению класса объекта по его свойствам и характеристикам. Нахождение частых зависимостей между объектами или событиями. Оперативно-аналитическая обработка данных.
контрольная работа [26,1 K], добавлен 13.01.2013