Методы классификации в машинном обучении
Виды машинного обучения, его основные задачи и методы. Подходы к классификации: логистическая регрессия, наивный байесовский классификатор, стохастический градиентный спуск, K-ближайший сосед, дерево решений, случайный лес, метод опорных векторов.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 14.12.2022 |
Размер файла | 436,9 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
МИНОБРНАУКИ РОССИИ
Федеральное государственное бюджетное образовательное учреждение высшего образования
«Тульский государственный университет»
Институт прикладной математики и компьютерных наук
Кафедра прикладной математики и информатики
Пояснительная записка
к курсовому проект по курсу
«Математическое моделирование»
на тему
Методы классификации в машинном обучении
Буравцов М.Е.,
студент гр. 221291
Тула 2022
Содержание
- Введение
- 1. Введение в машинное обучение
- 1.1 Виды машинного обучения
- 1.2 Задачи машинного обучения
- 2. Методы классификации
- 2.1 Логистическая регрессия
- 2.2 Наивный байесовский классификатор
- 2.3 Стохастический градиентный спуск
- 2.4 K-ближайший сосед
- 2.5 Дерево решений
- 2.6 Случайный лес
- 2.7 Искусственные нейронные сети
- 2.8 Метод опорных векторов
- Заключение
- Список литературы
Введение
Термин «машинное обучение» был впервые введён пионером в области компьютерных игр и искусственного интеллекта Артуром Самюэлем в 1952 году. Артур Сэмюель занимался созданием программы для игры в шашки, и в ходе этой работы была создана программа «Checkers-playing», которая смогла «научиться» играть в шашки лучше, чем её создатель. Таким образом, программа, продемонстрировавшая способность к самообучению на основе своего предыдущего опыта, опровергла суждение о том, что компьютеры способны выполнять только строго заданные для них алгоритмы. Артур Сэмюель определил машинное обучение, как «методы, позволяющие компьютерам учиться без непосредственного их программирования». [1]
Более формальное определение машинного обучения дал американский учёный в области науки о данных Том Митчелл: «Говорят, что компьютерная программа обучается на основе опыта E по отношению к некоторому классу задач T и меры качества P, если качество решения задач из T, измеренное на основе P, улучшается с приобретением опыта E» [2]
Таким образом, машинное обучение представляет собой подраздел искусственного интеллекта, стоящий на стыке таких дисциплин, как математика, статистика, теория вероятностей, теория графов и изучающий алгоритмы, способные самостоятельно обучаться на основе опыта.
В данной курсовой работе мы рассмотрим основы машинного обучения и методы классификации данных.
1. Введение в машинное обучение
Существуют три составляющие любого процесса машинного обучения:
· Данные. Это примеры решений, статистика, расчёты и другая информация, которая помогает обучать нейросети. Большие наборы данных называют датасетами.
· Признаки. О них мы уже говорили выше. Это те вещи, на которые модель должна обратить внимание во время обучения. Чем конкретнее признаки и меньше их количество, тем быстрее проходит обучение. У сложных моделей могут использоваться миллионы параметров.
· Алгоритмы. Имеются в виду способы решения задач. У задачи может быть несколько вариантов решения, а машина должна выбрать лучший из них.
1.1 Виды машинного обучения
Существует несколько основных способов машинного обучения.
Обучение с учителем - не только самая популярная парадигма машинного обучения, но и самая простая для понимания и реализации. Она очень похожа на обучение ребенка с использованием карточек. Имея данные в виде примеров с метками, мы можем подавать алгоритму их один за другим, дожидаться прогноза и давать обратную связь: предсказал ли он правильно или нет. Со временем алгоритм научится приближаться к точному предсказанию отношений между примерами и их метками. Будучи полностью обученным, алгоритм сможет наблюдать никогда ранее не встречавшийся пример и предсказывать верную метку для него. Из-за такого подхода обучение с учителем часто описывается как ориентированное на задачу: алгоритм сильно сфокусирован на одной единственной задаче. Этот тип обучения широко используется, например, для следующих задач:
· подбор рекламы. Выбор хорошо работающей рекламы часто является задачей обучения с учителем. Многие встречаемые вами объявления размещаются именно на этом ресурсе, потому что обученный алгоритм сказал, что они уже имели популярность и кликабельность именно здесь;
· классификация спама. Спам-фильтр - система, обученная с учителем. Системы почтовых рассылок учатся, как превентивно отфильтровывать вредоносные письма и учитывать предпочтения пользователя;
· распознавание лиц. Facebook использует загруженные пользователем фотографии в алгоритме обучения с учителем, а потом находит это же лицо на фотографиях других пользователей;
Обучение без учителя во многом противоположность обучения с учителем. Здесь данные не имеют меток. Вместо этого алгоритм получает в свое распоряжение много, очень много, данных и инструментов для понимания их свойств. Благодаря этому он может научиться группировать и организовывать старые данные в новые таким образом, чтобы человек (или другой интеллектуальный алгоритм) смог понять их смысл. Пример работы такого алгоритма показан на рисунке 1.
Рисунок 1. Работа алгоритма обучения без учителя
Обучение без учителя интересно тем, что подавляющее большинство данных в этом мире не имеет меток. Наличие алгоритмов, способных извлекать терабайты и терабайты непомеченных данных и осмысливать их, является огромным источником потенциальной прибыли для многих отраслей. Например, если бы у нас была большая база данных по каждой когда-либо опубликованной исследовательской работе, то мы могли бы обучить алгоритм, который бы знал, как сгруппировать данные таким образом, чтобы мы всегда были в курсе текущего прогресса в конкретной области знаний. Алгоритм мог бы предлагать нам связанные работы для цитирования или дальнейшего изучения. С таким инструментом производительность значительно повысилась бы. Поскольку обучение без учителя основано на данных и их свойствах, мы можем смело утверждать, что оно исходит от данных. Результаты обучения без учителя контролируются данными и способом их представления. Вот некоторые области, где можно столкнуться с обучением без учителя:
· системы рекомендаций, например, YouTube или Netflix. Она обладает информацией о видео (длина, жанр и так далее) и знает историю просмотров многих пользователей. Принимая во внимание пользователей, которые смотрели похожие на ваши видео, а затем наслаждались другими (теми, которые вы еще не смотрели), система рекомендаций может проследить взаимосвязь и предложить интересное видео именно для вас;
· потребительские предпочтения;
· Группировка проблем пользователей помогает компаниям определить основные проблемы клиентов, чтобы затем исправить их, улучшить продукт или разработать варианты по решению наиболее распространенных проблем.
Обучение с подкреплением значительно отличается от обучений с учителем и без, между которым легко проследить разницу: наличие или отсутствие меток. Обучение с подкреплением похоже на обучение на ошибках. Поместив алгоритм обучения с подкреплением в любую среду, он в начале будет совершать много ошибок, однако мы будем подавать алгоритму положительный или отрицательный сигнал, который свяжет его поведение с положительным или отрицательным результатами. Таким образом можно улучшить алгоритм, отдавая предпочтение хорошему поведению, а не плохому. Со временем алгоритм обучения с подкреплением научится делать меньше ошибок, чем раньше. Обучение с подкреплением базируется на поведении. Оно черпает вдохновение в области нейробиологии и психологии. Области, в которых используются алгоритмы обучения с подкреплением:
· видеоигры. Одно из самых распространенных мест применения обучения с подкреплением - обучение игре в игры. Например, приложения AlphaZero и AlphaGo, которые научились играть в игру Go;
· промышленное моделирование. Для многих роботизированных приложений (например, сборочных линий) полезно, чтобы машины учились выполнять свои задачи без необходимости императивного программирования. Это помогает сэкономить и повысить безопасность. Мы также можем стимулировать машины использовать меньше электроэнергии и, более того, мы можем разрабатывать все это виртуально, чтобы не тратить деньги и ничего не сломать физического.
· управление ресурсами. Обучение с подкреплением полезно для принятия решения в сложных условиях. К примеру, дата-центры Google используют обучение с подкреплением, чтобы уравновесить затраты на электроэнергию и качество оказываемой услуги.
1.2 Задачи машинного обучения
Все задачи, решаемые с помощью ML, относятся к одной из следующих категорий:
· задача регрессии - прогноз на основе выборки объектов с различными признаками. На выходе должно получиться вещественное число (2, 35, 76.454 и др.), к примеру цена квартиры, стоимость ценной бумаги по прошествии полугода, ожидаемый доход магазина на следующий месяц, качество вина при слепом тестировании;
· задача классификации - получение категориального ответа на основе набора признаков. Имеет конечное количество ответов (как правило, в формате «да» или «нет»): есть ли на фотографии кот, является ли изображение человеческим лицом, болен ли пациент раком;
· задача кластеризации - распределение данных на группы: разделение всех клиентов мобильного оператора по уровню платёжеспособности, отнесение космических объектов к той или иной категории (планета, звёзды, чёрная дыра и т.п.);
· задача уменьшения размерности - сведение большого числа признаков к меньшему (обычно 2-3) для удобства их последующей визуализации (например, сжатие данных);
· задача выявления аномалий - отделение аномалий от стандартных случаев. На первый взгляд она совпадает с задачей классификации, но есть одно существенное отличие: аномалии - явление редкое, и обучающих примеров, на которых можно обучить обучающуюся модель на выявление таких объектов, либо исчезающе мало, либо просто нет, поэтому методы классификации здесь не работают. На практике такой задачей является, например, выявление мошеннических действий с банковскими картами.
2. Методы классификации
Классификация - это процесс категоризации заданного набора данных по классам, он может выполняться как для структурированных, так и для неструктурированных данных. Процесс начинается с прогнозирования класса заданных точек данных. Классы часто называют целевыми, метками или категориями. Задача классификации относится к типу обучения с учителем.
Обучение модели классификации - это задача аппроксимации функции отображения от входных переменных к дискретным выходным переменным. Основная цель - определить, к какому классу / категории будут относиться новые данные.
Рассмотрим пример. Обнаружение сердечных заболеваний может быть идентифицировано как проблема классификации, это бинарная классификация, поскольку может быть только два класса, т.е. имеет сердечные заболевания или не имеет сердечных заболеваний. В этом случае классификатору нужны обучающие данные, чтобы понять, как заданные входные переменные связаны с классом. И как только классификатор точно обучен, его можно использовать для определения наличия или отсутствия сердечных заболеваний у конкретного пациента.
Наиболее распространенными проблемами классификации являются - распознавание речи, распознавание лиц, распознавание рукописного ввода, классификация документов и т.д. Это может быть либо проблема бинарной классификации, либо проблема с несколькими классами. Существует множество алгоритмов машинного обучения для классификации в машинном обучении. Рассмотрим их.
2.1 Логистическая регрессия
Это алгоритм классификации в машинном обучении, который использует одну или несколько независимых переменных для определения результата. Результат измеряется с помощью дихотомической переменной, что означает, что у него будет только два возможных результата.
Цель логистической регрессии - найти наиболее подходящую взаимосвязь между зависимой переменной и набором независимых переменных. Это лучше, чем другие алгоритмы бинарной классификации, такие как ближайший сосед, поскольку оно количественно объясняет факторы, приводящие к классификации. Пример работы логистической регрессии показан на рисунке 2.
Рисунок 2. Пример работы логистической регрессии
Логистическая регрессия применяется для прогнозирования вероятности возникновения некоторого события по значениям множества признаков. Для этого вводится так называемая зависимая переменная y, принимающая лишь одно из двух значений - как правило, это числа 0 (событие не произошло) и 1 (событие произошло), и множество независимых переменных (также называемых признаками, предикторами или регрессорами) - вещественных на основе значений которых требуется вычислить вероятность принятия того или иного значения зависимой переменной. Делается предположение о том, что вероятность наступления события y=1 равна: P {y=1|x}=f(z), где векторы-столбцы независимых переменных , и параметров (коэффициентов регрессии) - вещественных чисел , соответственно, а f(z) - так называемая логистическая функция (иногда также называемая сигмоидом или логит-функцией): . Так как y принимает лишь значения 0 и 1, то вероятность принять значение 0 равна:
Для краткости функцию распределения y при заданном x можно записать в таком виде:
Фактически, это есть распределение Бернулли с параметром, равным . Для подбора параметров необходимо составить обучающую выборку, состоящую из наборов значений независимых переменных и соответствующих им значений зависимой переменной y. Формально, это множество пар где - вектор значений независимых переменных, а - соответствующее им значение y. Каждая такая пара называется обучающим примером. Обычно используется метод максимального правдоподобия, согласно которому выбираются параметры , максимизирующие значение функции правдоподобия на обучающей выборке:
Максимизация функции правдоподобия эквивалентна максимизации её логарифма:
Для максимизации этой функции может быть применён, например, метод градиентного спуска. Он заключается в выполнении следующих итераций, начиная с некоторого начального значения параметров
Логистическая регрессия специально предназначена для классификации, она полезна для понимания того, как набор независимых переменных влияет на результат зависимой переменной.
Основным недостатком алгоритма логистической регрессии является то, что он работает только тогда, когда прогнозируемая переменная является двоичной, он предполагает, что в данных нет пропущенных значений, и предполагает, что предикторы независимы друг от друга.
Примеры использования:
· выявление факторов риска заболеваний;
· классификация слов;
· прогноз погоды;
· приложения для голосования.
2.2 Наивный байесовский классификатор
Это алгоритм классификации, основанный на теореме Байеса, который дает предположение о независимости между предикторами. Наивный байесовский классификатор предполагает, что наличие определенной функции в классе не связано с наличием какой-либо другой функции. Даже если функции зависят друг от друга, все эти свойства вносят вклад в вероятность независимо. Наивная байесовская модель проста в создании и особенно полезна для сравнительно больших наборов данных. Известно, что даже при упрощенном подходе наивный Байес превосходит большинство методов классификации в машинном обучении. Ниже приведена теорема Байеса для реализации наивной теоремы Байеса.
Наивный байесовский классификатор требует небольшого количества обучающих данных для оценки необходимых параметров для получения результатов. Они чрезвычайно быстры по своей природе по сравнению с другими классификаторами.
Основной его недостаток - относительно низкое качество классификации в большинстве реальных задач. Чаще всего он используется либо как примитивный эталон для сравнения различных моделей алгоритмов, либо как элементарный строительный блок в алгоритмических композициях.
Примеры использования
· предсказания заболеваний;
· классификация документов;
· спам-фильтры;
· анализ настроений.
2.3 Стохастический градиентный спуск
Это очень эффективный и простой подход для подгонки линейных моделей. Стохастический градиентный спуск особенно полезен, когда выборочных данных много. Он поддерживает различные функции потерь и штрафы за классификацию.
Стохастический градиентный спуск - итерационный метод для оптимизации целевой функции с подходящими свойствами гладкости (например, дифференцируемость или субдифференцируемость). Его можно расценивать как стохастическую аппроксимацию оптимизации методом градиентного спуска, поскольку он заменяет реальный градиент, вычисленный из полного набора данных, оценкой, вычисленной из случайно выбранного подмножества данных. Это сокращает задействованные вычислительные ресурсы и помогает достичь более высокой скорости итераций в обмен на более низкую скорость сходимости. Особенно большой эффект достигается в приложениях, связанных с обработкой больших данных.
Единственным преимуществом является простота реализации и эффективность, тогда как основной недостаток стохастического градиентного спуска заключается в том, что он требует ряда гиперпараметров и чувствителен к масштабированию объектов.
Пример использования:
· интернет вещей;
· обновление таких параметров, как веса в нейронных сетях или коэффициенты в линейной регрессии.
2.4 K-ближайший сосед
Это алгоритм отложенного обучения, который хранит все экземпляры, соответствующие обучающим данным, в n-мерном пространстве. Это алгоритм ленивого обучения, поскольку он не фокусируется на построении общей внутренней модели, вместо этого он работает над хранением экземпляров обучающих данных. Пример работы алгоритма показан на рисунке 3.
Рисунок 3. Алгоритм К-ближайших соседей
Классификация вычисляется простым большинством голосов k ближайших соседей каждой точки. Он контролируется и берет кучу помеченных точек и использует их для обозначения других точек. Чтобы обозначить новую точку, она просматривает помеченные точки, ближайшие к этой новой точке, также известные как ее ближайшие соседи. Эти соседи голосуют, поэтому любая метка, которая есть у большинства соседей, является меткой для новой точки. «k» - это количество соседей, которых он проверяет.
Этот алгоритм довольно прост в своей реализации и устойчив к зашумленным обучающим данным. Даже если обучающие данные большие, это довольно эффективно. Недостатками алгоритма являются высокая вычислительная сложность, высокая пространственная сложность, предсказуемые результаты не интерпретируются, размерная катастрофа (расстояние данных на высокой широте может быть больше, чем предполагалось).
Примеры использования:
· промышленные приложения для поиска похожих задач по сравнению с другими;
· приложения для обнаружения рукописного ввода;
· распознавание изображений;
· распознавание видео;
· анализ запасов.
2.5 Дерево решений
Алгоритм дерева решений строит модель классификации в виде древовидной структуры. Он использует правила if-then, которые являются одинаково исчерпывающими и взаимоисключающими в классификации. Процесс продолжается с разбиением данных на более мелкие структуры и, в конечном итоге, связыванием их с инкрементным деревом решений. Конечная структура выглядит как дерево с узлами и листьями. Правила изучаются последовательно, используя обучающие данные по одному за раз. Каждый раз, когда правило изучается, кортежи, охватывающие правила, удаляются. Процесс продолжается на обучающем наборе до тех пор, пока не будет достигнута конечная точка. Пример работы алгоритма показан на рисунке 5.
Рисунок 5. Дерево решений
Дерево построено с использованием рекурсивного подхода «разделяй и властвуй» сверху вниз. Узел принятия решения будет иметь две или более ветвей, а лист представляет классификацию или решение. Самый верхний узел в дереве решений, который соответствует наилучшему предиктору, называется корневым узлом, и самое лучшее в дереве решений - это то, что оно может обрабатывать как категориальные, так и числовые данные.
Дерево решений дает преимущество в простоте понимания и визуализации, а также требует очень небольшой подготовки данных. Недостатком дерева решений является то, что оно может создавать сложные деревья. Они могут быть довольно нестабильными, потому что даже упрощенное изменение данных может нарушить всю структуру дерева решений.
Примеры использования:
· исследование данных;
· распознавание образов;
· ценообразование опционов в финансах;
· выявление угроз заболеваний и рисков.
2.6 Случайный лес
Случайные деревья решений или случайный лес - это метод коллективного обучения для классификации, регрессии и т. Д. Он работает путем построения множества деревьев решений во время обучения и выводит класс, который является режимом классов или классификации или среднего прогнозирования (регрессии) отдельных деревьев.
Преимущество случайного леса заключается в том, что он более точен, чем деревья принятия решений, из-за уменьшения чрезмерной подгонки. Единственным недостатком классификаторов случайных лесов является то, что они довольно сложны в реализации и довольно медленны в прогнозировании в реальном времени.
Примеры использования:
· промышленные приложения (определение того, является ли заявитель на получение кредита высокорисковым или низкорисковым);
· для прогнозирования отказа механических деталей в автомобильных двигателях;
· прогнозирование оценок в социальных сетях;
· показатели производительности.
2.7 Искусственные нейронные сети
Нейронная сеть состоит из нейронов, которые расположены слоями, они принимают некоторый входной вектор и преобразуют его в выходной. Процесс включает в себя каждый нейрон, принимающий входные данные и применяющий к нему функцию, которая часто является нелинейной функцией, а затем передает выходные данные на следующий уровень. Строение нейронной сети показано на рисунке 6.
Рисунок 6. Нейронная сеть
машинный обучение классификатор
В общем, предполагается, что сеть работает с прямой связью, что означает, что блок или нейрон передает выходные данные на следующий уровень, но нет никакой обратной связи с предыдущим уровнем. Взвешивания применяются к сигналам, проходящим от одного уровня к другому, и это взвешивания, которые настраиваются на этапе обучения для адаптации нейронной сети к любой постановке задачи.
Метод обладает высокой устойчивостью к зашумленным данным и способен классифицировать неподготовленные шаблоны, он лучше работает с входными и выходными данными с непрерывным значением. Недостатком искусственных нейронных сетей является то, что они имеют плохую интерпретацию по сравнению с другими моделями.
Примеры использования:
· анализ почерка;
· раскрашивание черно-белых изображений;
· процессы компьютерного зрения;
· подписи к фотографиям на основе черт лица.
2.8 Метод опорных векторов
Основная идея метода - перевод исходных векторов в пространство более высокой размерности и поиск разделяющей гиперплоскости с наибольшим зазором в этом пространстве. Две параллельных гиперплоскости строятся по обеим сторонам гиперплоскости, разделяющей классы. Разделяющей гиперплоскостью будет гиперплоскость, создающая наибольшее расстояние до двух параллельных гиперплоскостей. Алгоритм основан на допущении, что чем больше разница или расстояние между этими параллельными гиперплоскостями, тем меньше будет средняя ошибка классификатора.
Он использует подмножество обучающих точек в функции принятия решений, что делает его эффективным с точки зрения памяти и очень эффективным в пространствах большой размерности. Единственным недостатком метода опорных векторов является то, что алгоритм напрямую не предоставляет оценки вероятности.
Примеры использования:
· бизнес-приложения для сравнения производительности акций за определенный период времени;
· инвестиционные предложения;
· классификация приложений, требующих точности и эффективности.
Заключение
Цель курсовой работы является изучение основ машинного обучения и методов классификации.
В рамках курсовой работы изучены алгоритмы построения модели машинного обучения задачи классификации. Важно отметить, что выбор алгоритма классификации зависит от исходных данных и решаемой задачи. Если данные линейно неразделимы, то применение линейных методов, как, например, логистическая регрессия, недопустимо.
Список литературы
1. Samuel A.L. Some studies in machine learning using the game of checkers // IBM J. Res. Dev. 1959. Т. 3. №3. С. 210-229.
2. Mitchell T. Machine learning // McGraw-Hill Science/Engineering/Math, 1997. 432 С.
3. Виды машинного обучения [Электронный ресурс]: Medium - Where good ideas find you. Режим доступа: https://medium.com/maria-machine/hunter-heidenreich-what-are-the-types-of-machine-learning-53af8ef4d156 (дата обращения 03.12.2022)
4. How To Implement Classification In Machine Learning? [Электронный ресурс]: Instructor-Led Online Training with 24X7 Lifetime Support | Edureka: https://www.edureka.co/blog/classification-in-machine-learning/ (дата обращения 03.12.2022)
Размещено на Allbest.ru
Подобные документы
Пример дерева решений. Анализ древовидной структуры данных. Предикторные (зависимые) переменные как признаки, описывающие свойства анализируемых объектов. Решение задач классификации и численного прогнозирования с помощью деревьев классификации.
презентация [391,1 K], добавлен 09.10.2013Схема организационной структуры управления информационных и аналитических технологий аппарата администрации. Математическая постановка задачи классификации информационных сообщений СМИ. Описание информационного обеспечения на примере АИС "Классификатор".
дипломная работа [677,2 K], добавлен 28.07.2009Различные методы решения задачи классификации. Нейросетевые парадигмы, методы обучения нейронных сетей, возникающие при этом проблемы и пути их решения. Описание программной реализации классификатора, его функциональные возможности и результаты обучения.
дипломная работа [1,0 M], добавлен 28.12.2015Создание структуры интеллектуального анализа данных. Дерево решений. Характеристики кластера, определение групп объектов или событий. Линейная и логистическая регрессии. Правила ассоциативных решений. Алгоритм Байеса. Анализ с помощью нейронной сети.
контрольная работа [2,0 M], добавлен 13.06.2014Необходимые условия экстремума. Разработка машинного алгоритма и программы многомерной оптимизации для градиентного метода с использованием метода равномерного поиска. Проверка необходимых и достаточных условий экстремума для найденной точки минимума.
курсовая работа [249,8 K], добавлен 25.09.2013Создание системы предобработки данных; разработка системы классификации на базе методов и алгоритмов машинного обучения, их реализация в программной системе. Предобработка информации, инструкция пользователя, система классификации, машинный эксперимент.
дипломная работа [917,1 K], добавлен 31.01.2015Моделирование и программирование динамических систем. Градиентный метод первого порядка; математическое описание системы и значений переменных в виде полиномиальной линейной модели, статистический анализ; алгоритм моделирования, разработка программы.
курсовая работа [447,0 K], добавлен 12.06.2011Понятие и критерии классификации баз данных. Характеристика совокупностей элементов данных: массив, дерево, запись. Компоненты любой модели данных. Способы размещения значений элементов в физической записи. Методы доступа к данным: дерево, хеширование.
реферат [84,7 K], добавлен 22.11.2010Роль классификации документов в решении задач информационного поиска. Методы автоматической классификации документов и этапы построения классифицирующей системы: индексация документа, построение классификаторов на базе обучающих данных, оценка их работы.
курсовая работа [354,2 K], добавлен 13.01.2013Программное обеспечение для получения исходных данных для обучения нейронных сетей и классификации товаров с их помощью. Алгоритм метода обратного распространения ошибки. Методика классификации товаров: составление алгоритма, программная реализация.
дипломная работа [2,2 M], добавлен 07.06.2012