Влияние подкрепления и наказания на поведение

Анализ эффекта подкрепления в видеоиграх в целом, и у представителей разных социальных групп. Разработка психодиагностического метода для исследования влияния подкрепления и наказания. Исследование механизмов подкрепления и наказания в привычной среде.

Рубрика Психология
Вид дипломная работа
Язык русский
Дата добавления 07.08.2017
Размер файла 528,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

2. Эмпирическое исследование

2.1 Проблемы и цели

Проблема исследования. Различия во влиянии подкрепления и наказания на поведение между людьми с различной мотивацией.

Цель исследования. Предложить новый психодиагностический метод, с помощью которого будет возможно измерить имеющиеся различия в реакции на позитивное и негативное подкрепление и наказание.

Объект исследования. Подкрепление и наказание как факторы, влияющие на поведение.

Предмет исследования. Подкрепление и наказание (положительные и отрицатенльные) как качественно различные факторы, по разному влияющие на поведение людей.

Гипотеза исследования: Н1- ненаправленная гипотеза, утверждающая о различном влиянии позитивного и негативного подкрепления и наказания как качественно различных факторов на поведение. Гипотеза об отличном друг от друга влиянии на выборку людей, разделённых с помощью комплекса опросников Эллерса и Шуберта.

В предыдущей главе этой работы было описано то, как влияет на наше поведение подкрепление и наказание, их режимы и временные интервалы, однако, возникает вопрос - различается ли влияние этих факторов на людей между собой? Возможно ли, что человек, привыкший играть, будет реагировать на стимулы отлично от человека, не играющего в видеоигры? Целью исследования является попытка ответить на эти вопросы.

Несмотря на то, что теоретические дискуссии зачатую предполагают различие между положительным и отрицательным подкреплением, в настоящее время литература содержит мало однозначных доказательств того, что они оказывают различные эффекты на поведение. Чтобы проверить, по-разному ли два вида последствий действий влияют на поведение, мы воспользовались данной нам возможностью измерить относительное влияние на поведение позитивных и негативных подкреплений и наказаний на поведение, в режиме распределения "фиксированный интервал с ограниченным удержанием" с помощью современных технологий программирования. Позже мы сопоставили результаты прохождения методики для оценки связи результатов с батареей психодиагностических методик, призванных измерить мотивацию испытуемого на успех, на избегание неудач, и готовность к риску. В эту психодиагностическую батарею входили опросники Эллерса (2 части: мотивация успеха + мотивация избегания неудач) вместе с методикой Шуберта- «Склонность к риску». Эти методики основаны на предположении, что мотивация успеха и мотивация избегания неудач - две отдельные мотивации, и их соотношение в разных ситуациях может быть различно.

Для проведения данного исследования мы воспользовались простой парадигмой. За методологическую основу был выбран метод исследования, опубликованного в 2015 году Яном Кубанеком (Cognition. 2015 Jun; 139: 154-167) Kubanek. J., L. H. Snyder., R. A. Abrams. Reward and punishment act as distincs factors in guiding behavior // J. Kubanek. Elsevier Cognition. NY.: CrossMark, 2015. Метод Яна был всесторонне усовершенствован практически во всех его частях, результатом чего явилась возможность как более точно отслеживать эффект диспропорции во влиянии различного подкрепления и наказания на поведение человека, так и отслеживать это влияние всесторонне, а не только со стороны позитивного подкрепления и наказания. Целью исследования было выявление различий между влияниями позитивным подкреплением и наказанием в зависимости от их величины. Основным методом воздействия на испытуемого было изменение величины награды и наказания после каждой пробы и автоматическое динамическое изменение сложности поставленных задач в зависимости от уровня правильных ответов (60%) испытуемого. Этот метод позволил нам измерить тенденцию испытуемых к повторению предыдущего выбора в зависимости от изменения величины награды и наказания. Эти простые условия позволяют проверить однофакторные и двухфакторные теории на возможность к предсказанию поведения. В этой парадигме, однофакторные теории предсказывают, что награды и штрафы приведут к симметричным, противоположным реакциям на поведение. В противоположность им, двухфакторные теории предсказывают, что тенденция к повторению результата в зависимости от величины награды или наказания, и будут качественно различными для этих двух факторов. В данном эксперименте было использовано два режима подкрепления: фиксированный и вариативный интервал подкрепления с ограниченным удержанием. Фиксированный интервал использовался при прохождении проб с предъявлением стимулов, вариативный интервал применялся при прохождении проб без предъявления стимулов. В этом исследовании не были использованы дополнительные различные комбинации режимов подкрепления, а только основные реакции на подкрепление и наказание, отрицательное и положительное, так как это потребовало бы значительно больших временных и вычислительных инвестиций. В силу того, что эта работа является дипломной, и это исследование ещё не прошло необходимой полной валидизации, полученные результаты нельзя считать однозначно верными, и ведущими к подтверждению H1. Данная гипотеза является ненаправленной, что характерно для предварительного исследования с применением новых методик. Необходимость предварительного исследования диктуется новизной методики, отсутствием высоковалидных способов анализа конструктной валидности в связи с отсутствием методик, измеряющих тот же параметр, что и новая методика, а также возможности экспертной оценки со стороны, как поступают с тестами достижений. Также предварительное исследование позволяет обнаружить ошибки и недочёты в новой методике, в том числе и негативный "эффект потолка", который не наблюдался в эксперименте.

2.2 Процедура эксперимента

Испытуемый садился за стол перед компьютером, на расстоянии 50-80 см от монитора. Первоначально испытуемый проводил серию из 20 проб, чтобы привыкнуть к заданию. Перед испытуемыми открывалось графическое изображение, в котором на светло-сером фоне по двум сторонам экрана, на расстоянии около 8 см друг от друга располагалось 2 круга, размером в 2 зрительных градуса или |2о|. Эти условия были необходимы для избегания попадания кругов в области слепых пятен испытуемых. Во время проведения проб координаты кругов были неизменны. В дополнение, были отобраны испытуемые без астигматизма и косоглазия, во избежание попадания кругов в зоны слепых пятен.

Эксперимент выглядел следующим образом: До исследования всем испытуемым, было объявлено, что игроки, набравшие наибольшее количество баллов получат приз, который будет объявлен после 26 июня. В начале испытуемому было необходимо заполнить информацию о себе, перейти к правилам игры, которые даны в приложении №1. После того, как было установлено, что испытуемый понял все правила, он получал возможность приступить к психодиагностической игре. Образец того, как выглядели пробы 1 типа приведён в приложении №2, 3 типа - в приложении №3.

Суть игры состояла в наборе наибольшего количества очков путем ответа на последовательно появляющиеся друг за другом пробы. Всего испытуемый проходил 240 проб, первые 20 из которых считались обучающими, и не брались в учёт при оценке уровня влияние позитивных и негативных подкреплений и наказаний. В ходе пробы испытуемому было необходимо выявить сторону (правую или левую), на которой круги мигали чаще. Для дачи ответов использовалась кнопки, появляющиеся после предъявления пробы под полем предъявления кругов.

Всего в эксперименте насчитывалось 4 вида задач.

Проба, в которой предъявлялись синие круги. При правильном ответе испытуемый получал 1, 2 или 4 балла. При неправильном - терял 1, 2 или 4 балла.

Проба, в которой не предъявлялось кругов. При переходе на эту пробу поле предъявления окрашивалось в синий цвет, и от испытуемого требовалось сделать выбор в пользу той или иной стороны. При правильном ответе испытуемый получал 1, 2 или 4 балла. При неправильном - терял 1, 2 или 4 балла.

Проба, в которой предъявлялись зелёные круги. При правильном ответе испытуемый получал баллы, предотвращающие потерю 1, 2 или 4 баллов в будущем. При неправильном - получал баллы, предотвращающие получение 1, 2 или 4 баллов в будущем.

Проба, в которой не предъявлялось кругов. При переходе на эту пробу поле предъявления окрашивалось в синий цвет, и от испытуемого требовалось сделать выбор в пользу той или иной стороны. При правильном ответе испытуемый получал баллы, предотвращающие потерю 1, 2 или 4 баллов в будущем. При неправильном - получал баллы, предотвращающие получение 1, 2 или 4 баллов в будущем.

Пробы с синим цветом представляли собой "Позитивное подкрепление и наказание", в котором наградой считается получение баллов, а наказанием - потеря. Пробы с зелёным цветом представляли собой "Негативное подкрепление и наказание", в котором наградой считается удаление аверсивного стимула (потери баллов) а наказанием - удаление подкрепляющего стимула (получения баллов).

Всего предусмотрено 12 различных исходов проб. Для синих проб исход исчисляется в итоговом изменении кол-ва баллов {-4;-2;-1;1;2;4}. Для зелёных проб исход исчисляется в баллах, которые предотвращают изменение баллов исходами синих проб {4,2,1,-1,-2,-4}. Подобные величины были взяты неслучайно. Основанием для их выбора послужил "Закон Стивенса", доказанный в 1957 го Стенли Стивенсоном, модифицировавший психофизиологический "закон Вебера-Фехнера" (). Этот закон постулирует о том, что зависимость силы ощущения от интенсивности раздражителя описывается степенной функцией (где Y -- сила субъективного ощущения, S -- интенсивность стимула, n -- показатель степени функции и k -- константа, зависящая от единиц измерения), а не логарифмической, как считалось ранее. Целью подбора возможных изменений количества баллов было составление экономного (во избежание излишне большого количества дополнительных переменных, которые бы потребовали заметно увеличить количество проб в исследовании), и соотносимого состава целых величин, так, чтобы каждая следующая ощущалась в 2 раза больше предыдущей, и в целом отвечала генерализованному восприятию соотношения величин. В качестве константы была выбрана "протяжённость линии", как самая наглядная в плане восприятия. В результате мы получили величины (1,2,4), которые затем перевели в отрицательные. Так мы добились удобного представления величин, отвечавшее требованию экономности. В результате каждая из проб получила 25 возможных результатов. Величина награды для каждого отдельного задания присваивалась методом подбора случайных чисел, (1;3), где 1 - 1 балл, 2 - 2 балла, 3 - 4 балла. За каждым из заданий закреплялась величина |1;2;4|, которая уже во время проведения методики изменяла свой знак на отрицательный или положительный, в зависимости от ответа испытуемого. Испытуемые не были проинформированы о том, что изначально за каждым заданием закреплялась случайная величина награды и наказания соответственно.

Ход пробы: Испытуемый переходил к новой пробе, затем, если она представляла 1 или 3й тип задач, то в течении четырёх секунд на правой и левой сторонах поля для пробы появлялись и исчезали круги со статичной для каждого из кругов частотой. После того как предъявление кругов заканчивалось, поле предъявления окрашивалось в цвет кругов, предъявляемых в этой пробе. У испытуемого было 2 секунды на то, чтобы сделать выбор в пользу правой или левой стороны. После ответа немедленно следовал результат пробы и на месте кнопок "С левой" и "С правой" появлялся текст величиной в 30 пикселей, соответствовавший результату ответа. Для подтверждения ответа испытуемому было необходимо нажать левой кнопкой мыши на один из вариантов ответа. Если был дан правильный ответ, то текст результата был с белой рассеянной обводкой величиной в 3 пикселя. Если был дан неверный ответ, то обводка была красной, толщиной в 3 пикселя. Если проба представляла 2 или 4й тип задач, то в течении двух секунд после перехода к пробе поле предъявления окрашивалось в цвет, соответствовавший типу задания, под которым появлялся текст "Сделай выбор наугад" и испытуемому требовалось выбрать сторону без предъявления стимулов. Далее следовало предъявление результатов ответа и на месте кнопок "С левой" и "С правой" появлялся текст величиной в 30 пикселей, соответствовавший результату ответа. Если был дан правильный ответ, то текст результата был с белой рассеянной обводкой величиной в 3 пикселя. Если был дан неверный ответ, то обводка была красной, толщиной в 3 пикселя. В случае если испытуемый за данные ему 3 секунды на ответ не выбирал какой либо из вариантов, то проба считалась проваленной и испытуемый переходил к следующему испытанию. Общее количество валидных проб в итоге составило 99.58%.

После начала пробы испытуемому демонстрировали серию появляющихся и исчезающих кругов с частотой начиная от 0.1мс и заканчивая 1000 мс. Частота мигания кругов была неизменна для каждого из них в каждой пробе. Частота смены кадров, была скорректирована в соответствии с частотой обновления монитора, чтобы время смены кадров отклонялось на минимально возможную величину, при этом сохраняя высокую концентрацию испытуемых на задании не давая им расслабиться.

Всего изначально было создано 400 различных вариантов задач, в которых варьировалась частота появления и исчезновения кругов, и количество баллов, которые несёт собой исход задачи, из которых, путём отбора были удалены 260, и выбраны те задачи, которые наилучшим образом отвечали требованиям к их составлению: относительный уровень сложности, наглядность, и понятность испытуемому. После, из получившегося списка, задачи были ранжированы по уровню сложности, от 1 до 10. В определении уровня сложности принимали участие 3 испытуемых, каждый из которых проходил все отобранные задачи и ранжировал их по уровню сложности. Данные испытуемые позже не использовались в качестве выборки в основном эксперименте. Всего было составлено 10 уровней сложности, в каждом из которых было по 24 задачи. В дальнейшем, при прохождении методики, программа через каждые 3 пробы проверяла результаты испытуемых на соотношение полученных правильных и неправильных ответов. Если соотношение отклонялось от стандарта в 6:4, где 6 - верные ответы, а 4 - неверные. Сложность заданий была заранее составлена таким образом, чтобы количество правильных ответов испытуемых составляло около (60%). Целью подобной корректировки количества правильных ответов было соблюдение баланса между подкреплением и наказанием, и сохранение интереса испытуемых к проводимому исследованию.

Количество показываемых кругов было фиксировано, соответствуя формуле

,

где является количеством предъявлений левого круга, а

(Cr) - количество предъявлений правого круга. При этом, выражения

и ,

где бx-проба, в которой чаще предъявлялся круг определённой стороны (правой или левой) в течении создания эксперимента выбирались случайно из 24 на уровень сложности, и независимо от испытуемых.

Всего в методике было использовано четыре вида заданий. У каждого из них изначально была выставлена своя пропорция появления в серии испытаний. Количество задач первого и третьего видов составляло по 37% из 100. Для задач второго и четвертого видов была выставлена пропорция появления по 13% из 100. При этом была задана невозможность предъявления задач типа 2 или 4 друг за другом, после них всегда следовали задачи типа 1 и 3. Сложность заданий была заранее составлена таким образом, чтобы количество правильных ответов испытуемых составляло около (60%). Целью подобной корректировки количества правильных ответов было сохранение интереса испытуемых к проводимому исследованию. Этого удалось достичь благодаря ранжированию заданий по сложности до эксперимента, распределению заданий в потоке эксперимента.

Выборка в исследовании составила 2 человека. Испытуемыми являлись разнополые люди, возрастом от 20 до 26 лет, студенты, которые не были знакомы друг с другом, тем не менее этот фактор остаётся незначимым в данном исследовании, так как методика проводилась с использованием двойного слепого метода, а опросники испытуемые заполняли уже после прохождения методики. Так как в этом исследовании выдвигается гипотеза о различиях между группами, не включающую в себя котнрольную, то исследователь мог бы повлиять на испытуемых, если бы знал заранее о распределении групп. Благодаря слепому методу исследователь также во время эксперимента не обладал данными о распределении групп и отношении испытуемого к той или иной группе, которые образовывались посредством обработки результатов трёх опросников, и не мог повлиять на прохождение методики испытуемым осознанно или неосознанно с целью исказить данные. Таким образом, испытуемые могли получить возможность догадаться об исследуемом факторе только после того, как они уже заполнили методику. Применение слепого метода среди испытуемых в данном случае очень важно, потому что это позволяет в полной мере отследить исследуемый фактор с минимальным риском появления таких частых ошибок как "ошибка положительного испытуемого". Уже после проведения эксперимента, во время беседы с испытуемым раскрывалась цель эксперимента, и ни один из испытуемых, по их словам, не был близок к правде в поисках смысла исследования.

Всего в исследовании приняло участие Х человек. Выборка испытуемых была уравнена в показателях возраста, пола, рода занятий, социального положения, работе зрительного аппарата.

Процедура проводилась в домашних условиях у испытуемого с помощью персонального компьютера, перед экспериментом не проводились какие-либо предварительные психологические методики, для снижения вероятности появления эффекта "истощения Эго", предложенного на основе психодинамической теории Роем Баумейстером (by Roy F. Baumeister, 1994, ACADEMIC PRESS, San Diego, 307 pp.). Каждая серия проб длилась 20 минут, при этом первые 20 проб (~2 минуты) уделялись на пробные попытки, в которых проводилось ознакомление с видами задач и временными рамками проб. Изначально перед испытуемыми ставилась задача набрать как можно больше очков - это, самая частая форма подкрепления, встречающаяся в играх.

С учётом того, что эксперимент построен на основе другого, но существенно изменён по большинству параметров, встаёт вопрос о валидности исследования. Первоначально, задания были заметно упрощены, таким образом давая эффекту влияния подкрепления и наказания возможность проявится в гораздо более приближённых к реальности условиям. Тем не менее, была соблюдена цель в сохранении уровня правильных ответов в 60%. Был использован другой метод изменения сложности в соответствии с уровнем правильных ответов испытуемых, позволяющий более полно отразить прогресс испытуемых. Благодаря этому уровень правильных ответов среди всех испытуемых составил Х со стандартным отклонением Х. Во время разработки эксперимента была проведена его стандартизация, что можно заметить в описании эксперимента. Соответственно, как уже было сказано, в данном методе используют фиксированный и вариативный интервал подкрепления с ограниченным удержанием. Фиксированный интервал используется при прохождении проб с предъявлением стимулов, вариативный интервал применяется при прохождении проб без предъявления стимулов.

Валидность данного экспериментального метода необходимо рассматривать сразу с нескольких сторон, как и для всех других стандартизированных психодиагностических методик. Наиболее важная - конструктная валидность данной методики - до сегодняшнего дня остаётся неопределённой до конца, и для её подтверждения необходимы методики, измеряющие то же свойство что и оригинальная Романова Е.С. Психодиагностика. МСК.: Кнорус, 2015.. Известно, что при анализе константной валидности методики обычно формулируют ряд гипотез о том, как будет коррелировать разрабатываемая методика с массивом других методик, направленных на конструкты, находящиеся в теоретически известной или предполагаемой связи с исследуемыми. Также ограниченность во времени не позволяет провести мета-анализ дискриминантной и конвергентной валидностей. Тем не менее, на основании полученных данных и их соотношения с "экспериментом Кубанека" Kubanek. J., L. H. Snyder., R. A. Abrams. Reward and punishment act as distincs factors in guiding behavior // J. Kubanek. Elsevier Cognition. NY.: CrossMark, 2015 можно заключить, что обе методики имеют относительно устойчивую корреляцию, и обладают схожей текущей и прогностической валидностью. Положение внутренней валидности исследования скорее благоприятное, и несмотря на невозможность изучения какого-либо отдельного психического процесса отдельно от психики в целом, данная методика уделяет много внимания минимизации разнообразных факторов, угрожающих внутренней валидности. Внешняя валидность, как возможность обобщения данных пока не исследована, и для её соблюдения необходимо, по крайней мере, проведение эксперимента с участием 200 или более человек. Данная методика имеет потенциально высокую инкрементную валидность не в последнюю очередь благодаря случайности нескольких переменных и слепому методу, позволяя, в перспективе, обнаружить подверженность испытуемого внешним факторам, выраженность выученной беспомощности, и др.

Уже на стадии разработки метод удовлетворяет двум из трёх требований, необходимых для соблюдения критерия объективности, в их число входит доступность и удобство, относительная простота процедуры тестирования и оценивания, отсутствие высоких требований к квалификации персонала, и дешевизна стимульной части метода. Это утверждённые высказано с допущением того, что у каждого испытуемого будет наличествовать собственный персональный компьютер дома. Как бы то ни было, мы не видим препятствий для проведения эксперимента в лаборатории. Процедура оценки результатов в данном исследовании заняла много времени, но только из-за несовершенства вычислительного аппарата. В будущем данную часть исследования будет возможно перенести на ЭВМ, таким образом, многократно увеличив экономность метода. Прогностическая ценность данной методики пока не установлена, и для её определение потребуется провести ещё как минимум одну процедуру с большинством испытуемых, уже проходивших её.

Анализ ложной валидности достоин отдельного упоминания. В неё входит: очевидная валидность, валидность исходящая из опыта, валидность опирающаяся на убеждения, и валидность основанная на желании. В ходе исследования был подтверждён высокий уровень очевидной валидности среди испытуемых, что, безусловно является положительным фактором для метода. Валидность, исходящая из опыта неприменима к данному методу в её первоначальном смысле, что является плюсом методики, в которой использовался односторонний слепой метод. Валидность, опирающаяся на убеждение слабо применима к данному методу, так как при его разработке были использованы, грубо говоря, все однофакторные и двухфакторные теории подкрепления, и её целью было определение "одного из двух", что является плюсом метода. Единственным наиболее вероятным минусом данного метода является "валидность, основанная на желании" - она предполагает наличие предубеждений исследователя относительно возможностей метода. Тем не менее её уровень минимизируется благодаря изначальному принятию факта того, что практическая часть с использованием данного метода носит характер простого пилотного исследования, и того, что методу в любом случае потребуется доработка - стандартизация, увеличение надежности, пересмотр взглядов на проблему константной валидности и др.

В дальнейшем, при совершенствовании данного метода планируется уделить особое внимание переменным модераторам, которые зачастую оказывают заметное влияние на результаты валидизации любого метода. К примеру, при прогностической валидизации теста способностей было обнаружено, что наивысшую валидность имели тесты у интравертов, в то время как у экстравертов корреляция находилась за пределами значимости результатов.

2.3 Результаты исследования

По итогам проведения 240 проб с каждым из испытуемых были получены результаты, на основании которых были построены графики, которые приведены в приложении. Результаты эксперимента представлены в таблицах 1 и 3 для первого испытуемого - игрока, результаты контрольной выборки показаны в таблицах 2 и 4 (стр 51-53). Графики 3 и 4 (стр. 56) представляют собой графическое отображение общей тенденции к повтору и избегания предыдущего выбора в зависимости от того, получил ли испытуемый награду или наказание. Результаты применения t-критерия Стьюдента и U-критерия Манна-Уитни на реакцию после наказания указывают на значимые различия между эмпирическим и теоретическим распределением.

Полученные результаты могут указывать на две причины. Первая - реакция на подкрепление и наказание несимметрична из-за того что это два качественно различных фактора. Вторая - на основании полученных данных можно подтвердить предварительную гипотезу Н1 - гипотезу о различиях в восприятии подкрепления и наказания между игроками в видеоигры и обычными людьми. Для сравнения, во второй части графиков приведено графическое отображение влияния подкрепления и наказание на следующий выбор в пробах, где не было предъявления стимулов, в которых также присутствует тенденция повторения поведения при подкреплении и избегания при наказании. Тем не менее, нельзя однозначно утверждать о подтверждении Н1 в силу того, что выборка составила 2 человека.

На основании полученных данных были построены графики 2 и 4, приведённые в приложении. Целью графиков было отображение влияния на поведение величины подкрепления. Впоследствии, на основании полученных данных были проведены средние линии, для графического отображения влияния подкрепления и наказания на поведение в зависимости от величины награды и наказания. Общая тенденция выглядит так: подкрепление, независимо от своей величины оказывает меньшее влияние на поведение, чем наказание. Среди всех полученных данных, ни одна из величин подкрепления не вызывала сопоставимого влияния на поведение, как такая же величина наказания. Вероятно, подкрепление и наказание являются качественно различными факторами, оказывающими различное влияние на поведение человека. Скорее всего, это обусловлено эволюционными факторами. Вероятно, для нахождения оптимального решения проблемы и поведения необходима несимметричная реакция на факторы подкрепления и наказание. Человек искал лучшее поведение, и продолжал его повторять при подкреплении неизбежно внося небольшие изменения в процесс, а при наказании следовал немедленный пересмотр стратегии поведения, первоочередной задачей которого являлось избегание любого наказания, вне зависимости от его величины, и сравнимой величины потенциального подкрепления.

На основании полученных данных, можно выдвинуть заключение для предварительного исследования. С вероятностью 95% следует заключить, что ненаправленная гипотеза о различном влиянии подкрепления и наказания, в и вне зависимости от величины награды и наказания оказывают различные эффекты на поведении человека. Тем не менее, здравый смысл и статистические методы в лице U и t-критериев не позволяют вынести заключения о различном влиянии этих факторов на поведение между выборкой игроков и контрольной группы. Таким образом, первая из двух гипотез Н1 была подтверждена, а вторая гипотеза не получила подтверждения.

2.4 Научение посредством подкрепления

Множество исследований фокусируются на процессах принятия решений, которые люди и животные употребляют при выборе действий перед лицом награды и наказания. Всё чаще анализ поведения на уровне вычислительных операций опирается на идеи обучения с подкреплением, которое обеспечивает удобную теоретическую основу в рамках которой процесс принятия решений может быть проанализирован.

Фундаментальный вопрос в поведенческой нейробиологии касается процессов принятия решений благодаря которым люди и животные выбирают действия перед лицом награды и наказания, и их нейронным осуществлением. В бихевиоризме этот вопрос был подробно исследован с помощью классической и оперантной парадигмы обуславливания. С их помощью было собрано множество данных, в отношении того, как ассоциации контролируют различные аспекты выученного поведения. Вычислительная сторона обучения с подкреплением обеспечила нормативную структуру, в рамках которой можно понять такое обучение. Здесь оптимальный выбор действий основан на прогнозах долгосрочных последствий, например, что принятие решения направлено на достижение максимальной выгоды и минимизации потерь.

Научные данные, полученные от нейрологии, физиологии, фармакологии, и т.д. о поведении животных позволили обозначить (предварительно) нервные структуры, лежащие в основе ключевых вычислительных конструкций в этих моделях. С вычислительной точки зрения Павловское обуславливание рассматривается как прототип - экземпляр обучения предсказанию - обучение построения прогностических связей между событиями в окружающей среде. Инструментальное обуславливание, с другой стороны, включает в себя обучение выбору действий, которые увеличат вероятность полезных событий, и уменьшат вероятность аверсивных событий. С математической точки зрения, такой процесс принятия решений рассматривается как попытка оптимизировать последствия действий со стороны долгосрочной перспективы, исчисляющиеся в общем количестве вознаграждений, и/или избегания наказания.

Научение посредством подкрепления (далее - НПП) - это обучение посредством взаимодействия с окружающей средой. Субьект НПП обучается благодаря обсервации последствий своих действий, вместо простого эксплицитного обучения, субъект выбирает действия на основе прошлого опыта, и новым выборам, которое по сути своей представляет метод проб и ошибок. Различные модели предполагают разные механизмы увеличения ассоциативной связи. В данной работе мы упомянем о двух из них. Первая из них - модель Рескорлы-Вагнера является самой перспективной из всех математических моделей обучения, которая уже неоднократно применялась в эмпирических исследованиях с большим успехом. Р. Рескорла и А. Вагнер совместно разработали математическую модель процесса обучения на основе теории подкрепления, с использованием разностного уравнения. При этом они оперировали теоретической физиологической переменной, названной ими "ассоциативная сила" и обозначенной через V. Они предполагали, что после каждого сочетания условного и безусловного раздражителей. Их предположение состояло в том, что после каждого сочетания условного и безусловного раздражите лей новое значение изменяется ассоциативной силы Vnew и равно предшествующему значению, плюс прирост "ассоциативной силы" ?V за счет сочетания условного и безусловного раздражителей. Иными словами: . Они постулировали, что , где V - текущее значение ассоциативной силы; б - относительная сила влияния условного раздражителя, варьирующаяся между 0 и 1; л - максимум ассоциативной силы; в - относительная сила влияния безусловного раздражителя, также варьирующая между 0 и 1.При эмпирических расчетах по этой формуле необходимо задать начальное значение V0, значения б, в и л. Тогда после первого сочетания условного и безусловного раздражителей и . Аналогичноiвычисляется значение "ассоциативной силы" при каждом из следующих сочетаний условного раздражителя и безусловного раздражителя. Особенно важным в этой модели является тот факт, что авторы допускали ненулевое начальное значение "ассоциативной силы" V0. В рамках данного исследования не предполагается адаптация этой модели поведения на полученных результатах, и их сравнение, по нескольким причинам. Первая - полученные результаты, какими бы они ни были не могут считаться валидными из-за репрезентативности выборки. Вторая - адаптация модели, с учётом имеющихся данных потребует использования специального программного обеспечения, использующегося в математических вычислениях, иначе - сложность задачи далеко выходит за рамки возможностей исследователя.

Тем не менее, в рамках данной работы возможен анализ одной из математических моделей, адаптация под решения которых не требует больших вычислительных мощностей. Это модель "win-stay, lose-switch", успешно применявшаяся при решении проблем, связанных с "игровыми автоматами", "дилеммой заключённого" и др. Модель утверждает, что выбор следующего действия зависит только от исхода предыдущего акта поведения. Исходы подразделяются на успешные (награды) и неудачные (наказания). Если поведение в предыдущем раунде было подкреплено, тогда субъект повторяет стратегию поведения, если поведение было наказано - то субъект переключается на другую стратегию поведения. Вероятность, с которой повторение и изменение поведение будет происходить определяется двумя свободными параметрами, Preward и Ppenalty. При адаптации метода со значением переменных Prewardи Ppenalty для группы игроков, и Preward и Ppenalty для контрольной группы. Были получены результаты, приведённые в таблицах 5 и 6 в приложении. Как можно увидеть, данная модель оказалась неспособной предсказать реакции испытуемых, в первую очередь благодаря тому, что модель не учитывает величину подкрепления и наказания.

Подводя итог, вычислительные модели обучения многое сделали для улучшения нашего понимания процесса принятия решений за последние несколько десятилетий благодаря своей способности к предсказанию поведения. Совершенствование математических моделей обучения с подкреплением продолжается до сих пор, и продолжится в будущем, как и изучение данного метода исследования подкрепления и наказания.

Выводы

Применение общих правил к конкретному случаю редко обходится без потерь, особенно в ситуациях, когда существует более чем одна непредвиденная переменная. Большинство экспериментов в поведенческой психологии предназначены для освещения одного, определённого явления, подобно рентгену, просвечивающему кости руки. Кожа, мускулы в этом случае не видны, и в результате картина будет являться неполной. Но даже видя только кости, мы способны выдвинуть жизнеспособные предположения о том, как работает рука, её возможности и ограничения. Принципы Бихевиоризма, обсуждаемые здесь должны иметь схожие преимущества и ограничения. Существует огромное множество других факторов, которые влияют на игроков, но базовые паттерны поведения и математические модели формируют фундамент. Понимая фундаментальные закономерности, которые лежат в основе игры, мы сможем сформировать более полно не только модели подкрепления игр, мотивации игроков, но и более успешные модели поведения и обучения.

Список использованной литературы

1. Thorndike E. L. Human learning. NY.: Century Company, 1931.

2. Cronbach Lee J. Essentials of Psychological Testing (Third Edition). NY.: Harper and Row, 1970

3. Kubanek. J., L. H. Snyder., R. A. Abrams. Reward and punishment act as distincs factors in guiding behavior // J. Kubanek. Elsevier Cognition. NY.: CrossMark, 2015.

4. Sharma, M., Ontaсуn, S., Mehta, M. and Ram, A. Drama Management and Player Modeling for Interactive Fiction Games. Computational Intelligence Journal, 26(2), 2010. р. 183-211.

5. Toma, C. L. Affirming the Self through Online Profiles: Beneficial Effects of Social Networking Sites. In Proceeding of CHI 2010, р. 1749-1752.

6. Walther, J. B. Selective self-presentation in computer-mediated communication: Hyperpersonal dimensions of technology, language, and cognition. Computers in Human Behavior, 2007.р. 1 - 23, 2538-2557.

7. Bates, B. Game Design: The Art & Business of Creating Games. Prima Publishing, Roseville, CA, 2001.

8. Kazdin, A.E. Behavior Modification in Applied Settings, Belmont, Brooks/Cole, 1989.

9. Martin, G., Pear, J., Behavior Modification, New Jersey, Prentice Hall, 1992.

10. Medler, B., John, M. and Lane, J. Data Cracker: Developing a Visual Game Analytic Tool for Analyzing Online Gameplay. In Proceedings of CHI 2011. Vancouver, BC Canada.

11. Few, S. Now You See It: Simple Visualization Techniques for Quantitative Analysis. Analytics Press, 2009.

12. Spence, R. Information Visualization. ACM Press, 2001.Age and Sex Composition: 2010. [Электронный ресурс] URL: http://www.census.gov (дата обращения 01.06.2016)

13. Video Game Industry Statistics. [Электронный ресурс] URL: http://www.esrb.org (дата обращения 25.05.2016)

14. Games market revenue worldwide in 2015, 2016 and 2018, by segment and screen (in billion U.S. dollars). [Электронный ресурс] URL: http://www.statista.com (дата обращения 24.05.2016)

15. John Hopson. Behavioral Game Design. [Электронный ресурс] URL http://www.gamasutra.com (дата обращения 19.05.2016)

16. Moos R. H. The human context: Environmental determinants on behavior. NY.: 1973.

17. Хьелл Л., Зиглер Д. Теории личности. СПБ.: Питер, 2013.

18. Романова Е.С. Психодиагностика. МСК.: Кнорус, 2015.

19. А. Н. Колмогоров, А. М. Абрамов, Ю. П. Дудницын и др. Алгебра и начала анализа: Учеб. для 10-11 кл. общеобразоват. учреждений. Под ред. А. Н. Колмогорова.- 14-е изд. М.: Просвещение, 2004

20. Christopher A. High-level reinforcement learning in strategy games. International Foundation for Autonomous Agents and Multiagent Systems, SC.: Richland, 2010.

21. Haw J. The relationship between reinforcement and gaming machine choice. Southern Cross University. [Электронный ресурс] URL.: http://epubs.scu.edu.au/cgi/viewcontent.cgi?article=1113&context=tourism_pubs (дата обращения 15.06.2016)

22. Camerer C. F. Progress and Behavioral Game Theory. [Электронный ресурс] URL.: http://www.hss.caltech.edu/content/progress-and-behavioral-game-theory (дата обращения 19.06.2016)

23. Сamerer C. F. Behavioral Game Theory: Experiments in Strategic Interaction. NY.: Newyork, 2013.

24. Drachen A., Sifa R., Bauckhage C. Guns, swords and data: Clustering of player behavior in computer games in the wild. Data of Conference: Computational Intelligence and Games, 2012.

25. Kang, Shin-Jin., Young Bin Kim., Taejung Park. Automatic player behavior analysis system using trajectory data in a massive multiplayer online game. Springer Science. Seoul, 2010.

26. Yee N. Motivations of Play in Online Games. NY.: CyberPsychology and behavior, 9, p. 772-775, 2007.

27. Banks J., Bowman N. D. Emotion, anthropomorphism, realism, control: Validation of a merged metric for player-avatar interaction (PAX). West Virginia University, Department of Communication Studies.Computers in Human Behavior, 54, p. 212-223, 2016.

28. Cуслов В. И., Чумакова Н. П. Психодиагностика: Учеб. пособие. СПБ., 1992.

29. Мельников В. М., Ямпольский Л. Т. Введение в экспериментальную психологию личности. М.: Просвещение,1985

Приложение 1

Текст правил игры, предъявлявшийся перед началом исследования.

Мы предлагаем вам сыграть в небольшую игру и после её прохождения дать ответы на 2 психологические методики.

Среднее время игры - 20 минут.

Задача состоит в наборе как можно большего количества очков. После 1 июня будет опубликована таблица с наивысшими результатами игроков. Это простая игра, ориентированная на внимание, реакцию и счёт.

Примечание: в игру можно сыграть только один раз, все дополнительные попытки не будут учитываться.

Правила игры

Игра разделена на множество проб, которые сменяют друг друга по очереди.

Игровое поле разделено на 2 равные части по вертикали. На каждой половине расположено по 1 кругу, появляющемуся и исчезающему в одном и том же месте. Ваша задача - посчитать, какой из кругов появлялся чаще другого в ходе данной пробы. В среднем проба длится около 4 секунд, так что важно поспевать за временем. После окончания пробы экран окрасится цветом кругов - это значит, что пора сделать выбор и нажать либо кнопку "С левой", если чаще появлялся круг с левой стороны, либо "С правой", если чаще появлялся круг справа.

Всего есть три вида проб:

Если круги синие, то за правильный ответ вы получите 1, 2 или 4 очка. За неправильный - потеряете 1, 2 или 4 очка.

Если круги зеленые, то за неправильный ответ вы избежите получения 1, 2 или 4 очков за будущие ответы. За правильный - предотвратите потерю 1, 2 или 4 очков в будущем. Эти "очки избегания" накапливаются в ходе игры.

Если круги не появляются, и Вы видите просто фон зелёного и синего цвета без предъявления кругов, то от Вас всё равно потребуется сделать выбор в течении 2 секунд, за которым также последует изменение в баллах. Если фон синий - то за правильный ответ вы получите 1,2 или 4 очка. За неправильный - потеряете 1, 2 или 4 очка. Если фон зеленый, то за неверный ответ вы избежите получения 1, 2 или 4 очков. За правильный - избежите потери 1, 2 или 4 очков.

Если Вы не успеете сделать выбор за 2 секунды, то проба не будет засчитана и Вы перейдёте к следующей.

Приложение 2

Образец того, как выглядели пробы типа 1.

Приложение 3

Образец того, как выглядела проба типа 3.

Приложение 4

График наглядного представления результатов методики одним из испытуемых. В случае, если какая либо из величин исхода пробы не повторялась более 7 раз, результаты её влияния на поведение не учитывались. На графике это выражено пунктирными линиями. Линия обозначенная синими кругами представляет результаты задания №1, с зелёными - задания №2, сплошная синяя линия - задания №3, сплошная зелёная - задания №4.

Результаты прохождения методик.

Опросник Эллерса для оценки мотивации избегания неудач: 19 баллов, умерено высокий уровень мотивации избегания неудач.

Опросник Эллерса для оценки мотивации к успеху: 18 баллов, умеренно высокий уровень мотивации к успеху.

Опросник Шуберта для оценки готовности к риску: 25 баллов,

Приложение 5

График общего представления результатов методики, без учётов типов задач и величин баллов, закреплёнными за заданиями.

Приложение 6

График представления результатов методики по каждому из типов заданий, без учёта величин баллов.

Размещено на Allbest.ru


Подобные документы

  • Понятие позитивного подкрепления и характер его воздействия на поведения студента. Причины ослабления интереса под влиянием регулярного внешнего подкрепления. Методика, значение самоподкрепления и саморегуляции. Недостатки наказания как метода мотивации.

    курсовая работа [29,6 K], добавлен 11.11.2009

  • "Теория социально-когнитивного научения" Роттера. Психологический анализ структурных компонентов поведения. Проблема повышения мотивации труда сотрудников. Возникновение поведения и факторы, его определяющие. Концепция Бандуры о самоэффективности.

    дипломная работа [64,8 K], добавлен 25.08.2011

  • Основные парадигмы зарубежной социальной психологии. Два критерия для определения ориентации. Бихевиоризм и интеракционизм. Идея подкрепления как основа необихевиористической парадигмы. Психоанализ Фрейда и психология масс Лебона. Аутгрупповая агрессия.

    реферат [42,9 K], добавлен 06.02.2009

  • Понятие мотивации и мотива, потребности и вознаграждения. Общая характеристика теорий потребностей согласно Д. МакГрегору, А. Маслоу и Д. МакКлелланда, их взаимосвязь. Принципы обогащения содержания работы по Ф. Герцбергу. Теория подкрепления Скиннера.

    презентация [188,6 K], добавлен 04.12.2013

  • Основные предпосылки возникновения бихевиоризма. Законы научения по Э. Торндайку. Характерные черты необихевиоризма. Б. Скиннер и его теория "оперантного бихевиоризма". Режимы подкрепления, в результате которых возникают различные формы реагирования.

    курсовая работа [37,0 K], добавлен 05.01.2012

  • Понятие, социально-психологическая природа, структура агрессии в отечественной и зарубежной литературе. Содержание фрустрационной теории деструктивного поведения Миллера и Долларда. Роли подкрепления и подражания поведения в бихевиоральной модели Бандура.

    курсовая работа [1,0 M], добавлен 09.11.2010

  • Психологические аспекты проблемы наказания и исправления преступников. Анализ личности осужденных, динамика их психических состояний в процессе отбывания наказания. Социально-психологические явления в среде осужденных и профилактика их негативных влияний.

    реферат [27,7 K], добавлен 25.01.2011

  • Исследование и оценка степени влияние количества денег на процессы формирования и развития личности. Проблема хранения и накопления денег, отношение у представителей разных социальных групп. Типы личности, их сравнительная характеристика и особенности.

    презентация [1,0 M], добавлен 17.09.2015

  • Теория социального научения. Отход от классического бихевиоризма. Условия формирования поведения у детей, верное применение поощрения и наказания. Анализ метода "кнута и пряника" в зависимости от типа личности ребенка, как правильно похвалить ребенка.

    курсовая работа [26,9 K], добавлен 29.12.2011

  • Структура среды лиц, отбывающих наказание. Характеристика динамических, динамико-статичных и статичных социально-психологических явлений в среде осужденных. Основные направления работы в условиях отбывания уголовного наказания в виде лишения свободы.

    курсовая работа [63,5 K], добавлен 26.03.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.