Применение инфологических моделей в электронном бизнесе

Инструменты компьютерной визуализации. Реализация и применение технологии обработки информации. Разработка инфологической структуры. Анализ эффективности применения инфологических моделей на информационных порталах и в средствах электронной коммерции.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 29.11.2015
Размер файла 7,3 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Используемые термины и обозначения

Общие термины

АК - административная консоль;

ПО -- программное обеспечение;

Стенсил -- от англ. Stencil, визуальный шаблон, трафарет, графический или смысловой примитив, доступный для дальнейшего использования в более сложных моделях;

Фронт-офис -- от англ. Front office. Область процессов или подразделений компании, доступных для внешнего окружения, в частности клиента или пользователя;

Бэк-офис -- от англ. Back office. Область внутренних процессов или подразделений компании, недоступных для внешних пользователей и клиентов.

Технические термины

UI -- от англ. User Interface, пользовательский интерфейс;

UX -- от англ. User eXperience, опыт взаимодействия (с системой);

БД - база данных;

ООП - объектно-ориентированное программирование;

URL - от англ. Uniform Resource Locator. Единообразный локатор ресурса;

MVC - от англ. Model-View-Controller. Использование нескольких разделённых шаблонов для разработки портала;

SQL - от англ. Structured Query Language. Язык, применяемый для работы с БД;

RAID -- от англ. Redundant array of independent disks. Технология виртуализации данных, объединяющая несколько физических дисков в один логический для повышения надежности и быстродействия;

DDoS -- от англ. Distributed denial of service. Хакерская атака на систему с целью доведения до предельных значений критических параметров техники и отказа в обслуживании остальных пользователей;

HCI -- от англ. Human-computer interaction. Человеко-компьютерное взаимодействие -- направление исследований, посвящённое совершенствованию компьютерных систем, предназначенных для использования человеком;

GUI -- от англ. Graphical user interface. Графический интерфейс пользователя -- пользовательский интерфейс, элементы которого представлены графически;

Скриншот -- от англ. Screen Shot. Снимок экрана, сделанный на компьютере пользователя;

API -- от англ. Application Programming Interface. Набор заранее подготовленных классов, функций, процедур и переменных приложения, доступных для использования во внешних программных средствах.

Введение

В современном обществе использование интернета носит повсеместный характер, и с каждым годом увеличиваются темпы роста проникновения сети.

Всё больше внимания уделяется вопросам визуализации данных, интуитивности интерфейса и UI/UX дизайну. Подобная тенденция делает возможности сети доступными для неподготовленных пользователей, снимая условный барьер привыкания к интерфейсу.

Цель работы -- разработать новый метод визуализации данных и работы с информацией на основе технологий представления информации, а также принципов семантических сетей, открытых данных и банков данных.

Перед работой поставлены следующие задачи:

1. Обзор-анализ имеющихся технологий работы с информацией;

2. Анализ методов визуализации данных и интерпретация результатов мировых исследований;

3. Разработка концепции инфологических моделей и обзор её возможностей;

4. Анализ перспектив внедрения инфологических моделей в электронном бизнесе и e-commerce.

Оценка проблемы. Увеличивающееся количество пользователей сети интернет и появление новых типов устройств приводит к генерации огромного количества данных, с которым необходимо научиться работать. Для решения данной проблемы необходимо улучшить восприятие данных человеком, а также систематизировать накопление и обмен знаниями.

Чем глубже проникновение интернета, тем шире спектр его пользователей, и тем важнее вопрос адаптации к новым интерфейсам. Проблема визуализации данных и работы с информацией широко представлена во многих современных исследованиях:

· совместная работа Криса Бэйбара, Дэна Эндрюса, Томми Даффи и Ричарда МакМастера «Sensemaking as narrative: visualization for collaboration»

· Владимир Авербух -- «Magic fairy tales as source for interface metaphors»

· Алан МакЭчрен -- «Geographic Visualization» и другие

Актуальность работы. Развивающиеся технологии, растущая пропускная способность сети и широкое проникновение интернета предоставляют возможность обмена огромным количеством информации. В то же время увеличивающееся количество устройств и сервисов генерирует всё больше данных, с которыми необходимо работать.

В качестве примера рассмотрим отчёт “Digital, social and mobile” за январь 2015 года. По данным отчёта, мировое проникновение сети превысило отметку в 42%, повысив аналогичный прошлогодний показатель на 7 процентных пунктов.

Отдельно стоит отметить, что характер проникновения сети сместил фокус с мегаполисов и развитых стран на страны развивающиеся и города регионального значения. Таким образом, всё бoльшее количество новых пользователей имеют низкую техническую грамотность и не имеют опыта работы с интерфейсами, которые для многих успели стать привычными.

Если подобные темпы роста проникновения сети сохранятся, то уже в январе 2016 года каждый второй житель планеты Земля будет иметь доступ в Интернет, что открывает перед Интернет-сообществом широкие перспективы и подчёркивает актуальность настоящей работы.

Глава I. Инструментарий исследования: технологии обработки информации

компьютерный визуализация электронный бизнес

На сегодняшний день существует множество технологий, систематизирующих и упрощающих работу с информацией. Каждая из них имеет свои особенности и преимущества, которые можно и нужно использовать.

За основу концепции инфологических моделей взяты 3 ключевых технологии:

· Семантические сети;

· Открытые данные;

· Банки данных.

Ниже приведено детальное описание каждой из них.

Семантические сети

Семантическая сеть -- это метод представления знаний, в основе которого лежит семантика и теория графов. Метод позволяет описывать понятия, события, процессы и свойства при помощи информационных моделей предметной области.

Рисунок 1. Семантическая сеть состоит из объектов и связей между ними

Семантическая сеть представляет собой направленный граф, описывающий предметную область. При этом вершины графа отвечают за термины и сущности предметной области, а рёбра определяют отношения между этими сущностями. В совокупности получается информационная модель, доступная для машинной обработки и понятная человеку.

Прежде чем перейти к дальнейшему описанию семантических сетей, следует также разобраться с понятием семантики. Семантика отвечает за смысловое значение объектов: слов, символов и других сущностей. Семантика достаточно давно присутствует в интернете: всё бoльшую популярность в последнее время набирает семантический веб.

В сфере веб-технологий принципы семантики используются для стандартизации представления данных и приведения информации к виду, доступному для автоматизированной обработки. Одним из первых стандартов в сфере семантического веба была концепция модели RDF, разработанная консорциумом W3C в 1999 году на базе языка XML. На сегодняшний день появилось достаточно много семантических стандартов, использование которых носит опциональный характер и во многом зависит от ситуации: WAI-ARIA, OG, hCard и vCard, и другие.

Важно не путать семантические сети и семантический веб, к которому относятся вышеперечисленные стандарты. Семантические сети в вебе широко не используются, и их принципы только начинают внедряться на единичных проектах. В чём же отличие семантических сетей от семантического веба? Семантический веб (он же -- семантическая паутина) надстройка над всемирной паутиной, формируемая в ходе стандартизации подхода к описанию сущностей на веб-страницах. Семантическая сеть же полностью определяет подход к представлению знаний и предъявляет однозначные требования к описанию модели. Иными словами, семантический веб определяет подход к описанию сущностей на веб-страницах, а семантическая сеть содержит полную модель данных, включая объекты и связи между ними.

Рисунок 2. Пример простой семантической сети

В своих работах Chris Baber отмечает, что для правильного формирования информационной модели сначала необходимо определить набор стенсилов, а именно -- субъектов и взаимосвязей между ними.

Семантические сети позволяют отобразить предметную область в виде информационной модели, которая содержит понятия и отношения, что в дальнейшем делает возможным автоматизированный анализ имеющихся данных.

Подобный подход к работе с информацией даёт возможность формировать базы знаний, что особенно актуально в современных реалиях. Используя принципы семантических сетей, можно определить набор понятий и терминов, необходимых для описания предметной области, и набор типов отношений между ними, достаточный для описания связей.

Возможности и преимущества

Технология семантических сетей предлагает ряд возможностей, актуальность которых со временем растёт. Опишем ключевые из них:

Доступность для человека и для машины. Семантическая сеть может быть определена как графом, понятным человеку, так и таблицей, понятной машине. Из этого следует доступность технологии для человека, что особенно ценно в наши дни.

Возможность автоматизированной обработки и аналитики. Благодаря единому и обязательному формату заведения информации, все информационные модели, заведенные по принципам семантических сетей, поддаются машинной обработке и, как следствие, автоматизированному анализу. Масштабируемая применимость. Благодаря определяемому набору сущностей и гибкому перечню связей, концепция семантических сетей применима в различных сферах жизни без потери возможностей.

Примеры:

На сегодня уже есть примеры действующих семантических сетей, хоть их и не так много. Рассмотрим 3 наиболее известных:

WordNet. Электронная общедоступная семантическая сеть английского языка, разработанная в Пристонском университете и выпущенная в виде десктопного ПО под свободной лицензией. Также существует схожее ПО для русского языка, базирующееся на аналогичной платформе.

Рисунок 3. Одна из визуализаций базы знаний WordNet

SNePS. Семантическая сеть, разработанная в Государственном университете Буффало в Нью-Йорке. Представляет собой базу знаний, рассуждений и действий, написана на языке Common Lisp и распространяемая под свободной лицензией авторства того же университета.

Рисунок 4. Пример устройства сети SNePS

Wikipedia. Крупнейшая в мире онлайн-энциклопедия также движется в сторону семантической сети, постепенно переводя накопленную базу информации в формат базы знаний, что позволяет не только систематизировать имеющиеся данные, но и расширить перечни сопутствующих статей, предоставляя пользователям более качественный и обширный контент.

Рисунок 5. Богатая система знаний позволяет Wikipedia использовать подобную навигацию

Открытые данные.

Открытые данные -- концепция, определяющая доступность набора данных для дальнейшего машинного использования без патентных ограничений и ограничений авторского права.

Стоит обратить внимание на то, что, таким образом, данные становятся полностью доступными для дальнейшего сбора, анализа и распространения, что и является одной из целей, преследуемых концепцией.

Открытые данные начали набирать популярность в 2006 году после появления правительственных сайтов с открытым доступом к машиночитаемым наборам данных и успели стать стандартом для крупных it-компаний.

Всё чаще открытые данные сопровождаются API -- от англ. Application Programming Interface, набором готовых функций и процедур, определяющих использование данных и функций системы во внешней среде.

Рисунок 6. График роста количества открытых API с 2006 по 2011 годы

Сегодня наличие API является залогом качества государственных информационных сайтов и хорошим тоном для любого крупного онлайн-портала. Наличие открытого API позволяет не просто интегрироваться с системой-источником, но и значительно расширить распространение размещаемой в первоисточнике информации.

Стоит отметить, что правильно настроенный API также позволяет управлять распространением информации и анализировать его, что может разбудить к свободному распространению информации понятный коммерческий интерес.

Популярность и значимость правильно настроенного API трудно переоценить, давайте взглянем на цифры:

· Twitter -- 13 миллиардов обращений в день (2011)

· Google -- 5 миллиардов обращений в день (2010)

· Facebook -- 5 миллиардов обращений в день (2009)

· Netflix -- 1.4 миллиарда обращений в день (2012)

· Accu Weather -- 1.1 миллиарда обращений в день (2011)

Возможности и преимущества/

Открытые данные предлагают ряд возможностей, благодаря которым их мировая популярность стремительно растёт:

Машиночитаемое использование данных. Все открытые данные можно передать для последующей машинной обработки. Более того, доступ к части открытых данных является настраиваемым, и их выборкой можно управлять при помощи гибких API.

Свободная лицензия. Не всегда то, что доступно физически, может быть правомерно использовано с юридической точки зрения. Так как понятие открытых данных включает в себя требования к свободной лицензии на распространяемые данные, юридический аспект вопроса закрывается сам собой.

Таким образом, открытые данные позволяют свободно и беспрепятственно, в удобном для интеграции виде распространять данные для их последующей автоматизированной (или ручной) обработки.

Примеры

Существует огромное множество наборов открытых данных, рассмотрим наиболее примеры открытых данных и события, связанные с ними:

33 миллиона решений судов РФ. В начале 2015 года в сети появился набор открытых данных, содержащий 33 000 000 судебных решений общим объёмом более 150 Гб. Данный набор позволяет использовать опыт судебной системы РФ в научных и исследовательских целях, в том числе -- для машинной обработки и анализа.

Информационный план Германии по реализации открытых данных. В начале 2015 года Министром Внутренних дел Германии был представлен план реализации хартии открытых данных G8, в рамках которого описываются следующие принципы работы с государственными данными:

· По умолчанию все государственные данные являются открытыми при условии защиты приватности;

· Качество и детализация открытых данных поддерживаются на высоком уровне;

· Количество форматов открытых данных определяется как максимально возможное из необходимых для повторного использования;

· Регламентируется прозрачная экспертиза по контролю качества предоставления и описания открытых данных;

· Регулярные консультации с пользователями и открытые публикации наборов данных.

Отдельно стоит отметить, что по умолчанию все государственные данные должны являться открытыми. Подобный подход к работе с открытыми данными не только делает государственную систему более открытой, но и стимулирует развитие инноваций и информационных технологий.

Так как основополагающая хартия была подписана странами большой восьмёрки на момент, когда в неё входила Россия, в рамках нашей страны данная хартия вызывала большие надежды на развитие открытых данных. К сожалению, с исключением РФ из G8 план реализации хартии окончательно сошёл на нет, и значительных продвижений в этом направлении не предвидится.

Открытые данные и трагедия в Непале. С 25 по 28 апреля 2015 года в Непале прошла серия сильнейших землетрясений, разрушивших населённые пункты и унесших жизни более 8 тысяч человек. При этом более 16 тысяч человек пострадали, и десятки тысяч человек остались без крыши над головой.

Индия, Китай, США, Израиль, Россия и Австралия направили в Непал гуманитарные грузы и спасателей, однако столкнулись с неожиданной проблемой: ввиду малого распространения интернета на территории Непала, местные электронные карты были в плачевном состоянии, что привело к трудностям с поиском дорог и маршрутов до очагов поражения.

Рисунок 7. Открытые карты Непала до начала трагедии

В течение 40 часов более 7 000 добровольцев нанесли на карты OpenStreetMap Непала 21 000 км дорог и 110 681 здание. Нанесенные объекты прошли проверку опытными участниками проекта, и на картах Непала появились тропинки, переправы и множество других точек, необходимых для эффективной работы служб спасения.

Рисунок 8. Открытые карты Непала через 40 часов после начала трагедии

Банки данных.

Банк данных -- это комплекс программных, языковых, технических и технологических средств, обеспечивающий коллективный доступ и использование системы организованных данных.

Проще говоря, банк данных -- это база данных и комплекс ПО, делающий возможным коллективное использование её содержимого.

Своё развитие банки данных получили в 2005-2009 годах в ходе запуска ряда правительственных инициатив (таких как, например, Data.gov), и с тех пор укрепляются в своей популярности.

Создание банка данных отлично от создания набора открытых данных. Так, набор открытых данных является, по сути, лишь ресурсом, а банк данных -- инструментом для его использования. Предполагается, что пользователи открытых данных -- в первую очередь, разработчики, внедряющие их в свои приложения и системы.

Рисунок 9. Пример системной архитектуры банка данных

Банки данных -- решение, ориентированное на широкого пользователя и предоставляющее инструментарий по работе с размещаемыми данными, а также ряд дополнительных преимуществ.

Важно отметить, что в большинстве своём банки данных являются некоммерческой государственной инициативой, направленной на повышение прозрачности работы госаппарата и упрощение работы с государственными данными.

Уровень развития банков данных в Российской Федерации заметно уступает западному, чему есть множество объяснений. Первое из них -- низкая активность основных пользователей банков данных на территории РФ: некоммерческих организаций, журналистов, коммерческих компаний и университетов.

Второе же заключается в исключении России из стран большой восьмёрки, в рамках которой была подписана хартия открытых данных, призывающая страны к развитию данного направления.

Возможности и преимущества

Как уже упоминалось, в отличие от открытых данных, технология банков данных более ориентирована на массового пользователя, а не разработчиков ПО. В связи с этим и преимущества у двух технологий тоже различны. Разберемся в сильных сторонах банков данных:

Доступность данных и инструментов для работы с ними массовому пользователю. Банк данных включает в себя не только БД, но и СУБД, что позволяет неподготовленному пользователю целенаправленно искать нужную информацию, а также делает БД доступной для коллективного использования (например, при помощи интернета).

Объём и качество данных, хранимых в банке данных, определяют его качество. Кроме того, качество банка данных определяется количеством инструментов для поиска нужной информации и качеством организации их интерфейса.

Агрегирование и накопление данных. Благодаря инструментам заведения данных и аппаратно платформе для их хранения, банки данных являются прекрасным способом сбора большого количества информации в виде, доступном для машинного использования.

Защищённость данных. В первую очередь, любой банк данных являет собой систему, данные которой защищены от случайного или несанкционированного удаления.

Кроме того, на базе банка данных возможна реализация защиты доступа к данным. Это включает в себя как полный запрет доступа к данным для третьих лиц, так и ограничение распространения данных -- к примеру, для их повторного использования.

В случае реализации банка данных на базе закрытого предприятия в корпоративных целях, возможен полный контроль доступа к данным, включая аппаратную защиту корпоративных компьютеров и прочие механизмы защиты от несанкционированного доступа.

Примеры

РосПравосудие. РосПравосудие -- некоммерческая справочная система, в рамках которой предоставляется доступ к решениям судебных комиссий РФ, а также к наиболее актуальным судебным решениям судов общей юрисдикции, арбитражных и мировых судов. Средствами банка данных РосПравосудия возможен поиск судебных документов по следующим параметрам:

· Вид производства -- уголовное, гражданское, арбитражное, административное, по материалам;

· По инстанции -- первая инстанция, апелляция, кассация, надзор;

· По временному интервалу;

· Морфологический поиск;

· По регионам;

· По судьям;

· По юристам;

· По судам;

· По дереву категорий;

· По классификатору результатов;

· По прокурорам;

· По решениям.

Всё это в совокупности создаёт превосходную платформу для поиска необходимой судебной информации в научно-исследовательских и практических целях, что сложно переоценить в аспекте развития концепции открытых данных, банков данных и прозрачности государственной деятельности на территории РФ.

Data.gov. Банк открытых данных правительства США. Государственный сайт и один из первых онлайн банков данных в мире. На момент написания работы содержит 131 535 наборов открытых данных, категоризированных по каталогу и доступных для машинной обработки.

Помимо категоризатора, на сайте также действует морфологический поиск, тематическое разбиение и развитые механизмы фасетной фильтрации, что превращает хранилище данных в производительный инструмент работы с собранной информацией.

Стоит отметить, что сайт был открыт в Мае 2009 года, и уже в декабре 2009 года правительство США специальной директивой обязало все государственные агентства поставлять не менее 3 наборов открытых данных касательно своей деятельности. Примечательно также, что, по данным Wikipedia, в сентябре 2014 года на портале содержалось более 150 000 наборов данных, и к Маю 2015 года их количество снизилось до 130 с небольшим тысяч.

Data.gov.ru. Банк открытых государственных данных Российской Федерации, запущенный в марте 2014 года и представляющий собой функциональный аналог data.gov.

На момент написания работы банк данных содержит 2620 наборов открытых данных, реализует функции морфологического поиска и категоризатора.

Проблематика

Выше были описаны технологии, позволяющие улучшить работу с информацией. Почему же на сегодняшний день их применение особенно актуально? Попробуем разобраться.

Рост интернет-трафика

На момент написания работы более 3х миллиардов человек имеет доступ к мировой сети, в интернете запущено и работает 940 миллионов сайтов, каждую минуту на YouTube загружается более 4х дней видео, а в Instagram -- более 2х тысяч фотографий в секунду. Всё это представляет собой колоссальный поток данных, и на сегодняшний день ежедневный мировой интернет-траффик достигает отметки в 2,5 ЭБ.

Однако рост интернет трафика подразумевает не только повышение требований к серверным мощностям и магистралям данных, но и новые требования к качеству контента и интерфейсу пользовательских систем. Стремительное развитие веб-технологий и богатая технологическая платформа делают возможной реализацию концепций, которые ещё вчера казались фантастическими. Все сильнее фокус разработчиков смещается в сторону потребностей пользователя и поиску новых, более оптимальных реализаций действующего на проектах функционала.

Появление новых типов устройств

Помимо трафика, растёт и количество устройств, подключенных ко всемирной паутине. Так, по данным отчёта за январь «Digital, Social and Mobile» от агентства We Are Social, количество пользователей мобильных интернет-сервисов составляет более 3,65 миллиарда человек, что составляет более половины населения Земли.

Мобильные телефоны сегодня не только потребляют контент, но и производят его -- начиная от новостных твитов, заканчивая фото- и видеорепортажами. Но на этом история не заканчивается: не стоит забывать о планшетах, фаблетах, электронных книгах, умных часах, интерактивных панелях и множестве других вещей, способных потреблять и генерировать контент. Подобное разнообразие устройств приводит к большому разнообразию данных, с которыми нужно работать: в одном ряду стоят и написанные вручную статьи, и автоматически генерируемые данные.

Скорость и качество информации, генерируемой и обмениваемой при помощи устройств, напрямую влияют на её ценность. Скажем, популярность новости зависит не только от её содержания, но и от того, насколько оно актуально, насколько просто его найти, как оно соотносится с другими новостями, можно ли отследить источник этой новости и, что тоже немаловажно, от того, какая аудитория сможет эту новость понять.

Вопросы скорости, полноты и удобства восприятия информации являются одними из ключевых в вопросе определения её ценности. Более того, как пишет Alan MacEachren в статье Cartography and Geographic Information Systems, новые подходы к визуализации данных способны поставить перед пользователем совершенно новые вопросы, и именно этим они (подходы) ценны.

Интернет вещей.

Один из наиболее громких трендов последнего десятилетия -- интернет вещей. Ввиду стремительного развития беспроводных сетей, внедрению IPv6, развитию облачных технологий и продвижению продуктов среди потребителей, идея интернета вещей только укрепляется в своём восходящем тренде.

Важно отметить, что уже сейчас существуют все необходимые технические и технологические средства для организации качественных процессов межмашинного взаимодействия, генерации, передачи и сбора информации. Однако вопрос универсальной платформы для хранения и, в частности, визуализации собранных данных остаётся незакрытым.

С ростом количества устройств, автоматически генерирующих данные, важно научиться связывать получаемые данные в информацию, а её -- в знания. Для этого надо определить единые стандарты заведения данных, понятные не только машине, но и человеку.

С позиции автоматизированного доступа и машинной обработки всё, казалось бы, ясно: семантические сети, открытые данные и банки данных позволяют организовать хранение и распространение информации в удобном для системы формате. Неясным остаётся вопрос визуализации, которому посвящено множество современных научных работ и исследований в области компьютерных интерфейсов.

Вопросу визуализации информации и будет посвящена следующая глава.

Глава II. Инструментарий исследования: технологии визуализации информации

С развитием информационных технологий и ростом возможностей компьютерных систем многие мировые исследователи открыли новые перспективы, которые миру открывает прогресс. Компьютер позволяет оживить статичные данные, сделать их удобными для анализа и исследования, представить информацию в новом разрезе.

Визуализация информации нашла своё отражение и в пользовательской среде, выведя работу с информацией на новый уровень. Технологии графического представления информации переживают период бурного развития, и на данный момент среди них можно выделить 3 ключевых направления:

· Визуализация данных;

· Инфографика;

· Представление знаний.

В чём их отличия, особенности и преимущества? Что из этих направлений визуализации данных применимо на массовых проектах, и какие из них можно извлечь плюсы? Попробуем разобраться.

Визуализация данных

Визуализация данных в информационных системах повышает эффективность их изучения человеком и находит широкое применение в научных исследованиях, прогнозировании, бизнес-анализе и аналитических обзорах.

Иными словами, это -- способ представления данных, который упрощает и улучшает их восприятие человеком. У визуализации данных может быть две разновидности: исследовательская и презентационная.

Презентационная визуализация носит ознакомительный характер, ориентированный на аудиторию, для которой ведётся повествование. Это могут быть, например, графики в докладе, или тепловая карта некоторой территории. Задачи, стоящие перед презентационной визуализацией, можно сформулировать следующим образом:

· Краткость презентуемой информации;

· Ясность презентации;

· Интуитивность восприятия.

Визуализация данных для проведения исследований приводит данные в вид, предлагающий исследователю новые вопросы и возможности их наблюдения, а значит, и задачи перед исследовательской визуализацией стоят другие:

· Помочь сформулировать новые вопросы по имеющимся данным;

· Отобразить относительность визуализированных данных;

· Обеспечить масштабируемость от общих до детализированных представлений данных;

· Представить данные в привязке к контексту.

Рисунок 10. Визуализация данных о DDoS-атаках на карте мира

На скриншоте Digital Attack Map показана карта текущих цифровых атак. Давайте разберёмся, какие принципы лежат в основе подобного представления данных:

· Цвет линий указывает на тип атаки;

· Размер линий соответствует ширине канала данных;

· Форма линий указывает на источник и цель атаки.

Подобная работа с данными предоставляет сложнейшие для человеческого восприятия данные в виде интуитивно понятной интерактивной карты, доступной для более глубокого изучения за счёт ряда надстроек и функций управления выборкой, возможности масштабирования и детализации информации об атаках. Подводя итог, стоит сказать, что визуализация данных -- это форма представления большого количества компьютерных данных, упрощающая их восприятие человеком. Иными словами, под визуализацией данных понимается формат, в котором компьютер должен выгружать структурированные данные для того, чтобы в будущем человек мог с ними проще ознакомиться.

Инфографика.

Инфографика -- графическая форма подачи информации, берущая за основу принцип полного и максимально интуитивного раскрытия выбранной темы. Инфографика базируется на информационном дизайне и находит применение во множестве отраслей, от журналистики до технических статей. Форма подачи инфографики учитывает эргономику данных, возможности выбранного физического или виртуального носителя, человеческую психологию и ряд прочих факторов, целиком завязанных на ручной труд.

В последние несколько лет инфографика успела не только набрать популярность, но и стать одним из активно использующихся инструментов в средствах массовой информации. Ведущие новостные порталы проводят регулярный поиск и разработку новых инфографических карт на самые разнообразные темы, так как последние смогли завоевать любовь аудитории. Ниже приведены ссылки на известные новостные издания, выделившие инфографику в отдельную ветку на своих порталах:

· РИА Новости

· LENTA.ru

· Газета.ru

· ТАСС

· inoСМИ

· Аргументы и Факты

· И многие другие.

На изображении ниже представлен фрагмент объёмной инфографики информационного агентства ТАСС, подготовленной к вопросу российско-европейских газопроводов. В рамках одного изображения раскрыта информация, относящаяся к географическим данным газопроводов, их названиям и мощности, объёмам поставок газа в Европу, объёмам транзита поставляемого в Европу газа, приведена детализация транзита газа через Украину и странам-получателям «транзитного» газа.

Рисунок 11. Часть инфографики ТАСС, посвящённая российско-европейским газопроводам

В рамках одного изображения находится ответ на большое количество вопросов, при этом бoльшая часть информации подана графически, что облегчает и ускоряет ознакомление с ней. Легкость подачи информации -- главное качество инфографики, за которое её успели полюбить как в мире, так и в России.

Обычно при создании инфографики автор преследует следующие принципы:

· Облегчение понимания информации читателем;

· Ясность восприятия;

· Простота подачи данных;

· Целостность сообщения читателю;

· Понятная структура сообщения;

· Высокое качество подаваемого материала;

· Как результат -- уменьшение времени, необходимого на ознакомление с описываемым объёмом информации.

Подводя итог, определим инфографику как графическое представление информации, относящейся к выбранной теме, в формате, подразумевающем быстрое и интуитивное ознакомление с данными. Также следует отметить, что качественная инфографика требует большого объёма ручного труда, и её автоматизированное создание представляется маловозможным.

Представление знаний

Представление знаний -- вопрос визуализации информации в формате человеческого мышления, тесно связанный с принципом хранения и обработки информации человеческим мозгом.

Под термином представления знаний подразумевается представление знаний в формате, доступном для обработки компьютером, а также их последующего хранения и анализа.

История развития данного направления достаточно обширна, и берёт своё начало в 60х годах прошлого века, когда технология применялась в сфере нейросетей, медицинских систем и некоторых игр (например, шахмат).

В 80х годах появились первые языки представления знаний, которые позволяли описать доступные для человека знания, например, представленные в энциклопедиях, в машиночитаемом виде. Позднее были разработаны и языки программирования, ориентированные на представление знаний, в своё время не получившие должной популярности.

На сегодняшний день, помимо нейросетей, одним из передовых направлений развития технологии представления знаний является семантическая паутина, преследующая цель понимания компьютерами информации, хранящейся в мировой сети. Развитие данного направления основывается на идее семантической разметки веб-страниц, о которой говорилось в разделе семантических сетей первой главы настоящей работы. Как и было написано ранее, семантический веб является надстройкой над стандартной разметкой HTML-страниц и базируется на стандартах семантической разметки, семантическом синтаксисе и микроформатах.

Важно отметить, что идея семантического веба преследует приведение данных HTML-разметки к виду связанных между собой ресурсов, обозначенных через URI -- Unified Resource Identifier. Стандарты семантического веба, такие как разметка RDF, способствуют превращению информации веб-страницы в связный граф, каждой вершине и дуге которого можно присвоить URI. Иными словами, в своей концепции семантический веб стремится к образу семантической сети.

Кроме семантических сетей и семантического веба подход организации информации в сети преследует множество коммерческих компаний, таких как TheBrain Technologies Corp, Convera, Entopia, Epeople и другие. Объединяет их одно: набор идей, терминов, определений или сущностей связываются между собой, тем самым образуя граф. При этом демонстрация пользователю связи между двумя субъектами позволяет перемещаться между различными терминами и идеями в поисках необходимой информации.

Рисунок 12. Интерфейс системы PersonalBrain от TheBrain Technologies. Mac OS, 1998 год

Помимо концепции сущностей и связей между ними, существует ряд инструментов, призванных приблизить человеческое мышление к пониманию компьютером. Рассмотрим основные из них:

Фреймы. Фрейм представляет собой незаполненный объект с заданным набором полей. Говоря другими словами, фрейм -- это структура сущностей, укомплектованная в единый объект. Например, набор полей, необходимый для описания одной машины.

Языки. Языки бывают естественными (сформированные людьми для общения с людьми) и искусственными (созданными для связи с машинами). Наиболее известный на сегодняшний день пример логического языка программирования -- Пролог.

Нотация. Нотация применительно к веб-технологиям являет собой надстройку над стандартным языком разметки с набором условных обозначений, которая делает возможным синтаксический машинный анализ доступных для человека текстов.

Подводя итог, следует сказать, что в анализе методологии представления знаний был применён подход от обратного и произведён поиск способов, при помощи которых человеческое мышление может быть интерпретировано на компьютере. Как видно из мировой практики, на сегодняшний день модель представления знаний представлена семантической сетью, и имеющиеся веб-инструменты ставят своей целью приведение стандартной разметки документов и веб-страниц к прообразу семантической сети, а именно -- сущностям и связям между ними.

Мировые исследования

Тема визуализации информации и связанных с нею проблем появилась в мировых научных исследованиях спустя несколько лет после появления оконных компьютерных интерфейсов, а именно -- во второй половине 80х годов. Появление персональных компьютеров с GUI вывело представление данных на новый уровень абстракции, что поставило перед исследователями новые, нерассмотренные ранее вопросы визуализации информации.

Изначально в основу визуализации были положены идеи семиотики, с течением времени получившие своё развитие в теориях метафор интерфейса и визуализации. Разобраться в имеющихся средствах визуализации и в направлениях их развития можно путём разбора терминологии и анализа тезисов научных работ по данной теме.

Терминология исследований

Прежде всего следует разобраться в используемой терминологии. В рамках данного раздела будет приведён обзор-анализ основных терминов исследований, посвящённых визуализации информации: понятиям метафоры, метафоры интерфейса, метафоры визуализации и повествования.

Суть метафоры как общего понятия заключается в анализе и представлении явлений и сущностей одного рода через осмысление и интерпретацию параметров и явлений другого рода.

Владимир Лазаревич Авербух в своей работе «Метафора интерфейса и метафора визуализации. Какая теория нам нужна?» описывает роль метафоры в современной науке как основную ментальную операцию, как способ познания, структурирования и объяснения мира. Исторические корни изучения метафоры находят своё начало в филологии и семиотике, переместившись с течением времени в философию, затем -- в науковедение. На сегодняшний день метафора широко используется в науке как инструмент для визуализации и описания ментальных представлений и процессов, позволяет создавать языки и инструменты для описания новых явлений.

Метафора интерфейса преследует цель улучшения взаимодействия пользователя с системой через определение набора инструментов интерфейса и шаблонов поведения, систематизирующих работу с HCI.

Идеи, лежащие в основе появления и развития интерфейсных метафор, широко представлены в работе В.Л. Авербуха «Magic fairy tales as a source for interface metaphors». В рамках данной работы рассматриваются методы применения метафор и абстракций из литературных произведений в сфере HCI.

Метафора визуализации в работах Ролдугина Сергея на сайте «Методы и алгоритмы подготовки к визуализации» определяется как отображение, использующее для объектов одной области систему аналогий и приближений с другой областью, а также порождающее визуальный ряд с доступным набором методов взаимодействия.

Понятие повествования в современной науке лучше описать высказыванием из книги «Entity-based collaboration tools for intelligence analysis» от E.A. Bier, S.K. Card и J.W. Bodnar: «Повествование -- это мощная абстракция, используемая аналитиками разведки для осмысления угроз и понимания моделей действий в рамках аналитического процесса».

Термин повествования в сфере HCI наиболее широко представлено в работах Chris Baber, Dan Andrews, Tom Duffy и Richard McMaster «Sensemaking as Narrative: Visualization for Collaboration» и «Visualizing Interactive Narratives: Employing a Branching Comic to Tell a Story and Show its Reading», где ключевой его особенностью определена взаимосвязь описываемых в модели событий. Именно связи между событиями и их описание делают из истории повествование.

Основные тезисы исследований/

Метафора как основа современных GUI. Роли метафор в современных графических интерфейсах посвящено множество исследований и практических работ на самые разнообразные темы: от метафорических основ проектирования фирменного стиля и айдентики брендов до разработки семантических моделей и визуализации знаний.

Так, например, Аарон Уолтер в своей книге «Designing for emotion» широко описывает принцип метафоры в проектировании визуальной идентификации и планировании эмоций пользователь, основывая свой подход на метафоре характера личности в графическом интерфейсе. Наибольшее же внимание роли метафоры в проектировании интерфейсов и визуализации информации уделяет Владимир Авербух в следующих своих работах:

· «Magic fairy tales as a source for interface metaphors»;

· «Метафора интерфейса и метафора визуализации. Какая теория нам нужна?»;

· И в совместной работе «Searching and analysis of interface and visualization metaphors».

В первой из перечисленных работ проводятся параллели между интерфейсными инструментами и моделями, описанными в народных сказках. Метафоры и приёмы, используемые в сказках, по мнению автора, являются ярким и успешным примером использования метафор в объяснении тематической сферы и управлении сущностями. Как ни странно, Владимир Авербух -- не первый автор, упоминающий в своих исследованиях опыт сказок: ту же отсылку делает и Chris Baber в исследовании «Sensemaking as narrative: Visualization for Collaboration», определяя русские народные сказки как первые шаги к формированию повествований с описанием связей между объектами.

Во второй упомянутой работе наибольшее внимание уделяется теориям метафоры интерфейса и метафоры визуализации, а также описывается история становления метафоры как научного инструмента. Наиболее интересные тезисы исследования касаются целей использования метафоры и методологии её применения. Согласно работе, общая цель использования метафоры в интерфейсе состоит в повышении выразительности изучаемых объектов. Особенность использования же метафоры заключается в необходимости искать источник принципов метафоры не в бытовых реалиях, а в деятельности пользователя по решению поставленных задач.

В последней из упомянутых работ В.Л. Авербух максимально раскрывает тему метафор как эффективного инструмента для анализа и обработки информации, определяя 4 критерия создания качественной метафоры в интерфейсе:

· Схожесть свойств объектов в исходной и целевой областях;

· Возможность графического представления объектов исходной области;

· Узнаваемость объектов исходной области;

· Богатый набор взаимосвязей между объектами исходной области.

Повествовательная модель подачи информации и прообраз семантической сети. Много внимания повествовательной модели в своих работах уделяет Chris Baber, подчеркивая важность не только наличия сущностей как прообраза объектов и событий, но и типизации их взаимосвязей. Так, в статье «Sensemaking as Narrative: Visualization for Collaboration» рассматривается важность построения модели семантической сети для моделирования событийной цепочки в ходе проведения расследований.

Кроме того, в этой же работе определена общая последовательность действий в ходе моделирования области знаний:

· Определение набора «стенсилов» описываемой области в достаточном количестве для создания повествовательных моделей;

· Проектирование повествовательной модели по принципу «сверху вниз» для постепенного погружения в детали. Здесь не лишним будет отметить, что важна не столько точность, сколько связность итогового повествования;

· Описание связей между сущностями модели. Именно это, по мнению автора, отличает повествование от истории и открывает широкие возможности по её анализу.

Отдельно следует отметить, что даже самая детализированная модель нуждается в индивидуальном подходе, чтобы можно было выделить суть. Преимущества использования метафор и плюсы приведения модели к виду семантической сети заключаются не только в лучшем и более развернутом представлении информации, но и в возможности акцентировать внимание на особо важных местах модели. Из этой особенности повествования вытекает следующий тезис:

Интерактивная форма подачи информации позволяет пользователям лучше достигать намеченных целей, управлять глубиной просмотра и фокусироваться на нужных местах модели. Исследованиям данного утверждения на экспериментальных группах учащихся посвящена работа Chris Baber и Daniel Andrews «Visualizing Interactive Narratives: Employing a Branching Comic to Tell a Story and Show its Readings». В ходе исследования подтверждается утверждение автора о том, что интерактивная и управляемая форма подачи информации проявляет себя лучше линейной, хотя в большинстве реализаций и имеет существенный недостаток: отсутствие видения общего объёма модели.

Интерактивность моделей открывает новые возможности и перед разработчиками -- в частности, новый подход к упорядочению информации. В своей книге «User-Centred Design of Systems» Jan Noyes и Chris Baber описывают концепцию разбиения информации и GUI на уровни, что позволяет равномерно распределить детализацию информации по всей глубине модели «сверху вниз», тем самым позволив пользователю фокусировать внимание на интересующих его областях, не теряя связи с общим видом модели визуализации и графического интерфейса.

Последнему тезису, который следует затронуть в рамках данной работы, посвящена одна из наиболее старых статей, проанализированных в ходе исследования: «What's Special About Visualization?» от Alan M. MacEachren и Mark Monmonier. Не смотря на 1992 год издания, статья затрагивает достаточно фундаментальные вопросы, как то:

· Цели использования визуализации в компьютерных системах;

· Инструменты компьютерной визуализации;

· Подходы к использованию визуализации в картографических системах.

Главное -- создать у пользователя шаблон поведения в системе. Именно этот тезис дополняет предыдущие до полного ответа на задаваемые автором вопросы. Благодаря специфике сферы картографии, применительно к которой проводилось исследование, взгляд на область визуализации был представлен с нового ракурса, и особое внимание в работе уделено инструментарию.

Если убрать средства, применимость которых в современных компьютерных системах заменена более совершенными аналогами, 3 ключевых инструмента успешной визуализации -- это проектирование взаимодействия с системой, использование анимации и ссылок на развернутое содержание.

Интерпретация результатов исследований

Проанализировав широкий набор научных и практических изданий на темы визуализации информации, проектирования UX, разработки UI и создания визуальной айдентики, можно прийти к следующим выводам:

· Создание новых моделей взаимодействия с системой берёт свою основу в теории метафор;

· Прообраз успешной информационной модели схож с семантической сетью, дополненной описаниями субъектов и событий, а также описанием их взаимосвязей;

· Интерактивность модели позволяет управлять вниманием пользователя и фокусироваться на интересующих местах;

· Построенная с применением интерфейсных метафор информационная модель должна вырабатывать у пользователя паттерны поведения;

· Для успешного раскрытия информации моделью следует проектировать взаимодействие с системой, использовать анимацию и уточняющие ссылки.

Проанализировав технологическую базу работы с информацией, проведя обзор-анализ действующих моделей компьютерной визуализации и проанализировав ведущие исследования по теме визуализации информации и HCI, можно перейти к разработке собственного решения. Подробнее об этом в следующей главе.

Глава III. Технология инфологических моделей

В рамках проекта Пeнcиoнкa РФ, посвящённого пенсионному рынку, мною в сотрудничестве с ведущим разработчиком студии Netbell была спроектирована и разработана технология, получившая название «инфологические модели». Перед проектом было поставлено множество задач, большинство из которых относятся к коммерческой сфере, однако базировался проект на идее удобной работы с большой базой справочно-новостной информации, построенной относительно ограниченного количества субъектов. Таким образом, цель упомянутого портала -- собрать информацию о пенсионной системе и дать пользователю возможность наиболее удобно с ней работать. Стоит также отметить, что размещаемая на портале информация носит как справочный, так и новостной характер, а значит, оперирует не только терминами, но и событиями.

С учётом перечисленных в первой главе технологий работы с информацией, а также проанализированных во второй главе методологий визуализации данных и исследований на данную тему, в основу портала была положена технология инфологических моделей, вобравшая в себя основные принципы семантических сетей, открытых данных и банков данных, а также базирующаяся на современных методологиях визуализации информации и знаний.

Описание технологии.

Инфологические модели -- это новый интуитивный способ визуализации информации, который позволяет улучшить восприятие, эргономику и автоматизированный анализ данных за счёт представления информации в виде связного интерактивного графа, понятного человеку.

Подробное описание технологии стоит начать с разбора типовой схемы инфологической модели на примере событийной цепочки из 2х участвующих субъектов:

Рисунок 13. Схема событийной цепочки из событий

Левый объект на схеме представляет собой действие, совершенное субъектом А, которое привело, породило или перетекло в совершение действия субъектом Б.


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.