Разработка алгоритма и программы автоматической обработки материалов для информационного ресурса

Обзор электронного документа, его информационное содержание и виды. Разработка программы автоматической обработки текстовых материалов: выбор сред разработки, извлечение понятийной области, получение стека суждений. Стандарты кодирования информации.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 10.05.2014
Размер файла 3,9 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

ФЕДЕРАЛЬНОЕ АГЕНТСТВО СВЯЗИ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ

БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ

ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ТЕЛЕКОММУНИКАЦИЙ им. проф. М.А. БОНЧ-БРУЕВИЧА»

Дипломный проект на тему

Разработка алгоритма и программы автоматической обработки материалов для информационного ресурса

Санкт-Петербург 2013 г.

Реферат

В материалах пояснительной записки к дипломному проекту рассмотрены вопросы организации автоматической процедуры формирования тестов, для проверки потенциала знаний учащихся, прошедших ознакомление с текстовыми материалами, которые являются основой компьютерного - программного синтеза набора тестов, реализуемых в интерактивном режиме с учетом особенностей построения фраз и словосочетаний естественного языка

Abstract

In materials of the explanatory note to the degree project questions of the organization of automatic procedure of formation of tests, for check of potential of knowledge of the pupils who have passed acquaintance with text materials which are a basis computer - program synthesis of a set of the tests realized in an interactive mode taking into account features of creation of phrases and phrases of a natural language are considered

Введение

Повсеместное использование компьютеров и широкого набора программных продуктов, сформировало новые представления о возможности разработки и создания интеллектуальных агентов, на основе программных модулей, обладающих большими возможностями усиления творческих усилий человека. Принимая во внимание исторически сложившиеся представления о знаниях, в широком смысле понимания этого термина, основу для создания интеллектуальных агентов составили тексты, чтение которых обогащало человека новыми познаниями. В общем понимании познания можно позиционировать двумя категориями. К первой категории относят общедоступные познания, которые, будучи воспроизведены в тексте или вербально воспринимаются слушателем однозначно и могут быть интерпретированы различным способом для решения практических задач. Вторая категория знаний приобретается посредством целевого изучения набора материалов, например, текстов. Формат текстового документа исторически использовался в обучающем процессе. Текстовый документ, по современным представлениям может быть представлен и в электронном формате. Не акцентируя внимание на семантических аспектах такого позиционирования одного и того же текстового документа, отметим, что прочтение и усвоение знаний, представленных в текстовом документе, требует определенных навыков у читателя, а также является в высшей степени индивидуальным процессом. Следуя этим представлениям, организация учебного процесса - процесса приобретения знаний из текстового документа, обязательно требует проведения тест процедур.

Подготовка тест процедур по заданному набору текстовых материалов исполняется с учетом специфики аудитории тестируемых и, естественно, с учетом базовых знаний. Наличие базовых знаний об обсуждаемой теме, представленной в текстовом документе, может быть приобретено ранее, либо создается непосредственно в процессе прочтения текста. Знания, приобретенные ранее и повторно воспроизводимые в прочитываемом тексте, позволяют сформировать устойчивые долговременные ассоциации - образы тематических сюжетов текстового документа.

Создание устойчивых образов часто требуется для большого количества сфер практической деятельности человека. В качестве примера обычно рассматривают навыки так называемой категории служащих - «синих воротничков». Для такой категории очень важно иметь базовые профессиональные навыки исполнения определенных конкретных работ, причем посредством определенного инструмента и технологий.

Очевидно, с течением времени происходит смена технологий проведения работ, например, электрического монтажа в офисе, жилом помещении. Меняется инструментарий.

Сохранение прежних базовых практических навыков сохраняется, но требует знания новых технологических процедур, умения обращаться с новыми инструментами. На этом этапе целесообразно проводить обучение, ориентированное на приобретение новых знаний.

Такие знания, приобретаемые на основе прочтения текстового материала, требуют проверки. В ряде случаев можно рекомендовать проводить самопроверку, когда служащий после прочтения очередного текстового документа - регламентирующего исполнений определенных работ, самостоятельно осуществляет тест проверку собственных знаний. Аналогично можно рекомендовать проверку знаний, полученных впервые.

Организация тест процедур, для проверки знаний, выделяет две взаимодействующих персоны: обучаемого и преподавателя.

Для преподавателя актуальной задачей является создание или подбор учебного материала, представленного текстом.

Обучаемый знакомясь - прочитывая текст или воспринимая его вербально, со слов преподавателя получает знания. В образовательном процессе часто используется прием «самостоятельного ознакомления с учебным материалом».

Такой прием включает индивидуальные механизмы восприятия потенциала знаний, благодаря которым создается долговременный образ.

Все эти методологические приемы передачи знаний можно расширить, однако следует указать, что после завершения обучающего процесса обязательно требуется провести тестирование.

В современной практике, где повсеместно используются компьютеры и программные продукты, тестирование принято организовывать на тест материалах преподавателя. Тест процедуры формируются преподавателем на основе обучающего текстового материала.

Естественно, чем обширнее исходный текстовый материал, тем продолжительнее период подготовки тестов. В целом, весь процесс подготовки тестов достаточно трудоемок и реализуется посредством использования современных текстовых процессоров, например, таких Word.

Такой же вывод следует сделать и в том случае, когда для передачи знаний требовалось несколько текстовых документов. Тесты создаются преподавателем в формате текстовых фраз. В примитивном варианте предполагаемого ответа для таких фраз используется формат бинарного ответа - да или нет. В сложной формулировке вопроса от обучаемого требуется синтезировать некоторую реплику - суждение.

Следуя введенным представлениям и принимая во внимание актуальность процедуры проверки знаний, в работе представлен материал по разработке алгоритма и программы, позволяющей в автоматическом режиме составить список тестов по исходному текстовому материалу. Отличительной характеристикой такой автоматизированной процедуры является возможность подготовки тестов текстовому материалу, с учетом заранее представленной базы общедоступных знаний, которые позиционируются в виде тезауруса, иначе говоря, словоформ по избранной для подготовки специалиста тематике.

В материалах пояснительной записки последовательно представлены стадии разработки, а также приведены результаты предварительного исследования программы, в рамках европейского проекта RAIL BALTICA GROWTH CORRIDOR, где планируется осуществить дистанционный процесс подготовки специалистов в области транспорта.

Глава 1. Электронный документ

1.1 Информационное содержание документа

Для того, что бы понять, что есть информационное содержание документа, необходимо прояснить, что вообще обозначает термин электронный документ. Существует несколько, взаимозаменяющих и дополняющих друг друга определений.

Электронный документ - это информация, зафиксированная на материальном носителе в виде набора символов, звукозаписи или изображения и предназначенная для передачи во времени и пространстве с использованием средств вычислительной техники и электросвязи с целью хранения и общественного использования.

Другое определение говорит нам, что электронный документ, есть форма представления информации в целях ее подготовки, отправления, получения или хранения с помощью электронных технических средств, зафиксированная на магнитном диске, магнитной ленте, лазерном диске и ином электронном материальном носителе.

Самым лаконичным, является следующее определение: документ, в котором информация представлена в электронно-цифровой форме.

Фактически, электронный документ, лишь способом представления отличается от бумажного документа, и имеет те же характеристики, информационное содержание и информационную ёмкость.

Информационное содержание отражает характер и спецификацию информации, представленной в данном документе. Варианты информации могут варьироваться от технической документации и научного труда, до публицистики или художественного эссе. Классификации, в основу которых положен признак содержания (смысла) документа, называют семантическими. В них производится деление на виды и подвиды в соответствии с признаком содержания документа по отраслям знаний, темам, предметам, проблемам.

Однако независимо от рода представленной информации, имеет место быть, различная информационная ёмкость электронных документов. Документ создается для хранения и передачи социальной информации во времени и/или пространстве. Именно документ организует, систематизирует информацию, дает ее в фиксированном виде. В любом документе она подается в определенном порядке, обобщении, взаимосвязи различных данных.

В документе информация и ее носитель генетически связаны воедино. Однако для понимания сущности документа необходимо условно разделить информационную и материальную стороны документа и рассмотреть их отдельно.

Слово «информация» (лат. informatio -- разъяснение, изложение) имеет множество значений, из которых наиболее общее и широкое -- «отраженное многообразие». Такое значение позволяет рассматривать как информационные многие процессы, происходящие в технических механизмах, живой и неживой природе, в обществе.

Информационную ёмкость документа следует понимать, как количество информации, содержащейся в документе, рассчитываемое на основе суммирования весов смысловых дескрипторов - слов и словосочетаний. Количество информации - в теории информации это количество информации в одном случайном объекте относительно другого. Исходя из этого, крайне сложно рассчитать реальную информационную ёмкость электронного документа, хотя сделать это относительно другого документа представляется возможным.

Электронный документ, содержащий некую информацию, открывает понятие информационного потока, потока данных со смысловым (семантическим) содержанием. Рассматривать этот поток, удобнее всего применительно к некой области действия документа или работы какой либо организации. Информационный поток - совокупность информации, необходимая для осуществления работы системы.

Для каждого, реального объекта технологической работы системы, существует своя информационная копия. Например: некий груз имеет накладную квитанцию, больной в больнице - историю болезни, школьник - дневник или классный журнал. Информационный поток, составленный из этих информационных копий, выходит за границы данной системы. Рассмотрим для примера процесс обучения школьников.

Рисунок 1.1 Схема информационных потоков учебного заведения

Информация о проведении занятий запускает функционирование следующих технологических процессов. Возникает и встречный поток информации: отчёты об успеваемости и посещаемости. Видно, что документы и их информационные копии, могут запускать информационные потоки в различных направлениях и различной информационной ёмкости.

1.2 Виды электронных документов

Электронный документ может использоваться во всех сферах деятельности, где применяются программные и технические средства, необходимые для создания, обработки, хранения, передачи и приема информации. С помощью электронных документов могут совершаться сделки (заключаться договоры), производиться расчеты, осуществляться переписка и передача документов и иной информации.

Электронные документы могут содержать в себе информацию определённого типа, либо смешанного.

Рисунок 1.2 Виды электронных документов

Следует отметить, что у электронного документа, существует больше видов, что говорит о его несомненном преимуществе. Однако наиболее распространёнными, являются текстовые и графические документы.

Текстовые документ представляет из себя последовательность символов (в основном печатных знаков, принадлежащих тому или иному набору символов). Это символы обычно сгруппированы в строки. В современных системах строки разделяются разделителями строк, в прошлом же применялось хранение строк в виде записей постоянной или переменной длины (например на перфокартах). Текстовой документ может содержать как форматированный, так и неформатированный текст.

Графический документ представляет собой файл, содержащий информационную модель изображения объекта, предназначенную для использования в той или иной области компьютерной графики или специально с тем или иным программным средством. Каждому типу графических документов соответствует формат графического файла. Форматом графического файла называется стандартизованная структура данных, в которую преобразуется графический документ при записи на носитель для последующей обработки и хранения.

В документах смешанного типа, совмещены два и более видов представления данных. Их преимуществом является возможность визуализации информации документа, для лучшего понимания и усвоения.

1.3 Электронный документооборот

Документооборот -- движение документов в организации с момента их создания или получения до завершения исполнения или отправления (ГОСТ Р 51141-98); комплекс работ с документами: приём, регистрация, рассылка, контроль исполнения, формирование дел, хранение и повторное использование документации, справочная работа.

Электронный документооборот (ЭДО) -- единый механизм по работе с документами, представленными в электронном виде, с реализацией концепции «безбумажного делопроизводства».

Виды обработки электронных документов бывают нескольких типов:

Общие виды обработки:

· Создание

· Редактирование

· Сохранение

· Переименование

· Перемещение по маршруту

· Помещение в папку

· Индексирование

· Удаление

Специализированные виды обработки:

· Экспертиза

· Согласование, визирование, подписание

· Регистрация

· Классификация

· Исполнение

· Контроль

· Связывание документов по ссылкам

· Поиск

· И другие, определяемые спецификой.

Обработка документа в электронном виде осуществляется в рамках документационного процесса в пределах тех прав доступа, которые предоставлены сотрудникам, являющимся ролями в маршруте документа.

В каждой отрасли или в разных видах деятельности при обработке документов как в бумажном, так и в автоматизированном виде имеется своя специфика, связанная с различиями как в составах обрабатываемых документов, так и в процедурах обработки. В связи с этим для автоматизации специфичных документационных процессов применяются разные системы. Также существует несколько видов документооборота.

Рисунок 1.3 Виды документооборота

Автоматизированный документооборот предназначен для решения большого спектра задач.

Рисунок 1.4 Задачи автоматизированного документооборота

Кроме выше перечисленного, современные СЭД так же реализует дополнительные задачи, которые раньше выполняли отдельные программы:

· Оперативный обмен информацией и документами - вместо электронной почты и интернет пейджеров

· Просмотр ленты новостей компании, ознакомление с опубликованными документами - вместо интернет порталов

· Работа с органайзером и списком персональных поручений - вместо ежедневников

Исходя из задач, стоящих перед автоматизацией документационных процессов, определяется набор требуемых функций, которые должна реализовывать система документооборота:

· Создание атрибутных карточек документов

· Прикрепление к карточкам документов файлов произвольных типов

· Формирование текста документа из предопределённого шаблона с подстановкой в него значений переменных, которые могут быть в карточке документа или базе данных

· Создание версий документов

· Формирование образа электронного документа на бланке с использованием шаблонов

· Сохранение образа документа в файл pdf или Word

· Управление правами доступа пользователей

· Создание маршрутов документов

· Управление движением документов по маршрутам

· Рассылка участникам документационных процессов уведомлений и напоминаний

· Ведение журналов документов

· Ведение справочников и классификаторов

· Регистрация и классификация регистрируемых в СЭД документов

· Формирование поручений

· Поиск карточек документов

· Подписание документов электронной цифровой подписью

· Формирование отчётов и статистики о движении документов

К общесистемным функциям автоматизированного документооборота можно отнести:

· Возможность удалённой работы с документами через интернет

· Использование информационного хранилища СУБД для хранения документов и метаданных

· Возможность одновременной работы с СЭД

· Обеспечение информационной безопасности

· Персональная аутентификация пользователей СЭД

o Шифрование трафика

o Ролевая модель управления доступом

1.4 Авторская идентификация документа

Авторская принадлежность документа, а также его идентификация, всегда являлись актуальным вопросом. У традиционного бумажного документа, существует несколько способов идентификации, например по почерку автора или по его подписи. К сожалению эти способы абсолютно не применимы к электронному документу. Однако существует возможность подписания такого рода документа Электронной Цифровой Подписью (ЭЦП).

Электронная подпись (ЭП), Электронная цифровая подпись (ЭЦП) -- информация в электронной форме, присоединенная к другой информации в электронной форме (электронный документ) или иным образом связанная с такой информацией. Используется для определения лица, подписавшего информацию (электронный документ).

По своему существу электронная подпись представляет собой реквизит электронного документа, позволяющий установить отсутствие искажения информации в электронном документе с момента формирования ЭП и проверить принадлежность подписи владельцу сертификата ключа ЭП. Значение реквизита получается в результате криптографического преобразования информации с использованием закрытого ключа ЭП.

Электронная подпись предназначена для идентификации лица, подписавшего электронный документ, и является полноценной заменой (аналогом) собственноручной подписи в случаях, предусмотренных законом.

Рисунок 1.5 Схема возможностей ЭЦП

Существует несколько схем построения цифровой подписи. Первая схема на основе алгоритмов симметричного шифрования. Данная схема предусматривает наличие в системе третьего лица -- арбитра, пользующегося доверием обеих сторон. Авторизацией документа является сам факт шифрования его секретным ключом и передача его арбитру.

Вторая схема построения цифровой подписи - на основе алгоритмов асимметричного шифрования. На данный момент такие схемы ЭП наиболее распространены и находят широкое применение.

Рисунок 1.6 Варианты схем построения ЭЦП

В России юридически значимый сертификат электронной подписи выдаёт удостоверяющий центр. Правовые условия использования электронной цифровой подписи в электронных документах регламентирует Федеральный закон Российской Федерации от 6 апреля 2011 г. N 63-ФЗ «Об электронной подписи».

1.5 Электронные ресурсы

В настоящее время происходит процесс становления и развития электронных ресурсов, так называемых "сетевых электронных библиотек" и они пользуются очень большой популярностью. Электронная библиотека - это информационная система, позволяющая надежно сохранять и эффективно использовать разнообразные коллекции электронных документов (текстовых, изобразительных, звуковых, видео и др.), локализованных в самой системе, а также доступных ей через телекоммуникационные сети. Электронную библиотеку можно рассматривать как нетиражируемое электронное издание архивных документов.

В России на смену советской системе книгоиздания, состоявшей из 230-250 издательств, пришла совершенно иная структура. Лицензии на право ведения издательской деятельности сегодня имеют более 15 тысяч юридических и физических лиц, отвечающих требованиям Закона РФ "О средствах массовой информации". Как и для большинства развитых стран характерна дифференциация издательств по масштабам и направлениям работы. Постоянно растет число книготорговых организаций, имеющих выход в Интернет. Сегодня Интернет имеют более 300 издательско-книготорговых организаций. Библиотеки являются активными участниками книжного рынка и довольно успешно ведут бизнес, имеют возможность привлекать авторов, оплачивать их творческую работу. Практически все крупные российские библиотеки имеют компьютерные средства, компьютерные сети, работают с Интернетом, переходят к электронным версиям печатных изданий.

Сегодня, в России существуют и создаются электронные библиотеки по самым различным направлениям и на основании самых разных принципов: от гигантской (по российским меркам) библиотеки Машкова, до "цифровой библиотеки коллекции первопечатных славянских книг". Существуют небольшие электронные библиотеки по жанрам (поэзия, проза серебряного века и т.д.), по авторам (Пушкина, Цветаевой, Владимира Высоцкого и т.д.), по событиям (1812 года и др.) Однако деятельность электронных библиотек законодательно не регулируется.

В рамках архива-библиотеки должны быть решены следующие задачи:

· выявление источников комплектования и организация экспертизы ценности электронных копий архивного хранения для формирования страхового фонда;

· формирование электронного каталога как формы реализации НСА;

· фондирование и составление описей фондов в электронном виде как форма реализации учетных функций;

· участие в межархивном обмене дубликатами страхового фонда электронных копий;

· формирование фонда пользования как в локальных, так и сетевых формах доведения до потребителей, представление материалов фонда пользования в электронных публикациях;

· обеспечение сохранности информационных массивов и реализация автоматизированного поиска и доведения информации до конечного потребителя.

В России в соответствии со ст.16 ФЗ "Об авторском праве и смежных правах", автору в отношении созданного им произведения принадлежат исключительные имущественные права на его использование в любой форме и любым способом, в том числе право на воспроизведение, распространение, сообщение для всеобщего сведения по кабелю. Все перечисленные имущественные авторские права могут передаваться другим лицам только на основании авторского договора, который заключается в письменной форме и его существенным условием является размер авторского вознаграждения.

Однако цифровые копии произведений могут использоваться без согласия обладателя исключительных авторских прав и без выплаты ему вознаграждения исключительно в личных целях. Сюда можно отнести домашние компьютерные библиотеки и архивы, экземпляры цифровой подписи, предназначенные для личного использования. Электронные библиотеки, доступ к которым не ограничивается кругом семьи их создателя, под нормы о "свободном" использовании не подпадают. Библиотеки создаваемые, в сети Internet или при учебных заведениях для свободного посещения, корпоративные библиотеки и даже традиционные публичные библиотеки, желающие увековечить свои старые фонды, должны оформить отношения с обладателем исключительных авторских прав еще до начала использования электронных копий произведений.

Также необходимо определить правовой статус Интернет и других электронных библиотек. В соответствии с Федеральным законом "О библиотечном деле" библиотекой является информационное, культурное, образовательное учреждение, располагающее организованным фондом тиражированных документов и представляющее их во временное пользование физическим и юридическим лицам.

1.6 Интеллектуальные основы защиты электронных документов

Впервые термин "электронный документ" был юридически закреплен в Федеральном законе "Об электронной цифровой подписи" от 10.01.2002 года: Электронный документ - это документ, в котором информация представлена в электронно-цифровой форме.

27 июля 2006 года вступил в силу новый Федеральный закон "Об информации, информационных технологиях и о защите информации" № 149-ФЗ. Статья 1 посвящена сфере действия закона. Она практически ничем не отличается от статьи 1 ФЗ "Об информации, информатизации и защите информации. Федеральный закон "Об информации, информационных технологиях и о защите информации регулирует отношения, которые возникают при осуществлении права на поиск, получение, передачу, производство и распространение информации; применении информационных технологий; обеспечении защиты информации.

В ФЗ "Об информации, информационных технологиях и о защите информации" были исключены бывшие в законе 1995 года термины: "информатизация", "информационные процессы", "информационные ресурсы", "информация о гражданах", "средства обеспечения автоматизированных информационных систем и их технологий", "собственник информационных ресурсов, информационных систем и технологий и средств их обеспечения", "владелец информационных ресурсов, информационных систем, технологий и средств их обеспечения", пользователь информации.

ФЗ "Об информации, информационных технологиях и о защите информации" расширил понятие "информация": "Информация - сведения (сообщения, данные) независимо от их представления". В данном контексте термин "информация" становится универсальным, он обозначает любые сведения о ком-либо или о чем-либо, получаемые из любого источника в любой форме: письменной, устной, визуальной и т.д.

В ФЗ "Об информации, информационных технологиях и о защите информации" вызывает множество вопросов определение "документированной информации". Согласно закону документированная информация - это информация, зафиксированная на материальном носителе путем документирования информации. Однако, в ст.11 - Документирование информации, не поясняется, что же такое процесс документирования по существу.

Основной недостаток данного закона состоит в том, что его положения прописаны недостаточно четко, и это прежде всего касается понятийного аппарата. Однако, несомненным достижением является включение в закон статьи, приводящей в единообразие состояние делопроизводства в государственных органах и органах местного самоуправления и приравнивающей электронное сообщение, подписанное электронной цифровой подписью или иным аналогом собственноручной подписи, к бумажному документу, подписанному собственноручной подписью.

1 июля 2007 года был введен в действие новый стандарт в области делопроизводства - Гост Р ИСО 15489-1-2007 "Система стандартов по информации, библиотечному и издательскому делу. Управление документами. Общие требования". Он был создан на основе международного стандарта ISO 15489-1: 2001 "Information and documentation. Records management" ("Информация и документация - Управление документами").

Создание и внедрение стандартов, в практику работы организаций, позволяет не допустить хаоса в сферах документационного и информационного обеспечения управления. Для России это является наиболее актуальным, так как государство фактически не регулирует делопроизводство.

Стандарт регулирует процессы управления документами государственных, коммерческих и общественных организаций. Положения стандарта являются рекомендациями в отношении создания систем управления документами, включения в них документов, а также обеспечения соответствия подлинных документов установленным в стандарте характеристикам (аутентичность, достоверность, целостность, пригодность для использования и др.). Действие Гост Р ИСО 15489-1-2007 распространяется на документы всех форматов и на всех носителях (в том числе и на электронных), создаваемые или получаемые государственной, коммерческой или общественной организацией в процессе ее деятельности или лицом, на которого возложена такая обязанность.

Федеральным законом "О техническом регулировании" от 27.12.2002 № 184 ФЗ было установлено, что стандарт носит рекомендательный характер. Но несмотря на это стандарт содержит руководящие указания по управлению документами в рамках процессов управления качеством и окружающей средой в соответствии с национальными стандартами ГОСТ Р ИСО 9001 и ГОСТ Р ИСО 14001 и обязателен для исполнения в организациях, аттестующихся на соответствии системам менеджмента качества (СМК).

Действие Гост Р ИСО 15489-1-2007 не распространяется на управление архивными документами в архивных учреждениях, но несмотря на это в нем подчеркивается значимость архивной службы при привлечении ее к участию в процессе планирования и внедрения политики процедур управления документами.

В заключении, необходимо отметить, что Гост Р ИСО 15489-1-2007 "Система стандартов по информации, библиотечному и издательскому делу. Общие требования" распространяет единые правила и процедуры управления документами на государственный и частный сектор экономики.

Глава 2. Обработка электронного документа

2.1 Кодирование информации

Кодирование - это процесс преобразования сообщения в комбинацию символов в соответствии с кодом называется кодированием, процесс восстановления сообщения из комбинации символов называется декодированием.

Код -- правило (алгоритм) сопоставления каждому конкретному сообщению строго определённой комбинации символов (знаков) (или сигналов). Кодом также называется отдельная комбинация таких символов (знаков) -- слово. Для различия этих терминов, код в последнем значении ещё называется кодовым словом.

В машинах изначально используется двоичное кодирование для обработки всей информации. Двоичный код -- это способ представления данных в одном разряде в виде комбинации двух знаков, обычно обозначаемых цифрами 0 и 1. Разряд в этом случае называется двоичным разрядом. В случае обозначения цифрами "0" и "1", возможные состояния двоичного разряда наделяются качественным соотношением "1" > "0" и количественными значениями чисел "0" и "1". Используя два двоичных разряда можно закодировать четыре различные комбинации: 00 01 10 11, три двоичных разряда -- восемь: 000 001 010 011 100 101 110 111, и так далее. При увеличении разрядности позиционного двоичного кода на 1, количество различных комбинаций в позиционном двоичном коде удваивается.

Двоичные коды являются комбинациями двух элементов и не являются двоичной системой счисления, но используются в ней как основа. Двоичный код также может использоваться для кодирования чисел в системах счисления с любым другим основанием. Пример: в двоично-десятичном кодировании (BCD) используется двоичный код для кодирования чисел в десятичной системе счисления.

При кодировании алфавитно-цифровых символов (знаков) двоичному коду не приписываются весовые коэффициенты, как это делается в системах счисления, в которых двоичный код используется для представления чисел, а используется только порядковый номер кода из множества размещений с повторениями. В системах счисления k-разрядный двоичный код, (k-1)-разрядный двоичный код, (k-2)-разрядный двоичный код и т. д. могут отображать одно и то же число. Например, 0001, 001, 01, 1 -- одно и то же число -- «1» в двоичных кодах с разным числом разрядов -- k.

При вводе в компьютер текстовой информации происходит ее двоичное кодирование, изображение символа преобразуется в его двоичный код. Пользователь нажимает на клавиатуре клавишу с символом, и в компьютер поступает определенная последовательность из восьми электрических импульсов (двоичный код символа). Код символа хранится в оперативной памяти компьютера.

В процессе вывода символа на экран компьютера производится обратный процесс - декодирование, то есть преобразование кода символа в его изображение. Важно, что присвоение символу конкретного кода - это вопрос соглашения, которое фиксируется в кодовой таблице. Первые 33 кода (с 0 по 32) соответствуют не символам, а операциям (перевод строки, ввод пробела и так далее).

Коды с 33 по 127 являются интернациональными и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.

Коды с 128 по 255 являются национальными, то есть в национальных кодировках одному и тому же коду соответствуют различные символы. В настоящее время существуют пять различных кодовых таблиц для русских букв (КОИ8, СР1251, СР866, Mac, ISO), поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой.

Широкое распространение получил новый международный стандарт Unicode, который отводит на каждый символ не один байт, а два, поэтому с его помощью можно закодировать не 256 символов, а N = 216 = = 65536 различных символов. Эту кодировку поддерживают последние версии платформы Microsoft Windows&Office (начиная с 1997 года).

Рисунок 2.1 Виды представления символов в разных кодировках

Каждая кодировка задается своей собственной кодовой таблицей. Одному и тому же двоичному коду в различных кодировках поставлены в соответствие различные символы. Например, последовательность числовых кодов 221, 194, 204 в кодировке СР1251 образует слово "ЭВМ", тогда как в других кодировках это будет бессмысленный набор символов.

Однако, в большинстве случаев пользователь не должен заботиться о перекодировках текстовых документов, так как это делают специальные программы-конверторы, встроенные в приложения.

2.2 Стандарты кодирования

При вводе текстовой информации в компьютер символы (буквы, цифры, знаки) кодируются с помощью различных кодовых систем, которые состоят из набора кодовых таблиц, размещенных на соответствующих страницах стандартов для кодирования текстовой информации. В таких таблицах каждому символу присваивается определенный числовой код в шестнадцатеричной или десятичной системе счисления, т. е. кодовые таблицы отражают соответствие между изображениями символов и числовыми кодами и предназначены для кодирования и декодирования текстовой информации. При вводе текстовой информации с помощью клавиатуры компьютера каждый вводимый символ подвергается кодированию, т. е. преобразуется в числовой код, при выводе текстовой информации на устройство вывода компьютера (дисплей, принтер или плоттер) по числовому коду символа строится его изображение. Присвоение символу определенного числового кода является результатом соглашения между соответствующими организациями разных стран. В настоящее время нет единой универсальной кодовой таблицы, удовлетворяющей буквам национальных алфавитов разных стран.

Современные кодовые таблицы включают в себя международную и национальную части, т. е. содержат буквы латинского и национального алфавитов, цифры, знаки арифметических операций и препинания, математические и управляющие символы, символы псевдографики. Международная часть кодовой таблицы, базирующаяся на стандарте ASCII (American Standard Code for Information Interchange), кодирует первую половину символов кодовой таблицы с числовыми кодами от 0 до 7F, или в десятичной системе счисления от 0 до 127. При этом коды от 0 до 20 (0 ? 32) отведены функциональным клавишам (F1, F2, F3 и т. д.) клавиатуры персонального компьютера.

ASCII -- американская стандартная кодировочная таблица для печатных символов и некоторых специальных кодов. ASCII представляет собой кодировку для представления десятичных цифр, латинского и национального алфавитов, знаков препинания и управляющих символов. Изначально разработанная как 7-битная, с широким распространением 8-битного байта ASCII стала восприниматься как половина 8-битной. В компьютерах обычно используют расширения ASCII с задействованным 8-м битом и второй половиной кодовой таблицы.

Рисунок 2.2 Пример международной части кодовой таблицы ASCII

Также существуют и другие стандарты кодирования. Один из них - Unicode. Unicode - стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков. Стандарт предложен в 1991 году некоммерческой организацией «Консорциум Юникода» ( Unicode Consortium, Unicode Inc.). Применение этого стандарта позволяет закодировать очень большое число символов из разных письменностей: в документах Unicode могут соседствовать китайские иероглифы, математические символы, буквы греческого алфавита, латиницы и кириллицы, при этом становится ненужным переключение кодовых страниц.

Стандарт состоит из двух основных разделов: универсальный набор символов (UCS, universal character set) и семейство кодировок ( UTF, Unicode transformation format). Универсальный набор символов задаёт однозначное соответствие символов кодам -- элементам кодового пространства, представляющим неотрицательные целые числа. Семейство кодировок определяет машинное представление последовательности кодов UCS.

Коды в стандарте Юникод разделены на несколько областей. Область с кодами от U+0000 до U+007F содержит символы набора ASCII с соответствующими кодами. Далее расположены области знаков различных письменностей, знаки пунктуации и технические символы. Часть кодов зарезервирована для использования в будущем. Под символы кириллицы выделены области знаков с кодами от U+0400 до U+052F, от U+2DE0 до U+2DFF, от U+A640 до U+A69F

К концу 1980-х годов стандартом стали 8-битные символы, при этом существовало множество разных 8-битных кодировок. Это объяснялось как постоянным расширением круга поддерживаемых языков. В результате появилось несколько проблем

Рисунок 2.3 Виды проблем и варианты их решений для Unicode

Консорциум Юникода работает в тесной связи с рабочей группой ISO/IEC/JTC1/SC2/WG2, которая занимается разработкой международного стандарта 10646 (ISO/IEC 10646). Между стандартом Юникода и ISO/IEC 10646 установлена синхронизация, хотя каждый стандарт использует свою терминологию и систему документации.

Сотрудничество Консорциума Юникода с Международной организацией по стандартизации ( International Organization for Standardization, ISO) началось в 1991 году. В 1993 году ISO выпустила стандарт DIS 10646.1. Для синхронизации с ним Консорциум утвердил стандарт Юникода версии 1.1, в который были внесены дополнительные символы из DIS 10646.1. В результате значения закодированных символов в Unicode 1.1 и DIS 10646.1 полностью совпали.

В дальнейшем сотрудничество двух организаций продолжилось. В 2000 году стандарт Unicode 3.0 был синхронизирован с ISO/IEC 10646-1:2000. Предстоящая третья версия ISO/IEC 10646 будет синхронизирована с Unicode 4.0. Возможно, эти спецификации даже будут опубликованы как единый стандарт.

Аналогично форматам UTF-16 и UTF-32 в стандарте Юникода, стандарт ISO/IEC 10646 также имеет две основные формы кодирования символов: UCS-2 (2 байта на символ, аналогично UTF-16) и UCS-4 (4 байта на символ, аналогично UTF-32). UCS значит универсальный многооктетный (многобайтовый) кодированный набор символов (universal multiple-octet coded character set). UCS-2 можно считать подмножеством UTF-16 (UTF-16 без суррогатных пар), а UCS-4 является синонимом для UTF-32.

2.3 Форматы представления текстовых файлов

Формат файлов определяет способ хранения текста в файле. Простейший формат содержит только числовые коды символов, другие форматы содержат дополнительные управляющие числовые коды, которые обеспечивают форматирование текста.

Существуют универсальные форматы и оригинальные форматы, которые используются отдельными текстовыми редакторами. Для преобразования текста из одного формата в другой используются специальные программы - конвертеры.

Расширение имени файла (filename extension, часто говорят просто расширение файла или расширение) -- последовательность символов, добавляемых к имени файла и предназначенных для идентификации типа (формата) файла. Это один из распространённых способов, с помощью которых пользователь или программное обеспечение компьютера может определить тип данных, хранящихся в файле.

Расширение обычно отделяется от основной части имени файла точкой. В операционных системах CP/M и MS-DOS длина расширения была ограничена тремя символами, в современных операционных системах это ограничение отсутствует. Иногда могут использоваться несколько расширений, следующих друг за другом, например, «.tar.gz».

Рисунок 2.4 Графическое представление некоторых текстовых форматов

Начнём рассмотрение текстовых расширений с формата TXT. Он является изначальным, простейшим текстовым форматом. Текст хранится в виде последовательности символов и размер файла в байтах равен числу символов, плюс непечатаемые, такие как пробел, абзац и др. За счёт этого достигается малый размер файла. Однако возможности по форматированию подобных документов сильно ограничены. Легко переводиться в формат DOC и DOCX. Фактически расширение .txt служит лишь для открытия текста в программе по умолчанию.

Следующим, рассмотрим формат doc. Формат .DOC или .doc -- расширение имени файла, используемое для файлов, представляющих текст, с разметкой или без.

Расширение .DOC часто использовалось для обозначения простых текстовых файлов без форматирования, однако позже стало использоваться для двоичных форматов с разметкой.

В 1990-х корпорация Microsoft стала использовать расширение для серии форматов файлов своего текстового процессора Microsoft Word. В результате монополии Microsoft на рынке офисных продуктов «DOC» стало синонимом этого формата файлов. Другие значения расширения «.doc» практически вышли из употребления на платформе IBM PC.

Двоичные файлы формата DOC содержат большее количество информации о форматировании текста (например, сценарии), чем файлы документов, использующие другие форматы Microsoft (RTF и др.), но хуже совместимы с текстовыми редакторами сторонних разработчиков. И сами файлы, созданные Microsoft Word разных версий, не всегда совместимы между собой.

С появлением Microsoft Office 2007, компания Microsoft перешла на новые форматы, базирующиеся на Office Open XML . Office Open XML (OOXML, DOCX, проект ISO/IEC) -- серия форматов файлов для хранения электронных документов пакетов офисных. Формат представляет собой zip-архив, содержащий текст в виде XML, графику и другие данные, которые могут быть переведены в последовательность битов (сериализованы) с применением защищённых патентами двоичных форматов, спецификации которых были опубликованы Microsoft для пользователей OOXML на условиях Microsoft Open Specification Promise.

Первоначально формат создавался как замена прежнему двоичному формату документов, который использовали приложения Microsoft Office вплоть до версии Office 2003 включительно. В 2006 году формат Office Open XML был объявлен свободным и открытым форматом Ecma International. Он является форматом по умолчанию для приложений Microsoft Office 2007 и более поздних версий.

ODF (Open Document Format, for Office Application) -- открытый формат файлов документов для хранения и обмена редактируемыми офисными документами, в том числе текстовыми документами (такими как заметки, отчёты и книги), электронными таблицами, рисунками, базами данных, презентациями.

Стандарт был разработан индустриальным сообществом OASIS и основан на XML-формате. 1 мая 2006 года принят как международный стандарт ISO/IEC 26300.

Стандарт был совместно и публично разработан различными организациями, доступен для всех и может быть использован без ограничений. Open Document представляет собой альтернативу частным закрытым форматам, (включая Word (.doc), Excel (.xls) и PowerPoint (.ppt) -- форматы, используемые в Microsoft Office 97--2003), а также формату Microsoft Office Open XML.

Open Document является единственным стандартом для редактируемых офисных документов, утверждённым независимым комитетом по стандартам и реализованным несколькими поставщиками программного обеспечения. Open Document может быть использован любым поставщиком ПО, включая, в том числе, поставщиков закрытого программного обеспечения и разработчиков, использующих GNU GPL.

PDF (Portable Document Format) -- кроссплатформенный формат электронных документов, созданный фирмой Adobe Systems с использованием ряда возможностей языка PostScript. В первую очередь предназначен для представления в электронном виде полиграфической продукции, -- значительное количество современного профессионального печатного оборудования может обрабатывать PDF непосредственно. Традиционным способом создания PDF-документов является виртуальный принтер, то есть документ как таковой готовится в своей специализированной программе -- графической программе или текстовом редакторе, САПР и т. д., а затем экспортируется в формат PDF для распространения в электронном виде, передачи в типографию и т. п. PDF с 1 июля 2008 года является открытым стандартом ISO 32000.

Формат PDF позволяет внедрять необходимые шрифты (построчный текст), векторные и растровые изображения, формы и мультимедиа-вставки. Поддерживает RGB, CMYK, Grayscale, Lab, Duotone, Bitmap, несколько типов сжатия растровой информации. Имеет собственные технические форматы для полиграфии: PDF/X-1, PDF/X-3. Включает механизм электронных подписей для защиты и проверки подлинности документов. В этом формате распространяется большое количество сопутствующей документации.

Чаще всего PDF-файл является комбинацией текста с растровой и векторной графикой, реже -- текста с формами, JavaScript, 3D-графикой и другими типами элементов.

DjVu -- технология сжатия изображений с потерями, разработанная специально для хранения сканированных документов -- книг, журналов, рукописей и прочее, где обилие формул, схем, рисунков и рукописных символов делает чрезвычайно трудоёмким их полноценное распознавание. Также является эффективным решением, если необходимо передать все нюансы оформления, например, исторических документов, где важное значение имеет не только содержание, но и цвет и фактура бумаги; дефекты пергамента: трещинки, следы от складывания; исправления, кляксы, отпечатки пальцев; следы, оставленные другими предметами и т. д.

DjVu стал основой для нескольких библиотек научных книг. Он довольно популярен, и в нём делается большое количество разных документов.

Формат оптимизирован для передачи по сети таким образом, что страницу можно просматривать ещё до завершения загрузки файла. DjVu-файл может содержать текстовый (OCR) слой, что позволяет осуществлять полнотекстовый поиск по файлу. Кроме того, DjVu-файл может содержать встроенное интерактивное оглавление и активные области -- ссылки, что позволяет реализовать удобную навигацию в DjVu-книгах.

Для сжатия цветных изображений в DjVu применяется специальная технология, разделяющая исходное изображение на три слоя: передний план, задний план и чёрно-белую (однобитовую) маску. Маска сохраняется с разрешением исходного файла; именно она содержит изображение текста и прочие чёткие детали. Разрешение заднего плана, в котором остаются иллюстрации и текстура страницы, по умолчанию понижается для экономии места. Передний план содержит цветовую информацию о маске; его разрешение обычно понижается ещё сильнее. Затем задний и передний планы сжимаются с помощью вейвлет - преобразования, а маска -- алгоритмом JB2.

Особенностью алгоритма JB2 является то, что он ищет на странице повторяющиеся символы и сохраняет их изображение только один раз. В многостраничных документах каждые несколько подряд идущих страниц пользуются общим «словарём» изображений.

Для сжатия большинства книг можно обойтись только двумя цветами. В этом случае используется всего один слой, что позволяет достичь рекордной степени сжатия. В типичной книге с чёрно-белыми иллюстрациями, отсканированной с разрешением 600 dpi, средний размер страницы составляет около 15 Кб, то есть приблизительно в 100 раз меньше, чем исходный файл. В присутствии сложного заднего плана выигрыш объёма составляет обычно 4--10 раз. Однако при стандартных настройках в DjVu используется сжатие данных с потерями, поэтому для особо важных документов обычно используются форматы сжатия без потерь: PNG, JPEG 2000, TIFF и т. п. В DjVu также можно использовать и сжатие данных без потерь. Так например утилита CJB2 из пакета DjVuLibre предоставляет сжатие без потерь.

Последним из рассматриваемых форматов, будет формат HTML. HTML (Hyper Text Markup Language) -- стандартный язык разметки документов в интернете. Большинство веб-страниц создаются при помощи языка HTML (или XHTML). Язык HTML интерпретируется браузерами и отображается в виде документа в удобной для человека форме.

HTML является приложением («частным случаем») SGML (стандартного обобщённого языка разметки) и соответствует международному стандарту ISO 8879. XHTML же является приложением XML.

Изначально язык HTML был задуман и создан как средство структурирования и форматирования документов без их привязки к средствам воспроизведения (отображения). В идеале, текст с разметкой HTML должен был без стилистических и структурных искажений воспроизводиться на оборудовании с различной технической оснащённостью (цветной экран современного компьютера, монохромный экран органайзера, ограниченный по размерам экран мобильного телефона или устройства и программы голосового воспроизведения текстов). Однако современное применение HTML очень далеко от его изначальной задачи. Например, тег <TABLE>, несколько раз использованный для форматирования страницы, которую вы на данный момент читаете, предназначен для создания в документах самых обычных таблиц, но, как можно убедиться, здесь нет ни одной таблицы. С течением времени основная идея платформонезависимости языка HTML была принесена в жертву современным потребностям в мультимедийном и графическом оформлении.

HTML -- теговый язык разметки документов. Любой документ на языке HTML представляет собой набор элементов, причём начало и конец каждого элемента обозначается специальными пометками -- тегами. Элементы могут быть пустыми, то есть не содержащими никакого текста и других данных (например, тег перевода строки <br>). В этом случае обычно не указывается закрывающий тег. Кроме того, элементы могут иметь атрибуты, определяющие какие-либо их свойства (например, размер шрифта для элемента font). Атрибуты указываются в открывающем теге.

2.4 Текстовые процессоры и редакторы

Текстовый процессор -- компьютерная программа, используемая для написания и модификации документов, компоновки макета текста и предварительного просмотра документов в том виде, в котором они будут напечатаны (свойство, известное как WYSIWYG).

Современные текстовые процессоры помимо форматирования шрифтов и абзацев и проверки орфографии включают возможности, ранее присущим лишь настольным издательским системам, в том числе создание таблиц и вставку графических изображений.


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.