Электронные библиотеки как информационные ресурсы
Характеристика общих вопросов организации электронных ресурсов. Принципы взаимодействия Интернет-ресурсов и процесса формирования каталогов электронных изданий. Анализ концепции построения электронных библиотек и организации информационных ресурсов в них.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 24.11.2012 |
Размер файла | 111,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Обратимся теперь к уровням интеграции данных. В системах логической интеграции данных преодолевается неоднородность интегрируемых источников информационных ресурсов относительно поддерживаемых ими моделей данных и/или схем данных. Эта неоднородность преодолевается динамически - на стадии исполнения. В то же время, семантическая неоднородность данных, принадлежащих разным источникам, преодолевается на стадии разработки. В системах семантической интеграции данных семантическая неоднородность данных из разных интегрируемых источников преодолевается на стадии исполнения.
В проблематике семантической интеграции данных важное место занимают разработки, связанные с использованием онтологических спецификаций предметной области. При этом в системе интеграции поддерживаются общая онтология системы и частные онтологии отдельных интегрируемых источников, обеспечиваются отображения между частными онтологиями и общей онтологией. Исследования и разработки по семантической интеграции данных в последние годы весьма активно проводятся в области молекулярной биологии. Оригинальный подход к семантической интеграции информации с использованием развитой семантической модели данных в качестве канонической модели данных посредника, а также разработанного авторами метода построения предметных посредников, реализуется в проекте Института проблем информатики РАН.
Интеграция неструктурированных данных также стала попадать в последние годы в сферу проблематики систем интеграции данных.
Своеобразный класс систем интеграции представляют системы, основанные на технологии Инициативы открытых архивов (Open Archives Initiative, OAI). В большинстве известных систем этой категории их информационные ресурсы представляют собой коллекции текстовых документов, чаще всего научных публикаций, которые автономно формируются в узлах глобальной сети, поддерживаются и администрируются их владельцами. Важно заметить, однако, что информационные ресурсы открытого архива не обязательно должны быть текстовыми документами. Это могут быть также структурированные или слабоструктурированные данные, а также смесь структурированных, слабоструктурированных и/или неструктурированных данных.
В соответствии с технологией OAI, предусматривается материализованная интеграция в едином репозитории не самих информационных ресурсов, интересующих пользователей системы интеграции, а представленных некоторым стандартным образом метаданных, описывающих коллекции информационных ресурсов источников данного архива и отдельные элементы этих коллекций. Сбор таких метаданных для репозитория осуществляется в соответствии со специально разработанным протоколом Open Archives Initiative Protocol for Metadata Harvesting. Централизованно поддерживаемый репозиторий метаданных доступен сервису открытого архива, который обрабатывает запросы его пользователей.
Примерами электронных библиотек, основанных на принципах и технологии OAI, являются уже упоминавшиеся выше международная электронная библиотека по общественным наукам RePec и отечественная электронная библиотека по общественным наукам Соционет.
Одним из важных аспектов систем интеграции данных является архитектура таких систем. В многочисленных известных проектах систем интеграции данных можно обнаружить не только различные подходы к архитектуре данных, но и некоторое разнообразие других аспектов их архитектуры - архитектуры взаимодействия функциональных компонентов системы интеграции, их сетевой архитектуры и др. Так, на практике часто используется не только архитектурный подход «клиент-сервер», но и децентрализованная архитектура P2P. В этом случае обычно не поддерживается глобальная схема интегрированных информационных ресурсов, и используются попарные отображения представлений данных узлов (peer), обменивающихся данными. Кроме того, часто используются архитектура промежуточного слоя, а также Web-сервисная архитектура.
В связи с востребованностью и активным развитием грид-технологий, особое внимание уделяется в настоящее время технологиям интеграции данных на основе гридов данных. Практическая реализация возможных в этой области подходов существенным образом связана с созданием комплекса стандартов, необходимых для разработки основанных на них систем интеграции данных. Важную роль в этом направлении играет деятельность консорциума Global Grid Forum (GGF) - признанного органа стандартизации грид-технологий. Недавно Рабочая группа консорциума Database Access and Integration Services Working Group опубликовала спецификации WS-DAI (Web Service Data Access and Integration), определяющие интерфейсы Web-сервисов, обеспечивающих доступ к источникам данных, независимо от модели данных, в терминах которой представляются их информационные ресурсы. Кроме того, разработаны расширения этих спецификаций для реляционных и XML-ориентированных систем баз данных (WS-DAIR и WS-DAIX). Тем самым созданы основы стандартизации доступа к информационным ресурсам указанного вида в среде, основанной на грид-технологиях, которая, как известно, базируется на Web-сервисной архитектуре. Обзор указанного семейства спецификаций можно найти в работе. Полные их тексты доступны на Web-сайте консорциума GGF (http://www.ggf.org).
В последнее время проблеме интеграции информационных ресурсов уделяется большое внимание поставщиками индустриальных технологий. Наиболее развитые средства для решения этой проблемы основаны на архитектуре промежуточного слоя. К этой категории относится, например, IBM WebSphere Information Integrator - технология компании IBM для интеграции неоднородных структурированных, слабоструктурированных и неструктурированных данных. Продукты семейства Data Hub компании Oracle обеспечивают интеграцию структурированных данных из множества неоднородных источников с использованием большого набора конверторов данных, ориентированных на преобразование многочисленных форматов представления данных.
Важнейшей тенденцией развития технологий управления информацией в последние годы стала конструктивно осуществляемая на уровне индустриальных технологий попытка обеспечения доступа пользователей к информационным ресурсам на уровне семантики. Исследовательские работы в этой области проводятся с разной степенью интенсивности уже более трех десятилетий. В технологиях баз данных в 70-80-х гг. создавались семантические модели данных, велись работы на стыке технологий баз данных и баз знаний. Были созданы различные прототипы. Однако результаты этих исследований не привели к созданию индустриальных технологий. Эта проблема вновь была поставлена на повестку дня участниками упоминавшейся ранее Лоуэллской дискуссии о перспективах развития технологий баз данных. Цели дискуссии состояли в том, чтобы оценить вызовы времени и сформулировать перспективные, с точки зрения экспертов-участников, направления развития технологий баз данных. В отчете о дискуссии в качестве одного из таких направлений признается использование подходов текстовых систем и семантического Web, позволяющих формулировать запросы на основе онтологий в терминах предметной области.
В области технологий текстового поиска еще во второй половине 60-х годов под руководством основателя современных технологий текстового поиска Дж. Сэлтона проводились исследования и разработки методов поиска текстовых документов на основе их содержания, была предложена векторная модель поиска. Сегодня эти подходы широко используются во многих создаваемых системах текстового поиска в качестве основы поисковых механизмов. В последние годы в области систем текстового разработаны подходы, использующие в процессе поиска документов формальные или полуформальные онтологии предметной области.
Что касается Web-технологий, то именно с указанной целью создателем Всемирной паутины Т. Бернерсом-Ли во второй половине 90-х годов была провозглашена задача создания семантического Web -- Web нового поколения, который, в отличие от действующей версии Web, ориентирован на взаимодействие не только с человеком, но и способен обеспечить совместную работу с его ресурсами человека и компьютерных агентов. Технологии семантического Web успешно разрабатываются консорциумом W3C.
Для решения указанной проблемы необходимо стандартизовать средства явного описания семантики информационных ресурсов и средства пользовательского интерфейса семантического уровня. В настоящее время консорциум W3C располагает стандартом RDF описания контента информационных ресурсов. Завершается разработка языка запросов в терминах RDF-спецификации ресурсов (язык SPARQL). Кроме того, разработаны полуформальные и формальные языковые средства описания онтологий -- стандарты RDFS и OWL. Наконец, создается язык правил для работы на уровне онтологий, который позволит реализовать методы логического вывода в среде, поддерживающей указанные стандарты семантического Web.
Нужно, наконец, отметить, что в системах текстового поиска, а также в рамках Web-технологий, широкое применение для описания контента информационных ресурсов в настоящее время находит неформальное средство - набор элементов метаданных Дублинского ядра [20], который имеет статус
официальных стандартов ISO (стандарт ISO: 15836-2003) и ANSI (стандарт ANSI/NISO Z39.85-2001). Дублинское ядро весьма привлекательно благодаря его простоте. Однако оборотной стороной этих его достоинств является некоторая размытость описания, связанная с неоднозначностью трактовки смысла отдельных входящих в него элементов метаданных, а также отсутствие стандартизации представления значений некоторых из них.
Одна из проблем, возникающих в информационных системах при выдаче пользователю информации в ответ на введенный им запрос, заключается в том, чтобы предоставлять пользователю информацию именно в том объеме, в котором он ее запрашивал. Иначе говоря, гранулярность доступа должна соответствовать информационной потребности пользователя.
Выполнение этого требования всегда обеспечивается в системах баз данных. Так, в реляционной системе базы данных результатом обработки запроса всегда является таблица (или представление), включающая только столбцы, которые указаны в целевом списке запроса. Если в запросе предусмотрена операция селекции, то результирующая таблица будет включать только строки, соответствующие заданному критерию селекции.
Указанное требование не всегда выполняется в системах текстового поиска и при доступе к информационным ресурсам в Web. В традиционных системах текстового поиска в результате обработки пользовательского запроса всегда выдается результирующее множество полных документов, даже если пользователя интересуют лишь какие-либо фрагменты этих документов. Подобным образом, в действующей версии Web пользователь может, используя навигационный доступ, всегда извлечь только полную Web-страницу или получить с помощью поисковой машины Web список гиперссылок на полные Web-страницы.
Создаваемые в настоящее время новые технологии управления информационными ресурсами позволяют обеспечить более мелкую гранулярность доступа. С этой целью для систем текстового поиска разрабатываются технологии «вопрос-ответ». Используя их, можно получать в ответ на запрос не полные документы, а их фрагменты, содержащие ответы на сформулированные в запросах пользователей вопросы. В тематике международной конференции Text Retrieval Conference (TREC) [44], которая является движущей силой деятельности по сопоставимой сравнительной оценке эффективности разрабатываемых систем текстового поиска путем проведения сопоставимых испытаний на тестовых коллекциях, предусматривается специальная дорожка, посвященная указанной проблеме.
Что же касается уменьшения гранулярности доступа в Web, то эта проблема решается средствами XML-технологий. В частности, при использовании в качества языка запросов XQuery или XPath в ответ на запрос можно получать не только специфицированные в нем полные XML-документы, но и их фрагменты. Интерфейсы, поддерживающие указанные языки, в настоящее время уже используются в целом ряде XML-ориентированных СУБД. В дальнейшем они будут использоваться и собственно в среде Web, а также в различных репозиториях, поддерживающих XML-данные.
Уже отмечалось, что Web является "средой обитания" электронных библиотек. Поэтому радикальные технологические сдвиги, осуществляемые в этой среде, связанные, прежде всего, с созданием для нее новой технологической платформы, не могут не оказывать влияния на развитие информационных систем этого класса.
Ограничимся здесь кратким перечислением наиболее существенных направлений использования стандартов платформы XML в электронных библиотеках.
К числу указанных направлений относятся:
· Представление коллекций электронных информационных ресурсов в электронных библиотеках.
· Обеспечение навигационного доступа к информационным ресурсам по гиперссылкам с помощью средств, привычных для пользователей Web.
· Обеспечение интерфейсов языков запросов для доступа к информационным ресурсам, представленным в виде XML-документов, на основе элементов их содержания. В качестве языков запросов могут использоваться XQuery, XPath, XSLT, SPARQL.
· Использование представленных с помощью стандартов XML информационных ресурсов в рамках продвинутых Web-приложений, являющихся функциональными компонентами электронных библиотек.
· Использование XML как языка-посредника для обмена данными между различными компонентами распределенных электронных библиотек или различными взаимодействующими электронными библиотеками, в которых Web служит средой транспорта данных.
· Использование стандартов платформы XML для представления метаданных, описывающих свойства информационных ресурсов электронных библиотек. Для этих целей могут использоваться как средства самого языка XML (описание типов документов DTD), так и языковые средства стандартов XML Schema и RDF.
· Предоставление разработчикам электронных библиотек инструментальных средств систем баз данных нового класса (XML-ориентированных баз данных), обеспечивающих эффективную поддержку коллекций информационных ресурсов XML и развитые возможности доступа к ним.
· Использование XML-ориентированных моделей данных в качестве интегрирующих моделей для интеграции данных в электронных библиотеках.
· Предоставление средств описания онтологий (стандарты RDFS, OWL) для электронных библиотек, позволяющих оперировать информационными ресурсами на семантическом уровне.
Глава II. Практика организации электронных ресурсов крупнейших российских библиотек
2.1 Российская государственная библиотека
В рамках национальной задачи формирования в России информационного общества и интеграции в международное информационное общество путем обеспечения свободного доступа пользователей к разнообразным информационным ресурсам проект создания электронной библиотеки РГБ направлен на достижение следующих целей:
обеспечение доступности документов, предоставление которых читателям затруднено или ограничено (редких книг, фотоальбомов, рукописных книг, диссертаций, архивов, недоступных большинству библиотек, и т. п.);
обеспечение доступа к информации, существующей исключительно в электронной форме;
предоставление пользователям качественно новых возможностей работы с большими объемами машиночитаемых данных;
целенаправленное информационное обеспечение различных областей науки, культуры, образования путем создания и предоставления полнотекстовых баз данных в режиме теледоступа. [60]
Ожидаемые результаты
1. Единая база данных (фонд), содержащая электронные документы с единым пользовательским интерфейсом доступа из одной точки ко всем коллекциям, составляющим базу данных ЭБ.
2. Система метаданных ЭБ, в первую очередь -- электронный каталог.
3. Технология надежного накопления, сохранения и использования электронных документов.
Функциональные требования
1.Электронная библиотека РГБ должна обеспечивать пользователям:
доступ к разнородным электронным документам в базе данных ЭБ из одной точки (в среде одного экрана) благодаря единому интерфейсу, включающему единообразно организованные средства поиска в разнородных электронных коллекциях;
возможность единообразно организованного и оперативного поиска в больших объемах разнородной информации;
реализацию новых форм библиотечного и информационного обслуживания пользователей.
2. Требования к обеспечению сохранности книжного фонда:
полученные в результате оцифровывания документов электронные копии должны быть такого качества, чтобы не было необходимости изготавливать повторные копии для нужд микрофильмирования или факсимильного переиздания документа;
цифровые копии печатных документов должны предоставлять эффективный доступ к содержанию оригиналов, способствовать сокращению количества их выдач читателям. [60]
3. Требования к библиотечной технологии:
формирование фонда электронных документов путем сканирования и, в случае необходимости, посимвольной обработки печатных документов;
ведение электронного каталога (ЭК) электронной библиотеки (ЭКЭБ), совместимого с ЭК РГБ, и последующее их слияние;
обработка текстовой информации, изображений, графики, видеоинформации;
архивирование, хранение и защита электронных документов.
Читательское назначение
ЭБ РГБ ориентирована на широкие круги пользователей и решает следующие основные задачи:
просветительскую, в рамках которой формируются коллекции, направленные на распространение общих знаний об истории, культуре, географии, политике России, как в целом, так и по отдельным аспектам;
научную, направленную на содействие глубокому изучения темы (предмета) научными работниками и специалистами высокого уровня подготовки; для РГБ приоритетными аудиториями являются библиотекари, книговеды, культурологи, специалисты в области общественных и гуманитарных дисциплин;
образовательную, в рамках которой осуществляется поддержка как формального, так и неформального образования, путем предоставления не только учебного материала, но и необходимой дополнительной литературы в виде авторитетных монографий;
справочную, направленную на необходимость удовлетворения потребности в информации одноразового характера по широкому кругу знаний; основу составляют издания энциклопедического характера;
фондообразующую -- ЭБ будет дополнять традиционный фонд РГБ документами, имеющимися только в электронном виде, и восполнять существующие в фонде лакуны за счет легитимного приобретения электронных копий с печатных документов. [60]
Правовые вопросы
1. В основе работы по формированию ЭБ лежат следующие Законы Российской Федерации:
“О библиотечном деле”; предоставляет правовую основу для создания электронных библиотечных фондов (статья 12, пункт 3);
Гражданский кодекс РФ (часть четвёртая, вступившая в силу с 1 января 2008 г.) устанавливает авторские права на программы для ЭВМ и электронные издания;
“О правовой охране программ для электронных вычислительных машин и баз данных”; определяет специфику использования, взаимоотношения собственника и пользователя баз данных;
“Об участии в международном информационном обмене”; предусматривает договорные отношения между собственниками электронных документов и пользователями, указывая при этом, что сам факт оказания информационной услуги не создает для последнего права авторства на полученную документированную информацию. Этим законом также предусмотрен механизм правового регулирования -- лицензирование деятельности библиотек по международному информационному обмену;
“Об информации, информатизации и защите информации” (глава 4); регулирует отдельные аспекты библиотечно-информационной деятельности, связанные с созданием и использованием баз данных, электронных каталогов и картотек.
2. При формировании ЭБ и ее предоставлении пользователям принимаются во внимание следующие правовые положения:
РГБ является создателем, держателем и распространителем своей ЭБ и ее фрагментов; иное решается в рамках договорных отношений с партнерами;
переводу в электронную форму подлежат издания, на которые истек срок действия закона “Об авторском праве”; в случае действия авторских прав с их владельцем заключается договор, регулирующий право РГБ выставлять документ от своего лица и на условиях, определяемых самой РГБ;
заимствование электронных документов, произведенных другими лицами или организациями, осуществляется на договорной основе с соблюдением обоюдных интересов, лицензионной и правовой чистоты электронного документа;
в случае принятия законодательного акта, возлагающего на РГБ функции депозитарного хранения электронных документов и предоставления права получения экземпляра электронного документа в обязательном порядке, особым образом оговаривается право РГБ на включение этих документов в ЭБ и условия их предоставления пользователям;
при включении в состав ЭБ документов из общедоступных информационных сетей необходима экспертиза их лицензионной и правовой чистоты. [60]
Состав электронной библиотеки
1. По содержанию:
ЭБ является универсальной по содержанию и включает все виды документов.
Хронологические рамки для документов, включаемых в ЭБ, не устанавливаются.
В качестве приоритетного направления развития ЭБ выбрана тема “Россия: история, культура, вклад в мировую цивилизацию”. На этой основе производится формирование электронных коллекций с определением приоритетов и форм предоставления их пользователям.
ЭБ формируется как на основе сложившихся коллекций изданий (карты, ноты, книги определенного периода), так и путем формирования новых электронных коллекций -- тематических, хронологических, предметных, а также по признаку ценности.
В ЭБ включаются электронные коллекции, создаваемые для информационного обеспечения крупных комплексных программ или проектов (особенно государственного или международного значения), актуальных проблем развития человеческого общества и окружающей среды, включая электронные коллекции для поддержки конкретных исследований и разработок, например, междисциплинарных.
2. По степени доступности:
· Собственно информационные массивы, установленные в сети Интернет/ Интранет.
· Архивы -- информационные массивы, не установленные в сети Интернет/Интранет.
· Резервные копии.
3. По видам предоставления информации:
· электронные текстовые эквиваленты печатных изданий -- книг, журналов и других, когда предполагается, что содержащаяся в них текстовая информация дана в форме, допускающей посимвольную обработку (отдельные фрагменты в таких эквивалентах изданий могут быть представлены как целостные графические образы);
· электронные образы печатных изданий или рукописных материалов, элементы которых (например, страницы, рисунки, фотографии и т. д.) представляются как целостные графические образы;
· базы данных, отвечающие требованиям, предъявляемым к электронным изданиям;
· новые формы публикаций -- электронные объявления, материалы электронных конференций, электронные препринты, электронные сообщения и некоторые другие виды, доступные потребителям через телекоммуникационные сети;
· специальные издания: электронные публикации аудио- и видеоинформации. [60]
Принципы, источники и организация комплектования
1. РГБ будет формировать электронные коллекции, с одной стороны, на основе своих особо ценных коллекций документов в традиционном смысле, определяя их ценность с точки зрения развития мировой и отечественной культуры. С другой стороны, создание конкретного информационного продукта может определяться пользовательским спросом, подкрепляемым соответствующим финансированием. Во втором случае препятствиями могут служить только нарушения законодательства или морально-этических норм.
2. Определяются следующие основные источники комплектования полных текстов документов для ЭБ:
· получение электронных документов из внешних источников (сайты в Интернете, приобретение электронных документов на оптических компакт-дисках, передача полных текстов документов в машиночитаемой форме авторами/правообладателями);
· сканирование документов из фонда РГБ сторонними организациями на основе договоров с РГБ;
· сканирование текстов из фонда РГБ в ее подразделениях;
· передача в ЭБ электронных версий своих традиционных публикаций сотрудников РГБ;
· создание сотрудниками РГБ электронных документов, не имеющих “бумажных” аналогов.
3. Принимается следующий порядок формирования фонда ЭБ:
· проекты создания электронных коллекций для включения их в ЭБ подаются отдельными специалистами, коллективами, администрацией РГБ или сторонними организациями;
· проекты и списки включаемых в электронные коллекции документов рассматриваются на заседании Координационного совета по оцифровыванию изданий. Право выноса проектов на утверждение Совета директоров РГБ принадлежит только Координационному совету;
· проекты электронных коллекций и списки документов на сканирование силами РГБ утверждаются Советом директоров РГБ;
· проект может быть принят как централизованный (в рамках РГБ) и децентрализованный;
· автор(ы) проекта первого типа обязан(ы) разработать перечень включаемых в ЭБ документов и для каждого из них составить паспорт оцифровки, в котором указывается его объем, размеры, требования к способу оцифровывания различных частей и качеству получаемого изображения. Технологические и организационные вопросы решаются в рамках централизованного сканирования;
· автор(ы) принятого Советом директоров РГБ проекта второго типа разрабатывает(ют) его полностью, включая технологию и организационные аспекты; условия внедрения такого проекта определяются Советом директоров РГБ после завершения техно-рабочего проектирования;
· решения относительно заключения договоров о сканировании документов из фонда РГБ сторонними организациями принимается также Советом директоров РГБ;
· отбор полных текстов документов из внешних источников осуществляется Управлением комплектования фондов РГБ; отбираются наиболее значимые и необходимые документы;
· контроль выполнения договоров на сканирование осуществляется Технологическим отделом РГБ. Основные направления контроля: выдача документов на сканирование и их возврат; передача файлов исполнителем; выполнение финансовых условий; общие вопросы выполнения договора;
· для выполнения сканирования силами РГБ организуется специальное подразделение в рамках Отдела поддержки ЭБ (ОПЭБ) (группа сканирования). Для обучения специалистов группы и формирования технологии обработки полнотекстовых документов привлекается по договору подрядная организация;
· приемка, проверка, регистрация и резервное копирование электронных документов производится силами ОПЭБ. [60]
4. Каждый объект, включаемый в ЭБ, классифицируется по уровням в соответствии с рекомендациями ИФЛА (1998), согласно которым его можно интерпретировать как произведение, выражение (форму выражения), воплощение (форму воплощения, например, публикацию) или физическую единицу (например, экземпляр).
В соответствии с характером конкретной коллекции принимается решение о том, какие из этих типов объектов отображаются в ней. От этого зависит качество и количество электронных версий документа, включаемых в конкретную коллекцию, а именно:
· для рукописей, ценных и редких изданий формируются электронные копии экземпляров (физических единиц);
· в книговедческие коллекции включаются различные воплощения (издания) одного и того же произведения;
· для авторских (произведения одного автора) или тематических коллекций достаточно сделать копии одного-двух наиболее полных и выверенных воплощений (например, академических изданий) произведения, т. е. в такой коллекции собираются формы выражения произведения в виде одного-двух его воплощений (изданий);
· для музыкального произведения, выпущенного в форме нотного издания в данном исполнении несколько раз, в коллекцию может быть внесена электронная копия какого-либо одного воплощения (издания), если цель -- собрать формы выражения произведения, в этом случае даются исполнения соответствующего произведения. Если собираются в электронной коллекции музыкальные произведения конкретного композитора, то выбирается только одно издание одного исполнения (формы выражения) для каждого произведения.
5. На основе такой интерпретации уровней документа формируются также критерии идентичности электронной копии печатному оригиналу, т. е. задаются условия, при которых электронная копия считается идентичной печатному оригиналу в данной электронной коллекции.
6. Для каждого документа устанавливаются возможности его будущего использования в электронном виде, что влияет на качественные характеристики сканирования и определяет целесообразность распознавания образов знаков в тексте. [60]
В частности, возможны следующие варианты:
· факсимильное переиздание документа в книжной форме;
· вывод изображений страниц на экран и их распечатка в соответствии с оригиналом при сохранении фона, цвета, пометок или без их сохранения;
· архивное хранение электронной версии документа с фиксацией его постраничной структуры и вывод определенных страниц на экран и печать;
· хранение и вывод на экран и печать документа без требования воспроизведения вида страниц оригинала;
· выделение структурных фрагментов электронного документа (содержания, введения, глав, списка литературы, приложений);
· поиск по сочетаниям знаков (словам, формулам и т. д.) в тексте одного электронного документа или полнотекстовой базе данных;
· гипертекстовый поиск в документе и/или массиве документов.
Структура электронной библиотеки как системы
1. ЭБ РГБ формируется как единая база данных, состоящая из электронного каталога электронной библиотеки (ЭКЭБ) и фонда ЭБ.
2. РГБ стремится в будущем объединить ЭК РГБ и ЭБ в единую систему на основе общего программного обеспечения. Основой для объединения ЭКЭБ и ЭК РГБ является единый формат библиографических записей MARC21.
3. Фонд ЭБ будет иметь трехуровневую структуру: коллекция (и ее метаинформация) -- документ (и его метаинформация) -- объект (и его метаинформация).
4. Структуры данных в ЭБ могут состоять из нескольких составляющих с различными типами данных, могут быть связаны с другими материалами связями типа “часть/целое” или “последовательность”. Электронный документ может состоять из страниц, глав, индексов, иллюстраций и других элементов, может физически сохраняться в виде нескольких файлов, содержащих текст и графику со связями между ними. Однако любой отдельный документ, состоящий из нескольких файлов, “собирается” в один файл и снабжается титульным листом. На каждый многостраничный документ, включаемый в ЭБ, формируется новый титульный лист. [60]
Технология каталогизации электронных документов
1. Каталогизация электронных документов, включаемых в ЭБ РГБ, осуществляется в соответствии с международными и отечественными нормативами, действующими в сфере библиографического описания документов:
ISBD (ER);
Библиографическое описание электронных ресурсов: Методические рекомендации(1997);
ГОСТ 7.82 “Библиографическое описание электронных ресурсов” (2001);
Формат MARC21 для библиографических записей;
Dublin Core.
2. Электронные документы, созданные другими учреждениями, легитимное и долговременное право доступа к которым осуществляется на Web-сайте РГБ, также подлежат каталогизации и внесению в ЭК РГБ в соответствии с действующими нормативами.
3. Каталогизация электронных копий документов из фонда РГБ ведется с использованием соответствующих библиографических записей (БЗ) из электронного каталога и карточных алфавитных каталогов, причем БЗ включается на первом этапе в ЭКЭБ, так как ЭБ реализуется на программном обеспечении, отличном от программного обеспечения ЭК РГБ. В соответствующих записях карточного каталога делаются пометки о существовании электронной копии документа в ЭБ РГБ.
4. На втором этапе, после объединения ЭКЭБ с общим ЭК РГБ, библиографическая запись включается в общий ЭК РГБ. При этом, если ранее в процессе обработки текущих поступлений или при ретроспективной конверсии каталогов в ЭК была включена БЗ соответствующего традиционного издания или рукописи, отдельная БЗ для электронного документа формируется путем изменения имеющейся в ЭК записи, присвоения ей нового машинного номера и внесения электронного адреса хранения текста документа. Приписывание данных к БЗ для традиционного документа нецелесообразно, так как для электронных документов приняты особые правила каталогизации и специальный состав полей формата.
5. Библиографические записи для электронных документов создаются сотрудниками Отдела каталогизации (ОКЗ) и специализированных отделов.
6. Связь БЗ с полными текстами документов формируется отделом поддержки электронной библиотеки. [60]
Структура метаданных
1. На основе метаданных осуществляется поиск ресурсов, вывод результатов поиска, управление ресурсами, взаимодействие с ними и другие процессы. Необходимость тщательной проработки метаинформации для электронной библиотеки РГБ обусловлена, главным образом, разнородностью коллекций, разнообразием решаемых задач и большим объемом слабоструктурированных данных. Вновь регистрируемые в ЭБ коллекции и входящие в них документы описываются с помощью установленных метаданных и, тем самым, интегрируются в систему.
2. К метаданным ЭБ РГБ относится, в первую очередь, уникальный идентификатор ресурса, отличающий его от любых других ресурсов в соответствующей среде (или ЭБ). Универсальные имена ресурсов должны существовать дольше, чем любое программное обеспечение.
3. Метаданные для ЭБ формируются поэтапно.
На первом этапе используются следующие метаданные:
библиографические записи в ЭКЭБ в формате MARC21, который является обязательным форматом для ЭКЭБ;
описания документов в формате Dublin Core (в случае необходимости взаимодействия с соответствующими системами);
индексы классификации (ББК);
свободные КС, дополняющие индексы в БЗ, как это принято в ЭК РГБ;
наименования и коды специальностей ВАК для диссертаций.
На втором этапе добавляются следующие метаданные: система иерархических и других связей между делениями классификации в форме машиночитаемых таблиц ББК; нормативные/авторитетные записи для имен лиц, наименований коллективов, заглавий, географических названий; международная нумерация изданий и документов.
На третьем этапе средства тематического поиска будут связаны с семантической моделью, а ее элементы -- с источниками определений и данными энциклопедического характера в соответствующих изданиях. К тому времени должны быть разработаны или адаптированы отдельные тезаурусы для коллекций документов (текстов, изображений и объектографической информации). Лексические единицы тезаурусов также связываются с элементами семантической модели.
4. Для представления полных текстов в ЭБ используются:
· формат PDF в качестве основного формата;
· форматы DOC, TXT;
· форматы для изображений TIFF, JPEG;
· гипертекстовый язык разметки HTML;
в дальнейшем также расширенный язык разметки текста XML; при этом для всех типов документов, включаемых в ЭБ, определяются стандартные или специфические DTD в качестве грамматик, описывающих комплекс меток XML и их взаимосвязей.
Архитектура электронной библиотеки и доступ к базе данных
1. Основу архитектуры ЭБ РГБ составляет принцип Интернет/Интранет технологий. Метаинформация и интерфейсные модули хранятся на специализированном сервере метаданных, а документы могут храниться на любом сервере, в том числе -- вне РГБ, если ЭБ будет развиваться как виртуальная.
2. Поиск информации осуществляется в ЭБ путем просмотра и/или поиска с использованием гипертекстовых ссылок. В качестве ответа на запрос в ЭБ пользователю может быть представлен: единственный документ; его фрагмент; набор документов не только в текстовой форме, но и в мультимедийном представлении.
3. Доступ к базе данных ЭБ для пользователей сети Интернет ограничивается. Для каждого документа и/или его составляющей определяются права доступа вплоть до запрещения предоставления его в сети Интернет, в том числе в течение определенного периода времени.
4. Полный и свободный доступ в режиме чтения к документам в ЭБ обеспечивается только в Интранет с рабочих мест, в специально оборудованном читальном зале.
5. Копирование электронных документов и их фрагментов выполняется на платной основе с соблюдением авторских прав. [60]
Программное обеспечение
1. Поскольку ЭБ состоит из разнородных по структуре материалов, программное обеспечение (ПО) включает:
клиентскую часть, реализуемую через Web-интерфейс;
серверную часть: средства сбора запросов; провайдеры (инструменты передачи запросов) к каждому из ресурсов, включенных в ЭБ; ПО, обеспечивающее функционирование каждой электронной коллекции.
2. Основные требования к программному обеспечению:
достижение интероперабельности разнородных информационных ресурсов в рамках ЭБ;
обеспечение создания, поддержки и выбора баз данных, интерфейсов, структур данных и сервисов, обеспечивающих наилучший поиск и актуализацию данных в разнородных коллекциях электронных документов;
участие в формировании и эксплуатации корпоративных информационных ресурсов;
обеспечение защиты и авторизованного доступа к информации со статистикой о времени, проведенном пользователем в ЭБ и использованных документах;
возможность передачи одного запроса пользователя одновременно в несколько коллекций, составляющих ЭБ, и обработку ответов от нескольких источников;
визуализация информации, полученной в ответ на запрос, в формате, выбираемом пользователем из списка возможных;
лицензионная поддержка;
учет при функционировании принятых стандартов представления, хранения и передачи информации;
реализация принимаемых РГБ технологических решений;
обеспечение адекватного использования выбранных или разработанных в рамках проекта метаданных;
возможность автоматизированного расчета с пользователями, владельцами и авторами электронных ресурсов;
минимальные требования к программному обеспечению рабочего места клиента (стандартное программное обеспечение клиента);
независимость функционирования ЭБ от платформы на стороне клиента и независимость от используемой им СУБД;
возможность увеличения количества типов данных и подключаемых электронных коллекций;
поддержка распределенных систем хранения информации;
возможность обработки многоязычной текстовой информации с использованием оригинальной графики документов и метаданных; использование UNICODE.
3. В плане выбора программного обеспечения для ЭБ РГБ наибольшую значимость имеет совместимость с другими библиотеками и пользователями. В этом вопросе речь идет о выборе между средствами, наилучшими для данной ЭБ, и широко используемыми стандартами, которые обладают меньшей функциональностью. Взаимодействие между провайдерами данных и отдельными частями ЭБ должно происходить по стандартным протоколам типа Z39.50.
4. На первом этапе для поддержки ЭБ используется программное обеспечение “Библиотека 2000”, доработка которого выполняется на договорной основе. Сопровождение программного обеспечения осуществляется силами ОПЭБ. [60]
Вопросы сохранности
Проблема сохранности по отношению к ЭБ имеет два аспекта: сохранность оригиналов документов при их сканировании для создания электронной копии и сохранность электронных документов.
Сохранность печатных изданий
1. Основным требованием при оцифровке является создание условий, при которых оригинал ни в коей мере не пострадает в процессе сканирования. Каждая коллекция должна быть предварительно исследована специалистами по сохранности, которые определят и проведут необходимые профилактические и консервирующие мероприятия, проконтролируют правильность выбора оборудования.
2. Следует принимать во внимание, что интенсивность облучения документов при сканировании и тепло, вырабатываемое оборудованием и лампами, наносит вред материалу и тексту документа. Поэтому с самого начала работ по оцифровыванию следует определить характеристики оборудования для сканирования различных документов и предусмотреть его адекватность физическому состоянию и ценности исходного документа. В случае, если работа по сканированию осуществляется сторонней организацией, в договор включаются пункты по обеспечению сохранности оригиналов.
3. К числу требований по обеспечению сохранности документов относятся следующие:
обучение сотрудников правильному обращению с документами при сканировании;
экспертная оценка состояния коллекции и предполагаемых мер по защите документов при их сканировании;
сканирование ценных документов без перемещения их в другое место;
наличие и обеспечение охраны необходимого числа помещений со столами, размеры которых не менее чем в 6 раз превышают размеры самого крупного сканируемого объекта;
лампы, применяемые при сканировании документов (как часть оборудования, стола или комнаты), должны содержать UV-фильтр или иметь минимальное количество UV;
каждое рабочее место должно быть обеспечено соответствующей системой охлаждения и вентиляции;
необходимо предусмотреть систему удаления пыли, образующейся при движении сотрудников и использовании документов;
необходима консервационная обработка оригиналов до оцифровывания.
4. Основные требования к оборудованию:
на планшетном сканере можно оцифровывать копии негативов, плоские бумажные документы в хорошем состоянии без красящих носителей, брошюры и ноты в хорошем состоянии, раскрывающиеся на 180 градусов;
оцифровывать, используя камеры, следует: книги; фотографии; изоиздания и издания на мелованной бумаге; все документы, которые нельзя безопасно прижимать; большеформатные документы в неудовлетворительном состоянии, переворачивание которых небезопасно; все документы, размеры которых больше планшетного сканера;
не подлежат оцифровке документы, которые раскрываются на 90 или менее градусов. [60]
Сохранность электронных документов
5. ЭБ или, по крайней мере, архивы, в которые передается информация для долговременного хранения, должны хранить информацию дольше, чем могут существовать нынешние компьютерные системы и дольше, чем сроки, на которые рассчитаны нынешние магнитные или электронные носители информации.
6. Учитывая, что нет достоверных данных о сроках гарантированной сохранности информации на электронных носителях, РГБ должна планировать периодическое обновление электронных документов. Необходимо не только поддерживать зеркальное состояние системы, но и хранить архивные копии данных в безопасном месте. Один из подходов состоит в сохранении копий наиболее важной информации на микроносителях (микрофишах, микрофильмах), так как эти носители исключительно долговечны.
7. Поскольку цифровое архивирование не может гарантировать сохранности данных, а также нельзя быть уверенным, что закодированная однажды информация будет расшифрована в будущем в случае утраты кодов (ключей), необходимо:
использовать для хранения информации распространенные форматы: при этом новые форматы с большей вероятностью будут обеспечивать возможность конверсии;
создать архив (написанный простым текстом и хранящийся на надежных носителях -- бумаге или микрофишах), содержащий описание форматов хранения данных, стандартов, метаданных, протоколов и других “строительных конструкций” ЭБ.
Экономические основы электронной библиотеки
1. ЭБ создается на основе бюджетного финансирования и на материально-технической базе РГБ.
2. РГБ стремится привлекать для формирования ЭБ дополнительные бюджетные ассигнования Министерства культуры РФ, Министерства образования РФ, Министерства промышленности, науки и технологий РФ, других министерств и ведомств.
3. Для привлечения средств спонсоров, меценатов, рекламодателей могут использоваться меры морального вознаграждения, а также возможность долевого участия с правом получения бесплатной услуги РГБ.
4. Отдельные проекты в рамках формирования ЭБ могут быть реализованы за счет полученных грантов.
5. Предполагается также использовать различные возможности финансирования ЭБ за счет заказов коммерческих организаций на оцифровку фрагментов фонда.
Маркетинг электронной библиотеки
1. Для определения маркетинговой стратегии формирования и про движения ЭБ необходимо принимать во внимание следующие факторы:
электронная среда не имеет однородной читательской аудитории существуют многочисленные, пересекающиеся и непересекающиеся группы с разными информационными потребностями;
для РГБ и ЭБ не всегда будут совпадать группы потребителей;
аудитория Интернета характеризуется высоким образовательным уровнем; это преимущественно молодежь: студенты и молодые научные работники, дети, освоившие компьютер;
идет активный процесс роста числа домашних компьютеров, в силу чего ЭБ должна быть ориентирована не только на использование ее в стенах библиотеки при консультационной поддержке библиотекаря, но и на самостоятельное обращение пользователя, не имеющего навыка работы с информационными системами.
2. Учитывая все эти моменты, РГБ, с одной стороны, идет за выявленным спросом, помещая в ЭБ на своем сайте наиболее запрашиваемые документы, в частности учебники, монографии, участвующие в образовательном процессе, и т. д. С другой стороны, РГБ как национальная библиотека помещает на сайт произведения, являющиеся гордостью русской культуры, вне зависимости от спроса на них со стороны массового пользователя Рунет. [60]
3. ЭБ РГБ в целом является бесплатной для ее пользователей, но некоторые ее части (приобретенные, либо созданные сторонними фирмами могут иметь иные условия доступа.
Взаимодействие электронной библиотеки с другими проектами
1. ЭБ РГБ рассматривается как часть национального информационного ресурса и разрабатывается в тесной связи с федеральной программой создания электронных библиотек.
2. ЭБ является базой участия РГБ в совместных проектах с музеями, архивами, другими библиотеками, в создании, описании коллекций, их библиографическом сопровождении, сканировании части своих изданий по сторонним проектам. Учитывая, что РГБ осуществляет самостоятельно или принимает участие в реализации нескольких программ, связанных с переводом документов в электронную форму, определены границы их размежевания с ЭБ:
“Книжные памятники” -- в основе программы лежит собственно образ книжного памятника. В ЭБ будет использована информация, заложенная в книге, отвлеченная от ее образа. База данных, сформированная в результате реализации программы, составит специализированную часть ЭБ, ориентированную на специалистов.
“Память России” -- в основе ее книга-образ, дополненная научными комментариями. Базы данных, полученные на различных этапах реализации проекта, входят специализированными частями в ЭБ РГБ.
“Культура России” -- портал ставит своей целью репрезентацию и пропаганду культуры России, расширение возможностей воспитания и образования в гуманитарной сфере, создание коммуникационной среды российского культурного сообщества и т. д. ЭБ РГБ входит в программу как самостоятельный блок и как составная часть корпоративных культурно-образовательных проектов.
2.2 Российская национальная библиотека
Концепция построения РНБ сходна с РГБ, но при этом существует разветвлённая система каталогов, поэтому общая концепция построения рассматривается на примере РГБ, а организации каталогов - на материале РНБ.
Охарактеризуем кратко каталоги РНБ.
Объединенный каталог (протокол Z39.50)
Объединенный каталог включает в настоящее время 5 библиографических и одну полнотекстовую базы данных и работает в тестовом режиме. Со временем, в него будут включены все библиографические базы данных РНБ, за исключением: Электронного каталога, базы данных "Иностранные периодические издания (1995 - )", базы данных "Петербургские чтения (1992 - 1999)".
Каталоги книг на русском, украинском, белорусском языках
Электронный каталог
«Электронный каталог» включает машиночитаемые библиографические записи (БЗ) на следующие виды изданий, представленных в фондах РНБ:
· издания на русском языке 1826-1900 гг., с 1980 г. по настоящее время.
· издания на украинском и белорусском языках с 1998 г.
· авторефераты диссертаций с 1980 г., кроме авторефератов, поступивших в 1993-1997 гг., которые представлены в отдельной базе данных и будут объединены с электронным каталогом (ЭК) в ближайшем будущем.
Записи на книги 1826-1900 и 1980-1997 гг. издания получены в результате ретроспективной конверсии карточного Генерального алфавитного каталога (ГАК). Работы по ретроконверсии ГАК и редактированию существующих записей продолжаются. Периоды отечественного книгоиздания за 1708-1800, 1918-1926 гг. представлены в отдельных электронных каталогах РНБ. [61]
Литература на иностранных европейских языках с 1994 г. также представлена в отдельном электронном каталоге.
Пока в ЭК не отражается наличие электронной копии издания, следует производить поиск также в Электронной библиотеке РНБ. В настоящее время в ней содержится более 14 тыс. авторефератов.
БЗ состоят из библиографического описания; заголовков имен, наименований организаций и унифицированных заглавий; а также классификационных индексов полного издания таблиц ББК для научных библиотек и предметных рубрик РНБ (на литературу, поступившую с 1998 г.).
Записи на некоторые книги могут содержать шифры не только основных фондов, но и шифры подсобных фондов читальных залов. Такие книги можно получить в читальных залах без предварительного заказа.
БЗ представлены в электронном каталоге в формате РУСМАРК.
Записи, полученные в результате ретроконверсии, не включают индексов ББК и предметных рубрик.
Тематический поиск литературы, поступившей до 1998 г. осуществляется в карточных систематических и предметном каталоге.
Генеральный алфавитный каталог книг на русском языке (1725 - 1998)
Сканированный массив карточек Генерального алфавитного каталога книг на русском языке включает библиографические записи (БЗ) книг, авторефератов диссертаций, микрофильмов, периодических и продолжающихся изданий, частично изоизданий и сборников нормативно-технических документов. БЗ периодических и продолжающихся изданий включают только общие сведения об этих изданиях без информации о наличии отдельных томов, выпусков, номеров. В ГАК не представлены БЗ нот, картографических материалов и газет.
Подобные документы
Понятие и виды электронных ресурсов муниципальных библиотек. Организация и использование электронных ресурсов в муниципальных библиотеках РФ. Анализ современного состояния и основные тенденции развития электронных ресурсов муниципальных библиотек.
курсовая работа [77,9 K], добавлен 16.05.2017Необходимость существования, критерии анализа и выбора электронных библиотек. Виды электронных библиотек - универсальные, электронные библиотеки периодических изданий и книг. Особенности распространения информационно-коммуникационных технологий.
курсовая работа [5,6 M], добавлен 04.05.2013Эволюция электронных библиотек (ЭБ) в Российской Федерации. Понятие, структура и основные направления деятельности ЭБ. Современные тенденции развития электронных библиотек РФ. Характеристика деятельности Президентской библиотеки им. Б.Н. Ельцина.
дипломная работа [2,4 M], добавлен 29.10.2017История появления электронных книг, их виды, характеристика. Использование электронных книг в библиотеках, их достоинства и недостатки. Формирование электронных библиотек и коллекций. Критерии предоставления электронных книг пользователям, хранение фонда.
курсовая работа [66,9 K], добавлен 05.02.2017Концепция развития образовательных электронных изданий и ресурсов. Разработка модуля электронного учебного издания на тему "Компьютерные сети. Принципы, технологии, протоколы". Представление страницы учебника в Paint. Теги для создания документа HTML.
курсовая работа [1,3 M], добавлен 17.10.2012Программные средства выполнения, обращения и хранения электронных документов на предприятии. Правовое и методическое обеспечение сохранности информационных ресурсов в организациях Республики Беларусь. Создание электронной регистрационной карточки.
реферат [25,4 K], добавлен 17.04.2015Библиотека, обладающая крупной распределенной коллекцией документов в электронной форме, доступной через сети передачи данных. Основные задачи электронных библиотек. Цели создания и концепция электронных библиотек. Профильность хранимой информации.
контрольная работа [26,0 K], добавлен 27.11.2012Виды информационных ресурсов и носителей электронной информации. Принципы ее аккумулирования, систематизации и сохранения в онлайн и оффлайн хранилищах. Электронные книги и их виды. Информационные технологии в краеведческой деятельности библиотек.
реферат [22,4 K], добавлен 06.12.2015Становление системы электронных библиотек и соответствующих информационных инфраструктур в современной России. Проблемы создания электронных каталогов. Организация массива данных и разработка программного кода поисковой машины на языке JavaScript.
курсовая работа [43,7 K], добавлен 03.09.2012Функциональное назначение информационных ресурсов. Использование push-технологий для распространении различного рода сведений среди пользователей Internet. Создание электронных библиотек даных и организация общих телеконференций во всемирной сети.
презентация [301,7 K], добавлен 06.05.2011