Главная База знаний "Allbest" Программирование, компьютеры и кибернетика Анализ гипертекстовых документов с различных сайтов с целью автоматизированного сбора данных

Анализ гипертекстовых документов с различных сайтов с целью автоматизированного сбора данных

Анализ существующих поисковых систем и используемых ими алгоритмов поиска документов. Разработка информационно-поисковой системы словарного типа, способной осуществлять релевантный поиск документов, особенности ее структуры и информационно-поисковой базы.

Рубрика	Программирование, компьютеры и кибернетика
Вид	дипломная работа
Язык	русский
Дата добавления	19.05.2011
Размер файла	942,1 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

2) SitePages - таблица страниц сайта. Таблица соответствует множеству .

Таблица 2.2 - Структура таблицы SitePages

Поле	Тип	Описание
IDPage	INTEGER	ID страницы
IDSite	INTEGER	ID сайта
URL	Varchar(255)	Адрес сайта
LocalURL	Varchar(200)	Локальный адрес сайта
Size	INTEGER	Размер страницы
TimeLoad	Date	Время загрузки

3) TagName - таблица имен тэгов.

Таблица 2.3 - Структура таблицы TagName

Поле	Тип	Описание
IDTag	INTEGER	ID тэга
Name	Char(15)	Имя тэга

4) PageInfoMeta - таблица агрегированной информации о странице сайта.

Таблица 2.4 - Структура таблицы PageInfoMeta

Поле	Тип	Описание
IDPageInfo	INTEGER	ID записи
IDPage	INTEGER	ID страницы
Keywords	BLOB	Ключевые слова
Description	BLOB	Описание
Autor	Varchar(200)	Автор
Robot	Varchar(200)	Робот
Copyright	Varchar(200)	Права
Title	Varchar(200)	Заголовок
Revisit	INTEGER	Как часто обновлять

5) Tag - таблица проиндексированных слов страницы (множество ).

Таблица 2.5 - Структура таблицы Tag

Поле	Тип	Описание
IDPage	INTEGER	ID страницы
IDKey	INTEGER	ID слова
Word	Varchar(40)	Слово
Pos	INTEGER	Позиция
Gruppa	INTEGER	Группа
Range	INTEGER	Частота встречаемости
IDTAG	INTEGER	ID тэга

6) Link - таблица ссылок со страницы на другие сайты.

Таблица 2.6 - Структура таблицы Link

Поле	Тип	Описание
IDPage	INTEGER	ID страницы
IDLink	INTEGER	ID ссылки
URL	Varchar(255)	Адрес страницы (ссылки)

7) LinkLocal - таблица ссылок со страницы на другие страницы этого сайта.

Таблица 2.7 - Структура таблицы LinkLocal

Поле	Тип	Описание
IDPage	INTEGER	ID страницы
IDLink	INTEGER	ID ссылки
URL	Varchar(255)	Адрес страницы (ссылки)
URLLocal	Varchar(200)	Локальный адрес страницы

8) Image - таблица рисунков на странице.

Таблица 2.8 - Структура таблицы Image

Поле	Тип	Описание
IDPage	INTEGER	ID страницы
IDImage	INTEGER	ID рисунка
URL	Varchar(255)	Адрес рисунка
ALT	Varchar(255)	Пояснительная подпись

Основной таблицей для поиска будет являться таблица Tag.

2.2 Разработка алгоритмов поиска

Большинство поисковых систем (Yandex.ru, Aport.ru, Rambler.ru) используют сложные алгоритмы неполного поиска. Обычно поиск осуществляется по набору тэгов. Для алгоритма релевантности важным является не только нахождения слов запроса (не обязательно рядом друг с другом) в документе, но и учет важности тэгов. Например, важность тэга TITLE на порядок превосходит тэг H5 или Strong.

Пусть множество тэгов , тогда каждый конкретный тэг можно представить как . Пусть пользователь вводит запрос , состоящий из слов , .

Допустим в наборе документов ( - документы, соответствующие запросу) найдена последовательность в нескольких видах тэгах одновременно, причем возможно по несколько раз в каждом виде тэгов. Для определения релевантности документов запросу предлагается следующий алгоритм. Каждому виду тэгов ставится в соответствие некоторый вес (или весовой коэффициент) , который будет определять важность соответствующего тэга. Обозначим количество вхождений последовательности в тэг через функцию или просто . Тогда можно определить вес каждого документа:

(2.1)

В этом случае, чем больше вес документа , тем выше его релевантность запросу пользователя. Наиболее релевантным документом будет документ с .

Таким образом, на основе (2.1) можно сформировать алгоритм поиска, который мы назовем “алгоритм-подобие”:

Найти все документы, в которых встречается искомая комбинация слов внутри одного тэга и упорядочить их по суммарному весу документов, который определяется как сумма весов тэгов, в которых найдена искомая комбинация слов.

В приведенном алгоритме задача сводится к определению весов тэгов . Обозначим тэги по убыванию их важности в документе: Title, Keywords, Description, H1, H2, …, H5, Strong, Alt (у тэга IMG).

Так как поисковая система должна искать не только по заданной последовательности слов , находящихся рядом друг с другом, но и расположенных на некотором расстоянии друг от друга (например, “разработка ИС” и “разработка современных ИС”). В этом случае мы можем усложнить функцию , которая будет определять не только количество вхождений запроса, но и расстояние между словами . Обозначим ее как . При этом, чем больше расстояние между словами, тем меньшее значение принимает функция . Таким образом, выражение (2.1) принимает вид:

(2.2)

Назовем этот алгоритм “приближенным”.

Часто необходимо найти документ, в котором искомые слова находятся в разных тэгах. Конечно при этом релевантность документов ниже, но количество находимых документов много больше.

Частичный алгоритм:

Найти все документы, в которых встречается набор искомых слов и упорядочить результаты по сумме весов тэгов, в которых найдены искомые слова.

(2.3)

Надо заметить, что алгоритм (2.3) предполагает нахождение любых документов, где встречаются искомые слова, не важно в каких тэгах они находятся. Поисковые слова могут быть в различных видах тэгах. Это существенно снижает релевантность получаемых документов, но значительно увеличивается шанс найти документ.

Еще одним аспектом является определение набора слов запроса в различных тэгах. Например, запрос может выглядеть следующим образом: “физическая структура поисковой системы”. Ему может соответствовать документ, например, содержащий в тэге Title текст “поисковая система”, а в тэге H2 “физическая структура”.

Теперь рассмотрим непосредственно выражение функций , , . Рассмотрим эти функции в терминах реляционной алгебры, так как они связаны именно с операциями над данными. В соответствии с терминами реляционной алгебры введем следующие обозначения: обозначает операцию селекции, - операцию проекции, - операцию естественного соединения.

Тогда функцию можно представить как

Функция будет равна

Функцию можно представить как:

3. Программная часть

3.1 Разработка информационной структуры

3.1.1 При разработке поисковых, как и других информационных систем, наиболее трудоемкими этапами являются этапы анализа и проектирования, в процессе которых используются CASE-средства, обеспечивающие качество принимаемых технических решений и подготовку проектной документации. Проектирование поисковой системы с помощью CASE-средств предполагает построение структурных или иных диаграмм, а также сквозную проверку синтаксических правил. Графические средства моделирования предметной области позволяют разработчикам в наглядном виде изучать существующую поисковую систему, перестраивать ее в соответствии с поставленными целями и имеющимися ограничениями.

Информационная модель разрабатываемой поисковой системы представляется совокупностью функциональной модели и модели данных. Для данной среды разработана функциональная модель.

3.1.2 Разработка функциональной модели. Методология SADT представляет собой совокупность методов, правил и процедур, предназначенных для построения функциональной модели объекта какой-либо предметной области. Функциональная модель SADT отображает функциональную структуру объекта, т.е. производимые им действия и связи между этими действиями.

Построение SADT-модели начинается с представления всей системы в виде простейшей компоненты - одного блока и дуг, изображающих интерфейсы с функциями вне системы.

Затем блок, который представляет систему в качестве единого модуля, детализируется на другой диаграмме с помощью нескольких блоков, соединенных интерфейсными дугами. Эти блоки представляют основные подфункции исходной функции. Каждая из этих подфункций может быть декомпозирована подобным образом для более детального представления.

Во всех случаях каждая подфункция может содержать только те элементы, которые входят в исходную функцию. Кроме того, модель не может опустить какие-либо элементы, т.е., как уже отмечалось, родительский блок и его интерфейсы обеспечивают контекст. Результатом применения методологии SADT является модель, которая состоит из диаграмм, фрагментов текстов и глоссария, имеющих ссылки друг на друга.

В соответствии с вышеописанными требованиями, предъявляемыми к функциональной модели системы, разработана функциональная модель поисковой системы, главная диаграмма, которой представлена на рисунке А.1 приложения А.

Диаграмма, приведенная на этом рисунке, является обобщенной и подлежит декомпозиции. Входом в данном случае является необходимость поиска. Данная функция может быть декомпозирована на три блока, представленных в приложении А (рисунок А.2).

Каждый из приведенных на этом рисунке блоков выполняет набор функций, следовательно, каждый из них можно представить еще более детально. Декомпозиция блока Индексация документов представляет собой диаграмму, показанную на рисунке А.3.

Функция Поиск в поисковой базе также может быть декомпозирована, соответствующая диаграмма представлена на рисунке А.4.

3.1.3 Организация информационной базы. Наиболее распространенным средством моделирования данных являются диаграммы «сущность-связь» (ERD). С их помощью определяются важные для предметной области объекты (сущности), их свойства (атрибуты) и отношения друг с другом (связи). ERD непосредственно используются для проектирования реляционных баз данных.

3.2 Разработка структуры поисковой системы

Размещено на http://www.allbest.ru/

Рисунок 3.1 - Структура поисковой системы.

В самом общем виде поисковую систему можно представить как:

1) Индексирующий агент,

2) Информационная (поисковая) база,

3) Поисковый агент.

Индексация страниц состоит из следующих этапов:

1) Получение адреса начальной страницы.

2) Определение кодировки страницы и в случае необходимости - перекодировка.

3) Разбор страницы и получение информации для записи в поисковую базу.

4) Подсчет статистики встречаемости слов.

5) Поиск адресов страниц и добавление их в список индексирования.

6) Пока список индексирования не пустой повторение шага 2.

Наиболее важным компонентом индексирующего агента является модуль “Разбор страницы” (Parser). Его задачей является последовательный просмотр документа и нахождение в нем тэгов определенной группы принадлежности (TITLE, H1, H2, и т.д.). Далее производится выделение текста из тэга и затем разбиение текста на слова. Parser записывает слова (WORD) в поисковую базу с сохранением порядка их следования в теле тэга (POS). Gruppa указывает в каком по порядку тэге обнаружено слово. Практическая реализация Parser довольно сложна, так как необходимо не только получить тэги, но и зачастую определить параметры тэгов. По этой причине был выбрано одно из готовых решений в этой области - компонент THTMLParser. Подсчет статистики встречаемости слов производится на основе Parser, причем количество слов заносится в RANGE.

Еще одной интересной задачей является создание модуля “Паук” (Spider). Под “пауком” понимается программа, которая последовательно просматривает документы и находит в них ссылки на новые страницы. Найденные новые адреса добавляются в список страниц. Действие продолжается для вновь найденных страниц и т.д., до тех пор, пока не будет проверен весь сайт. В дальнейшем страницы из этого списка подлежат разбору с помощью Parser.

Теперь рассмотрим структуру поискового агента. На основании запроса пользователя происходит формирование запроса к базе данных. Запрос представляет собой один или несколько SQL-запросов к поисковой базе.

В результате получается набор данных результатов поиска. Модуль оценки релевантности обеспечивает непосредственно сам алгоритм, который мы называем поисковым алгоритмов. На основе оценки алгоритма получается список результатов, отсортированных по убыванию релевантности.

3.3 Программа индексатор

Рассмотрим программу, предназначенную для индексации страниц. Работа программы состоит из нескольких этапов:

- Занесение информации об индексируемом сайте

- Поиск страниц на сайте с помощью Spider (Паука)

- Разбор страниц и занесение данных в поисковую базу данных

Рисунок 3.2 - Главное окно программы-индексатора

При загрузке программы пользователь видит окно (рис. 3.2). В нем задаются следующие данные о сайте:

- Путь к сайту (URL)

- Имя разработчика (WebMaster)

- E-mail разработчика

- Дата индексации (добавления в поисковую базу)

- Дата последней индексации (при добавлении идентична предыдущему параметру)

Эта информация добавляется вручную и заносится в поисковую базу. Далее начитается непосредственно индексация сайта. Адреса обработанных страниц отображаются в поле в нижней части окна.

Доступ к базе данных (MySQL) обеспечивается с помощью компонентов dbExpress. Для осуществления команд работы с базой данных используются операторы языка SQL. Принцип работы с данными более подробно описан несколько ниже.

3.4 Поисковый агент

3.4.1 Поисковый агент под Windows

3.4.1.1 Руководство оператора

Поисковый клиент предназначен для поиска информации в поисковой базе. Рассмотрим поисковый клиент для Windows.

При загрузке клиента пользователь видит основное окно (рис. 3.3)

Пользователь может ввести от одного до пяти слов запроса, которые будут искаться в документе. Ниже, пользователь может выбрать один из алгоритмов поиска и оценки релевантности:

- Подобие,

- Приближенный,

- Частичный.

Для того чтобы начать поиск, необходимо нажать кнопку “Поиск”. Результаты поиска выдаются в правой части окна программы в сетке. Для того чтобы просмотреть найденный документ, необходимо дважды щелкнуть по нему. Документ откроется в новом окне браузера. Надо заметить, что загрузка документа производится также, как и любой другой программы или документа Windows. Все функции по загрузке возлагаются на браузер.

Рисунок 3.3 - Основное окно поискового клиента

Для удобства пользователей в строке состояния выдается общее число найденных документов и время поиска по запросу.

Рисунок 3.4 - Окно настройки соединения

Теперь рассмотрим основные требования к системе, необходимые для работы клиента. Программа требует ОС Windows 95/NT. Должен быть доступен (установлен на локальной машине или в сети) MySQL 4.0.11 и выше. Для настройки MySQL можно использовать окно “Соединение” (кнопка Connect).

В этом окне необходимо задать имя базы данных (по умолчанию SENEW), имя пользователя (по умолчанию ROOT) и пароль (по умолчанию “”).

3.4.1.2 Руководство программиста

Поисковый клиент реализован с использованием Borland Delphi 7.

Программа состоит из следующих модулей:

- окно интерфейса (главное окно) FormMain,

- окно настройки соединения FormConnect,

- модуль данных DataModuleSearcher.

Центральным модулем по работе с данными является модуль данных DataModuleSearcher, в котором располагаются все компоненты, отвечающие за связь с поисковой базой.

Для поиска генерируется SQL-запрос к поисковой базе. Для соединения к MySQL используется компонент TSQLConnection (вкладка dbExpress). Имя соединения установлено в MySQLConnection. В качестве библиотек доступа к базе данных используются libmysql.dll и dbexpmysql.dll, которые должны также находиться на локальном компьютере.

Для выполнения поискового запроса (SQL-запроса) используется связка из четырех компонентов. Компонент TSQLQuery используется для доступа к базам данных MySQL. Он связан с компонентом TSQLConnection. Этот компонент посылает запрос к базе данных и получает результат, но напрямую не участвует в их отображении. Он является своего рода промежуточным звеном между MySQL и программой. Связь с этим компонентом осуществляется с помощью TDataSetProvider (в свойстве DataSet указан TSQLQuery). Доступ к отображаемым данным осуществляется с помощью компонента TClientDataSet. У него в качестве ProviderName указан компонент TDataSetProvider. Установка соединения осуществляется путем установки свойства Active компонента TClientDataSet в True. С этим компонентов связан также TDataSource.

Преимуществом поискового клиента является то, что для его работы не нужен BDE, ODBC, ADO и другие дополнительные средства по работе с базами данных.

Окно интерфейса кроме функций непосредственно взаимодействия с пользователем осуществляет также две очень важные функции:

- генерацию запросов к поисковой базе (на основе языка SQL),

- определение релевантности получаемых документов.

Запросы к поисковой базе формируются динамически, в зависимости от количества слов для поиска и выбранного алгоритма. Определение релевантности документов осуществляется путем вычисления суммарных весов документов. Программа фактически транслирует формальное описание алгоритмов на основе математических формул в выражения реляционной алгебры и языка SQL.

Весовые коэффициенты тэгов хранятся в базе данных MySQL совместно с поисковой базой (таблица TAGRATE).Таким образом сама программа может перенастраиваться на другие весовые коэффициенты без каких-либо изменений кода.

Кратко рассмотрим структуру формируемых SQL-запросов.

SELECT sitepages.URL, sitepages.IDPage, sum(tagrate.RATE) as Rating

FROM sitepages, tagrate , tag t , tag t1 , tag t2

WHERE

(t.Word LIKE ''%слово1%'') AND

((t1.IDPage = t.IDPage) AND

(t1.IDTAG = t.IDTAG) AND

(t1.Gruppa = t. Gruppa) AND

(t1.Word LIKE ''% слово2%'')) AND

((t2.IDPage = t.IDPage) AND

(t2.IDTAG = t.IDTAG) AND

(t2.Gruppa = t. Gruppa) AND

(t2.Word LIKE ''% слово3%'')) AND

(tagrate.TAG = t.IDTAG) AND

(sitepages.IDPAGE = t.IDPAGE)

GROUP BY t.IDPage

ORDER BY Rating DESC

Приведенный запрос соответствует алгоритму “Подобие”.

Поиск (выборка) осуществляется с помощью выражения SELECT sitepages.URL, sitepages.IDPage, sum(tagrate.RATE) as Rating. Выходными данными является таблица из трех столбцов - адреса страницы (sitepages.URL), идентификатора страницы (sitepages.IDPage) и рейтинга (суммарного веса) страницы sum(tagrate.RATE) as Rating.

Строка t.Word LIKE ''%слово1%'' обеспечивает нахождение слова “слово1” в поисковой базе, причем использование LIKE совместно с % позволяет осуществлять частичный поиск (поиск по части слова). Строка (t1.IDPage = t.IDPage) обеспечивает нахождение слов на одной странице, строка (t1.IDTAG = t.IDTAG) - только в одинаковых тэгах, строка (t1.Gruppa = t. Gruppa) - внутри одного предложения в тэге. Поиск осуществляется в таблицах TAG.

Строка (tagrate.TAG = t.IDTAG) обеспечивает нахождение весового коэффициента для тэга из таблицы TAGRATE. С помощью (sitepages.IDPAGE = t.IDPAGE) выполняется нахождение адреса страницы в таблице SITEPAGES.

Выражение GROUP BY t.IDPage позволяет осуществить группировку найденных слов по страницам (IDPage - идентификатор найденной страницы).

ORDER BY Rating DESC обеспечивает упорядочивание результатов по убыванию их релевантности (точнее суммарного веса, найденного при поиске).

Подобным образом формируются запросы и для других алгоритмов поиска.

В заключении надо сказать, что использование только стандартных средств Delphi 7 дает возможность сгенерировать поисковый клиент и для Linux (с использованием средств Kylix).

3.4.2 Поисковый агент для Интернет

3.4.2.1 Руководство оператора

Агент поиска через Интернет-браузер обеспечивает те же функции, что и поисковый агент для Windows. Для работы с клиентом необходим Интернет-браузер (например, Interner Explorer) и соединение с сервером, где расположена поисковая база и страница интерфейса.

Рисунок 3.5 - Окно поиска для Интернет-агента

Для запуска страницы интерфейса необходимо набрать адрес http://www.vanta.ru/rubikon/index.htm. В появившемся окне (рис. 3.5) необходимо ввести поисковые слова и выбрать алгоритм поиска. При нажатии на кнопку “Поиск”. В появившемся окне (страница search.php) появится результат поиска.

Рисунок 3.6 - Окно результатов поиска для Интернет-агента

3.4.2.2 Руководство программиста

Поисковый агент состоит из страницы интерфейса index.htm, которая содержит форму (FORM) поиска, и страницы результата search.php. Страница результатов написана на языке PHP 4. Для работы программы необходимо также соединение с сервером MySQL.

В начале программы объявляются переменные для связи с MySQL

define("DBName","senew");

define("HostName","www.vanta.ru");

define("UserName","root");

define("Password","");

Далее происходит соединение с MySQL-сервером с помощью команды

mysql_connect(HostName,UserName,Password)

После этого происходит формирование текста SQL-запроса и его выполнение с помощью $r=mysql(DBName,$sql). Результат помещается в переменную $r. Далее происходит построчный разбор результата и его вывод в браузер.

$num = mysql_numrows($r);

for($i=0; $i<$num; $i++)

{ $f=mysql_fetch_array($r);

$url=mysql_result($r,$i,"url");

$rating=mysql_result($r,$i,"rating");

echo "<a href=\"$url\">$url</a>";

echo "$rating";}

4. Исследовательская часть

4.1 Определение веса тэгов при оценке релевантности

Проведем анализ значимости тэгов при оценке релевантности современными поисковыми системами. Срезу же надо оговориться, что анализ этот является приближенным, так как подобная информация не разглашается владельцами поисковых систем.

Рисунок 4.1 - Доля тэгов при определении релевантности

Для анализа структуры документов выдерем некоторую предметную область, к которой будут принадлежать документы. В качестве такой области может служить направление “Базы данных”. Для того, чтобы исследования были репрезентативными база должна включать большое количество документов. В качестве наполнения поисковой базы был выбран CD-диск, содержащий подборку документов из различных источников. Так как источники документов различны, то можно считать, что выборка документов соответствует поисковым базам реальных поисковых систем (по заданной тематики). В поисковую базу было занесено более 2000 различных документов.

Рисунок 4.2 - Доля тэгов в поисковой базе

Для определения веса тэгов часто пользуются экспертной оценкой.

4.2 Оценка точности и полноты поиска

Поисковая машина характеризуется двумя важнейшими параметрами: точностью и полнотой (полнота есть отношение количества найденных релевантных документов к полному количеству релевантных документов в базе данных) [2].

Пусть по запросу найдено 50 документов. После просмотра их всех пользователь принимает решение, что 30 документов релевантны запросу, а 20 нерелевантны. Сплошной просмотр всей базы данных показывает, что в ней содержится 100 документов, релевантных запросу. Отсюда получаем, что полнота 30/100 = 0,3; точность 30/50 = 0,6. Как правило, улучшая один из названных параметров, ухудшаешь другой.

Используется также такая обобщенная характеристика, как техническая эффективность поисковых машин, включающая скорость поиска по запросу, объем базы, удобство представления результатов, скорость индексирования информации и так далее. Но особое место среди этих параметров занимают показатели качества поиска - в этом сходятся мнения всех создателей поисковых машин.

Остановимся на исследованиях для оценки точности по методике Н. Харина. Она используется во время периодических внутрифирменных тестирований поисковых машин в "Рамблере" группой приглашенных экспертов-лингвистов (обычно, в течение двух недель каждое).

Пусть есть общее число документов в коллекции (c которой связана некоторая поисковая система), - число документов коллекции , релевантных заданному запросу , - общее число документов, полученных из коллекции в ответ на запрос , - число полученных документов, релевантных запросу . В введенных обозначениях точность поиска в при запросе есть

, (4.1)

а полнота

(4.2)

Очевидно, что точность и полнота принадлежат диапазону [0, 1]. Идеальная система поиска должна обеспечивать точность и полноту равные 1 для любого запроса. Иными словами, в ответ на каждый запрос пользователь получает все релевантные ему документы, содержащиеся в коллекции , и только их.

Реально, любая поисковая система обладает следующим свойством. В ответ на любой запрос система выдает некоторый список документов, упорядоченный по убыванию релевантности документа данному запросу. При идеальном упорядочивании пользователь должен использовать документы из начала списка, для которых оценка релевантности не меньше некоторого заданного пользователем порога, либо заданное пользователем же число документов из начала списка. Так и происходит в действительности, только упорядочивание документов может быть весьма далеким от идеального. Как правило, в начале списка велика доля релевантных документов, но эта доля быстро падает с увеличением числа полученных документов.

Для реального сравнения качества поиска различных систем поиска устраивают тестовые испытания, в рамках которых выполняется поиск по запросам и коллекциям документов, заранее подготовленных и оцененных экспертами. Для каждой поисковой системы для каждого запроса вычисляется

(4.3)

Здесь есть величина, задающая долю от общего числа релевантных документов , которую необходимо получить в ответ на запрос. Иными словами, пользователь получает начальную часть ранжированного списка документов, содержащую ровно документов, причем, среди них содержится ровно документов, релевантных запросу . В качестве можно взять величины 0.1, 0.2, …, 1.0. Вычислив для каждого значения , можно построить график зависимости точности от полноты для данного запроса . Выполнив множество различных запросов, можно построить усредненный график, характеризующий качество поиска, обеспечиваемое данной поисковой системой. Именно такие так называемые ``recall-precision'' графики используются при сравнении различных поисковых систем.

Проведем тестирование на точность и полноту различных алгоритмов.

Таблица 4.1 - Параметры точности и полноты при различных запросах и алгоритмах определения релевантности

Алгоритм
Баз данных
Подобие	104	104	114	1	0.91
Приближенных	106	106	114	1	0.93
Частичный	114	114	114	1	1
SQL Server
Подобие	26	26	60	1	0.43
Приближенных	28	28	60	1	0.46
Частичный	60	60	60	1	1
Select order
Подобие	4	4	9	1	0.44
Приближенных	5	5	9	1	0.56
Частичный	9	9	9	1	1
Нормализация Бойс
Подобие	0	0	2	0	0.5
Приближенных	1	1	2	1	0.5
Частичный	2	2	2	1	1
Запрос оптимизация
Подобие	8	8	15	1	0.53
Приближенных	9	9	15	1	0.6
Частичный	15	15	15	1	1

Анализ показал, что частичный алгоритм дает наибольшую полноту поиска. Это объяснимо просто - результатом в этом случае является любой документ, содержащий нужные слова. Результаты точности различаются довольно существенно для двух первых алгоритмов, что связано с различным содержание выходных документов. Кроме того в некоторых запросах вероятность нахождения слов в одной фразе невелика.

4.3 Определение весовых коэффициентов

Наиболее сложной задачей является определение весовых коэффициентов тэгов. Сложность заключается в следующем:

- нет четкой методики определения коэффициентов,

- для различных наборов данных коэффициенты могут меняться,

- большой набор варьируемых параметров.

В начале определим, какие тэги могут участвовать в определении релевантности документов. Такими тэгами будут:

- Заголовок документа Title,

- Заголовки H1-H6,

- Ключевые слова мета-тэга Keywords,

- Описание документа мета-тэга Description,

- Подпись под рисунком Alt (конструкция тэга Img),

- Текст документа.

Теперь необходимо выбрать критерий, по которому будет производиться подбор весовых коэффициентов. Таким критерием может служить упорядоченность документов по убыванию их релевантности. Другими словами, наиболее релевантные документы должны находиться в начале списка, менее релевантные - в конце.

Теперь предположим, что при наборе весовых коэффициентов получается упорядоченное множество документов, релевантных запросу . Пусть имеется некое множество , определяющее “идеальное” расположение документов, то есть расположение документов, установленное экспертов предметной области (человеком). Тогда необходимо найти такой набор весовых коэффициентов, чтобы множества и были максимально похожи.

Выразим меру близости множеств и как функцию

, (4.4)

где - -тый документ в множестве ,

- -тый документ в множестве .

Тогда наиболее подходящий набор весовых коэффициентов будет получен при , то есть когда разность позиций в “идеальном” и полученном множестве документов будет минимальна.

Конечно, наборы весовых коэффициентов могут различаться при различных запросах и для различных предметных областей, по этому необходимо определить некий общий, усредненный набор.

На основании вышеизложенных предположений был выполнен подбор весовых коэффициентов. Вначале был сформирован тестовый набор для запроса “базы данных” из 50 документов. Такое количество документов вполне достаточно, так как оно необходимо для оценки правильности определения релевантности страниц. Тестовый набор был проанализирован (проведена так называемая экспертная оценка) и сформировано упорядоченное множество , отображающее релевантность каждого документа. В начале множества находится наиболее подходящий (релевантный) документ, в конце - наименее релевантный.

Теперь можно сделать первую гипотезу - что вес всех тэгов одинаков. Это означает, что наиболее релевантный документ - это документ, имеющий наибольшее количество встречаемости искомых слов в тексте. Поставим в соответствие каждому тэгу вес “1”. В соответствии с (4.4) определим меру близости B=354. Полученное значение, несомненно, очень велико, поэтому гипотезу можно считать неудачной.

Теперь предположим, что тэги имеют различный вес. Пусть тэг TITLE имеет наибольшее значение (вес 8), тэги H1-H6 - веса 7-2 соответственно. Пусть Keywords и Description имеют вес 4, текст - вес 1, остальные тэги 2. При таком расположении весов мера близости B=130.

Таблица 4.2. Определение меры близости при различных весовых коэффициентах

Тэг	Вес	Вес	Вес
TITLE	1	8	20
H1	1	7	16
H2	1	6	14
H3	1	5	12
H4	1	4	10
H5	1	3	8
H6	1	2	6
Keywords	1	4	10
Description	1	4	10
Alt	1	2	5
Ссылка Href	1	2	4
Area	1	2	5
Текст	1	1	1
	354	130	15

Варьируя значениями весов, был получен набор, дающий меру близости B=15. Набор коэффициентов в этом случае был получен следующий:

- Тэг TITLE - 20,

- Тэг H1 - 16,

- Тэг H2 - 14,

- Тэг H3 - 12,

- Тэг H4 - 10,

- Тэг H5 - 8,

- Тэг H6 - 6,

- Мета-тэг Keywords - 10,

- Мета-тэг Description - 10,

- Конструкция Alt тэга IMG - 5,

- Текст ссылка Href - 4,

- Область Area - 5,

- Остальной текст - 1.

Рисунок 4.3 - Отклонение результатов от тестового набора.

Рисунок 4.4 - Доля тэгов при определении релевантности в разработанной системе

Полученный набор был проверен на других тестовых наборах. Анализ показал, что этот набор дает небольшие значения B на всех поисковых наборах (или запросов). Изменение весов (например, для достижения B=0 для одного запроса) дает увеличение значения B для ряда других поисковых запросов. Поэтому, указанный набор можно считать наиболее подходящим для различных запросов.

Рисунок 4.5 - Сравнение доли тэгов при определении релевантности в существующих и разработанной системе

5. Организационно-экономическая часть

Первоначально определим затраты, связанные с внедрением поисковой системы. Затраты складываются из:

1) Затрат на приобретение вычислительной техники - затрат на закупку ЭВМ; периферийного оборудования (принтеров, сканеров, дополнительных мониторов, дисков и т.п.); сетевого оборудования (модемов).

2) Затрат на приобретение программных средств - затрат на приобретение готовых программных средств, их адаптацию и сопровождение. Здесь учитывается, что СУБД MySQL является свободно распространяемой, Интернет-сервер Apache - тоже. Стоимость операционной системы Alt Linux (которая также является бесплатной) определяется стоимостью носителей, на которых она поставляется.

3) Затрат на оплату сторонних организаций и специалистов, связанных с информационными технологиями. Здесь учитываются затраты на консультационные услуги по компьютерным техническим средствам, связанные с их приобретением, установкой и эксплуатацией, включающие консультации по типам и конфигурации технического обеспечения во взаимосвязи с используемым программным обеспечением; консультационные услуги по программному обеспечению, включающие анализ потребностей и проблем пользователя; консультационные услуги по информационному обеспечению и обработку данных; услуги по техническому обслуживанию и ремонту электронных вычислительных машин и используемого совместно с ними периферийного оборудования; услуги по разработке системных и прикладных программных средств по заказу потребителя.

Эти затраты складываются из стоимости регистрации домена для поисковой системы в Интернет (провайдером) и оплатой хостинга (размещения сайта в Интернет).

4) Затрат на обучение 1 сотрудника, связанное с развитием и использованием информационных технологий - Учитываются затраты на обучение сотрудников сторонними организациями и специалистами, а также работников предприятия, если обучение не входит в их должностные обязанности и оплачивается отдельно.

Затраты на использование информационных технологий складываются из: Затрат на послепродажное обслуживание - включают в себя затраты на покупку дополнительных комплектующих для компьютера, литературы по программному обеспечению и дополнительных дисков программного обеспечения. Затраты складываются из стоимости хостинга (оплачивается каждый год) и услуг Интернет-провайдера во выходу в сеть. Рассчитывается из расчета 1800 руб. в месяц за неограниченный трафик.

Затрат на электроэнергию - определяются исходя из мощности оборудования и действующих тарифов на электроэнергию. Мощность ЭВМ равна 220Вт, стоимость 1 кВт равна 0.63 руб.

Таблица 5.1- Затраты на внедрение

№ п/п	Показатель	Количество. ед.	Цена, руб.	Суммаруб.
1	Затраты на приобретение вычислительной техники, в том числе: Celeron 1700\80\256\FDD 3,5\ CD-ROM 52x\ монитор 15'' Модем Acorp 56K внешний	1 1	18300 1540	19840 18300 1540
2	Затраты на приобретение программных средств, в том числе: MySQL Apache Alt Linux	1 1 1	0 0 360	360 0 0 360
3	Затраты на оплату сторонних организаций и специалистов, связанных с информационными технологиями (кроме услуг по обучению сотрудников) в том числе: регистрация домена (провайдером) хостинг, настройка сервера	1 1	700 3200	3900 700 3200
4	Затраты на обучение 1 сотрудника, связанное с развитием и использованием информационных технологий	1	1500	1500
Итого:			25600

Проектом предполагается, что в нулевом году предприятие создает поисковую систему. Поэтому затраты, указанные в таблице 5.1, имеют место в этом периоде. Непосредственно использовать поисковой системы начинается со следующего года. Затраты на использование представлены в таблице 5.2.

Таблица 5.2 - Затраты на использование поисковой системы

	1 год	2 год	3 год	4 год
Послепродажное обслуживание, руб.	24800	24800	24800	24800
Затраты на электроэнергию, руб.	1220	1450	1720	2040
Итого:	26020	26250	26520	26840

Затраты на электроэнергию рассчитываются с учетом инфляционных процессов (норма инфляции 18,6% в год).

Результатом от внедрения поисковой системы выступает:

- Сокращение сроков поиска информации

- Повышение производительности труда (поиска информации) работниками в 3-4 раза. Это позволяет достигнуть экономии на фонде заработной платы, которая является следствием высвобождения определенного числа работников.

- Повышением качества получаемой информации.

Исходные данные для расчета экономии представлены в таблице 5.3.

Таблица 5.3 - Исходные данные для расчета экономии

	до внедрения	после внедрения
	Количество работников, чел. (количество компьютеров, шт.)	Среднемесячная ЗП, руб.	Количество работников, чел.	Среднемесячная ЗП, руб.
Организация	4 (1)	3000	1	3000
Итого:	4	12000	1	3000

Таким образом, внедрение поисковой системы в работу позволяет сократить количество работников с 4 до 1 человека.

Результатом от внедрения ИТ является экономия от высвобождения работников, которая рассчитывается по следующей формуле:

, (5.1)

где Y_i - количество высвобождаемых работников у i-го субъекта инвестирования (i=1, 2, …n);

W_i - величина дохода на одного среднесписочного работающего.

С учетом того, что среднемесячная заработная плата работников равна 3000 руб., годовая экономия от высвобождения работников составит:

Э_с= (3*3000)*12= 108000 руб

Рассчитаем показатели экономической эффективности. Расчеты приведены в таблице 5.4.

Таблица 5.4 - Расчет показателей экономической эффективности ИТ-проекта

Показатели	0 год	1 год	2 год	3 год	4 год
1.Затраты на внедрение, руб.	25600
2.Текущие затраты по ИТ-проекту, руб.		26020	26250	26520	26840
3.Результаты (экономия), руб.		108000	108000	108000	108000
4.Коэффициент дисконтирования (при Е=0,21)	1	0,8264	0,6830	0,5645	0,4665
5.Общий дисконтированный денежный поток, руб. с.5 = (с.3-с.2-с.1)*с.4	-25600	67748,2	55835,2	45995,4	37861,14
Кумулятивный общий дисконтированный денежный поток (накопленный эффект), руб.	-25600	42148,2	97983,4	143978,8	181839,9

Экономический эффект от внедрения информационных технологий рассчитывается на основании “Методических рекомендаций по оценке эффективности инвестиционных проектов”. В качестве главного критерия эффективности рассматривается чистый дисконтированный доход. Основным результатом от внедрения ИТ является экономия затрат. Формула для оценки эффективности предлагаемого ИТ-проетка может быть преобразована следующим образом:

, (5.2)

где Э - суммарная величина экономии от внедрения ИТ;

З - суммарные затраты на внедрение ИТ;

э(t) - экономия в период t;

з(t) - затраты в период t;

r - ставка дисконтирования, отражающая временную стоимость денег;

t - период времени (t=1,..,T).

Срок возврата - PBP (Payback Period) - срок окупаемости ИТ-проекта, определяется как период времени t^*, требуемый для возмещения начального капитала посредством накопленных чистых потоков реальных денег, генерированных ИТ-проектом.

Аналитически PBP = t^*при {NVP(t^*)=0}.

Рассматривая экономию затрат в качестве результата внедрения ИТ, преобразуем формулу индекса прибыльности (индекса доходности) соответствующим образом:

, (5.3)

где З - затраты на внедрение ИТ;

З_t^* - текущие затраты по ИТ-проекту.

I_д>1 говорит о том, что ИТ-проект эффективен; I_д<1 свидетельствует о неэффективности ИТ-проекта.

Таким образом индекс доходности будет:

I=1/25600*((108000-26020)*0,8264 + (108000-26250)*0,6830 + (108000-26520)*0,5645 + (108000-26840)*0,4665)=8,1

Срок окупаемости проекта графически определен на рис.5.1

Первоначальные инвестиции в проект составят 25600 руб. Внедрение поисковой системы дает ежегодную экономию издержек в размере 108000 руб. Интегральный эффект за 4 года составляет 181839 руб. Инвестиции в данный проект окупаются в первый год реализации ИТ-проекта. Индекс доходности по проекту равен 8,1, что свидетельствует об эффективности проекта.

Рисунок 5.1 - Срок окупаемости ИТ-проекта

Таким образом, была сформирована система показателей для оценки эффективности реального проекта поисковой системы. Данный подход отличается следующими особенностями:

При формировании системы показателей оценки эффективности ИТ-проекта использовался комплексный подход. Сформированная система представляет собой сочетание элементов различных методик.

Эффективность внедрения ИТ предложено рассматривать не только с точки зрения затрат, связанных с их внедрением и эксплуатацией, но и с точки зрения результатов, которые дает использование ИТ.

Данный комплексный подход отличается от статичной оценки взаимосвязи “затраты - результаты” расчетом стратегической эффективности. Критерием стратегической эффективности выступает чистый дисконтированный доход, который выражает суммарную экономию затрат.

6. Охрана труда и безопасность жизнедеятельности

6.1 Перечень возможных профессиональных вредностей и опасностей, создаваемых разрабатываемым продуктом

Пользователь программного продукта вынужден продолжительное время находиться непосредственно за персональной ЭВМ (ПЭВМ). Разумеется, на него будут влиять неблагоприятные физические факторы внешней среды, связанные как с самой ПЭВМ, так и с окружающей средой. Общее у этих неблагоприятных факторов то, что все они в конечном итоге ведут к понижению работоспособности разработчика, а, возможно, и к потере здоровья. К таким факторам относятся:

а) электромагнитные поля радиочастот регламентируются по ГОСТ 29216 - 91, СанПиН 2.2.2.542-96. Предельно-допустимые уровни (ПДУ) электромагнитного поля и поверхностного электростатического потенциала монитора компьютера отражены в таблице 6.1.

Таблица 6.1 - Предельно-допустимые уровни электромагнитного поля

Вид поля	Диапазон частот	Единица измерения	ПДУ	Фактическое значение
Магнитное поле	5Гц- 2кГц	нТл	250	100
магнитное поле	2- 400 кГц,	нТл	25	15
электрическое поле	5Гц- 2кГц	В/м	25	5
электрическое поле	2- 400 кГц	В/м	2,5	1
эквивалентный (поверхностный) электростатический потенциал	В	500	200

б) рентгеновское излучение до 0,07мкР/ч, ПДУ 0,05 мкР/ч, регламентируется по ГОСТ 27954 - 88,

в) мерцание экрана, ПДУ 60 Гц, регламентируется по ГОСТ TCO 95.

Российский стандарт ГОСТ 27954 - 88 на мониторы персональных ЭВМ отражен в таблице 6.2.

Таблица 6.2 - Российский стандарт ГОСТ 27954 - 88 на мониторы

ХАРАКТЕРИСТИКА МОНИТОРА	ТРЕБОВАНИЯ ГОСТ - 27954-88
Частота кадров при работе с позитивным контрастом	Не менее 60 Гц
Частота кадров режиме обработки текста	Не менее 72 Гц
Дрожание элементов изображения	Не более 0,1 мм
Антибликовое покрытие	Обязательно
Допустимый уровень шума	Не более 50 дБА
Мощность дозы рентгеновского излучения на расстоянии 5 см от экрана при 41 - часовой недели	Не более 0,03 мкР/с

д) уровень шума до 60 дБА , ПДУ 50 дБА , регламентируется по ГОСТ 26329 - 84 или ГОСТ 2718 - 88,

е) возможная недостаточная освещенность, требуемая - 300 - 500 лк, регламентируется по СНиП 11 - 4 - 79,

ж) возможная повышенная относительная влажность воздуха 70-90% , норма 40-60 %,

з) психо-эмоциональное напряжение,

и) риск поражения электротоком.

Во избежание поражения электротоком корпус процессора компьютера должен быть заземлен. Это достигается соединением корпуса с общим проводником заземления посредством проводника.

6.2 Меры и устройства, защищающие потребителя от указанных вредностей и опасностей

Для защиты от каждого из этих типов нагрузок имеются свои способы защиты. Эти способы можно разделить на две основные группы - технические и организационные.

Организационные способы направлены на оптимальную организацию рабочего времени и перерывов таким образом, чтобы обезопасить разработчика от переутомления, связанного с использованием ПЭВМ. Технические способы защиты от подобных нагрузок основаны на использовании реальных устройств, обеспечивающих ту или иную степень защиты.

Организационные способы защиты. Для обеспечения оптимальной работоспособности и сохранения здоровья пользователя программного продукта, на протяжении всей рабочей смены должны устанавливаться регламентированные перерывы длительностью 10-15 минут ежечасно. Во время этих перерывов целесообразно выполнять комплексы упражнений, например для глаз. Продолжительность непрерывной работы без регламентированного перерыва не должна превышать двух часов.

С целью уменьшения влияния монотонности труда целесообразно применять чередование операций работы с программой, т.е. должно изменяться содержание работ.

В случае возникновения у разработчика зрительного дискомфорта и других неблагоприятных субъективных ощущений, даже при условии соблюдения санитарно-гигиенических и эргономических требований, режимов труда и отдыха, следует применять индивидуальный подход в ограничении времени работы с ЭВМ - коррекцию длительности перерывов для отдыха или проводить смену деятельности на другую , не связанную с использованием ЭВМ. Другими словами, необходимо приблизить режим работы разработчика к свободному (это обуславливает предпочтительность сдельного способа оплаты труда программиста по сравнению с повременным).

Технические способы защиты. Самым значимым видом излучения электронно-вакуумного прибора является рентгеновское излучение. Для защиты от него и от электромагнитных излучений перед экраном ЭЛТ-монитора (электронно-лучевая трубка) старой разработки необходимо ставить защитный экран (в новых разработках предусмотрены встроенные средства радиационной защиты) с обязательным заземлением. Защитный экран уменьшает общую яркость монитора и, в то же время, детали изображения с малой яркостью остаются хорошо видимыми, так как общая контрастность увеличивается. Полностью устранить электромагнитное излучение ЭЛТ-мониторов невозможно. Чтобы уменьшить воздействие электростатического поля, навесные экраны и ЭЛТ-мониторы необходимо заземлять и оператор должен находиться на расстоянии не менее 0,5 м от монитора.

Для создания благоприятных психофизиологических условий работы, рабочее место разработчика должно удовлетворять эргономическим требованиям по организации рабочего места оператора ЭВМ.

Необходимо соблюдать ряд требований к рабочему помещению, в котором должна находится ПЭВМ. Оно должно иметь естественное и искусственное освещение. Кроме того, помещение с ПЭВМ должно оборудоваться системами отопления, кондиционирования воздуха и эффективной приточно-вытяжной вентиляцией.

Одним из необходимых условий высокопроизводительного труда является обеспечение нормальных микроклиматических условий и чистоты воздуха в рабочей зоне. Микроклимат определяется действующими на организм человека сочетаниями температуры, влажности, скорости движения воздуха. Наиболее часто изменения микроклимата в помещениях отдела автоматизации вызываются повышением температуры. Температуру рабочих помещений рекомендуется регулировать в зависимости от времени года, тепловыделений и других факторов. Наиболее комфортная температура воздуха в холодный и теплый период года - в пределах +20-22^оС при относительной влажности 60-40 % .

Для защиты от химических загрязнений полезно поставить в компьютерной комнате очиститель воздуха, предусматривать постоянную вентиляцию помещений. Пыль, оседающая на экране, снижает его освещенность и способствует накоплению статического электричества. Нужно каждый раз, начиная работу, еще до включения компьютера протирать экран мягкой тканью.

Улучшение производственной обстановки включает рациональное решение по распространению света в помещении. Коэффициент отражения света материалами и оборудованием внутри помещений имеет большое значение для освещения: чем больше света отражается от поверхностей, тем выше освещенность. Освещение помещений и оборудования должно быть мягким, без блесткости.

Очень важно обеспечить минимальный уровень шумов в рабочем помещении. Для этого оно не должно граничить с помещениями, в которых уровни шума и вибрации превышают нормируемые значения (механические цеха, мастерские и т.д.). Все шумящее оборудование (АЦПУ, принтеры и т.д.), уровни шума которого превышают нормированные, должно находиться вне помещения с ПЭВМ. При необходимости снизить уровень шума в помещениях с персональными ЭВМ можно следующими способами: использованием звукопоглощающих материалов с максимальным коэффициентом звукопоглощения в области частот 63 - 8000 Гц для отделки помещений; при помощи дополнительных звуконепроницаемых занавесей из плотной ткани, подвешенные в складку на расстоянии 15-20 см от шумящего оборудования; предусмотрев в конструкциях сильно шумящих устройств специальные акустические экраны.

Чтобы избежать вредностей компьютера, рекомендуется применять жидкокристаллические мониторы (ЖК-мониторы), которые не излучают, и также избавляют глаза оператора от мерцания экрана, от которого не спасает даже увеличение частоты развертки ЭЛТ-монитора до 75-80 Гц, т.к. мерцание исчезает лишь визуально. У ЖК-мониторов электростатическое поле отсутствует.

Однако защита будет недостаточной, если сам дисплей будет в неисправном состоянии. Конструкция дисплейного терминала ПЭВМ должна обеспечивать минимальную мощность экспозиционной дозы рентгеновского излучения (в любой точке на расстоянии 0,05 м от экрана и корпуса видео дисплейного терминала при любых положениях регулировочных устройств мощность рентгеновского излучения не должна превышать 0,07 мкР/ч).

Выполнение вышеперечисленных условий позволит снизить утомляемость разработчика программного продукта, следовательно, повысить производительность его труда и уменьшить вероятность возникновения многих профессиональных заболеваний.

Важным фактором, определяющим работоспособность и утомляемость оператора, является планировка рабочего места, которая должна удовлетворять требованиям удобства выполнения работ, экономии энергии и времени оператора, рационального использования производственных площадей и удобства обслуживания устройств ЭВМ, соблюдение правил охраны труда.

Эргономические требования к организации рабочего места оператора:

Рабочие места с ЭВМ по отношению к световым проемам должны располагаться сбоку, преимущественно слева. Схемы размещения рабочих мест должны учитывать расстояние между рабочими столами с мониторами - оно должно быть не менее 2,0 м, а расстояние между боковыми поверхностями мониторов - не менее 1,2 м. Площадь, приходящаяся на одно рабочее место оператора ЭВМ должна составлять не менее 6,0 м², а объем не менее 20,0 м³.

Высота рабочей поверхности стола должна регулироваться в пределах 600-800 мм; при отсутствии такой возможности высота рабочей поверхности стола должна составлять 725 мм. Рабочий стол должен иметь пространство для ног высотой не менее 600 мм, шириной - не менее 450 мм и на уровне вытянутых ног - не менее 650 мм.

Спинка стула должна быть изогнутой формы. Длина ее 0,3 м, ширина 0,11 м, радиус изгиба 0,3-0,35 м. Поверхность сиденья, спинки и других элементов стула должна быть полумягкой, с нескользящим, неэлектризующимся и воздухопроницаемым покрытием, обеспечивающим легкую очистку от загрязнений.

Рабочее место должно быть оборудовано подставкой для ног.

Экран монитора должен находится от глаз пользователя на оптимальном расстоянии 600-700 мм, минимальное - 500 мм с учетом размеров алфавитно-цифровых знаков и символов. Следует предусматривать расположение экрана монитора в месте рабочей зоны, обеспечивающее удобство зрительного наблюдения в вертикальной плоскости под углом плюс-минус 30 градусов от нормальной линии взгляда оператора. Необходимо правильно задать регулировки изображения - отрегулировать яркость и контрастность изображения.

Клавиатуру следует располагать на поверхности стола на расстоянии 100-300 мм от края, обращенного к пользователю.

Помещение вычислительного центра должно отвечать следующим требованиям:

должно иметь естественное и искусственное освещение, отвечающее требованиям главы стандартов и правил (Ст и П) 11-4-79 «Естественное и искусственное освещение. Нормы проектирования» санитарного законодательства и настоящих временных санитарных правил и норм (СанПиН). Рекомендуемая освещенность 300 лк;

коэффициент отражения рабочих поверхностей и цветовой отделки интерьера АРМ должен быть следующим: потолка - (0,7-0,8); стен - (0,5-0,6); пола - (0,3-0,4); стола - (0,45-0,5); клавиатуры - (0,4-0,6);

необходимо также предусмотреть цветовое оформление помещений, так как окраска влияет на нервную систему человека, а следовательно, и на производительность труда. Предпочтительные цвета: светло-голубой, светло-зеленый, светло-бежевый;

для обеспечения нормальных условий труда санитарные нормы СН 245-71 устанавливают на одного работающего объем производственного помещения не менее 15 м³, площадь помещения, выгороженного стенами или глухими перегородками, не менее 4,5 м².

Страница:

дипломная работа "Анализ гипертекстовых документов с различных сайтов с целью автоматизированного сбора данных" скачать

Подобные документы

Анализ существующих информационно-поисковых систем
Понятие информационно-поисковых систем, их сущность и особенности, история возникновения и развития, роль на современном этапе. Внутреннее устройство и элементы поисковой системы. Принцип работы поисковой машины Рамблер, прядок обработки запроса.

научная работа [222,0 K], добавлен 29.01.2009
Организация поисковой системы во всемирной глобальной сети
Описание и классификация современных информационно–поисковых систем. Гипертекстовые документы. Обзор и рейтинги основных мировых поисковых систем. Разработка информационно–поисковой системы, демонстрирующей механизм поиска информации в сети Интернет.

дипломная работа [1,3 M], добавлен 16.06.2015
Разработка системы поиска документов релевантных заданному тексту
Обоснование выбора метода извлечения ключевых слов. Анализ предметной области, проектирование информационной системы поиска релевантных документов. Реализация запросов к электронным библиотекам. Реализация интерфейса системы поиска релевантных документов.

дипломная работа [1,1 M], добавлен 21.09.2016
Информационно-поисковые системы
Понятие информационно-поисковых систем. История возникновения сети Internet. Основные алгоритмы работы современных словарных информационно-поисковых систем. Быстрый поиск в базе данных и быстрое реагирование системы. Ранжирование результатов поиска.

курсовая работа [101,1 K], добавлен 01.06.2012
Информационно-аналитическая система для оформления командировочных документов
Проектирование алгоритмов и программных кодов для различных элементов пользовательских форм информационно-аналитической системы. Исследование структуры базы данных. Связь между таблицами. Разработка графического интерфейса программы и справочной системы.

курсовая работа [2,4 M], добавлен 10.01.2015
Организация и алгоритмы работы поисковых систем
Понятие и классификация поисковых систем, история их развития и структурные элементы. Характеристика существующих моделей поиска, анализ его качества. Особенности обработки запроса поисковой системой, подготовки базы данных и процесса выдачи результатов.

курсовая работа [2,6 M], добавлен 15.04.2014
Документальные информационно-поисковые системы
Компоненты документальной информационно-поисковой системы. Результаты индексирования документов и запросов. Иерархическая, фасетная и эмпирическая классификационные схемы. Дескрипторные информационно-поисковые языки. Примеры дескрипторной статьи.

презентация [59,2 K], добавлен 14.10.2013
Разработка информационно-поисковой системы для формирования технологического оборудования для сборочно-монтажных работ
Анализ информационно-поисковых систем автоматизации производства. Построение инфологической и логической модели базы данных технологического оборудования для сборочно-монтажных работ. Выбор языка программирования приложения БД. Алгоритм работы программы.

дипломная работа [2,5 M], добавлен 18.12.2013
Разработка информационно-поисковой системы для формирования технологического оборудования для сборочно-монтажных работ
Анализ современных информационно-поисковых систем автоматизации производства. Основные виды, требования и параметры технологического оборудования для сборочно-монтажных работ. Разработка физической модели базы данных технологического оборудования.

дипломная работа [1,5 M], добавлен 02.09.2014
Организация хранения и поиска информации в сети Internet
Методы и инструментарий хранения данных во Всемирной сети. Понятие и разновидности гипертекстовых документов и графических файлов. Принципы работы поисковых систем и правила поиска нужной информации. Характеристика некоторых поисковых систем Сети.

курсовая работа [30,9 K], добавлен 18.04.2010

Другие документы, подобные "Анализ гипертекстовых документов с различных сайтов с целью автоматизированного сбора данных"

весь список подобных работ

скачать работу можно здесь

сколько стоит заказать работу?

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.