Организация хранения и поиска информации в сети Internet

Хранение данных в сети Internet. Гипертекстовые документы, виды файлов. Графические файлы, их виды и особенности. Поисковые системы и правила поиска информации. Обзор поисковых систем сети Internet. Все о поисковых системах Yandex, Google, Rambler.

Рубрика Программирование, компьютеры и кибернетика
Вид курсовая работа
Язык русский
Дата добавления 26.03.2011
Размер файла 918,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

30

29

Организация хранения и поиска информации в сети Internet

Оглавление

  • Введение
  • 1. Хранение данных в сети Internet
  • 1.1 Гипертекстовые документы, виды файлов
  • 1.2 Графические файлы, их виды и особенности
  • 1.3 Поисковые системы и правила поиска информации
  • 2. Обзор и характеристика поисковых систем сети Internet
  • 2.1 Все о поисковых системах Yandex, Google, Rambler
  • 2.2 Google
  • 2.3 Yandex
  • 2.4 Rambler
  • 2.5 Yahoo
  • 2.6 Altavista
  • Заключение
  • Список используемых источников

Введение

internet сеть поисковая система

Интернет как средство информации в России пока не может конкурировать с традиционными СМИ, но имеет в этом отношении большие перспективы и сможет в дальнейшем выступать наравне с другими информационными ресурсами.

Количество пользователей интернета в России составляет около 60 миллионов человек. Такие данные приводит в своем блоге мониторинговая компания Pingdom со ссылкой на Internet World Stats. С таким показателем Россия входит в десятку стран с наибольшим количеством пользователей Сети, занимая в этом списке седьмое место. Наибольшее количество интернет-пользователей (420 миллионов) проживают в Китае. На втором и третьем месте в списке идут США и Япония с показателями 234 и 99 миллионов человек соответственно. Лидерами по такому показателю, как проникновение интернета (соотношение количества интернет-пользователей в стране и ее населения), стали Великобритания и Южная Корея (82 и 81%). Также в пятерку вошли Германия, Япония и США. Для сравнения, у России этот показатель составляет менее 43%. Общемировая аудитория Всемирной паутины составляет почти два миллиарда человек. При этом с 2000 года она увеличилась более чем в пять раз. Показатель проникновения интернета по всему миру равняется 28,7%. Таким образом, выход в Сеть есть у каждого четвертого жителя Земли. Во всем мире, а теперь и у нас в стране, наличие работающего Web-сайта становится признаком стабильной, профессиональной работы фирмы. Интернет давно уже стал не только средством общения, но и полем для серьезной коммерческой деятельности. Практически каждая зарубежная фирма имеет в Сети свое представительство, виртуальный офис. Суммарный оборот компаний, ведущих торговлю в Интернет, достигает миллиардов долларов. В России также все большее число компаний использует Интернет для продвижения своих товаров и услуг. В этом легко убедиться, просмотрев рекламные издания. Рядом с привычными номерами телефонов и факсов все чаще и чаще встречаются адреса электронной почты и Web-сайтов. Скоро отсутствие адреса в Интернет будет затруднять работу так же, как отсутствие факса. Тот, кто займет себе место сейчас, существенно выиграет в будущем. Это оперативность и актуальность. Традиционные средства массовой информации при всей их наглядности и привычности уже не способны обеспечить надлежащий уровень оперативности, требуемый современному человеку. Поэтому все больше и больше людей обращаются в Интернет, чтобы получить самую свежую информацию: об услугах и ценах, погоде, курсах валют, просто новости. На Web-сайте можно менять информацию несколько раз в день. В печатных изданиях надо заказывать рекламу минимум за неделю, а то и больше. А в Интернет все оперативно: новые товары или услуги, новая скидка или новый поставщик - завтра об этом узнают клиенты. Нет необходимости ждать, пока выйдет очередной выпуск печатной рекламы. Информация на сайте будет всегда актуальной, самой свежей. Именно это ценят, именно это привлекает в Интернет миллионы пользователей.

1. Хранение данных в сети Internet

1.1 Гипертекстовые документы, виды файлов

Под гипертекстовым документом понимают документ, содержащий так называемые ссылки на другой документ. Реализовано все это через протокол передачи гипертекста HTTP (HyperText Transfer Protocol).

Информация в документах Web может быть найдена по ключевым словам. Это означает, что каждый обозреватель Web содержит определенные ссылки, через которые образуются так называемые гиперсвязи, позволяющие миллионам пользователей Internet вести поиск информации по всему миру.

Гипертекстовые документы создаются на базе языка HTML (HyperText Markup Language). Этот язык весьма прост, управляющие коды его, которые, собственно, и компилируются обозревателем для отображения на экране, состоят из текста ASCII. Ссылки, списки, заголовки, картинки и формы называются элементами языка HTML, которые позволяют щелчком мыши перейти к просмотру другого документа.

Существует два способа создания гипертекстовых документов. Можно воспользоваться одним из WYSIWYG HTML-редакторов (например, Netscape Composer, основы работы с котором рассмотрены в разделе «Обработка текста на ЭВМ», Microsoft FrontPage, HotDog, или др.), для работы с которыми не требуется специальных знаний о внутренней структуре создаваемого документа. Этот способ позволяет создавать документы для WWW без знания языка HTML. HTML-редакторы автоматизируют создание гипертекстовых документов, избавляют от рутинной работы. Однако их возможности ограничены, они сильно увеличивают размер получаемого файла и не всегда полученный с их помощью результат соответствует ожиданиям разработчика. Но, безусловно, этот способ незаменим для новичков в деле подготовки гипертекстовых документов.

Альтернативой служит создание и разметка документа при помощи обычного редактора plain-текста (таких, как emacs или NotePad). При этом способе в текст вручную вставляются команды языка HTML. Создавая документы таким способом, вы точно знаете, что делаете.

Как уже отмечалось, HTML-документ содержит символьную информацию. Одна ее часть - собственно текст, т.е. данные, составляющие содержимое документа. Другая - теги (markup tags), называемые также флагами разметки, - специальные конструкции языка HTML, используемые для разметки документа и управляющие его отображением. Именно теги языка HTML определяют, в каком виде будет представлен текст, какие его компоненты будут исполнять роль гипертекстовых ссылок, какие графические или мультимедийные объекты должны быть включены в документ. Графическая и звуковая информация, включаемая в HTML-документ, хранится в отдельных файлах. Программы просмотра HTML-документов (браузеры) интерпретируют флаги разметки и располагают текст и графику на экране соответствующим образом. Для файлов, содержащие HTML-документы, приняты расширения.htm или.html.

Прописные и строчные буквы при записи тегов не различаются. В большинстве случаев теги используются парами. Пара состоит из открывающего (start tag) и закрывающего (end tag) тегов. Синтаксис открывающего тега:

<имя_тега [атрибуты]>

Прямые скобки, используемые в описании синтаксиса, означают, что данный элемент может отсутствовать. Имя закрывающего тега отличается от имени открывающего лишь тем, что перед ним ставится наклонная черта:

</имя_тега>

Атрибуты тега записываются в следующем формате:

имя [= «значение»]

Кавычки при задании значения аргумента не обязательны и могут быть опущены. Для некоторых атрибутов значение может не указываться. У закрывающего тега атрибутов не бывает.

Действие любого парного тега начинается с того места, где встретился открывающий тег и заканчивается при встрече соответствующего закрывающего тега. Часто пару, состоящую из открывающего и закрывающего тегов, называют контейнером, а часть текста, окаймленную открывающим и закрывающим тегом, - элементом.

Последовательность символов, составляющая текст, может состоять из пробелов, табуляций, символов перехода на новую строку, символов возврата каретки, букв, знаков препинания, цифр, и специальных символов (например, +, #, $, @), за исключением следующих четырех символов, имеющих в HTML специальный смысл: < (меньше), > (больше), & (амперсенд) и " (двойная кавычка). Если необходимо включить в текст какой-либо из этих символов, то следует закодировать его особой последовательностью символов.

К специальным символам можно отнести и неразрывный пробел. Использование этого символа - один из способов увеличить расстояние между некоторыми словами в тексте. Обычные пробелы использовать для этих целей нельзя, так как группа подряд идущих пробелов интерпретируется браузером как один.

1.2 Графические файлы, их виды и особенности

В настоящее время использование полноцветной качественной графики реалистичных цветов на компьютерах класса ПК выглядит совершенно обыденным. Хотя не так давно это было привилегией издательских систем, которые обычно строились на платформах Macintosh или графических станций Silicon Graphics. Пользователи ПК довольствовались же в крайнем случае графикой с цветом, глубиной максимум 8 бит/пиксел (256 цветов) при довольно слабой разрешающей способности 320Х200 или же 16 цветами при разрешении 640Х480.

Сейчас, с развитием архитектур видеоадаптеров и удешевлением видеопамяти на различных микросхемах, среднестатистическому пользователю вполне доступны системы на платформе ПК, успешно работающие с реалистичными (TrueColor) изображениями глубиной 24 бита / пиксел (более 16 млн. цветов).

В связи с техническим прогрессом возникла потребность в перенесении на платформу ПК и адаптации различных форматов кодирования и хранения графической информации с других платформ (например Macintosh, где подобные разработки развиваются в течение уже второго десятка лет), или же разработка собственных, ориентированных на ПК графических форматов, полностью учитывающих все особенности архитектуры их видеоадаптеров.

Более того, в последние 5 лет в связи с молниеносным распространением Internet и, в частности, технологий World Wide Web, стала вставать проблема другого рода - разработка форматов изображений достаточно компактных для передачи в сети с минимальными задержками и аппаратно независимых, так как к сети подключены компьютеры самых различных архитектур. В связи с этим, хотелось бы кратко рассмотреть несколько распространенных графических форматов и кратко охарактеризовать их возможности. Все эти сведения сведены в нижеследующую таблицу:

Формат

Макс. глуб. цвета

Макс. число цветов

Макс. размер изображения,

пиксел

Методы

сжатия

Кодирование нескольких изображений

BMP

24

16'777'216

65535x65535

RLE*

-

GIF

8

256

65535x65535

LZW

+

JPEG

24

16'777'216

65535x65535

JPEG

-

PCX

24

16'777'216

65535x65535

RLE

-

PNG

48

281'474'976'710'656

2147483647x

2147483647

Deflation (LZ77)

-

TIFF

24

16'777'216

всего 4'294'967'295

LZW, RLE и другие*

+

Кроме этого следует отметить, что наиболее компактными являются форматы JPEG, GIF, PNG, которые, к тому же, платформенно-независимы. Формат BMP является стандартным форматом Windows, однако большого распространения не получает из-за непомерных размеров файлов, особенно при сохранении графики с глубиной цвета 24 бит/пиксел. Касаемо формата TIFF следует заметить, что он, как и JPEG, GIF, является частично платформенно-независимым, однако слишком объемен для использования в сети и, что еще хуже, слишком сложен для интерпретации. Кроме того любые программные изделия, в том числе и просмотровщики графических файлов, содержащие код для кодирования / декодирования данных по алгоритму LZW должны распространяться по соответствующему лицензионному соглашению компании Unisys Corp., владельца алгоритма, что дополнительно удорожает эти продукты.

Дальнейшее рассмотрение мне хотелось бы обратить к межплатформенным форматам, принятым в Internet в качестве стандарта де-факто: JPEG, GIF, PNG.

Сразу хочу заметить, что формату PNG (Portable Network Graphic) не будет уделено много внимания, хотя, возможно, он его и заслуживает. Это является следствием того, что формат этот появился не так давно и несмотря на все свои достоинства еще не получил всеобщего признания.

Итак, фактически перед человеком или компанией, которая намерена размещать на своих дисках большое количество изображений и, возможно, предоставлять их для использования в Internet, встает дилемма: что выбрать GIF или JPEG.

Формат GIF, разработанный компанией CompuServe, и изначально предлагавшийся именно как формат для обмена изображениями в сети является форматом с достаточно высокой степенью сжатия изображения. Кроме того, GIF обладает дополнительными возможностями, которые делают его использование в сети привлекательным. Первая - это возможность изменения порядка вывода на экран строк изображения, с заполнением промежутков между ними временной информацией. Визуально это выглядит так, что по мере загрузки из сети (что происходит нередко с катастрофически низкой скоростью) изображение на экране появляется как бы «в низком качестве», а затем, по мере подгрузки дополнительной информации, восстанавливает пропущенные строки изображения. Таким образом, пользователь еще до окончания процесса загрузки может получить представление о содержимом изображения и прервать загрузку ненужного файла большого размера. Вторая возможность заключается в хранении в одном файле боле чем одного изображения, что делает возможной элементарную покадровую анимацию. Еще одной отличительной особенностью GIF является то, что один из цветов можно объявить «прозрачным», и тогда при выводе изображения те его части, которые выкрашены этим цветом не будут выводиться на экран и под ними будет виден фон, на который изображение накладывается. Самым же большим недостатком GIF является то, что он может хранить изображение, состоящее максимум из 256 цветов, что в последнее время становиться все менее и менее приемлемым. Вместе с этим, пользователей GIF преследует такая же неприятность, что и в случае с форматом TIFF: GIF также использует LZW-сжатие, а следовательно, каждое изображение может распространяться только при наличии соответствующего лицензионного соглашения.

Формат JPEG является TrueColor-форматом, то есть может хранить изображения с глубиной цвета 24 бит/пиксел. Такой глубины цвета достаточно для практически точного воспроизведения изображений любой сложности. Более глубокое представление цвета (например 32 бит/пиксел) реально оказывается практически неотличимым от данного при просмотре на современных мониторах и при распечатке на большинстве доступных принтеров. Такая глубина цвета может оказаться полезной разве только в издательской деятельности. JPEG в общем обладает более высокой степенью сжатия изображений, нежели GIF (подробнее этот аспект описан в главе «Практики использования JPEG»), но не обладает возможностью хранить несколько изображений в одном файле. Недавно была разработана модификация формата JPEG, получившая название Progressive JPEG, что приблизительно можно перевести на русский язык как «постепенный JPEG», который предназначен для тех же задач, что и чересстрочное отображение GIF-изображений. Это сделало формат JPEG еще более привлекательным в качестве сетевого стандарта. Однако, и в JPEG присутствуют свои недостатки. В отличие от GIF, который может эффективно сжимать изображения практически любого содержания, JPEG ориентирован прежде всего на реалистичные изображения, то есть изображения фотографической направленности, и качество сжатия значительно ухудшается при обработке изображений с четко очерченными линиями и границами цветов.

Таким образом, нельзя до сих пор сделать окончательного выбора в пользу одного или другого формата. Однако, мне формат JPEG представляется более интересным с точки зрения оригинального алгоритма сжатия и больших возможностей для развития в перспективе. Также формат JPEG следует считать однозначно более гибким: он позволяет выбирать между хорошим качеством изображения или хорошей степенью сжатия и находить приемлемый компромисс для каждого конкретного случая. Поэтому все дальнейшее исследование посвящено именно этому формату.

1.3 Поисковые системы и правила поиска информации

Удобство Интернета в том, что в нем можно найти практически любую информацию, даже когда мы не знаем точно, где она находиться. Если адрес страницы с интересующим нас материалом неизвестен и страницы с подходящими ссылками тоже нет, приходиться разыскивать материалы по всему Интернету. Для этого применяют поисковые системы Интернета - специальные web-узлы, позволяющие найти нужный документ.

Существует два основных метода поиска в Интернете. В первом случае вы ищите web-страницы, относящиеся к определенной теме. Поиск производится путем выбора тематической категории и постепенным ее сужением. Подобные поисковые системы называют поисковыми каталогами. Они удобны, когда вам нужно вые познакомиться с новой для себя темой или добраться до широко известных «классических» ресурсов по данной теме. Второй способ поиска используется, когда тема носит узкий, специфический характер или нужны редкие, малоизвестные ресурсы. В этом случае вы должны представлять себе, какие ключевые слова должны встретиться в документе по интересующей вас теме. Эти слова надо выбрать таким образом, чтобы они, скорее всего, имелись в нужных документах, не имеющих отношения к выбранной теме. Системы, позволяющие выполнять подобный поиск, называют поисковыми указателями. Поисковые каталоги отличаются от поисковых указателей не только методом поиска, но и способом формирования. Любая поисковая система Интернета состоит из двух частей. Специализированная web-страница, доступная всем желающим и позволяющая выполнять поиск, опирается на большую, постоянно пополняемую и обновляемую базу данных, которая содержит сведения о ресурсах Интернета.

Способ пополнения этой базы данных зависит от типа поисковой системы, поисковых каталогов самое главное - это точность отбора. Каждый найденный ресурс должен быть полезным. Тематика страницы определяется или проверяется вручную. Из-за этого объем поисковых каталогов относительно невелик. Когда объем приближается к миллиону страниц, объем ручного труда настолько велик, что дальнейший рост каталога останавливается.

Поисковые указатели, напротив, ориентированы на широту охвата. С определением слов, имеющихся на web-странице, вполне справляется автоматика, данных поискового указателя может охватывать многие миллионы web-страниц. При этом выполнять поиск в указателе труднее, чем в каталоге, потому что одни те же ключевые слова могут встречаться на web-страницах, посвященным разным темам.

Информационно-поисковые системы размещаются в Интернете на общедоступных серверах. Основой поисковых систем являются так называемые поисковые машины, или автоматические индексы. Специальные программы-роботы (известные также как пауки) в автоматическом режиме периодически обследуют Интернет на основе определенных алгоритмов, проводя индексацию найденных документов. Созданные индексные базы данных используются поисковыми машинами для предоставления пользователю доступа к размещенной на узлах Сети информации. Пользователь в рамках соответствующего интерфейса формулирует запрос, который обрабатывается системой, после чего в окно браузера выдаются результаты обработки запроса. Механизмы обработки запросов постоянно совершенствуются, и современные поисковые системы не просто перебирают огромное число документов. - Поиск ведется на основе оригинальных и весьма сложных алгоритмов, а его результаты анализируются и сортируются таким образом, чтобы представленная пользователю информация в наибольшей степени соответствовала его ожиданиям.

В настоящее время в развитии поисковых систем наблюдается тенденция объединения автоматических индексных поисковых машин и составляемых вручную каталогов Интернет-ресурсов. Ресурсы этих систем удачно дополняют друг друга, в объединение их возможностей вполне логично.

Тем не менее исследования возможностей поисковых машин, даже самых мощных из них, таких как AltaVista или HotBot, показывают, что реальная полнота охвата ресурсов Всемирной паутины отдельной такой системой не превышает 30%. Поэтому не стоит ограничиваться использованием какой-либо одной из них. Если вам не удалось отыскать интересующую вас информацию с помощью одной системы, попробуйте воспользоваться другой.

Каждая поисковая Система имеет свои особенности и, и качество полученного результата зависит от предмета поиска и точности запроса (приложение 1, рисунок 1). Поэтому, приступая к поиску информации, прежде всего, нужно четко представлять себе, что именно и где вы хотите найти. Например, зарубежные системы поражают числом проиндексированных документов. Для поиска в области профессиональных знаний, особенно информации на иностранном языке, такие системы, как AltaVista, HotBot или Northern, подходят наилучшим образом.

Однако для поиска информации на русском языке, особенно в российской части Интернета, лучше приспособлены русские поисковые машины. Во-первых, они специально ориентированные именно на русскоязычные ресурсы Сети и, как правило, отличаются большей полнотой охвата и глубиной исследования эти ресурсов. Во-вторых, российские системы работают с учетом морфологии русского языка, то есть в поиск включаются все формы искомых слов. Российские системы лучше учитывают и такую исторически сложившуюся особенность российских Интернет-ресурсов, как сосуществование нескольких кодировок кириллицы.

2. Обзор и характеристика поисковых систем сети Internet

2.1 Все о поисковых системах Yandex, Google, Rambler

Поисковые системы Google, Yahoo, Яндекс, Rambler, Nigma, Aport... служат для обнаружения необходимого ресурса в сети Интернет по ключевым словам. Эти системы, или, как их иначе называют, поисковые машины, ежедневно перебирают миллионы WWW серверов, индексируют и каталогизируют найденные ресурсы. Возможность поиска ресурса в Интернет очень удобна, но нельзя забывать о том, что Сеть живет своей жизнью - каждый день появляются тысячи новых страниц, некоторые старые исчезают... Поэтому, поисковые системы не всегда выдают самую точную информацию.

Средства поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Средства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как cобирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют cсылки к ресурсам типа баз данных WAIS; другие проинструктированы, что нужно просматривать прежде всего наиболее популярные страницы.

Поисковые системы -- веб-сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet.

Как правило, основной частью поисковой системы является поисковые машины-- комплекс программ, обеспечивающий функциональность поисковой системы. Основными критериями качества работы поисковой машины являются релевантность (степень соответствия запроса и найденного, то есть уместность результата), полнота базы, учёт морфологии языка. Индексация информации осуществляется специальными поисковыми роботами. В последнее время появился новый тип поисковых движков, основанных на технологии RSS, а также среди XML-данных разного типа.

Улучшение поиска -- это одна из приоритетных задач сегодняшнего Интернета (см. про основные проблемы в работе поисковых систем в статье Глубокая паутина).

По данным компании Net Applications в декабре 2007 года использование поисковых систем на Западе распределялось следующим образом (приложение 2, рисунок 2):

Google -- 77,04 %, Yahoo -- 12,46 %, MSN -- 3,33 %, Microsoft Live Search -- 2,57 %, AOL -- 2,12 %, Ask -- 1,38 %, AltaVista -- 0,13 %, Excite -- 0,07 %, Lycos -- 0,02 %, All the Web -- 0,02 %.

В вышеприведенный отчёт не входят российские поисковики, такие как, например, Яндекс, Рамблер или Nigma.

История

Одним из первых инструментов поиска в интернете (до WWW) был Archie. Первой поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, который создавал «World Wide Web Wanderer» -- бот, разработанный Мэтью Грэем (англ. Matthew Gray) из Массачусетского технологического института в 1993. Также в 1993 году появилась поисковая система «Aliweb», работающая до сих пор. Первой полнотекстовой (т. н. «crawler-based», то есть индексирующей ресурсы при помощи робота) поисковой системой стала «WebCrawler», запущенная в 1994. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице -- с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, о котором было известно в широких кругах. В 1994 был запущен «Lycos», разработанный в университете Карнеги Мелона.

Вскоре появилось множество других конкурирующих поисковых машин, таких как «Excite», «Infoseek», «Inktomi», «Northern Light» и «AltaVista». В некотором смысле они конкурировали с популярными интернет-каталогами, такими, как «Yahoo!». Позже каталоги соединились или добавили к себе поисковые машины, чтобы увеличить функциональность. В 1996 году русскоязычным пользователям интернета стало доступно морфологическое расширение к поисковой машине Altavista и оригинальные российские поисковые машины Rambler и Aport. 23 сентября 1997 была открыта поисковая машина Яндекс.

В последнее время завоёвывает всё большую популярность практика применения методов кластерного анализа и метапоиска. Из международных машин такого плана наибольшую известность получила «Clusty» компании Vivisimo. В 2005 году на российских просторах при поддержке МГУ запущен поисковик Nigma, поддерживающий автоматическую кластеризацию. В 2006 году открылась российская метамашина Quintura, предлагающая визуальную кластеризацию в виде облака ключевых слов. Nigma тоже экспериментировала с визуальной кластеризацией.

Помимо поисковых машин для Всемирной паутины, существовали и поисковики для других протоколов, такие как Archie для поиска по анонимным FTP-серверам и «Veronica» для поиска в Gopher.

Популярные поисковые системы

Всеязычные: Google (34,4 % Русскоязычного сегмента); Bing (0,9 % Русскоязычного сегмента); Yahoo! (0,2 % Рунета) и принадлежащие этой компании поисковые машины: Inktomi, AltaVista, Alltheweb.

Англоязычные и международные: AskJeeves (механизм Teoma).

Русскоязычные -- большинство «русскоязычных» поисковых систем индексируют и ищут тексты на многих языках -- украинском, белорусском, английском и др. Отличаются же они от «всеязычных» систем, индексирующих все документы подряд, тем, что в основном индексируют ресурсы, расположенные в доменных зонах, где доминирует русский язык или другими способами ограничивают своих роботов русскоязычными сайтами. Яндекс (46,3 % Рунета), Mail.ru (8,9 % Рунета), Rambler (3,3 % Рунета), Nigma (0,5 % Рунета), Генон (0,1 % Рунета), Gogo.ru (<0,1 % Рунета), Aport (<0,1 % Рунета). Мета (приложение 2, рисунок 3).

Из перечисленных поисковых систем не все имеют собственный поисковый алгоритм -- так Mail.ru и QIP.ru используют поисковый механизм Яндекса, а Nigma сочетает в себе как свой алгоритм, так и сборную выдачу от других поисковиков.

Главный плюс любой поисковой машины кроется в механизме ее работы. В отличие от каталогов, поисковики, для добавления сайтов в свою базу данных, используют специального робота-паука, который вполне удачно просматривает и индексирует все общедоступные сайты своей Глобальной Паутины. Но для удачного поиска нам будет мало лишь огромной базы нашего спутника, ведь среди всех этих терабайт информации нам нужно найти именно нужную нам.

Важнейшим фактором и залогом нашего успеха является правильность поискового запроса.

Исключение из поиска

Поисковую машину можно не только «заставлять» искать нужный текст, но и исключать некоторые слова из запроса. Если вы не хотите, что бы при поиске реферата на тему История Древнего Египта вам были предложены документы с его Культурой, просто введите в поисковое поле Google: история древнего египта -культура. В Яндексе вместо знака «-» используется сочетание знаков «~~». При таком запросе, слово «культура» было полностью исключено из критериев поиска.

Поиск с учетом регистра

Поисковые системы не учитывают регистр, все заглавные символы воспринимаются машинами как строчные, за исключением использования специального операнда. Таковым является знак восклицания «!», стоящий перед словом. Эта функция очень полезна для поиска сел или городов с распространенными названиями, к примеру «село !Кошки». В данном случае, поисковик не будет искать сайты, где речь ведется о селе, где живут кошки, а будет вести поиск с учетом заглавной буквы.

2.2 Google

Гугол - это математический термин, обозначающий единицу со 100 нулями. Этот термин придуман Милтоном Сироттой (Milton Sirotta), племянником американского математика Эдварда Каснера (Edward Kasner), и впервые описан в книге Каснера и Джеймса Ньюмена ""Математика и воображение"" (Mathematics and the Imagination). Использование этого термина отражает цель компании Google сделать доступным для поиска весь безграничный массив информации, размещенный в Интернете.

Инновационные технологии поиска компании Google ежедневно служат для миллионов людей проводниками в мир информации. Основанная в 1998г. аспирантами Стэнфордского университета Ларри Пейджем и Сергеем Брином, компания Google сегодня является лидирующей веб-корпорацией на основных мировых рынках. Штаб-квартира корпорации Google находится в Силиконовой долине, представительства компании расположены в Северной Америке, Европе и Азии. Более подробную информацию можно получить на сайте компании: www.google.ru.

На сайте www.google.ru люди со всего мира ищут как самые последние новости, так и малоизвестную информацию. Проведя небольшой анализ, в этом бесконечном потоке зачастую можно обнаружить интересные тенденции, модели и самые неожиданные вещи. Эти списки позволяют на основании поисковых запросов, идущих со всех концов мира, быстро получить общее представление о поисковом поведении пользователей Google.

Документы Google позволяют пользователям создавать, редактировать личные и рабочие документы в режиме онлайн, а также организовывать к ним совместный доступ. Пользователи могут получить доступ к файлам, загруженным в Документы Google, вне зависимости от своего местонахождения и используемого браузера. Наличие общих папок, а также возможность импорта и экспорта сразу нескольких файлов, позволяет использовать Документы Google для совместной работы и обмена файлами между друзьями, сотрудниками и членами проектных команд. Теперь, вместо того, чтобы отправлять документы по электронной почте себе или коллегам, вы можете загружать их в общие папки Документов Google и работать с ними с любого компьютера.

Пользователи могут хранить бесплатно до 1 Гбайта информации; дополнительный объем доступен на платной основе. Файлы, объемом до 250 Мбайт каждый, могут загружаться в исходных форматах (для этого при загрузке нужно отменить необходимость конвертации). Несмотря на то, что непосредственно «в облаке» можно редактировать файлы только в формате Документов Google, для наиболее распространенных типы файлов существует возможность просмотра и предоставления доступа другим пользователям в любое время и вне зависимости от их местоположения.

Чтобы начать работу с Документами Google, откройте страницу https://docs.google.com/. Пользователи, не имеющие аккаунта Google, могут создать его на этой странице.

2.3 Yandex

Яндекс структурирует и агрегирует необходимый пользователям уже существующий онлайновый и офлайновый контент и отражает его в результатах поиска, не влияя при этом на его качество и свойства.

Официально поисковая машина Yandex.Ru была анонсирована 23 сентября 1997 года на выставке Softool.

Первым шагом для создателей Яндекса на долгом пути к появлению самого популярного в российском Интернете интерактивного портала стала разработка информационно-поисковых программ «Международная классификация изобретений» и «Классификатор товаров и услуг» по заказу компании «Аркадия», работы над которыми были завершены в 1990 году. Обе программы позволяли выполнять поиск по специальному словарю и просматривать результат в виде выборки данных, соответствующих исходному запросу. А в 1993 году фирма «Аркадия» вошла в состав компании «CompTek».

В новом тысячелетии Яндекс продолжил свое бурное развитие, завоевывая все большую и большую популярность как среди россиян, так и за пределами нашей страны. В 2001 тору Яндекс стал лауреатом Национальной Интел Интернет премии сразу в шести номинациях, в рамках портала открывались все новые и новые службы, а количество пользователей этой поисковой системы непрерывно росло: уже в 2003 году количество ответов Яндекса на поисковые запросы превысило 147 миллионов.

На сегодняшний день информационно-поисковый портал Yandex.ru является наиболее популярным и востребованным ресурсом российского Интернета. В августе 2005 года ежесуточное количество посетителей Яндекса составило около 1,5 млн человек, поисковая система обрабатывает порядка 12 млн запросов в сутки, а объем базы данных Яндекса превысил 68з млн уникальных документов.

Принципы работы Яндекса

Яндекс создает сервисы прежде всего для миллионов пользователей русскоязычного интернета. Это означает, что команда Яндекса в первую очередь думает о пользовательских характеристиках сервиса, и уже затем о его монетизации.

Внутри Яндекса работает правило: если получается хороший продукт, который нравится людям, то модель монетизации образуется сама собой. При этом модель монетизации сервиса всегда учитывает интересы его пользователей и не мешает им пользоваться сервисом. Так, на Яндексе всегда была запрещена реклама, препятствующая доступу к каким-либо функциональным частям сервиса, -- например, всплывающие или «ползающие» по экрану окна. Основные доходы Яндекс получает от контекстных объявлений -- рекламы, напрямую связанной с интересами пользователя.

Взаимовыгодное партнерство и неконкуренция

Яндекс не производит контент самостоятельно, но для ответа на вопросы часто использует контент, созданный партнерами. Яндекс агрегирует и структурирует такой контент на основе подписанных соглашений с его владельцами, не вступая с ними в конкуренцию. Сервисы Яндекса по агрегации контента построены на основе взаимной выгоды -- Яндекс структурирует данные и предоставляет пользователям удобный сервис, партнеры -- получают трафик или деньги.

2.4 Rambler

«Рамблер» -- первая поисковая система русскоязычного сегмента сети Интернет, созданная в 1996 году разработчиками из подмосковного Пущино. Со временем, добавив поисковые, почтовые и другие сервисы, из локальной городской сети «Рамблер» стал одним из лидеров по предоставлению медиа- и интернет-услуг русскоязычной аудитории Интернета во всем мире.

«Рамблер» сегодня -- это портал, предоставляющий пользователям разнообразные качественные сервисы в сфере навигации, коммуникаций, медиа и развлечений в Интернете. В 2009 году «Рамблер» стал обладателем «Премии Рунета» в номинации «Культура и массовые коммуникации».

История компании

В 1991 году в подмосковном городе Пущино сформировалась группа единомышленников, вдохновленных только что появившейся коммуникационной средой Интернет. Дмитрий Крюков, Сергей Лысаков, Виктор Воронков, Владимир Самойлов, Юрий Ершов -- именно эти технически подкованные, творческие и смелые люди с активной жизненной позицией и стремлением к новому стали основателями «Рамблера».

Компания «Стек» во главе с Сергеем Лысаковым занялась локальными сетями и подключением к Интернету. Нормальный, оперативный и эффективный обмен данными был необходим для реализации научных целей.

1996 год -- ключевой для развития русского киберпространства. Именно в этом году Сергей Лысаков и Дмитрий Крюков принимают решение разработать первую русскую поисковую систему для Интернета. Команда «Стека» прозорливо сделала ставку на программу-поисковик. Осенью 1996 года был готов окончательный вариант поисковика. 26 сентября был зарегистрирован домен rambler.ru, а 8 октября «Стек» активизировал систему. В тот момент в Рунете уже существовало две-три поисковых машины -- но они не выдержали проверки временем и быстро исчезли. А «Рамблер» развивался, эволюционировал, запускал новые полезные сервисы.

Поиск «Рамблера» совмещает в себе традиционный «горизонтальный» поиск по Интернету с возможностью структурирования результатов поиска по заданным вертикалям, а также обеспечивает одновременный поиск по различным источникам информации.

«Рамблер» - уникальная интернет-компания, предоставляющая читателям сочетание всеобъемлющего новостного агрегатора «Рамблер-Новостей» с эксклюзивными авторскими материалами Lenta.ru. «Рамблер-Новости» и Lenta.ru входят в число лидирующих новостных ресурсов по охвату аудитории и глубине просмотра страниц, что свидетельствует о популярности и качестве этих проектов. Вместе эти ресурсы делают холдинг «Рамблер» самым сильным игроком в новостном сегменте Рунета.

Почтовый сервис «Рамблера» - персональный почтовый ящик с удобным интерфейсом, возможностью управления его размером, изменения дизайна, автоматической фильтрации и обработки входящих сообщений.

2.5 Yahoo

Базы данных: в ведении находится служба поиска Internet-ресурсов, новостей, карт, рекламных информаций, спортивная информация, бизнес, номера телефонов, персональные WWW-страницы, и email-адреса (отдельная база данных).

Содержание: Основная директория содержит: адреса (URLs) лля Internet-ресурсов и краткое описание для этих связей.

Поиск: Все Yahoo страницы предлагают не только простое поисковое окно, но и опции для этого поиска, а так же поиск Usenet или Email-адреса. Поиск может ограничиваться указанием определённого промежутка времени. Boolean операторы (и, или) и последовательный поиск также поддержаны. Отметим: если поиск в Yahoo! не привёл к положительному результату, то процесс поиска автоматически переходит на Alta Vista, которая продолжает поиск, и в случае положительных результатов автоматически возвращает найденную информацию в Yahoo!.

Если Yahoo! не может установить связь достаточно быстро с Alta Vista, то в этом случае Yahoo! будет обеспечивать страницу связи с набором инструментов поиска. После того как одна из этих связей выбирается, ключевые слова передаются к поисковой машине на ваше усмотрение.

Средством, облегчающим поиск, является наличие «tip search» (TS) - поиск с помощью «намека»: Yahoo! Является подчиненным справочником, что означает, что система не имеет так много страниц, как поисковые машины, однако задание наиболее общих ключевых слов позволит найти необходимую тему на странице высокого уровня (первая страница, которая возникает перед пользователем при посещении сайта) для организации или компании.

Результаты: Связи отображаются в соответствии с очерёдностью задаваемых слов последовательностью поиска наряду с их описательным текстом и подчиненной иерархией.

Адрес: http://www.yahoo.com/

2.6 Altavista

AltaVista (www. AltaVista.com) - одна из старейших поисковых систем в Интернете. Первый web-индекс был представлен компанией в 1995 году. Ядро поисковой системы обязано своим рождением странной особенности исследовательской лаборатории компании Digital Equipment Corp. Сотрудники этой лаборатории зачем-то хранили всю свою электронную переписку за последние 10 лет. Чтобы эта куча информации не просто занимала дисковое пространство, а приносила хоть какую-то пользу, была создана программа для индексирования документов и поиска нужных слов в ворохе пожелтевшей от времени электронной корреспонденции. Система получилась настолько удачной, что впоследствии с успехом перекочевала на просторы Всемирной паутины.

Индекс AltaVista содержит документы на более чем 25 языках. Локализованные версии сайта AltaVista располагаются в доменах 20 стран. В область поиска можно включить документы на всех поддерживаемых языках или только в документах на определенном языке, а на специальной странице можно узнать несколько языков для поиска на всех выбранных языках одновременно.

Заключение

В настоящее время в сети Internet используются практически все известные линии связи от низкоскоростных телефонных линий до высокоскоростных цифровых спутниковых каналов. Операционные системы, используемые в сети Internet, также отличаются разнообразием. Большинство компьютеров сети Internet работают под ОС Unix или VMS. Широко представлены также специальные маршрутизаторы сети типа NetBlazer или Cisco, чья ОС напоминает ОС Unix.

Фактически Internet состоит из множества локальных и глобальных сетей, принадлежащих различным компаниям и предприятиям, связанных между собой различными линиями связи. Internet можно представить себе в виде мозаики сложенной из небольших сетей разной величины, которые активно взаимодействуют одна с другой, пересылая файлы, сообщения и т.п.

Internet продолжает развиваться с неослабевающей интенсивностью, по сути дела стирая ограничение на распространение и получение информации в мире. Однако в этом информационном океане бывает не очень легко найти необходимый документ. Следует также иметь в виду, что в сети наряду с давно действующими серверами возникают новые.

Помимо серверов «общего» назначения имеются специализированные сайты в той или иной области, как например для физики высоких энергий - http://xxx.lanl.gov.

При импортировании файлов статей следует так же иметь в виду, что часто они хранятся в PostScript формате (с расширением, PS'', EPS'') предназначенном для распечатывания на лазерном принтере, поэтому в этом случае, после их получения для просмотра и печати на матричном или струйном принтере следует использовать специальную программу, например GhostView.

Не вызывает сомнения, что использование Internet в научной работе позволяет получать самую «горячую» информацию и поддерживать контакт с коллегами в мире.

Есть предположение, что Интернет вытеснит и заменит книги. Сейчас этому препятствует ряд факторов. Во-первых, отсутствие комфорта при чтении книг с монитора компьютера. И хотя портативные устройства для чтения электронных текстов уже существует, разрешение их экранов явно недостаточно. Во-вторых, не до конца разработаны авторские права на электронные публикации.

Интернет в перспективе значительно потеснит традиционные средства массовой информации благодаря гибкости, оперативности и интерактивности.

Сегодня множество людей неожиданно для себя открывают для себя существование глобальных сетей, объединяющих компьютеры во всем мире в единое информационное пространство, которое называется Internet. Что это такое, определить непросто. С технической точки зрения Internet - это объединение транснациональных компьютерных сетей, работающих по различным протоколам, связывающих всевозможные типы компьютеров, физически передающих данные по всем доступным типам линий - от витой пары и телефонных проводов до оптоволокна и спутниковых каналов. Большая часть компьютеров в Internet связано по протоколу TCP/IP. Можно сказать, что Internet - это сеть сетей, опутывающая весь земной шар.

Список используемых источников

1. Информатика / Курносов А.П., кулев С.В., Улезько А.В. и др.; Под ред. А.П. Курносова.-М: КолосС, 2005. - 72 с. (Учебники и учеб. пособия для студентов высш. учеб. заведений)

2. Практикум по информатике: Учеб. пособие / Под ред. Курносова А.П. - Воронеж: ВГАУ, 2004. -239 с.

3. Информатика. Учебник. - 3-е изд., перераб./ Под ред. Н.В. Макаровой. - М.:Финансы и статистика, 2002. - 256 с.

4. Информатика. Базовый курс / Симонович С.В. и др.-Спб.: Питер, 2006. - 639 с.: ил.

5. Крупник А.Б. Поиск в Интернете: самоучитель. - 2-е изд. - СПБ.: Питер, 2004. - 572 с.

6. Орлов А.А. Нужные программы для Интернета - СПб.: Питер, 2006. - 127 с.

7. Солоницын Ю.А., Холмогоров В. Интернет. Энциклопедия. - 3-е из. - СПб.: Питер, 2003. - 592 с.

8. Резников Ф.А. Быстро и легко осваиваем работу в сети Интернет. - М.: Лучшие книги, 2002. - 284 с.

9. Компьютерные сети и средства защиты информации: Учеб. пособие / Камалян А.К., Кулев С.А., Назаренко К.Н. и др. - Воронеж: ВГАУ, 2003. - 119 с.

10. Олифер В.Г., Олифер Н.А. Компьютерные сети. Принципы, технологии, протоколы. - СПб.: Питер, 2002. - 672 с.: ил.

11. Интернет: Энциклопедия / Под ред. Л. Мелиховой. - 2-е изд.-СПб.; М.; Харьков; Минск; Питер, 2000. - 527 с.

12. Муштоватый И.Ф. Самоучитель по работе в Интернете/ Под общ. ред. М.И. Монастырского. - 2-е изд., доп. и перераб.-Ростов н/Д: Феникс, 2002.-312 с.

13. Попов В. Практикум по Интернет - технологиям: Учебный курс / В. Попов.-СПб.; М.; Харьков; Минск: Питер, 2002. - 476 с.:ил.

14. Компьютерные сети и средства защиты информации: Учебное пособие / Камалян А.К., Кулев С.А., Назаренко К.Н. и др.-Воронеж: ВГАУ, 2003.-119 с.

Приложение 1

Рисунок 1. Организация поиска информации в Интернет.

Приложение 2

Рисунок 2. Использование поисковых систем на Западе (по данным компании Net Applications в декабре 2007 года).

Рисунок 3. Популярные русскоязычные поисковые системы

Размещено на Allbest


Подобные документы

  • Методы и инструментарий хранения данных во Всемирной сети. Понятие и разновидности гипертекстовых документов и графических файлов. Принципы работы поисковых систем и правила поиска нужной информации. Характеристика некоторых поисковых систем Сети.

    курсовая работа [30,9 K], добавлен 18.04.2010

  • Характеристика поисковых систем Yandex, Google, Rambler: сходства и отличия, преимущества и недостатки. Поиск определения ряда терминов, программных продуктов. Поиск информации по направлениям: писатели и поэты, их произведения, доктора наук для Самары.

    контрольная работа [17,4 K], добавлен 22.08.2011

  • Описание и классификация современных информационно–поисковых систем. Гипертекстовые документы. Обзор и рейтинги основных мировых поисковых систем. Разработка информационно–поисковой системы, демонстрирующей механизм поиска информации в сети Интернет.

    дипломная работа [1,3 M], добавлен 16.06.2015

  • Структура и принципы построения сети Интернет, поиск и сохранение информации в ней. История появления и классификация информационно-поисковых систем. Принцип работы и характеристики поисковых систем Google, Yandex, Rambler, Yahoo. Поиск по адресам URL.

    курсовая работа [3,6 M], добавлен 29.03.2013

  • Всемирная система объединенных компьютерных сетей, построенная на использовании протокола IP и маршрутизации пакетов данных. Домен и его уровни. Основные сервисы Internet. Что нужно для подключения к сети Internet. Правила поиска информации в Интернете.

    курсовая работа [1,5 M], добавлен 10.01.2012

  • Структура сети Internet и ее использование в образовании. Описание функционирования электронной почты, телеконференции, поисковых систем, общеобразовательных каталогов и порталов, электронных библиотек и других ссылок. Плюсы и минусы использования сети.

    реферат [437,2 K], добавлен 16.11.2011

  • Рассмотрение поисковых систем интернета как программно-аппаратного комплекса с веб-интерфейсом, предоставляющего возможность поиска информации. Виды поисковых систем: Archie, Wandex, Aliweb, WebCrawler, AltaVista, Yahoo!, Google, Яндекс, Bing и Rambler.

    реферат [24,3 K], добавлен 10.05.2013

  • Internet. Протоколы сети Internet. Принцип работы Internet. Прикладные программы. Возможности в Internet? Правовые нормы. Политика и Internet. Этические нормы и частная коммерческая Internet. Соображения безопасности. Объем сети Internet.

    дипломная работа [128,8 K], добавлен 23.06.2007

  • Понятие информационно-поисковых систем. История возникновения сети Internet. Основные алгоритмы работы современных словарных информационно-поисковых систем. Быстрый поиск в базе данных и быстрое реагирование системы. Ранжирование результатов поиска.

    курсовая работа [101,1 K], добавлен 01.06.2012

  • Организация хранения данных. Система управления базами данных. Поиск информации, обзор существующих поисковых систем. Особенности работы поискового движка. Использование индексов в поисковых системах. Особенности поиска различных видов информации.

    курсовая работа [4,6 M], добавлен 14.05.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.