Применение поисковой системы "Rambler" для организации поиска и систематизации экономической информации
Понятие и принципы работы, внутренняя структура и элементы, история формирования и развития поисковой системы "Rambler". Исследование и анализ, а также оценка эффективности данной поисковой системы для поиска экономической информации в интернете.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 10.05.2015 |
Размер файла | 4,0 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Курсовая работа
Применение поисковой системы «Rambler» для организации поиска и систематизации экономической информации
Введение
Любой человек, а главное специалист, нуждается в получении специфической экономической информации. Информацию хочется получить как можно быстрее, и при этом, чтобы ее качество было как можно выше. К данным, освещающим экономические процессы, предъявляются требования точности, оперативности, правдивости и надежности. Проблема эффективного поиска экономической информации требуемого качества, кажется сложно решаемой, но не является такой на самом деле.
Что должен знать пользователь о мировом рынке экономических информационных услуг:
каким способом и где взять необходимую информацию,
какие ресурсы, эффективные методы и способы поиска существуют;
какие технологии доступа к информации целесообразно использовать;
какова ее цена.
Возможность непосредственного доступа к базам данных для потребителя связана с необходимостью иметь компьютер, удовлетворяющий определенным требованиям, телефонный канал, модем или прямой канал доступа в Интернет.
Интернет, на сегодняшний день, основной и быстрый источник получения актуальной информации в сфере экономики, финансов, политики и других сфер жизни человека. Такой способ получения информации для пользователя значительно экономит время и деньги, поэтому были созданы специальные поисковые системы.
Для поиска информации используются специальные внешние службы в интернете - поисковые серверы: поисковые машины и каталоги. В данной курсовой работе мы подробно рассмотрим поисковую машину российских разработчиков «Rambler» и ее применение для поиска и систематизации экономической информации.
Таким образом, сформулируем цель, объект и предмет курсовой работы.
Объект исследования: Информационная технология применяемая в экономике.
Предмет исследования: Поисковая машина «Rambler», как инструмент получения актуальной и точной экономической информации посредством сети интернет.
Цель исследования: Рассмотреть функционал, приемы поиска и ресурсы в сети интернет с помощью поисковой машины «Rambler», с целью получения актуальной экономической информации.
Задачи исследования:
1. Изучить историю развития поисковой системы «Rambler»
2. Описать принцип работы поисковой системы «Rambler»
3. Описать способы поиска экономической информации с помощью портала «Rambler».
поисковый экономический интернет rambler
1. История развития портала «Rambler»
Для поиска информации используются специальные внешние службы в интернете - поисковые серверы: поисковые машины и каталоги. Поисковые машины - это такие серверы, которые накапливают информацию о содержимом сайтов автоматически, при помощи специальных программ-роботов. Информацию для серверов-каталогов отбирают люди. В отличие от поисковых машин, информация в каталогах более точно структурирована, причем в вертикальном иерархическом виде. И поисковые машины, и каталоги являются внешними службами или, как их еще называют, автономными системами. Особенностью автономных систем является то, что цикл работы с информацией выполняется полностью непосредственно на этой системе, начиная с получения информации от первоисточника и заканчивая предоставлением поискового сервиса конечному пользователю.
Автоматические поисковые системы охватывают больший объем информации, их сведения чаще обновляются и поэтому более актуальны. Однако информация на таких серверах плохо структурирована, потому что оценка содержимого того или иного сайта - трудно формализуемая задача. Чаще всего программа-робот отбирает документы только по наличию искомых слов в тексте документа. Примером поисковой машины является «Rambler», это третий по распространенности поисковый механизм российского Интернета.
1996 год - ключевой для развития русского киберпространства. Именно в этом году Сергей Лысаков и Дмитрий Крюков принимают решение разработать первую русскую поисковую систему для Интернета. Команда «Стека» прозорливо сделала ставку на программу-поисковик. Это было важное, ответственное и, на первый взгляд, необоснованное решение, поскольку в то время российский сегмент Сети был очень мал - не более 30-50 сайтов.
Решение создать свою поисковую машину было принято ввиду того, что зарубежные поисковики часто плохо воспринимали кириллицу и интернет-страницы с несколькими кодировками, также невысока была глубина индексирования страниц Рунета.
Программист Дмитрий Крюков начал с того, что придумал проекту название. Для этого он открыл англо-русский словарь, и взгляд его упал на «Rambler». Дмитрию понравилось значение слова «скиталец, странник, бродяга»: роботы поисковой машины действительно ходят по сайтам, собирая информацию круглые сутки, не зная покоя. Ядро поисковика было написано за несколько месяцев 1996 года Дмитрием Крюковым. 26 сентября был зарегистрирован домен rambler.ru, а 8 октября «Стек» активизировал систему. В тот момент в Рунете уже существовало две-три поисковых машины - но они не выдержали проверки временем и быстро исчезли. А «Рамблер» развивался, эволюционировал. На начальном этапе было проиндексировано 100 тыс. документов.
При этом «Рамблер» не был первой поисковой машиной российского сегмента сети - ещё в декабре 1995 появилась «Альтависта», в феврале 1996 анонсирован «Апорт»; «Яндекс» вышел на год позже, 23 сентября 1997 года.
Весной 1997 года появился Rambler's Top100 - уникальный рейтинг-классификатор, который не только оценивает на основе объективных данных популярность российских ресурсов, но и позволяет одним «кликом» попасть на них.
Возникновение такого универсального счетчика, способного направлять аудиторию на разные ресурсы, создало в российском Интернете активную, динамичную конкурентную среду. Веб-мастера стали более тщательно и вдумчиво работать над своими сайтами, стремясь занять в Топ100 более высокие строчки. Хороший рейтинг давал дополнительные преимущества - быстрый рост аудитории. В свою очередь, модераторы Топ100 боролись, и с успехом борются по сей день, с так называемыми накрутками - искусственным завышением рейтинга того или иного ресурса. За первый год существования рейтинга объем русскоязычного сегмента Сети вырос как минимум на два порядка. Rambler's Top100 быстро стал универсальным барометром сети, общим стандартом медиа измерений.
В 1999 году www.rambler.ru был признан лучшим веб-сайтом, созданным российской компанией по версии Международного Компьютерного Клуба (МКК).
К 2000 года система устарела, отсутствовали поиск по числам, морфология, привязка к каталогу, что невыгодно отличало продукт от местных конкурентов - Яндекса и Апорта. Поэтому с лета по декабрь 2000 года шла разработка нового поискового ядра. В целом на конец 2000 года Rambler оставался самым популярным сайтом и интернет-брендом России.
В январе 2001 года началось бета-тестирование нового поискового ядра Rambler 2.0. При его разработке были учтены недочёты предыдущей версии, в частности, появились поиск по числам, по словоформам, машина научилась определять координаты слов (расстояние слов друг от друга), поисковая выдача стала коррелировать с каталогом и теперь представлялась в виде поиска по документам, а не по сайтам. В феврале был запущен поиск по новостям. В июле в результатах поиска стали выдавать список ассоциативных запросов («У нас также ищут»).
В 2002 году был модернизирован серверный парк, что позволило существенно усовершенствовать систему поиска. Был внедрён новый поисковый алгоритм, коэффициент популярности страницы, изменилась система индексирования, был улучшен поисковый робот.
В июне 2003 года компания запустила новую версию поисковой машины, которая отличалась от предыдущей по двум основным параметрам. Во-первых, значительно увеличилась скорость поиска; во-вторых, благодаря новой архитектуре системы поисковый индекс стал обновляться несколько раз в день. Rambler стал способен находить самые свежие документы, включая последние новости. Rambler понимает живой русский язык, знает, что бывает «б/у», «у. е.» и «а/я». Механизм ассоциаций помогает пользователю точнее сформулировать свой запрос и, следовательно, быстрее найти искомый ресурс. В том же году обновилась почта «Рамблера». Перемены были не только внешние, но и внутренние: объем почтового ящика увеличился в три раза. Кроме того, появилась новая, многоуровневая система защиты от спама.
В октябре 2004 был запущен новый проект Rambler Vision - первый интерактивный мультимедийный портал в Российском Интернете, а летом того же года появился проект «Знакомства».Также появился сервис Мобильный Rambler, первый в России полноценный портал для мобильных телефонов. 26 ноября 2004 года состоялась торжественная церемония вручения Национальной премии российского Интернета, приуроченная к празднованию 10-летнего юбилея домена RU. Компания «Рамблер» была объявлена победителем в номинациях «Инновации Рунета» и «Бесплатный сервис Рунета». Таким образом, интернет-холдинг «Рамблер» стал единственной компанией, награжденной сразу двумя золотыми статуэтками Национальной премии российского Интернета 2004 года. Кроме того, «Рамблер» стал обладателем почетного диплома победителя интерактивной акции «Народное голосование».
В 2007 году компания серьезно занялась разработкой новых и усовершенствованием старых интернет-проектов. В июне 2007 проект «Рамблер-Недвижимость» принял участие в конкурсе «Профессиональное призвание 2007» и был признан «Лучшим интернет-ресурсом по недвижимости в России», а осенью вниманию посетителей портала был представлен новый проект - «Рамблер-Финансы». В сентябре 2007 приверженцы мобильной версии портала Rambler.ru смогли воспользоваться ее обновленным вариантом, а в рейтинге-классификаторе Rambler's Top100 был изменен список разделов.
В 2008 году в результате новой стратегии портал подвергся существенному обновлению в стиле «газетной верстки» с большим количеством новостных блоков и иллюстраций. Вышла новая версия поиска с так называемым структурированным поиском. Новый поисковый механизм осуществляет поиск информации не только в Интернете, но и в специализированных источниках информации - ленте новостей, каталоге цен, Википедии, подборке товарных обзоров, базе курсов валют, погоды, гороскопов, вакансий, в афише, а также находит адреса на карте. Подключение специализированных источников информации позволяет в целом ряде случаев получать более полный, точный и актуальный ответ на запрос. Такой подход к поиску сочетает в себе всеохватность универсального поиска по Интернету и точность специализированных (так называемых вертикальных) поисков, которые в ближайшем времени еще и будут локализованы по регионам и персонифицированы. Основное новшество поиска «Рамблера» заключается в использовании концепции «мета-релевантности» - т.е. поисковая система пытается самостоятельно определить тему запроса пользователя и предоставить ему, наряду с традиционными результатами поиска в Интернете, структурированные ссылки на наиболее релевантные результаты поиска в специализированных источниках информации.
В 2008 году «Рамблер» продолжает следовать четко определенной стратегии и оптимизирует линейку продуктов, активно развиваясь в четырех приоритетных направлениях - Поиск, Коммуникации, Медиа, Развлечения. «Рамблер» позиционирует себя как открытый портал и определяет свою стратегическую цель - стать точкой входа в Интернет для большинства русскоязычных пользователей. Среднемесячный показатель аудитории портала в мае 2008 превысил 40 млн. уникальных посетителей. Это был пиковый период для «Рамблера», после чего началось его падение. В тот момент он даже опережал Гугл, что сейчас кажется несколько фантастичным. Но постепенно сказывались огрехи руководства и нежелание серьезно работать над движком поиска.
В конце июня 2011 г. Рамблер перешел на поисковую технологию Яндекса. Наряду с достоинствами у поисковика есть и недостатки, особенно по сравнению с Яндексом или Google. В Rambler редко обновляются алгоритмы, практически нет фильтров для контроля качества интернет-источников по низкочастотным или среднечастотным запросам, что увеличивает количество спамных сайтов, низко котируется и алгоритм определения релевантности сайтов. В связи с этим доля Рамблера среди поисковых систем уменьшилась с 20 до 5%. Так исчез, старейший, поисковый механизм русского киберпространства.
К сожалению, сегодня такой поисковой системы уже не существует. Rambler в 2011 году окончательно стал обычным рядовым порталом (правда с многомиллионной аудиторией) и поиск у них теперь осуществляется с помощью когда-то заклятого «друга» Яндекса. Можете сами убедиться в идентичности их поисковых выдач по одним и тем же запросам.
В настоящее время портал подвергся тотальному обновлению, изменились как интерфейс, так и задачи сервиса. Теперь главная страница «Рамблера» нацелена на предоставление посетителям персонализированных новостей. Система анализирует cookies и активность каждого пользователя на сайтах, где есть реклама Бегун или кнопка Rambler Top100, а также на дочерних проектах «Рамблер-Афиши» (например, Лента.ру и др.). На основе этих данных система рисует каждому пользователю индивидуальную картину дня, подходящую под его вкусы и предпочтения. Расширен функционал главной страницы. Добавлены тематические главные страницы. В настоящее время основной контент для главной страницы Рамблера берётся у официальных информационных партнёров: крупных новостных сайтов и ведущих интернет-журналов.
В апреле 2013 года в базе данных Ramblerа хранилась информация о почти 18 миллионах уникальных документов. Ежедневно в базу данных этого поисковика вносится до 60 тысяч изменений и дополнений, что обеспечивает постоянное пополнение базы сведениями обо всех новинках, появляющихся в русскоязычной части Сети. Ежемесячно портал Rambler посещают около 29 млн. человек.
2. Принципы работы поисковой машины «Рамблер»
Интернет постоянно растет, так же как растет и число пользователей, которые обращаются с запросами к поисковым системам. Увеличение объема информации и количества запросов, в свою очередь, приводит к повышению требований к скорости работы поисковых машин, качеству поиска и наглядности представления результатов. Так, для того чтобы пользователь остался доволен результатом, на сегодняшний день поисковой системе нужно собрать, обработать, обновить, найти и отсортировать в два раза больше документов, чем год назад. А основная задача поиска как раз и состоит в том, чтобы пользователь был доволен его результатами.
Когда пользователь обращается с запросом к поисковой машине, он хочет найти то, что ему нужно, максимально быстро и просто.
Рассмотрим 5 основных характеристик поисковой системы: полнота, точность, актуальность, скорость поиска, наглядность.
Полнота это одна из основных характеристик поисковой системы, которая представляет собой отношение количества найденных по запросу документов к общему числу документов в Интрнете, удовлетворяющих данному запросу. Полнота поиска в большой мере зависит от работы системы сбора и обработки информации. В связи с постоянным ростом количества документов в сети, эта система в первую очередь должна быть масштабируемой. В Рамблере масштабируемость достигается за счет параллельного исполнения задачи произвольным количеством машин.
Сбором информации занимается робот-паук, который обходит страницы с заданными URL и скачивает их в базу данных, а затем архивирует и перекладывает в хранилище суточными порциями. Робот размещается на нескольких машинах, и каждая из них выполняет свое задание. Так, робот на одной машине может качать новые страницы, которые еще не были известны поисковой системе, а на другой - страницы, которые ранее уже были скачаны не менее месяца, но и не более года назад. Хранилище у всех машин едино. При необходимости работу можно распределить другим способом, например, разбив список URL на 10 частей и раздав их 10 машинам. Параллельная работа программы позволяет легко выдерживать дополнительную нагрузку: при увеличении количества страниц, которые нужно обойти роботу, достаточно просто распределить задачу на большее число машин.
В хранилище информация в сжатом виде собирается и разбивается на куски по 50 Мб. Эти части постепенно распределяются между 70 машинами, на которых запущена программа-индексатор. Как только индексатор на одной из машин заканчивает обработку очередной части страниц, он обращается за следующей порцией. В результате на первом этапе формируется много маленьких индексных баз, каждая из которых содержит информацию о некоторой части Интернета. Таким образом, вся интеллектуальная обработка данных осуществляется параллельно, поэтому ускорение процесса индексации достигается простым добавлением машин в систему.
После того, как все части информации обработаны, начинается объединение (слияние) результатов. Благодаря тому, что частичные индексные базы и основная база, к которой обращается поисковая машина, имеют одинаковый формат, процедура слияния является простой и быстрой операцией, не требующей никаких дополнительных модификаций частичных индексов. Основная база участвует в анализе как одна из частей нового индекса. Так, если объединяются 70 новых частей, то в анализе участвует 71 фрагмент (70 новых + основная база предыдущей редакции). Кроме того, единый формат позволяет проводить тестирование частичных баз еще до объединения их с основной, и обнаруживать ошибки на более раннем этапе. Сборка единой базы из частичных индексных баз представляет собой простой и быстрый процесс. Сопоставление страниц не требует никакой интеллектуальной обработки и происходит со скоростью чтения данных с диска. Если информации, которая генерируется на машинах-индексаторах, получается слишком много, то процедура «сливания» частей проходит в несколько этапов. В начале частичные индексы объединяются в несколько промежуточных баз, а затем промежуточные базы и основная база предыдущей редакции пересекаются. Таких этапов может быть сколько угодно. Промежуточные базы могут сливаться в другие промежуточные базы, а уже потом объединяться окончательно.
Точность - еще одна основная характеристика поисковой машины, которая определяется как степень соответствия найденных документов запросу пользователя. Повышение точности в поисковой машине Рамблер достигается за счет использования различных технологий на всех этапах обработки и поиска информации. Одним из наиболее интересных процессов является распознавание грамматических омонимов. Омонимы - это слова, которые имеют одинаковое написание, но различный смысл. Омонимы не только увеличивают размер индексной базы (так как для каждого такого слова приходится хранить все его возможные значения), но и отрицательно сказываются на точности поиска. Для того, чтобы результаты поиска были точнее, модуль синтаксического анализа проводит разбор окружения слов-омонимов с целью установления их наиболее вероятных значений. Например, если рядом со словом «печь» стоит существительное («пирожки», «картошка»), то с высокой вероятностью «печь» в данном контексте является глаголом. На сегодняшний день анализатор способен распознавать значения только грамматических омонимов.
Синтаксический анализ позволяет также с определенной вероятностью распознавать некоторые имена собственные. Например, если в тексте несколько слов подряд написано с большой буквы, они чаще всего представляют собой имя собственное (Петр Петрович, Московский Государственный Университет). Данные о таких конструкциях учитываются при индексации и обработке запроса.
Еще один способ повышения точности поиска - это выделение устойчивых обозначений и поиск их как отдельных лексических единиц. На сегодняшний день в Рамблере реализована система распознавания таких конструкций, например C++, б/у, п/п-к. Если по запросу С++ поднимать все тексты, в которых присутствуют латинская буква С, а также знак +, то получится огромное количество документов, далеко не все из которых соответствуют запросу; кроме того, это большая работа, значительно увеличивающая время поиска.
Огромную роль в повышении точности поиска играет ранжирование. Пользователь очень редко просматривает больше трех страниц с результатами поиска. Поэтому субъективно он оценивает точность по «верхним» документам. Даже если нужный документ найден поисковой машиной, но расположен на двухсотой позиции, скорее всего, он никогда не будет найден пользователем.
По умолчанию в Рамблере результаты ранжируются по степени соответствия (релевантности) запросу и группируются по сайтам.
Помимо автоматических способов увеличения точности поиска, существуют различные средства, с помощью которых пользователь сам может уточнить поиск по отдельным запросам. В первую очередь к ним относится специальный язык поискового запроса, используя который можно ограничивать количество найденных документов. Например, запрос или его часть, взятые в кавычки, обрабатываются буквально, с учетом всех стоп-слов, форм, порядка, знаков препинания. Это повышает точность поиска, но уменьшает его полноту: если часть, заключенная в кавычки, неточна, нужный документ найден не будет. Увеличить точность можно с помощью использования поиска в найденном. Уточняющий поиск, проводится уже не по всей индексной базе, а только по результатам предыдущего поиска. Таким образом, круг найденных документов сужается.
Актуальность - не менее важная характеристика поиска, которая определяется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу. На сегодняшний день индексная база поисковой системы Рамблер состоит из 8 частей, каждая из которых живет своей независимой жизнью. Весь Интернет условно разделен на 7 секторов и называется своим цветом: красный, оранжевый, желтый, зеленый, голубой, синий, фиолетовый. Сайт компании Рамблер относится к голубому сектору. Информация о web-ресурсах каждого сектора хранится в соответствующей части индексной базы. Восьмая часть - «быстрая база» - включает в себя страницы, на которых размещен счетчик Тор 100 и которые еще не успели попасть в основную индексную базу.
Все части индексной базы собираются и обновляются по отдельности. Так, сегодня происходит переиндексация и обновление красного сектора, завтра - оранжевого и желтого, послезавтра - зеленого и т.д. Благодаря такому ступенчатому алгоритму в поисковой машине регулярно появляется свежая информация. Полный цикл обновления занимает около недели. При этом сбор информации происходит параллельно, а непосредственно на изготовление индекса документов одного сектора уходит всего несколько часов. Поэтому существует принципиальная возможность обновлять индексную базу быстрее.
Разделение Интернета на 7 секторов условно. При необходимости он может быть разбит на 10, 20 или 40 секторов, каждый из которых будет обрабатываться автономно. В такой системе заложена возможность значительного увеличения нагрузки. С ростом объема информации в сети Интернет растет и индексная база поисковой машины. Постепенно переиндексация и сборка базы начинает занимать все больше времени, а процесс обновления индекса становится более громоздким. Поступление новых данных затягивается, информация начинает терять свою актуальность. Возможность «передела» Интернета на большее число секторов позволяет удерживать размер каждой части базы в оптимальном диапазоне, контролировать время ее сборки и обновления.
«Быстрая база» отличается от остальных частей индекса меньшим объемом и очень оперативным обновлением: время ее построения занимает около двух часов. В базе содержится информация о страницах, на которых был установлен счетчик Тор 100. Участниками рейтинга Тор 100 являются новостные порталы, сайты крупных компаний, Интернет-магазины, форумы, - все наиболее популярные ресурсы в сети. Каждый раз при установке счетчика на новую страницу сайта, зарегистрированного в Тор 100, информация передается в поисковую систему. Страница ищется во всех цветах основной базы и, если она еще не известна поисковой системе, отправляется в очередь на обработку. Перед обработкой страницы дополнительно фильтруются, из них отбираются самые посещаемые. Таким образом, «сливки» с Интернета собираются два раза в день.
«Быстрая база» представляет собой разумное решение проблемы актуальности данных в поиске. Информационное агентство может выложить новость через десять минут после ее появления, потому что тратит время только на верстку страницы. Поисковая машина должна сначала заиндексировать текст, а на это требуется гораздо больше времени. «Быстрая база» охватывает все ресурсы Интернет, зарегистрированные в Тор 100, на которых был размещен счетчик, и которые еще не успели попасть в основную базу. При этом индексируются как страницы с новостями, так и другие свежие документы, появившиеся в Тор 100.
Наглядность представления результатов является необходимым компонентом удобного поиска. На плохой витрине легко не заметить хороший товар. По большинству запросов поисковая машина находит сотни, а то и тысячи документов. В следствие нечеткости запросов или неточности поиска, даже первые страницы не всегда содержат только нужную информацию. Это означает, что пользователю часто приходится проводить свой собственный поиск внутри списка найденного. Различные элементы ответной страницы помогают ориентироваться в результатах поиска.
Группировка по сайтам предназначена для того, чтобы на странице можно было вывести как можно больше Интернет-ресурсов, релевантных запросу пользователя. Это бывает важным, когда необходимо получить информацию из различных источников. Если более информативной для посетителя является дата обновления или релевантность отдельных документов, в ответной странице Рамблера существует возможность сортировки по этим параметрам.
В некоторых случаях полезным бывает знание имени сайта. Если пользователя интересует конкретный Интернет-ресурс, имя может дать ему гораздо больше информации, чем заголовок страницы или цитата.
Если запросу соответствует больше одной страницы с сайта, то в качестве результата поиска предъявляется наиболее релевантная из них, а ниже располагается частичный список остальных документов. Это увеличивает количество потенциально полезной информации на ответной странице и часто позволяет уточнить поиск без дополнительного запроса.
Цитата помогает определить, насколько полезную информацию содержит найденный документ. Очень часто посетителю не требуется переходить по ссылке, чтобы обнаружить, что текст не соответствует его интересам и потребностям. Иногда ответ на вопрос пользователя содержится непосредственно в цитате документа. Это экономит время и повышает эффективность работы поисковой системы.
Восстановить текст - иногда единственный способ получить доступ к содержимому найденного документа. Ресурс бывает недоступен по разным причинам. Документ может быть удален, перенесен, изменен, но его текстовое содержание некоторое время сохраняется в индексной базе. Кроме того, внутри самого документа часто отсутствует навигация, позволяющая быстро найти фрагмент, релевантный запросу. В восстановленном тексте все слова запроса подсвечиваются.
Ассоциации представляют собой список запросов, которые часто подаются пользователями в течении одной поисковой сессии. Алгоритм построения ассоциаций устроен так, что они почти всегда связаны между собой по смыслу. В некоторых случаях ассоциации позволяют повысить качество поиска за счет уточнения запроса.
Скорость поиска, здесь интересы пользователя и поисковой системы совпадают: посетитель хочет получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих. Обработка поискового запроса состоит из нескольких уровней (см. рис 1).
Рис. 1. Схема обработки поискового запроса
Запрос поступает в поисковую систему через маршрутизатор Cisco. Маршрутизатор передает его наименее загруженной машине первого уровня - frontend. Frontend, в свою очередь, отправляет запрос дальше, на один из восьми proxy-серверов, также выбирая наиболее свободный сервер. Одновременно frontend отправляет запрос на машины, осуществляющие поиск по товарам и по базе Тор 100. На proxy проводится поиск по ссылочному индексу, и его результаты вместе с поисковым запросом передаются на машины, которые содержат основную индексную базу, - backends. Та же информация отправляется на машины с «быстрой базой».
На текущий момент в поиск включено 77 backend'ов. Они сгруппированы по 11 машин, и каждая группа содержит копию одной из частей поискового индекса. Таким образом, информация о сайтах, условно входящих в красный сектор Интернета, находится на backend'ах первой группы, оранжевый сектор - на backend'ах второй группы и т.д. Proxy-сервер выбирает наименее загруженный backend в каждой группе машин и отправляет на него поисковый запрос с результатами ссылочного поиска. На backend'ах осуществляется поиск по частям индексной базы и ранжирование с учетом результатов поиска по ссылочному индексу. При ранжировании для всех найденных документов высчитываются веса по конкретному запросу.
После того, как запрос обработан на backend'ах, информация о результатах и ранжировании отдается обратно на proxy-сервер. Туда же поступают отсортированные результаты с машин «быстрой базы». Proxy интегрирует данные, полученные с восьми машин: клеит дубли, объединяет зеркала сайтов, переранжирует документы в общий список по весам, рассчитанным на backend'ах. Так, первым в списке найденного может быть документ с машины 5.3.1, вторым и третьим - с 6.1, четвертым - с 5.5.2 и т.д. На proxy-сервере также реализуется построение цитат к документам и подсветка слов запроса в тексте. Полученные результаты отдаются на frontend.
Помимо информации с proxy-сервера, frontend получает результаты из поиска по товарам и из базы Тор 100, отсортированные, с цитатами и подсветкой слов запроса. Frontend осуществляет окончательное объединение результатов, генерирует html со списком найденного, вставляет баннеры и перевязки (ссылки на различные разделы Рамблера) и отдает html Cisco, который маршрутизирует информацию пользователю.
Каждый из этапов обработки запроса многократно продублирован и защищен системой балансировки нагрузки. Благодаря дублированию информации поисковая система Рамблер является устойчивой к сбоям на отдельных участках, авариям, отказам оборудования. Если одна их машин перестала функционировать, нагрузка перераспределяется на другие машины, и выпадения документов из поиска не происходит. Масштабируемость достигается простым добавлением в систему машин соответствующего уровня. До недавнего времени в Рамблере работало 45 backend'а. В связи с тем, что осенью нагрузка на поисковые системы обычно возрастает, число backend'ов было увеличено до 77, что позволило значительно ускорить вычисление запросов.
Еще один способ повышения скорости поиска - «кэширование», сохранение информации о запросах и результатах поиска в буфере. Многие люди дают одни и те же поисковые запросы. Вычислять их каждый раз заново было бы неразумной тратой времени. Поэтому если запрос уже обрабатывался в течение некоторого интервала времени, результаты поиска отдаются пользователю из «кэша».
Лингвистический анализ текста документов и запроса также позволяет ускорить обработку информации. Например, определение значения омонимов уменьшает количество нерелевантных запросу документов, которые нужно ранжировать и цитировать. Выделение устойчивых обозначений (С++, б/у) на этапах индексации и обработки запроса приводит одновременно к повышению точности и сокращению временных затрат на обработку каждого отдельного элемента обозначения (раньше запрос С++ обрабатывался как отдельно латинское С, отдельно плюс и еще один плюс. Запрос вычислялся долго, а среди результатов поиска было много нерелевантных документов, например, страницы, содержащие математические формулы и т.п.) С этой же целью используются словари стоп-слов. Стоп-слова - это наиболее частотные слова языка, которые встречаются практически в любом тексте и являются малоинформативными. В основном, это служебные слова - предлоги, частицы, артикли. Если нет специальных указаний, поисковая машина игнорирует стоп-слова, встречающиеся в запросе, чтобы не тратить время на обработку дополнительной информации, снижающей качество поиска.
3. Поиск экономической информации с помощью портала «Рамблер»
Экономическая информация - это преобразованная и обработанная совокупность сведений, отражающая состояние и ход экономических процессов. Экономическая информация циркулирует в экономической системе и сопровождает процессы производства, распределения, обмена и потребления материальных благ и услуг. Экономическую информацию следует рассматривать как одну из разновидностей управленческой информации.
Рассмотрим способы поиска с помощью «Рамблера» (см. рис. 2).
Рис. 2. Стартовая страница «Рамблер»
Основным приемом поиска информации является обычный запрос. После загрузки поисковой системы в строке для поиска необходимо ввести запрос (query), который представляет собой строку текста (на любом языке), - ключевую фразу искомых документов в Internet и щелкнуть кнопку Поиск. Для более эффективного поиска необходимо, чтобы запрос содержал слова или фразу, которые будут на искомой Web-странице или в искомом документе. «Rambler» позволяет установить дополнительные параметры поиска, то есть параметры, которые уточняют строку поискового запроса, делая его более «жёстким» или более «мягким». Также можно изменить параметры поиска, задаваемые по умолчанию (например, максимальное расстояние между словами), что также влияет на «жёсткость» запроса, и выбрать вид страницы с результатами. Такие возможности предоставляет страница «Расширенного поиска». «Расширенный поиск» - это наиболее эффективный инструмент (из предоставляемых на этом поисковике) для исключения из результатов поиска лишних или малоинформативных документов. Возможно, поначалу будет несколько смущать своеобразная двусмысленность в словосочетании «расширенный поиск», так как он используется его как раз для того, чтобы сузить поле поиска и получить более точный результат. Но и с этой двусмысленностью нетрудно примириться, так как слово «расширенный» относится к возможностям поиска, а не к результатам.
На странице «расширенного поиска» все параметры имеют значения, принятые по умолчанию, что отражается в состоянии соответствующих «флажков» и радиокнопок. Все элементы управления в форме доступны для основных скринридеров.
Определенный интерес могут представлять следующие возможности «Расширенного поиска»:
Изменение области поиска: весь документ, заголовок документа, гиперссылки. Этот параметр устанавливает, где именно будет произведен поиск слов, указанных в поисковом запросе.
Изменение условия поиска слов запроса: все или хотя бы одно.
Указать, что необходимо вести поиск точных совпадений со строкой поискового запроса.
Отменить/установить контроль за расстоянием между словами.
Исключить из результатов документы, содержащие определенное слово.
Выбрать язык (поддерживаются русский, английский или украинский), формат (поддерживаются html, doc и pdf) и дату отбираемых документов.
Ограничить круг поиска определенными сайтами.
Все настройки в этой форме расположены вслед за кнопкой «Найти», однако после всех настроек находится еще одна кнопка «Найти», которую можно использовать, чтобы не возвращаться в начало страницы.
Еще один из способов поиска узкоспециализированной информации является проект Рамблер Топ100 (см. рис. 3).
Рис. 3. Рамблер Топ100
Рамблер Топ100 является единственным сервисом, который появился практически одновременно с поисковой системой и просуществовал до сих пор без особых изменений. Фактически это сервис, предоставляющий бесплатный счетчик посещаемости и выстраивающий на основании его показаний Топ сайтов рунета, подразделяя их на соответствующие рубрики.
Основными рубриками в Топ100, отражающими экономическую информацию, являются «Бизнес и экономика», имеющая базу около 20 тысяч сайтов, «Недвижимость» (около 6 тысяч сайтов), «Личные финансы» (около тысячи сайтов). Для поиска также используется строка поиска, и небольшой редактор запроса, позволяющий выбрать: формат (архивы, видео, аудио и т.д.), географию запроса, тип, тему.
Но по-моему мнению, главным источником экономической информации этого портала, являет проект «Rambler - Финансы» (см. рис. 4).
Рис. 4. «Rambler - Финансы»
В 2007 году «Rambler» представил новый проект «Rambler - Финансы». На ресурсе можно прочитать последние новости деятельности субъектов финансового рынка, найти справочные материалы, базы данных и специализированную литературу, почитать блоги аналитиков и даже сыграть в экономические игры-симуляторы. Источником для ленты финансовых новостей объемом более шестисот сообщений в сутки служат массовые и специализированные издания, а также официальная информация субъектов рынка. Сюда же включены такие разделы, как «Аналитика», «Дайджесты», «Опросы и рейтинги», «Валютные рынки» и другие, которые в полном объеме описывают картину происходящего в финансовом мире. С данными Росстата, касающимися показателей в различных сферах экономики, можно ознакомиться в разделе «Россия в цифрах». Кроме этого, в блоке можно просмотреть архив новостей, содержащий материалы, опубликованные за последние двенадцать лет.
Зайдя на страничку, посвященную валютам, пользователь получит исчерпывающую информацию относительно изменений курсовых соотношений, курсов мировых валют, установленных Центральным Банком РФ за прошедшие два дня, а также курсов обмена наличной валюты в московских банках на текущий день. С помощью поиска можно узнать средний курс какой-то конкретной валюты за определенный период. Конвертер валют посчитает сколько будут стоить, например, 2000 рублей, если их перевести в евро, или любую другую валюту. Чтобы узнать, каков курс той, или иной валюты в обменных пунктах Москвы, нужно в специальных поисковых полях указать станцию метро, условную сумму и саму валюту. Здесь же размещен архив курсов всех мировых валют за последние двадцать лет. Вдобавок ко всему «Рамблер-Финансы» располагают обширным справочным каталогом субъектов финансовой деятельности, или попросту говоря, банков. На данный момент каталог насчитывает 1135 названий субъектов. В нем собраны адреса, контактные данные и характеристики банков, расположенных по всей территории России. Контактная информация в некоторых случаях дополняется перечнем оказываемых банками услуг. Чтобы найти какой-то конкретный банк, нужно в поисковой строке ввести его название. Содержащаяся в справочнике информация предоставлена либо самими участниками каталога, либо ЦБ РФ.
Кроме этого, в справочном разделе можно получить подробнейшую информацию о фондовом рынке и всех его составляющих, представленную в виде учебника. Учебник подкреплен сводом основных законов, регулирующих фондовый рынок РФ и налоговыми нормами, принятыми в отношении совершения операций с ценными бумагами. В справочнике также содержится специальная литература и статьи соответствующей тематики.
Ресурс ориентирован не только на профессиональных финансистов, но и на обычных потребителей. Финансовые калькуляторы помогут рассчитать стоимость автомобильной страховки, выплаты по ипотечным кредитам, а конвертер валют - самый высокий курс.
Заключение
Почти все аспекты экономической деятельности сегодня связаны с использованием Интернета, причем его роль постоянно возрастает, благодаря созданным поисковым машинам и множеству ресурсов. Традиционные инструменты экономики, которые используются в Сети, становятся более эффективными, а Интернет предоставляет пользователям все новые возможности для установления и поддержания связей с партнерами, поиска и анализа необходимой информации, электронной торговли, проведения маркетинговых исследований и т.д.
Интернет открыт для каждого, ограничения могут быть связаны только с оплатой.
Относительно традиционных СМИ и других способов получения информации Интернет и его ресурсы выигрывают.
В ходе исследования мы выяснили, что поиск Рамблер осуществляется силами движка Яндекса, объективных причин падения его популярности из-за плохого качества поиска нет. Возможно, что доля рынка, равная примерно
одному проценту, и есть текущая планка для этой некогда популярной
поисковой системы, а теперь мега-портала.
Его главными достоинствами на данный момент являются Топ100 и Рамблер финансы, оба ресурса могут предоставить экономическую информацию, которая так важна в наше время капитализма.
Рамблер финансы, как нельзя лучше подходят для поиска экономической информации, там можно узнать курсы валют и самые актуальные новости, связанные с экономикой и бизнесом.
Как мне кажется, Рамблером сейчас пользуются в основном пользователи со стажем, которые подсели на него и его сервисы в то время, когда он еще не свалился в «крутое пике».
Список использованной литературы
Арский Ю.М., Гиляревский Р.С. и др. Информационный рынок России. - М.: ВИНИТИ. 1996.
Бобров Л.К. Мировая индустрия онлайновых баз данных // Вычислительные технологии. - 1997. - Том 2, №3.
Введение в информационный бизнес / Под ред. В.П. Тихомирова, А.В. Хорошилова - М: Финансы и статистика, 1996.
Голубков Е.П. Маркетинговые исследования: теория, методология, практика. - М.: Финпресс, 1998.
Гуманитарные исследования в Интернете / Под ред. А.Е. Войскунского. - М., 2000.
Информационные системы в экономике / Под ред. В.В. Дика - М.: Финансы и статистика, 1996.
Лиходедов Н.П., Товстых Л.Е. Информационные ресурсы для бизнеса. - СПБ «ЭЛБИ» 1998
Мировой рынок информационных услуг/ Родионов И.И., Гиляревский Р.С., Залаев Г.Ф., Цветкова В.А. - М.: 2002.
Перфильев Ю.Ю. Российское интернет-пространство: развитие и структура. - М., 2003. - 272 с.
Портер М. Конкуренция. - М.: Издательский дом «Вильямс», 2000
Родионов И.И. Рынок информационных услуг и продуктов/ Р.С. Гиляревский, В.А. Цветкова, Г.З. Залаев. - М.: МК-Периодика, 2002. 549 с.
Сапунов, В.И. Зарубежные информационные агентства. - Спб., 2006. - с. 153.
Филатова О.Г. Интернет как масс-медиа // Сборник научных трудов «Актуальные проблемы теории коммуникации». - М., 2004.
Размещено на Allbest.ru
Подобные документы
Описание и классификация современных информационно–поисковых систем. Гипертекстовые документы. Обзор и рейтинги основных мировых поисковых систем. Разработка информационно–поисковой системы, демонстрирующей механизм поиска информации в сети Интернет.
дипломная работа [1,3 M], добавлен 16.06.2015Основные протоколы, используемые в Интернет. Инструменты поиска в Интернете. Популярные поисковые системы. Как работают механизмы поиска. Средства поиска и структурирования. Автоматизированная навигация по Сети. Критерии качества работы поисковой машины.
реферат [19,7 K], добавлен 14.02.2012Назначение и классификация методов поисковой оптимизации. Эффективность поискового метода. Методы поиска нулевого порядка: исходные данные, условия, недостатки и применение. Структура градиентного метода поиска. Основная идея метода наискорейшего спуска.
лекция [137,8 K], добавлен 04.03.2009Изучение языка поисковых запросов. Принципы действия регистров, скобок, метасимволов. Методы управления индексированием сайта, использования файлов robots.txt. Группы инструкций для отдельных роботов: User-agent. Принципы работы поисковой машины Рамблер.
реферат [105,0 K], добавлен 19.12.2010Понятие информационно-поисковых систем, их сущность и особенности, история возникновения и развития, роль на современном этапе. Внутреннее устройство и элементы поисковой системы. Принцип работы поисковой машины Рамблер, прядок обработки запроса.
научная работа [222,0 K], добавлен 29.01.2009Рассмотрение принципов поисковой системы и процедуры проведения поиска по запросам пользователей "Яндекса". Изучение структуры запросов, вспомогательных программ поиска, модулей и этапов их преобразования. Описание дополнительной информации в сниппете.
реферат [135,6 K], добавлен 27.12.2014Анализ существующих поисковых систем и используемых ими алгоритмов поиска документов. Разработка информационно-поисковой системы словарного типа, способной осуществлять релевантный поиск документов, особенности ее структуры и информационно-поисковой базы.
дипломная работа [942,1 K], добавлен 19.05.2011Обзор понятия и принципов функционирования электронной почты - средства обмена информацией, подготовленной в электронном виде, между людьми, имеющими доступ к компьютерной сети. Информационно-поисковые системы. Параметры эффективности поиска информации.
презентация [677,8 K], добавлен 12.12.2012Рост количества информации в мире, его увеличение в сети Интернет в геометрической прогрессии. Количество сайтов, зарегистрированных в поисковой системе Яндекс. Особенности эффективного поиска информации в сети Интернет. Схема информационных потоков.
презентация [52,6 K], добавлен 27.08.2013Хранение данных в сети Internet. Гипертекстовые документы, виды файлов. Графические файлы, их виды и особенности. Поисковые системы и правила поиска информации. Обзор поисковых систем сети Internet. Все о поисковых системах Yandex, Google, Rambler.
курсовая работа [918,3 K], добавлен 26.03.2011