Дослідження методів оптимізації розташування посилань на інформаційні ресурси у мережевих пошукових системах та розробка програмного забезпечення

Оптимізація розташування посилань на інформаційні ресурсах у мережевих пошукових системах за допомогою спеціальних вірно обраних ключових слів. Розробка програмного забезпечення SEO-системи для тестування і читання RSS каналів відвідувачами сайту.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык украинский
Дата добавления 14.06.2013
Размер файла 2,3 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Пояснювальна записка

до дипломної роботи

Дослідження методів оптимізації розташування посилань на інформаційні ресурси у мережевих пошукових системах та розробка програмного забезпечення

Вступ

Актуальність роботи полягає в тому що з розвитком глобальної мережі Інтернет і зростанням кількості документів, розміщених в ній, виникла проблема пошуку інформації. На сьогоднішній день в більшості випадків її вирішують пошукові системи, які визначають список документів, відповідних (релевантних) запиту користувача. Таких документів можуть бути мільйони, і завдання пошукової системи - розташувати знайдені документи в порядку убування релевантності. Процес упорядкування документів називається ранжируванням.

Релевантність визначається на основі властивостей як документа, так і запиту користувача. Ці властивості називаються факторами ранжирування, число їх може досягати декількох сотень. Кожний з факторів вносить свій внесок у формулу ранжирування, яка у відповідь на запит користувача визначає порядок документів в результатах пошуку. Серед цих факторів можуть бути, наприклад, наявність слів запиту користувача в заголовку і тексті документа, географія користувача і безліч інших.

Зростання обсягів інформації, індексований пошуковими системами, породжує постійний розвиток алгоритмів. За останні кілька років реалізовано безліч нововведень. Наприклад, пошукові системи навчилися визначати першоджерело документа (для виключення з результату пошуку дублікатів), реалізували пошук з урахуванням регіону користувача і багато іншого.

Дослідження роботи пошукових систем і питання підвищення релевантністю документів запитам користувачів проводилися В. Д. Байковим, Д.Н. Колісниченко, Н.В. Євдокимовим, І.С.Ашмановим, А.А. Івановим, А.А. Яковлєвим та іншими авторами. У них розглядалися фактори, що впливають на ранжирування в пошукових системах. Формули ранжирування пошукових систем зазнали значних змін за останні 2-3 роки, і результати робіт перерахованих вище авторів неактуальні.

Оскільки використання пошукових систем зростає і залишиться таким в осяжному майбутньому, проведені в дисертації дослідження є актуальними і мають важливе практичне значення, оскільки дозволяють збільшити відвідуваність ФСІОР шляхом підвищення видимості по цільових запитах в пошукових системах.

Мета та задачі роботи

Метою роботи є дослідження методів оптимізації розташування посиланнь на інформаційні ресу рсах у мережевих пошукових системах

В якості досліджуваних пошукових систем, для яких проводилася оптимізація, були обрані найбільш популярні та прогресивні Яндекс (www.yandex.ru) і Google (www.google.ru). Дослідження інших відомих пошукових систем Рунет неактуально: Aport (www.aport.ru) - розвиток припинено в середині 2000-х років, Rambler (www.rambler.ru) - розвиток також зупинено, розглядається використання пошуку від Google. Портал Мейл.ру (www.mail.ru) є в першу чергу розважальним порталом і поштовим сервісом, пошукова система якого вторинна, і трафік з Мейл.ру для ФСІОР становить менше 3%.

Об'єктом дослідження є дослідженно оптимізації розташування посиланнь на інформаційні ресурсах у мережевих пошукових системах за допомогою спеціальних вірно обраних ключових слів,опис пошукових систем(Яндекс,Google,Рунет), підвищення трафіку, графи станів рейтингом сайту, віді станів, ймовірності станів розробка математичної моделі.

* Предметом дослідження є оптимізація розташування посиланнь на інформаційні ресурсах у мережевих пошукових системах.

Для досягнення мети необхідно вирішення наступних завдань:

- Проведено аналіз сучасних пошукових систем, що використовуються в російському сегменті мережі Інтернет;

- Розроблено систему чинників, що у формулах ранжирування пошукових систем;

- Розроблено метод пошукової оптимізації, проведена пошукова

оптимізація Єдиної колекції цифрових освітніх ресурсів та проаналізовано її результати.

На захист виносяться:

- Результати аналізу сучасних пошукових систем;

- Складання семантичного ядра;

- Метод пошукової оптимізації;

- Реалізація методу пошукової оптимізації для освітнього порталу

Єдиної колекції цифрових освітніх ресурсів.

Наукова новизна

Наукова новизна одержаних результатів полягає у наступному:

- Розробці системи чинників, що у формулах ранжування пошукових систем;

- Формуванні семантичного ядра;

- Розробці методу пошукової оптимізації.

Практична цінність

Практична цінність результатів в тому, що застосування розробленого методу пошукової оптимізації дозволяє підвищувати відвідуваність інтернет-ресурсів по цільових запитах.

Апробація роботи

Основні положення та результати роботи докладалися на студентській науково-технічній конференції кафедри комп'ютерних наук Східноукраїнського національного університету імені Владимира Даля у квітні 2013 року.

Структура та обсяг

Магістерська робота складається з вступу, п'яти розділів, списку літератури, лістингу программи та додаткок слайди магістерської роботи

1. Аналіз пошукової системи сайту методи пошуку інформації у мережі інтернет

1.1 Загальні вимоги при застосування пошукових систем

На сьогоднішній день" всесвітнє павутиння" включає декілька десятків (по різним оцінкам - від 50 до 80) мільйонів серверів, на кожному з яких доступно від декількох мегабайт до десятків гігабайт інформації. Як уже відзначалося, для пошуку незліченної інформації в Інтернеті на допомогу приходять тематичні та індексні пошукові системи.

Типовий приклад тематичного каталогу - пошукова система Yahoo (http://www.yahoo.com). Це спеціалізований сервер WWW, на якому зберігаються списки інших серверів з їх стислими описами. Інформація згрупована за смисловими категоріями і має ієрархічну структуру; наприклад, на цьому сервері можна знайти розділи "Комп'ютери та Інтернет-мультимедіа - Журнали", "Розваги - Музика - Групи і виконавці - Елтон Джон", "Країни - Україна - Бізнес в Україні", а також безліч інших. Передбачена на сервері система шукає дані тільки в каталозі Yahoo і не заглядає на сторінки згаданих в ньому серверів. Користуватися такою системою (а також будь-якою іншою, аналогічною їй, наприклад, списком російських серверів WWW за адресою http://www.ru) надзвичайно просто. Треба знайти потрібний розділ і після цього - підходящий сервер за його стислим описом, наведеним там же. Такі каталоги мають недоліки: низька оперативність зміни інформації, відносна складність пошуку (за стислою та інколи помилковою адресою сервера), порівняно невелика "область охоплення" простору WWW.

Існує більш зручний і ефективний засіб пошуку необхідних відомостей. Це так звані індексні пошукові системи (пошукові механізми - search engines). Основою їх є спеціалізовані комп'ютери, що періодичні проводять індексацію документів на серверах "всесвітнього павутиння", і дозволяють шукати інформацію на цих серверах за одним або кількома ключовими словами і, можливо, за деякими додатковими ознаками.

До кінця 1997 г. в мережі Інтернет налічувалося близько двох тисяч різноманітних пошукових серверів, які відрізняються один від одного типом, спеціалізацією, сферою охоплення (кількістю індексованих сторінок) і популярністю. Більша частина цих серверів має порівняно вузьку спеціалізацію - наприклад, пошук музики в форматі МР3 або пошук інформації на серверах у галузі молекулярної хімії. Існує декілька надзвичайно популярних універсальних пошукових серверів, призначених для пошуку за ключовими словами на якомога більшому числі сторінок системи WWW. Найбільш відомими є сервери AltaVista (http://altavista.digital/com), InfoSeek (http://www.infoseek.com), Excite (http://www.excite.com), HotBot (http://www.hotbot.com), Lycos (http://www. lycos. com)[1].

Принцип дії більшості таких серверів простий (заняття 9). Для пошуку інформації використовується індекс, створений спеціальною програмою-роботом. Програма-робот періодично обходить відомі їй адреси мережі, зчитує з них сторінки, що зберігаються WWW, індексує всі слова з усіх сторінок (разом з адресами URL) і розміщує їх в загальний індекс. Для зберігання цього індексу потрібен величезний обсяг пам'яті, а для його обробки - чимала обчислювальна потужність. Наприклад, основний механізм одного з найпотужніших пошукових серверів AltaVista (повного індексу, що претендує на всю мережу Інтернет), включає 16 потужних комп'ютерів Alpha Server 8400 5/440. На кожному з цих комп'ютерів встановлено по 12 центральних процесорів, 8 гігабайт оперативної пам'яті (обсяг, еквівалентний обсягу пам'яті 500 стандартних сучасних персональних комп'ютерів) і дисковий масив RAID ємкістю 300 гігабайт. Вся ця система з'єднана з магістральною мережею Інтернет каналом зв'язку з пропускною спроможністю 100 Мбіт/с. Загальний обсяг на сервері індексних файлів, що зберігаються, в яких виробляється пошук, - понад 200 гігабайт.

Ще одна категорія пошукових серверів - так звані "метапошукові" сервери (метасервери). Найбільш відомий з них - WebCrawler (http://www.webcrawler.com). Сервери такого типу передають отриманий від користувача запит на пошук інформації іншим пошуковим серверам, об'єднують результати пошуків і повертають результат користувачу. Застосування подібних серверів має як переваги, так і недоліки. Найцінніша перевага полягає в економії часу на однотипових запитах до різноманітних серверів. Проте, позначки в синтаксисі запитів змушують користувачів метасерверів дотримуватися найзагальнішої форми запиту, без можливості вдаватися до потужніших засобів пошуку. Незважаючи на це, метасервери - непоганий засіб оперативної оцінки того, наскільки широко представлена в системі WWW та чи інша інформація.

Пошукова система - це програмно-апаратний комплекс, призначений для здійснення пошуку в мережі Інтернет та реагує на запит користувача, що задається у вигляді текстової фрази (пошукового запиту), видачею списку посилань на джерела інформації, в порядку релевантності (відповідно запитом). Найбільш великі міжнародні пошукові системи: «Google», «Yahoo», «MSN». У російськомовному сегменты Інтернет це - «Яндекс», «Рамблер», «Апорт».

Аналогічно, пошукова машина складається з двох частин: так званого робота (або павука), який обходить сервери Мережі та формує базу даних пошукового механізму.

База робота в основному формується ним самим (робот сам знаходить посилання на нові ресурси) і в набагато меншому ступені - власниками ресурсів, які реєструють свої сайти в пошуковій машині. Крім робота (мережевого агента, павука, черв'яка), формуючого базу даних, існує програма, що визначає рейтинг знайдених посилань.

Принцип роботи пошукової машини зводиться до того, що вона опитує свій внутрішній каталог (базу даних) за ключовими словами, які користувач вказує в поле запиту, і видає список посилань, ранжируваних за релевантністю.

Слід зазначити, що, відпрацьовуючи конкретний запит користувача, пошукова система оперує саме внутрішніми ресурсами (а не пускається в подорож по Мережі, як часто вважають недосвідчені користувачі), а внутрішні ресурси, природно, обмежені. Незважаючи на те що база даних пошукової машини постійно оновлюється, пошукова машина не може проіндексувати всі Web-документи: їх число занадто велике. Тому завжди існує ймовірність, що шуканий ресурс просто невідомий конкретної пошукової системи.

Основні характеристики пошукових систем:

* повнота

Повнота - одна з основних характеристик, що представляє собою ставлення знайдених пошуковою системою документів до загального числа документів в Інтернет, релевантних запиту. Припустимо, фраза «українська освіта »зустрічається 1000 разів у різних документах мережі Інтернет, а при запиті цієї фрази в пошуковій системі знайдено 700 документів - тоді повнота пошуку складає 0.7. Чим більше повнота, тим більше шансів у користувача знайти шукану інформацію, за умови, що такий документ взагалі існує в мережі.

* точність

Точність - ще одна з найважливіших характеристик пошукової системи, яка визначає ступінь відповідності знайдених документів запитом користувача Пристрій пошукової системи Кожна велика пошукова система має свою власну архітектуру, але для всіх них можна виділити загальні компоненти.

Павук - програма, призначена для пошуку нових документів уІнтернеті. Павук передає запит на сервер, де розташований веб-сайт дляотримання документа, а у відповідь отримує безпосередньо сам документ і службову інформацію. З документа витягуються всі гіперпосилання, по яким відправляються аналогічні запити. Таким чином, переходячи по гіперпосиланнями, павук збирає інформацію про всі документи, розташованих в мережі. Існують також альтернативні способи «Запрошення» павука на веб-сайт - кожна пошукова система має форму для додавання нового документа або цілого веб-сайту. Крім завдання переходу за гіперпосиланнями для знаходження всіх документів мережі Інтернет, обов'язки павука входить складання розкладу обходу знайдених ранішедокументів на предмет змін. Для кожного веб-сайту розклад складається індивідуально, і, у загальних рисах, якнайшвидше повернення павука тим імовірніше, чим частіше на веб-сайті з'являються нові, унікальні документи, а також чим частіше цитують даний веб-сайт в мережі Інтернет (З'являються гіперпосилання на його документи).

Робот-індексатор відповідає за збереження документів, знайдених павуком. Перед відправкою запиту на сервер для отримання документа робот індексатор запитує вміст файлу robots.txt, якщо такий існує в кореневій директорії веб-сайту. Robots.txt - файл обмеження доступу роботам до вмісту веб-сайту. Існує стандарт винятків для роботів, використання якого добровільно, але більшість сучасних пошукових систем йому слідують. У разі, якщо документ дозволений для скачування, робот-індексатор становить зворотний (Інвертований) файл і зберігає його в базі даних. Інвертований файл у найпростішому випадку являє собою структуру, що складається з двох частин:

- Списку, що містить всі слова, які були знайдені у всіх документах;

- Покажчики на всі документи, а точніше - місця в цих документах, в яких міститься кожне слово.

З цієї структурі надалі і відбувається пошук при запиті користувача до пошукової системи, а сама структура називається її індексом.

Аналогічною структурою володіє «швидка» база, документи для якої індексує т.зв. «Швидкоробот». У неї, як правило, потрапляють документи новинних сайтів, блогів, а також документи багатьох щодня поповнюваних веб-сайтів. Варто відзначити, що документи збережені роботом-индексатором в основній базі, не відразу беруть участь у результатах пошуку, на відміну від документів у швидкій базі, які можуть з'являтися в результатах пошуку відразу після індексації «швидкороботом». Оновлення пошукової бази відбувається 1-2 рази на тиждень.

Обхід документів веб-сайту павуком не гарантує, що робот- індексатор збереже документ у пошуковому індексі. Якщо веб-сайт містить безліч неунікальним інформації, містить віруси, спливаючі рекламні вікна (т.зв. pop-up тощо) або використовує у своїх документах різні види спаму для обману пошукової системи, такі документи можуть ніколи не потрапити в пошуковий індекс, але робот-індексатор буде періодично відвідувати їх для перевірки усунення порушень.

Модуль пошуку відповідає за аналіз запиту користувача, пошуку за інвертованою базі, ранжування та подання документів користувачеві. При пошуку першим справою аналізується запит, введений користувачем. Часто користувачі вводять «довгі» запити, що складаються з 3 і більше слів, і виникає ситуація, коли точного збігу з запитом до індексі пошукової системи немає. У цьому випадку на допомогу приходить переформулировка запиту. У Яндекс за це відповідає т.зв. «Чаклунчик». Переформулировка - це перепроцессінг, в результаті якого різні запити перетворяться по-різному, і пошук в індексі здійснюється за новому, уточненого запитом. У результаті замість «нічого не знайдено» користувач отримує в достатній мірі релевантний відповідь. до кінця 2007 року в Яндекс можна було побачити переформулювати запит.

Наприклад, у той час відкидалися частинки, прийменники, змінювалися словоформи, рідко вживаним словами в багатослівних запитах віддавалася меншу перевагу, а потім здійснювався пошук. У Нині точних даних про те, як саме працює «чаклунчик», немає. Після переформулювання запиту здійснюється пошук по індексному базі, і знаходяться всі документи, що задовольняють вже новому запитом.

Після того, як найбільш схожі документи були відібрані, їх необхідно впорядкувати за релевантністю (виконати ранжування). За цей процес відповідає формула ранжирування, яку зазвичай і називають алгоритмом пошукової системи. Формула ранжирування містить безліч факторів, які впливають на релевантність документа запиту; для різних пошукових систем ці множини різні.При спілкуванні з веб-майстрами, а також менеджерами онлайн-проектів, я часто стикаюся з думкою, що посилання грають велику роль в SEO[2].

Їм надають настільки велике значення, що робота seo-фахівця представляється людям як вишукування методів розстановки посилань на сайт, вмінню написати анкор і підібрати донори, або що гірше, цікавить правильний вибір автоматизованої біржі купівлі посилань або посилального агрегатора. Відповідно, сеошників при зустрічі один з одним, найчастіше цікавлять питання, хто як розбавляє анкор, де купують якісні посилання і який дотримуються стратегії закупівлі. Багато клієнтів seo-послуг представляють розподіл часу роботи спеціаліста з просування проекту приблизно в наступному співвідношенні:

Рис. 1.1. Думка клієнта про роботу seo-фахівця

В аналогічних пропорціях вони представляють і розподіл свого бюджету (витраченого на оплату роботи фахівця і купівлю посилань). Ідеальний грунт для росту і розвитку автоматизованих систем, чи не так?

Насправді ж, добрий seo-спеціаліст (з досвідом роботи) виконує різноманітні завдання, більшість з яких пов'язане з аналітикою. Давайте розглянемо, що входить в роботу спецылыста-сеошника?

На числовій осі відображено приблизну кількість витрачається часу в годинах на той чи інший вид роботи. Залежно від масштабності проекту, ці цифри можуть варіюватися (також, деякі види робіт є періодичними), тут відображені середні значення за весь цикл роботи з проектом[3].

1.2 Пошукові системи Рунет

У 1996 році в Рунет з'явилися пошукові системи Апорт rwww.aport.ru) і Рамблер (www.rambler.ru). 23 вересня 1997 був відкритий Яндекс (www.yandex.ru), восени 1997 року в США для студентів і викладачів стала доступною пошукова система Google (www.google.com). У зв'язку з бурхливим зростанням Рунет і обсягів інформації, індексованою пошуковими системами, необхідно володіти потужними дата-центрами для відповідності сучасним реаліям.

Рис 1.2 Види праці SEO-фахівця

Одним з критеріїв якості пошуку і, відповідно, позитивного іміджу, перспективності пошукової системи є частота оновлення пошукового індексу, яке також вимагає значних потужностей. За останні десятиліття більшою мірою Апорт, і трохи менше Рамблер перетворилися на каталог сайтів - тобто рідко змінюваний список документів, т.к. поновлення пошукової бази відбуваються вкрай рідко (для Рамблер 1 раз в 2 місяці, Апорт - і того рідше). Яндекс пройшов шлях від єдиного сервера, встановленого під столом одного з розробників Дмитра Тейбшома, до розгалуженої незалежної мережі дата-центрів, яка включає в себе тисячі серверів. Кожен день в цю мережу додається по нескольку нових. Пошукова система Google також пройшла шлях від одного сервера до величезного розподіленому дата-центру, включающему на сьогоднішній день понад 100 тисяч серверів. Google - найпопулярніша пошукова система в світі, яка здійснює пошук і по Рунет (www, google.ru). На сьогоднішній день в Росії найбільш затребувані, актуальні й перспективні лише дві пошукові системи - Яндекс і Google, які і розглядаються в даній роботі.

Как привлекти цельових відвідувачей?

Людина користується пошукачами, щоб знайти потрібну інформацію, відшукати і придбати якийсь продукт (товар, послугу, ідею), а часом, щоб просто полазити по сайтах, в розрахунку наткнутися на що-небудь корисне або цікаве.У принципі, більшість з них можуть бути потенційними клієнтами нема кого сайту і здатні перетворитися на клієнтів реальних. Але охопити відразу весь ринок не представляється можливим.Маркетологи давно вивели правило - треба визначити цільову групу впливу і зосередити зусилля на роботі з нею, а не витрачати час, сили і кошти на відсів одного зерна з тонни лушпиння. Питання про цільову аудиторію гостро стоїть і при складанні текстового контенту[5].

Від того, наскільки вірно будуть визначені ознаки групи впливу і реалізована стратегія охоплення, залежатиме і кількість відвідувачів, і їх конверсійна здатність, і адекватність сприйняття інформації.

Тільки чіткість всіх дій дасть відчутний ефект. Орієнтація на цільовий сегмент дуже вигідна, оскільки забезпечує більш індивідуальний підхід і відповідно підвищену віддачу від вкладених коштів. У оптимізаційному секторі маркетингове дослідження допомагає залучити цільову аудиторію, а в конверсійному і іміджевому - дає зрозуміти, як саме скласти текст, щоб ця аудиторія з простих відвідувачів перетворилася на споживачів і шанувальників.

Людина заходить в магазин. Він має засоби і має намір придбати товар, але ще придивляється, коливається, вирішуючи в розумі складну задачу. Купити тут або пошукати ще? Може, вибрати іншу модель? Придбати зараз або почекати? Реалізація бажання залежить від безлічі факторів, і навіть цільової відвідувач аж ніяк не завжди здійснює купівлю тут же.Перш ніж зробити відповідальний крок назустріч своїм бажанням, людина збирає інформацію. Йому важливі відомості про компанію, про особливості пропонованих товарів, він читає тематичні статті і поради фахівців. У магазинах ці дані надаються кваліфікованими продавцями-консультантами, на сайтах - контентом. Але однією інформації мало, потрібно спонукання до дії. Цільовий відвідувач, як правило, вже в тій чи іншій мірі налаштований на прийняття пропозиції сайту - саме тому він набирав шукане ключове слово і заходив на цей сайт за посиланням. Його залишається тільки підштовхнути, але при цьому підштовхнути до такої дії, яке було б вигідно даного ресурсу. Адже потрібно, щоб людина купила товар саме в цьому магазині, а не пішов купувати його в іншу торгову точку, довідавшись всі переваги продукту.Важливо пам'ятати, що для високої конверсії відвідувачу потрібно не просто детальний опис пропозицій сайту, а ясна і чітка аргументація на користь цього вибору. Відвідувач повинен відчути власну вигоду від споживання продукту, відчути всі його достоїнства стосовно себе при тому, що вигода ця доступна лише на даному сайті. За своїм впливом SEO-тексти можна розділити на інформаційні, рекламні та агітаційні (піар, іміджеві). Таке розбиття дуже умовно, оскільки всі ці компоненти присутні в хорошому контенті, але в різній пропорції. Грамотний SEO-текст стає поштовхом для прийняття рішення про купівлю, чинником, що схиляє чашу терезів на користь певного бренду. Текст інформує, переконує, веде до певних висновків. Він впливає на декількох рівнях - логічному, емоційному, підсвідомому. Не можна сказати, що текст є основною спонукальною причиною деякого дії, але важливість хороших текстів складно переоцінити, як і важливість хорошої реклами. Інформаційно-логічна складова текстового контенту дозволяє забезпечити читача всіма необхідними даними по шуканої теми, розповісти про діяльність компанії, про переваги товару і способах його використання. Автор сайту видає саме ту інформацію і в такій послідовності, яка представляється йому найбільш вигідною. Читач аргументовано переконується в необхідності прийняти пропозицію саме цього ресурсу, у його корисності та унікальності. Емоційний вплив проявляється у створенні мовними засобами позитивного настрою читача, яке проектується на сам сайт і його пропозицію і сприяє реалізації поставленої мети, тобто перетворення відвідувача в споживача. Переконання на основі фактів і логіки в хорошому тексті підкріплюється підсвідомим впливом, яке формує неусвідомлену тягу до скоєння нема кого дії, прийняттю рішення. Добрий SEO-текст вселяє читачеві думку, вигідну автору ресурсу.

«Чорна» «Сіра» та «біла» пошукова оптимізація.

«Білої» пошуковою оптимізацією, як правило, називають стратегії і тактики, які узгоджуються з політикою пошукових систем, яка за замовчуванням увазі надання онлайн-користувачам «релевантного контенту». «Чорна» пошукова оптимізація відноситься до тактики, які ігнорують загальноприйняті домовленості етичної поведінки в мережі з метою досягнення своїх цілей або комерційних інтересів. Перевага правил пошукових систем перед іншими інтересами випливає з домінуючого положення пошуковиків, які знаходяться в середині процесу збору даних про веб-сторінці і їх передачі користувачам. Таке упереджене положення підтримується завдяки олігополії основних пошукових систем, невелика кількість яких обробляє більшість пошукових запитів, у той час як за більш високі місця в результатах запитів змагаються мільйони сайтів.З «чорної» пошуковою оптимізацією зазвичай пов'язують технічно складні тактики, а з «білою» - концентрування зусиль на якісному контенті. Однак тут є істотна накладка; небагато тактики, а може і взагалі ніякі, можуть бути однозначно класифіковані як погані або хороші. З точки зору користувача головним критерієм легітимності оптимізації є те, чи буде даний результат запиту відповідати його інтересам, в незалежності від того, яким чином досягнуті високі позиції. Більшість досвідчених професіоналів пошукової оптимізації вирішальним чинником все ж вважають умисел. Як правило, методи пошукової оптимізації, що вважаються «чорними», дають більш високі позиції документів швидше, в той час як ті, які вважаються "білими", сприяють створенню більш «живучого» рейтингу. Вибір того чи іншого підходу не є виключно справою особистої переваги фахівця з пошукової оптимізації, а ще залежить і від бізнес-моделі. Сайтам або сторінкам, що рекламує товари та послуги з коротким часом життя, підходять «чорні» методи, оскільки вони не втрачають від того, що «згорають», тобто привертають увагу адміністраторів пошукових систем, внаслідок чого повністю виключаються з пошукових індексів. (Це траплялося навіть з сайтами організацій-довгожителів, таких як автовиробники, коли їх консультанти з пошукової оптимізації діяли з надмірною ретельністю). "Сіра" оптимізація включає в себе методи, які офіційно не заборонені пошуковими системами, але їх використання може бути розцінене як неприроднє підвищення популярності сайту. Це збільшення к-сті ключових слів на сторінку, вставляння ключових слів в html-тег title, надмірне виділення ключових слів тегом h1. До сірої оптимізації також відносять створення дорвеїв без автоматичного редіректу (перенаправлення) відвідувачів на цільовий сайт. «Біла» пошукова оптимізація більше підходить сайтам, які пропонують продукти з довгим життєвим циклом. Воно також підходить академічним або державних сайтів, на яких, швидше за все, робота буде проводитися послідовно десятиліттями - такі сайти часто отримують високі і стійкі рейтинги на сторінках пошукових запитів просто завдяки тому, що публікують високоякісний контент певної тематики[6].

1.3 Пошукова система Яндекс

інформаційний програмний мережевий сайт

Пошукова система Яндекс індексує і здійснює пошук подальшим форматам документів: HTML, PDF, RTF, DOC, XLS. Варто також зазначити паралельний пошук Яндекс, який полягає в одночасному пошуку по основній базі та з інших сервісів. У них входять новини, картинки, відео, блоги, карти і маркет (платні рекламні оголошення). Результати паралельного пошуку можуть розташовуватися над результатами основного пошуку, праворуч від них і навіть всередині. Пошукова система Яндекс має не один, а цілу групу індексуючих роботів (табл. 1.1). Розпізнати їх молено через лог-файли веб-сервера по полю Useragent, IP-адреси роботів постійно змінюються, і здійснювати ідентифікацію по них недоцільно.

Таблиця 1.1. Індексуючі роботи системи Яндекс

User-agent

Назва

Mozilla/5.0(compatible;YandexBot/3.0)

основний індексуючий робот

Mozilla/5.0 (compatible;YandexBot/3.0; MirrorDetector)

Poбoт, визначающий дзеркала сайтів

Mozilla/5.0(compatible;YandexImages/3.0)

індексатор Яндекс Зображень

Mozilla/5.0 (compatible;YandexVideo/3.0)

індексатор Яндекс.Відео

Mozilla/5.0 (compatible;YandexMedia/3.0)

робот, що індексує мультимедійні дані

Mozilla/5.0 (compatible;YandexBlogs/0.99; robot)

робот пошуку по блогах, індексуючий коментарі постів

Mozilla/5.0(compatible;YandexAddurl/2.0)

робот, який звертається до сторінці при додаванні її через форму «Додати URL»

Mozilla/5.0(compatible;YandexFavicons/1.0)

робот, що індексує піктограми сайтів (favicons)

Mozilla/5.0 (compatible; YandexDirect/3.0)

робот, що індексує сторінки сайтів, що беруть участь у Рекламної мережі Яндекса

Mozilla/5.0 (compatible; YandexDirect/2.0; Dyatel)

«Простуківалка» Яндекс.Директа

Mozilla/5.0 (compatible;YandexMetrika/2.0)

робот Яндекс.Метрики

Mozilla/5.0 (compatible; YandexCatalog/3.0; Dyatel)

«Простуківалка» Яндекс. Каталогу

Mozilla/5.0 (compatible; YandexNews/3.0)

Основний індексуючий робот - індексує основний обсяг текстової інформації, розміщеної в мережі. Індексує HTML, а також інші типи документів, що містять текстові дані.

Робот, що визначає дзеркала сайтів, - т.н. «Дзеркальщик», визначає дзеркала веб-сайтів, у тому числі і як відображати веб-сайт, з «www» або без (наприклад, http://www.edu.ru або http://edu.ru). Апдейт дзеркальщик - облік змін, знайдених роботом, відбувається досить рідко, 1 раз в 1-2 місяця.

Індексатор Яндекс.Зображень - відповідає за індексацію картинок вІнтернет. Індексує всі популярні формати картинок. Алдейт відбувається в середньому раз на тиждень, іноді частіше.

Індексатор Яндекс.Відео - відповідає за пошук відео. Ранжування здійснює за рахунок аналізу тексту, навколишнього файл з відео на сторінці, а також популярністю ролика в блогах і т.д.

Робот, що індексує мультимедійні дані - індексує документи у форматі Adobe Flash (flv-файли)[7].

Робот пошуку по блогах, що індексує коментарі постів - спеціальний робот, що індексує пости в блогах. Як правило, самі записи в блогах після опублікування практично ніколи не змінюються, у відміну від списку коментарів, який постійно зростає. Мабуть, для того щоб не навантажувати основного індексуючему робота, і був створений розглянутий. Блоги, як правило, мають обмежений список «Движків» - платформ, на яких вони побудовані, і з визначенням, чи є конкретний сайт блогом, проблеми не виникає.

Робот, який звертається до сторінки при додаванні її через форму

«Додати URL» (http://webmaster.yandex.ru/addurl.xml) - при додаванні нового веб-сайту або документа через форму на сторінці Яндекс, відбувається звернення даного робота. відвідування основного індексуючему робота може зайняти від декількох днів до декількох місяців.

Робот, що індексує піктограми сайтів (favicons) - робот, індексуючий піктограми веб-сайтів, які потім відображаються поруч з посиланням у результатах пошуку.

Робот, що індексує сторінки сайтів, що беруть участь у Рекламній мережі Яндекса - робот, що індексує веб-сайти на яких показуються рекламні оголошення Яндекс (Яндекс.Директ).

«Простутвалка» Яндекс.Директа - робот, перевіряючий працездатність веб-сайтів, що розміщують на своїх сторінках рекламні оголошення Яндекс. Директ, а також веб-сайти, рекламуються в ньому.

Робот Яндекс.Метрики - робот, перевіряючий працездатність сторінок, на яких встановлено код Яндекс.Метрики (дозволяє аналізувати поведінку відвідувача на веб-сайті).

«Простуківалка» Яндекс.Каталогу - робот, перевіряючий на працездатність веб-сайти, розміщені в Яндекс.

Індексатор Яндекс.Новостей - спеціальний робот, що індексує часто оновлювані новинні ресурси, які беруть участь в проекті Яндекс.Новини (http://news.yandex.ru/).

Робот мобільних сервісів - інформації про це роботе на офіційному блозі Яндекс немає, але, судячи з назви, цей робот індексує wap-сайти.

Крім перерахованих, у 2005 році Яндекс запустив «швидкий робот » (далі - швидкоробот), який працює одночасно з основним індексуються і призначений для оперативного виявлення і індексації актуальних сторінок. За словами представників Яндекс швидкий робот використовує якусь інформацію про затребувані користувачами документах і на підставі цього знаходить нові й змінені сторінки, роблячи їх доступними в результатах пошуку протягом короткого часу. Це час вимірюється в хвилинах, а сторінки, виявлені бистророботом, молено визначити в результатах пошуку за позначці, коли документ був проіндексований (рис 1.3).

Рис 1.3 Сторінки, знайдені швидко роботом Яндекс

Для того щоб швидко робот відвідував веб-сайт, достатньо додавати по 1 новому, унікальному документом щодня.

Результати роботи будь-якого з перерахованих вище роботів, за винятком швидко робота і індексатора Яндекс. Новин, можна побачити лише після оновлення пошукової бази (т.зв. «апдейта»). Як правило, апдейти в Яндекс відбуваються 1-2 рази на тиждень. На сьогоднішній день вони діляться на два типи: текстові та посилальні. У першому випадку в основну базу, за якою відбувається пошук, додаються нові сторінки. При цьому, природно, дані з бази швидко робота видаляються і переходять у основну базу. Т.к. в основній базі оновлюються змінені і з'являються нові документи, змінюється і кількість посилань на веб-сайти. Ці номери даному етапі не враховуються, тобто не дають внесок у ранжирування посилань. У контрольний апдейт відбувається облік знайдених раніше посилань, без додавання в основну базу нових документів.

Методика вибору пошукових систем

Яку пошукову систему треба вибрати, щоб знайти необхідну інформацію? Це залежить від того, що саме і як користувач збирається шукати. В цьому випадку можна запропонувати такі рекомендації.

Для перегляду всіх серверів за певною темою скористатися каталогом Yahoo або Magellan (http://mckinley.com).

Для пошуку інформації на максимальній кількості серверів Інтернету скористатися AltaVista або InfoSeek[8].

Для знаходження повідомлень телеконференцій Usernet придатні AltaVista, InfoSeek або WebCrawler, а найкраще - спеціалізований сервер DejaNews (http://dejanews.com).

Щоб знайти важкодоступний документ, можна скористатися AltaVista.

Для знаходження відомостей про конкретний товар або продукцію - HotBot.

Для отримання максимальної кількості результатів - InfoSeek, AltaVista або спеціальний метасервер, наприклад, WebCrawler.

Для знаходження інформації на відомому сервері, вже оціненому незалежними фахівцями, - Magellan або Yahoo.

Для пошуків інформації російською мовою - використати спеціальний розділ сервера AltaVista або сервер Ремблер (http://www.rambler.ru).

Щоб знайти інформацію на сервері в одній з країн СНД, придатний пошуковий сервер Ремблер або каталог російських серверів за адресою http://weblist.ru;

Підвищення ефективності пошуку інформаційних ресурсів Інтернету.

Як краще працювати з пошуковими системами Інтернету?

Передусім треба пам'ятати, що складання запитів на пошук інформації - це свого роду мистецтво. Ідеальний запит видасть користувачу посилання тільки на ті сторінки, що йому потрібні. Просто грамотний запит може видати користувачеві кілька десятків сторінок, пошук серед яких виявиться не таким уже й складним.

Користувачу слід мати на увазі, що жодна пошукова система не в стані повністю індексувати всі сторінки і документи на всіх серверах Інтернету. Кожний пошуковий сервер проводить відбір і індексування сторінок за своїми власними правилами.

В ефективному пошуку інформаційних ресурсів Інтернету допомагають декілька правил.

1. Грамотне використання можливостей одного пошукового сервера може бути ефективніше, ніж звернення з тим самим запитом до великої кількості серверів.

Коли користувач вперше потрапляє на сторінки незнайомого пошукового сервера, слід в першу чергу прочитати його опис і правила користування, а також вивчити засоби і можливості пошуку. Однак не слід захоплюватися вивченням пошукових серверів; після деякої практики з'являються 2-3 улюблені сервери, що найповніше індексують сферу в Інтернеті, яка цікавить користувача.

2. У запиті слід використовувати ті слова, що точніше за все характеризують тему, яка цікавить користувача.

Вибір слів може ґрунтуватися на двох різних підходах:

- можна почати із загального запиту і поступово його конкретизувати, спостерігаючи за зміною результатів пошуку;

- можна почати з конкретного запиту і поступово його поширювати, відштовхуючись від найбільш важливих і специфічних слів.

3. Для більшості пошукових серверів має значення послідовність слів у запиті, тому найбільш важливі і характерні терміни треба розміщувати на початку запиту і додавати до них менш значущі терміни.

4. Фрази і словосполучення слід брати в лапки, оскільки в противному разі вони будуть сприйняті пошуковим сервером просто як набір ключових слів.

5. У запиті можна зазначати одне або кілька власних імен.

6. Рекомендується вживати синоніми - їх використання дозволяє не тільки поширити діапазон пошуку, а й надає більше ваги власне смисловій частині запиту.

7. Не рекомендується користуватися поширеними словами типу "комп'ютер", "інформація", "дані" тощо.

8. Багато пошукових систем припускають можливість використання в запитах логічних операторів "І" (AND), "або" (OR), "не" (NOT). Їх грамотне використання дозволяє зробити пошук надзвичайно точним і направити його саме туди, куди потрібно.

9. Якщо серед перших 20-30 посилань, отриманих від пошукового сервера, немає потрібного посилання, слід подумати про те, щоб радикально змінити набір ключових слів або скористатися іншим сервером.

10. Слід пам'ятати, що WWW-сторінка, на яку користувач потрапляє при першому підключенні до пошукової системи, найчастіше являє собою спрощений бланк запиту на пошук інформації. Щоб отримати доступ до найбільш потужних засобів опису, треба перейти на сторінку ускладненого пошуку (Advanced Search).

1.4 Пошукова система Google

Пошукова система Google (http://www.google.ru/) індексує і здійснює пошук за наступними форматам документів: HTML, PDF, RTF, DOC, XLS). Google на відміну від Яндекс використовує для індексування всього лише одного робота, User-agent якого - «Googlebot». Він також здійснює пошук за картинками і медіафайлам. Робот переходить за посиланнями, знаходячи в документах конструкції SRC і HREF формату HTML. Самостійно повідомити Google про новий сайт можна,використовуючи форму на сторінці http://www.google.ru/addurl.html. Google не має швидкоробота, але швидкість індексації Googlebot дуже висока, і нові документи з якісних веб-сайтів потрапляють в пошукову базу в Протягом декількох годин.

Google дозволяє переводити запит з російської мови на безліч інших і здійснювати пошук документів на різних мовах. Веб-сайт Google доступний у доменних зонах різних країн (. Ru,. Ua,. Com і т.д.), алгоритми яких мають свої відмінності. У даній роботі досліджується пошуковий алгоритм, розташований в домені www.google.ru.

Google (www.google.ru) - це найбільша пошукова система в світі з відвідуваністю приблизно 500,000 чоловік в день (рис.1.4). У відповідь на більшість запитів ця система видає набагато більш короткий список посилань, ніж, наприклад, Яndex (Yandex), але головне -- серед перших позицій цього списку майже завжди є точна відповідь на заданий запит. Відбувається це завдяки використанню для оцінки релевантності (ступені відповідності запиту) веб-сторінок (Web Page) технології PageRank.

PageRank -- це числова величина, яка характеризує «важність» сторінки в Google. Чим більше посилань на сторінку, тим вона стає «поважнішою». Крім того, «вага» сторінки А визначається вагою посилання, надісланого сторінкою B. Таким чином, PageRank -- це метод розрахунку ваги сторінки шляхом підрахунку важності посилань на неї. PageRank є одним з допоміжних факторів при ранжируванні сайтів в результатах пошуку. PageRank не єдиний, але дуже важний спосіб визначення положення сайту в результатах пошуку Google[9].

Рис 1.4 Українська пошукова машина Google

Пошукова система Google може знаходити інформацію 101 мовою. Google наприкінці серпня 2004 року складалась з 132 тис. машин, розташованих в різних точках планети. Інтерфейс Google містить досить складну мову запитів, що дозволяє обмежити область пошуку окремими доменами, мовами, типами файлів тощо.

1.5 Ранжування сайтів пошуковими системами

Сутність ранжирування

Ранжування являє собою сортування (розстановку) сайтів у видачі пошукових систем, яка відбувається на основі найбільшого їх відповідності конкретним запитом. Процес ранжирування сайтів відбувається наступним чином:

· Пошукова система приймає запит від інтернет-користувача;

· Підбирає найбільш релевантні сторінки (документи) по даному запиту зі свого індексу;вибудовує сайти, що містять релевантні сторінки,

· по найбільшому відповідністю конкретним запитом - тобто ранжує їх.

Позиція сайту з того чи іншого пошуковому запиту залежить від алгоритму ранжирування пошукової системи. При цьому важливо враховувати позитивні і негативні фактори, які зможуть більш точно відобразити об'єктивні результати. Ранжування відбувається постійно, при кожному запиті користувача при зверненні до пошукової системи. При ранжируванні, розташування сайту на тій чи іншій позиції обумовлено багатьма факторами,які враховують пошукові машини. Згідно з тим, що різні пошукові машини, мають різні алгоритми роботи, то і ранжування сайтів в них буде виконуватися по різному. Кожна пошукова система має власний закритий набір факторів ранжирування і алгоритми їх обробки. При цьому йде постійне коректування алгоритму з метою поліпшення результатів видачі[10].

Тим не менш, аналітично встановлено ряд факторів, безумовно, роблять вплив на ранжирування сайтів пошуковими системами, як зовнішніх, так і внутрішніх.До внутрішніх факторів ранжирування, на які власник сайту може впливати самостійно, можна віднести:

· добре складені заголовки;

· правильно підібрані ключові фрази;

· грамотний (з точки зору SEO) текст;

· правильний код сторінки;

· заповнені мета-теги;

· правильна внутрішня перелінковка;

· вік домену;

· назва домену;

· зона домену;

· назви сторінок сайту;

· регіон сайту;

· оновлюваності сайту;

· кількість зовнішніх посилань сайту;

· і т.д.

До зовнішніх факторів ранжирування відносяться:

· ВІЦ сайту;

· pagerank сайту;

· trustrank сайту;

· pagerank сайтів, що посилаються;

· trustrank сайтів, що посилаються;

· ТІЦ сайтів, що посилаються;

· посилальна маса сайту;

· якоря посилань;

· наявність в трастових каталогах;

· і т.д.

Рис. 1.5 Еволюція факторів ранжирування пошукових систем

Внутрішні чинники ранжирування

Добре складені заголовки. Title є найважливішим елементом сторінки з точки зору пошукової оптимізації. Грамотно скласти тег заголовка досить важке завдання, адже необхідно дотримати баланс між наповненням його ключовими словами і збереженням читабельності, адже саме він буде відображатися користувачу в результатах пошуку, та до того ж ще допустима довжина складає всього 68 символів, включаючи пробіли (це означає, що заголовки більшої довгі не будуть індексуватися далі 68-го символу).

Правильно підібрані ключові фрази. Дуже важливим чинником є правильне складання семантичного ядра сайту (ключових слів). Це є найважливішим кроком в оптимізації сайту, адже грамотно підібрані ключові фрази дозволять потрапити на хороші позиції у видачі навіть у дуже конкурентних областях. Грамотний (з точки зору SEO) текст. Текст повинен обов'язково мати включення ключових слів, тегів емоційного виділення (<strong> і <em>), але важливо дотримати тонкий баланс між нестачею і перенасиченістю, адже по обидві сторони лежать небезпеки, з одного - не релевантність, а з іншого - санкції за пошуковий спам.

Правильний код сторінки. HTML і CSS коди сторінок повинні бути валидни. Код повинен бути правильним з точки зору SEO (заповнені атрибути alt і title тегів img, найбільш важлива інформація якомога вище на сторінці і т.д.)[11].

Заповнені мета-теги. Багато хто вже не звертають уваги на теги опису сторінки description і keywords, хоча при грамотному складанні вони можуть вплинути на пошукову видачу.Правильна внутрішня перелінковка. Текст сторінки повинен бути не просто текстом, а саме гіпертекстом, складеним за канонами SEO.Вік домену. Прямим чином впливає на ранжирування сайтів.

Назва домену. Ключове слово в назві домену дозволяє збільшити релевантність просуває сторінки.Зона домену. Робить деякий вплив на індексацію сайтівНазви сторінок сайту. Ключове слово, використане в назві сторінки сайту, дозволяє отримати певний бонус релевантністю продвигаемому запитом.Регіон сайту. Впливає на видачу. У різних регіонах різні результати пошуку.

Зовнішні чинники ранжирування

ВІЦ сайту. Зважений індекс цитування - показник авторитетності ресурсу для Yandex.Pagerank сайту. Ранг Пейджа (один з творців алгоритму Google) - показник ранжирування Google.Trustrank сайту. Рівень надійності ресурсу. Сильно впливає на видачу і на вагу, переданий зовнішніх посиланнях. Молодому сайту отримати практично неможливо.

Pagerank сайтів, що посилаються. Чим вище PR посилається сайту, тим більшу вагу передається посиланням.Trustrank сайтів, що посилаються. Аналогічно.ТІЦ сайтів, що посилаються. Тематичний індекс цитування Yandex'a - не впливає на видачу, але впливає на вагу, переданий зовнішніми посиланнями.Посилальна маса сайту. Кількість і якість посилань, які має сайт. Наприклад безліч посилань зі спамових ресурсів можуть завдати шкоди, в той час як одна єдина посилання з трастового ресурсу може сильно вплинути на позиції сайту в самому гарному сенсі.Якоря посилань. Необхідно для визначення релевантності сайту. Цілком можливо зробити сайт релевантним певному запиту засчет одних лише зовнішніх посилань (тобто само ключове слово не зустрічатиметься в тексті взагалі).

Наявність в трастових каталогах. Наявність в таких каталогах, як ЯК або DMOZ може сильно вплинути на ранжирування сайту.

Ранжування сайту - одна з причин, які змушують враховувати web-майстрів всі ці фактори. Якщо правильно виконати всі умови, які враховують у своїй роботі пошукові машини, то при ранжируванні сайтів, вони будуть піднімати Ваш ресурс на верхні позиції і може бути незабаром він увійде в десятку сайтів на першій сторінці пошуковика. Виконувати оптимізацію і враховувати фактори ранжирування краще пошуковою системою Yandex - він дає більшу частину трафіку в порівнянні з іншими пошуковими машинами.

1.6 Пошукові машини. Алгоритм роботи

Як насправді працює пошукова машина, і принцип роботи її алгоритмів на 100% не знає ніхто, навіть творці пошукових систем. Однак деякі постулати алгоритму роботи пошукових машин таки відомі, на які потрібно спиратися в першу чергу при виконанні пошукової оптимізації сайту.

Вся робота пошукових машин спрямована на спрощення пошуку інформації в Інтернеті, яку запитує користувач, і видачу сайтів містять дану інформацію, найбільш релевантну запитом. Тобто іншими словами алгоритми роботи пошукових машин, створені не для самих пошукачів, а для подачі якісної інформації користувачам системи. Це правило потрібно враховувати завжди і не намагатися займатися обманом пошукових машин, при створенні web-сайтів.

Робота пошукової машини в цілому виконується набором певного виду програм. У кожної програми "машини шукачі", є своя певна задача, яку вона повинна виконувати. Давайте розглянемо, як працює пошукова машина, розбираючи окремо її компоненти.

Павук (спайдер) - є пошуковим роботом, який переміщається по сторінках сайтів і займається скачуванням нових сайтів або їх оновлень, в базу пошукової машини. Павук не розрізняє і не читає графіком, флеш і скрипти, які використовую web-майстри при створенні сайтів. Пошуковий робот бачить тільки код сторінок, відповідно наповнюючи сторінки банерами і анімацією, Ви тим самим погіршує її індексацію. Мандрівний павук (краулер) - назва говорить сама за себе, подорожуючи по мережі, виконує функцію шукачі. Відстежує появу нових сайтів і сторінок і повідомляє павуку-спайдеру про появу нового документа, який необхідно занести в базу пошукової системи. Відіграє одну з важливих ролей у роботі пошукової машини. Для того, щоб краулер знайшов Ваш сайт, необхідно повідомити йому про нього. Повідомити можна, або шляхом реєстрації в пошуковику, або установкою посилання веде на Ваш сайт на проіндексований ресурсі - підійде каталог сайтів[12].

Індексатор - спеціальна програма, яка грає також чималу роль у роботі пошукової машини. Шляхом аналізу сторінок, визначає релевантність і тематична відповідність змісту сторінки, деяким пошуковим запитам. Алгоритми роботи індексатора в кожній пошуковій машині відрізняються один від одного, але мета у них одна.

Архів або база пошукової машини - тут розміщуються всі сторінки сайтів, які були проіндексовані і знайдені павуками. Робота пошукової машини зводиться до виявлення з цієї загальної бази даних, найбільш релевантного запиту сайту.

Сервер пошукової машини - тут треба розуміти, що пошукова машина працює одночасно з декількома тисячами запитами і сайтами, щодня перелопачуючи небачені обсяги інформації. Відповідно пошуковики розташовуються на найпотужнішому сервері, який дозволяє за частки секунди виконувати запити декількох тисяч користувачів одночасно. Такі сервера забезпечують стабільну роботу пошукової машини.

Алгоритм роботи пошукової машини полягає в наступному.

Ви задаєте слово або фразу в пошукову форму на сайті пошукача, не має значення, на якому з них Rambler'e, Yandex'e або ін, тим самим, даючи команду пошуковій машині на обробку запиту.

Пошуковик у свою чергу порівнює збіг запиту з ключовими словами, які укладені в мета-теги сторінок, а також збіг назви сторінок із заданим запитом.

Пошукова машина, зробивши вибірку найбільш релевантних сайтів, видає їх список користувачеві. Виконує ранжування сайтів або іншими словами розподіл позицій, згідно відповідністю та цінності інформаційного вмісту сторінок, заданий користувачем запит.

Швидкість роботи пошукової машини, залежить від кількості оброблюваної інформації. Чим більше вона буде завантажена, тим довше Вам доведеться чекати індексації сайту. Період між знаходженням сайту пошуковою машиною і занесенням його в свою базу даних, становить від двох днів до декількох місяців.


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.