Главная База знаний "Allbest" Программирование, компьютеры и кибернетика Дослідження методів оптимізації розташування посилань на інформаційні ресурси у мережевих пошукових системах та розробка програмного забезпечення

Дослідження методів оптимізації розташування посилань на інформаційні ресурси у мережевих пошукових системах та розробка програмного забезпечення

Оптимізація розташування посилань на інформаційні ресурсах у мережевих пошукових системах за допомогою спеціальних вірно обраних ключових слів. Розробка програмного забезпечення SEO-системи для тестування і читання RSS каналів відвідувачами сайту.

Рубрика	Программирование, компьютеры и кибернетика
Вид	дипломная работа
Язык	украинский
Дата добавления	14.06.2013
Размер файла	2,3 M

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

Після того як сайту буде виявлено і пошукова машина виконає індексацію сторінок Вашого сайту, він з'явиться в базі каталогу, і буде займати позиції при видачі користувачеві відповідно до своєї релевантністю запитом.

Для того, щоб робота пошукової машини відповідала тому заради чого вона була зроблена, їй доводиться постійно зазнавати зміни алгоритмів. Розробники постійно вносять оновлення для зміни тих чи інших параметрів роботи пошукача, що в свою чергу створює додаткові труднощі вweb-майстрам. Коли змінюється алгоритм роботи пошукової системи, невідомо на які позиції відлетить Ваш сайту, на верхні або ж опуститься нижче. Тому web-майстрам при зміні алгоритму роботи пошукача, доводиться міняти вміст і структуру сайту, тим самим, підлаштовуючись під ці оновлення.

2. Розробка пошукової моделі

2.1 Опис процесу зміни рейтингу сайту пошукових машини математичних моделій

Розглянемо систему S, що має n можливих станів: s1, s2,... si,... sj,... sn. Нехай для будь-якої пари станів si, sj відома інтенсивність лij (t) пуассонівського потоку подій, що перекладає систему S з будь-якого стану si в будь який інший стан sj (i ? j); будемо вважати цю інтенсивність рівною нулю, якщо безпосередній перехід зі стану si в стан sj неможливий. Позначимо pi (t)-ймовірність того, що в момент t система знаходиться в стані si (i = l, 2,..., n). Тепер додамо t прирощення Дt і знайдемо ймовірність рi (t + Дt) того, що в момент t + Дt система буде перебувати в стані si. Позначимо це подія A: A = {S (t + Дt) = si}.

Ця подія може відбутися двома способами: або відбудеться подія В, яке у тому, що в момент t система вже була в змозі si і за час Дt не вийшла з цього стану; або відбудеться подія С, яке у тому, що в момент t система була в одному з сусідніх станів sj, з яких можливий перехід в si (лij (t) ? 0), і за час Дt перейшла із стану sj в si.

Очевидно, А = В + С. Знайдемо ймовірності подій В і С. Згідно з правилом множення ймовірностей ймовірність події В дорівнює ймовірності p_i(t) того, що система в момент t була в стані s_i, помноженої на умовну ймовірність того, що за час Дt вона не вийде з цього стану, тобто в сумарному потоці подій, виводять систему зі стану s_i, чи не з'явиться жодної події. Так як сумарний потік подій, що виводить систему зі стану s_i, як і всі його складові - пуассоновский з інтенсивністю, яка дорівнює сумі інтенсивностей доданків потоків:

(2.1)

то умовна ймовірність того, що на ділянці часу Дt з'явиться хоча б одна подія, дорівнює (наближено)

(2.2)

а умовна ймовірність протилежної події дорівнює.

(2.3)

Таким чином,

(2.4)

Знайдемо тепер ймовірність події С. Уявімо його у вигляді суми несумісних варіантів

(2.5)

де підсумовування поширюється на всі стани sj, з яких можливий безпосередній перехід в si (тобто для яких лij (t) ? 0). Події Сj, в силу ординарності потоків, можна вважати несумісними.

За правилом додавання ймовірностей

(2.6)

За правилом множення ймовірностей

(2.7)

(2.8)

(2.9)

Таким чином,

(2.10)

Віднімаючи з (2.10) pi (t) отримаємо приріст функції на ділянці (t, t + Дt)

(2.11)

ділячи приріст функції на прирощення аргументу Дt і спрямовуючи Дt до нуля, отримаємо в межі похідну функції pi (t):

(2.12)

Перша сума в правій частині формули (2.2.6) поширюється на ті значення j, для яких можливий безпосередній перехід зі стану s_j в s_i (тобто для яких л_ji ? 0), а друга - на ті значення j, для яких можливий безпосередній перехід з s_i в s_j (тобто л_ij (t) ? 0.

Таким чином, ми отримали для ймовірностей p_i(t) систему звичайних диференціальних рівнянь (2.12) з змінними (у загальному випадку) коефіцієнтами. Ці рівняння називаються рівняннями Колмогорова (по імені академіка А. М. Колмогорова, який запропонував такий метод аналізу марковських процесів з дискретними станами і безперервним часом)[13].

Систему диференціальних рівнянь (2.12) вирішують при початкових умовах, які задають ймовірності станів у початковий момент при t = 0

(2.13)

причому для будь-якого моменту часу t виконується нормувального умова

(2.14)

Це випливає з того, що в будь-який момент t події

(2.15)

утворюють повну групу несумісних подій. Нормувального умова (2.14) можна використовувати замість одного (кожного) з диференціальних рівнянь (2.9).

При складанні системи диференціальних рівнянь (2.9) зручно користуватися розміченим графом станів системи, де біля кожної стрілки, що веде з стану s_i в стан s_j, варто інтенсивність л_ij(t) пуассонівського потоку подій, що перекладає систему зі стану s_i в s_j. Якщо л_ij (t) = 0, ні стрілка, ні відповідна інтенсивність на розміченому графі не ставляться.

Для визначення констант необхідно зібрати статистичні дані і необхідно розробити програму, збирає й обробляє ці дані[14].

2.2 Графи станів рейтингу сайту, види станів, ймовірності станів

Для опису процесів зміни стану популярності сайту ми будемо користуватися теорією випадкових процесів, а точніше Марківський процес з дискретними станами.

Строго кажучи, в природі не існує абсолютно не випадкових, в точності детермінованих процесів, але є процеси, на хід яких випадкові чинники впливають так слабо, що при вивченні явища ними можна знехтувати. Існують і такі процеси, де випадковість відіграє основну роль. Між цими двома крайніми випадками лежить цілий спектр процесів, в яких випадковість відіграє більшу чи меншу роль. Враховувати (або не враховувати) випадковість процесу залежить також і від того, яку практичну задачу ми вирішуємо.

Випадковий процес, що протікає в будь фізичній системі S, являє собою випадкові переходи системи зі стану в стан. Стан системи може бути охарактеризоване за допомогою якихось чисельних змінних; в простому випадку - однієї, а в більш складних - кількох.

Розглянемо фізичну систему S, в якій протікає випадковий процес з дискретними станами:

s₁, s₂,... s_i,..., (2.16)

число яких звичайно (або лічильно). Стану s_i, s₂,... можуть бути якісними (тобто описуватися словами) або ж кожне з них характеризується випадковою величиною (або випадковим вектором).

Насамперед, розглянемо безліч станів (2.16) з точки зору його структури - можливості системи S переходити зі стану si в даний стан sj безпосередньо або через інші стани. Для цього зручно користуватися наочною схемою, так званим графом станів.

Є дві основні різновиди графів: неорієнтовані і орієнтовані. Неорієнтовані граф - сукупність точок (вершин графа) з з'єднують деякі з них відрізками (ребрами графа). Орієнтований граф - це сукупність точок (вершин) з з'єднують деякі з них орієнтованими відрізками (стрілками).

Надалі будемо користуватися тільки орієнтованими графами.

Вершини графа будуть відповідати станам системи. Вершину будемо зображати прямокутником, в який вписано позначення стану; стрілка, яка веде з вершини s_i у вершину s_j, буде позначати можливість переходу системи S зі стану s_i в стан s_j безпосередньо, минаючи інші стани. Стрілки графа можуть зображуватися не тільки прямолінійними, а й криволінійними відрізками.

Якщо прив'язувати вищеназвану систему до пошукової оптимізації сайту, то можна отримати наступну картину: система S буде являти собою власне сайт, а його можливі стану s₁, s₂,... s_i,... це знаходження сайту в будь-якому «топі популярності», наприклад топ 5, топ 10, топ 50 і т.д. Граф станів зображений на рис. 2.1. Будемо вважати далі, що перехід системи S зі стану s_i в стан s_j здійснюється миттєво і що в будь-який момент часу система може перебувати тільки в одному зі своїх станів.

Рис 2.1. Рейтінги сайтів

Проведемо деяку необхідну для подальшого класифікацію станів.

Стан si називається джерелом, якщо система S може вийти з цього стану, але потрапити в нього назад вже не може, тобто на графі станів у стан si не веде жодна стрілка. На рис 2.2 стану s₁ і s₂ є джерелами.

Рис.2.2 Джерела станів. Рис 2.3. Розвиток станів

Стан s_i називається кінцевим (або поглинаючим), якщо система S може потрапити в цей стан, але вийти з нього вже не може. Для графа станів це означає, що зі стану s_i не веде жодна стрілка (для графа, зображеного на рис. 2.3, стану s₄ і s₇ - поглинаючі; для графа станів сайту, зображеного на рис. 2.1, поглинаючих станів немає; у графа, побудованого на рис. 2.2, поглинаючі стану також відсутні)[16].

Якщо система S може безпосередньо перейти зі стану s_i в стан s_j, той стан sj називається сусіднім по відношенню до стану s_i. Якщо система S може безпосередньо перейти зі стану s_i в стан s_j і зі стану s_j в стан s_i, то стану s_i, s_j називаються сусідніми. На графі станів нашого сайту всі стани можна вважати сусідніми, тому що сайт може переміститися, наприклад, з «топа 50» і в «топ 10», і в «топ 5» або стати непопулярним сайтом.

Стан s_i називається транзитивним, якщо система S може увійти в цей стан і вийти з нього, тобто на графі станів є хоча б одна стрілка, ведуча в s_i, і хоча б одна стрілка, яка веде з s_i. На рис. 2.2 всі стани є транзитивними; на рис. 2.3 всі стани, крім джерел s₁, s₅ і поглинаючих s₄, s₇, транзитивні.

При аналізі випадкових процесів, що протікають в системах з дискретними станами, важливу роль відіграють ймовірності станів.

Позначимо S(t) стан системи S в момент t.

Імовірністю i-го стану в момент t називається ймовірність події, що складається в тому, що в момент t система S буде в змозі s_i; позначимо її p_i (t):

p_i (t) = P {S (t) = s_i}, (2.16)

де S (t) - випадковий стан системи S в момент t.

Очевидно, що для системи з дискретними станами s₁, s₂,.... s_i,... в будь-який момент t сума ймовірностей станів дорівнює одиниці:

(2.17)

як сума ймовірностей повної групи несумісних подій.

У ряді завдань практики нас цікавить так званий сталий або стаціонарний режим роботи системи, який у ній встановлюється, коли від початку процесу пройшло досить великий час.

У деяких випадкових процесах після досить великого часу встановлюється стаціонарний режим, під час якого стану системи хоча і змінюються випадковим чином, але їх ймовірності p_i(t) (i = 1,2,...) залишаються постійними.

Позначимо ці постійні ймовірності р_i:

(2.18)

Імовірності p_i (i = l, 2,...), якщо вони існують, називаються фінальними (граничними) ймовірностями станів. Фінальну ймовірність p_i можна витлумачити як середню частку часу, яку в стаціонарному режимі проводить система S в змозі s_i.

Введемо дуже важливе для подальшого поняття марковского випадкового процесу.

Випадковий процес, що протікає в системі S з дискретними станами s₁, s₂,..., s_i,..., називається марковским, якщо для будь-якого моменту часу t₀ ймовірність кожного з станів системи в майбутньому (при t> t₀) залежить тільки від її стану в сьогоденні (при t = t₀) і не залежить від того, коли і як вона прийшла в цей стан; тобто не залежить від її поведінки в минулому (при t <t₀). Не треба розуміти Марківське властивість випадкового процесу як повну незалежність «майбутнього» від «минулого»; немає, в загальному випадку «майбутнє» залежить від «справжнього», тобто ймовірності p_i(t) при t> t₀ залежать від того, в якому стані s_i знаходиться система в теперішньому (при t = t₀); саме ж це «справжнє» залежить від «минулого», від того, як вела себе система S при t <t₀. Це можна сформулювати таким чином: для марковского випадкового процесу «майбутнє» залежить від «минулого» тільки через «справжнє». При фіксованому «справжньому» умовні ймовірності всіх станів системи в «майбутньому» не залежать від передісторії процесу, тобто від того, коли і як система S до моменту t0 прийшла в стан s_i.

Марківські процеси з дискретними станами і дискретним часом мають порівняно мало додатків, так як досить рідко на практиці моменти можливих переходів системи S зі стану в стан заздалегідь відомі і фіксовані. Набагато типовіше випадок, коли переходи системи зі стану в стан можуть відбуватися не у фіксовані моменти t₀, t₁, t₂..., а у випадкові моменти.

На практиці досить рідко зустрічаються марковські процеси в чистому вигляді, але досить часто - процеси, які з тим або іншим наближенням можна вважати марковскими.

Для подальших міркувань нам треба такі поняття, як потік подій, інтенсивність потоку і потік подій без післядії. Потоком подій називається послідовність однорідних подій, що з'являються одне за іншим у випадкові моменти часу. Потік подій називається потоком без післядії, якщо ймовірність попадання будь-якого числа подій на одну з ділянок часу не залежить від того, скільки їх потрапило на інші.

Інтенсивністю (густиною) потоку подій в момент t називається наступна величина:

(2.19)

де X (t, Дt) - випадкове число подій, що потрапляють на елементарну ділянку (t, t + Дt);

M - математичне очікування.

Фізичний зміст інтенсивності л(t) потоку подій - це середнє число подій, що припадає на одиницю часу, для елементарної ділянки Дt, що примикає до t.

Нам буде зручно вважати, що переходи («перескоки») системи S зі стану в стан відбуваються під впливом якихось потоків подій. Як тільки відбулося перше після моменту t₀подія, перехід зі стану в стан здійснюється (подальші події потоку не враховуються ніяк). Відсутність післядії в пуассоновском потоці дозволить нам при фіксованому теперішньому (стан s_i системи в момент t) не піклуватися про те, коли і як система опинилася в цьому стані. Імовірність переходу системи S зі стану s_i, в якому вона перебувала в момент t, в стан s_j за елементарний проміжок часу Дt, що безпосередньо примикає до t, наближено дорівнює л_ij(t) Дt, де л_ij (t) - інтенсивність пуассонівського потоку подій, що перекладає систему з s_i в s_j. Якщо всі потоки подій, що переводять систему зі стану в стан, - пуассонівської і незалежні, то процес, що протікає в системі S, буде марковским. Якщо відомі всі інтенсивності пуассонівських потоків подій, що переводять систему зі стану в стан, то можна скласти диференціальні рівняння для ймовірностей станів. Про це і піде мова в наступній частині.

2.3 Моделі поведінки користувача при роботі з пошуковими системами

Найцікавішим під час проведення дослідження було отримати узагальнену модель поведінки користувачів при роботі з пошуковими системами, виражену в числовому вероятностном еквіваленті.

Спираючись на результати декількох обчислень, в яких ми використовували різні математичні моделі, ми отримали ряд коефіцієнтів ймовірностей для позицій в результатах пошуку. Ці коефіцієнти в узагальненому вигляді можна представить наступними графіками:

Особлива модель поведінки користувачів при роботі з «Рамблером» формується через те, що «Рамблер» за замовчуванням виводить на екран 15 результатів пошуку, а не 10, як інші пошуковики.

Графік показує усереднену ймовірність кліка з тієї чи іншої позиції. Використовувати наведені на графіках дані для підрахунку трафіку було б невірним, оскільки діапазон коливання значень ймовірності кліка дуже великий у порівнянні з самої величиною ймовірності кліка з тієї чи іншої позиції.

У наступних розділах покажемо, які параметри і наскільки сильно впливають на модель поведінки користувача при роботі з пошуковими машинами.

Рис 2.4. Графік розподілу ймовірності кліка по позіціям пошукових систем Яндекс і Google

2.4 Видимість або трафік

Раніше компанією Enquiro research було опубліковано дослідження розподілу уваги користувачів пошукових систем, проведене компаніями Did-it, Enquiro і Eyetools в 2005 році. У результаті цього дослідження були отримані коефіцієнти розподілу уваги по поверхні екрану при роботі з пошуковими системами:

· 1, 2 і 3-а позиції - коефіцієнт 1

· 4-я позиція - 0,85

· 5-а позиція - 0,6

· 6 і 7-я позиція - 0,5

· 8 і 9-я позиція - 0,3

· 10-я позиція - 0,2

Привівши коефіцієнти усередненого розподілу імовірності кліків по позиціях в пошуковій видачі до одиничної шкалою, ми отримали наступні графіки:

Рис 2.5 Графіки розподілу імовірності кліків по позиціях в пошуковій видачі.

Очевидно, що графік розподілу ймовірності кліка не відповідає даним про розподіл зон уваги користувача при роботі з результатами пошукової видачі. Причиною тому - ряд психологічних факторів, які впливають на рішення натиснути на ту чи іншу посилання у видачі.

До таких факторів можна віднести те, що:

зниження довіри до результатів видачі у середньостатистичного користувача Інтернет не співпадає з розподілом його уваги по позиціях, так як результати роботи пошукових систем користувачами, швидше за все, оцінюються як незалежний рейтинг. А все, що знаходиться в рейтингу, заслуговує на увагу, незалежно від того, на першої, п'ятої, або десятій позиції знаходиться сайт. Тобто основну увагу користувача прикута до перших п'яти результатів пошуку, але ймовірність кліка по позиціях розподілена більш рівномірно. Іноді користувач робить кілька кліків за результатами пошуку, щоб порівняти різні пропозиції, особливо при введенні транзакційних запитів.

Люди, перед тим як клікнути на ту чи іншу посилання, читають текст посилань та анотації до них, і тільки потім приймають рішення про кліці, що суттєво може змінити картину розподілу уваги при роботі з пошуковою видачею і імовірностей кліків.

Залежність кількості трафіку від тематики

Припустивши, що розподіл імовірності кліків за результатами видачі залежно від того, до якої тематики відноситься запит, ми розділили досліджувані нами сайти на тематики. Всім запитам, за якими були зафіксовані переходи на ці сайти з пошукових систем, привласнили ті ж тематики, що і сайтам.

В результаті, розділивши запити на групи, ми отримали наступні графіки, найбільш наочно відображають вплив тематики на модель поведінки користувача при роботі з пошуковими системами:

Рис 2.6. Графік зміни вероятності кліка від тематики

Для кожної з наведеної на графіку тематики є запити, для яких розподіл ймовірності кліка має інший вигляд, але в цілому для обраних нами в дослідженні пошукових фраз графіки вірні.

З отриманих графіків добре видно, що ймовірність розподілу кліків за результатами пошукової видачі дуже сильно залежить від тематики запиту.

Помилки та обмани:

Для компаній, що замовляють послуги пошукової оптимізації, було б помилковим порівнювати одержуваний ними трафік з результатами сайтів з інших тематик і робити висновки про якість роботи оптимізаторів.

Експерти рекомендують:

Для коректного порівняння ми рекомендуємо зробити оцінки ймовірностей кліка користувача для свого сайту і, користуючись отриманими даними, проводити порівняння зі своїми конкурентами, що працюють в тій же тематиці. Враховувати потрібно і інші параметри, що формують модель поведінки користувача пошукових систем, які розглянуто нами нижче[17].

Вплив якості сниппета на розподіл ймовірності пошукових систем

Тематики є важливим, але не єдиним фактором, що впливає на розподіл ймовірності кліків користувачів в пошукових системах. Ми припустили, що ще одним таким чинником є коротка анотація в результатах пошуку до посиланням на сайт - сниппет.Спираючись на відхилення від усередненої статистики кліків в одній і тій же тематиці, ми вибрали трохи менше ста запитів для різних сайтів при оцінці причин відхилень. Нами було виявлено, що більшість відхилень, перш за все, пов'язано з якістю сніпетів.Оцінку сніпетів в результатах пошуку ми проводили вручну, так як їх вплив на прийняття рішення про кліці по посиланню суб'єктивно. Ймовірність кліка дуже сильно залежить від емоцій, що викликаються у користувачів пошукових систем тієї чи іншої анотації.

3. Дослідження особливостей seo моделі

3.1 Опис пошукових машин, математична модель

Терміни та визначення

Клік. Перехід користувача сайту по текстовому посиланню або банеру.

Контекстна пошукова реклама. Реклама, зміст якої залежить від запиту користувача до пошукової системи. Так як подібна реклама показується тільки тим, хто цілеспрямовано шукає інформацію на тему запиту, її ефективність набагато вище звичайної. CTR контекстної реклами становить 3-4%, але нерідко досягає і 30-40%. Подібна реклама забезпечує кращу конверсію відвідувачів в покупців.Пошукова машина. Також пошукова система, пошуковик - програмно-апаратний комплекс, призначений для здійснення пошуку в Інтернеті і реагує на запит користувача, що задається текстової фразою, видачею набору посилань на сторінки і сайти, ідповідного запиту (на думку пошукової машини).

Пошукова оптимізація. Також просування сайту, оптимізація сайту, пошукова оптимізація, SEO - набір дій по зміні сайту і елементів зовнішнього середовища з метою отримання високих місць в результатах пошуку по заданих запитах.Результати пошуку. Також SERP (search engine result page). Сторінка, що видається пошуковою системою в якості відповіді на запит користувача і містить набір посилань на сторінки Інтернету, відповідні, на думку алгоритму пошукової машини, заданому запиту (релевантні йому).

Релевантність. Від англ. relevant - що відноситься до справи. Позначає відповідність знайденого документа запиту, зробленому користувачем пошукової системи.Сніппет. Від англ. snippet (фрагмент). Фрагменти тексту знайденої пошуковою машиною сторінки сайту, які показуються в результатах пошуку в якості опису (стислого реферату) сторінки.CTR. Від англ. Click Through Ratio. Відношення числа кліків по рекламному матеріалу або посиланні до числа їх показів відвідувачам. Виражається у відсотках.SEO. Від англ. Search engines optimization. Див Пошукова оптимізація.Інформаційні запити. Запити, вводячи які, користувач хоче знайти певну інформацію, при цьому не піклуючись про те, де саме він її виявить (наприклад, «як лагодити міксер»).Навігаційні запити. Запити, вводячи які, користувач шукає в Інтернеті певне місце, сайт, де, як він вважає, міститься цікава йому інформація (наприклад, «сайт компанії Самсунг»).Транзакційні запити. Запити, вводячи які, користувач у самому формулюванні питання демонструє свою готовність зробити якусь дію або зацікавленість у ньому (наприклад, «купити міксер Самсунг»).

Навіщо і як проводилося дослідженняГоловне питання для замовників пошукової оптимізації - «Як оцінити якість наданої послуги?». Суть цього питання - проблема ефективності витрат на пошукову оптимізацію, а також виявлення проблем та шляхів їх вирішення.Цей же питання не менш актуальне і складний для самих оптимізаторів. Їм важливо переконати своїх клієнтів у тому, що надані ними послуги оптимальні для них і найбільш вигідні. Один з ключових критеріїв якості SEO-послуг - кількість переходів користувачів Інтернету з пошукових машин.У даній статті ми поділимося з читачами даними, отриманими нами в результаті дослідження імовірнісних моделей поведінки користувачів при роботі з пошуковими системами[18].

У дослідженні ми використовували щотижневу статистику по 15 000 пошуковим запитам в трьох найбільш популярних в Рунеті пошукових системах («Яндекс», «Рамблер», Google) для 5500 сайтів, які склали 58 000 пар сайт-запит.Для дослідження нами були відібрані навігаційні запити, що склали 80% від загального числа фраз, і 20% транзакційних запитів. Інформаційний тип запитів не враховувався. При цьому слід зазначити явно виражену приналежність відібраних запитів до певних тематиках, що вплинуло на побудову графіків середнього CTR в результатах пошуку.

Дані по трафіку були взяті з відкритої статистики Liveinternet.ru. Дані по позиціях ми отримали з сервісу www.seorate.ru.

Цілі дослідження:

Порівняння популярності ряду тематик в різних пошукових системах.

Виявлення закономірностей у розподілі трафіку по позиціях пошукової видачі.Визначення впливу анотацій (сніпетів) на модель поведінки користувачів при роботі з пошуковою видачею.Визначення впливу популярності запитів на зміну моделі поведінки користувачів при роботі з пошуковими системами.Для отримання результатів використовувалися різні методи математичної статистики і лінійної алгебри.Ми сподіваємося, що результати дослідження допоможуть замовникам SEO-послуг правильно оцінювати обсяг трафіку, одержуваний сайтом в результаті пошукової оптимізації. Читачі також зможуть зрозуміти, у що найбільш ефективно вкладати бюджети, виділені на просування, і як вибирати найбільш оптимальну стратегію просування свого ресурсу.Звіт про результати дослідження розділений на параграфи, в кінці кожного з яких наведена типова помилка планування або аналізу SEO-компанії, а також рекомендації експертів щодо правильного застосування описаних у параграфі даних[19].

Популярність пошукових систем.

Багато знайомі зі статикою популярності пошукових систем, вона фігурує в ряді статей на сайтах і в журналах.

Нижче наведена статистика популярності пошукових систем в Росії, надана Liveinternet.ru за липень 2007 року (рис. 3).

Більшість замовників послуг пошукової оптимізації в Україні, спираючись на дані цієї статистики, ставлять перед оптимізатором метою поліпшення позицій сайту тільки в «Яндексі». Але чи так вірно вважати, що весь Рунет підпорядкований усередненим і узагальненими даними, а більша частина пошукового інтернет-трафіку створюється тільки «Яндексом»?

Рис 3.1. Популярність пошукових систем.

Проаналізуємо трафік, що йде з пошукових систем за різними запитами. Спираючись на дані лічильника Liveinternet.ru по пошуковим фразам і тематик, ми побачили, що багато тематики та запити в них не підпорядковуються загальній статистиці.Наведемо приклади декількох запитів і тематик, де популярність пошукових систем має зовсім інший вигляд, ніж у загальній статистиці:

Рис 3.2. Популярність для ювелірних прикрасах

Рис 3.3. Популярність для ізвесніх особистостей, що згадуються в пресі.

Рис 3.4. Популярність разлічніх тематик в пошукових системах.

3.2 Рішення багатокритеріальної задачі за допомогою генетичних алгоритмів

З часів першої основоположною роботи Розенберга кінця 60-х років минулого сторіччя, що стосується можливості використання пошуку, заснованого на генетичних алгоритмах, стосовно до безлічі цільових функцій, ця область досліджень (зараз також відома як еволюційна багатокритеріальна оптимізація) значно розрослася. На це вказує значне збільшення (головним чином за останні 15 років) технічних статей у спеціалізованих журналах, спеціальних секцій на міжнародних конференціях і дослідників, які цікавляться даним питанням в Інтернеті.Але варто відзначити, що найбільш бурхливо розробки в сфері багатокритеріальної оптимізації генетичними алгоритмами ведуться за кордоном, внаслідок чого більша частина робіт не доходить до російських фахівців, а про досягнення в цій галузі можна судити лише по нечисленних закордонним (в основному англомовним) публікаціям, які поширюються переважно за допомогою мережі Інтернет.

Основні принципи еволюційної теорії

За допомогою еволюції природа постійно оптимізує все живе, знаходячи часом самі неординарні рішення. З першого погляду неясно, за рахунок чого відбувається цей прогрес, однак йому є наукове пояснення. Дати це пояснення можна, грунтуючись всього на двох біологічних механізмах - природного відбору і генетичного спадкування.Ключову роль в еволюційній теорії грає природний відбір. Його суть полягає в тому, що найбільш пристосовані особини краще виживають і приносять більше потомства, ніж менш пристосовані. Основний же закон спадкування заснований на твердженні, що нащадки схожі на батьків. Зокрема, нащадки більш пристосованих батьків, швидше за все, будуть одними з найбільш пристосованих у своєму поколінні.Отже, еволюція - це процес постійної оптимізації біологічних видів. Природний відбір гарантує, що найбільш пристосовані особини дадуть досить велике потомство, а завдяки генетичному спадкоємства ми можемо бути впевнені, що частина цього потомства не тільки збереже високу пристосованість батьків, але буде володіти і деякими новими властивостями. Якщо ці нові властивості виявляться корисними, то з великою ймовірністю вони перейдуть і в наступне покоління. Таким чином, відбувається накопичення корисних якостей і поступове підвищення пристосовності біологічного виду в цілому. У результаті зміни поколінь, зрештою, виробляється таке рішення поставленої задачі, яке вже не може бути далі поліпшено. Знаючи, як вирішується завдання оптимізації видів у природі, дослідники стали застосовувати схожий метод для вирішення різних реальних завдань.За аналогією з природною еволюцією, в генетичних алгоритмах кандидати-рішення називаються індивідами, а безліч кандидатів-рішень - популяцією. Кожен індивід визначає можливе рішення задачі, при цьому, однак, сам по собі він не є вектором рішень, а швидше кодує його, грунтуючись на відповідній структурі подання рішення. У генетичних алгоритмах ця структура визначається вектором - вектором бітів або вектором дійсних чисел - набором генів, що утворюють хромосоми. Також можуть бути й інші види структури, наприклад, представлення у вигляді дерев як в генетичному програмуванні. Безліч всіх можливих векторів утворює простір індивідів . Тоді, згідно з прийнятою термінології, популяція - є безліч векторів, або точніше мультімножество векторів , тому що воно може містити кілька ідентичних індивідів.У процесі селекції, який може бути як стохастичним, так і детермінованим, гірші рішення - непристосовані індивіди - видаляються з популяції, в той час як індивіди з більшою придатністю - найбільш пристосовані - піддаються репродукції. Мета полягає в тому, щоб посилити пошук в певних областях пошукового простору і збільшити середню «якість» всередині популяції. Якість індивіда при вирішенні задачі оптимізації визначається скалярним значенням, так званої придатністю. Зауважимо при цьому, що, так як якість індивіда визначається на підставі значень цільових функцій, перш ніж обчислити його придатність, попередньо індивід повинен бути декодована, отриманий його фенотип. Ця ситуація показана на малюнку 1: спочатку маємо індивіда (генотип), далі, використовуючи декодуючий алгоритм, за допомогою функції із витягується вектор-рішення (фенотип); застосовуючи до виходить відповідний цільовий вектор, на основі якого призначається придатність індивіда .

Рекомбінація і мутація націлені на виробництво нових рішень за допомогою зміни існуючих рішень в межах простору пошуку. Оператор рекомбінації породжує певне число дітей за допомогою схрещування певного числа батьків. Щоб зімітувати стохастичну природу еволюції, оператор рекомбінації асоційований з ймовірністю схрещування.

Рис. 3.5 - Взаємозв'язок між простором індивідів простором рішень і критеріальним простором

На відміну від нього, оператор мутації модифікує індивідів за допомогою зміни незначних частин відповідних їм векторів згідно заданого ступеня мутації. Обидва ці оператора (мутації і рекомбінації) працюють безпосередньо з індивідами (їх генотипами), тобто діють у просторі індивідів, а не з декодувати векторами рішень (фенотипами індивідів).Заснована на представлених вище концепціях природна еволюція моделюється ітеративним обчислювальним процесом. Спочатку випадковим чином (або грунтуючись на заданій схемі) створюється початкова популяція, яка є стартовою точкою еволюційного процесу. Далі певну кількість разів повторюється цикл, що складається з кроків оцінювання (призначення придатності), селекції, рекомбінації і / або мутації. Кожна така циклічна ітерація називається поколінням і, найчастіше, заздалегідь визначене максимальну кількість поколінь служить критерієм зупинки всього циклу. Крім цього, критерієм зупинки можуть служити і інші умови, такі як стагнація або існування індивіда з задовільною придатністю. Зрештою, кращий індивід (індивіди) в результуючій популяції або знайдений протягом всього еволюційного процесу є результатом еволюційного алгоритму.

Таким чином, генетичний алгоритм - це проста модель еволюції в природі, реалізована у вигляді комп'ютерної програми. У ньому використовуються як аналог механізму генетичного наслідування, і аналог природного відбору. При цьому в спрощеному вигляді зберігається основна біологічна термінологія:

- хромосома - вектор (послідовність) з нулів та одиниць, кожна позиція (біт) якого називається геном. Індивід визначається генетичним кодом - набором хромосом, а його фенотип представляє варіант рішення задачі;

- схрещування - операція, при якій дві хромосоми обмінюються своїми частинами;

- мутація - випадкова зміна однієї або декількох позицій у хромосомі;

- пристосованість індивіда - значення цільової функції на цьому індивіді (його фенотипі);

- відбір в генетичному алгоритмі - це процес формування нової популяції зі старої, після чого стара популяція гине. Після відбору до нової популяції знову застосовуються операції схрещування і мутації, потім знову відбувається відбір, і так далі;

- життєвий цикл популяції - це кілька випадкових схрещувань і мутацій, в результаті яких до популяції додається якась кількість нових індивідів;

- виживання найбільш пристосованих індивідів проявляється в тому, що популяція наступного покоління формується відповідно до цільової функцією. Чим приспособленнее індивід, тим більше ймовірність його участі в рекомбінації, тобто в розмноженні.

Варто також відзначити ще 2 механізму, застосування яких в генетичних алгоритмах відіграє велику роль - це «розробка» (exploitation) і «дослідження» (exploration). «Розробка» забезпечує знаходження оптимального рішення поблизу елітарного (кращого) рішення. А за допомогою «дослідження» оптимальне рішення може бути знайдено в будь-якій частині пошукового простору. У однокритерійним оптимізації генетичними алгоритмами «дослідження» здійснюється на ранніх стадіях пошуку, а «розробка» - на пізніх. Інакше йде справа в генетичних алгоритмах, вживаних при багатокритеріальної оптимізації. Тут і механізм «дослідження», і механізм «розробки» повинні бути представлені протягом всієї процедури пошуку.«Розробка» - це процес використання інформації, отриманої раніше при перегляді точок пошукового простору, для визначення регіонів простору пошуку, які було б корисно відвідати ще. Сходження на «пагорб» - приклад використання механізму «розробки», так як при цьому досліджуються близькі в просторі пошуку точки і подальший пошук здійснюється в напрямку, що дає найбільше збільшення функції придатності. Застосування механізму «розробки» ефективно при знаходженні локальних оптимумів. У генетичних алгоритмах в якості механізму «розробки» використовується схрещування.«Дослідження» - процес перегляду абсолютно нових регіонів простору пошуку, щоб виявити можливі багатообіцяюче області. На відміну від механізму «розробки», «дослідження» має на увазі скачки в невідомі регіони пошукового простору. Прикладом використання механізму «дослідження» може служити випадковий пошук. Завдання з безліччю локальних оптимумів іноді можуть бути вирішені тільки із застосуванням механізму «дослідження» у вигляді локального пошуку. У генетичних алгоритмах в якості механізму «дослідження» використовується мутація.Отже, генетичний алгоритм імітує еволюцію популяції як циклічний процес схрещування і / або мутації входять до неї індивідів, а також зміни поколінь. Модель відбору визначає, яким чином слід будувати популяцію наступного покоління. У будь-якому випадку кожне наступне покоління буде в середньому краще попереднього. Коли пристосованість індивідів перестає помітно збільшуватися, процес зупиняють і як рішення задачі оптимізації беруть найкращого зі знайдених індивідів.

3.3 Методи розв'язання багатокритеріальної задачі за допомогою генетичних алгоритмів

Генетичний алгоритм, застосовуваний для вирішення конкретного завдання, повинен складатися з наступних основних компонентів:

1. Представлення потенційних рішень задачі.

2. Способ, яким створюється початкова популяція можливих рішень.

3. Функции оцінки рішень, яка грає роль зовнішнього середовища, визначальна рішення в сенсі їх придатності.

4. Генетіческіе оператори, які змінюють склад дітей (нащадків).

5. Значенія різних параметрів, які використовуються генетичним алгоритмом У багатокритеріальних генетичних алгоритмах за основу береться загальний еволюційний алгоритм складається з представлених основних компонентів. Але при розробці конкретних методів вирішення багатокритеріальних завдань генетичними алгоритмами упор робиться на модифікацію етапів призначення придатності та селекції з підтриманням різноманітності популяції, які будуються на підставі підходів,

У магістерській роботі досліджувалися 4 методу, що реалізують різні схеми призначення придатності та селекції, про яких і піде мова далі:

1. VEGA - Vector Evaluated Genetic Algorithm;

2.FFGA - Fonseca and Fleming's Multiobjective Genetic Algorithm;

3.NPGA - Niched Pareto Genetic Algorithm;

4.SPEA - Strength Pareto Evolutionary Algorithm.

Метод VEGA (vector eveluted genetic algorithm)

Метод VEGA, який вперше був запропонований в 1984 році Шафером, відноситься до категорії селекції за перемикав цільовим функцій. У цьому методі селекція виробляється для кожного з критеріїв окремо, тим самим проміжна популяція заповнюється рівними порціями індивідів, відібраних по кожному з критеріїв.

Призначення придатності та селекція в методі VEGA:

Вхідні дані: (поточна популяція).

Вихід: (проміжна популяція).

Крок 1: покласти = 1, і = 0.

Крок 2: для кожного індивіда, , обчислити

Крок 3: для

вибрати індивіда , використовуючи вибраний механізм селекції, грунтуючись на значенні придатності за даним критерієм, і скопіювати його в

: = +

Крок 4: покласти

= +1

Крок 5: якщо , перейти на крок 2, інакше - результуюча проміжна популяція.

Розглянутий механізм селекції. Таким чином, для кожного з критеріїв створюється подпопуляція розміром , де - розмір всієї популяції, куди індивіди відбираються за допомогою пропорційної селекції щодо придатності за кожним критерієм окремо, а потім всі подпопуляціі змішуються для отримання популяції знову розміром . Далі, як звичайно, здійснюються етапи 4 (схрещування) та 5 (мутація) згідно зі схемою загального еволюційного алгоритму.

Метод FFGA (finseca and fleming's multiobjective genetic algorithm)

Метод FFGA (1993) являє собою засновану на Парето-домінуванні процедуру ранжирування індивідів, де ранг кожного індивіда визначається числом домінуючих його індивідів.

'Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Рис. 3.6. Механізм селекції в методі VEGA.

Призначення придатності в методі FFGA:

Вхід: (популяція).

Вихід: (значення придатності).

Крок 1. Для кожного індивіда обчислити його ранг

Крок 2. Відсортувати популяцію згідно з рангами . Призначити кожному індивіду допомогою інтерполяції від кращого індивіда до гіршого сиру придатність , тобто кращому індивіду призначається сира придатність = а гіршого () - сира придатність = 1.

Крок 3. Обчислити значення придатності для кожного індивіда за допомогою усереднення і ділення сирої придатності між індивідами, що мають однаковий ранг:

- Індивіди, що мають однаковий ранг , - кількість індивідів, що мають ранг r. Ділення придатності здійснюється в критеріальною просторі.

Метод FFGA реалізує лише схему призначення придатності, а для відбору індивідів у наступне покоління використовується процедура турнірній селекції з розміром турніру = 2, яка здійснюється на підставі отриманих значень придатності кожного індивіда,

На рис. 3.6 представлені гіпотетична популяція і відповідні ранги індивідів, призначені згідно розглянутої схемою методу FFGA. Індивіди, чиї відповідні рішення недомініруемих щодо всієї популяції, мають ранг 1, у той час як найгірший індивід, домінованих усіма членами популяції отримує ранг 10.

Размещено на http://www.allbest.ru/

Рис. 3.7. Механізм селекції в методі FFGA.

У цьому методі використовується поняття придатності, але, на відміну від придатності в алгоритмі VEGA, вона призначається не для кожного критерію окремо, а для індивіда в цілому і визначається не значеннями цільових функцій, а рангом кожного індивіда в популяції, який у свою чергу заснований на понятті домінування[20].

Метод NPGA (niched pareto genetic algorithm)

Третій даний у роботі метод - NPGA (1994) - принципово відрізняється від двох попередніх, тому що в ньому закладено механізм підтримки різноманіття (діє в критеріальною просторі). Метод NPGA являє собою комбінацію турнірній селекції та концепції домінування по Парето.

Призначення придатності та селекція в методі NPGA:

Вхідними даними для цього методу є:

(Популяція),

(Радіус ніші),

(Тиск домінування - кількість індивідів у порівняльному безлічі).

Вихід: (проміжна популяція).

Крок 1. Покласти = 1 і проміжну популяцію = 0.

Крок 2. Вибрати двох індивідів і порівняльне безліч, що складається з випадково обраних індивідів популяції.

Крок 3. Перевірити умову: якщо недомініруем відносно, а доминируется індивідами порівняльного безлічі, то переможцем турніру є індивід:

Крок 4. Інакше, якщо недомініруем відносно, а - домінуємо, то переможцем турніру стає індивід:

Крок 5. Якщо переможець турніру не визначився, турнір дозволяється діленням загальної придатності:

а) обчислити кількість індивідів у частково заповненою проміжної популяції, які знаходяться від індивіда на відстані, що не перевищує радіус ніші

; Проробити те ж для індивіда.

б) якщо, то

=+, інакше =+

тобто, якщо кількість індивідів, близьких до індивіда більше, ніж кількість індивідів, близьких до індивіда, то в проміжну популяцію переходить--ий індивід, інакше там виявляється індивід. Останньою процедурою і забезпечується різноманітність популяції.

Крок 6. Покласти

=+1

Якщо, перейти на крок 2, інакше стоп.

На рис. 4.4 проілюстрований механізм Парето турніру: зіставлення 2-х індивідів популяції з порівняльним безліччю індивідів. Учасник турніру, позначений сірої точкою, є його переможцем, так як на відміну від іншого учасника, закодований вектор даного індивіда не домінують представниками порівняльного множини.

Размещено на http://www.allbest.ru/

Рис 3.8. Порівняльні множини

У розглянутому методі не використовується поняття придатності як таке, а етап призначення придатності замінюється модифікованої схемою розподілу придатності з використанням поняття ніш, які визначаються для індивідів у просторі цільових функцій.

Метод SPEA (Strength Pareto Evolutionary Algorithm)

Метод SPEA (1998) в корені відрізняється від розглянутих раніше методів, так як в ньому [23]:

- для призначення індивідам скалярного значення придатності використовується концепція Парето домінування;

- індивіди, недомініруемих щодо інших членів популяції, зберігаються зовні в спеціальному зовнішньому безлічі;

- для зменшення кількості індивідів, що зберігаються в зовнішньому безлічі, виконується кластеризація, що в свою чергу ніяк не впливає на придбані в процесі пошуку властивості індивідів.

Унікальність та переваги методу SPEA полягають в тому, що:

- він поєднує вищеперелічені підходи в одному алгоритмі;

- придатність кожного індивіда популяції в даному методі визначається тільки щодо індивідів зовнішнього безлічі, незалежно від того, домінують чи індивіди популяції один одного;

- незважаючи на те, що «кращі» індивіди, отримані в попередніх поколіннях, зберігаються окремо - у зовнішньому безлічі, всі вони беруть участь у селекції;

- а, для запобігання передчасної збіжності, в методі SPEA використовується особливий механізм утворення ніш, де поділ загальної придатності здійснюється не в сенсі відстані між індивідами, а на основі Парето домінування.

Процедура методу SPEA [23]:

Вхід: (розмір популяції),

- (Розмір зовнішнього безлічі),

- (Максимальне число поколінь),

- (Ймовірність схрещування),

- (Ймовірність мутації).

Вихід: (недомініруемих безліч).

Крок 1. Ініціалізація:

Створити початкову популяцію , згідно 1 етапу схеми загального еволюційного алгоритму, і пусте зовнішнє безліч . Покласти = 0.

Крок 2. Модернізація зовнішнього безлічі:

Покласти проміжне зовнішнє безліч .

а) скопіювати індивідів, чиї вектори рішень недомініруемих щодо

в :=+

б) видалити тих індивідів з, чиї відповідні вектори рішень слабо домінованих відносно, тобто, якщо існує пара з індивідами і , то

в) зменшити допомогою кластеризації (з параметрами і ) число індивідів, що зберігаються в зовнішньому безлічі, і помістити результуюче зменшене безліч в.

Крок 3. Призначення придатності:

Обчислити значення придатності індивідів в і.

Крок 4. Селекція:

Покласти = 0 і для

виконати:

а) випадковим чином вибрати двох індивідів

б) якщо, то

= +, Інакше

= + (У разі завдання мінімізації).

Крок 5. Рекомбінація:

Рекомбінація здійснюється згідно 4 етапу в схемі загального еволюційного алгоритму.

Крок 6. Мутація:

Мутація здійснюється згідно 5 етапу у схемі загального еволюційного алгоритму.

Крок 7. Закінчення:

Покласти і . Якщо або виконується якийсь інший критерій зупинки, тоді

- Є шукане недомініруемих безліч, інакше перейти на крок 2.

Основний цикл описаного алгоритму схематично зображений на рис. 3.8. Крок 1 не позначений на представленому малюнку, так як ініціалізація початкової популяції здійснюється один раз і є обов'язковим первинним етапом будь-якого еволюційного алгоритму. Далі, на початку кожної ітерації (Крок 2) відбувається модернізація зовнішнього безлічі _і його зменшення, якщо максимальний розмір був перевищений. Після цього відбувається оцінка індивідів з відносно індивідів зовнішнього безлічі для призначення індивідам популяції значень придатності (Крок 3). Наступний крок (Крок 4) представляє фазу селекції, коли відбираються індивіди з об'єднаного безлічі + для заповнення проміжної популяції (у даній схемі використовується турнірна селекція з видаленням індивіда, «переможеного» турнір). Нарешті, схрещування і мутація (Крок 5 і Крок 6) здійснюються як відповідні етапи загального еволюційно алгоритму.

Рис. 3.9. Основні кроки методу SPEA

Однак у схемі методу SPEA етап призначення придатності здійснюється не так, як у загальному еволюційному алгоритмі, а являє собою модифіковану процедуру, засновану на концепції Парето домінування. Поряд з цим етапом, механізм кластеризації, використовуваний для зменшення кількості індивідів в зовнішньому безлічі, також здійснюється за особливою схемою. Алгоритми покрокової реалізації обох процедур представлені нижче.

Призначення придатності в методі SPEA:

Вхід: (популяція),

(Зовнішнє безліч).

Вихід: (значення придатності).

Крок 1. Кожному індивіду присвоюється значення, зване «силою» індивіда (відображає придатність недомініруемих рішення), яке пропорційно кількості членів популяції, для яких:

Таким чином, придатність індивіда, що належить зовнішньому безлічі, дорівнює його «силі»: .

Крок 2. Придатність індивіда обчислюється за допомогою підсумовування «сил» всіх індивідів, що зберігаються в зовнішньому безлічі, чиї вектори рішень слабо домінують. До загального отриманого числа додається одиниця, щоб гарантувати, що індивіди зовнішнього безлічі мають кращу придатність, в порівнянні з індивідами з (тобто, чим менше придатність, тим у індивіда більше шансів перейти в наступне покоління):

, Де .

Щоб механізм ранжирування став більш зрозумілим, звернемося до рис. 3.9. П'ять недомініруемих рішень, позначених сірими точками, розбивають область критеріального простору на прямокутники. Кожна підмножина зовнішнього безлічі визначає один такий прямокутник, який представляє область в критеріальною просторі, яка в загальному домінується усіма векторами рішень в . Наприклад, на представленому малюнку світлий прямокутник в нижньому лівому кутку доминируется усіма векторами рішень у , в той час як верхній лівий світлий прямокутник доминируется тільки . Прямокутники тут розглядаються як ніші, а мета полягає в тому, щоб так розподілити індивідів за штучно створеної сітці, щоб прямокутники (темні), домінованих тільки кількома , містили більше індивідів, ніж прямокутники (світлі), домінованих великою кількістю індивідів з , а також два прямокутника (однаково забарвлені) повинні містити однакову кількість індивідів, якщо вони домінують рівною кількістю рішень. Цей механізм відображає ідею переваги індивідів, розташованих поблизу Парето-оптимального фронту і, в той же час, їх розподілу вздовж всього простору пошуку, що можна бачити на рис. 3.9. індивіди, зосереджені в світлих прямокутниках, уздовж недомініруемих точок, отримують кращу придатність, ніж залишилися члени популяції, а при видаленні від фронту Парето, придатність індивідів погіршується.

Размещено на http://www.allbest.ru/

Рис 3.10.Механізм селекції в методі SPEA.

Механізм кластеризації в методі SPEA:

Вхід: (зовнішнє безліч),

(Розмір зовнішнього безлічі).

Вихід: (модернізоване зовнішнє безліч).

Крок 1. Ініціалізувати безліч кластерів. Кожен індивід утворює окремий кластер:

Крок 2. Якщо, перейти на Крок 5, інакше перейти на Крок 3.

Крок 3. Обчислити відстані між усіма можливими парами кластерів. Віддаленість двох кластерів і один від одного визначається як середня відстань між парами індивідів, що належать цим кластерам:

де функція відображає відстань (у просторі цілей) між двома індивідами і .

Крок 4. Визначити два кластери і з мінімальним відстанню. Ці кластери об'єднуються в один більший за розміром кластер:

Перейти на Крок 2.

Крок 5. Для кожного кластера вибрати репрезентативного індивіда, а всіх інших індивідів з нього видалити. (Таким чином, репрезентативний індивід - це крапка з мінімальним середнім відстанню до всіх інших точок кластеру.) Визначити зменшене недомініруемих безліч шляхом об'єднання репрезентативних індивідів всіх кластерів:

При вирішенні деяких завдань, розмір множини Парето може бути досить значним і навіть містити нескінченне число рішень. Однак, з точки зору ОПР, знаходження всіх недомініруемих рішень, коли їх кількість перевищує розумні межі, є марним. Більше того, розмір зовнішнього безлічі впливає на поведінку методу SPEA. З одного боку, так як всі індивіди зовнішнього безлічі беруть участь в селекції, занадто велика кількість зберігаються зовні індивідів може зменшити селективне тиск і сповільнити пошук. З іншого боку, посилений механізм нішірованія грунтується на освіті так званої «сітки», яка визначається індивідами зовнішнього множини і, якщо індивіди з розкидані нерівномірно, представлений вище метод призначення придатності направить алгоритм в певні області пошукового простору, що, у свою чергу, призведе до незбалансованості в популяції. Тому, часом може бути необхідним і навіть обов'язковим зменшення розмірів зовнішнього безлічі, при збереженні його основних характеристик[21].

Страница:

дипломная работа "Дослідження методів оптимізації розташування посилань на інформаційні ресурси у мережевих пошукових системах та розробка програмного забезпечення" скачать

Подобные документы

Розробка інформаційного веб-сайту з використанням мови програмування PHP
Структура інформаційної системи веб-сайту. Узагальнена архітектура кластерної структури. Вимоги до хостингу. Встановлення та налаштування програмного забезпечення. Функція перенаправлення посилань. Система керування базою даних основного кластера.

дипломная работа [871,3 K], добавлен 02.07.2015
Проектування комп’ютерних систем реального часу
Аналіз системи збору первинної інформації та розробка структури керуючої ЕОМ АСУ ТП. Розробка апаратного забезпечення інформаційних каналів, структури програмного забезпечення. Алгоритми системного програмного забезпечення. Опис програмних модулів.

дипломная работа [1,9 M], добавлен 19.08.2012
Автоматизація процесів тестування програмного забезпечення
Проблеми процесу тестування програмного забезпечення. Розробка алгоритму автоматичної генерації тестів і тестового набору для ручного виконання. Побудова тестів для системи "Банкомат" і для баг-трекінгової системи, представленої графом із циклами.

дипломная работа [1,2 M], добавлен 26.02.2014
Розробка пакету автоматизованого тестування програмних застосувань на платформі IOS
Тестування програмного забезпечення як процес його дослідження для отримання інформації про якість. Автоматизація тестування програми Join It - Jigsaw Puzzle. Методика тестування, структура пакету та його модулів. Вимоги до програмного забезпечення.

дипломная работа [2,4 M], добавлен 24.07.2013
Основи реєстрації інтернет ресурсів в пошукових системах та каталогах
Принципи та особливості роботи пошукових роботів. Аналіз відмінностей каталогів від пошукових систем. Шляхи та параметри оцінювання обсягів індексації сучасних пошукових систем. Загальні рекомендації щодо додавання сайту до пошукової системи чи каталогу.

реферат [101,3 K], добавлен 18.11.2010
Розробка програмного забезпечення для косметичного салону
Етапи розробки проекту. Вимоги до апаратного і програмного забезпечення, до користувача. Специфікація та структура даних, які мають бути розміщеними в системі. Вигляд інтерфейсу системи програмного забезпечення. Розробка бази даних косметичного салону.

дипломная работа [1,8 M], добавлен 21.02.2015
Розробка програмного забезпечення комп'ютерної системи управління процесом випалювання будівельних матеріалів з використанням об'єктно-орієнтованого програмування
Класифікація об'єктно-орієнтованих мов програмування. Розробка алгоритмічного та програмного забезпечення комп'ютерної системи управління процесом випалювання будівельних матеріалів. Тестування програмного забезпечення, оцінка його ефективності.

курсовая работа [1,6 M], добавлен 25.04.2015
Розробка розподіленої інформаційно-навігаційної системи
Аналіз навігаційних технологій у сучасних AVL системах. Структура системи і вимоги до апаратного забезпечення, розробка алгоритмів функціонування окремих програмних модулів. Вибір мови програмування і СУБД. Тестовий варіант програмного забезпечення.

дипломная работа [1,8 M], добавлен 17.12.2015
Розробка мультимедійного web-сайту
Опис інформаційного забезпечення системи для розробки сайту. Технічне завдання на розробку web-сторінки. Комплект засобів, проектування та завантаження сторінок. Тестування сайту в різних браузерах. Розрахунок собівартості та ціни програмного продукту.

дипломная работа [1,8 M], добавлен 14.05.2012
Розробка програмного забезпечення системи збору даних про хід та параметри технологічного процесу
Розробка компонентів програмного забезпечення системи збору даних про хід технологічного процесу. Опис програмного забезпечення: сервера, що приймає дані про хід технологічного процесу, КОМ для його імітування, робочої станції для відображення даних.

курсовая работа [1,3 M], добавлен 20.11.2010

Другие документы, подобные "Дослідження методів оптимізації розташування посилань на інформаційні ресурси у мережевих пошукових системах та розробка програмного забезпечення"

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.

Дослідження методів оптимізації розташування посилань на інформаційні ресурси у мережевих пошукових системах та розробка програмного забезпечення

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

2. Розробка пошукової моделі

2.2 Графи станів рейтингу сайту, види станів, ймовірності станів

Для опису процесів зміни стану популярності сайту ми будемо користуватися теорією випадкових процесів, а точніше Марківський процес з дискретними станами.

Розглянемо фізичну систему S, в якій протікає випадковий процес з дискретними станами:

s1, s2,... si,..., (2.16)

Надалі будемо користуватися тільки орієнтованими графами.

Рис 2.1. Рейтінги сайтів

Проведемо деяку необхідну для подальшого класифікацію станів.

Рис.2.2 Джерела станів. Рис 2.3. Розвиток станів

При аналізі випадкових процесів, що протікають в системах з дискретними станами, важливу роль відіграють ймовірності станів.

Позначимо S(t) стан системи S в момент t.

Імовірністю i-го стану в момент t називається ймовірність події, що складається в тому, що в момент t система S буде в змозі si; позначимо її pi (t):

pi (t) = P {S (t) = si}, (2.16)

де S (t) - випадковий стан системи S в момент t.

Очевидно, що для системи з дискретними станами s1, s2,.... si,... в будь-який момент t сума ймовірностей станів дорівнює одиниці:

(2.17)

як сума ймовірностей повної групи несумісних подій.

Позначимо ці постійні ймовірності рi:

(2.18)

Введемо дуже важливе для подальшого поняття марковского випадкового процесу.

На практиці досить рідко зустрічаються марковські процеси в чистому вигляді, але досить часто - процеси, які з тим або іншим наближенням можна вважати марковскими.

Інтенсивністю (густиною) потоку подій в момент t називається наступна величина:

(2.19)

де X (t, Дt) - випадкове число подій, що потрапляють на елементарну ділянку (t, t + Дt);

M - математичне очікування.

Фізичний зміст інтенсивності л(t) потоку подій - це середнє число подій, що припадає на одиницю часу, для елементарної ділянки Дt, що примикає до t.

2.3 Моделі поведінки користувача при роботі з пошуковими системами

У наступних розділах покажемо, які параметри і наскільки сильно впливають на модель поведінки користувача при роботі з пошуковими машинами.

Рис 2.4. Графік розподілу ймовірності кліка по позіціям пошукових систем Яндекс і Google

2.4 Видимість або трафік

3. Дослідження особливостей seo моделі

3.2 Рішення багатокритеріальної задачі за допомогою генетичних алгоритмів

3.3 Методи розв'язання багатокритеріальної задачі за допомогою генетичних алгоритмів

Генетичний алгоритм, застосовуваний для вирішення конкретного завдання, повинен складатися з наступних основних компонентів:

1. Представлення потенційних рішень задачі.

2. Способ, яким створюється початкова популяція можливих рішень.

3. Функции оцінки рішень, яка грає роль зовнішнього середовища, визначальна рішення в сенсі їх придатності.

4. Генетіческіе оператори, які змінюють склад дітей (нащадків).

У магістерській роботі досліджувалися 4 методу, що реалізують різні схеми призначення придатності та селекції, про яких і піде мова далі:

1. VEGA - Vector Evaluated Genetic Algorithm;

2.FFGA - Fonseca and Fleming's Multiobjective Genetic Algorithm;

3.NPGA - Niched Pareto Genetic Algorithm;

4.SPEA - Strength Pareto Evolutionary Algorithm.

Подобные документы

s₁, s₂,... s_i,..., (2.16)

Імовірністю i-го стану в момент t називається ймовірність події, що складається в тому, що в момент t система S буде в змозі s_i; позначимо її p_i (t):

p_i (t) = P {S (t) = s_i}, (2.16)

Очевидно, що для системи з дискретними станами s₁, s₂,.... s_i,... в будь-який момент t сума ймовірностей станів дорівнює одиниці:

Позначимо ці постійні ймовірності р_i: