Пошукові механізми Web

Індексація веб-ресурсів, проблема індексації динамічних веб-сторінок, мультимедійних та графічних елементів. "Прихований Інтернет" та вдосконалення методів пошуку, на основі лінгвістичних технологій. Технічні складнощі Web та класифікація його ресурсів.

Рубрика Программирование, компьютеры и кибернетика
Вид реферат
Язык украинский
Дата добавления 10.08.2011
Размер файла 22,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Реферат

На тему: “Пошукові механізми Web ”

Львів 2011

План

1. Вступ

2. "Невидимий Інтернет"

3. Якісні зміни у Web-організації

4. Принципи пошуку в Інтернет

5. Інструменти Мета-пошуку

6. Критерії для знаходження якісного результату

7. Користувацька мова запитів

8. Засоби „розумного” пошуку

9. Пошук з використанням природної мови

10. Синтагматика

11. Вирази

12. Словозміни

13. Синонімічні та інші семантичні зв'язки

14. Часті мовні помилки

1. Вступ

Постійне зростання кількості веб-сторінок супроводжується помітним зниженням якості надаваної інформації (наприклад, копії інших сторінок, застаріла інформація, сторінки, які не містять корисної інформації, або є непридатними з іншої причини). Це є наслідком того факту, що кожний може створити свою власну сторінку і публікувати там будь-яку інформацію, часто таку, що не має цінності.

Збільшення кількості інформації в Інтернет очевидно вказує на невідповідність методів пошуку потребам користувача та змістовому вмісту. Це одна з причин недостатнього сприйняття новітніх інформаційних технологій частиною користувачів. Інтерфейс пошукових засобів викликає не сприйняття у звичайних користувачів, оскільки зазвичай вони створювалися програмістами для програмістів. Користувач не зацікавлений в інформації заради самої інформації, йому потрібна інформація, що розширює його знання, або для того, щоб прийняти певне рішення. Користувачі потребують інструментів для пошуку інформації, якими є:

Значимість - формально задовольняє запит користувача;

Правильність - забезпечує очікуваний результат.

2. „Невидимий Інтернет”

індексація мультимедійний графічний web пошук

Для індексації веб-ресурсів немає однаково придатного стандарту - це наслідок спеціального індексування авторами за допомогою різних пошукових засобів. Більшість пошукових засобів були розроблені для індексування HTML- сторінок, які містять сталий текст. Але сторінки, викладені в Інтернет, також містять елементи мультимедіа, такі як графіка, аудіо - та відео-файли. Дуже небагато засобів пошуку можуть індексувати такі сторінки. Більшість пошукових інструментів мають проблеми з індексуванням документів, збережених в іншому форматі, ніж HTML, наприклад, у PDF.

Багато сторінок в Інтернет створені динамічно - наприклад, як результат виконання запиту бази даних. Пошукові засоби не спроможні індексувати більшість таких сторінок. Більшість ресурсів Інтернет зберігаються у базах даних (напр. університетські, урядові, прес-архіви, адресна база даних).

Ще один тип інформації складається з інформації, яка передається в реальний час, вона існує тільки в даний момент - напр. передача потокового відео, чат-спілкування. Пошукові засоби також не здатні індексувати ресурси, доступні тільки для зареєстрованих користувачів.

Інтернет-ресурси, до яких неможливо дістатися через стандартні пошукові засоби (напр. Google і NetSprint ) називають „глибокими”, „прихованими”, або „невидимими” ресурсами. Вперше термін „невидимі інтернет-ресурси” використав Джил Елсворт в 1994 році[3].

Дослідження проведені в 2000 році BrightPlanet показують, що об`єм ресурсів в „Невидимому Інтернет” приблизно в 500 разів більший ніж на веб-сторінках і „Прихований Інтернет” зростає набагато швидше ніж видимий. Ресурси в „Глибокому Інтернеті” відрізняються від доступних на „нормальних” веб-сторінках. В „прихованому” Інтернеті розмір документів на 27% менший, 97,4% його ресурсів доступні без обмежень( 1,6% з частковими обмеженнями, 1,1% доступних тільки після реєстрації). Головною перевагою збирання інформації в „прихованому” Інтернет є її вища якість у порівнянні із „звичайними” веб-сторінками, причиною цього є те, що інформація, яка надається головним чином в базах даних, збирається і подається фахівцями у відповідних сферах.

Вдосконалені методи пошуку, на основі лінгвістичних технологій, поки що недостатньо ефективні у застосуванні для великої кількості веб-ресурсів.

3. Якісні зміни у веб-організації

Зараз поняття Web як однорідної, рівної сукупності мільярдів HTML- сторінок здається застарілим. Наукова спільнота працює над так званим Семантичним Web, яким має бути систематизований як добре організована база даних. XML запропонували як інструмент для структуризації Web і величезні кількості науково-дослідних робіт сконцентровані на цьому.

XML є доброю основою для стандартизації різноманітних змінних інформаційних протоколів, але має дуже обмежену модель даних. Недостатній семантичний базис XML створює ефект піраміди, що стоїть на своїй вершині - необхідно використовувати різні додаткові розширення. Ці розширення додають безладу до методів, які відносяться до Web, спричиняючи величезне (і необов'язкове) зростання термінології, концепцій і документації. Але незважаючи на це, обмеження залишаються. На думку автора XML не втримає своїх позицій, як головної технології управління вмістом системних механізмів баз даних. Комерційний світ має ілюзії щодо ролі XML, як моделі даних, XML залишиться тільки як інструмент обміну інформацією.

Технічні складнощі Web.

Однією з найважливіших проблем пов'язаних з Web є класифікація його ресурсів. Необхідний стандарт класифікації схожий на десяткову систему класифікації Дьюі (Dewey Decimal Classification (DDC)) . Такий стандарт має бути мовно-незалежний і підтримуваний засобами для автоматичного індексування Web-документів. Зараз кількість індексованих термінів сягає близько 50 000. можлива, варто створити міжнародні організації, які б працювали над стандартизацією індексованих термінів. У такому випадку, зважаючи на досвід роботи інших міжнародних нормувальних органів, слід очікувати різке збільшення кількості термінів.

Інші технічні проблеми:

- обмеженість у підтримці багатьох мов, критичність для B2B додатків (і, в меншій мірі, для B2C);

- малий вибір доступних методів комунікації, переключення до голосової комунікації і зниження використання клаітури, може піти на користь багатьох програмам, особливо при підключенні до Інтернет і мобільних телефонах; зараз автоматично розпізнається близько 5000 слів після певної підготовки;

- залежність від використовуваної інфраструктури (напр. пропускна здатність каналу зв'язку).

Інтернет-служби.

Більшість людей вважають Internet синонімом до веб-сторінок і протоколу HTTP (рис.1). На даний ж момент Internet має достатньо велику кількість інших служб, базованих на протоколі TCP/IP:

e-mail, електронні ЗМІ;

FTP, SFTP;

ICQ (і схоже програмне забезпеченя);

Telnet, SSH (Secure Shell);

WAIS;

IRC;

Gopher, Hyper G.

Більшість нових служб використовують HTTP як „транспортний протокол”. В будь-який момент може з'явитися цілком нова служба і захопити сектор ринку, який зараз монополізований WWW. Мережі P2P (Peer-to-Peer, „однорангові”) є якраз таким прикладом. За різними підрахунками від 40 до 60% загального інтернет-трафіку створено KaZaA [4] і схожими програмами (напр. Napster, Gnutella, Audio Galaxy, WinMX, Emule).

Важко не помітити розвиток VoIP (Voice-over-Internet Protocol) „ай-пі телефонія”. Наприкінці 2003 року тільки 2,5% телефонних ліній в компаніях використовували ІР протокол, цей відсоток еквівалентний 10 мільйонам телефонних ліній VoIP. Нові дослідження кажуть, що до кінця 2009 року цей відсоток досягне 40% -- близько 180 мільйонів. Це означає, що близько третини аналогових телефонів та ліній ISDN можуть зникнути. VoIP до кінцевих користувачів розповсюджується через кабель операторами кабельного телебачення чи через DSL-лінії, а також віртуальними операторами такими, як Skype чи Vonage. На початку 2004 року в Японії Yahoo!BB мав 3,6 мільйонів передплатників VoIP. Vonage в США - 115 тисяч. Skype має 400 тисяч активних користувачів

Адреси URL.

Будь-який з ресурсів Інтернет доступний під певною адресою URL(Uniform Resource Locator), яка складається з :

Імені користувача (логіна) та пароля;

Імені протоколу: http, ftp, wais , тощо,;

Адреси веб-сервера, чотиризначної ІР-адреси, яка зазвичай відповідає імені спеціального серверу перетворення імен, який називається DNS(Domain Name Server);

Номеру порту сервера, що використовується при з'єднанні;

Частини файлової системи чи доступного ресурсу на веб-сервері;

Певного файлу, чи імені ресурсу;

Списку параметрів, які належать додатку пов'язаного з іменем цього файлу.

Деякі з елементів пропущені, або існують по замовчуванню. Відношення між форматом файлу (зазвичай визначеним за його розширенням) і програмою встановлюється середовищем веб-сервера. Наприклад певний файл, названий „search.php”, активізує інтерпретатор PHP, який відшукає параметри і виконає програму вміщену в цьому файлі

Традиційні ІР-адреси завдовжки 4 байти і зараз вже закінчилися. Потенційно можна адресувати 2(в 32 степені) адрес - це близько 4 мільярдів серверів, але додаткові обмеження зменшують цю кількість. Нові ІР-адреси будуть завдовжки 6 байтів, що дозволить дати адресу кожному сантиметру на Землі. Новий протокол забезпечить набагато кращу безпеку і не конфліктуватиме зі старим 4-байтним протоколом.

4. Принципи пошуку в Інтернет

Величезні кількості Інтернет-ресурсів виявляє потребу у використанні пошукових механізмів. Тільки незначна кількість таких механізмів залишилась на ринку (Yahoo, AltaVista, Google, HotBot...) - це ті, які добре зарекомендували себе і мають велику кількість постійних користувачів. Спеціалізовані пошукові механізми сконцентровані на певній темі, або використовуються для пошуку певного типу інформації. Більшість механізмів пошуку шукають ключові слова в тексті, чи в його частині. Принцип роботи дуже простий, саме його простота необхідна для опрацювання таких величезних об'ємів даних. Надії додати якоїсь інтелектуальності процесу пошуку на даний момент є марними.

Ефективність сучасних методів пошуку постійно знижується через зростання кількості низькоякісної інформації в Інтернет і систематичного переходу великої кількості професіоналів в „прихований Інтернет”.

Користувач має кілька доступних методів отримання потрібної інформації:

Каталоги сторінок, списки певних тем;

Власні закладки і список посилань, які створені користувачем з певною метою, часто вони робляться доступними громадськості;

Різноманітні FAQ (загальні питання);

Запитання до тематичних Інтернет конференцій;

Читання інформації з домашніх сторінок інших користувачів;

Питання/запити відіслані за допомогою e-mail;

Пошук на спеціальних тематичних порталах, початкових сторінках;

Власні пошукові інструменти;

Використання платних послуг спеціальних компаній.

5. Інструменти Мета-пошуку

Через величезну (і постійно зростаючу) кількість веб-ресурсів, одинарний пошуковий інструмент спроможний індексувати лише частину - 30-40% видимих ресурсів. Один цикл „павука” зазвичай забирає багато днів (AltaVista - 10 днів) мільйони сторінок будуть застарілими на час завершення циклу, мільйони інших просто не будуть враховані. Інструменти Мета-пошуку використовують( зазвичай кілька) інших механізмів і зазвичай не мають власних баз даних. Запит надісланий на інструмент мета-пошуку відправляється на інші пошукові механізми, а отримані результати потім сумуються. Інструмент Мета-пошуку може встановлювати власний рейтинг для знайдених документів. Неоднорідна природа послуг, які надають різні пошукові механізми, брак стандартизації і необхідність створювати власні рейтинги для результатів - це проблеми, які розробники мета-пошуків мають вирішувати.

6. Критерії для знаходження якісного результату

Найпоширенішим критерієм, що використовується для визначення якості результатів є:

Інформаційний шум, небажана інформація, яка надається як результат неточного запиту і/або неточного механізму пошуку;

Втрата інформації, бажана інформація, яка не була надана в результаті неточного запиту і/або неточного механізму пошуку;

Відповідність, визначає ступінь, на який знайдена інформація формально задовольняє запит, може бути визначена, наприклад, статистикою користувацьких оцінок відповідності, які не беруть до уваги поточні інформаційні потреби;

Застосовуваність визначає ступінь, в якому знайдена інформація задовольняє поточні потреби користувача. інформація може бути відповідною, але, наприклад, неважливою - її не можна застосувати.

Ці критерії порівняно легко визначити.

7. Користувацька мова запитів

Кожний пошуковий механізм має мову запитів, в якій формуються запити користувача. Дуже часто це не „типові” мови, а розробляються для того, щоб бути дружніми для користувача. Можна сказати, що вони реалізовують графічну модель пошуку. Формалізована мова запитів є не дуже дружньою для користувача, і чим більш вона формалізована, тим менш дружньою вона стає. Більш формалізовані мови не обов'язково підвищують застосовуваність, але користувачів цікавить саме це. З іншого боку брак формалізованих мов запитів, на думку користувачів, часто спричиняє більший інформаційний шум і меншу застосовуваність інформації.

Мова запитів має задовольняти критерій виробничої ефективності:

Час пошуку, використання ресурсів;

Час і вартість, необхідні для розвитку системи, вартість операцій;

Якість послуг, яка дозволяє отримання прибутків.

8. Засоби „розумного” пошуку

Інтернет це дуже специфічна база даних [1]: Об'єкти мають дуже неоднорідну структуру, яка зазвичай не вказується. Навіть якщо вказується, об'єкти можуть містити помилки в своїй структурі;

Кількість і типи об'єктів постійно зростають;

Об'єкти відрізняються семантично і тематично, інформація може бути формально та змістовно не пов'язаною;

Об'єкти створюють специфічний семантичний Інтернет з гіперпосиланнями, семантичні значення можуть змінюватися;

Значення будь-якого об'єкта може бути визначене об'єктами, які до нього відносяться;

Існує велика кількість форматів документів (понад 200).

У той же час потенційний користувач Інтернет є дуже вимогливий [1]:

Він не є, і не бажає бути спеціалістом в області ІТ, він сприймає ІТ-жаргон, як незрозумілу балаканину;

Він ненавидить читати інструкції, „хелпи” та поради;

Він дуже добре усвідомлює (на думку ІТ-спеціалістів) свій рівень знань і очікує професійних відповідей на свої питання, але не наголошує на точності, формальності запитів;

Він сподівається на допомогу, якщо він зіткнеться з проблемами і дружнього відношення в комп'ютерній частині, за будь-якої ситуації;

Він не має терпіння на сотні документів, зазвичай він втратить терпіння після 10 документів, які не стосуються справи;

Він хоче отримувати адекватні результати швидко.

На думку фахівців в області штучного інтелекту, ці потреби вимагають включення інтелекту в пошукові засоби. Цього можна досягти, використовуючи такі механізми [1]:

Інформування користувача про важливість документу, наприклад надаючи автоматично створені короткі огляди, інші ключові слова, рейтинги якості (важливості);

Пристосування (за допомогою автоматичного навчання, персоналізації) до індивідуальних особливостей користувача;

Надання порад для подальшого чи альтернативного напрямку пошуку(напр. за допомогою виправлення правопису);

Взяття до уваги різної статистики і вимірів, для того, щоб використати інформацію про поведінку всієї сукупності користувачів, і визначити якісь моделі.

Фахівці зазначають, що для того, щоб задовольнити ці потреби, пошукові засоби мають бути оснащені механізмами автоматичного „розуміння” тексту і технікою „знаходження знань” - наприклад, алгоритми для класифікації і групування інформації. Інженери мають причини для скептицизму - історія показує, що розробники програмного забезпечення і спеціалісти у базах даних в більшості випадків створюють застарілі системи, тоді як плоди досліджень в області штучного інтелекту не прививаються швидко і легко, і часто ведуть до проблем із реалізацією.

9. Пошук з використанням природної мови

Пошук з використанням природної мови створює багато проблем у мовах з багатою морфологією, як в польській чи німецькій. Деякі з цих проблем не важливі для англійської мови. Головна перевага природної мови є в тому, що користувач знає її (чи думає, що знає) тому не має потреби вивчати її для складання запитів. Також ця мова дуже гнучка, дозволяючи вираження будь-якої інформації.

Природна мова має багато перешкод у використанні її як мови запитів:

Вона є невимушеною і неможливо формалізувати (особливо семантику) згідно наших поточних знань, це означає, що „автоматичне розуміння” тексту зараз практично неможливе і є виявом антропоморфізму;

Одна і та сама інформація може бути представлення в незліченній кількості способів, і це створює проблеми в автоматичному підборі;

Одна і та сама інформація різними особами може розумітися по-різному;

Ті самі слова, чи речення може мати різні значення, залежно від контексту і асоціацій у мозку одержувача.

10. Синтагматика

Синтагматичні відношення - це синтаксичні зв'язки між словами в тексті. Припустімо, що документ містить наступний фрагмент „солдат стріляє…” і „дівчина жмуриться”, якщо синтагматичні зв'язки не взяті до уваги, то запит „дівчина стріляє” відповідатиме цьому документу - а це помилка. Щоб взяти до уваги синтагматику необхідна індексація контексту, позиція індексу має бути описана сусідніми словами і фразами. Це збільшить точність пошуку, але треба зважати на критерії ефективності. В польській мові порядок слів і відстань між ними не завжди чітко обумовлена, так що необхідний простий евристичний критерій для визначення зв'язків.

Зараз багато пошукових засобів беруть до уваги синтагматичні зв'язки--напр. в Google синтаксичні зв'язки впливають на доречність результатів.

11. Вирази

Порядок слів часто має особливе значення, яке особливе, завдяки цьому порядку. Користувач може шукати інформацію на підставі почутого порядку слів. З цього випливає необхідність у представленні не просто окремих слів, а і послідовностей слів, які часто зустрічаються. Це спричинює складнощі: як ідентифікувати такі вирази, як автоматично організувати використання індексів для цих виразів, і як цим всім користуватись. Одним зі способів подолання цих труднощів є винайдення евристичних правил, які дозволять опрацьовувати порядок слів, як окремий елемент пошуку. В такому випадку і вираз і його елементи будуть індексованими позиціями.

В польській мові додатковими труднощами є невстановлений порядок слів наприклад ”zmaterializowana perspektywa” означає те саме, що і „perspektywa zmaterializowana” і вони вживаються рівнозначно.

12. Словозміни

Словозміни - це зміна форми слова, наприклад з допомогою відмінювання (приклад у польській мові: kot, kota, kotu, kotem, kotami).

Відпрацювати флексію поки що є найбільшою проблемою в розробці пошукових механізмів, особливо для польської мови, яка дуже багата на словозміни. Деякі слова можуть мати більш ніж 100 словоформ.

Пошукові засоби для англійської мови мають набагато менші проблеми, і у багатьох випадках можуть бути зменшені, якщо при індексуванні документу і побудові запиту відкинути закінчення -s чи -es.

В польській мові використання такого методу - видалення кількох елементів з початку чи кінця слова з простими формальними правилами, спричинить високий інформаційний шум, який є неприпустимим і може зробити посміховисько з нашого пошукового засобу.

13. Синонімічні та інші семантичні зв'язки

В природній мові є різні семантичні зв'язки між словами чи виразами, які є незалежними у їхньому використанні в тексті. Найбільш поширеним типом зв'язку є приєднання значеннєвих областей слова: напр. „сільськогосподарська машина” - „трактор”. Якщо слово „трактор” є індексованим, і запит користувача шукає „сільськогосподарська машина” чи поєднає механізм пошуку ці два поняття?

Іншим важливим семантичним зв'язком є керування - зв'язок поняття і певного об'єкта який описує це поняття наприклад, „країна” - „Польща”.

Ще один важливий елемент є синонімія, яка також включає абревіацію і акроніми наприклад, „XML” <->„extended markup language”.

Є ще багато інших семантичних відношень:

Відношення в цілому „літак”- „двигун”

Асоціації „Лех Валенса” - „Солідарність”

Дуже дорогим способом опрацювання семантичних залежностей є ручне створення відповідно організованих словників -- тезаурусів.

14. Часті мовні помилки

І автори і користувачі пошукових засобів роблять помилки. Цей факт довго не брався до уваги розробниками пошукових засобів, їхня модель була ідеалістична і припускала що тексти і запити не місять помилок. В системі, де єдиним критерієм є досягнення результату, не врахування потенційних помилок користувача, є серйозним бізнес прорахунком. Найпоширеніші помилки:

Помилки у правописі;

Заміна літер своєї мови відповідними латинськими літерами;

Пропуск і неправильний порядок букв.

Размещено на Allbest.ru


Подобные документы

  • Основні поняття та принципи всесвітньої павутини, пошукові машини в Інтернеті. Гарантування збереження значних обсягів інформації та надання доступу до неї користувачеві або прикладній програмі. Здійснення індексації сайтів в пошукових системах.

    реферат [17,0 K], добавлен 20.12.2010

  • Історія розвитку і створення Інтернет. Протоколи передачі даних. Способи організації пошуку інформації Інтернет. Пошукові системи та сервіси: Яндекс, Google, шукалка. Послідовність виконання пошуку необхідної інормації за допомогою браузера Mozilla.

    дипломная работа [4,9 M], добавлен 22.07.2015

  • Методи результативного пошуку інформації в Інтернеті. Уявлення про пошукові служби, їх призначення та структура. Основні типи пошукових служб: пошукові каталоги, рейтингові системи, індексні бази даних. Спрямованість тематики і широта охоплення ресурсів.

    реферат [33,5 K], добавлен 23.04.2010

  • Принципи та особливості роботи пошукових роботів. Аналіз відмінностей каталогів від пошукових систем. Шляхи та параметри оцінювання обсягів індексації сучасних пошукових систем. Загальні рекомендації щодо додавання сайту до пошукової системи чи каталогу.

    реферат [101,3 K], добавлен 18.11.2010

  • Сайт як інформаційна одиниця мережі Інтернет. Просування сайту за допомогою дошок оголошень. Створення web-сторінок за допомогою мови HTML. Послуги, які надають web-ресурси з пошуку роботи. Пошукові системи, сайти та портали з працевлаштування.

    курсовая работа [59,3 K], добавлен 02.10.2014

  • Метою курсової роботи є дослідження найбільш поширених ресурсів мережі, які використовуються в освітній діяльності. Завдання курсової роботи передбачають: вивчення та освітлення теоретичних основ інформаційних ресурсів, видів ресурсів мережі Інтернет.

    курсовая работа [78,9 K], добавлен 27.12.2008

  • Використання Інтернет-ресурсів та форми роботи з комп’ютерними навчальними програмами. Підвищення мотивації вивчення англійської мови шляхом використання нових інформаційних технологій у школі. Сучасні підходи до використання інформаційних технологій.

    реферат [29,0 K], добавлен 09.12.2010

  • Технологія пошуку інформації в мережі Інтернет. Можливості спеціальних служб, індексів. Інформаційні ресурси у каталогах. Системи мета-пошуку, пошуку в конференціях Usenet, пошуку людей. Знаходження інформації із застосуванням серверів глобального пошуку.

    реферат [38,8 K], добавлен 20.05.2011

  • Комплексна обробка просторово-розподілених ресурсів мережі Інтернет. Системи інформаційного моніторингу в мережі. Обґрунтування технологій, розробка системи інтеграції Інтернет-контенту для конкурентного середовища ринку праці. Оцінювання систем аналізу.

    дипломная работа [763,8 K], добавлен 14.07.2013

  • Інтернет як комунікаційний канал. Соціально-комунікаційні ознаки електронних соціальних ресурсів та методологія їх дослідження. Специфіка функціонування Facebook, Twitter, Вконтакте, LiveJournal та їхня трансформація у "замінники" традиційних медіа.

    дипломная работа [409,0 K], добавлен 14.07.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.