Ефективність методів семантичної мережі для виявлення плагіату речень
Сутність поняття "плагіат документів" та методи виявлення плагіату. Попередня обробка документу - токенізація, видалення стоп-слів та коренів. Семантичне та синтаксичне представлення документів. Алгоритм апроксимованої подібності, побудова N-грам.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | дипломная работа |
Язык | украинский |
Дата добавления | 12.09.2012 |
Размер файла | 2,4 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Будь-які два вектори, які мають відстань Хеммінга <k повинні зійтися, принаймні в одному розділі, так як кількість вимірювань, в яких два вектора не зходяться може бути не більше ніж К розділів. У цьому випадку кожен вектор буде мати K +1 підпис. Наприклад, нехай область буде {1, ..., 50} і поріг відстані Хеммінга = 4. Як видно з Малюнка 1.11 розбивкою області на 5 розділів будь-яких двох векторів, що мають відстань Хеммінга < 4 повинні зійтися принаймні в одному з цих розділів.
Малюнок 1.11 Вектори що мають відстань Хемінга <k
Однак ця схема не є ефективним підходом, оскільки два вектори часто закінчуються випадково зійшовшись на одному розділі, хоча вони дуже різні, що тягне за собою довгий пост-фільтраційний етап для усунення помилкових спрацьовувань. Як це може бути показано на малюнку 1.12 двох векторів є один поділ спільного у той час як Відстань Хеммінга між двома цими векторами 8.
Малюнок 1.12 Вектори що мають відстань Хемінга =8
Перерахування: Загалом шляхом розбиття області в N2> K рівно розмірні розділи, де К поріг Хеммінга, будь-які два вектори, ща мають відстань Хеммінга <k повинні зійтися, принаймні (N2-K) розділів.
За допомогою цього спостереження, узгоджений вибір (N2-K) розділів, будь якими двома способами, два будь-які вектори, які мають відстань Хеммінга <k повинні зійтися хоча б на одному з цього вибору. Малюнок 1.13 є прикладом такої схеми. Це приклад такий ж, як на малюнку 1.12, але з порогом відстані Хеммінга= 3.
Малюнок 1.13 Вектори що мають відстань Хемінга=8
Два вектори V1 і V2 на Малюнку 1.13 не мають підпису в загальному випадку а отже, не будуть розглядатися. Перерахування схема краще процес фільтрації але з недоліком виробляють велику кількість підписів для будь-якого вектора (Є підписів для кожного вектора).
Гібридна: PartEnum є гібридний алгоритм, який поєднує як розбиття так і перерахування схем. Формальним описом PartEnum на Малюнку 1.14, N1 і N2 два параметри, які контролюють кількість згенерованих підписів, створених для кожного вектор.
Алгоритм спочатку генерує випадкові перестановки області {1, ..., п} і використовує цю перестановку для визначення двох рівнів розбиття області. Зауважимо, що на Малюнок 1.14 випадкові перестановки генерується тільки один раз і підписи для всіх вхідних векторів генеруються, з використанням тієї ж перестановки). Перший рівень розділу створений за допомогою схеми секціонування(розбиття) і містить n1 розділів . І для кожного розділу першого рівня генеруєтьс всі можливі підмножини розміру (n2-k2) за допомогою перерахування схеми. Є підписів для кожного вхідного вектора. Два вектора, надалі є парою кандидатів , якщо вони мають хоча б один спільний підпис.
Малюнок 1.14 Формальний опис PartEnum
Розширення на схожість Джаккард була покрита в [7]. Звідси випливає, що для двох наборів:
де t поріг відстані Хеммінга
k є поріг подібності Джаккарда.
1.8.2 Алгоритми на основі інвертованого індексу
Ще один клас подобності об'єднує алгоритми, що грунтуються на основі інвертованого індексу. Інвертований індекс вносить слова до списку ідентифікаторів записів, які містять це слово [8]. Для векторів індекс складається з декількох списків дорівнює числу розмірності і кожен список містить ідентифікатори векторів з ненульовою елемента.
Хоча головна мета підписання на основі алгоритмів лежить на зведення до мінімуму числа кандидатів перед етапом пост фільтрації, кілька факторів відрізняють алгоритми на основі інвертованого індексу і визначають продуктивність і масштабованість таких алгоритмів [6,8,34,35]. Ці основні фактори наведені в таблиці 1.6.
Таблиця 1.6 Загальні фактори, які впливають на продуктивність алгоритму інвертованого індексу
Фактор |
Опис та альтенрнативи |
|
Індекс структура |
Структура індексу безпосередньо впливає на масштабованість алгоритму. Чим більше параметрів індексу, тим більше основне споживання пам'яті. |
|
Індекс побудова |
Побудова індексу є: - Повне будівництво: сканування даних послідовно і побудова повного індексу для вхідних наборів, індекс потім знову перевіряються в один прохід, щоб визначити перекривання записів. - Динамічна побудова: сканування наборів даних послідовно, а перекривання записів визначається в тому ж послідовному скануванні. Повний метод будівництва не є ефективним для великих наборів даних так як: 1. Не в змозі використати деякі корисні оптимізації, як зведення до мінімуму набори кандидатів, такі як порядок сортування даних і поріг експлуатації. 2. Побудова повного індексу до генерації будь-якого вихіду, результати обчислень якого потребує витрачення зусиль. 3. Потрібно щоб і індекс і вхідні набори в пам'яті залишалися резидентами для високої продуктивності. |
|
Використання порогу подібності |
Використовуючи поріг подібності в агресивній формі може дати різке збільшення продуктивності і масштабованості, оскільки не всі записи задовольняють поріг подібності і, отже, ці записи спричиняють за собою надлишковий час порівняння і зберігання в пам'яті. Використовування порогу може приймати різні форми: 1. Під час індексації: це означає, що тільки ті записи, які мають потенціал перевищувати поріг подоби необхідно індексувати. 2. За допомогою деякого певного порядку сортування даних, такий як розмір запису. |
Серед інших нещодавно розроблених алгоритмів, алгоритм всіх пар [6] продемонстрував високу ефективність і перевершує попередні алгоритми [5,9,51]. Всі пари в основному спеціалізується на косинус функції і самоб'єднані, формальний опис алгоритму всіх пар для бінарних векторів показано на малюнку 1.15.
Малюнок 1.15 Формальний опис алгоритму всіх пар
Алгоритм має безліч векторів V і T поріг подібності і ціль знайти всі пари векторів х, у,таких що COS (X, Y) ?t. Функція найвищого рівня сканує набір даних та динамічно будує інвертовані списки. Функція знайти-співпадіння сканує інвертовані списки і підвищує аккумуляційну оцінку шляхом сканування кожного списку індивідуально.
Крім побудови індексу динамічно і підвищення аккумуляційної оцінки, є три оптимізацію, що були внесені в цей алгоритм у порівнянні з основним підходом інвертованого індексу. Перша оптимізація полягає в тому, що індекс скорочується (лінії 8 по 12). Замість індексації по цілому вектор у алгоритм зберігає проіндексовані частини у' так, що | у' | / | у | <t. Правильність для редукції індексу випливає з того факту, що якщо два вектори х та у задовольняють поріг подібності та | X | ? | у| (рядок), то вони мають принаймні один член індексіроваться Y частину. Цей показник дає зниження тонкі збільшення масштабованості.
Друга оптимізація (рядок 18) використовує техніку розміру фільтрації для скорочення запитів до інвертованих списків. Він заснований на тому, що для будь-яких двох векторів х і у, що проходять T поріг косинус подібності, то | у повинна бути більше або дорівнює | X |. Т2. Таким чином будь-який проіндексований вектор у не задовольняє введене minsize обмеження не буде розглядатися і може бути видалене або пропущене під час роботи алгоритму.
Третя оптимізація з'являється в рядку 20. Перед експлуатацією треба визначити, що коли алгоритм перебирає вектор х, доходить до точки, де, якщо вектор ще не був визначений як кандидат від х, потім вже немає ніякого шляху щоб можна було подолати поріг подібності і алгоритм переходить у фазу, де він уникає введення нових кандидатів (рядок 21).
1.9 Підведення підсумків
Більшість методів [52, 53, 54, 55, 57], що використовують семантичні мережі для отримання семантичної зв'язаності (або відстані) між двома концепціями C1,C2 покладаються на дві семантичні ознаки:
· найкоротший шлях між двома концепціями len (C1, C2)визначається як число ребер або вузлів в ієрархічному відношенні, що з'єднує два поняття.
· глибина поняття, яка включає в категорію два поняття len (lso (C1, C2)) визначається як число ребер або вузли з верхнього поняття в ієрархії до сабсьюмера.
Тільки змістовна інформація Резника [56] ігнорує два попередні атрибути, але було показано в [51], що цей підхід видавав помилкові спрацьовування (або підозрілі випадки) більше, ніж ті методи, які залежать від шляху підрахунку.
Важливим зауваження про ті методи є те, що більшість авторів обмежели їх семантичні виміри тільки ієрархією іменників в WordNet й у деяких випадках додали підтримку дієслів. В основному це пов'язано з тим, що прикметники і прислівники, не організовані будь-які ієрархічні співвідношення в WordNet. Крім того, більшість цих методи (за винятком [57]) основані на порівнянні слів, а не речень. Однак, прикметники і прислівники прагнуть внести свій внесок у схожість між фразами, і, отже, не повинни бути ігнорованими.
Алгоритми, представлені у розділі 2.8 можна розглядати як основні примітиви для розширення застосування N-грам подібності.
Таблиця 1.7 ілюструє основні сильні і слабкі сторони обох підходів. Алгоритм всіх пар був описний [6] і послідовно доведено, що перевершує PartEnum й інші схеми підписання. Це відбувається, тому що деякі оптимізації можуть бути використані для використання тільки підходів інвертованого списоку.
2. Методологія
У цьому розділі представлені вироблена методологія. Семантичний підхід подібності, заснований на роботі [57] буде прийнято у вимірі подібності між реченнями, додавши підтримку для інших частин мови зокрема, для прикметників і прислівників. Цей підхід буде оцінюватися N-грамами з трьома симетричними критеріями, а саме косинус, Джаккард, і Дайс коефіцієнтами в інвертований індекс реалізації.
Нижче представлений схематичний опис:
2.1 Підготовка документа
Десять документів буде завантажено з ScienceDirect.com [63], ці документи являють собою первинні документи і охоплюють різні категорії, включаючи біоінформатику, програмне забезпечення, мережі, штучний інтелект, обчислювальну техніку, інформатику і техніку.
З цих 10 документів, 20 документів буде побудовано вручну, вибравши кількість речень , що будуть плагіатом, а записи про кожне речення будуть зберігатися в інформаційній таблиці. Кожен запис у таблиці має чотири поля: ідентифікатор первинного документа, ідентифікатор запитуваного документа, ідентифікатор первинного речення, і ідентифікатор запитуваного речення (ідентифікатор речення є його порядковий номер в документі).
Ця таблиця буде використовуватися в якості посилання на етапі оцінки, як буде обговорюватися в розділі 2.2.1. Кожний запитуваний документ буде зплагітований інакше від інших і здійснює всі або деякі з таких випадках плагіату:
- Зміна порядку слів у реченні, структура речення
- Зміна слова "частини мови (наприклад, обчислювать/ обчислення), і словоформ (наприклад, складності / комплексності)
- Видалення деякого змісту первинного речення, додавши інші слова в тому ж контексті, або додавання галасливих слів.
- Заміна деяких або більшості слів їх синоніми та антоніми.
- Представлення змісту або ідеї речення в різних значеннях і семантичних формах
- Лише кілька речень залишаться без змін.
Речення, які будуть плагіатом будуть обрані вручну так, що більшість з цих речень можуть в основному охоплювати аспекти семантичних мереж та їх слова підтримують відношення семантичних мереж з акцентом на синонімію, схожість, і hypernym відношення. Метою цього є ретельний відбір у два етапи.
По-перше, ми хочемо оцінити внесок семантичних відношень у виявленні різних представлень плагіату речень.
По-друге, плагіатори часто вибирають такі речення, які несуть в собі нетривіальні поняття тому, що це легко, з їхньої точки-зору, щоб приховати оригінальні роботи і, отже, це виправдано, щоб зосередитися на важливих реченнях у представленому документі, а не на реченнях з тривіальною семантикою та змістом.
Ще 60 документів буде додано до первинних документів, ті, документи з англійської Вікіпедії з ознаками статті [64], що відповідно до Вікіпедії "вважаються кращі статті в Вікіпедії, як це визначили редактори Вікіпедії "за їх точність, нейтральність, повноту та стиль ". 60 документів з категорій, які схожі та які відрізняється від 10 первинних документів, у тому числi обчислювальної техніки, техніки і технології, біології та інших категорій. Корпус буде містити з 70 оригінальних документів, у порівнянні з 20 запитуваних документів.
2.2 Попередня обробка документів
Цей етап застосовується для всіх запитуваних документів, а також для первинних документів. Є чотири кроки на даному етапі:
- символи, такі як знаки пунктуації, цифри і дужки виключаються. Речення збільшуються під час цього процесу шляхом прийняття всіх слів до крапки, знаку питання або знаку оклику. Речення, які містять меньше ніж три слова - опущені.
- стоп-слова виключаються. Зауважимо, що список складається з невеликого числа слів, це суттєво, так як речення малої довжини. Це слова, які зустрічаються з найбільшою частотою в корпусі Браун. Всі інші слова зберігаються нижньому регістрі. У разі семантичного спорідненості між реченнями, цей крок відкладено. Він буде виконаний після кроку позначки частин мови. Для позначення частин мови необхідно всю інформацію про оброблюване речення в тому числі функціональні слова.
- токенізація, не стоп-слова обрізуються до кореня слова з використанням малгоритму [60]. Обрізання застосовується тільки для подання на основі N-грам. Обрізання не застосування при вимірі семантичної спорідненості між реченнями по двох причинам. По-перше так званий стемінг може зменшити слова в нормальну форму так, щоб вони не можуть бути знайдені в WordNet. Другою причиною є збереження оригінальних значення слів. Крім того WordNet має свій власний морфологічний аналізатор для обробки слів словоформ так, що вони ще можуть бути знайдені в WordNet.
- перед вимірюванням семантичної спорідненості між реченнями, токенізовані слова позначаються з використанням Стенфордського позначника частин мови Tagger [61]. Tagger використовує Penn Treebank English POS набір тегів [62]. Є 36-тегів в цьому наборі, за винятком пунктуації. Деякі з цих тегів зіставляються основні теги частин мови, які використовуються в WordNet (іменник, дієслова, прикметники та прислівники), а інші відкидаються. Зокрема видаляються всі службові слова, такі як сполучники, прийменники, допоміжні дієслова, модальні дієслова, займенники, числівники.
2.3 Семантичний підхід подібності
Алгоритм представлений в [57] буде адаптована в цьому проекті для вимірювання семантичної подібності між двома реченнями T1, T2 наступним чином:
(2.1)
де l - найкоротший шлях між T1 і T2,
h - сабсьюмер-глибина,
б - масштаб впливу довжини шляху і дорівнює 0,2,
в - масштаб впливу глибини і дорівнює 0,45 [57].
Загальна процедура отримання найкоротшого шляху і сабсьюмер-глибини проходить наступним чином:
- якщо два слова в тому ж синсеті шлях встановлений 0. Наприклад, найкоротший шлях між двома іменниками обчислення і розрахунки 0, тому що належать до одного синсету {обчислення, розрахунки, ...}. Глибина в цьому випадку кількість вузлів з ??цього синсету до верхнього синсету.
- якщо два слова не в одному же синсеті, але два синсети до яких вони належать, містять загальні слова, шлях встановлюється в 1. Для, наприклад, шлях між двома іменниками оцінки {оцінки, ідея} та розум {розум, ідея} встановлюється в 1, так як два синсети, до яких вони належать, містять спільне значення слова. У цьому випадку глибини двох синсетів розраховуються і максимальна глибина є вже глибиною співвідношення.
- якщо два вище описаних випадках не представлені, фактичний шлях всіх значень слова розраховується і найкоротша вважається фактичним. Після найкоротшого шляху визначається глибина синсету, що включає в категорію два синсету є в відношенні глибини.
Іменники та дієслова у WordNet організовані в hypernym ієрархію, але прикметника та прислівника там немає. При отриманні найкоротшого шляху між прикметниками або прислівниками перші два випадки для іменників та дієслів (однакові синсети, містять спільні слова) згаданих вище, не змінилися за виключенням у визначенні глибини відношення. Глибина дорівнює середній глибині відношення “IS-A” в WordNet яка дорівнює 6 [30].
Проте в третьому випадку використовуються інші відношення в отриманні шляху наступним чином:
- якщо два слова прикметники перебувають у відношенні similar_to відбувається перевірка належності синсетів, до яких два слова належать, до одного кластера, якщо це так шлях встановлюється в 1 і середня глибина використовується. Якщо два синсети не пов'язані цим відношенням то відбувається перевірка pertain_to і participle_of відношень, тобто перевіряєтья чи два прикметники відноситься до іменника або походить від дієслів. Якщо так, то застосовується процедура обчислювання шляху і глибині між іменниками та дієсловами.
- у випадку прислівників, якщо вони пребувають у відношенні root_adjectives, то проводиться перевірка походження від прислівника до їх корінного прикметника (якщо вони мають такі коріння) і далі застосовується така ж процедура як для прикметників прикметників.
Як ,наприклад, у випадку прикметників, розглянемо два прикметники: хімічний і молекулярний.
Хімічний має два значення {хімічний, хімічно} та { хімічний}, молекулярний має два значення і обидва з них {молекулярний}.
У всіх сенсах два прикметники не синоніми (в межах того ж синсету), не містять загальних слів, вони не пов'язані similar_to співвідношенняv, отже використовується pertain_to співвідношення. Прикметник хімічний відноситься до іменника хімія {хімія, хімічна наука } прикметник молекулярний відноситься до іменника молекула {молекули}. Нижче показані hypernym-дерева для двох іменників у WordNet 2.1:
{chemistry, chemical science}
=>{natural science}
=>{science, scientific discipline}
=>{discipline, subject, subject area,..}
=>{knowledge domain, knowledge base}
=>{content, cognitive content,..}
=>{cognition, knowledge, noesis}
=>{psychological feature}
=>{abstraction}
=>{abstract entity}
=>{entity}.
{molecule}
=>{unit, building block}
=>{thing}
=>{physical entity}
=>{entity}.
Тому найкоротший шлях між двома значеннями іменників дорівнює 14, найкоротший шлях між двома прикметниками хімічнимий та молекулярна 16 (14 +2) і subsumer-глибина 1.
Наприклад, прислівників significantly (3 значення) і considerably (1 значення), знову ж таки вони не перебувають в одному синсеті і вони не містять спільні слова. Significant, considerable є корінними прикметниками significantly, considerably відповідно. Два прикметники пов'язані через співвідношення similar_to {significant, substantial}> {considerable}, отже, найкоротший шлях між двома прислівники дорівнює 1, а глибина дорівнює 6. Малюнок 2.2 ілюструє поетапно вище обумовлені випадки в отриманні семантичних атрибутів.
Після застосування рівняння 2,1 для всіх пар слів в T1 і T2, семантичні вектори s1, s2 і порядкові вектори r1, r2 виходять зі спільної множини слів для обох T1 і T2. Довжина векторів дорівнює розміру спільної множини слів. Елемент семантичного вектору визначається за наступною формулою:
(2.2)
де wi це слово зі спільної множини і w'i є його пов'язане слово в реченні, отримане як максимально схоже слово на wi на основі рівняння 2.1, а I(w) є інформаційний зміст w отриманим з корпуса Брауна [58], як ймовірність появи цього слова в корпусі Браун і визначається за наступною формулою:
(2.3)
де n - число появи w в корпус
N - загальна кількість слів в корпусі.
Значення елементів у семантичному векторі повинен перевищує семантичний поріг, який встановлено до 0,2 [57].
Малюнок 2.2 Процедура отримання семантичної атрибутів між двома словами
Семантична схожість між двома пропозиціями визначається косинус коефіцієнти між їх семантичними векторами:
(2.4)
Порядкова подібність між двома реченнями задається нормованою різницею між їх порядковими векторами (рівняння 2.5).
Елемент порядкового вектору встановлюється у відносне положення максимально аналогічного слова в реченні, що в спільній множині.
Значення цього елемента має перевищувати порядковий поріг з метою того, щоб вважатися бути збереженим у векторі. Цей поріг повинен бути оптимізовано у роботі.
(2.5)
Нарешті загальна подібність двох речень задається рівнянням наведеним нижче, де д вирішує внесок семантичної схожості та порядкової схожості
(2.6)
Важливим моментом є налаштування параметрів у цьому представленні.
Значення б, в, і семантичного порога були оптимізовані для WordNet в [57].
Значення д і порядкового порогу відповідальні за прийняття рішень впливу синтаксичної інформації схожості між парою речень. Відомо, що частою практикою плагіаторів є зміна порядку слів і структури речень а, отже, два параметри будуть оптимізовані в цьому проекті для застосування в виявленні плагіата. Малюнок 2.3 показує псевдо-код алгоритму.
Малюнок 2.3 Алгоритм семантичного спорідненості між парою пропозицій
2.4 Підхід N-грам
Це представлення визначається наступним чином.
Множина N-грам виходить з попередньо оброблених запитуваного документу. З огляду на множину N-грам G = {g1, g2, ..., р}, кожне речення s, неважливо належить воно до запитуваного документу або до документу з корпусу, э m-мірний бінарний вектор V, де V [i] = 1, якщо gi € s, V [i] = 0 в іншому випадку. Малюнок 2.4 дає приклад перетворення речення в бінарний вектор заснований на представленні 3-грам.
Малюнок 2.4 Бінарний вектор представлення речення
Є три міри подібності, які будуть оцінюватися: косинус, Джаккард, і Дайса коефіцієнти. Алгоритм всіх-пар [6] був обраний для прискорення процесу порівняння документів.
Малюнок 2.5 показує псевдо-код для косинус подібності, як вона була введена в [6].
Малюнок 2.5 Інвертована індекс реалізація косинус подібності[6]
Малюнок 2.5 є модифікацією оригінального алгоритму (малюнок. 1.15). Динамічна побудова інвертованого індексу в алгоритмі всіх пар (рядки з 8 по 12 з Малюнка 1.15) опускається, оскільки порівняння між двома наборами векторів чи то вектор запитуваного документ або вектор веб-документу буде індексуватися.
Вектори запитуваного документа не повинні бути резидентами в пам'яті (тобто весь час зберігатися) в цьому випадку, оскільки значення подібності може бути обчислена безпосередньо з інвертованого індексу. Як факт, необхідно для обчислення значення подібності тільки такий атрибут, як розмір кожного вектору у запитуваному документі.
Таке обмеження як мінімальний розмір (рядок 12 на Малюнку 1.5) для косинус подібності залишається незмінною у випадку косинус. Це випливає з того, що для будь-якої пари бінарних векторів r і s, що відповідає порогу t косинусу подоби, повинна виконуватися умова:
(2.7)
де t - поріг косинус подібності,
|x| - розмір вектора x.
Поширення на інші критерії подібності, описані нижче.
Для подібності Джаккарда наступне обмеження мінімального розміру між будь-якими двома векторами r і s:
(2.8)
де t поріг Джаккард схожість.
Правильність цієї умови полягає в наступному: за визначенням подібності Джакакрда між двома бінарними векторами r і s:
Так як ми повинні мати
і, нарешті,
.
Аналогічно для коефіцієнта Дайса наступне обмеження мінімального розміру буде використані:
(2.9)
де t поріг Дайса.
Так два зміни на Малюнку 2.5, в косинус процедурі знаходженя відповідності, зокрема в рядку 12, де обмеження мінімального розміру для косинус подібності замінені відповідними обмеженнями для кожної міри подібності на основі рівнянь 2.8 і 2.9, і в рядку 19 при розрахунку міра подібності.
Малюнок 2.6 і Малюнок 2.7 показує процедури знаходженя відповідності для Джаккарда, і Дайса відповідно.
Малюнок 2.6 Інвертований індекс Малюнок 2.7 інвертований індекс реалізації для Джаккард подоби реалізації для Дайс коефіцієнта
2.5 Оцінка результатів
Кожне речення в запитуваному документі буде в порівнянні з кожним реченням з корпусу і максимально схоже речення на цей запит повертається разом з відповідними оцінками подібності. Інформація про пару речень і значення подібності записуються і порівнюються з інформацією таблиці, яка була створена в на етапі підготовки корпусу. Нижче перераховані стандартні метрики в інформаційному пошуку, яка буде використовуватися в оцінці:
Якщо отримане речення є первинним, то потім отримане речення розглядається як справжньо-позитивне, а в іншому випадку запитуване речення як хибно-негативне.
Коли точність використовується і отримане речення, це не оригінальне речення, то здійснюється ручна перевірка між первинним реченням і отриманим реченням. Якщо запитуване речення більше схоже на отримане речення ніж первинне речення, отримане речення розглядається як справжньо-позитивний результат, в іншому випадку запитуване речення є хибно-негативним і отримане речення є помилково-позитивним. У стандартному інформаційного пошуку, точність супроводжується чутливість. Нагадаємо, чутливість визначається таким чином:
І, нарешті, середнє значення або F-міра, яка дає єдине числове подання точності і відгуку визначається наступним чином:
Подібність між двома документами визначається на основі такого рівняння:
(2.10)
де Q є запитуваний документ,
С є корпус |Q| є кількість речень у Q;
є подібність речення до документу та задається рівнянням:
(2.11)
де q це речення в Q,
sim(q,C) подібність між парою речень, як це визначено рівнянням 2.6, малюнком 2.5, малюнком 2.6, або малюнком 2.7.
3. Побудова експериментальної моделі
3.1 Вступ
У цьому розділі представлені експериментальні результати цього проекту отримані від 20 запитуваних документів побудованих вручну з 10 документів з інтернету.
10 первинних документів були викачані з ScienceDirect.com. З первинних документів, 20 запитуваних документів були зплагіатовані з використанням усіх зазначених випадках в розділ 2.2.2. Детальна інформація про розподіл речень за запитом документів та інформацію про відповідні джерела, перераховані у таблиці 3.1.
Таблиця 3.1 Кількість зплагіатованих речень у парі документів (запитуваний вертикаль) / (первинний-горизонталь)
Id документа |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
||
Кількість речень |
82 |
185 |
107 |
373 |
367 |
168 |
206 |
106 |
281 |
260 |
||
1 |
13 |
13 |
||||||||||
2 |
35 |
35 |
||||||||||
3 |
33 |
33 |
||||||||||
4 |
27 |
27 |
||||||||||
5 |
32 |
32 |
||||||||||
6 |
26 |
26 |
||||||||||
7 |
37 |
37 |
||||||||||
8 |
33 |
33 |
||||||||||
9 |
40 |
40 |
||||||||||
10 |
32 |
32 |
||||||||||
11 |
40 |
40 |
||||||||||
12 |
27 |
27 |
||||||||||
13 |
37 |
32 |
||||||||||
14 |
32 |
37 |
||||||||||
15 |
26 |
26 |
||||||||||
16 |
25 |
5 |
6 |
9 |
5 |
|||||||
17 |
28 |
5 |
11 |
12 |
||||||||
18 |
21 |
8 |
7 |
6 |
||||||||
19 |
37 |
7 |
5 |
17 |
8 |
|||||||
20 |
20 |
5 |
7 |
8 |
Статистика про запитувані документи і документи у корпусі показані у таблиці 3.2. У цій таблиці кількість дійсних речень вказує на ті речення, які мають принаймні 3 не стоп-слова. Речення, які не задовільняють цим критерієм, не були розглянуті на експериментах. Протокенізовані слова - це ті слова, які складаються з англійського алфавіту (наприклад, шляхом видалення пунктуації, цифр та інших неістотних структур).
Статистика про частини мови документів наведені в таблиці 3.3.
У цьому дослідженні позначення частин мови було реалізовано з використанням Стенфордського POS Tagger [61].
Tagger заснований на моделі максимальної ентропії (ММЕ) і використовує Penn Treebank English POS множину тегів [62]. Є 44-теги в цій множині. Деякі з цих тегів зіставляються основні теги частин мови, які використовуються в WordNet іменник, дієслово, прикметники і прислівники), а інші відкидаються.
Таблиця 3.2 Статистика про корпус і запитувані документи
Запитувані |
Первинні |
Корпус |
||
Кількість |
20 |
10 |
60 |
|
Розмір в кілобайтах |
72,4 |
306,75 |
1596,5 |
|
Кількість речень |
601 |
2236 |
11659 |
|
Кількість валідних речень |
601 |
2135 |
11430 |
|
Середня довжина |
11 |
13 |
13 |
|
Кількість токенізованих слів |
10843 |
46216 |
259544 |
|
Кількість унікальних слів |
2369 |
5216 |
7708 |
|
Кількість слів |
2292 |
5118 |
7698 |
Таблиця 4.3 Статистичні дані про частину з-мова позначки
Запитувані |
Первинні |
Корпус |
||
Іменників |
3738 |
16036 |
68345 |
|
Унікальних іменників |
1189 |
2806 |
8941 |
|
Дієслів |
1221 |
5236 |
22382 |
|
Унікальних дієслів |
634 |
1474 |
3123 |
|
Прикметників |
1094 |
4201 |
18343 |
|
Унікальних прикметників |
428 |
937 |
2411 |
|
Прислівників |
2262 |
1031 |
6026 |
|
Унікальних прислівників |
112 |
240 |
372 |
3.2 Порівняння речення до речення
У цьому розділі докладно описано, як подібність між двома реченнями (запитуване речення і корпус речення) буде обчисленно.
Процедура попередньої обробки і представлення речення відрізняються в залежності від застосованого методу, таким чином, вони обговорюються далі у два окремі підрозділи.
Кожне речення в запитуваному документі порівнюється з кожним реченням з корпусу і зберігаються данні про максимальну схожість речення до документа.
Наприклад, запис [53 1 216 4 0.2041] розповідає, що коли речення номер 4 у першому запитуваному документі було порівнянно з документом номер 53 з корпуса, а найбільш подібне речення було номер 216 і подібність була 0.2041.
3.2.1 N-грам підхід
Розмір N-грам, які були протестовані в даному дослідженні були 1, 2, 3 та 4 грами. Для кожного типу N-грам подбність обчислюється з використанням трьох відомих критеріїв подібності, а саме косинус, Джаккард, і Дайс коефіцієнтів.
У наступному прикладі обчислюється подібність з використанням 1-грам з критерієм Джаккарда.
Запитуваний документ Q={The Biology Manufacturing System (BMS) aims to deal with non-foreseen changes in manufacturing environment. It is based on the ideas inspired by biology, like self-organization, evolution, learning and adaptation.}
Речення, яке має бути порівняне s = "It is based on biology aspects".
Крок 1: Попередня обробка, видалення стоп-слів і виділення основи слова
Є два речення в Q і в результаті примінення цього кроку ми отримуємо Наступні дві речення:
q1=" biologi manufactur system bm aim deal non-foreseen chang manufactur environ".
q2=" base idea inspir biologi like self-organ evolut learn adapt".
Крок 2: Побудова словника грамів:
Словник юніграм V складається з усіх унікальних слів в Q розміром 1 після застосування першого кроку, тобто:
V={biologi, manufactur, system, bm, aim, deal, nonforeseen, chang, environ, base, idea, inspire, like, self-organ, evolut, learn, adapt}
Крок 3: Створення бінарного вектору для запитуваного речення і будівництво інвертованого індексу
У кожному реченні q представляється у вигляді бінарного вектора q' похідного від V
q'[i] = 1, якщо Vi S
q'[i] = 0 в іншому випадку.
Застосовуючи це до q1 і q2 отримаємо наступні два бінарні вектори:
q1'= [1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0]
q2'= [1,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1]
Інвертований індекс складається з множини записів і дорівнює числу вимірів в словнику, кожен запис зіставляється зі списком векторів, які мають ненульові записи в цьому вимірі. Інвертований індекс для q є 17-вимірний індекс, як показано на малюнку 3.1
Малюнок 3.1 Інвертований індекс для документа Q
Крок 4: Обчислювання подібності
Після побудови інвертованого індекс для запитуваного документ кожне речення з корпусу проходить через кроки 1 і 3. У цьому прикладі, s перетворюється на наступний двійковий вектор s'
s' = [1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0]
Тоді інвертований індекс сканується в один прохід, щоб отримати список векторів-кандидатів з Q. У випадку вектора s', як q1 так і q2 підходять. Нарешті подібність розраховується за трьома мірами подібності - Джаккарда, Дайса, і косинус - на тому ж реченні. Подібність Джаккарда між s і обидвома q1 і q2 є:
Зверніть увагу, що розмір бінарного вектора є число ненульових векторів. Для речень з корпусу , однак, розмір вектора замінюється кількістю унікальних грамів у реченні. Це було необхідно, тому що не всі грами з первинного речення були включені в векторне подання.
3.2.2 Семантичний підхід подібності
У цьому розділі наводиться приклад процедури обчислення семантичної подібності між двома реченнями на основі рівняння 2.6.
Перше речення T1= "It is based on the ideas inspired by biology, like selforganization, evolution, learning and adaptation.". Друге речення T2="It is based on biology aspects.". Подібність між T1 і T2 дорівнює 0,6683 і виходить таким чином:
Крок 1: Позначення частин мови і попередньої обробки
На першому етапі речення позначаються у своєму первісному вигляді, тобто, з усіма його змыстом крім пунктуації. Причина в тому, що Tagger потребує всю інформацію про речення в тому числі функціональні слова. Тоді всі службові слова, такі як сполучники, прийменники, допоміжні дієслова, модальні дієслова, займенники, кардинальні числа, а також знаки пунктуації будуть видалені. Результатом застосування цього кроку показано в таблиці 4.4
Таблиця 4.4 Позначення частин мови s1 і s2
Слово |
Таг |
Частина мови |
Слово |
Таг |
Частина мови |
||
It |
PRP |
It |
PRP |
||||
is |
VBZ |
is |
VBZ |
||||
based |
VBN |
Дієслово |
based |
VBN |
Дієслово |
||
on |
IN |
on |
IN |
||||
the |
DT |
biology |
NN |
Іменник |
|||
ideas |
NNS |
Іменник |
aspect |
NNS |
Іменник |
||
inspired |
VBN |
Дієслово |
|||||
by |
IN |
||||||
biology |
NN |
Іменник |
|||||
like |
IN |
||||||
self-organiztion |
NN |
Іменник |
|||||
evolution |
NN |
Іменник |
|||||
learning |
NN |
Іменник |
|||||
and |
CC |
||||||
adaptation |
NN |
Іменник |
Крок 2: створення спільної множини
Спільна множина містить всі слова з обох речень без дублікатів. Спільна множина для T1 і T2:
Спільна множина = {based, ideas, inspired, biology, self-organization, evolution, learning, adaptation, aspects}.
Крок 3: Отримання семантичних ознак:
На цьому етапі WordNet запитується для кожної пари слів, що відносяться до однієї частини мови. Семантичні ознаки двох слів це шлях між їх синсетами (множини синонімів), і глибина синсету, що включає в категорію два синсети (позначається сабсьюмер).
Наприклад, на малюнку 3.2 синсет {physical entity} є сабсьюмером (а також координує термін) для двох синсетів {process, physical process} і {object, physical object}, шлях між двома синсетами це число вузлів між двома синсетами включаючи кінцевий вузол, що є 2 в цьому випадку, і глибина це співвідношення числа вузлів по ієрархії до досягнення верхній синсету в дереві, яке дорівнює 2 і ({physical entity}>{entity}).
Загальний порядок отримання шляху між кожною парою слів для кожної частини мови визначається процедурою на Малюнок 2.2.
У багатьох випадках слова в WordNet є багатозначними.
Наприклад, на малюнку 3.2 іменник biology має 3 значення. У такому випадку тільки найкоротший шлях вважається. Після визначення найкоротшого шляху обчислюється глибина сабсьюмера.
Малюнок 3.2 показує hypernym-дерева всіх іменників у реченні T1 і іменник biology, яке присутнє в обох реченнях T1 і T2. Малюнок 3.3 показує hypernym-дерева всіх іменників у реченні T1, крім слова biology та hypernym- дерево другого іменника у T2 aspect. Ці дерева є фактичними деревами у WordNet 2.1 для всіх значень.
Таблиця 3.5 показує найкоротший шлях між усіма парами іменників у спільних множині і Т2. Таблиця 3.6 показує, відповідні глибини відношень, ці атрибути були пораховані виходячі з малюнку 3.2 і малюнку 3.3.
Малюнок 3.2 hypernym-дерево слова:idea (5 значень), learning (2 значення), adaptation (3 значення), Evolution (2 значення) і biology (3 значення)
Малюнок 3.3 hypernym-дерево слова:idea (5 значен Aspect (4 значеня)
Крок 4: Подібність слова до слова
Подібність між словами не є лінійною функцією від довжини шляху і глибина і визначається рівнянням 2.1, яке повторюється тут для зручності:
де l це найкоротший шлях між w1 і w2, h є глибина сабсьюмера, б масштаб впливу довжини шляху і дорівнює 0,2, і в масштаб впливу глибини і дорівнює 0,45. Результат визначення подібності слова до слова для T2 показано в таблиці 3.7.
Таблиця 3.7 Подібність слова до слова між спільною множиною і T2
Частина мови |
Дієслово |
Іменник |
Іменник |
||
Частина мови |
Слово |
based |
biology |
aspects |
|
Дієслово |
based |
1 |
0 |
0 |
|
Іменник |
ideas |
0 |
0.2443 |
0.4476 |
|
Дієслово |
inspired |
0 |
0 |
0 |
|
Іменник |
biology |
0 |
1 |
0.2155 |
|
Іменник |
self-organization |
0 |
0.0968 |
0.0792 |
|
Іменник |
evolution |
0 |
0.2632 |
0.0697 |
|
Іменник |
learning |
0 |
0.1764 |
0.2984 |
|
Іменник |
adaptation |
0 |
0.2155 |
0.1764 |
|
Іменник |
aspects |
0 |
0.2155 |
1 |
Крок 5: Отримання неопрацьваного семантичого і порядкового векторів:
Довжина семантичного вектора дорівнює розміру спільної множини та її елемент для зокрема даного вектора дорівнює максимально схожому в цьому наборі.
Порядковий вектор має ті ж властивості семантичного вектора за винятком того, що його елементи це відносні позиції максимально схожих слів у реченні. Значення подібності між парою слів повинна перевищувати семантичний і порядковий пороги для розгляду в неопрацьованому семантичному та порядковому векторах відповідно. Поріг встановлюється до 0,2 в обох випадках. Таблиця 3.8 і таблиця 3.9 показує процеси отримання значень семантичного і порядкового векторів для T1 і T2 відповідно.
Таблиця 3.8 Неопрацьований семантичний та порядковий вектор для T1
ЧМ |
ДС |
ІМ |
ДС |
ІМ |
ІМ |
ІМ |
ІМ |
ІМ |
ІМ |
||
ЧМ |
Слово |
based |
ideas |
inspired |
biology |
self-organization |
evolution |
learning |
adaptation |
Aspects |
|
ДС |
based |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
|
ІМ |
ideas |
0 |
1 |
0 |
0.244 |
0.128 |
0.069 |
0.543 |
0.233 |
0.447 |
|
ДС |
inspired |
0 |
0 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
|
ІМ |
biology |
0 |
0.244 |
0 |
1 |
0.096 |
0.263 |
0.200 |
0.215 |
0.215 |
|
ІМ |
self-organization |
0 |
0.128 |
0 |
0.096 |
1 |
0.031 |
0.104 |
0.134 |
0.079 |
|
ІМ |
evolution |
0 |
0.069 |
0 |
0.263 |
0.031 |
1 |
0.057 |
0.634 |
0.069 |
|
ІМ |
learning |
0 |
0.543 |
0 |
0.176 |
0.104 |
0.057 |
1 |
0.144 |
0.298 |
|
ІМ |
adaptation |
0 |
0.233 |
0 |
0.215 |
0.134 |
0.634 |
0.144 |
1 |
0.176 |
Таким чином, для речення T1 неопрацьований семантичний вектор s1Ч ={1,1,1,1,1,1,1,1,0.4476} і порядковий вектор r1={1,2,3,4,5,6,7,8,2}
Таблиця 3.8 Неопрацьований семантичний та порядковий вектор для T2
ЧМ |
ДС |
ІМ |
ДС |
ІМ |
ІМ |
ІМ |
ІМ |
ІМ |
ІМ |
||
ЧМ |
Слово |
based |
ideas |
inspired |
biology |
self-organization |
evolution |
learning |
adaptation |
Aspects |
|
ДС |
based |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
|
ІМ |
biology |
0 |
0.244 |
0 |
1 |
0.096 |
0.263 |
0.200 |
0.215 |
0.215 |
|
ІМ |
aspect |
0 |
0.447 |
0 |
0.215 |
0.079 |
0.069 |
0.298 |
0.176 |
1 |
З таблиці 3.9 неопрацьований семантичний вектор для T2 s2'= {1, 0,4476, 0, 1, 0, 0,2632, 0,2984, 0,2155, 1} і порядковий вектор r2 = {1, 3, 0, 2, 2, 2, 3, 2, 3}.
Відзначимо, що в таблиці 3.9 слово biology було правильно віднесене до слів self-organization, evolution, та adaptation, так як вони більш семантично пов'язані до іменника biology, ніж іменник aspect. З іншого боку, слово aspect автоматично віднесене до слів ideas та learning.
Крок 6: Розрахунок інформаційного змісту та отримання семантичних векторів
Інформаційний зміст для слова w є похідним від корпусу Брауна як імовірність появи цього слова в корпусі і задається рівнянням 2.3:
де n це число появи слова w в корпусі Браун і N є загальна кількість слів у корпусі. Загалом в експериментах використовується тільки найбільш часто використовувані 5000 слів з корпуса Брауна. Використовуваний список був отриманий з [42]. Список складає 85% (865 419 слів) корпусу і мінімальне входження слова в цьому списку 25. Елемент семантичного вектора s[i], задається рівнянням 2.2:
де wi це слово у спільній множині і w'i є його пов'язане слово в реченні. Таблиця 3.10 показує значення n для кожного слова у спільній множині і його інформаційний зміст:
Таблиця 3.10 Інформаційний зміст слова у спільній множині
Слово |
n |
I(w) |
|
based |
119 |
0.6538 |
|
ideas |
143 |
0.6406 |
|
inspired |
25 |
0.7644 |
|
biology |
0 |
1 |
|
self-organization |
0 |
1 |
|
evolution |
0 |
1 |
|
learning |
60 |
0.7027 |
|
adaptation |
0 |
1 |
|
aspects |
64 |
0.6981 |
Тому семантичний вектор для першого речення є:
s1 = {0.4275, 0.4105, 0.5844, 1, 1, 1, 0.4939, 1, 0.2003}
І семантичний вектор другого речення є:
s2 ={0.4275, 0.2003, 0, 1, 0, 0.2633, 0.1465, 0.2155, 0.4875}
Семантичної подыбнысть між Ss першого речення і другого речення задається косинус коефіцієнтами (рівняння 2.4) між s1 і s2, тобто:
Крок 7: Загальна подібність речення до речення
Порядкова подібність Sr між реченням s1 і реченням s2 виходить як нормована різниця порядку слів між двома реченнями і задається рівнянням 2.5:
Нарешті загальна подібність між реченням s1 і реченням s2 задається рівнянням 3.6
де д вирішує внесок як семантичної подібності, Ss., так і порядкової подібності Sr. значення д встановлене 0,95. Отже
S(T1,T2)=0,668353
3.3 Результати аналізу
У більшості представлених результатів у цьому розділі використовувся поріг зі значенням 0,5. Це важливо, тому що всі запитувані речення були плагіатом і повинні мати відносно високу оінку подібності з оригінальним реченням. Таким чином значення порогу 0,5 справедливо для оцінки ефективності будь-якого методу і були використані в якості базових для порівняння методів подібності речень [66]. Таблиця 3.11 показує чутливість використання N-грам за трьома мірами подібностями при 20 запитуваних документів в порівнянні з 70 документами.
Таблиця 4.11 Чутливість N-грам в 70 документах з корпусу з порогом обрізання 0.5
1-грам |
2-грами |
3-грами |
4-грами |
||
Косинус |
0.6639 |
0.3344 |
0.2180 |
0.1381 |
|
Джаккарда |
0.4642 |
0.1930 |
0.1082 |
0.0965 |
|
Дайса |
0.6556 |
0.3311 |
0.2163 |
0.1364 |
Таблиця 3.11 ясно показує, що збільшення розміру N-грам значно знижує рівень чутливості. Це пов'язано з тим, що 2-грами (і взагалі будь-яке значення N більше ніж 1) буде втрачати оригінальні речення в багатьох випадках. Наприклад, коли в реченні змінений порядок слів ??без зміни його змісту, 1-грам і все ще дає подібність, яка дорівнює 1, проте це не спостерігається у випадках з 2, 3, або 4-х грамів. Крім того, коли кілька слів замінені синонімами будь-то грами розміром більше 1 спостерігається втрата великої кількості значення подібності (в залежності від розміру грам), оскільки порівняння між реченням і реченням малої довжини.
Продуктивність подібності Джаккард була відносно малою у порівнянні з косинус і Дайс коефіцієнтами у всіх випадках грам. Загалом, косинус також трохи меньш продуктивний ніж Дайс коефіцієнт у випадках з 2, 3, і 4-грам, при цьому в наступному порівняння буде розглядатися тільки косинус подібність. Таблиця 3.12 показує чутливість при порівнянні 20 запитуваних документів проти 70 документів з корпусу. Причина використання лише 70 документів в тому, що семантичний підхід порівняння дуже ресурсоємний під час обчислень.
Для вимірювання збільшення кількості помилкових спрацюваньь при збільшенні кількість документів спочатку 20 запитуваних документів у порівнянні з 10 первинними документами і вимірувався рівень відгуку. Тоді ще 10 документів з корпус додаються до первинних документів і чутливість обчислюється знову. Процес повторюється кожного разу ще 10 документів з корпусу були додані поки їх кількість не стала рівною 70 документів. N-грами показили менше помилкових спрацьовувань ніж семантичний підхід при збільшенні кількості документів (див. перші 50, 60, і 70 документів Таблиця 3.12).
Таблиця 3.12 Чутливість, при збільшені кількості документів з порогом обрізання рівнем 0.5
Документів |
Речень |
Кос-1 |
Кос-2 |
Кос-3 |
Кос-4 |
Семантичний |
|
10 |
601х2135 |
0.6656 |
0.3344 |
0.2180 |
0.1381 |
0.8419 |
|
20 |
601х3980 |
0.6656 |
0.3344 |
0.2180 |
0.1381 |
0.8369 |
|
30 |
601х5421 |
0.6656 |
0.3344 |
0.2180 |
0.1381 |
0.8369 |
|
40 |
601х7282 |
0.6656 |
0.3344 |
0.2180 |
0.1381 |
0.8369 |
|
50 |
601х9728 |
0.6656 |
0.3344 |
0.2180 |
0.1381 |
0.8369 |
|
60 |
601х11059 |
0.6656 |
0.3344 |
0.2180 |
0.1381 |
0.8353 |
|
70 |
601х12543 |
0.6656 |
0.3344 |
0.2180 |
0.1381 |
0.8336 |
Таблиця 3.13 показує кількість справжніх спрацьовувань (СС), псевдо спрацьовувань (ПС), і негативних спрацьовувань (НС), точність, чутливість, і середнє гармонійне значення в 20 запитуваних документах в порівнянні з 70 документами з корпусу. З 601 запитуваного речення, 1-грам косинус показав 5 псевдо спрацьовувань і одне псевдо спрацьовування в 2-грамах. За допомогою ручного порівняння цих 6 речень з оригінальними жодне з них з не було більше схоже на запитуване речення, ніж оригінальне речення. 3 та 4-грам не показали жодних псевдо спрацьовувань (100% точності).
Таблиця 3.13 Точність, чутливість, і середнє гармонійне (F-міра) в 70 документах з корпусу з порогом обрізання рівнем 0.5
СС |
ПС |
НС |
Точність |
Чутливість |
F-міра |
||
Кос-1 |
40 |
5 |
20 |
0.9877 |
0.6656 |
0.7956 |
|
Кос-2 |
21 |
1 |
40 |
0.9950 |
0.3344 |
0.5002 |
|
Кос-3 |
13 |
0 |
47 |
1 |
0.2180 |
0.3579 |
|
Кос-4 |
8 |
0 |
51 |
1 |
0.1381 |
0.2427 |
|
Семантичний |
50 |
9 |
9 |
0.8422 |
0.8436 |
0.8429 |
F-міра в таблиці 3.13 показує, що немає великої різниці між семантичною подібністю і косинус-1, проте Таблиця 3.13 показує тільки пари речень рівень подібності для яких 0.5. Так як всі запитувані речення є плагіатом, то рівень подібності 0.5 не є цілком достатнім, щоб оцінити ефективність методів виявлення плагіату, а такоє ефективні методи повинні давати високу оцінку подібності. Для ілюстрації точності всіх методів отримання оригінальних речень, Таблиця 3.14 показує чутливість для всіх рівнів подібностей в усіх діапазонах.
Таблиця 3.14 Чутливість по значенням подібностч в 70 документах
Подібність |
Кос-1 |
Кос-2 |
Кос-3 |
Кос-4 |
Семантичний |
|
0.1 |
0.8220 |
0.7271 |
0.5591 |
0.4160 |
0.8336 |
|
0.2 |
0.8220 |
0.6556 |
0.4476 |
0.3261 |
0.8336 |
|
0.3 |
0.8053 |
0.5491 |
0.3444 |
0.2479 |
0.8336 |
|
0.4 |
0.7720 |
0.4309 |
0.2862 |
0.1897 |
0.8336 |
|
0.5 |
0.6656 |
0.3344 |
0.2180 |
0.1381 |
0.8336 |
|
0.6 |
0.5358 |
0.2446 |
0.1431 |
0.1082 |
0.8336 |
|
0.7 |
0.3993 |
0.1581 |
0.1048 |
0.0882 |
0.8286 |
|
0.8 |
0.2396 |
0.0932 |
0.0749 |
0.0649 |
0.7554 |
|
0.9 |
0.1198 |
0.0566 |
0.0549 |
0.0549 |
0.5058 |
|
0.99 |
0.0599 |
0.0549 |
0.0549 |
0.0549 |
0.1015 |
Малюнок 3.4 Чутливість (Y-вісь) по подібності (X-вісь) в 70 документах
Відзначимо, що в таблиці 3.14 рівень відгуку семантичного підходу не було порушено на рівні подібності 0.5 та ще в змозі отримати близько 75% з первинних речень на рівні 0.8 подібністі у порівнянні з 23% з використанням 1-грам. Це може бути зображено на малюнку 3.4. За подібністю 0.8 рівень відгуку семантичного підхіду починає незначно падати. На цьому значенні (0.8) параметри алгоритму були протестовані, щоб отримати їх оптимальні значення. Алгоритм залежить від 5 параметрів, які сприяють на подібність між парами речень, а саме: альфа (б), бета (в), дельта (д), семантичний поріг, і порядковий поріг. Як вони використовувалися було зазначено в розділі 3.3.2. Значення альфа (0.2) і бета (0.45) та семантичного порогу (0.2) були оптимізовані для WordNet в [57]. Значення дельта вирішує внесок як семантичної та синтаксичної інформації між реченнями. Було показано, що міра подібності показує кращу продуктивність, даючи семантичній інформації більшу вагу, ніж синтаксичній інформації, зокрема шляхом установки цього значення вище, ніж на 80% [57]. Таблиця 3.15 показує, рівень відгуку в залежності від зміни значення "дельта" і порядкового порога. Кращий рівень відгуку було досягнуто шляхом установки дельта до 0,95% і порядкового порогу до 0.1 (це ті парметри, які були використані в усіх порівнянняч в цьому розділі). Інтуїтивно ясно, що в виявленні плагіату синтаксична інформація не так важлива при вимірюванні подібності між реченнями.
Таблиця 3.15 Семантична спорідненість, рівень відгуку в 70 документах з альфа = 0.2, бета = 0.45 і поріг обрізання рівний 0.8
0.8 |
0.85 |
0.9 |
0.95 |
||
0.1 |
0.7105 |
0.7205 |
0.7354 |
0.7554 |
|
0.2 |
0.7088 |
0.7188 |
0.7338 |
0.7537 |
|
0.3 |
0.7038 |
0.7138 |
0.7338 |
0.7521 |
|
0.4 |
0.6955 |
0.7121 |
0.7321 |
0.7504 |
Висновки
Результатами досягнутими у цій роботі показано, що семантична спорідненость перевершує N-грам у більшості випадків робить цей підхід ефективною методологією для виявлення більшості випадків плагіату для англійської мови. Важливим моментом є кількість помилкових спрацьовувань породжених цією технікою, яка була більшою, ніж при використанні N-грам. Це залежить від того, що багато слів у WordNet є багатозначним і представлені в багатьох поняттях. Отримання найкоротший шлях та ігнорування значення слова, як це було застосовано в цій роботі було основним фактором у цих помилкових спрацюваннях. Ця проблема помилкових спрацьовувань була основною проблемою в багатьох методах з семантичними мережами, тим не менше вона може бути зменшена шляхом інтеграції функціональності відповідного значення сенсу слова.
Невідривним аспектом є налаштування параметрів алгоритму. Хоча це завжди суб'єктивно і потрібна людська перевірка, результати представлені в таблиці 3.14 разом на прикладі пар речень показують, що рівень подібності 0,8 може бути використаний як точка відсічення, щоб виділити потенційних плагіаторських речень у більшості приклади плагіату. Внесок як семантичної так і синтаксичної інформації в обчислювальні подібності між пропозиціями можна зробити висновок з таблиці 3.15. Таблиця 3.15 показує, що більш високий внесок семантичної інформації та низький порядковий поріг призводить до зростання відгуку. Проте без урахування інформаційного порядку слів у реченні повністю (наприклад, шляхом встановлення значення дельта рівним 1) призведе до розглядання речення на рівні частои появи слів, що не рекомендовано більшістю дослідників. Таким чином зберігаючи відносно невеликий відсоток (0,5%, як зазначено в таблиці 3.15) для порядкової інформації збільшується ефективність методу.
Размещено на Allbest.ru
Подобные документы
Вивчення існуючих систем по виявленню плагіату. Алгоритм створення системи для виявлення плагіату, в базі якої будуть зберігатися всі лабораторні роботи студентів. Проектування програми: побудова uml-діаграм, видалення коментарів в коді, опис архітектури.
дипломная работа [4,1 M], добавлен 09.06.2012Проблема порушення авторських прав в Інтернеті. Системи та сервіси пошуку плагіату. Захист електронних видань від плагіату в Інтернеті. Алгоритми аналізу, подання і порівняння текстової інформації. Вибір методу пошуку текстових документів з запозиченнями.
магистерская работа [1,0 M], добавлен 14.06.2013Захист електронних платежів у мережі Іntегnеt. Побудова захисту електронних банківських документів. Криптографічний захист інформації. Захист інформації та вирішення питань безпеки у СЕП. Роботи програмно-технічних комплексів в інформаційній мережі.
контрольная работа [293,9 K], добавлен 26.07.2009Аналіз відомих підходів до проектування баз даних. Ієрархічна, мережева та реляційна моделі представлення даних, їх особливості. Концептуальне проектування: приклад документів, побудова ER-діаграми, модель "сутність-зв'язок". Побудова фізичної моделі.
курсовая работа [541,5 K], добавлен 29.01.2013Сучасні методи стеганографії. Атака з вибором контейнера. Методи стегоаналізу цифрових зображень. Розробка програмних засобів виявлення наявности прихованої інформації в мультимедійних файлах. Алгоритм виявлення прихованої інформації в BMP форматах.
курсовая работа [1,9 M], добавлен 10.12.2012Вивчення технології та принципів індексування, яке забезпечує групування документів відповідно до їх тематики і галузі знання. Аналіз таких видів індексування як систематизація, предметизація, координатне індексування. Транспортні ресурси мережі Інтернет.
реферат [24,5 K], добавлен 26.10.2010Порядок створення нового документа в текстовому редакторі. Виділення окремих елементів документу( слова, рядка, тощо). Використання програми Блокнот. Переваги редактора Google Documents. Значення та можливості створення документів та текстових редакторів.
презентация [434,9 K], добавлен 17.05.2019Структура сучасних систем виявлення вторгнень (СВВ), аналіз її методів і моделей. Характеристика основних напрямків розпізнавання порушень безпеки захищених систем в сучасних СВВ. Перелік недоліків існуючих СВВ та обґрунтування напрямків їх вдосконалення.
реферат [467,9 K], добавлен 12.03.2010Огляд і архітектура обчислювальних мереж, переваги їх використання та обґрунтування вибору. Пошук несправностей в мережах на базі операційної системи Windows, виявлення причин. Особливості методів захисту від несанкціонованого доступу в мережі TCP/IP.
курсовая работа [2,8 M], добавлен 28.01.2011Гіпертекст як розширений текст з елементами: ілюстрації, посилання, вставні об'єкти. Гіперпосилання та його вигляд. Поняття web-документу та web-сайту. Призначення програми-браузера. Мова розмітки гіпертексту - НТМL. Створення гіпертекстових документів.
презентация [266,1 K], добавлен 21.11.2014