Âûáîð ìåòðèêè ðàññòîÿíèÿ äëÿ k-NN êëàññèôèêàòîðà

Õàðàêòåðèñòèêà ðàçëè÷íûõ âèäîâ ìåòðèê. Ìåòîä áëèæàéøèõ ñîñåäåé è åãî îáîáùåíèÿ. Àëãîðèòì áëèæàéøåãî ñîñåäà. Ìåòîä ïàðçåíîâñêîãî îêíà. Îáîáùåííûé ìåòðè÷åñêèé êëàññèôèêàòîð. Ïðîáëåìà âûáîðà ìåòðèêè. Ìàíõýòòåíñêîå è ýâêëèäîâî ðàññòîÿíèå. Êîñèíóñíàÿ ìåðà.

Ðóáðèêà Ýêîíîìèêî-ìàòåìàòè÷åñêîå ìîäåëèðîâàíèå
Âèä êóðñîâàÿ ðàáîòà
ßçûê ðóññêèé
Äàòà äîáàâëåíèÿ 08.03.2015
Ðàçìåð ôàéëà 319,2 K

Îòïðàâèòü ñâîþ õîðîøóþ ðàáîòó â áàçó çíàíèé ïðîñòî. Èñïîëüçóéòå ôîðìó, ðàñïîëîæåííóþ íèæå

Ñòóäåíòû, àñïèðàíòû, ìîëîäûå ó÷åíûå, èñïîëüçóþùèå áàçó çíàíèé â ñâîåé ó÷åáå è ðàáîòå, áóäóò âàì î÷åíü áëàãîäàðíû.

Ðàçìåùåíî íà http://www.allbest.ru/

ÂÂÅÄÅÍÈÅ

Âî ìíîãèõ ïðèêëàäíûõ çàäà÷àõ èçìåðÿòü ñòåïåíü ñõîäñòâà îáúåêòîâ ñóùåñòâåííî ïðîùå, ÷åì ôîðìèðîâàòü ïðèçíàêîâûå îïèñàíèÿ. Íàïðèìåð, ãîðàçäî ëåã÷å ñðàâíèòü äâå ôîòîãðàôèè è ñêàçàòü, ÷òî îíè ïðèíàäëåæàò îäíîìó ÷åëîâåêó, ÷åì ïîíÿòü, íà îñíîâàíèè êàêèõ ïðèçíàêîâ îíè ñõîæè. Òàêèå ñèòóàöèè ÷àñòî âîçíèêàþò ïðè ðàñïîçíàâàíèè èçîáðàæåíèé, âðåìåííûõ ðÿäîâ èëè ñèìâîëüíûõ ïîñëåäîâàòåëüíîñòåé.

Îíè õàðàêòåðèçóþòñÿ òåì, ÷òî «ñûðûå» èñõîäíûå äàííûå íå ãîäÿòñÿ â êà÷åñòâå ïðèçíàêîâûõ îïèñàíèé, íî â òî æå âðåìÿ, ñóùåñòâóþò ýôôåêòèâíûå è ñîäåðæàòåëüíî îáîñíîâàííûå ñïîñîáû îöåíèòü ñòåïåíü ñõîäñòâà ëþáîé ïàðû «ñûðûõ» îïèñàíèé. Åñòü åù¸ îäíà õàðàêòåðíàÿ îñîáåííîñòü ýòèõ çàäà÷. Åñëè ìåðà ñõîäñòâà ââåäåíà äîñòàòî÷íî óäà÷íî, òî îêàçûâàåòñÿ, ÷òî ñõîæèì îáúåêòàì, êàê ïðàâèëî, ñîîòâåòñòâóþò ñõîæèå îòâåòû.  çàäà÷àõ êëàññèôèêàöèè ýòî îçíà÷àåò, ÷òî ñõîæèå îáúåêòû ãîðàçäî ÷àùå ëåæàò â îäíîì êëàññå, ÷åì â ðàçíûõ. Åñëè çàäà÷à â ïðèíöèïå ïîääà¸òñÿ ðåøåíèþ, òî ãðàíèöà ìåæäó êëàññàìè íå ìîæåò «ïðîõîäèòü ïîâñþäó»; êëàññû îáðàçóþò êîìïàêòíî ëîêàëèçîâàííûå ïîäìíîæåñòâà â ïðîñòðàíñòâå îáúåêòîâ. Ýòî ïðåäïîëîæåíèå ïðèíÿòî íàçûâàòü ãèïîòåçîé êîìïàêòíîñòè.

Äëÿ ôîðìàëèçàöèè ïîíÿòèÿ «ñõîäñòâà» ââîäèòñÿ ôóíêöèÿ ðàññòîÿíèÿ èëè ìåòðèêà ñ(x, x?) â ïðîñòðàíñòâå îáúåêòîâ X. Àëãîðèòìû, îñíîâàííûå íà àíàëèçå ñõîäñòâà îáúåêòîâ, ÷àñòî íàçûâàþò ìåòðè÷åñêèìè, äàæå â òåõ ñëó÷àÿõ, êîãäà ôóíêöèÿ ñ íå óäîâëåòâîðÿåò âñåì àêñèîìàì ìåòðèêè (íàïðèìåð, àêñèîìå òðåóãîëüíèêà).

Ðàçëè÷íûå ìåòðè÷åñêèå àëãîðèòìû êëàññèôèêàöèè ðàññìàòðèâàþòñÿ â.

Îñíîâíîé âîïðîñ -- îòêóäà áåð¸òñÿ ìåòðèêà, è êàê ñòðîèòü «õîðîøèå» ìåòðèêè â êîíêðåòíûõ çàäà÷àõ.  âûâîäÿòñÿ îöåíêè îáîáùàþùåé ñïîñîáíîñòè ìåòðè÷åñêèõ àëãîðèòìîâ, è íà èõ îñíîâå ñòðîèòñÿ åù¸ íåñêîëüêî ýôôåêòèâíûõ àëãîðèòìîâ.

1. ÖÅËÜ ÐÀÁÎÒÛ

Öåëüþ ðàáîòû ÿâëÿåòñÿ, îçíàêîìèòüñÿ ñ ðàçëè÷íûìè ìåòðèêàìè, èçó÷èòü èõ âëèÿíèå íà ðåçóëüòàò. Èññëåäîâàòü äëÿ êàêèõ çàäà÷ èñïîëüçóþòñÿ îïðåäåëåííûå ìåòðèêè.

Òàê æå ïðîäåìîíñòðèðîâàòü íà ïðèìåðàõ èñïîëüçîâàíèå ðàçëè÷íûõ ìåòðèê.

2. ÀÍÀËÈÇ ÏÐÅÄÌÅÒÍÎÉ ÎÁËÀÑÒÈ

Íàïîìíèì îñíîâíûå îáîçíà÷åíèÿ è ïîñòàíîâêó çàäà÷è êëàññèôèêàöèè.

Èìååòñÿ ïðîñòðàíñòâî îáúåêòîâ X è êîíå÷íîå ìíîæåñòâî èì¸í êëàññîâ Y. Íà ìíîæåñòâå X çàäàíà ôóíêöèÿ ðàññòîÿíèÿ ñ: X ×X > [0,?). Ñóùåñòâóåò öåëåâàÿ çàâèñèìîñòü y?: X > Y, çíà÷åíèÿ êîòîðîé èçâåñòíû òîëüêî íà îáúåêòàõ îáó÷àþùåé âûáîðêè X? = (xi, yi)? i=1, yi = y?(xi). Òðåáóåòñÿ ïîñòðîèòü àëãîðèòì êëàññèôèêàöèè a: X > Y, àïïðîêñèìèðóþùèé öåëåâóþ çàâèñèìîñòü y?(x) íà âñ¸ì ìíîæåñòâå X.

2.1 Ìåòîä áëèæàéøèõ ñîñåäåé è åãî îáîáùåíèÿ

Äëÿ ïðîèçâîëüíîãî îáúåêòà u ? X ðàñïîëîæèì ýëåìåíòû îáó÷àþùåé âûáîðêè x1,..., x? â ïîðÿäêå âîçðàñòàíèÿ ðàññòîÿíèé äî u:

ñ(u, x1,u) ? ñ(u, x2,u) ? · · · ? ñ(u, x?,u)(2.1)

ãäå ÷åðåç xi,u îáîçíà÷àåòñÿ i-é ñîñåä îáúåêòà u. Àíàëîãè÷íîå îáîçíà÷åíèå ââåä¸ì è äëÿ îòâåòà íà i-ì ñîñåäå: yi,u = y?(xi,u). Êàæäûé îáúåêò u ? X ïîðîæäàåò ñâîþ ïåðåíóìåðàöèþ âûáîðêè x1,u,..., x?,u.

2.2 Àëãîðèòì áëèæàéøåãî ñîñåäà

Nearest neighbor, NN ÿâëÿåòñÿ ñàìûì ïðîñòûì àëãîðèòìîì êëàññèôèêàöèè. Îí îòíîñèò êëàññèôèöèðóåìûé îáúåêò u ? X? ê òîìó êëàññó, êîòîðîìó ïðèíàäëåæèò áëèæàéøèé îáó÷àþùèé îáúåêò:

a(u; X?) = y1,u(2.2)

Îáó÷åíèå NN ñâîäèòñÿ ê ýëåìåíòàðíîìó çàïîìèíàíèþ âûáîðêè X?. Åäèíñòâåííîå äîñòîèíñòâî ýòîãî àëãîðèòìà -- ïðîñòîòà ðåàëèçàöèè. Íåäîñòàòêîâ ãîðàçäî áîëüøå:

a) íåóñòîé÷èâîñòü ê ïîãðåøíîñòÿì. Åñëè ñðåäè îáó÷àþùèõ îáúåêòîâ åñòü âûáðîñ -- îáúåêò, íàõîäÿùèéñÿ â îêðóæåíèè îáúåêòîâ ÷óæîãî êëàññà, òî íå òîëüêî îí ñàì áóäåò êëàññèôèöèðîâàí íåâåðíî, íî è îêðóæàþùèå åãî îáúåêòû, äëÿ êîòîðûõ îí îêàæåòñÿ áëèæàéøèì, òàêæå áóäóò êëàññèôèöèðîâàíû íåâåðíî;

b) îòñóòñòâèå ïàðàìåòðîâ, êîòîðûå ìîæíî áûëî áû íàñòðàèâàòü ïî âûáîðêå. Àëãîðèòì ïîëíîñòüþ çàâèñèò îò òîãî, íàñêîëüêî óäà÷íî âûáðàíà ìåòðèêà ñ;

c) â ðåçóëüòàòå -- íèçêîå êà÷åñòâî êëàññèôèêàöèè.

2.3 Àëãîðèòì k áëèæàéøèõ ñîñåäåé

K nearest neighbors, kNN. ×òîáû ñãëàäèòü øóìîâîå âëèÿíèå âûáðîñîâ, áóäåì êëàññèôèöèðîâàòü îáúåêòû ïóò¸ì ãîëîñîâàíèÿ ïî k áëèæàéøèì ñîñåäÿì. Êàæäûé èç ñîñåäåé xi,u, i = 1,..., k ãîëîñóåò çà îòíåñåíèå îáúåêòà u ê ñâîåìó êëàññó yi,u. Àëãîðèòì îòíîñèò îáúåêò u ê òîìó êëàññó, êîòîðûéíàáåð¸ò áîëüøåå ÷èñëî ãîëîñîâ:

a(u; X?, k) = arg (2.3)

Ïðè k = 1 ýòîò àëãîðèòì ñîâïàäàåò ñ ïðåäûäóùèì, ñëåäîâàòåëüíî, íåóñòîé÷èâ ê øóìó. Ïðè k = ?, íàîáîðîò, îí ÷ðåçìåðíî óñòîé÷èâ è âûðîæäàåòñÿ â êîíñòàíòó.

Òàêèì îáðàçîì, êðàéíèå çíà÷åíèÿ k íåæåëàòåëüíû. Íà ïðàêòèêå îïòèìàëüíîå çíà÷åíèå ïàðàìåòðà k îïðåäåëÿþò ïî êðèòåðèþ ñêîëüçÿùåãî êîíòðîëÿ ñ èñêëþ÷åíèåì îáúåêòîâ ïî îäíîìó (leave-one-out, LOO). Äëÿ êàæäîãî îáúåêòà xi ? X? ïðîâåðÿåòñÿ, ïðàâèëüíî ëè îí êëàññèôèöèðóåòñÿ ïî ñâîèì k áëèæàéøèì ñîñåäÿì.

LOO(k, X?) =(2.4)

Åñëè êëàññèôèöèðóåìûé îáúåêò xi íå èñêëþ÷àòü èç îáó÷àþùåé âûáîðêè, òî áëèæàéøèì ñîñåäîì xi âñåãäà áóäåò ñàì xi, è ìèíèìàëüíîå (íóëåâîå) çíà÷åíèå ôóíêöèîíàëà LOO(k) áóäåò äîñòèãàòüñÿ ïðè k = 1. Êàê ïðàâèëî, ôóíêöèîíàë LOO(k) èìååò ÷¸òêî âûðàæåííûé ìèíèìóì.

Íåäîñòàòîê kNN â òîì, ÷òî ìàêñèìàëüíàÿ ñóììà ãîëîñîâ ìîæåò äîñòèãàòüñÿ íà íåñêîëüêèõ êëàññàõ îäíîâðåìåííî.  çàäà÷àõ ñ äâóìÿ êëàññàìè ýòîãî ìîæíî èçáåæàòü, åñëè áðàòü òîëüêî íå÷¸òíûå çíà÷åíèÿ k. Áîëåå îáùàÿ òàêòèêà, êîòîðàÿ ãîäèòñÿ è äëÿ ñëó÷àÿ ìíîãèõ êëàññîâ -- ââåñòè ñòðîãî óáûâàþùóþ ïîñëåäîâàòåëüíîñòü âåùåñòâåííûõ âåñîâ wi, çàäàþùèõ âêëàä i-ãî ñîñåäà â êëàññèôèêàöèþ:

a(u; X?, k) = arg wi(2.5)

Âûáîð ïîñëåäîâàòåëüíîñòè wi ÿâëÿåòñÿ ýâðèñòèêîé. Åñëè âçÿòü ëèíåéíî óáûâàþùèå âåñà wi = , òî íåîäíîçíà÷íîñòè òàêæå ìîãóò âîçíèêàòü, õîòÿ è ðåæå (ïðèìåð: êëàññîâ äâà; ïåðâûé è ÷åòâ¸ðòûé ñîñåä ãîëîñóþò çà êëàññ 1, âòîðîé è òðåòèé -- çà êëàññ 2; ñóììû ãîëîñîâ ñîâïàäàþò). Íåîäíîçíà÷íîñòü óñòðàíÿåòñÿ îêîí÷àòåëüíî, åñëè âçÿòü íåëèíåéíóþ ïîñëåäîâàòåëüíîñòü, ñêàæåì, ãåîìåòðè÷åñêóþ ïðîãðåññèþ: wi = qi, ãäå çíàìåíàòåëü ïðîãðåññèè q ? (0, 1) ÿâëÿåòñÿ ïàðàìåòðîì àëãîðèòìà.

2.4 Ìåòîä ïàðçåíîâñêîãî îêíà

Åù¸ îäèí ñïîñîá çàäàòü âåñà ñîñåäÿì -- îïðåäåëèòü wi êàê ôóíêöèþ îò ðàññòîÿíèÿ ñ(u, xi,u), à íå îò ðàíãà ñîñåäà i. Ââåä¸ì ôóíêöèþ ÿäðà K(z), íåâîçðàñòàþùóþ íà [0,?), è ðàññìîòðèì àëãîðèòì

a(u; X?, h, K) = arg K() (2.6)

Ïàðàìåòð h íàçûâàåòñÿ øèðèíîé îêíà è èãðàåò ïðèìåðíî òó æå ðîëü, ÷òî è ÷èñëî ñîñåäåé k. «Îêíî» -- ýòî ñôåðè÷åñêàÿ îêðåñòíîñòü îáúåêòà u ðàäèóñà h, ïðè ïîïàäàíèè â êîòîðóþ îáó÷àþùåãî îáúåêòà xi îáúåêò u «ïðèòÿãèâàåòñÿ» ê êëàññó yi. Ìû ïðèøëè ê ýòîìó àëãîðèòìó ÷èñòî ýâðèñòè÷åñêèì ïóò¸ì, îäíàêî îí èìååò áîëåå ñòðîãîå îáîñíîâàíèå â áàéåñîâñêîé òåîðèè êëàññèôèêàöèè, è òåñíî ñâÿçàí ñ íåïàðàìåòðè÷åñêèì îöåíèâàíèåì ïëîòíîñòè ðàñïðåäåëåíèÿ ïî Ïàðçåíó-Ðîçåíáëàòòó.

Ïàðàìåòð h ìîæíî çàäàâàòü àïðèîðè èëè îïðåäåëÿòü ïî ñêîëüçÿùåìó êîíòðîëþ. Çàâèñèìîñòü LOO(h), êàê ïðàâèëî, èìååò õàðàêòåðíûé ìèíèìóì, ïîñêîëüêó ñëèøêîì óçêèå îêíà ïðèâîäÿò ê íåóñòîé÷èâîé êëàññèôèêàöèè; à ñëèøêîì øèðîêèå -- ê âûðîæäåíèþ àëãîðèòìà â êîíñòàíòó.

Ôèêñàöèÿ øèðèíû îêíà h íå ïîäõîäèò äëÿ òåõ çàäà÷, â êîòîðûõ îáó÷àþùèå îáúåêòû ñóùåñòâåííî íåðàâíîìåðíî ðàñïðåäåëåíû ïî ïðîñòðàíñòâó X.  îêðåñòíîñòè îäíèõ îáúåêòîâ ìîæåò îêàçûâàòüñÿ î÷åíü ìíîãî ñîñåäåé, à â îêðåñòíîñòè äðóãèõ -- íè îäíîãî.  ýòèõ ñëó÷àÿõ ïðèìåíÿåòñÿ îêíî ïåðåìåííîé øèðèíû. Âîçüì¸ì ôèíèòíîå ÿäðî -- íåâîçðàñòàþùóþ ôóíêöèþ K(z), ïîëîæèòåëüíóþ íà îòðåçêå [0, 1], è ðàâíóþ íóëþ âíå åãî. Îïðåäåëèì h êàê íàèáîëüøåå ÷èñëî, ïðè êîòîðîì ðîâíî k áëèæàéøèõ ñîñåäåé îáúåêòà u ïîëó÷àþò íåíóëåâûå âåñà: h(u) = ñ(u, xk+1,u). Òîãäà àëãîðèòì ïðèíèìàåò âèä

a(u; X?, h, K) = arg K()(2.7)

Âûáîð ÿäðà K ñëàáî âëèÿåò íà êà÷åñòâî êëàññèôèêàöèè.

Íà ïðàêòèêå ÿäðî ëèáî çàäà¸òñÿ àïðèîðè, ëèáî âûáèðàåòñÿ ïî ñêîëüçÿùåìó êîíòðîëþ èç íåñêîëüêèõ ñòàíäàðòíûõ ÿäåð. Ñåé÷àñ îòìåòèì ëèøü òî, ÷òî âûáîð ôèíèòíîãî ÿäðà ïîçâîëÿåò ñâåñòè êëàññèôèêàöèþ îáúåêòà u ê ïîèñêó k åãî áëèæàéøèõ ñîñåäåé, òîãäà êàê ïðè íå ôèíèòíîì ÿäðå òðåáóåòñÿ ïîëíûé ïåðåáîð âñåé îáó÷àþùåé âûáîðêè. Íà ñâåðõáîëüøèõ âûáîðêàõ äàííûõ ïîëíûé ïåðåáîð ìîæåò ïðèâîäèòü ê íåïðèåìëåìûì çàòðàòàì âðåìåíè.

3. ÎÁÎÁÙ¨ÍÍÛÉ ÌÅÒÐÈ×ÅÑÊÈÉ ÊËÀÑÑÈÔÈÊÀÒÎÐ

Îïèñàííûå âûøå àëãîðèòìû êëàññèôèêàöèè ÿâëÿþòñÿ ÷àñòíûìè ñëó÷àÿìè îäíîé îáùåé ôîðìóëû.

Ïóñòü çàäàíà âåñîâàÿ ôóíêöèÿ w(i, u), êîòîðàÿ îöåíèâàåò ñòåïåíü âàæíîñòè i-ãî ñîñåäà äëÿ êëàññèôèêàöèè îáúåêòà u. Åñòåñòâåííî ïîëàãàòü, ÷òî ýòà ôóíêöèÿ íåîòðèöàòåëüíà è íå âîçðàñòàåò ïî i. Ñîãëàñíî ãèïîòåçå êîìïàêòíîñòè ÷åì ìåíüøå i, òåì áëèæå îáúåêòû u è xi,u, òåì âûøå øàíñû, ÷òî îíè ïðèíàäëåæàò îäíîìó êëàññó.

Ìåòðè÷åñêèì àëãîðèòìîì êëàññèôèêàöèè ñ îáó÷àþùåé âûáîðêîé X? áóäåì íàçûâàòü îòîáðàæåíèå âèäà

(3.1)

Àëãîðèòì a îòíîñèò îáúåêò u ê òîìó êëàññó, äëÿ êîòîðîãî ñóììàðíûé âåñ áëèæàéøèõ îáó÷àþùèõ îáúåêòîâ Ãy(u) ? Ãy(u, X?) ìàêñèìàëåí.

Âûáèðàÿ âåñîâóþ ôóíêöèþ w(i, u), ìîæíî ïîëó÷àòü ðàçëè÷íûå òèïû ìåòðè÷åñêèõ àëãîðèòìîâ êëàññèôèêàöèè: w(i, u) = [i = 1] -- áëèæàéøèé ñîñåä;

w(i, u) = [i ? k] -- k áëèæàéøèõ ñîñåäåé;

w(i, u) = [i ? k] qi -- k âçâåøåííûõ áëèæàéøèõ ñîñåäåé;

w(i, u) = K(p(u,xi,u)/h) -- ïàðçåíîâñêîå îêíî ôèêñèðîâàííîé øèðèíû h;w(i, u) = K() -- ïàðçåíîâñêîå îêíî ïåðåìåííîé øèðèíû.

Îáó÷àþùàÿ âûáîðêà X? èãðàåò ðîëü ïàðàìåòðà àëãîðèòìà a. Íàñòðîéêà ñâîäèòñÿ ê çàïîìèíàíèþ âûáîðêè, è, âîçìîæíî, îïòèìèçàöèè åù¸ êàêèõ-òî ïàðàìåòðîâ, îäíàêî ñàìè îáúåêòû íå ïîäâåðãàþòñÿ îáðàáîòêå è ñîõðàíÿþòñÿ «êàê åñòü». Ïî ýòîé ïðè÷èíå ìåòðè÷åñêèå àëãîðèòìû îòíîñÿòñÿ ê ìåòîäàì âûâîäà íà îñíîâå ïðåöåäåíòîâ (case-based reasoning, CBR). Çäåñü äåéñòâèòåëüíî ìîæíî ãîâîðèòü î «âûâîäå», òàê êàê íà âîïðîñ «ïî÷åìó îáúåêò u áûë îòíåñ¸í ê êëàññó y» àëãîðèòì ìîæåò äàòü ïîíÿòíûé ýêñïåðòó îòâåò: «ïîòîìó, ÷òî èìåþòñÿ ïðåöåäåíòû -- ñõîæèå ñ íèì îáúåêòû, ïðèíàäëåæàùèå êëàññó y», è ïðåäúÿâèòü ñïèñîê ýòèõ ïðåöåäåíòîâ.

3.1 Ïîíÿòèå îòñòóïà îáúåêòà

Îáùàÿ ôîðìóëà ïîçâîëÿåò ââåñòè õàðàêòåðèñòèêó îáúåêòîâ, ïîêàçûâàþùóþ, íàñêîëüêî ãëóáîêî îáúåêò ïîãðóæ¸í â ñâîé êëàññ.

Îòñòóïîì (margin) îáúåêòà xi ? X? îòíîñèòåëüíî àëãîðèòìà âèäà

a(u) = arg (3.2)

íàçûâàåòñÿ âåëè÷èíà

M(xi) = (xi) - (xi).(3.3)

Ïîíÿòèå «îòñòóï» ìîæíî òðàêòîâàòü êàê «ðàññòîÿíèå îò îáúåêòà äî ïîâåðõíîñòè, îòäåëÿþùåé ñâîé êëàññ îò âñåõ îñòàëüíûõ». Âåëè÷èíà îòñòóïà ïîêàçûâàåò ñòåïåíü ãðàíè÷íîñòè îáúåêòà.

Îòñòóï M(xi) îòðèöàòåëåí òîãäà è òîëüêî òîãäà, êîãäà àëãîðèòì äîïóñêàåò îøèáêó: a(xi) yi. Áîëüøîé îòðèöàòåëüíûé îòñòóï ñâèäåòåëüñòâóåò î òîì, ÷òî îáúåêò xi îêðóæ¸í îáúåêòàìè ÷óæèõ êëàññîâ -- òàêèå îáúåêòû íàçûâàþò øóìîâûìè èëè âûáðîñàìè. Áîëüøîé ïîëîæèòåëüíûé îòñòóï îçíà÷àåò, ÷òî îáúåêò îêðóæ¸í îáúåêòàìè ñâîåãî êëàññà -- ýòî íàèáîëåå òèïè÷íûå, ýòàëîííûå ïðåäñòàâèòåëè êëàññîâ. Îòñòóï, áëèçêèé ê íóëþ, îçíà÷àåò, ÷òî îáúåêò xi ÿâëÿåòñÿ ïîãðàíè÷íûì -- íà òàêèõ îáúåêòàõ êëàññèôèêàöèÿ íåóñòîé÷èâà â òîì ñìûñëå, ÷òî ìàëûå èçìåíåíèÿ â ñîñòàâå îáó÷àþùåé âûáîðêè ìîãóò ïðèâîäèòü ê îøèáî÷íîé êëàññèôèêàöèè îáúåêòà xi.  âûáîðêàõ èçáûòî÷íî áîëüøîãî îáú¸ìà âûäåëÿåòñÿ ìàññà îáúåêòîâ ñ áîëüøèì ïîëîæèòåëüíûì îòñòóïîì -- ýòî íåèíôîðìàòèâíûå îáúåêòû, êîòîðûå ïðàâèëüíî êëàññèôèöèðóþòñÿ ïî áëèæàéøèì ê íèì ýòàëîíàì è ôàêòè÷åñêè íå íåñóò íèêàêîé íîâîé èíôîðìàöèè. Òàêèì îáðàçîì, ðàñïðåäåëåíèå îòñòóïîâ ïîçâîëÿåò âûäåëèòü ÷åòûðå êàòåãîðèè îáúåêòîâ: øóìîâûå, ïîãðàíè÷íûå, íåèíôîðìàòèâíûå è ýòàëîííûå. Èç íèõ øóìîâûå è íåèíôîðìàòèâíûå öåëåñîîáðàçíî óäàëÿòü èç âûáîðêè.

Ðàñïðåäåëåíèå çíà÷åíèé îòñòóïîâ â âûáîðêå äà¸ò ïîëåçíóþ äîïîëíèòåëüíóþ èíôîðìàöèþ íå òîëüêî îá îòäåëüíûõ îáúåêòàõ, íî è î âûáîðêå â öåëîì. Åñëè îñíîâíàÿ ìàññà îáúåêòîâ èìååò ïîëîæèòåëüíûå îòñòóïû, òî ðàçäåëåíèå âûáîðêè ïðîèçîøëî óñïåøíî. Åñëè æå çíà÷åíèÿ îòñòóïîâ êîíöåíòðèðóþòñÿ âáëèçè íóëÿ, çíà÷èò, ïî÷òè âñå îáúåêòû ÿâëÿþòñÿ ãðàíè÷íûìè, è ãèïîòåçà êîìïàêòíîñòè íå âûïîëíÿåòñÿ. Ýòî îçíà÷àåò, ÷òî â äàííîé çàäà÷å ïðè âûáðàííîé ìåòðèêå ïðèìåíÿòü àëãîðèòìû òèïà kNN áåñïîëåçíî.

3.2 Îòáîð ýòàëîííûõ îáúåêòîâ

Îáû÷íî îáúåêòû îáó÷åíèÿ íå ÿâëÿþòñÿ ðàâíîöåííûìè. Ñðåäè íèõ ìîãóò íàõîäèòüñÿ òèïè÷íûå ïðåäñòàâèòåëè êëàññîâ -- ýòàëîíû. Åñëè êëàññèôèöèðóåìûé îáúåêò áëèçîê ê ýòàëîíó, òî, ñêîðåå âñåãî, îí ïðèíàäëåæèò òîìó æå êëàññó. Åù¸ îäíà êàòåãîðèÿ îáúåêòîâ -- íåèíôîðìàòèâíûå èëè ïåðèôåðèéíûå. Îíè ïëîòíî îêðóæåíû äðóãèìè îáúåêòàìè òîãî æå êëàññà. Åñëè èõ óäàëèòü èç âûáîðêè, ýòî ïðàêòè÷åñêè íå îòðàçèòñÿ íà êà÷åñòâå êëàññèôèêàöèè. Íàêîíåö, â âûáîðêó ìîæåò ïîïàñòü íåêîòîðîå êîëè÷åñòâî øóìîâûõ âûáðîñîâ -- îáúåêòîâ, íàõîäÿùèõñÿ «â ãóùå» ÷óæîãî êëàññà.

Êàê ïðàâèëî, èõ óäàëåíèå òîëüêî óëó÷øàåò êà÷åñòâî êëàññèôèêàöèè.

Ýòè ñîîáðàæåíèÿ ïðèâîäÿò ê èäåå èñêëþ÷èòü èç âûáîðêè øóìîâûå è íåèíôîðìàòèâíûå îáúåêòû, îñòàâèâ òîëüêî ìèíèìàëüíîå äîñòàòî÷íîå êîëè÷åñòâî ýòàëîíîâ. Ýòèì äîñòèãàåòñÿ íåñêîëüêî öåëåé îäíîâðåìåííî -- ïîâûøàåòñÿ êà÷åñòâî êëàññèôèêàöèè, ñîêðàùàåòñÿ îáú¸ì õðàíèìûõ äàííûõ è óìåíüøàåòñÿ âðåìÿ êëàññèôèêàöèè, çàòðà÷èâàåìîå íà ïîèñê áëèæàéøèõ ýòàëîíîâ.

Èäåÿ îòáîðà ýòàëîíîâ ðåàëèçîâàíà â àëãîðèòìå STOLP [3]. Ìû ðàññìîòðèì åãî îáîáù¸ííûé âàðèàíò ñ ïðîèçâîëüíîé âåñîâîé ôóíêöèåé w(i, u). Áóäåì ñòðîèòü ìåòðè÷åñêèé àëãîðèòì a(u; ?) âèäà (1.3), ãäå ? ? X? -- ìíîæåñòâî ýòàëîíîâ.

Îáîçíà÷èì ÷åðåç M(xi, ?) îòñòóï îáúåêòà xi îòíîñèòåëüíî àëãîðèòìà a(xi;?). Áîëüøîé îòðèöàòåëüíûé îòñòóï ñâèäåòåëüñòâóåò î òîì, ÷òî îáúåêò xi îêðóæ¸í îáúåêòàìè ÷óæèõ êëàññîâ, ñëåäîâàòåëüíî, ÿâëÿåòñÿ âûáðîñîì. Áîëüøîé ïîëîæèòåëüíûé îòñòóï îçíà÷àåò, ÷òî îáúåêò îêðóæ¸í îáúåêòàìè ñâîåãî êëàññà, òî åñòü ÿâëÿåòñÿ ëèáî ýòàëîííûì, ëèáî ïåðèôåðèéíûì.

Âõîä:

X? -- îáó÷àþùàÿ âûáîðêà;

ä -- ïîðîã ôèëüòðàöèè âûáðîñîâ;

?0 -- äîïóñòèìàÿ äîëÿ îøèáîê;

Âûõîä:

Ìíîæåñòâî îïîðíûõ îáúåêòîâ ? ? X?;

1: äëÿ âñåõ xi ? X? ïðîâåðèòü, ÿâëÿåòñÿ ëè xi âûáðîñîì:

2: åñëè M(xi, X?) < ä òî

3: X??1:= X? \ {xi}; ? := ? ? 1;

4: Èíèöèàëèçàöèÿ: âçÿòü ïî îäíîìó ýòàëîíó îò êàæäîãî êëàññà:

5: ïîêà ? ?X?;

6: Âûäåëèòü ìíîæåñòâî îáúåêòîâ, íà êîòîðûõ àëãîðèòì a(u; ?) îøèáàåòñÿ:

E := {xi ? X? \ ? : M(xi, ?) < 0};

7: åñëè |E| < ?0 òî

8: âûõîä;

9: Ïðèñîåäèíèòü ê ? îáúåêò ñ íàèìåíüøèì îòñòóïîì:

Àëãîðèòì íà÷èíàåò ñ îòñåâà âûáðîñîâ (øàãè 1-3). Èç âûáîðêè X? èñêëþ÷àþòñÿ âñå îáúåêòû xi ñ îòñòóïîì M(xi, X?), ìåíüøèì çàäàííîãî ïîðîãà ä, íàïðèìåð, ìîæíî ïîëîæèòü ä = 0. Êàê âàðèàíò, ìîæíî èñêëþ÷àòü çàäàííóþ äîëþ îáúåêòîâ ñ íàèìåíüøèìè çíà÷åíèÿìè îòñòóïà.

Çàòåì ôîðìèðóåòñÿ íà÷àëüíîå ïðèáëèæåíèå -- â ? çàíîñèòñÿ ïî îäíîìó íàèáîëåå òèïè÷íîìó ïðåäñòàâèòåëþ îò êàæäîãî êëàññà (øàã 4).

Ïîñëå ýòîãî íà÷èíàåòñÿ ïðîöåññ ïîñëåäîâàòåëüíîãî «æàäíîãî» íàðàùèâàíèÿ ìíîæåñòâà ?. Íà êàæäîì øàãå ê ? ïðèñîåäèíÿåòñÿ îáúåêò xi, èìåþùèé ìèíèìàëüíîå îòðèöàòåëüíîå çíà÷åíèå îòñòóïà. Òàê ïðîäîëæàåòñÿ äî òåõ ïîð, ïîêà ÷èñëî îøèáîê íå îêàæåòñÿ ïðåíåáðåæèìî ìàëûì. Åñëè ïîëîæèòü ?0 = 0, òî áóäåò ïîñòðîåí àëãîðèòì a(u; ?), íå äîïóñêàþùèé îøèáîê íà îáó÷àþùèõ îáúåêòàõ, çà èñêëþ÷åíèåì, ðàçâå ÷òî, îáúåêòîâ âûáðîñîâ.

 ðåçóëüòàòå êàæäûé êëàññ áóäåò ïðåäñòàâëåí â ? îäíèì «öåíòðàëüíûì» ýòàëîííûì îáúåêòîì è ìàññîé «ïîãðàíè÷íûõ» îáúåêòîâ, íà êîòîðûõ îòñòóï ïðèíèìàë íàèìåíüøèå çíà÷åíèÿ â ïðîöåññå èòåðàöèé.

 îïèñàííîì âàðèàíòå àëãîðèòì STOLP èìååò îòíîñèòåëüíî íèçêóþ ýôôåêòèâíîñòü. Äëÿ ïðèñîåäèíåíèÿ î÷åðåäíîãî ýòàëîíà íåîáõîäèìî ïåðåáðàòü ìíîæåñòâî îáúåêòîâ X? \ ?, è äëÿ êàæäîãî âû÷èñëèòü îòñòóï îòíîñèòåëüíî ìíîæåñòâà ýòàëîíîâ ?. Îáùåå ÷èñëî îïåðàöèé ñîñòàâëÿåò O(|?|2?). Äëÿ óñêîðåíèÿ àëãîðèòìà ìîæíî äîáàâëÿòü ñðàçó ïî íåñêîëüêî ýòàëîíîâ, íå ïåðåñ÷èòûâàÿ îòñòóïîâ. Åñëè ïðè ýòîì âûáèðàòü äîáàâëÿåìûå ýòàëîíû äîñòàòî÷íî äàëåêî äðóã îò äðóãà, òî äîáàâëåíèå îäíîãî èç íèõ ïðàêòè÷åñêè íå áóäåò âëèÿòü íà îòñòóïû îñòàëüíûõ. Àíàëîãè÷íî, íà ýòàïå îòñåâà âûáðîñîâ ìîæíî âû÷èñëèòü îòñòóïû òîëüêî îäèí ðàç, è ïîòîì îòáðîñèòü âñå îáúåêòû ñ îòñòóïàìè íèæå ä. Ïðè ïðîãðàììíîé ðåàëèçàöèè èìååò ñìûñë îïðåäåëèòü îòäåëüíóþ ïðîöåäóðó äëÿ îáíîâëåíèÿ çíà÷åíèé âñåõ îòñòóïîâ Mi = M(xi, ?) ïðè òåêóùåì íàáîðå ýòàëîíîâ ?. Òîãäà â ñàìîì àëãîðèòìå ìîæíî áóäåò ãèáêî ïðèíèìàòü ðåøåíèå î òîì, â êàêèå ìîìåíòû âûçûâàòü ýòó ïðîöåäóðó. Ðåàëèçàöèÿ ýòèõ èäåé íå ïîêàçàíà â Àëãîðèòìå, ÷òîáû íå çàãðîìîæäàòü åãî òåõíè÷åñêèìè ïîäðîáíîñòÿìè.

Ðåçóëüòàòîì ðàáîòû àëãîðèòìà STOLP ÿâëÿåòñÿ ðàçáèåíèå îáó÷àþùèõ îáúåêòîâ íà òðè êàòåãîðèè: øóìîâûå, ýòàëîííûå è íåèíôîðìàòèâíûå. Åñëè ãèïîòåçà êîìïàêòíîñòè âåðíà è âûáîðêà äîñòàòî÷íî âåëèêà, òî îñíîâíàÿ ìàññà îáó÷àþùèõ îáúåêòîâ îêàæåòñÿ íåèíôîðìàòèâíîé è áóäåò îòáðîøåíà. Ôàêòè÷åñêè, ýòîò àëãîðèòì âûïîëíÿåò ñæàòèå èñõîäíûõ äàííûõ.

4. ÏÐÎÁËÅÌÀ ÂÛÁÎÐÀ ÌÅÒÐÈÊÈ

Âûáîð ìåòðèêè ñ(x, x?) â ïðîñòðàíñòâå îáúåêòîâ X ÿâëÿåòñÿ ñåðü¸çíîé ïðîáëåìîé â çàäà÷àõ êëàññèôèêàöèè, êëàñòåðèçàöèè è íåïàðàìåòðè÷åñêîé ðåãðåññèè. Ìåòðèêà -- ýòî ìàòåìàòè÷åñêàÿ ìîäåëü ñõîäñòâà îáúåêòîâ, è å¸ âûáîð âî ìíîãèõ ñëó÷àÿõ íå îäíîçíà÷åí.  òî æå âðåìÿ, â áîëüøèíñòâå ìåòðè÷åñêèõ àëãîðèòìîâ ïðåäïîëàãàåòñÿ, ÷òî ìåòðèêà ôèêñèðîâàíà.  ïîñëåäíåå âðåìÿ âñ¸ ÷àùå ïðèìåíÿþòñÿ ìåòîäû, â êîòîðûõ ìåòðèêà íàñòðàèâàåòñÿ ïî îáó÷àþùåé âûáîðêå.

Åñëè îáúåêòû îïèñûâàþòñÿ íàáîðîì ïðèçíàêîâ f1(x),..., fn(x), ïåðâîå, ÷òî ïðèõîäèò â ãîëîâó -- ïðèìåíèòü åâêëèäîâó ìåòðèêó (èìåííî å¸ âñå ïðîõîäèëè â øêîëå):

(4.1)

Ÿ îáîáùåíèåì ÿâëÿåòñÿ âçâåøåííàÿ ìåòðèêà Ìèíêîâñêîãî:

(4.2)

ãäå cj -- âåñà ïðèçíàêîâ, ïîêàçàòåëü ñòåïåíè p ìîæåò ïðèíèìàòü çíà÷åíèÿ îò 1 äî ? âêëþ÷èòåëüíî. Ïðè p = ? èìååì âçâåøåííóþ ðàâíîìåðíóþ ìåòðèêó:

(4.3)

Âåñà ïðèçíàêîâ ÷àñòî çàäàþò èç ñîîáðàæåíèé íîðìèðîâêè: Mj = max i=1,...? |fj(xi)|,cj = M?pj, îäíàêî òàêîé ñïîñîá íå ïîçâîëÿåò ó÷èòûâàòü îòíîñèòåëüíóþ âàæíîñòü (öåííîñòü, èíôîðìàòèâíîñòü) ïðèçíàêîâ, à â ìíîãîìåðíûõ ïðîñòðàíñòâàõ ïðèâîäèò ê ïðîáëåìå «ïðîêëÿòèÿ ðàçìåðíîñòè» (curse of dimensionality) -- ÷åì âûøå ðàçìåðíîñòü ïðîñòðàíñòâà n, òåì áîëåå óñòîé÷èâîé ñòàíîâèòñÿ ñóììà ðàçíîñòåé . Ýòîò ôàêò àíàëîãè÷åí çàêîíó áîëüøèõ ÷èñåë â òåîðèè âåðîÿòíîñòåé. Óâåëè÷åíèå ðàçìåðíîñòè â ïðåäåëå n > ? ïðèâîäèò ê òîìó, ÷òî âñå òî÷êè âûáîðêè ñòàíîâÿòñÿ ïî÷òè îäèíàêîâî äàëåêè äðóã îò äðóãà. Ñòàíîâèòñÿ íåâîçìîæíî âûäåëèòü ëîêàëüíóþ îêðåñòíîñòü îáúåêòà, òåðÿåòñÿ èíôîðìàöèÿ î ñòðóêòóðå ìåòðè÷åñêîãî ïðîñòðàíñòâà. Ýòî ñóùåñòâåííî çàòðóäíÿåò ðåøåíèå çàäà÷ êëàññèôèêàöèè, êëàñòåðèçàöèè è íåïàðàìåòðè÷åñêîé ðåãðåññèè.

Ðåøåíèå çàêëþ÷àåòñÿ â òîì, ÷òîáû ïðèìåíÿòü áîëåå òîíêèå ìåòîäû äëÿ íàñòðîéêè âåñîâ cj. Ïðè÷¸ì â ïðîñòðàíñòâàõ ñ èçáûòî÷íûì êîëè÷åñòâîì ïðèçíàêîâ çíà÷èòåëüíàÿ ÷àñòü âåñîâ äîëæíà îáíóëÿòüñÿ.

5. ÌÀÍÕÝÒÒÅÍÑÊÎÅ ÐÀÑÑÒÎßÍÈÅ

Ðàññòîÿíèå ãîðîäñêèõ êâàðòàëîâ -- ìåòðèêà, ââåä¸ííàÿ Ãåðìàíîì Ìèíêîâñêèì. Ñîãëàñíî ýòîé ìåòðèêå, ðàññòîÿíèå ìåæäó äâóìÿ òî÷êàìè ðàâíî ñóììå ìîäóëåé ðàçíîñòåé èõ êîîðäèíàò.

Ó ýòîé ìåòðèêè ìíîãî èì¸í. Ðàññòîÿíèå ãîðîäñêèõ êâàðòàëîâ òàêæå èçâåñòíî êàê ìàíõýòòåíñêîå ðàññòîÿíèå, ìåòðèêà ïðÿìîóãîëüíîãî ãîðîäà, ìåòðèêà L1 èëè íîðìà ?1, ìåòðèêà ãîðîäñêîãî êâàðòàëà, ìåòðèêà òàêñè, ìåòðèêà Ìàíõýòòåíà, ïðÿìîóãîëüíàÿ ìåòðèêà, ìåòðèêà ïðÿìîãî óãëà; íà Z2 å¸ íàçûâàþò ìåòðèêîé ãðèäû è 4-ìåòðèêîé[1][2][3].

Íàçâàíèå «ìàíõýòòåíñêîå ðàññòîÿíèå» ñâÿçàíî ñ óëè÷íîé ïëàíèðîâêîé Ìàíõýòòåíà[4].

Ðàññòîÿíèå ãîðîäñêèõ êâàðòàëîâ ìåæäó äâóìÿ âåêòîðàìè â n-ìåðíîì âåùåñòâåííîì âåêòîðíîì ïðîñòðàíñòâå ñ çàäàííîé ñèñòåìîé êîîðäèíàò -- ñóììà äëèí ïðîåêöèé îòðåçêà ìåæäó òî÷êàìè íà îñè êîîðäèíàò. Áîëåå ôîðìàëüíî,

(5.1)

è (5.2)

-- âåêòîðû.

Íàïðèìåð, íà ïëîñêîñòè ðàññòîÿíèå ãîðîäñêèõ êâàðòàëîâ ìåæäó è ðàâíî

(5.3)

Ðèñ. 5.1 Îêðóæíîñòè â äèñêðåòíîé è íåïðåðûâíîé ãåîìåòðèè ãîðîäñêèõ êâàðòàëîâ

Ìàíõýòòåíñêîå ðàññòîÿíèå çàâèñèò îò âðàùåíèÿ ñèñòåìû êîîðäèíàò, íî íå çàâèñèò îò îòðàæåíèÿ îòíîñèòåëüíî îñè êîîðäèíàò èëè ïåðåíîñà. Â ãåîìåòðèè, îñíîâàííîé íà ìàíõýòòåíñêîì ðàññòîÿíèè, âûïîëíÿþòñÿ âñå àêñèîìû Ãèëüáåðòà, êðîìå àêñèîìû î êîíãðóýíòíûõ òðåóãîëüíèêàõ.

6. ÊÎÑÈÍÓÑÍÀß ÌÅÐÀ

Ìåðà Îõàè -- áèíàðíàÿ ìåðà ñõîäñòâà, ïðåäëîæåííàÿ Àêèðîé Îõàè â 1957 ãîäó[1].  äàëüíåéøåì áûëà ðàçâèòà Äæ. Áàðêìàíîì[2]. Ôàìèëèÿ àâòîðà êîýôôèöèåíòà â ëèòåðàòóðå ïåðåâîäèëàñü êàê Î÷èàè, Îòèàè è ò. ï.

Ñàì àâòîð (Îõàè) óòâåðæäàåò, ÷òî êîýôôèöèåíò áûë ðàíåå ïðåäëîæåí Îòñóêîé (Otsuka) êàê îòíîøåíèå îáùåãî ÷èñëà ïðèçíàêîâ äâóõ îáúåêòîâ ê ñðåäíåìó ãåîìåòðè÷åñêîìó äâóõ îáúåêòîâ è ïîýòîìó ïðàâèëüíûì áóäåò íàçûâàòü -- êîýôôèöèåíò Îòñóêè-Îõàè[3].

Îõàè íè÷åãî íîâîãî â ýòîò êîýôôèöèåíò íå âí¸ñ è, ïî ñóòè, ÿâëÿåòñÿ åãî ïîïóëÿðèçàòîðîì, íî â ñâîåé ñòàòüå îí íå äàë ññûëêó íà ñòàòüþ ïåðâîíà÷àëüíîãî àâòîðà.

Ýòà ìåðà ñõîäñòâà âñòðå÷àåòñÿ òàêæå ïîä íàçâàíèåì êîñèíóñíûé êîýôôèöèåíò (cosine similarity coefficient, geometric coefficient, en:Fowlkes-Mallows Index):

(6.1)

Äëÿ ñðàâíèâàíèÿ îáúåêòîâ ïî âñòðå÷àåìîñòè âèäîâ (âåðîÿòíîñòíàÿ èíòåðïðåòàöèÿ), òî åñòü ó÷èòûâàþòñÿ âåðîÿòíîñòè âñòðå÷, òî àíàëîãîì ìåðû Îõàè áóäåò êîýôôèöèåíò ñîâìåñòèìîñòè ñîáûòèé:

(6.2)

7. ÝÂÊËÈÄÎÂÎ ÐÀÑÑÒÎßÍÈÅ

ìåòðèêà ìàíõýòòåíñêèé ýâêëèäîâûé ðàññòîÿíèå

 ìàòåìàòèêå Åâêëèäîâà äèñòàíöèÿ èëè Åâêëèäîâà ìåòðèêà -- ãåîìåòðè÷åñêîå ðàññòîÿíèå ìåæäó äâóìÿ òî÷êàìè â ìíîãîìåðíîì ïðîñòðàíñòâå, âû÷èñëÿåìîå ïî òåîðåìå Ïèôàãîðà.

(7.1)

ãäå a è b - òî÷êè â n-ìåðíîì ïðîñòðàíñòâå, i - ïîðÿäêîâûé íîìåð ïðèçíàêà, è - êîîðäèíàòû òî÷åê a è b ïî ïðèçíàêó i.

Ðàññìîòðèì ðàñ÷åò åâêëèäîâà ðàññòîÿíèÿ ìåæäó äâóìÿ òî÷êàìè â ïðîñòðàíñòâå òðåõ èçìåðåíèé Ðèñ 4.1.

(7.2)

Ðèñ 7.1 Ýâêëèäîâî ðàññòîÿíèå â òðåõìåðíîì ïðîñòðàíñòâå

7.1 Âçâåøåííîå ýâêëèäîâî ðàññòîÿíèå. Îïðåäåëåíèå âåñà

Ýòîò ïîäõîä çàêëþ÷àåòñÿ â òîì, ÷òîáû íå îòáèðàòü îáúåêòû æ¸ñòêî, à ïðèñâîèòü êàæäîìó îáó÷àþùåìó îáúåêòó xi íåêîòîðûé íåîòðèöàòåëüíûé âåñ ã(xi). ×åì áîëåå ïîëåçåí îáúåêò äëÿ êëàññèôèêàöèè äðóãèõ îáúåêòîâ, òåì áîëüøå äîëæåí áûòü åãî âåñ.

Îïðåäåëèì âåñîâóþ ôóíêöèþ w(i, u) òàê, ÷òîáû êàæäûé îáúåêò xi ó÷èòûâàëñÿ ñî ñâîèì âåñîì ã(xi):

w(i, u) = ã(xi,u) w˜ (i, u)(7.3)

ãäå ôóíêöèÿ w˜(i, u) íåîòðèöàòåëüíà è íå âîçðàñòàåò ïî i.  ÷àñòíîñòè, ìîæíî ïîëîæèòü w˜(i, u) = 1. Òîãäà âåñ w(i, u) áóäåò çàâèñåòü òîëüêî îò ñàìîãî ñîñåäà xi,u, íî íè îò åãî ðàíãà i, íè îò ðàññòîÿíèÿ ñ(u, xi,u). ×òîáû íàñòðîèòü çíà÷åíèÿ ïàðàìåòðîâ ã(xi) ïî îáó÷àþùåé âûáîðêå, âûïèøåì óñëîâèå êîððåêòíîñòè àëãîðèòìà íà îáúåêòàõ îáó÷åíèÿ:

a(xi) = yi, i = 1,..., ?(7.4)

Èñõîäÿ èç îáùåãî ïðåäñòàâëåíèÿ ìåòðè÷åñêîãî àëãîðèòìà, ëåãêî ñäåëàòü âûâîä, ÷òî ýòà ñèñòåìà èç ? ðàâåíñòâ ðàâíîñèëüíà ñèñòåìå èç ?(|Y| - 1) ëèíåéíûõ íåðàâåíñòâ îòíîñèòåëüíî âåñîâ ã(xi):

(7.5)

ãäå ñóììèðîâàíèå íà÷èíàåòñÿ ñ 2, ÷òîáû ñàì îáúåêò xi íå ïîïàäàë â ÷èñëî ñâîèõ áëèæàéøèõ ñîñåäåé; ìíîæåñòâî T îïðåäåëÿåòñÿ êàê ìíîæåñòâî âñåõ ïàð «íîìåð îáúåêòà -- íîìåð êëàññà, êîòîðîìó îí íå ïðèíàäëåæèò»:

T = {(i, y) | i = 1,..., ?; y ? Y \{yi}}.

Î÷åâèäíî,

|T| = ?(|Y| - 1)(7.6)

Çàïèøåì ñèñòåìó íåðàâåíñòâ â ìàòðè÷íîì âèäå. Ââåä¸ì âåêòîð-ñòîëáåö âåñîâ ã = (ã(x1),…, ã(x?))T. Îïðåäåëèì ìàòðèöó B = (b(i,y)j) ñ |T| ñòðîêàìè è j ñòîëáöàìè. Ñòðîêè áóäåì íóìåðîâàòü ïàðàìè (i, y) èç T. Çàïîëíèì ìàòðèöó B ñëåäóþùèì îáðàçîì. Äëÿ êàæäîé òðîéêè èíäåêñîâ (i, y, s), â êîòîðîé (i, y) ? T, s = 2,..., ?, íàéä¸ì îáúåêò xj = xs,xi, êîòîðûé ÿâëÿåòñÿ s-ì ñîñåäîì îáúåêòà xi. Ïðåäïîëîæèì

b(i,y)j = (7.7)

Òîãäà â ìàòðè÷íîì ïðåäñòàâëåíèè ñèñòåìà íåðàâåíñòâ îòíîñèòåëüíî íåèçâåñòíîãî íåîòðèöàòåëüíîãî âåêòîðà ã ïðèîáðåò¸ò ñîâñåì ïðîñòîé âèä:

Bã > 0; ã ? 0(7.8)

 îáùåì ñëó÷àå ýòà ñèñòåìà íåñîâìåñòíà. Íàðóøåíèå íåðàâåíñòâà, ñîîòâåòñòâóþùåãî ïàðå èíäåêñîâ (i, y), îçíà÷àåò, ÷òî àëãîðèòì a(u) äîïóñêàåò îøèáêó íà îáó÷àþùåì îáúåêòå xi, âûäàâàÿ îòâåò y âìåñòî yi. Ìèíèìèçàöèÿ ÷èñëà îøèáîê íà îáó÷àþùåé âûáîðêå ñâîäèòñÿ ê çàäà÷å ïîèñêà ìàêñèìàëüíîé ñîâìåñòíîé ïîäñèñòåìû â ñèñòåìå íåðàâåíñòâ Bã>0 ïðè îáÿçàòåëüíîì âûïîëíåíèè îãðàíè÷åíèé ã ? 0.

Òàêèì îáðàçîì, çàäà÷à îïðåäåëåíèÿ âåñîâ îáúåêòîâ â ìåòðè÷åñêîì êëàññèôèêàòîðå ñâîäèòñÿ ê ïîñòðîåíèþ ëèíåéíîãî ðàçäåëÿþùåãî ïðàâèëà. Ôàêòè÷åñêè, ýòî íîâàÿ çàäà÷à êëàññèôèêàöèè, â êîòîðîé îáúåêòàìè ÿâëÿþòñÿ âñåâîçìîæíûå ïàðû (i, y) ? T, à ïðèçíàêîâûå îïèñàíèÿ çàäàþòñÿ âåêòîðàìè

(b(i,y)1,..., b(i,y)?)(7.9)

Äëÿ ðåøåíèÿ äàííîé çàäà÷è ïðèìåíèìû ìåòîäû ïîñòðîåíèÿ ëèíåéíîé ðàçäåëÿþùåé ïîâåðõíîñòè ñ íåîòðèöàòåëüíûìè êîýôôèöèåíòàìè, â ÷àñòíîñòè, ìîäèôèêàöèÿ ìåòîäà îïîðíûõ âåêòîðîâ Non-Negative SVM.

 ðåçóëüòàòå ðåøåíèÿ ñèñòåìû íåðàâåíñòâ âåñà íåêîòîðûõ îáúåêòîâ ìîãóò ïðèíÿòü íóëåâûå çíà÷åíèÿ. Îáû÷íî èìè îêàçûâàþòñÿ øóìîâûå âûáðîñû, òîëüêî óõóäøàþùèå êà÷åñòâî êëàññèôèêàöèè. Îáíóëåíèå âåñà ãi îçíà÷àåò, ÷òî îáúåêò xi íå áóäåò ó÷èòûâàòüñÿ ïðè êëàññèôèêàöèè. Òàêèì îáðàçîì, äàííûé àëãîðèòì àâòîìàòè÷åñêè èñêëþ÷àåò âûáðîñû èç îáó÷àþùåé âûáîðêè.

8. ÝÊÑÏÅÐÈÌÅÍÒÀËÜÍÛÅ ÈÑÑËÅÄÎÂÀÍÈß

 êà÷åñòâå ïðèìåðà áûëè èñïîëüçîâàíû âûáîðêè Iris è Wine. Ýòî âûáîðêè ñ ÷èñëîâûìè äàííûìè. Äëÿ èññëåäîâàíèÿ áûë íàïèñàí ïðîãðàììíûé êîä íà ÿçûêå C#, ôóíêöèè ìåòðèê:

// ôóíêöèÿ ñ÷èòàþùàÿ Ýâêëèä ðàññòîÿíèå

static double Evklid(double[] masLearn, double[] mas)

{

double rast = 0;

double sum = 0;

for (int i = 0; i < mas.Length; i++)

{

sum += (masLearn[i] - mas[i]) * (masLearn[i] - mas[i]);

}

rast = Math.Sqrt(sum);

return rast;

}

// ôóíêöèÿ ñ÷èòàþùàÿ Ìàíõýòòåíñêîå ðàññòîÿíèå

static double Manhattan(double[] masLearn, double[] mas)

{

double rast = 0;

for (int i = 0; i < mas.Length; i++)

{

rast += Math.Abs(masLearn[i] - mas[i]);

}

return rast;

}

// Êîñèíóñíîé ìåðû

static double CosMetric(double[] masLearn, double[] mas)

{

double rast = 0;

double znamenat = 0;

double cheslit = 0;

cheslit = (masLearn[0] - mas[0]) * (masLearn[1] - mas[1]) + (masLearn[2] - mas[2]) * (masLearn[3] - mas[3]);

znamenat = Math.Sqrt((Math.Pow(masLearn[0] - mas[0], 2) * Math.Pow(masLearn[1] - mas[1], 2) + Math.Pow(masLearn[2] - mas[2], 2) * Math.Pow(masLearn[3] - mas[3], 2)));

rast = Math.Abs(cheslit) / znamenat;

return rast;

}

// ôóíêöèÿ ñ÷èòàþùàÿ âçûåøåííîå Ýâêëèä ðàññòîÿíèå

static double VzveshEvklid(double[] masLearn, double[] mas)

{

double rast = 0;

double sum = 0;

sum = 0.1 * (masLearn[0] - mas[0]) * (masLearn[0] - mas[0]) + 0.1 * (masLearn[1] - mas[1]) * (masLearn[1] - mas[1]) + 100 * (masLearn[2] - mas[2]) * (masLearn[2] - mas[2]) + 100 * (masLearn[3] - mas[3]) * (masLearn[3] - mas[3]);

rast = Math.Sqrt(sum);

return rast;

}

Ðåçóëüòàò ðàáîòû äëÿ âûáîðêè Iris ïðè k=11

Ðèñ. 8.1 Ñêðèí ïðîãðàììû äëÿ Iris

Ýêñïåðèìåíòíûì ïóòåì ÿ îïðåäåëèë, ÷òî äëÿ k<11 ýâêëèäîâî, âçâåøåííîå ýâêëèäîâî è ìàíõýòòåíñêîå ðàññòîÿíèè äàþò îäèíàêîâûå ðåçóëüòàòû ðàâíûå 97,7777777777778%, ó êîñèíóñíîé ìåðû ïîêàçàòåëè î÷åíü ìàëû. Íî ïðè k11 ðåçóëüòàòû ïåðâûõ òðåõ ìåòðèê ðàçëè÷íû, ó âçâåøåííîãî ýâêëèäîâî è ìàíõýòòåíñêîãî ðàññòîÿíèé ïðîöåíò îñòàåòñÿ òàêèì æå âûñîêèì.

Ðåçóëüòàò ðàáîòû äëÿ âûáîðêè Wine ïðè k=5

Ðèñ. 8.2 Ñêðèí ïðîãðàììû äëÿ Wine

Ó âûáîðêè Wine ðåçóëüòàòû ïåðâûõ òðåõ âûáîðîê íà÷àëè ðàçëè÷àòüñÿ äëÿ ÷èñëà ñîñåäåé k5. Ó êîñèíóñíîé ìåðû ïîêàçàòåëè âñ¸ òàê æå î÷åíü ìàëû.

Òàáëèöà 8.1 ðåçóëüòàòû äëÿ Iris k=11

Íàçâàíèå ìåòðèêè

Òî÷íîñòü

åâêëèäîâî ðàññòîÿíèå

95,5555555555556

âçâåøåííîå Åâêëèäîâî ðàññòîÿíèå

97,7777777777778

êîñèíóñíàÿ ìåðà

31,1111111111111

ìàíõýòòåíñêîå ðàññòîÿíèå

97,7777777777778

Òàáëèöà 8.2 ðåçóëüòàòû äëÿ Wine k=5

Íàçâàíèå ìåòðèêè

Òî÷íîñòü

åâêëèäîâî ðàññòîÿíèå

95,5555555555556

âçâåøåííîå Åâêëèäîâî ðàññòîÿíèå

97,7777777777778

êîñèíóñíàÿ ìåðà

93,3333333333333

ìàíõýòòåíñêîå ðàññòîÿíèå

8,88888888888889

ÂÛÂÎÄÛ

 ïðîöåññå èññëåäîâàíèÿ ÿ ïðèîáðåë íîâûå íàâûêè ðàáîòû ñ êëàññèôèêàòîðîì knn, âûÿâèë òàêîé íåäîñòàòîê - ïðèõîäèòñÿ õðàíèòü îáó÷àþùóþ âûáîðêó öåëèêîì. Ýòî ïðèâîäèò ê íåýôôåêòèâíîìó ðàñõîäó ïàìÿòè è ÷ðåçìåðíîìó óñëîæíåíèþ ðåøàþùåãî ïðàâèëà. Ïðè íàëè÷èè ïîãðåøíîñòåé (êàê â èñõîäíûõ äàííûõ, òàê è â ìîäåëè ñõîäñòâà ñ), ýòî ìîæåò ïðèâîäèòü ê ïîíèæåíèþ òî÷íîñòè êëàññèôèêàöèè âáëèçè ãðàíèöû êëàññîâ. Èìååò ñìûñë îòáèðàòü ìèíèìàëüíîå ïîäìíîæåñòâî îïîðíûõ îáúåêòîâ, äåéñòâèòåëüíî íåîáõîäèìûõ äëÿ êëàññèôèêàöèè. Íî òåì íå ìåíåå íåëüçÿ óïóñêàòü åãî íåîñïîðèìûå äîñòîèíñòâà - ïðîñòîòà ðåàëèçàöèè è âîçìîæíîñòü ââåäåíèÿ ðàçëè÷íûõ ìîäèôèêàöèé.

Òàê æå ÿ óáåäèëñÿ, ÷òî âûáîð ìåòðèêè âåñüìà âàæíûé ïàðàìåòð ïðè êëàññèôèêàöèè ìåòîäîì áëèæàéøèõ ñîñåäåé.

Çàäà÷à âûáîðà ìåòðèêè çàâèñèò îò ðàçëè÷íûõ ôàêòîðîâ, òàêèõ êàê ñïåöèôèêà âûáîðêè, âåñ àòðèáóòîâ è äð.

Äëÿ íàøèõ âûáîðîê îïòèìàëüíîé ìåòðèêàìè áûëà åâêëèäîâî ðàññòîÿíèå, à íàèáîëåå íå ïîäõîäÿùåé - êîñèíóñíàÿ ìåðà.

ÑÏÈÑÎÊ ÑÑÛËÎÊ

1. Àéçåðìàí Ì. À., Áðàâåðìàí Ý. Ì., Ðîçîíîýð Ë. È. Ìåòîä ïîòåíöèàëüíûõ ôóíêöèé â òåîðèè îáó÷åíèÿ ìàøèí. -- Ì.: Íàóêà, 1970. -- P. 320.

2. Âîðîíöîâ Ê. Â. Êîìáèíàòîðíûé ïîäõîä ê îöåíêå êà÷åñòâà îáó÷àåìûõ àëãîðèòìîâ // Ìàòåìàòè÷åñêèå âîïðîñû êèáåðíåòèêè / Ïîä ðåä. Î. Á. Ëóïàíîâ. -- Ì.: Ôèçìàòëèò, 2004. -- Ò. 13. -- Ñ. 5-36.

http:// www.ccas.ru/frc/papers/voron04mpc.pdf.

3. Çàãîðóéêî Í. Ã. Ïðèêëàäíûå ìåòîäû àíàëèçà äàííûõ è çíàíèé. -- Íîâîñèáèðñê: ÈÌ ÑÎ ÐÀÍ, 1999.

4. Mullin M., Sukthankar R. Complete cross-validation for nearest neighbor classi?ers //Proceedings of International Conference on Machine Learning. -- 2000.

5. http:// citeseer.ist.psu.edu/309025.html.

Ðàçìåùåíî íà Allbest.ru


Ïîäîáíûå äîêóìåíòû

  • Ëèíåéíîå ïðîãðàììèðîâàíèå. Ãåîìåòðè÷åñêàÿ èíòåðïðåòàöèÿ è ãðàôè÷åñêèé ìåòîä ðåøåíèÿ ÇËÏ. Ñèìïëåêñíûé ìåòîä ðåøåíèÿ ÇËÏ. Ìåòîä èñêóññòâåííîãî áàçèñà. Àëãîðèòì ìåòîäà ìèíèìàëüíîãî ýëåìåíòà. Àëãîðèòì ìåòîäà ïîòåíöèàëîâ. Ìåòîä Ãîìîðè. Àëãîðèòì ìåòîäà Ôîãåëÿ.

    ðåôåðàò [109,3 K], äîáàâëåí 03.02.2009

  • Ýôôåêòèâíîñòü ëèíåéíîé íåñìåùåííîé îöåíêè âåêòîðà äëÿ îáîáùåííîé ðåãðåññèîííîé ìîäåëè, òåîðåìà Àéòêåíà. Îáîáùåííûé ìåòîä íàèìåíüøèõ êâàäðàòîâ. Ïðåîáðàçîâàíèÿ Ôóðüå, èõ ïðèìåíåíèå; ðàçëîæåíèå âðåìåííîãî ðÿäà. Ðÿäû Ôóðüå, ìíîãîìåðíûå ïðåîáðàçîâàíèÿ.

    ðåôåðàò [345,4 K], äîáàâëåí 09.05.2012

  • Ñóòü ýêîíîìåòðèêè êàê íàó÷íîé äèñöèïëèíû, åå ïðåäìåò è ìåòîä. Ïàðíàÿ è ìíîæåñòâåííàÿ ðåãðåññèÿ â ýêîíîìè÷åñêèõ èññëåäîâàíèÿõ. Ðåãðåññèîííûå ìîäåëè ñ ïåðåìåííîé ñòðóêòóðîé. Îáîáùåííûé ìåòîä íàèìåíüøèõ êâàäðàòîâ. Àíàëèç ñèñòåì ýêîíîìè÷åñêèõ óðàâíåíèé.

    ðåôåðàò [279,2 K], äîáàâëåí 11.09.2013

  • Ñâÿçü ñòîõàñòè÷åñêèõ ïðîöåññîâ è äèôôåðåíöèàëüíûõ óðàâíåíèé. Àëãîðèòì Áþôôîíà äëÿ îïðåäåëåíèÿ ÷èñëà Ïè. Ãåîìåòðè÷åñêèé àëãîðèòì Ìîíòå-Êàðëî èíòåãðèðîâàíèÿ. Ïðèìåíåíèå ìåòîäà Ìîíòå-Êàðëî â ëîãèñòèêå. Àëãîðèòì Ìåòðîïîëèñà, êâàíòîâûé ìåòîä Ìîíòå-Êàðëî.

    êóðñîâàÿ ðàáîòà [258,0 K], äîáàâëåí 26.12.2013

  • Òðåóãîëüíîå íå÷åòêîå ÷èñëî ñ öåíòðîì â òî÷êå. Íàèáîëåå âàæíûå íå÷åòêèå èìïëèêàöèè. Ïîèñê íà ìíîæåñòâå âåêòîðíûõ îöåíîê îòíîøåíèÿ ýêâèâàëåíòíîñòè, êîòîðîå îäíîçíà÷íî îïðåäåëÿåò èñêîìîå ðàçáèåíèå. Ôîðìèðîâàíèå áàçû ïðàâèë äëÿ íå÷åòêîãî êëàññèôèêàòîðà.

    êóðñîâàÿ ðàáîòà [1,9 M], äîáàâëåí 11.04.2014

  • Ïðîáëåìà àâòîìàòèçàöèè ðàñ÷¸òà ñåòåâîãî ãðàôèêà. Âû÷èñëåíèå êðèòè÷åñêîãî ïóòè ñ ïîìîùüþ ÝÂÌ. Òàáëè÷íûé ìåòîä ðåøåíèÿ ïðîáëåìû, ìåòîä ãðàôîâ. Ñîñòàâëåíèå àëãîðèòìà, íàïèñàíèå ïðîãðàììû è ðåøåíèå çàäà÷è. ãðàôè÷åñêèé èíòåðôåéñ ïîëüçîâàòåëÿ, ââîä äàííûõ.

    êóðñîâàÿ ðàáîòà [39,7 K], äîáàâëåí 20.11.2008

  • Ìåòà êëàñòåðíîãî àíàë³çó: ïîíÿòòÿ, àëãîðèòì, çàâäàííÿ. Ãîëîâí³ îñîáëèâîñò³ ïðîöåäóðè Ìàê-ʳíà. Ãðàô³ê ñåðåäí³õ çíà÷åíü çà òðüîìà êëàñòåðàìè. Ìåòîä Ê-ìåòîä³â, ïåðåâàãè òà íåäîë³êè âèêîðèñòàííÿ. Ïîíÿòòÿ ïðî ñ³òêîâ³ àëãîðèòìè êëàñòåðèçàö³¿ (grid-based).

    ðåôåðàò [238,3 K], äîáàâëåí 27.05.2013

  • Ãðàôè÷åñêèé ìåòîä ðåøåíèÿ çàäà÷è îïòèìèçàöèè ïðîèçâîäñòâåííûõ ïðîöåññîâ. Ïðèìåíåíèå ñèìïëåêñ-àëãîðèòìà äëÿ ðåøåíèÿ ýêîíîìè÷åñêîé îïòèìèçèðîâàííîé çàäà÷è óïðàâëåíèÿ ïðîèçâîäñòâîì. Ìåòîä äèíàìè÷åñêîãî ïðîãðàììèðîâàíèÿ äëÿ âûáîðà îïòèìàëüíîãî ïðîôèëÿ ïóòè.

    êîíòðîëüíàÿ ðàáîòà [158,7 K], äîáàâëåí 15.10.2010

  • Àíàëèç è îïèñàíèå ðàçëè÷íûõ ïîäõîäîâ ê îïðåäåëåíèþ âåðîÿòíîñòè. Ïðèìåðû ñòîõàñòè÷åñêèõ çàâèñèìîñòåé â ýêîíîìèêå, èõ îñîáåííîñòè è òåîðåòèêî-âåðîÿòíîñòíûå ñïîñîáû èõ èçó÷åíèÿ. Êëàññèôèêàöèÿ è õàðàêòåðèñòèêà îñíîâíûõ ýòàïîâ ýêîíîìåòðè÷åñêîãî èññëåäîâàíèÿ.

    ðåôåðàò [25,1 K], äîáàâëåí 16.04.2009

  • Î÷åâèäíîå íà÷àëüíîå îïîðíîå ðåøåíèå. Ñèìïëåêñíûé ìåòîä ñ åñòåñòâåííûì áàçèñîì. Ãðàôè÷åñêèé ìåòîä ðåøåíèÿ çàäà÷ ëèíåéíîãî ïðîãðàììèðîâàíèÿ. Äâîéñòâåííàÿ çàäà÷à, åå îïòèìàëüíîå ðåøåíèå. Ìàòðèöà êîýôôèöèåíòîâ çàòðàò. Ïîëíàÿ ñõåìà ìåæîòðàñëåâîãî áàëàíñà.

    êîíòðîëüíàÿ ðàáîòà [89,6 K], äîáàâëåí 30.04.2009

Ðàáîòû â àðõèâàõ êðàñèâî îôîðìëåíû ñîãëàñíî òðåáîâàíèÿì ÂÓÇîâ è ñîäåðæàò ðèñóíêè, äèàãðàììû, ôîðìóëû è ò.ä.
PPT, PPTX è PDF-ôàéëû ïðåäñòàâëåíû òîëüêî â àðõèâàõ.
Ðåêîìåíäóåì ñêà÷àòü ðàáîòó.