Pretraga
  | 
 
eportfelj bi

ePortfelj BI – Problem “Outlier”-a i odabir analitičkih modela

Ovaj članak opisuje problem Outliera koji se često pojavljuje u BI istraživanjima pa tako i u ovom slučaju. Također, dan je kratki osvrt na analitičke modele koji su korišteni.
Kontakt: mvelic@ifnet.hr

Problem „Outlier“-a

eportfeljBI
Slika 1. Prikaz korelacije regresijskog modela
i reziduala kao rezultat neuronske mreže
nad originalnim setom podataka

Kod obrade podataka metodama rudarenja podacima „Outlier“-i[1] , u slobodnom prijevodu stršeće vrijednosti, ne smiju se olako odbacivati iz seta podataka bez da dobro promislimo što zapravo želimo s podacima, koji nam je cilj analize i što nam ti outlier-i zapravo govore (primjerice, outlier može ukazivati na zloupotrebu kreditne kartice – odstupanje od ustaljenog obrasca ponašanja/potrošnje ili npr. na infekciju dialerom, ako promatramo ispise telefonskih računa). Kako je u ovom slučaju autor rada dobro upoznat s podacima i problematikom te na vjerojatnost pogreške u nekim podacima, obzirom na automatski način rada sustava ePortfelj koji je izvor podataka za ovu analizu, outlier vrijednosti koje uvelike odskaču od prosjeka su uklonjene te su u nastavku prikazan i razlozi.


Na slici 1 vidimo da je regresijski model (rezultat neuronske mreže nad kontinuiranim vrijednostima) za određene slučajeve pogrešno predvidio vrijednosti promjene fonda i da su reziduali (pogreške) na nekim mjestima veoma veliki. Ostatak regresijskog modela na ovakvom prikazu je praktički nemoguće analizirati obzirom na veliku udaljenost outlier vrijednosti prikazano na ovakvoj linearnoj skali. Skala bi se mogla transformirati u npr. logaritamsku no u ovom slučaju to nije potrebno već se pristupilo uklanjanju outlier vrijednosti te analizi rezultata, a niz je prikazan na sljedećim slikama 2 i 3.

eportfeljBI
Slika 2. Prikaz korelacije regresijskog modela
i reziduala kao rezultat neuronske mreže
nad korigiranim setom podataka

eportfeljBI
Slika 3. Prikaz korelacije regresijskog modela
i reziduala kao rezultat neuronske mreže nad
drugi put korigiranim setom podataka

eportfeljBI
Slika 4. Prikaz korelacije regresijskog modela
i reziduala kao rezultat neuronske mreže nad
treći put korigiranim setom podataka


Slika 4 prikazuje regresijski model nakon treće korekcije u kojoj je eksperimentalno ostavljeno nekoliko outlier vrijednosti za jedan određeni investicijski fond. Rezultat je veoma zanimljiv, naime na slici su vidljivi „otoci“ i kod regresijskog modela i kod prikaza reziduala. Kada se na grafikonu izvrši selekcija nad ovim „otocima“, u originalnom setu podataka selektirani su redovi tog jednog fonda za koji su postojale outlier vrijednosti. Prema tome se može zaključiti kako su outlier vrijednosti u ovom slučaju „odvukle“ regresijski model za taj određeni fond te uzrokuju loša predviđanja.

Ovakvi grafovi mogu biti i rezultat nedovoljne utreniranosti neuronske mreže, a ne samo outlier-a te je stoga kod tumačenja ovakvih prikaza potreban oprez, a nije zgorega ni poneka dodatna provjera u vidu ponovljenih analiza, dubljeg pogleda u parametre modela, no o tome će više riječi biti u narednim člancima koji će opisivati pojedine modele.

Odabir modela

Prilikom razmatranja modela kojim će se pokušati potvrditi hipoteze, u obzir je uzeto nekoliko karakteristika podataka, ali i samog problema. Problem je klasifikacijski, obzirom da se nastoji potvrditi veza između vrste fonda, ulaganja u RH te kretanja postotne promjene vrijednosti CROBEX-a na postotne promjene cijene udjela fonda.


Obzirom na navedeno, kao temeljna metoda rudarenja podataka u ovoj analizi korištene su neuronske mreže koje su u praksi potvrđene kao dobar alat za klasifikacijske probleme. Neuronske mreže kreirane su u programskom alatu SAS JMP 7. Kasnije su u alatu Microsoft BI Development Studio odrađene i analize nekim drugim metodama za usporedbu rezultata te u programskom alatu GeNIe model Bayesove mreže kojim je također ispitana korelacija.


Kako je za očekivati da će biti veoma teško napraviti precizan predikcijski model, obzirom na male razlike u relativnim postotnim promjenama i mali broj ulaznih varijabli, to i nije cilj ovog istraživanja.


Analiza nad kontinuiranim vrijednostima učinjena je zbog mogućih preciznijih rezultata koji mogu sugerirati određene korelacije, što će biti vidljivo u sljedećem članku kada ćemo prikazati dobiveni „Surface plot“ kao rezultat analize neuronskom mrežom. Analiza neuronskom mrežom nad diskretnim vrijednostima omogućila je kvalitetne rezultate u obliku „Profiler“ grafikona koji jasno pokazuju na uočene korelacije među ispitivanim varijablama što će biti prikazano u narednim člancima.

________________________

[1] Outlier – u dosovnom prijevodu s engleskog – nepodobni član grupe, u kontekstu statističke analize podataka podrazumijeva vrijednost koja značajno odstupa od srednjih vrijednosti promatrane populacije. Može se raditi o anomaliji unutar promatrane populacije ili o pogrešci u podacima