Adatbányászati feladatok megoldása során gyakran tranzakciós adatokkal dolgozunk. A tranzakciós adatok a cégek ügyfelei által végzett vásárlás-, hívásadatokat vagy éppen pénzforgalmak főbb adatait jelentik – alkalmazási területtől függően. Ilyen tranzakciós adatbázisokon előzetes adatfeldolgozásra lehet szükség ahhoz, hogy kinyerjük az egyes ügyfelekre/termékekre vonatkozó összesített információkat, mert osztályozás csak úgy valósítható meg, ha minden osztályba sorolandó objektumról (például ügyfél, termék) egyetlen sornyi adattal rendelkezünk.
Az összesített információk kinyerésének egy lehetséges, és gyakran használt módszere az aggregáló műveletek használata. A lehetséges aggregáló műveletek széles köre és a változók számossága miatt azonban az aggregáló műveletek alkalmazásakor sok új változó születik, ami már átláthatatlan egy adatbányászati elemzés során, így ahhoz, hogy pontos modellt tudjunk építeni, felmerül annak az igénye, hogy a célváltozó szempontjából fontos attribútumokat kiválogassuk.A feladat – amelynek kapcsán ismertetem az előfeldolgozási lépéseket – osztályozási feladat elvégzése egy banki adatbázison. A cél annak meghatározása, hogy előreláthatólag mely ügyfelek fogják visszafizetni hitelüket, illetve mely ügyfelek nem.
Dolgozatomban kitérek lehetséges aggregáló műveletek felsorolására, majd meghatározom azon aggregáló műveletek körét, amelyeket tranzakciós adatbázison alkalmazva általános információkkal szolgálnak a viselkedés leírására. (A célváltozó gyakran az ügyfél viselkedésével van összefüggésben.) Amennyiben ezen aggregáló műveleteket automatikusan végezzük el a tranzakciós adatokra, meglehetősen megnő az új változók száma, ezért szükség van a fontos változók kiválogatására. Ennek kapcsán ismertetem az aggregáló műveletekkel kapott attribútumok közül a fontos attribútumok kiválogatásának módszereit statisztikai és adatbányászati szempontból. Végül a fontos változók modellek közti stabilitását vizsgálom, hogy a célváltozó szempontjából fontos változók mely modellek számára fontosak az elemzés során. Ezt a problémát a logisztikus regresszió, a neurális háló és a C5.0 döntési fa esetén vizsgálom meg.
A célom, hogy az előfeldolgozás által minél pontosabb osztályozást lehessen az adatokon elvégezni. A dolgozat célja tehát ismertetni azokat az előfeldolgozási lépéseket, amelyek szükségesek egy tranzakciós adatbázison az elemzés elvégzéséhez.


Szólj hozzá!